{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 1000,
  "global_step": 480000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.0833333333333333e-05,
      "grad_norm": 7.369266510009766,
      "learning_rate": 1.4999999999999998e-06,
      "loss": 3.9784,
      "step": 10
    },
    {
      "epoch": 4.1666666666666665e-05,
      "grad_norm": 6.514930248260498,
      "learning_rate": 2.9999999999999997e-06,
      "loss": 4.0876,
      "step": 20
    },
    {
      "epoch": 6.25e-05,
      "grad_norm": 6.609025001525879,
      "learning_rate": 4.499999999999999e-06,
      "loss": 4.1488,
      "step": 30
    },
    {
      "epoch": 8.333333333333333e-05,
      "grad_norm": 6.772834300994873,
      "learning_rate": 5.999999999999999e-06,
      "loss": 3.8901,
      "step": 40
    },
    {
      "epoch": 0.00010416666666666667,
      "grad_norm": 7.126350402832031,
      "learning_rate": 7.499999999999999e-06,
      "loss": 4.0864,
      "step": 50
    },
    {
      "epoch": 0.000125,
      "grad_norm": 6.566469192504883,
      "learning_rate": 8.999999999999999e-06,
      "loss": 4.1959,
      "step": 60
    },
    {
      "epoch": 0.00014583333333333335,
      "grad_norm": 5.515867710113525,
      "learning_rate": 1.05e-05,
      "loss": 3.8084,
      "step": 70
    },
    {
      "epoch": 0.00016666666666666666,
      "grad_norm": 5.790792942047119,
      "learning_rate": 1.1999999999999999e-05,
      "loss": 4.0739,
      "step": 80
    },
    {
      "epoch": 0.0001875,
      "grad_norm": 6.053430557250977,
      "learning_rate": 1.3499999999999998e-05,
      "loss": 4.2123,
      "step": 90
    },
    {
      "epoch": 0.00020833333333333335,
      "grad_norm": 5.650411128997803,
      "learning_rate": 1.4999999999999999e-05,
      "loss": 3.9249,
      "step": 100
    },
    {
      "epoch": 0.00022916666666666666,
      "grad_norm": 5.531260013580322,
      "learning_rate": 1.6499999999999998e-05,
      "loss": 4.0193,
      "step": 110
    },
    {
      "epoch": 0.00025,
      "grad_norm": 4.885991096496582,
      "learning_rate": 1.7999999999999997e-05,
      "loss": 3.724,
      "step": 120
    },
    {
      "epoch": 0.0002708333333333333,
      "grad_norm": 5.165462970733643,
      "learning_rate": 1.95e-05,
      "loss": 3.9344,
      "step": 130
    },
    {
      "epoch": 0.0002916666666666667,
      "grad_norm": 4.782204627990723,
      "learning_rate": 2.1e-05,
      "loss": 4.0379,
      "step": 140
    },
    {
      "epoch": 0.0003125,
      "grad_norm": 4.9411420822143555,
      "learning_rate": 2.2499999999999998e-05,
      "loss": 4.0888,
      "step": 150
    },
    {
      "epoch": 0.0003333333333333333,
      "grad_norm": 4.048075199127197,
      "learning_rate": 2.3999999999999997e-05,
      "loss": 3.9382,
      "step": 160
    },
    {
      "epoch": 0.0003541666666666667,
      "grad_norm": 4.106828212738037,
      "learning_rate": 2.55e-05,
      "loss": 3.9063,
      "step": 170
    },
    {
      "epoch": 0.000375,
      "grad_norm": 3.967660903930664,
      "learning_rate": 2.6999999999999996e-05,
      "loss": 3.8479,
      "step": 180
    },
    {
      "epoch": 0.0003958333333333333,
      "grad_norm": 4.1011834144592285,
      "learning_rate": 2.8499999999999998e-05,
      "loss": 4.0807,
      "step": 190
    },
    {
      "epoch": 0.0004166666666666667,
      "grad_norm": 3.6805419921875,
      "learning_rate": 2.9999999999999997e-05,
      "loss": 4.1101,
      "step": 200
    },
    {
      "epoch": 0.0004375,
      "grad_norm": 4.586904048919678,
      "learning_rate": 3.149999999999999e-05,
      "loss": 3.8571,
      "step": 210
    },
    {
      "epoch": 0.0004583333333333333,
      "grad_norm": 3.1647002696990967,
      "learning_rate": 3.2999999999999996e-05,
      "loss": 3.729,
      "step": 220
    },
    {
      "epoch": 0.00047916666666666664,
      "grad_norm": 2.835263729095459,
      "learning_rate": 3.45e-05,
      "loss": 3.9869,
      "step": 230
    },
    {
      "epoch": 0.0005,
      "grad_norm": 3.3656539916992188,
      "learning_rate": 3.5999999999999994e-05,
      "loss": 3.918,
      "step": 240
    },
    {
      "epoch": 0.0005208333333333333,
      "grad_norm": 2.8719184398651123,
      "learning_rate": 3.75e-05,
      "loss": 3.7732,
      "step": 250
    },
    {
      "epoch": 0.0005416666666666666,
      "grad_norm": 2.6891679763793945,
      "learning_rate": 3.9e-05,
      "loss": 3.7452,
      "step": 260
    },
    {
      "epoch": 0.0005625,
      "grad_norm": 2.6710000038146973,
      "learning_rate": 4.05e-05,
      "loss": 3.7136,
      "step": 270
    },
    {
      "epoch": 0.0005833333333333334,
      "grad_norm": 2.977600574493408,
      "learning_rate": 4.2e-05,
      "loss": 3.7154,
      "step": 280
    },
    {
      "epoch": 0.0006041666666666667,
      "grad_norm": 2.6756129264831543,
      "learning_rate": 4.3499999999999993e-05,
      "loss": 4.0673,
      "step": 290
    },
    {
      "epoch": 0.000625,
      "grad_norm": 2.4988200664520264,
      "learning_rate": 4.4999999999999996e-05,
      "loss": 4.0176,
      "step": 300
    },
    {
      "epoch": 0.0006458333333333333,
      "grad_norm": 2.9364583492279053,
      "learning_rate": 4.65e-05,
      "loss": 3.952,
      "step": 310
    },
    {
      "epoch": 0.0006666666666666666,
      "grad_norm": 2.2746999263763428,
      "learning_rate": 4.7999999999999994e-05,
      "loss": 3.9988,
      "step": 320
    },
    {
      "epoch": 0.0006875,
      "grad_norm": 3.031714916229248,
      "learning_rate": 4.95e-05,
      "loss": 3.9168,
      "step": 330
    },
    {
      "epoch": 0.0007083333333333334,
      "grad_norm": 2.9307734966278076,
      "learning_rate": 5.1e-05,
      "loss": 3.6942,
      "step": 340
    },
    {
      "epoch": 0.0007291666666666667,
      "grad_norm": 2.580369234085083,
      "learning_rate": 5.2499999999999995e-05,
      "loss": 3.9896,
      "step": 350
    },
    {
      "epoch": 0.00075,
      "grad_norm": 2.8122284412384033,
      "learning_rate": 5.399999999999999e-05,
      "loss": 3.9724,
      "step": 360
    },
    {
      "epoch": 0.0007708333333333333,
      "grad_norm": 2.378981113433838,
      "learning_rate": 5.5499999999999994e-05,
      "loss": 3.9802,
      "step": 370
    },
    {
      "epoch": 0.0007916666666666666,
      "grad_norm": 2.870683431625366,
      "learning_rate": 5.6999999999999996e-05,
      "loss": 3.9385,
      "step": 380
    },
    {
      "epoch": 0.0008125,
      "grad_norm": 2.762826442718506,
      "learning_rate": 5.85e-05,
      "loss": 3.7719,
      "step": 390
    },
    {
      "epoch": 0.0008333333333333334,
      "grad_norm": 2.886190891265869,
      "learning_rate": 5.9999999999999995e-05,
      "loss": 3.8097,
      "step": 400
    },
    {
      "epoch": 0.0008541666666666667,
      "grad_norm": 2.836409568786621,
      "learning_rate": 6.149999999999999e-05,
      "loss": 3.818,
      "step": 410
    },
    {
      "epoch": 0.000875,
      "grad_norm": 2.8510560989379883,
      "learning_rate": 6.299999999999999e-05,
      "loss": 3.8657,
      "step": 420
    },
    {
      "epoch": 0.0008958333333333333,
      "grad_norm": 2.677159309387207,
      "learning_rate": 6.45e-05,
      "loss": 3.772,
      "step": 430
    },
    {
      "epoch": 0.0009166666666666666,
      "grad_norm": 2.7777462005615234,
      "learning_rate": 6.599999999999999e-05,
      "loss": 3.9021,
      "step": 440
    },
    {
      "epoch": 0.0009375,
      "grad_norm": 2.45473313331604,
      "learning_rate": 6.75e-05,
      "loss": 3.829,
      "step": 450
    },
    {
      "epoch": 0.0009583333333333333,
      "grad_norm": 2.926514148712158,
      "learning_rate": 6.9e-05,
      "loss": 3.898,
      "step": 460
    },
    {
      "epoch": 0.0009791666666666666,
      "grad_norm": 2.252542495727539,
      "learning_rate": 7.049999999999999e-05,
      "loss": 4.0223,
      "step": 470
    },
    {
      "epoch": 0.001,
      "grad_norm": 2.351160764694214,
      "learning_rate": 7.199999999999999e-05,
      "loss": 3.9716,
      "step": 480
    },
    {
      "epoch": 0.0010208333333333332,
      "grad_norm": 2.2558159828186035,
      "learning_rate": 7.35e-05,
      "loss": 3.8676,
      "step": 490
    },
    {
      "epoch": 0.0010416666666666667,
      "grad_norm": 2.1864795684814453,
      "learning_rate": 7.5e-05,
      "loss": 3.935,
      "step": 500
    },
    {
      "epoch": 0.0010625,
      "grad_norm": 2.233490228652954,
      "learning_rate": 7.649999999999999e-05,
      "loss": 3.9034,
      "step": 510
    },
    {
      "epoch": 0.0010833333333333333,
      "grad_norm": 2.337550163269043,
      "learning_rate": 7.8e-05,
      "loss": 3.8822,
      "step": 520
    },
    {
      "epoch": 0.0011041666666666667,
      "grad_norm": 2.284830093383789,
      "learning_rate": 7.95e-05,
      "loss": 3.9275,
      "step": 530
    },
    {
      "epoch": 0.001125,
      "grad_norm": 2.2319915294647217,
      "learning_rate": 8.1e-05,
      "loss": 3.8581,
      "step": 540
    },
    {
      "epoch": 0.0011458333333333333,
      "grad_norm": 2.0077998638153076,
      "learning_rate": 8.25e-05,
      "loss": 4.1426,
      "step": 550
    },
    {
      "epoch": 0.0011666666666666668,
      "grad_norm": 1.9239250421524048,
      "learning_rate": 8.4e-05,
      "loss": 4.0844,
      "step": 560
    },
    {
      "epoch": 0.0011875,
      "grad_norm": 2.4204318523406982,
      "learning_rate": 8.549999999999999e-05,
      "loss": 3.824,
      "step": 570
    },
    {
      "epoch": 0.0012083333333333334,
      "grad_norm": 3.8920788764953613,
      "learning_rate": 8.699999999999999e-05,
      "loss": 3.9309,
      "step": 580
    },
    {
      "epoch": 0.0012291666666666666,
      "grad_norm": 2.097668409347534,
      "learning_rate": 8.849999999999998e-05,
      "loss": 3.8477,
      "step": 590
    },
    {
      "epoch": 0.00125,
      "grad_norm": 2.2848875522613525,
      "learning_rate": 8.999999999999999e-05,
      "loss": 3.8475,
      "step": 600
    },
    {
      "epoch": 0.0012708333333333332,
      "grad_norm": 2.121750831604004,
      "learning_rate": 9.149999999999999e-05,
      "loss": 3.9012,
      "step": 610
    },
    {
      "epoch": 0.0012916666666666667,
      "grad_norm": 1.888998031616211,
      "learning_rate": 9.3e-05,
      "loss": 4.2044,
      "step": 620
    },
    {
      "epoch": 0.0013125,
      "grad_norm": 1.9981203079223633,
      "learning_rate": 9.449999999999999e-05,
      "loss": 3.8536,
      "step": 630
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 2.53363299369812,
      "learning_rate": 9.599999999999999e-05,
      "loss": 3.8059,
      "step": 640
    },
    {
      "epoch": 0.0013541666666666667,
      "grad_norm": 2.019169569015503,
      "learning_rate": 9.75e-05,
      "loss": 4.0733,
      "step": 650
    },
    {
      "epoch": 0.001375,
      "grad_norm": 2.37184739112854,
      "learning_rate": 9.9e-05,
      "loss": 3.9411,
      "step": 660
    },
    {
      "epoch": 0.0013958333333333333,
      "grad_norm": 2.0165822505950928,
      "learning_rate": 0.0001005,
      "loss": 4.0182,
      "step": 670
    },
    {
      "epoch": 0.0014166666666666668,
      "grad_norm": 1.9455044269561768,
      "learning_rate": 0.000102,
      "loss": 3.8239,
      "step": 680
    },
    {
      "epoch": 0.0014375,
      "grad_norm": 1.9293179512023926,
      "learning_rate": 0.00010349999999999998,
      "loss": 3.8611,
      "step": 690
    },
    {
      "epoch": 0.0014583333333333334,
      "grad_norm": 2.145423650741577,
      "learning_rate": 0.00010499999999999999,
      "loss": 4.0455,
      "step": 700
    },
    {
      "epoch": 0.0014791666666666666,
      "grad_norm": 2.0064008235931396,
      "learning_rate": 0.00010649999999999999,
      "loss": 3.9075,
      "step": 710
    },
    {
      "epoch": 0.0015,
      "grad_norm": 1.8732527494430542,
      "learning_rate": 0.00010799999999999998,
      "loss": 3.9255,
      "step": 720
    },
    {
      "epoch": 0.0015208333333333332,
      "grad_norm": 1.9233214855194092,
      "learning_rate": 0.00010949999999999999,
      "loss": 3.8687,
      "step": 730
    },
    {
      "epoch": 0.0015416666666666667,
      "grad_norm": 1.7792178392410278,
      "learning_rate": 0.00011099999999999999,
      "loss": 4.0953,
      "step": 740
    },
    {
      "epoch": 0.0015625,
      "grad_norm": 1.6663944721221924,
      "learning_rate": 0.0001125,
      "loss": 3.9122,
      "step": 750
    },
    {
      "epoch": 0.0015833333333333333,
      "grad_norm": 1.86878502368927,
      "learning_rate": 0.00011399999999999999,
      "loss": 3.7749,
      "step": 760
    },
    {
      "epoch": 0.0016041666666666667,
      "grad_norm": 1.9254858493804932,
      "learning_rate": 0.00011549999999999999,
      "loss": 3.8661,
      "step": 770
    },
    {
      "epoch": 0.001625,
      "grad_norm": 1.8493620157241821,
      "learning_rate": 0.000117,
      "loss": 3.8769,
      "step": 780
    },
    {
      "epoch": 0.0016458333333333333,
      "grad_norm": 1.7688013315200806,
      "learning_rate": 0.0001185,
      "loss": 3.8536,
      "step": 790
    },
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 1.916062831878662,
      "learning_rate": 0.00011999999999999999,
      "loss": 4.1509,
      "step": 800
    },
    {
      "epoch": 0.0016875,
      "grad_norm": 1.925788164138794,
      "learning_rate": 0.0001215,
      "loss": 4.0038,
      "step": 810
    },
    {
      "epoch": 0.0017083333333333334,
      "grad_norm": 1.761607050895691,
      "learning_rate": 0.00012299999999999998,
      "loss": 4.0914,
      "step": 820
    },
    {
      "epoch": 0.0017291666666666666,
      "grad_norm": 1.664099931716919,
      "learning_rate": 0.0001245,
      "loss": 4.0469,
      "step": 830
    },
    {
      "epoch": 0.00175,
      "grad_norm": 1.8013993501663208,
      "learning_rate": 0.00012599999999999997,
      "loss": 3.8813,
      "step": 840
    },
    {
      "epoch": 0.0017708333333333332,
      "grad_norm": 1.6956766843795776,
      "learning_rate": 0.00012749999999999998,
      "loss": 3.822,
      "step": 850
    },
    {
      "epoch": 0.0017916666666666667,
      "grad_norm": 2.446249008178711,
      "learning_rate": 0.000129,
      "loss": 4.1627,
      "step": 860
    },
    {
      "epoch": 0.0018125,
      "grad_norm": 1.7902626991271973,
      "learning_rate": 0.0001305,
      "loss": 3.9155,
      "step": 870
    },
    {
      "epoch": 0.0018333333333333333,
      "grad_norm": 1.739357590675354,
      "learning_rate": 0.00013199999999999998,
      "loss": 3.9453,
      "step": 880
    },
    {
      "epoch": 0.0018541666666666667,
      "grad_norm": 1.642500638961792,
      "learning_rate": 0.0001335,
      "loss": 3.923,
      "step": 890
    },
    {
      "epoch": 0.001875,
      "grad_norm": 1.722559928894043,
      "learning_rate": 0.000135,
      "loss": 3.6202,
      "step": 900
    },
    {
      "epoch": 0.0018958333333333334,
      "grad_norm": 1.6645526885986328,
      "learning_rate": 0.00013649999999999998,
      "loss": 3.9847,
      "step": 910
    },
    {
      "epoch": 0.0019166666666666666,
      "grad_norm": 1.858047604560852,
      "learning_rate": 0.000138,
      "loss": 3.9687,
      "step": 920
    },
    {
      "epoch": 0.0019375,
      "grad_norm": 1.6346834897994995,
      "learning_rate": 0.0001395,
      "loss": 3.8396,
      "step": 930
    },
    {
      "epoch": 0.001958333333333333,
      "grad_norm": 1.6274609565734863,
      "learning_rate": 0.00014099999999999998,
      "loss": 3.9659,
      "step": 940
    },
    {
      "epoch": 0.001979166666666667,
      "grad_norm": 1.5527580976486206,
      "learning_rate": 0.0001425,
      "loss": 4.1579,
      "step": 950
    },
    {
      "epoch": 0.002,
      "grad_norm": 1.4515953063964844,
      "learning_rate": 0.00014399999999999998,
      "loss": 4.0735,
      "step": 960
    },
    {
      "epoch": 0.0020208333333333332,
      "grad_norm": 1.5999442338943481,
      "learning_rate": 0.00014549999999999999,
      "loss": 3.7239,
      "step": 970
    },
    {
      "epoch": 0.0020416666666666665,
      "grad_norm": 1.4522101879119873,
      "learning_rate": 0.000147,
      "loss": 3.9694,
      "step": 980
    },
    {
      "epoch": 0.0020625,
      "grad_norm": 1.5093501806259155,
      "learning_rate": 0.00014849999999999998,
      "loss": 3.9805,
      "step": 990
    },
    {
      "epoch": 0.0020833333333333333,
      "grad_norm": 1.4990453720092773,
      "learning_rate": 0.00015,
      "loss": 3.9406,
      "step": 1000
    },
    {
      "epoch": 0.0020833333333333333,
      "eval_loss": 4.242117404937744,
      "eval_runtime": 10.3451,
      "eval_samples_per_second": 0.967,
      "eval_steps_per_second": 0.29,
      "step": 1000
    },
    {
      "epoch": 0.0021041666666666665,
      "grad_norm": 1.5953153371810913,
      "learning_rate": 0.0001515,
      "loss": 3.973,
      "step": 1010
    },
    {
      "epoch": 0.002125,
      "grad_norm": 1.5966213941574097,
      "learning_rate": 0.00015299999999999998,
      "loss": 4.0613,
      "step": 1020
    },
    {
      "epoch": 0.0021458333333333334,
      "grad_norm": 1.6065714359283447,
      "learning_rate": 0.0001545,
      "loss": 3.9056,
      "step": 1030
    },
    {
      "epoch": 0.0021666666666666666,
      "grad_norm": 1.5830721855163574,
      "learning_rate": 0.000156,
      "loss": 3.8975,
      "step": 1040
    },
    {
      "epoch": 0.0021875,
      "grad_norm": 2.020400047302246,
      "learning_rate": 0.00015749999999999998,
      "loss": 4.0566,
      "step": 1050
    },
    {
      "epoch": 0.0022083333333333334,
      "grad_norm": 1.5964298248291016,
      "learning_rate": 0.000159,
      "loss": 3.8835,
      "step": 1060
    },
    {
      "epoch": 0.0022291666666666666,
      "grad_norm": 1.416454792022705,
      "learning_rate": 0.0001605,
      "loss": 3.8443,
      "step": 1070
    },
    {
      "epoch": 0.00225,
      "grad_norm": 1.5983104705810547,
      "learning_rate": 0.000162,
      "loss": 3.9339,
      "step": 1080
    },
    {
      "epoch": 0.0022708333333333335,
      "grad_norm": 1.468064785003662,
      "learning_rate": 0.0001635,
      "loss": 3.9165,
      "step": 1090
    },
    {
      "epoch": 0.0022916666666666667,
      "grad_norm": 1.4951664209365845,
      "learning_rate": 0.000165,
      "loss": 4.1157,
      "step": 1100
    },
    {
      "epoch": 0.0023125,
      "grad_norm": 1.4276723861694336,
      "learning_rate": 0.0001665,
      "loss": 4.1812,
      "step": 1110
    },
    {
      "epoch": 0.0023333333333333335,
      "grad_norm": 1.5610439777374268,
      "learning_rate": 0.000168,
      "loss": 3.8691,
      "step": 1120
    },
    {
      "epoch": 0.0023541666666666667,
      "grad_norm": 1.53255295753479,
      "learning_rate": 0.00016949999999999997,
      "loss": 3.9833,
      "step": 1130
    },
    {
      "epoch": 0.002375,
      "grad_norm": 1.3743901252746582,
      "learning_rate": 0.00017099999999999998,
      "loss": 4.0057,
      "step": 1140
    },
    {
      "epoch": 0.002395833333333333,
      "grad_norm": 1.3765223026275635,
      "learning_rate": 0.00017249999999999996,
      "loss": 4.0022,
      "step": 1150
    },
    {
      "epoch": 0.002416666666666667,
      "grad_norm": 1.446834683418274,
      "learning_rate": 0.00017399999999999997,
      "loss": 3.9921,
      "step": 1160
    },
    {
      "epoch": 0.0024375,
      "grad_norm": 1.5292930603027344,
      "learning_rate": 0.00017549999999999998,
      "loss": 4.0972,
      "step": 1170
    },
    {
      "epoch": 0.002458333333333333,
      "grad_norm": 2.05924654006958,
      "learning_rate": 0.00017699999999999997,
      "loss": 3.9467,
      "step": 1180
    },
    {
      "epoch": 0.002479166666666667,
      "grad_norm": 1.3823415040969849,
      "learning_rate": 0.00017849999999999997,
      "loss": 3.9854,
      "step": 1190
    },
    {
      "epoch": 0.0025,
      "grad_norm": 1.386183738708496,
      "learning_rate": 0.00017999999999999998,
      "loss": 4.0909,
      "step": 1200
    },
    {
      "epoch": 0.0025208333333333333,
      "grad_norm": 1.5277749300003052,
      "learning_rate": 0.00018149999999999997,
      "loss": 4.3117,
      "step": 1210
    },
    {
      "epoch": 0.0025416666666666665,
      "grad_norm": 1.3108004331588745,
      "learning_rate": 0.00018299999999999998,
      "loss": 4.0516,
      "step": 1220
    },
    {
      "epoch": 0.0025625,
      "grad_norm": 1.484606385231018,
      "learning_rate": 0.00018449999999999999,
      "loss": 4.1339,
      "step": 1230
    },
    {
      "epoch": 0.0025833333333333333,
      "grad_norm": 1.4781019687652588,
      "learning_rate": 0.000186,
      "loss": 4.2401,
      "step": 1240
    },
    {
      "epoch": 0.0026041666666666665,
      "grad_norm": 1.3698230981826782,
      "learning_rate": 0.00018749999999999998,
      "loss": 3.8749,
      "step": 1250
    },
    {
      "epoch": 0.002625,
      "grad_norm": 1.4999946355819702,
      "learning_rate": 0.00018899999999999999,
      "loss": 4.2945,
      "step": 1260
    },
    {
      "epoch": 0.0026458333333333334,
      "grad_norm": 1.264510154724121,
      "learning_rate": 0.0001905,
      "loss": 4.0403,
      "step": 1270
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 1.4496684074401855,
      "learning_rate": 0.00019199999999999998,
      "loss": 3.9182,
      "step": 1280
    },
    {
      "epoch": 0.0026875,
      "grad_norm": 1.4432339668273926,
      "learning_rate": 0.0001935,
      "loss": 4.0175,
      "step": 1290
    },
    {
      "epoch": 0.0027083333333333334,
      "grad_norm": 1.306222677230835,
      "learning_rate": 0.000195,
      "loss": 4.0138,
      "step": 1300
    },
    {
      "epoch": 0.0027291666666666666,
      "grad_norm": 1.4940820932388306,
      "learning_rate": 0.00019649999999999998,
      "loss": 4.0746,
      "step": 1310
    },
    {
      "epoch": 0.00275,
      "grad_norm": 1.342800498008728,
      "learning_rate": 0.000198,
      "loss": 3.9512,
      "step": 1320
    },
    {
      "epoch": 0.0027708333333333335,
      "grad_norm": 1.2622003555297852,
      "learning_rate": 0.0001995,
      "loss": 3.956,
      "step": 1330
    },
    {
      "epoch": 0.0027916666666666667,
      "grad_norm": 1.3727186918258667,
      "learning_rate": 0.000201,
      "loss": 3.9796,
      "step": 1340
    },
    {
      "epoch": 0.0028125,
      "grad_norm": 1.2846344709396362,
      "learning_rate": 0.0002025,
      "loss": 4.0527,
      "step": 1350
    },
    {
      "epoch": 0.0028333333333333335,
      "grad_norm": 1.3601651191711426,
      "learning_rate": 0.000204,
      "loss": 3.9333,
      "step": 1360
    },
    {
      "epoch": 0.0028541666666666667,
      "grad_norm": 1.3182964324951172,
      "learning_rate": 0.0002055,
      "loss": 3.991,
      "step": 1370
    },
    {
      "epoch": 0.002875,
      "grad_norm": 1.363232135772705,
      "learning_rate": 0.00020699999999999996,
      "loss": 4.1472,
      "step": 1380
    },
    {
      "epoch": 0.002895833333333333,
      "grad_norm": 1.6237571239471436,
      "learning_rate": 0.00020849999999999997,
      "loss": 3.9768,
      "step": 1390
    },
    {
      "epoch": 0.002916666666666667,
      "grad_norm": 1.8679720163345337,
      "learning_rate": 0.00020999999999999998,
      "loss": 3.9835,
      "step": 1400
    },
    {
      "epoch": 0.0029375,
      "grad_norm": 1.1690763235092163,
      "learning_rate": 0.00021149999999999996,
      "loss": 4.1292,
      "step": 1410
    },
    {
      "epoch": 0.002958333333333333,
      "grad_norm": 1.364965558052063,
      "learning_rate": 0.00021299999999999997,
      "loss": 3.8245,
      "step": 1420
    },
    {
      "epoch": 0.002979166666666667,
      "grad_norm": 1.122480869293213,
      "learning_rate": 0.00021449999999999998,
      "loss": 4.0,
      "step": 1430
    },
    {
      "epoch": 0.003,
      "grad_norm": 1.2842473983764648,
      "learning_rate": 0.00021599999999999996,
      "loss": 4.0448,
      "step": 1440
    },
    {
      "epoch": 0.0030208333333333333,
      "grad_norm": 1.4669883251190186,
      "learning_rate": 0.00021749999999999997,
      "loss": 4.1627,
      "step": 1450
    },
    {
      "epoch": 0.0030416666666666665,
      "grad_norm": 1.3798481225967407,
      "learning_rate": 0.00021899999999999998,
      "loss": 3.9475,
      "step": 1460
    },
    {
      "epoch": 0.0030625,
      "grad_norm": 1.3747225999832153,
      "learning_rate": 0.00022049999999999997,
      "loss": 3.9597,
      "step": 1470
    },
    {
      "epoch": 0.0030833333333333333,
      "grad_norm": 1.3016811609268188,
      "learning_rate": 0.00022199999999999998,
      "loss": 4.0458,
      "step": 1480
    },
    {
      "epoch": 0.0031041666666666665,
      "grad_norm": 1.2116535902023315,
      "learning_rate": 0.00022349999999999998,
      "loss": 4.1549,
      "step": 1490
    },
    {
      "epoch": 0.003125,
      "grad_norm": 1.475224256515503,
      "learning_rate": 0.000225,
      "loss": 4.0192,
      "step": 1500
    },
    {
      "epoch": 0.0031458333333333334,
      "grad_norm": 1.411436915397644,
      "learning_rate": 0.00022649999999999998,
      "loss": 4.0533,
      "step": 1510
    },
    {
      "epoch": 0.0031666666666666666,
      "grad_norm": 1.175031304359436,
      "learning_rate": 0.00022799999999999999,
      "loss": 3.994,
      "step": 1520
    },
    {
      "epoch": 0.0031875,
      "grad_norm": 1.2909666299819946,
      "learning_rate": 0.0002295,
      "loss": 4.1104,
      "step": 1530
    },
    {
      "epoch": 0.0032083333333333334,
      "grad_norm": 1.1881543397903442,
      "learning_rate": 0.00023099999999999998,
      "loss": 4.1381,
      "step": 1540
    },
    {
      "epoch": 0.0032291666666666666,
      "grad_norm": 1.2744104862213135,
      "learning_rate": 0.00023249999999999999,
      "loss": 4.0251,
      "step": 1550
    },
    {
      "epoch": 0.00325,
      "grad_norm": 1.3131662607192993,
      "learning_rate": 0.000234,
      "loss": 4.167,
      "step": 1560
    },
    {
      "epoch": 0.0032708333333333335,
      "grad_norm": 1.2335139513015747,
      "learning_rate": 0.00023549999999999998,
      "loss": 3.8963,
      "step": 1570
    },
    {
      "epoch": 0.0032916666666666667,
      "grad_norm": 1.1656324863433838,
      "learning_rate": 0.000237,
      "loss": 4.2505,
      "step": 1580
    },
    {
      "epoch": 0.0033125,
      "grad_norm": 1.3538964986801147,
      "learning_rate": 0.0002385,
      "loss": 3.9851,
      "step": 1590
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 1.3212934732437134,
      "learning_rate": 0.00023999999999999998,
      "loss": 4.1367,
      "step": 1600
    },
    {
      "epoch": 0.0033541666666666668,
      "grad_norm": 1.171884298324585,
      "learning_rate": 0.0002415,
      "loss": 4.2488,
      "step": 1610
    },
    {
      "epoch": 0.003375,
      "grad_norm": 1.3764070272445679,
      "learning_rate": 0.000243,
      "loss": 4.1123,
      "step": 1620
    },
    {
      "epoch": 0.003395833333333333,
      "grad_norm": 1.267585277557373,
      "learning_rate": 0.0002445,
      "loss": 4.1675,
      "step": 1630
    },
    {
      "epoch": 0.003416666666666667,
      "grad_norm": 1.3058395385742188,
      "learning_rate": 0.00024599999999999996,
      "loss": 3.8901,
      "step": 1640
    },
    {
      "epoch": 0.0034375,
      "grad_norm": 1.341983675956726,
      "learning_rate": 0.00024749999999999994,
      "loss": 4.0792,
      "step": 1650
    },
    {
      "epoch": 0.0034583333333333332,
      "grad_norm": 1.173112392425537,
      "learning_rate": 0.000249,
      "loss": 3.8471,
      "step": 1660
    },
    {
      "epoch": 0.003479166666666667,
      "grad_norm": 1.409528374671936,
      "learning_rate": 0.00025049999999999996,
      "loss": 4.0386,
      "step": 1670
    },
    {
      "epoch": 0.0035,
      "grad_norm": 1.1081422567367554,
      "learning_rate": 0.00025199999999999995,
      "loss": 4.0552,
      "step": 1680
    },
    {
      "epoch": 0.0035208333333333333,
      "grad_norm": 1.300365924835205,
      "learning_rate": 0.0002535,
      "loss": 4.0157,
      "step": 1690
    },
    {
      "epoch": 0.0035416666666666665,
      "grad_norm": 1.1579424142837524,
      "learning_rate": 0.00025499999999999996,
      "loss": 3.979,
      "step": 1700
    },
    {
      "epoch": 0.0035625,
      "grad_norm": 1.1906883716583252,
      "learning_rate": 0.00025649999999999995,
      "loss": 4.0803,
      "step": 1710
    },
    {
      "epoch": 0.0035833333333333333,
      "grad_norm": 1.1819592714309692,
      "learning_rate": 0.000258,
      "loss": 4.0365,
      "step": 1720
    },
    {
      "epoch": 0.0036041666666666665,
      "grad_norm": 1.3222588300704956,
      "learning_rate": 0.00025949999999999997,
      "loss": 4.0097,
      "step": 1730
    },
    {
      "epoch": 0.003625,
      "grad_norm": 1.2372713088989258,
      "learning_rate": 0.000261,
      "loss": 4.2415,
      "step": 1740
    },
    {
      "epoch": 0.0036458333333333334,
      "grad_norm": 1.192972183227539,
      "learning_rate": 0.0002625,
      "loss": 3.9821,
      "step": 1750
    },
    {
      "epoch": 0.0036666666666666666,
      "grad_norm": 1.2455264329910278,
      "learning_rate": 0.00026399999999999997,
      "loss": 4.2005,
      "step": 1760
    },
    {
      "epoch": 0.0036875,
      "grad_norm": 1.2281546592712402,
      "learning_rate": 0.0002655,
      "loss": 3.9592,
      "step": 1770
    },
    {
      "epoch": 0.0037083333333333334,
      "grad_norm": 2.3578450679779053,
      "learning_rate": 0.000267,
      "loss": 4.0041,
      "step": 1780
    },
    {
      "epoch": 0.0037291666666666667,
      "grad_norm": 1.2774590253829956,
      "learning_rate": 0.00026849999999999997,
      "loss": 3.9978,
      "step": 1790
    },
    {
      "epoch": 0.00375,
      "grad_norm": 1.3133232593536377,
      "learning_rate": 0.00027,
      "loss": 4.1734,
      "step": 1800
    },
    {
      "epoch": 0.0037708333333333335,
      "grad_norm": 1.335173487663269,
      "learning_rate": 0.0002715,
      "loss": 4.117,
      "step": 1810
    },
    {
      "epoch": 0.0037916666666666667,
      "grad_norm": 1.1842995882034302,
      "learning_rate": 0.00027299999999999997,
      "loss": 3.9825,
      "step": 1820
    },
    {
      "epoch": 0.0038125,
      "grad_norm": 1.1911958456039429,
      "learning_rate": 0.0002745,
      "loss": 4.1208,
      "step": 1830
    },
    {
      "epoch": 0.003833333333333333,
      "grad_norm": 1.4115355014801025,
      "learning_rate": 0.000276,
      "loss": 4.0871,
      "step": 1840
    },
    {
      "epoch": 0.0038541666666666668,
      "grad_norm": 1.940555214881897,
      "learning_rate": 0.00027749999999999997,
      "loss": 4.0454,
      "step": 1850
    },
    {
      "epoch": 0.003875,
      "grad_norm": 1.300365924835205,
      "learning_rate": 0.000279,
      "loss": 3.9271,
      "step": 1860
    },
    {
      "epoch": 0.003895833333333333,
      "grad_norm": 1.2404224872589111,
      "learning_rate": 0.0002805,
      "loss": 4.0941,
      "step": 1870
    },
    {
      "epoch": 0.003916666666666666,
      "grad_norm": 1.1379237174987793,
      "learning_rate": 0.00028199999999999997,
      "loss": 4.1332,
      "step": 1880
    },
    {
      "epoch": 0.0039375,
      "grad_norm": 1.171494483947754,
      "learning_rate": 0.00028349999999999995,
      "loss": 4.0771,
      "step": 1890
    },
    {
      "epoch": 0.003958333333333334,
      "grad_norm": 1.444305658340454,
      "learning_rate": 0.000285,
      "loss": 4.0065,
      "step": 1900
    },
    {
      "epoch": 0.0039791666666666664,
      "grad_norm": 1.1444891691207886,
      "learning_rate": 0.00028649999999999997,
      "loss": 4.0505,
      "step": 1910
    },
    {
      "epoch": 0.004,
      "grad_norm": 1.1751891374588013,
      "learning_rate": 0.00028799999999999995,
      "loss": 4.04,
      "step": 1920
    },
    {
      "epoch": 0.004020833333333334,
      "grad_norm": 1.3004765510559082,
      "learning_rate": 0.0002895,
      "loss": 4.0351,
      "step": 1930
    },
    {
      "epoch": 0.0040416666666666665,
      "grad_norm": 1.166332721710205,
      "learning_rate": 0.00029099999999999997,
      "loss": 3.8519,
      "step": 1940
    },
    {
      "epoch": 0.0040625,
      "grad_norm": 1.0714452266693115,
      "learning_rate": 0.00029249999999999995,
      "loss": 4.0759,
      "step": 1950
    },
    {
      "epoch": 0.004083333333333333,
      "grad_norm": 1.2121813297271729,
      "learning_rate": 0.000294,
      "loss": 3.9862,
      "step": 1960
    },
    {
      "epoch": 0.0041041666666666666,
      "grad_norm": 1.2187029123306274,
      "learning_rate": 0.00029549999999999997,
      "loss": 4.1827,
      "step": 1970
    },
    {
      "epoch": 0.004125,
      "grad_norm": 1.1891403198242188,
      "learning_rate": 0.00029699999999999996,
      "loss": 4.203,
      "step": 1980
    },
    {
      "epoch": 0.004145833333333333,
      "grad_norm": 1.3048672676086426,
      "learning_rate": 0.0002985,
      "loss": 4.1336,
      "step": 1990
    },
    {
      "epoch": 0.004166666666666667,
      "grad_norm": 1.2116934061050415,
      "learning_rate": 0.0003,
      "loss": 4.1862,
      "step": 2000
    },
    {
      "epoch": 0.004166666666666667,
      "eval_loss": 4.382291316986084,
      "eval_runtime": 10.3886,
      "eval_samples_per_second": 0.963,
      "eval_steps_per_second": 0.289,
      "step": 2000
    },
    {
      "epoch": 0.0041875,
      "grad_norm": 1.0577685832977295,
      "learning_rate": 0.00029999999967602963,
      "loss": 4.2605,
      "step": 2010
    },
    {
      "epoch": 0.004208333333333333,
      "grad_norm": 1.0988579988479614,
      "learning_rate": 0.0002999999987041187,
      "loss": 4.1993,
      "step": 2020
    },
    {
      "epoch": 0.004229166666666667,
      "grad_norm": 1.1419802904129028,
      "learning_rate": 0.00029999999708426716,
      "loss": 4.0242,
      "step": 2030
    },
    {
      "epoch": 0.00425,
      "grad_norm": 1.0286445617675781,
      "learning_rate": 0.000299999994816475,
      "loss": 3.8877,
      "step": 2040
    },
    {
      "epoch": 0.004270833333333333,
      "grad_norm": 1.1018036603927612,
      "learning_rate": 0.0002999999919007422,
      "loss": 4.264,
      "step": 2050
    },
    {
      "epoch": 0.004291666666666667,
      "grad_norm": 1.399141788482666,
      "learning_rate": 0.00029999998833706883,
      "loss": 4.3198,
      "step": 2060
    },
    {
      "epoch": 0.0043125,
      "grad_norm": 1.1172322034835815,
      "learning_rate": 0.0002999999841254549,
      "loss": 4.1278,
      "step": 2070
    },
    {
      "epoch": 0.004333333333333333,
      "grad_norm": 1.2724196910858154,
      "learning_rate": 0.0002999999792659004,
      "loss": 4.2393,
      "step": 2080
    },
    {
      "epoch": 0.004354166666666667,
      "grad_norm": 1.2641189098358154,
      "learning_rate": 0.00029999997375840536,
      "loss": 4.0983,
      "step": 2090
    },
    {
      "epoch": 0.004375,
      "grad_norm": 1.0351061820983887,
      "learning_rate": 0.0002999999676029699,
      "loss": 4.1453,
      "step": 2100
    },
    {
      "epoch": 0.004395833333333333,
      "grad_norm": 1.1754543781280518,
      "learning_rate": 0.00029999996079959376,
      "loss": 4.0488,
      "step": 2110
    },
    {
      "epoch": 0.004416666666666667,
      "grad_norm": 1.1882072687149048,
      "learning_rate": 0.0002999999533482773,
      "loss": 4.0995,
      "step": 2120
    },
    {
      "epoch": 0.0044375,
      "grad_norm": 1.2081167697906494,
      "learning_rate": 0.0002999999452490204,
      "loss": 4.0441,
      "step": 2130
    },
    {
      "epoch": 0.004458333333333333,
      "grad_norm": 1.2373205423355103,
      "learning_rate": 0.0002999999365018231,
      "loss": 4.1271,
      "step": 2140
    },
    {
      "epoch": 0.004479166666666667,
      "grad_norm": 1.3180184364318848,
      "learning_rate": 0.00029999992710668543,
      "loss": 4.152,
      "step": 2150
    },
    {
      "epoch": 0.0045,
      "grad_norm": 1.0901281833648682,
      "learning_rate": 0.00029999991706360747,
      "loss": 4.0374,
      "step": 2160
    },
    {
      "epoch": 0.004520833333333333,
      "grad_norm": 1.6377564668655396,
      "learning_rate": 0.0002999999063725892,
      "loss": 4.0079,
      "step": 2170
    },
    {
      "epoch": 0.004541666666666667,
      "grad_norm": 1.2074567079544067,
      "learning_rate": 0.00029999989503363077,
      "loss": 4.0182,
      "step": 2180
    },
    {
      "epoch": 0.0045625,
      "grad_norm": 1.2036203145980835,
      "learning_rate": 0.00029999988304673216,
      "loss": 3.9318,
      "step": 2190
    },
    {
      "epoch": 0.004583333333333333,
      "grad_norm": 1.0758192539215088,
      "learning_rate": 0.0002999998704118934,
      "loss": 4.1446,
      "step": 2200
    },
    {
      "epoch": 0.004604166666666667,
      "grad_norm": 1.3355058431625366,
      "learning_rate": 0.0002999998571291146,
      "loss": 4.117,
      "step": 2210
    },
    {
      "epoch": 0.004625,
      "grad_norm": 1.189584493637085,
      "learning_rate": 0.0002999998431983958,
      "loss": 4.1027,
      "step": 2220
    },
    {
      "epoch": 0.004645833333333333,
      "grad_norm": 1.054349660873413,
      "learning_rate": 0.000299999828619737,
      "loss": 4.2338,
      "step": 2230
    },
    {
      "epoch": 0.004666666666666667,
      "grad_norm": 1.0139858722686768,
      "learning_rate": 0.00029999981339313834,
      "loss": 4.0107,
      "step": 2240
    },
    {
      "epoch": 0.0046875,
      "grad_norm": 1.1467679738998413,
      "learning_rate": 0.00029999979751859984,
      "loss": 4.2146,
      "step": 2250
    },
    {
      "epoch": 0.0047083333333333335,
      "grad_norm": 1.0526251792907715,
      "learning_rate": 0.00029999978099612163,
      "loss": 4.0815,
      "step": 2260
    },
    {
      "epoch": 0.004729166666666666,
      "grad_norm": 1.1610180139541626,
      "learning_rate": 0.0002999997638257037,
      "loss": 4.002,
      "step": 2270
    },
    {
      "epoch": 0.00475,
      "grad_norm": 1.1730180978775024,
      "learning_rate": 0.0002999997460073462,
      "loss": 4.2205,
      "step": 2280
    },
    {
      "epoch": 0.0047708333333333335,
      "grad_norm": 1.184383511543274,
      "learning_rate": 0.0002999997275410492,
      "loss": 3.9301,
      "step": 2290
    },
    {
      "epoch": 0.004791666666666666,
      "grad_norm": 1.253609299659729,
      "learning_rate": 0.00029999970842681267,
      "loss": 4.3028,
      "step": 2300
    },
    {
      "epoch": 0.0048125,
      "grad_norm": 1.12043297290802,
      "learning_rate": 0.00029999968866463683,
      "loss": 4.1619,
      "step": 2310
    },
    {
      "epoch": 0.004833333333333334,
      "grad_norm": 1.2768105268478394,
      "learning_rate": 0.00029999966825452166,
      "loss": 4.2285,
      "step": 2320
    },
    {
      "epoch": 0.004854166666666666,
      "grad_norm": 1.096865177154541,
      "learning_rate": 0.00029999964719646733,
      "loss": 3.9927,
      "step": 2330
    },
    {
      "epoch": 0.004875,
      "grad_norm": 1.147199273109436,
      "learning_rate": 0.00029999962549047394,
      "loss": 4.1024,
      "step": 2340
    },
    {
      "epoch": 0.004895833333333334,
      "grad_norm": 1.2145557403564453,
      "learning_rate": 0.0002999996031365415,
      "loss": 4.1925,
      "step": 2350
    },
    {
      "epoch": 0.004916666666666666,
      "grad_norm": 1.2878481149673462,
      "learning_rate": 0.00029999958013467013,
      "loss": 4.29,
      "step": 2360
    },
    {
      "epoch": 0.0049375,
      "grad_norm": 1.0913647413253784,
      "learning_rate": 0.00029999955648485994,
      "loss": 4.0452,
      "step": 2370
    },
    {
      "epoch": 0.004958333333333334,
      "grad_norm": 1.0784485340118408,
      "learning_rate": 0.00029999953218711107,
      "loss": 3.9526,
      "step": 2380
    },
    {
      "epoch": 0.0049791666666666665,
      "grad_norm": 1.2260849475860596,
      "learning_rate": 0.0002999995072414236,
      "loss": 4.0098,
      "step": 2390
    },
    {
      "epoch": 0.005,
      "grad_norm": 1.08518648147583,
      "learning_rate": 0.0002999994816477976,
      "loss": 4.2647,
      "step": 2400
    },
    {
      "epoch": 0.005020833333333334,
      "grad_norm": 1.3454649448394775,
      "learning_rate": 0.00029999945540623324,
      "loss": 4.1582,
      "step": 2410
    },
    {
      "epoch": 0.0050416666666666665,
      "grad_norm": 1.1058865785598755,
      "learning_rate": 0.00029999942851673063,
      "loss": 4.2149,
      "step": 2420
    },
    {
      "epoch": 0.0050625,
      "grad_norm": 1.1923335790634155,
      "learning_rate": 0.0002999994009792898,
      "loss": 4.1541,
      "step": 2430
    },
    {
      "epoch": 0.005083333333333333,
      "grad_norm": 1.142852544784546,
      "learning_rate": 0.000299999372793911,
      "loss": 4.0744,
      "step": 2440
    },
    {
      "epoch": 0.005104166666666667,
      "grad_norm": 1.1746304035186768,
      "learning_rate": 0.00029999934396059423,
      "loss": 4.231,
      "step": 2450
    },
    {
      "epoch": 0.005125,
      "grad_norm": 0.9712422490119934,
      "learning_rate": 0.0002999993144793397,
      "loss": 4.3394,
      "step": 2460
    },
    {
      "epoch": 0.005145833333333333,
      "grad_norm": 1.2291202545166016,
      "learning_rate": 0.0002999992843501475,
      "loss": 4.028,
      "step": 2470
    },
    {
      "epoch": 0.005166666666666667,
      "grad_norm": 1.145798683166504,
      "learning_rate": 0.00029999925357301774,
      "loss": 4.114,
      "step": 2480
    },
    {
      "epoch": 0.0051875,
      "grad_norm": 1.0704258680343628,
      "learning_rate": 0.0002999992221479506,
      "loss": 4.3541,
      "step": 2490
    },
    {
      "epoch": 0.005208333333333333,
      "grad_norm": 1.0827873945236206,
      "learning_rate": 0.0002999991900749462,
      "loss": 4.099,
      "step": 2500
    },
    {
      "epoch": 0.005229166666666667,
      "grad_norm": 1.0499145984649658,
      "learning_rate": 0.0002999991573540047,
      "loss": 4.2679,
      "step": 2510
    },
    {
      "epoch": 0.00525,
      "grad_norm": 1.093379259109497,
      "learning_rate": 0.0002999991239851261,
      "loss": 4.1012,
      "step": 2520
    },
    {
      "epoch": 0.005270833333333333,
      "grad_norm": 1.046856164932251,
      "learning_rate": 0.00029999908996831075,
      "loss": 4.2928,
      "step": 2530
    },
    {
      "epoch": 0.005291666666666667,
      "grad_norm": 1.163751482963562,
      "learning_rate": 0.0002999990553035587,
      "loss": 4.3245,
      "step": 2540
    },
    {
      "epoch": 0.0053125,
      "grad_norm": 1.4320194721221924,
      "learning_rate": 0.00029999901999087014,
      "loss": 3.9341,
      "step": 2550
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 1.0278105735778809,
      "learning_rate": 0.0002999989840302451,
      "loss": 4.1493,
      "step": 2560
    },
    {
      "epoch": 0.005354166666666667,
      "grad_norm": 1.0652390718460083,
      "learning_rate": 0.00029999894742168385,
      "loss": 4.194,
      "step": 2570
    },
    {
      "epoch": 0.005375,
      "grad_norm": 1.0480515956878662,
      "learning_rate": 0.0002999989101651866,
      "loss": 3.9721,
      "step": 2580
    },
    {
      "epoch": 0.005395833333333333,
      "grad_norm": 1.142817497253418,
      "learning_rate": 0.0002999988722607533,
      "loss": 3.9859,
      "step": 2590
    },
    {
      "epoch": 0.005416666666666667,
      "grad_norm": 1.164863109588623,
      "learning_rate": 0.00029999883370838434,
      "loss": 4.058,
      "step": 2600
    },
    {
      "epoch": 0.0054375,
      "grad_norm": 1.197238802909851,
      "learning_rate": 0.00029999879450807977,
      "loss": 3.9827,
      "step": 2610
    },
    {
      "epoch": 0.005458333333333333,
      "grad_norm": 1.0357304811477661,
      "learning_rate": 0.00029999875465983977,
      "loss": 4.1392,
      "step": 2620
    },
    {
      "epoch": 0.005479166666666667,
      "grad_norm": 1.1916322708129883,
      "learning_rate": 0.00029999871416366456,
      "loss": 4.19,
      "step": 2630
    },
    {
      "epoch": 0.0055,
      "grad_norm": 4.384791374206543,
      "learning_rate": 0.00029999867301955425,
      "loss": 4.0635,
      "step": 2640
    },
    {
      "epoch": 0.005520833333333333,
      "grad_norm": 1.0943084955215454,
      "learning_rate": 0.000299998631227509,
      "loss": 4.1459,
      "step": 2650
    },
    {
      "epoch": 0.005541666666666667,
      "grad_norm": 0.9524834752082825,
      "learning_rate": 0.0002999985887875291,
      "loss": 4.0846,
      "step": 2660
    },
    {
      "epoch": 0.0055625,
      "grad_norm": 1.2036954164505005,
      "learning_rate": 0.00029999854569961467,
      "loss": 4.0522,
      "step": 2670
    },
    {
      "epoch": 0.005583333333333333,
      "grad_norm": 1.0524048805236816,
      "learning_rate": 0.00029999850196376585,
      "loss": 4.1405,
      "step": 2680
    },
    {
      "epoch": 0.005604166666666667,
      "grad_norm": 0.9235457181930542,
      "learning_rate": 0.0002999984575799829,
      "loss": 4.2421,
      "step": 2690
    },
    {
      "epoch": 0.005625,
      "grad_norm": 1.0990880727767944,
      "learning_rate": 0.000299998412548266,
      "loss": 4.282,
      "step": 2700
    },
    {
      "epoch": 0.005645833333333333,
      "grad_norm": 0.926478922367096,
      "learning_rate": 0.0002999983668686153,
      "loss": 4.2851,
      "step": 2710
    },
    {
      "epoch": 0.005666666666666667,
      "grad_norm": 1.0308059453964233,
      "learning_rate": 0.00029999832054103105,
      "loss": 4.1306,
      "step": 2720
    },
    {
      "epoch": 0.0056875,
      "grad_norm": 1.2634823322296143,
      "learning_rate": 0.00029999827356551345,
      "loss": 4.1079,
      "step": 2730
    },
    {
      "epoch": 0.0057083333333333335,
      "grad_norm": 1.12738835811615,
      "learning_rate": 0.0002999982259420627,
      "loss": 4.0866,
      "step": 2740
    },
    {
      "epoch": 0.005729166666666666,
      "grad_norm": 1.2450400590896606,
      "learning_rate": 0.00029999817767067895,
      "loss": 4.1577,
      "step": 2750
    },
    {
      "epoch": 0.00575,
      "grad_norm": 1.7179460525512695,
      "learning_rate": 0.0002999981287513624,
      "loss": 4.146,
      "step": 2760
    },
    {
      "epoch": 0.0057708333333333335,
      "grad_norm": 1.095332384109497,
      "learning_rate": 0.00029999807918411336,
      "loss": 4.1192,
      "step": 2770
    },
    {
      "epoch": 0.005791666666666666,
      "grad_norm": 1.1595033407211304,
      "learning_rate": 0.00029999802896893196,
      "loss": 4.1392,
      "step": 2780
    },
    {
      "epoch": 0.0058125,
      "grad_norm": 1.1099618673324585,
      "learning_rate": 0.0002999979781058185,
      "loss": 4.1111,
      "step": 2790
    },
    {
      "epoch": 0.005833333333333334,
      "grad_norm": 0.9408655166625977,
      "learning_rate": 0.0002999979265947731,
      "loss": 4.1332,
      "step": 2800
    },
    {
      "epoch": 0.005854166666666666,
      "grad_norm": 1.1000653505325317,
      "learning_rate": 0.00029999787443579605,
      "loss": 4.4146,
      "step": 2810
    },
    {
      "epoch": 0.005875,
      "grad_norm": 1.7831401824951172,
      "learning_rate": 0.0002999978216288876,
      "loss": 4.1126,
      "step": 2820
    },
    {
      "epoch": 0.005895833333333334,
      "grad_norm": 1.0727406740188599,
      "learning_rate": 0.00029999776817404784,
      "loss": 4.0295,
      "step": 2830
    },
    {
      "epoch": 0.005916666666666666,
      "grad_norm": 1.111051082611084,
      "learning_rate": 0.0002999977140712772,
      "loss": 4.0813,
      "step": 2840
    },
    {
      "epoch": 0.0059375,
      "grad_norm": 1.1414178609848022,
      "learning_rate": 0.0002999976593205757,
      "loss": 4.1177,
      "step": 2850
    },
    {
      "epoch": 0.005958333333333334,
      "grad_norm": 0.964155912399292,
      "learning_rate": 0.00029999760392194374,
      "loss": 4.1353,
      "step": 2860
    },
    {
      "epoch": 0.0059791666666666665,
      "grad_norm": 0.9044974446296692,
      "learning_rate": 0.0002999975478753815,
      "loss": 4.2462,
      "step": 2870
    },
    {
      "epoch": 0.006,
      "grad_norm": 1.0221383571624756,
      "learning_rate": 0.00029999749118088924,
      "loss": 4.1503,
      "step": 2880
    },
    {
      "epoch": 0.006020833333333334,
      "grad_norm": 0.9620047211647034,
      "learning_rate": 0.0002999974338384672,
      "loss": 4.0076,
      "step": 2890
    },
    {
      "epoch": 0.0060416666666666665,
      "grad_norm": 0.9373981356620789,
      "learning_rate": 0.0002999973758481156,
      "loss": 4.2175,
      "step": 2900
    },
    {
      "epoch": 0.0060625,
      "grad_norm": 1.0862994194030762,
      "learning_rate": 0.00029999731720983466,
      "loss": 4.0353,
      "step": 2910
    },
    {
      "epoch": 0.006083333333333333,
      "grad_norm": 1.1491087675094604,
      "learning_rate": 0.00029999725792362477,
      "loss": 4.1164,
      "step": 2920
    },
    {
      "epoch": 0.006104166666666667,
      "grad_norm": 1.0262116193771362,
      "learning_rate": 0.000299997197989486,
      "loss": 4.0479,
      "step": 2930
    },
    {
      "epoch": 0.006125,
      "grad_norm": 1.1843056678771973,
      "learning_rate": 0.0002999971374074188,
      "loss": 4.1838,
      "step": 2940
    },
    {
      "epoch": 0.006145833333333333,
      "grad_norm": 1.049102544784546,
      "learning_rate": 0.0002999970761774233,
      "loss": 4.1142,
      "step": 2950
    },
    {
      "epoch": 0.006166666666666667,
      "grad_norm": 0.9689348936080933,
      "learning_rate": 0.0002999970142994998,
      "loss": 4.1138,
      "step": 2960
    },
    {
      "epoch": 0.0061875,
      "grad_norm": 1.0530732870101929,
      "learning_rate": 0.0002999969517736486,
      "loss": 4.29,
      "step": 2970
    },
    {
      "epoch": 0.006208333333333333,
      "grad_norm": 1.7195388078689575,
      "learning_rate": 0.0002999968885998699,
      "loss": 4.1257,
      "step": 2980
    },
    {
      "epoch": 0.006229166666666667,
      "grad_norm": 1.0450174808502197,
      "learning_rate": 0.000299996824778164,
      "loss": 4.1088,
      "step": 2990
    },
    {
      "epoch": 0.00625,
      "grad_norm": 1.228456735610962,
      "learning_rate": 0.00029999676030853127,
      "loss": 4.2825,
      "step": 3000
    },
    {
      "epoch": 0.00625,
      "eval_loss": 4.378960609436035,
      "eval_runtime": 8.8477,
      "eval_samples_per_second": 1.13,
      "eval_steps_per_second": 0.339,
      "step": 3000
    },
    {
      "epoch": 0.006270833333333333,
      "grad_norm": 1.0226293802261353,
      "learning_rate": 0.00029999669519097187,
      "loss": 4.0176,
      "step": 3010
    },
    {
      "epoch": 0.006291666666666667,
      "grad_norm": 1.0989165306091309,
      "learning_rate": 0.0002999966294254861,
      "loss": 4.0433,
      "step": 3020
    },
    {
      "epoch": 0.0063125,
      "grad_norm": 1.1580628156661987,
      "learning_rate": 0.00029999656301207426,
      "loss": 4.2991,
      "step": 3030
    },
    {
      "epoch": 0.006333333333333333,
      "grad_norm": 1.0603053569793701,
      "learning_rate": 0.0002999964959507367,
      "loss": 4.2655,
      "step": 3040
    },
    {
      "epoch": 0.006354166666666667,
      "grad_norm": 1.0689760446548462,
      "learning_rate": 0.00029999642824147355,
      "loss": 4.2025,
      "step": 3050
    },
    {
      "epoch": 0.006375,
      "grad_norm": 0.9069424867630005,
      "learning_rate": 0.00029999635988428526,
      "loss": 4.1641,
      "step": 3060
    },
    {
      "epoch": 0.006395833333333333,
      "grad_norm": 1.004957914352417,
      "learning_rate": 0.0002999962908791721,
      "loss": 4.0479,
      "step": 3070
    },
    {
      "epoch": 0.006416666666666667,
      "grad_norm": 1.0289911031723022,
      "learning_rate": 0.0002999962212261343,
      "loss": 4.2761,
      "step": 3080
    },
    {
      "epoch": 0.0064375,
      "grad_norm": 1.219789981842041,
      "learning_rate": 0.0002999961509251722,
      "loss": 4.1492,
      "step": 3090
    },
    {
      "epoch": 0.006458333333333333,
      "grad_norm": 1.4861950874328613,
      "learning_rate": 0.0002999960799762861,
      "loss": 4.0238,
      "step": 3100
    },
    {
      "epoch": 0.006479166666666667,
      "grad_norm": 0.96826171875,
      "learning_rate": 0.00029999600837947633,
      "loss": 4.1346,
      "step": 3110
    },
    {
      "epoch": 0.0065,
      "grad_norm": 1.0257459878921509,
      "learning_rate": 0.00029999593613474313,
      "loss": 4.0958,
      "step": 3120
    },
    {
      "epoch": 0.006520833333333333,
      "grad_norm": 1.6640087366104126,
      "learning_rate": 0.00029999586324208687,
      "loss": 3.9899,
      "step": 3130
    },
    {
      "epoch": 0.006541666666666667,
      "grad_norm": 1.0861214399337769,
      "learning_rate": 0.0002999957897015079,
      "loss": 3.9649,
      "step": 3140
    },
    {
      "epoch": 0.0065625,
      "grad_norm": 0.9673305153846741,
      "learning_rate": 0.00029999571551300643,
      "loss": 4.0539,
      "step": 3150
    },
    {
      "epoch": 0.006583333333333333,
      "grad_norm": 0.9759741425514221,
      "learning_rate": 0.0002999956406765829,
      "loss": 4.0037,
      "step": 3160
    },
    {
      "epoch": 0.006604166666666667,
      "grad_norm": 1.2089710235595703,
      "learning_rate": 0.0002999955651922376,
      "loss": 4.0834,
      "step": 3170
    },
    {
      "epoch": 0.006625,
      "grad_norm": 1.2135523557662964,
      "learning_rate": 0.00029999548905997075,
      "loss": 4.2219,
      "step": 3180
    },
    {
      "epoch": 0.0066458333333333335,
      "grad_norm": 0.9745142459869385,
      "learning_rate": 0.00029999541227978275,
      "loss": 4.1502,
      "step": 3190
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 0.9930278658866882,
      "learning_rate": 0.00029999533485167395,
      "loss": 4.0187,
      "step": 3200
    },
    {
      "epoch": 0.0066875,
      "grad_norm": 0.9936468601226807,
      "learning_rate": 0.0002999952567756447,
      "loss": 3.9984,
      "step": 3210
    },
    {
      "epoch": 0.0067083333333333335,
      "grad_norm": 1.0657151937484741,
      "learning_rate": 0.00029999517805169535,
      "loss": 3.9239,
      "step": 3220
    },
    {
      "epoch": 0.006729166666666666,
      "grad_norm": 1.2029967308044434,
      "learning_rate": 0.00029999509867982614,
      "loss": 4.0249,
      "step": 3230
    },
    {
      "epoch": 0.00675,
      "grad_norm": 1.0581333637237549,
      "learning_rate": 0.00029999501866003755,
      "loss": 4.1263,
      "step": 3240
    },
    {
      "epoch": 0.0067708333333333336,
      "grad_norm": 0.9429060220718384,
      "learning_rate": 0.00029999493799232974,
      "loss": 4.1181,
      "step": 3250
    },
    {
      "epoch": 0.006791666666666666,
      "grad_norm": 1.3834877014160156,
      "learning_rate": 0.00029999485667670325,
      "loss": 4.0355,
      "step": 3260
    },
    {
      "epoch": 0.0068125,
      "grad_norm": 1.0421152114868164,
      "learning_rate": 0.00029999477471315836,
      "loss": 4.0786,
      "step": 3270
    },
    {
      "epoch": 0.006833333333333334,
      "grad_norm": 0.9363729953765869,
      "learning_rate": 0.00029999469210169533,
      "loss": 4.2617,
      "step": 3280
    },
    {
      "epoch": 0.006854166666666666,
      "grad_norm": 0.9872600436210632,
      "learning_rate": 0.0002999946088423147,
      "loss": 4.3244,
      "step": 3290
    },
    {
      "epoch": 0.006875,
      "grad_norm": 0.9648100137710571,
      "learning_rate": 0.0002999945249350167,
      "loss": 4.209,
      "step": 3300
    },
    {
      "epoch": 0.006895833333333334,
      "grad_norm": 0.9150853157043457,
      "learning_rate": 0.00029999444037980173,
      "loss": 4.1278,
      "step": 3310
    },
    {
      "epoch": 0.0069166666666666664,
      "grad_norm": 1.055658221244812,
      "learning_rate": 0.0002999943551766701,
      "loss": 4.0166,
      "step": 3320
    },
    {
      "epoch": 0.0069375,
      "grad_norm": 1.0330820083618164,
      "learning_rate": 0.0002999942693256223,
      "loss": 3.9702,
      "step": 3330
    },
    {
      "epoch": 0.006958333333333334,
      "grad_norm": 1.051222801208496,
      "learning_rate": 0.00029999418282665864,
      "loss": 3.9864,
      "step": 3340
    },
    {
      "epoch": 0.0069791666666666665,
      "grad_norm": 1.012973427772522,
      "learning_rate": 0.00029999409567977935,
      "loss": 3.9872,
      "step": 3350
    },
    {
      "epoch": 0.007,
      "grad_norm": 1.0198677778244019,
      "learning_rate": 0.0002999940078849851,
      "loss": 4.0731,
      "step": 3360
    },
    {
      "epoch": 0.007020833333333333,
      "grad_norm": 0.8081440925598145,
      "learning_rate": 0.000299993919442276,
      "loss": 4.1988,
      "step": 3370
    },
    {
      "epoch": 0.0070416666666666666,
      "grad_norm": 0.9568122029304504,
      "learning_rate": 0.0002999938303516526,
      "loss": 4.0705,
      "step": 3380
    },
    {
      "epoch": 0.0070625,
      "grad_norm": 1.230553150177002,
      "learning_rate": 0.0002999937406131152,
      "loss": 4.1092,
      "step": 3390
    },
    {
      "epoch": 0.007083333333333333,
      "grad_norm": 1.1079275608062744,
      "learning_rate": 0.00029999365022666415,
      "loss": 4.2416,
      "step": 3400
    },
    {
      "epoch": 0.007104166666666667,
      "grad_norm": 0.9667612910270691,
      "learning_rate": 0.00029999355919229997,
      "loss": 4.194,
      "step": 3410
    },
    {
      "epoch": 0.007125,
      "grad_norm": 1.2702641487121582,
      "learning_rate": 0.00029999346751002296,
      "loss": 4.179,
      "step": 3420
    },
    {
      "epoch": 0.007145833333333333,
      "grad_norm": 1.158349871635437,
      "learning_rate": 0.00029999337517983357,
      "loss": 3.9772,
      "step": 3430
    },
    {
      "epoch": 0.007166666666666667,
      "grad_norm": 1.153567910194397,
      "learning_rate": 0.00029999328220173217,
      "loss": 3.9881,
      "step": 3440
    },
    {
      "epoch": 0.0071875,
      "grad_norm": 0.9724677801132202,
      "learning_rate": 0.0002999931885757192,
      "loss": 4.0156,
      "step": 3450
    },
    {
      "epoch": 0.007208333333333333,
      "grad_norm": 0.9752664566040039,
      "learning_rate": 0.0002999930943017949,
      "loss": 4.0632,
      "step": 3460
    },
    {
      "epoch": 0.007229166666666667,
      "grad_norm": 1.0466904640197754,
      "learning_rate": 0.00029999299937995993,
      "loss": 4.1103,
      "step": 3470
    },
    {
      "epoch": 0.00725,
      "grad_norm": 1.1763368844985962,
      "learning_rate": 0.0002999929038102145,
      "loss": 3.9864,
      "step": 3480
    },
    {
      "epoch": 0.007270833333333333,
      "grad_norm": 1.0249053239822388,
      "learning_rate": 0.00029999280759255913,
      "loss": 4.1273,
      "step": 3490
    },
    {
      "epoch": 0.007291666666666667,
      "grad_norm": 1.0555284023284912,
      "learning_rate": 0.0002999927107269942,
      "loss": 4.0869,
      "step": 3500
    },
    {
      "epoch": 0.0073125,
      "grad_norm": 0.8717091083526611,
      "learning_rate": 0.0002999926132135202,
      "loss": 4.1583,
      "step": 3510
    },
    {
      "epoch": 0.007333333333333333,
      "grad_norm": 0.9739394187927246,
      "learning_rate": 0.00029999251505213734,
      "loss": 4.0874,
      "step": 3520
    },
    {
      "epoch": 0.007354166666666667,
      "grad_norm": 1.0422697067260742,
      "learning_rate": 0.00029999241624284624,
      "loss": 4.2855,
      "step": 3530
    },
    {
      "epoch": 0.007375,
      "grad_norm": 0.8878806233406067,
      "learning_rate": 0.0002999923167856473,
      "loss": 4.0969,
      "step": 3540
    },
    {
      "epoch": 0.007395833333333333,
      "grad_norm": 0.9929745197296143,
      "learning_rate": 0.0002999922166805409,
      "loss": 4.181,
      "step": 3550
    },
    {
      "epoch": 0.007416666666666667,
      "grad_norm": 1.059216022491455,
      "learning_rate": 0.0002999921159275275,
      "loss": 4.0431,
      "step": 3560
    },
    {
      "epoch": 0.0074375,
      "grad_norm": 0.9647489190101624,
      "learning_rate": 0.0002999920145266076,
      "loss": 3.9452,
      "step": 3570
    },
    {
      "epoch": 0.007458333333333333,
      "grad_norm": 0.9883825182914734,
      "learning_rate": 0.0002999919124777815,
      "loss": 3.9943,
      "step": 3580
    },
    {
      "epoch": 0.007479166666666667,
      "grad_norm": 1.7491518259048462,
      "learning_rate": 0.00029999180978104966,
      "loss": 4.2686,
      "step": 3590
    },
    {
      "epoch": 0.0075,
      "grad_norm": 0.9396332502365112,
      "learning_rate": 0.00029999170643641267,
      "loss": 4.0992,
      "step": 3600
    },
    {
      "epoch": 0.007520833333333333,
      "grad_norm": 1.0325697660446167,
      "learning_rate": 0.0002999916024438708,
      "loss": 4.0462,
      "step": 3610
    },
    {
      "epoch": 0.007541666666666667,
      "grad_norm": 1.132477879524231,
      "learning_rate": 0.0002999914978034246,
      "loss": 4.0857,
      "step": 3620
    },
    {
      "epoch": 0.0075625,
      "grad_norm": 0.9360105395317078,
      "learning_rate": 0.0002999913925150746,
      "loss": 4.1431,
      "step": 3630
    },
    {
      "epoch": 0.007583333333333333,
      "grad_norm": 1.0355085134506226,
      "learning_rate": 0.000299991286578821,
      "loss": 4.0801,
      "step": 3640
    },
    {
      "epoch": 0.007604166666666667,
      "grad_norm": 1.011344313621521,
      "learning_rate": 0.0002999911799946645,
      "loss": 4.0594,
      "step": 3650
    },
    {
      "epoch": 0.007625,
      "grad_norm": 1.94801926612854,
      "learning_rate": 0.00029999107276260545,
      "loss": 3.8672,
      "step": 3660
    },
    {
      "epoch": 0.0076458333333333335,
      "grad_norm": 1.0276235342025757,
      "learning_rate": 0.00029999096488264436,
      "loss": 4.2793,
      "step": 3670
    },
    {
      "epoch": 0.007666666666666666,
      "grad_norm": 1.0639641284942627,
      "learning_rate": 0.00029999085635478166,
      "loss": 4.1022,
      "step": 3680
    },
    {
      "epoch": 0.0076875,
      "grad_norm": 1.0312830209732056,
      "learning_rate": 0.0002999907471790178,
      "loss": 4.1329,
      "step": 3690
    },
    {
      "epoch": 0.0077083333333333335,
      "grad_norm": 0.9456416368484497,
      "learning_rate": 0.0002999906373553533,
      "loss": 4.1512,
      "step": 3700
    },
    {
      "epoch": 0.007729166666666666,
      "grad_norm": 1.0327266454696655,
      "learning_rate": 0.00029999052688378864,
      "loss": 4.0437,
      "step": 3710
    },
    {
      "epoch": 0.00775,
      "grad_norm": 1.0199079513549805,
      "learning_rate": 0.00029999041576432426,
      "loss": 4.1266,
      "step": 3720
    },
    {
      "epoch": 0.007770833333333334,
      "grad_norm": 0.9087216854095459,
      "learning_rate": 0.00029999030399696067,
      "loss": 4.0776,
      "step": 3730
    },
    {
      "epoch": 0.007791666666666666,
      "grad_norm": 1.1087385416030884,
      "learning_rate": 0.0002999901915816983,
      "loss": 4.2229,
      "step": 3740
    },
    {
      "epoch": 0.0078125,
      "grad_norm": 0.8982157707214355,
      "learning_rate": 0.0002999900785185377,
      "loss": 4.1174,
      "step": 3750
    },
    {
      "epoch": 0.007833333333333333,
      "grad_norm": 0.8922094106674194,
      "learning_rate": 0.0002999899648074793,
      "loss": 4.1664,
      "step": 3760
    },
    {
      "epoch": 0.007854166666666667,
      "grad_norm": 0.9248464107513428,
      "learning_rate": 0.00029998985044852363,
      "loss": 3.9535,
      "step": 3770
    },
    {
      "epoch": 0.007875,
      "grad_norm": 1.0945724248886108,
      "learning_rate": 0.0002999897354416712,
      "loss": 4.0894,
      "step": 3780
    },
    {
      "epoch": 0.007895833333333333,
      "grad_norm": 1.1510943174362183,
      "learning_rate": 0.0002999896197869225,
      "loss": 4.1383,
      "step": 3790
    },
    {
      "epoch": 0.007916666666666667,
      "grad_norm": 1.1635935306549072,
      "learning_rate": 0.000299989503484278,
      "loss": 4.1987,
      "step": 3800
    },
    {
      "epoch": 0.0079375,
      "grad_norm": 0.8856581449508667,
      "learning_rate": 0.0002999893865337382,
      "loss": 4.2426,
      "step": 3810
    },
    {
      "epoch": 0.007958333333333333,
      "grad_norm": 0.9936603903770447,
      "learning_rate": 0.00029998926893530357,
      "loss": 4.0476,
      "step": 3820
    },
    {
      "epoch": 0.007979166666666667,
      "grad_norm": 1.0611181259155273,
      "learning_rate": 0.0002999891506889747,
      "loss": 4.0121,
      "step": 3830
    },
    {
      "epoch": 0.008,
      "grad_norm": 0.9917404651641846,
      "learning_rate": 0.0002999890317947521,
      "loss": 4.1045,
      "step": 3840
    },
    {
      "epoch": 0.008020833333333333,
      "grad_norm": 0.9718139171600342,
      "learning_rate": 0.0002999889122526363,
      "loss": 4.0057,
      "step": 3850
    },
    {
      "epoch": 0.008041666666666667,
      "grad_norm": 0.9431995749473572,
      "learning_rate": 0.00029998879206262767,
      "loss": 3.978,
      "step": 3860
    },
    {
      "epoch": 0.0080625,
      "grad_norm": 0.9864229559898376,
      "learning_rate": 0.0002999886712247269,
      "loss": 4.0648,
      "step": 3870
    },
    {
      "epoch": 0.008083333333333333,
      "grad_norm": 0.941291868686676,
      "learning_rate": 0.0002999885497389344,
      "loss": 3.9596,
      "step": 3880
    },
    {
      "epoch": 0.008104166666666668,
      "grad_norm": 0.9219740033149719,
      "learning_rate": 0.00029998842760525074,
      "loss": 3.9756,
      "step": 3890
    },
    {
      "epoch": 0.008125,
      "grad_norm": 0.9785711169242859,
      "learning_rate": 0.00029998830482367645,
      "loss": 4.0041,
      "step": 3900
    },
    {
      "epoch": 0.008145833333333333,
      "grad_norm": 1.0201159715652466,
      "learning_rate": 0.00029998818139421204,
      "loss": 3.9864,
      "step": 3910
    },
    {
      "epoch": 0.008166666666666666,
      "grad_norm": 0.9140158891677856,
      "learning_rate": 0.0002999880573168581,
      "loss": 4.0738,
      "step": 3920
    },
    {
      "epoch": 0.0081875,
      "grad_norm": 1.0216072797775269,
      "learning_rate": 0.00029998793259161503,
      "loss": 4.0114,
      "step": 3930
    },
    {
      "epoch": 0.008208333333333333,
      "grad_norm": 1.4922420978546143,
      "learning_rate": 0.00029998780721848356,
      "loss": 4.1293,
      "step": 3940
    },
    {
      "epoch": 0.008229166666666666,
      "grad_norm": 1.0311052799224854,
      "learning_rate": 0.00029998768119746404,
      "loss": 4.2765,
      "step": 3950
    },
    {
      "epoch": 0.00825,
      "grad_norm": 1.01318359375,
      "learning_rate": 0.0002999875545285572,
      "loss": 4.221,
      "step": 3960
    },
    {
      "epoch": 0.008270833333333333,
      "grad_norm": 1.1478917598724365,
      "learning_rate": 0.0002999874272117634,
      "loss": 4.2538,
      "step": 3970
    },
    {
      "epoch": 0.008291666666666666,
      "grad_norm": 0.9388420581817627,
      "learning_rate": 0.0002999872992470833,
      "loss": 4.1074,
      "step": 3980
    },
    {
      "epoch": 0.0083125,
      "grad_norm": 0.9623293876647949,
      "learning_rate": 0.0002999871706345175,
      "loss": 4.1475,
      "step": 3990
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 0.9232184886932373,
      "learning_rate": 0.0002999870413740665,
      "loss": 4.1645,
      "step": 4000
    },
    {
      "epoch": 0.008333333333333333,
      "eval_loss": 4.344626426696777,
      "eval_runtime": 8.8815,
      "eval_samples_per_second": 1.126,
      "eval_steps_per_second": 0.338,
      "step": 4000
    },
    {
      "epoch": 0.008354166666666666,
      "grad_norm": 1.1243256330490112,
      "learning_rate": 0.00029998691146573077,
      "loss": 4.1855,
      "step": 4010
    },
    {
      "epoch": 0.008375,
      "grad_norm": 1.0673884153366089,
      "learning_rate": 0.000299986780909511,
      "loss": 4.1537,
      "step": 4020
    },
    {
      "epoch": 0.008395833333333333,
      "grad_norm": 1.016884684562683,
      "learning_rate": 0.00029998664970540766,
      "loss": 4.1361,
      "step": 4030
    },
    {
      "epoch": 0.008416666666666666,
      "grad_norm": 1.143649935722351,
      "learning_rate": 0.0002999865178534214,
      "loss": 4.2514,
      "step": 4040
    },
    {
      "epoch": 0.0084375,
      "grad_norm": 0.955266535282135,
      "learning_rate": 0.0002999863853535528,
      "loss": 4.0963,
      "step": 4050
    },
    {
      "epoch": 0.008458333333333333,
      "grad_norm": 0.9963364601135254,
      "learning_rate": 0.00029998625220580233,
      "loss": 4.1306,
      "step": 4060
    },
    {
      "epoch": 0.008479166666666666,
      "grad_norm": 1.0318132638931274,
      "learning_rate": 0.00029998611841017064,
      "loss": 4.0334,
      "step": 4070
    },
    {
      "epoch": 0.0085,
      "grad_norm": 1.06947660446167,
      "learning_rate": 0.00029998598396665827,
      "loss": 4.0345,
      "step": 4080
    },
    {
      "epoch": 0.008520833333333333,
      "grad_norm": 0.7951093912124634,
      "learning_rate": 0.0002999858488752658,
      "loss": 4.0281,
      "step": 4090
    },
    {
      "epoch": 0.008541666666666666,
      "grad_norm": 1.0295147895812988,
      "learning_rate": 0.00029998571313599384,
      "loss": 3.9276,
      "step": 4100
    },
    {
      "epoch": 0.0085625,
      "grad_norm": 1.0354214906692505,
      "learning_rate": 0.000299985576748843,
      "loss": 4.0168,
      "step": 4110
    },
    {
      "epoch": 0.008583333333333333,
      "grad_norm": 1.069574236869812,
      "learning_rate": 0.0002999854397138138,
      "loss": 4.0646,
      "step": 4120
    },
    {
      "epoch": 0.008604166666666666,
      "grad_norm": 0.9855145215988159,
      "learning_rate": 0.0002999853020309069,
      "loss": 4.1169,
      "step": 4130
    },
    {
      "epoch": 0.008625,
      "grad_norm": 0.9590917825698853,
      "learning_rate": 0.00029998516370012286,
      "loss": 4.3467,
      "step": 4140
    },
    {
      "epoch": 0.008645833333333333,
      "grad_norm": 1.0236679315567017,
      "learning_rate": 0.00029998502472146224,
      "loss": 4.0406,
      "step": 4150
    },
    {
      "epoch": 0.008666666666666666,
      "grad_norm": 1.089318871498108,
      "learning_rate": 0.00029998488509492573,
      "loss": 4.0066,
      "step": 4160
    },
    {
      "epoch": 0.0086875,
      "grad_norm": 0.9119101762771606,
      "learning_rate": 0.00029998474482051385,
      "loss": 4.0957,
      "step": 4170
    },
    {
      "epoch": 0.008708333333333334,
      "grad_norm": 0.9008681774139404,
      "learning_rate": 0.00029998460389822726,
      "loss": 4.0443,
      "step": 4180
    },
    {
      "epoch": 0.008729166666666666,
      "grad_norm": 1.3638948202133179,
      "learning_rate": 0.00029998446232806656,
      "loss": 4.1917,
      "step": 4190
    },
    {
      "epoch": 0.00875,
      "grad_norm": 1.1425158977508545,
      "learning_rate": 0.00029998432011003233,
      "loss": 4.0617,
      "step": 4200
    },
    {
      "epoch": 0.008770833333333334,
      "grad_norm": 1.031792163848877,
      "learning_rate": 0.0002999841772441252,
      "loss": 3.9981,
      "step": 4210
    },
    {
      "epoch": 0.008791666666666666,
      "grad_norm": 1.0319832563400269,
      "learning_rate": 0.00029998403373034577,
      "loss": 3.9967,
      "step": 4220
    },
    {
      "epoch": 0.0088125,
      "grad_norm": 0.9644712805747986,
      "learning_rate": 0.0002999838895686947,
      "loss": 4.1769,
      "step": 4230
    },
    {
      "epoch": 0.008833333333333334,
      "grad_norm": 1.019997477531433,
      "learning_rate": 0.00029998374475917266,
      "loss": 4.052,
      "step": 4240
    },
    {
      "epoch": 0.008854166666666666,
      "grad_norm": 1.0303020477294922,
      "learning_rate": 0.0002999835993017801,
      "loss": 4.143,
      "step": 4250
    },
    {
      "epoch": 0.008875,
      "grad_norm": 0.9148163795471191,
      "learning_rate": 0.00029998345319651783,
      "loss": 4.1927,
      "step": 4260
    },
    {
      "epoch": 0.008895833333333334,
      "grad_norm": 0.8995682597160339,
      "learning_rate": 0.00029998330644338643,
      "loss": 4.0264,
      "step": 4270
    },
    {
      "epoch": 0.008916666666666666,
      "grad_norm": 0.9485030770301819,
      "learning_rate": 0.00029998315904238644,
      "loss": 4.2882,
      "step": 4280
    },
    {
      "epoch": 0.0089375,
      "grad_norm": 1.0049161911010742,
      "learning_rate": 0.0002999830109935187,
      "loss": 4.1111,
      "step": 4290
    },
    {
      "epoch": 0.008958333333333334,
      "grad_norm": 0.9980230927467346,
      "learning_rate": 0.0002999828622967836,
      "loss": 4.0975,
      "step": 4300
    },
    {
      "epoch": 0.008979166666666667,
      "grad_norm": 1.0125739574432373,
      "learning_rate": 0.0002999827129521819,
      "loss": 3.983,
      "step": 4310
    },
    {
      "epoch": 0.009,
      "grad_norm": 0.9592376947402954,
      "learning_rate": 0.0002999825629597143,
      "loss": 4.1672,
      "step": 4320
    },
    {
      "epoch": 0.009020833333333334,
      "grad_norm": 0.9460607767105103,
      "learning_rate": 0.00029998241231938134,
      "loss": 3.9299,
      "step": 4330
    },
    {
      "epoch": 0.009041666666666667,
      "grad_norm": 0.8304726481437683,
      "learning_rate": 0.00029998226103118377,
      "loss": 4.2397,
      "step": 4340
    },
    {
      "epoch": 0.0090625,
      "grad_norm": 0.9739450216293335,
      "learning_rate": 0.00029998210909512217,
      "loss": 3.9122,
      "step": 4350
    },
    {
      "epoch": 0.009083333333333334,
      "grad_norm": 1.1449451446533203,
      "learning_rate": 0.0002999819565111973,
      "loss": 3.9826,
      "step": 4360
    },
    {
      "epoch": 0.009104166666666667,
      "grad_norm": 1.0574077367782593,
      "learning_rate": 0.00029998180327940973,
      "loss": 4.1161,
      "step": 4370
    },
    {
      "epoch": 0.009125,
      "grad_norm": 1.0234532356262207,
      "learning_rate": 0.00029998164939976004,
      "loss": 4.0794,
      "step": 4380
    },
    {
      "epoch": 0.009145833333333334,
      "grad_norm": 0.8376774787902832,
      "learning_rate": 0.0002999814948722491,
      "loss": 4.1355,
      "step": 4390
    },
    {
      "epoch": 0.009166666666666667,
      "grad_norm": 0.8910546898841858,
      "learning_rate": 0.0002999813396968774,
      "loss": 4.0935,
      "step": 4400
    },
    {
      "epoch": 0.0091875,
      "grad_norm": 0.8840876817703247,
      "learning_rate": 0.0002999811838736457,
      "loss": 4.3061,
      "step": 4410
    },
    {
      "epoch": 0.009208333333333334,
      "grad_norm": 0.9769382476806641,
      "learning_rate": 0.0002999810274025546,
      "loss": 4.0736,
      "step": 4420
    },
    {
      "epoch": 0.009229166666666667,
      "grad_norm": 1.0291005373001099,
      "learning_rate": 0.0002999808702836049,
      "loss": 4.1609,
      "step": 4430
    },
    {
      "epoch": 0.00925,
      "grad_norm": 0.9491590261459351,
      "learning_rate": 0.00029998071251679723,
      "loss": 4.0267,
      "step": 4440
    },
    {
      "epoch": 0.009270833333333334,
      "grad_norm": 1.089226245880127,
      "learning_rate": 0.00029998055410213216,
      "loss": 4.0875,
      "step": 4450
    },
    {
      "epoch": 0.009291666666666667,
      "grad_norm": 1.0706385374069214,
      "learning_rate": 0.00029998039503961055,
      "loss": 4.0191,
      "step": 4460
    },
    {
      "epoch": 0.0093125,
      "grad_norm": 0.9832356572151184,
      "learning_rate": 0.0002999802353292329,
      "loss": 4.2588,
      "step": 4470
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 0.966361939907074,
      "learning_rate": 0.0002999800749710001,
      "loss": 4.0292,
      "step": 4480
    },
    {
      "epoch": 0.009354166666666667,
      "grad_norm": 0.9859091639518738,
      "learning_rate": 0.00029997991396491267,
      "loss": 4.2235,
      "step": 4490
    },
    {
      "epoch": 0.009375,
      "grad_norm": 0.9760363698005676,
      "learning_rate": 0.0002999797523109714,
      "loss": 4.1272,
      "step": 4500
    },
    {
      "epoch": 0.009395833333333334,
      "grad_norm": 1.1319416761398315,
      "learning_rate": 0.000299979590009177,
      "loss": 3.8141,
      "step": 4510
    },
    {
      "epoch": 0.009416666666666667,
      "grad_norm": 1.058521032333374,
      "learning_rate": 0.0002999794270595301,
      "loss": 4.2047,
      "step": 4520
    },
    {
      "epoch": 0.0094375,
      "grad_norm": 0.9600679874420166,
      "learning_rate": 0.0002999792634620314,
      "loss": 4.0714,
      "step": 4530
    },
    {
      "epoch": 0.009458333333333332,
      "grad_norm": 1.0818012952804565,
      "learning_rate": 0.0002999790992166817,
      "loss": 4.0849,
      "step": 4540
    },
    {
      "epoch": 0.009479166666666667,
      "grad_norm": 1.0046089887619019,
      "learning_rate": 0.00029997893432348165,
      "loss": 3.9717,
      "step": 4550
    },
    {
      "epoch": 0.0095,
      "grad_norm": 1.1016243696212769,
      "learning_rate": 0.00029997876878243204,
      "loss": 4.26,
      "step": 4560
    },
    {
      "epoch": 0.009520833333333333,
      "grad_norm": 1.1213055849075317,
      "learning_rate": 0.00029997860259353346,
      "loss": 3.9202,
      "step": 4570
    },
    {
      "epoch": 0.009541666666666667,
      "grad_norm": 1.0830364227294922,
      "learning_rate": 0.00029997843575678667,
      "loss": 4.0014,
      "step": 4580
    },
    {
      "epoch": 0.0095625,
      "grad_norm": 0.892376720905304,
      "learning_rate": 0.0002999782682721924,
      "loss": 4.1357,
      "step": 4590
    },
    {
      "epoch": 0.009583333333333333,
      "grad_norm": 1.0177985429763794,
      "learning_rate": 0.00029997810013975137,
      "loss": 4.0604,
      "step": 4600
    },
    {
      "epoch": 0.009604166666666667,
      "grad_norm": 1.0660438537597656,
      "learning_rate": 0.0002999779313594643,
      "loss": 4.1728,
      "step": 4610
    },
    {
      "epoch": 0.009625,
      "grad_norm": 0.9619247913360596,
      "learning_rate": 0.000299977761931332,
      "loss": 4.0696,
      "step": 4620
    },
    {
      "epoch": 0.009645833333333333,
      "grad_norm": 1.0453952550888062,
      "learning_rate": 0.0002999775918553551,
      "loss": 4.2251,
      "step": 4630
    },
    {
      "epoch": 0.009666666666666667,
      "grad_norm": 0.9851884245872498,
      "learning_rate": 0.0002999774211315343,
      "loss": 4.1434,
      "step": 4640
    },
    {
      "epoch": 0.0096875,
      "grad_norm": 0.9162231683731079,
      "learning_rate": 0.0002999772497598705,
      "loss": 4.1694,
      "step": 4650
    },
    {
      "epoch": 0.009708333333333333,
      "grad_norm": 1.106068730354309,
      "learning_rate": 0.0002999770777403643,
      "loss": 4.081,
      "step": 4660
    },
    {
      "epoch": 0.009729166666666667,
      "grad_norm": 0.8733890652656555,
      "learning_rate": 0.0002999769050730165,
      "loss": 4.2417,
      "step": 4670
    },
    {
      "epoch": 0.00975,
      "grad_norm": 0.9880221486091614,
      "learning_rate": 0.00029997673175782786,
      "loss": 4.2314,
      "step": 4680
    },
    {
      "epoch": 0.009770833333333333,
      "grad_norm": 1.1616184711456299,
      "learning_rate": 0.00029997655779479904,
      "loss": 4.1721,
      "step": 4690
    },
    {
      "epoch": 0.009791666666666667,
      "grad_norm": 0.8936964869499207,
      "learning_rate": 0.00029997638318393096,
      "loss": 4.2603,
      "step": 4700
    },
    {
      "epoch": 0.0098125,
      "grad_norm": 0.9306889176368713,
      "learning_rate": 0.00029997620792522416,
      "loss": 4.2908,
      "step": 4710
    },
    {
      "epoch": 0.009833333333333333,
      "grad_norm": 1.1105449199676514,
      "learning_rate": 0.00029997603201867957,
      "loss": 4.1358,
      "step": 4720
    },
    {
      "epoch": 0.009854166666666667,
      "grad_norm": 1.1639209985733032,
      "learning_rate": 0.00029997585546429783,
      "loss": 4.0373,
      "step": 4730
    },
    {
      "epoch": 0.009875,
      "grad_norm": 1.1427661180496216,
      "learning_rate": 0.0002999756782620798,
      "loss": 4.0461,
      "step": 4740
    },
    {
      "epoch": 0.009895833333333333,
      "grad_norm": 1.0038659572601318,
      "learning_rate": 0.00029997550041202623,
      "loss": 4.1233,
      "step": 4750
    },
    {
      "epoch": 0.009916666666666667,
      "grad_norm": 0.9660082459449768,
      "learning_rate": 0.00029997532191413783,
      "loss": 4.2012,
      "step": 4760
    },
    {
      "epoch": 0.0099375,
      "grad_norm": 0.8811535835266113,
      "learning_rate": 0.0002999751427684154,
      "loss": 4.223,
      "step": 4770
    },
    {
      "epoch": 0.009958333333333333,
      "grad_norm": 0.8887596726417542,
      "learning_rate": 0.00029997496297485974,
      "loss": 3.9292,
      "step": 4780
    },
    {
      "epoch": 0.009979166666666667,
      "grad_norm": 1.0434662103652954,
      "learning_rate": 0.00029997478253347156,
      "loss": 4.1467,
      "step": 4790
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.9406684041023254,
      "learning_rate": 0.0002999746014442517,
      "loss": 4.1734,
      "step": 4800
    },
    {
      "epoch": 0.010020833333333333,
      "grad_norm": 1.1713988780975342,
      "learning_rate": 0.0002999744197072009,
      "loss": 4.1302,
      "step": 4810
    },
    {
      "epoch": 0.010041666666666667,
      "grad_norm": 1.012882947921753,
      "learning_rate": 0.00029997423732232005,
      "loss": 3.896,
      "step": 4820
    },
    {
      "epoch": 0.0100625,
      "grad_norm": 1.1197835206985474,
      "learning_rate": 0.0002999740542896098,
      "loss": 3.9719,
      "step": 4830
    },
    {
      "epoch": 0.010083333333333333,
      "grad_norm": 1.0985404253005981,
      "learning_rate": 0.00029997387060907104,
      "loss": 3.9741,
      "step": 4840
    },
    {
      "epoch": 0.010104166666666666,
      "grad_norm": 0.9690613150596619,
      "learning_rate": 0.0002999736862807045,
      "loss": 4.4011,
      "step": 4850
    },
    {
      "epoch": 0.010125,
      "grad_norm": 3.1978161334991455,
      "learning_rate": 0.000299973501304511,
      "loss": 4.09,
      "step": 4860
    },
    {
      "epoch": 0.010145833333333333,
      "grad_norm": 1.0629050731658936,
      "learning_rate": 0.00029997331568049133,
      "loss": 3.9067,
      "step": 4870
    },
    {
      "epoch": 0.010166666666666666,
      "grad_norm": 0.9088018536567688,
      "learning_rate": 0.0002999731294086463,
      "loss": 4.0977,
      "step": 4880
    },
    {
      "epoch": 0.0101875,
      "grad_norm": 1.1026993989944458,
      "learning_rate": 0.0002999729424889767,
      "loss": 4.048,
      "step": 4890
    },
    {
      "epoch": 0.010208333333333333,
      "grad_norm": 0.9417087435722351,
      "learning_rate": 0.00029997275492148337,
      "loss": 3.9495,
      "step": 4900
    },
    {
      "epoch": 0.010229166666666666,
      "grad_norm": 1.0456846952438354,
      "learning_rate": 0.0002999725667061671,
      "loss": 4.0785,
      "step": 4910
    },
    {
      "epoch": 0.01025,
      "grad_norm": 0.9317986369132996,
      "learning_rate": 0.00029997237784302875,
      "loss": 4.1543,
      "step": 4920
    },
    {
      "epoch": 0.010270833333333333,
      "grad_norm": 1.1679273843765259,
      "learning_rate": 0.0002999721883320691,
      "loss": 4.088,
      "step": 4930
    },
    {
      "epoch": 0.010291666666666666,
      "grad_norm": 0.9274995923042297,
      "learning_rate": 0.0002999719981732889,
      "loss": 4.0281,
      "step": 4940
    },
    {
      "epoch": 0.0103125,
      "grad_norm": 1.1864968538284302,
      "learning_rate": 0.000299971807366689,
      "loss": 3.9755,
      "step": 4950
    },
    {
      "epoch": 0.010333333333333333,
      "grad_norm": 0.9755812883377075,
      "learning_rate": 0.0002999716159122703,
      "loss": 4.1841,
      "step": 4960
    },
    {
      "epoch": 0.010354166666666666,
      "grad_norm": 0.9211527109146118,
      "learning_rate": 0.00029997142381003357,
      "loss": 4.0401,
      "step": 4970
    },
    {
      "epoch": 0.010375,
      "grad_norm": 1.3366219997406006,
      "learning_rate": 0.00029997123105997964,
      "loss": 4.1101,
      "step": 4980
    },
    {
      "epoch": 0.010395833333333333,
      "grad_norm": 0.9389422535896301,
      "learning_rate": 0.00029997103766210944,
      "loss": 3.8959,
      "step": 4990
    },
    {
      "epoch": 0.010416666666666666,
      "grad_norm": 0.8832875490188599,
      "learning_rate": 0.0002999708436164236,
      "loss": 4.2677,
      "step": 5000
    },
    {
      "epoch": 0.010416666666666666,
      "eval_loss": 4.370577812194824,
      "eval_runtime": 8.8729,
      "eval_samples_per_second": 1.127,
      "eval_steps_per_second": 0.338,
      "step": 5000
    },
    {
      "epoch": 0.0104375,
      "grad_norm": 0.873633861541748,
      "learning_rate": 0.00029997064892292314,
      "loss": 4.1391,
      "step": 5010
    },
    {
      "epoch": 0.010458333333333333,
      "grad_norm": 1.0159385204315186,
      "learning_rate": 0.00029997045358160884,
      "loss": 4.1271,
      "step": 5020
    },
    {
      "epoch": 0.010479166666666666,
      "grad_norm": 0.9279839396476746,
      "learning_rate": 0.0002999702575924815,
      "loss": 4.0717,
      "step": 5030
    },
    {
      "epoch": 0.0105,
      "grad_norm": 0.8764974474906921,
      "learning_rate": 0.00029997006095554204,
      "loss": 4.0442,
      "step": 5040
    },
    {
      "epoch": 0.010520833333333333,
      "grad_norm": 0.9061101675033569,
      "learning_rate": 0.0002999698636707913,
      "loss": 4.1291,
      "step": 5050
    },
    {
      "epoch": 0.010541666666666666,
      "grad_norm": 1.1503463983535767,
      "learning_rate": 0.0002999696657382301,
      "loss": 4.0456,
      "step": 5060
    },
    {
      "epoch": 0.0105625,
      "grad_norm": 1.005418062210083,
      "learning_rate": 0.0002999694671578593,
      "loss": 4.1166,
      "step": 5070
    },
    {
      "epoch": 0.010583333333333333,
      "grad_norm": 0.9875721335411072,
      "learning_rate": 0.00029996926792967977,
      "loss": 4.0771,
      "step": 5080
    },
    {
      "epoch": 0.010604166666666666,
      "grad_norm": 0.9183871746063232,
      "learning_rate": 0.0002999690680536924,
      "loss": 4.1778,
      "step": 5090
    },
    {
      "epoch": 0.010625,
      "grad_norm": 1.0354697704315186,
      "learning_rate": 0.000299968867529898,
      "loss": 4.0515,
      "step": 5100
    },
    {
      "epoch": 0.010645833333333334,
      "grad_norm": 0.9327830672264099,
      "learning_rate": 0.0002999686663582974,
      "loss": 4.061,
      "step": 5110
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 1.0666239261627197,
      "learning_rate": 0.0002999684645388915,
      "loss": 3.9381,
      "step": 5120
    },
    {
      "epoch": 0.0106875,
      "grad_norm": 0.8940494060516357,
      "learning_rate": 0.00029996826207168126,
      "loss": 4.1398,
      "step": 5130
    },
    {
      "epoch": 0.010708333333333334,
      "grad_norm": 1.1079604625701904,
      "learning_rate": 0.0002999680589566675,
      "loss": 4.2036,
      "step": 5140
    },
    {
      "epoch": 0.010729166666666666,
      "grad_norm": 0.9707878232002258,
      "learning_rate": 0.00029996785519385106,
      "loss": 4.0504,
      "step": 5150
    },
    {
      "epoch": 0.01075,
      "grad_norm": 0.923814594745636,
      "learning_rate": 0.00029996765078323285,
      "loss": 4.2121,
      "step": 5160
    },
    {
      "epoch": 0.010770833333333334,
      "grad_norm": 0.86277174949646,
      "learning_rate": 0.00029996744572481377,
      "loss": 4.1438,
      "step": 5170
    },
    {
      "epoch": 0.010791666666666666,
      "grad_norm": 1.055037260055542,
      "learning_rate": 0.0002999672400185947,
      "loss": 3.9951,
      "step": 5180
    },
    {
      "epoch": 0.0108125,
      "grad_norm": 0.9854041337966919,
      "learning_rate": 0.00029996703366457644,
      "loss": 3.9555,
      "step": 5190
    },
    {
      "epoch": 0.010833333333333334,
      "grad_norm": 0.9806405305862427,
      "learning_rate": 0.00029996682666276,
      "loss": 4.1025,
      "step": 5200
    },
    {
      "epoch": 0.010854166666666666,
      "grad_norm": 0.8483632206916809,
      "learning_rate": 0.0002999666190131462,
      "loss": 4.0765,
      "step": 5210
    },
    {
      "epoch": 0.010875,
      "grad_norm": 0.9474264979362488,
      "learning_rate": 0.000299966410715736,
      "loss": 4.2195,
      "step": 5220
    },
    {
      "epoch": 0.010895833333333334,
      "grad_norm": 1.0165170431137085,
      "learning_rate": 0.0002999662017705303,
      "loss": 4.0818,
      "step": 5230
    },
    {
      "epoch": 0.010916666666666667,
      "grad_norm": 0.9026477932929993,
      "learning_rate": 0.0002999659921775299,
      "loss": 4.0267,
      "step": 5240
    },
    {
      "epoch": 0.0109375,
      "grad_norm": 0.8660348653793335,
      "learning_rate": 0.0002999657819367358,
      "loss": 4.0821,
      "step": 5250
    },
    {
      "epoch": 0.010958333333333334,
      "grad_norm": 0.946662962436676,
      "learning_rate": 0.0002999655710481489,
      "loss": 4.1237,
      "step": 5260
    },
    {
      "epoch": 0.010979166666666667,
      "grad_norm": 0.8683421611785889,
      "learning_rate": 0.0002999653595117701,
      "loss": 4.0454,
      "step": 5270
    },
    {
      "epoch": 0.011,
      "grad_norm": 1.072624921798706,
      "learning_rate": 0.0002999651473276003,
      "loss": 4.0367,
      "step": 5280
    },
    {
      "epoch": 0.011020833333333334,
      "grad_norm": 1.0327613353729248,
      "learning_rate": 0.0002999649344956404,
      "loss": 4.1558,
      "step": 5290
    },
    {
      "epoch": 0.011041666666666667,
      "grad_norm": 0.9970088601112366,
      "learning_rate": 0.0002999647210158913,
      "loss": 4.1735,
      "step": 5300
    },
    {
      "epoch": 0.0110625,
      "grad_norm": 0.9861274361610413,
      "learning_rate": 0.00029996450688835405,
      "loss": 3.8541,
      "step": 5310
    },
    {
      "epoch": 0.011083333333333334,
      "grad_norm": 0.8053154349327087,
      "learning_rate": 0.00029996429211302946,
      "loss": 4.0191,
      "step": 5320
    },
    {
      "epoch": 0.011104166666666667,
      "grad_norm": 0.9291845560073853,
      "learning_rate": 0.00029996407668991847,
      "loss": 4.1135,
      "step": 5330
    },
    {
      "epoch": 0.011125,
      "grad_norm": 0.9447972178459167,
      "learning_rate": 0.00029996386061902205,
      "loss": 4.1278,
      "step": 5340
    },
    {
      "epoch": 0.011145833333333334,
      "grad_norm": 0.9961071610450745,
      "learning_rate": 0.00029996364390034113,
      "loss": 4.0927,
      "step": 5350
    },
    {
      "epoch": 0.011166666666666667,
      "grad_norm": 0.9535923004150391,
      "learning_rate": 0.0002999634265338766,
      "loss": 4.1082,
      "step": 5360
    },
    {
      "epoch": 0.0111875,
      "grad_norm": 1.1580954790115356,
      "learning_rate": 0.00029996320851962945,
      "loss": 4.0574,
      "step": 5370
    },
    {
      "epoch": 0.011208333333333334,
      "grad_norm": 0.9974673986434937,
      "learning_rate": 0.00029996298985760053,
      "loss": 4.2132,
      "step": 5380
    },
    {
      "epoch": 0.011229166666666667,
      "grad_norm": 0.9261285662651062,
      "learning_rate": 0.00029996277054779096,
      "loss": 4.0746,
      "step": 5390
    },
    {
      "epoch": 0.01125,
      "grad_norm": 0.997142493724823,
      "learning_rate": 0.0002999625505902015,
      "loss": 3.9265,
      "step": 5400
    },
    {
      "epoch": 0.011270833333333334,
      "grad_norm": 1.008379340171814,
      "learning_rate": 0.0002999623299848332,
      "loss": 4.0246,
      "step": 5410
    },
    {
      "epoch": 0.011291666666666667,
      "grad_norm": 0.948972761631012,
      "learning_rate": 0.00029996210873168704,
      "loss": 4.225,
      "step": 5420
    },
    {
      "epoch": 0.0113125,
      "grad_norm": 0.9582616686820984,
      "learning_rate": 0.0002999618868307639,
      "loss": 4.1497,
      "step": 5430
    },
    {
      "epoch": 0.011333333333333334,
      "grad_norm": 1.0417988300323486,
      "learning_rate": 0.00029996166428206475,
      "loss": 4.2742,
      "step": 5440
    },
    {
      "epoch": 0.011354166666666667,
      "grad_norm": 1.0113927125930786,
      "learning_rate": 0.0002999614410855906,
      "loss": 3.9904,
      "step": 5450
    },
    {
      "epoch": 0.011375,
      "grad_norm": 1.043034315109253,
      "learning_rate": 0.0002999612172413423,
      "loss": 4.188,
      "step": 5460
    },
    {
      "epoch": 0.011395833333333332,
      "grad_norm": 1.0352418422698975,
      "learning_rate": 0.000299960992749321,
      "loss": 4.1515,
      "step": 5470
    },
    {
      "epoch": 0.011416666666666667,
      "grad_norm": 0.8755269646644592,
      "learning_rate": 0.00029996076760952753,
      "loss": 3.9161,
      "step": 5480
    },
    {
      "epoch": 0.0114375,
      "grad_norm": 0.9631335139274597,
      "learning_rate": 0.0002999605418219629,
      "loss": 4.1547,
      "step": 5490
    },
    {
      "epoch": 0.011458333333333333,
      "grad_norm": 1.0319585800170898,
      "learning_rate": 0.00029996031538662805,
      "loss": 4.1003,
      "step": 5500
    },
    {
      "epoch": 0.011479166666666667,
      "grad_norm": 0.9601361155509949,
      "learning_rate": 0.00029996008830352405,
      "loss": 4.2062,
      "step": 5510
    },
    {
      "epoch": 0.0115,
      "grad_norm": 0.9250887632369995,
      "learning_rate": 0.00029995986057265186,
      "loss": 3.9637,
      "step": 5520
    },
    {
      "epoch": 0.011520833333333333,
      "grad_norm": 1.027815818786621,
      "learning_rate": 0.00029995963219401234,
      "loss": 4.0546,
      "step": 5530
    },
    {
      "epoch": 0.011541666666666667,
      "grad_norm": 1.0670416355133057,
      "learning_rate": 0.0002999594031676066,
      "loss": 4.1225,
      "step": 5540
    },
    {
      "epoch": 0.0115625,
      "grad_norm": 0.8062381744384766,
      "learning_rate": 0.00029995917349343563,
      "loss": 4.1337,
      "step": 5550
    },
    {
      "epoch": 0.011583333333333333,
      "grad_norm": 0.9995294213294983,
      "learning_rate": 0.0002999589431715004,
      "loss": 4.0815,
      "step": 5560
    },
    {
      "epoch": 0.011604166666666667,
      "grad_norm": 1.3284013271331787,
      "learning_rate": 0.00029995871220180184,
      "loss": 4.202,
      "step": 5570
    },
    {
      "epoch": 0.011625,
      "grad_norm": 1.006390929222107,
      "learning_rate": 0.000299958480584341,
      "loss": 4.1928,
      "step": 5580
    },
    {
      "epoch": 0.011645833333333333,
      "grad_norm": 0.9090350270271301,
      "learning_rate": 0.0002999582483191189,
      "loss": 4.024,
      "step": 5590
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 0.8780757188796997,
      "learning_rate": 0.0002999580154061365,
      "loss": 4.1662,
      "step": 5600
    },
    {
      "epoch": 0.0116875,
      "grad_norm": 0.9481406807899475,
      "learning_rate": 0.0002999577818453949,
      "loss": 4.0606,
      "step": 5610
    },
    {
      "epoch": 0.011708333333333333,
      "grad_norm": 1.0547072887420654,
      "learning_rate": 0.000299957547636895,
      "loss": 3.9856,
      "step": 5620
    },
    {
      "epoch": 0.011729166666666667,
      "grad_norm": 1.0377051830291748,
      "learning_rate": 0.00029995731278063787,
      "loss": 4.1613,
      "step": 5630
    },
    {
      "epoch": 0.01175,
      "grad_norm": 0.9384186267852783,
      "learning_rate": 0.00029995707727662445,
      "loss": 3.8926,
      "step": 5640
    },
    {
      "epoch": 0.011770833333333333,
      "grad_norm": 1.188773512840271,
      "learning_rate": 0.00029995684112485584,
      "loss": 4.1437,
      "step": 5650
    },
    {
      "epoch": 0.011791666666666667,
      "grad_norm": 1.2075719833374023,
      "learning_rate": 0.00029995660432533303,
      "loss": 4.1929,
      "step": 5660
    },
    {
      "epoch": 0.0118125,
      "grad_norm": 0.872288703918457,
      "learning_rate": 0.0002999563668780571,
      "loss": 4.0513,
      "step": 5670
    },
    {
      "epoch": 0.011833333333333333,
      "grad_norm": 0.922525942325592,
      "learning_rate": 0.000299956128783029,
      "loss": 4.2275,
      "step": 5680
    },
    {
      "epoch": 0.011854166666666667,
      "grad_norm": 0.9171212315559387,
      "learning_rate": 0.0002999558900402497,
      "loss": 4.0624,
      "step": 5690
    },
    {
      "epoch": 0.011875,
      "grad_norm": 1.0454503297805786,
      "learning_rate": 0.00029995565064972043,
      "loss": 3.8801,
      "step": 5700
    },
    {
      "epoch": 0.011895833333333333,
      "grad_norm": 0.8571341037750244,
      "learning_rate": 0.000299955410611442,
      "loss": 4.1946,
      "step": 5710
    },
    {
      "epoch": 0.011916666666666667,
      "grad_norm": 0.8365829586982727,
      "learning_rate": 0.0002999551699254156,
      "loss": 3.9604,
      "step": 5720
    },
    {
      "epoch": 0.0119375,
      "grad_norm": 0.9211521148681641,
      "learning_rate": 0.00029995492859164223,
      "loss": 4.2924,
      "step": 5730
    },
    {
      "epoch": 0.011958333333333333,
      "grad_norm": 0.8443504571914673,
      "learning_rate": 0.000299954686610123,
      "loss": 4.2304,
      "step": 5740
    },
    {
      "epoch": 0.011979166666666667,
      "grad_norm": 0.860998809337616,
      "learning_rate": 0.00029995444398085876,
      "loss": 4.0858,
      "step": 5750
    },
    {
      "epoch": 0.012,
      "grad_norm": 0.8654314875602722,
      "learning_rate": 0.0002999542007038507,
      "loss": 4.1007,
      "step": 5760
    },
    {
      "epoch": 0.012020833333333333,
      "grad_norm": 0.9083671569824219,
      "learning_rate": 0.0002999539567790999,
      "loss": 3.9845,
      "step": 5770
    },
    {
      "epoch": 0.012041666666666668,
      "grad_norm": 0.9409719705581665,
      "learning_rate": 0.00029995371220660727,
      "loss": 4.1631,
      "step": 5780
    },
    {
      "epoch": 0.0120625,
      "grad_norm": 0.9629682898521423,
      "learning_rate": 0.00029995346698637404,
      "loss": 4.1025,
      "step": 5790
    },
    {
      "epoch": 0.012083333333333333,
      "grad_norm": 0.9104552268981934,
      "learning_rate": 0.0002999532211184012,
      "loss": 4.1618,
      "step": 5800
    },
    {
      "epoch": 0.012104166666666666,
      "grad_norm": 0.9406991600990295,
      "learning_rate": 0.00029995297460268976,
      "loss": 4.2904,
      "step": 5810
    },
    {
      "epoch": 0.012125,
      "grad_norm": 0.970385730266571,
      "learning_rate": 0.0002999527274392408,
      "loss": 4.0907,
      "step": 5820
    },
    {
      "epoch": 0.012145833333333333,
      "grad_norm": 1.0111403465270996,
      "learning_rate": 0.00029995247962805546,
      "loss": 4.2463,
      "step": 5830
    },
    {
      "epoch": 0.012166666666666666,
      "grad_norm": 1.0769060850143433,
      "learning_rate": 0.0002999522311691347,
      "loss": 4.1208,
      "step": 5840
    },
    {
      "epoch": 0.0121875,
      "grad_norm": 0.9502212405204773,
      "learning_rate": 0.00029995198206247975,
      "loss": 3.9436,
      "step": 5850
    },
    {
      "epoch": 0.012208333333333333,
      "grad_norm": 0.9658715128898621,
      "learning_rate": 0.00029995173230809157,
      "loss": 3.9633,
      "step": 5860
    },
    {
      "epoch": 0.012229166666666666,
      "grad_norm": 1.1009750366210938,
      "learning_rate": 0.0002999514819059712,
      "loss": 4.1194,
      "step": 5870
    },
    {
      "epoch": 0.01225,
      "grad_norm": 1.1324915885925293,
      "learning_rate": 0.0002999512308561198,
      "loss": 3.992,
      "step": 5880
    },
    {
      "epoch": 0.012270833333333333,
      "grad_norm": 1.1784034967422485,
      "learning_rate": 0.0002999509791585385,
      "loss": 3.9714,
      "step": 5890
    },
    {
      "epoch": 0.012291666666666666,
      "grad_norm": 1.0563786029815674,
      "learning_rate": 0.00029995072681322825,
      "loss": 4.1235,
      "step": 5900
    },
    {
      "epoch": 0.0123125,
      "grad_norm": 0.8993197679519653,
      "learning_rate": 0.0002999504738201903,
      "loss": 3.98,
      "step": 5910
    },
    {
      "epoch": 0.012333333333333333,
      "grad_norm": 1.2406171560287476,
      "learning_rate": 0.0002999502201794256,
      "loss": 4.2188,
      "step": 5920
    },
    {
      "epoch": 0.012354166666666666,
      "grad_norm": 1.0735266208648682,
      "learning_rate": 0.00029994996589093525,
      "loss": 4.0805,
      "step": 5930
    },
    {
      "epoch": 0.012375,
      "grad_norm": 0.9529826641082764,
      "learning_rate": 0.0002999497109547205,
      "loss": 4.0163,
      "step": 5940
    },
    {
      "epoch": 0.012395833333333333,
      "grad_norm": 1.1779168844223022,
      "learning_rate": 0.0002999494553707823,
      "loss": 4.1448,
      "step": 5950
    },
    {
      "epoch": 0.012416666666666666,
      "grad_norm": 1.0238772630691528,
      "learning_rate": 0.00029994919913912184,
      "loss": 4.3096,
      "step": 5960
    },
    {
      "epoch": 0.0124375,
      "grad_norm": 0.8970621824264526,
      "learning_rate": 0.00029994894225974014,
      "loss": 3.9828,
      "step": 5970
    },
    {
      "epoch": 0.012458333333333333,
      "grad_norm": 1.086896538734436,
      "learning_rate": 0.0002999486847326384,
      "loss": 4.1389,
      "step": 5980
    },
    {
      "epoch": 0.012479166666666666,
      "grad_norm": 1.0852673053741455,
      "learning_rate": 0.0002999484265578177,
      "loss": 4.3322,
      "step": 5990
    },
    {
      "epoch": 0.0125,
      "grad_norm": 1.1359448432922363,
      "learning_rate": 0.00029994816773527914,
      "loss": 4.0537,
      "step": 6000
    },
    {
      "epoch": 0.0125,
      "eval_loss": 4.364706993103027,
      "eval_runtime": 8.6358,
      "eval_samples_per_second": 1.158,
      "eval_steps_per_second": 0.347,
      "step": 6000
    },
    {
      "epoch": 0.012520833333333333,
      "grad_norm": 1.1655429601669312,
      "learning_rate": 0.0002999479082650239,
      "loss": 4.0653,
      "step": 6010
    },
    {
      "epoch": 0.012541666666666666,
      "grad_norm": 0.957078754901886,
      "learning_rate": 0.00029994764814705296,
      "loss": 4.2411,
      "step": 6020
    },
    {
      "epoch": 0.0125625,
      "grad_norm": 1.0028799772262573,
      "learning_rate": 0.0002999473873813676,
      "loss": 4.1531,
      "step": 6030
    },
    {
      "epoch": 0.012583333333333334,
      "grad_norm": 0.8951534032821655,
      "learning_rate": 0.00029994712596796886,
      "loss": 3.9969,
      "step": 6040
    },
    {
      "epoch": 0.012604166666666666,
      "grad_norm": 0.8129245042800903,
      "learning_rate": 0.0002999468639068579,
      "loss": 4.1812,
      "step": 6050
    },
    {
      "epoch": 0.012625,
      "grad_norm": 0.8950570225715637,
      "learning_rate": 0.0002999466011980358,
      "loss": 4.0424,
      "step": 6060
    },
    {
      "epoch": 0.012645833333333334,
      "grad_norm": 0.8109812140464783,
      "learning_rate": 0.00029994633784150373,
      "loss": 4.1283,
      "step": 6070
    },
    {
      "epoch": 0.012666666666666666,
      "grad_norm": 1.0479668378829956,
      "learning_rate": 0.0002999460738372629,
      "loss": 3.9377,
      "step": 6080
    },
    {
      "epoch": 0.0126875,
      "grad_norm": 0.9200255870819092,
      "learning_rate": 0.0002999458091853143,
      "loss": 3.9175,
      "step": 6090
    },
    {
      "epoch": 0.012708333333333334,
      "grad_norm": 0.923332691192627,
      "learning_rate": 0.00029994554388565925,
      "loss": 4.1298,
      "step": 6100
    },
    {
      "epoch": 0.012729166666666666,
      "grad_norm": 0.9668201804161072,
      "learning_rate": 0.00029994527793829876,
      "loss": 4.1153,
      "step": 6110
    },
    {
      "epoch": 0.01275,
      "grad_norm": 0.8372182846069336,
      "learning_rate": 0.00029994501134323405,
      "loss": 4.0196,
      "step": 6120
    },
    {
      "epoch": 0.012770833333333334,
      "grad_norm": 0.9949009418487549,
      "learning_rate": 0.0002999447441004662,
      "loss": 3.9416,
      "step": 6130
    },
    {
      "epoch": 0.012791666666666666,
      "grad_norm": 0.9004925489425659,
      "learning_rate": 0.0002999444762099964,
      "loss": 4.0651,
      "step": 6140
    },
    {
      "epoch": 0.0128125,
      "grad_norm": 0.9128996729850769,
      "learning_rate": 0.0002999442076718258,
      "loss": 4.2135,
      "step": 6150
    },
    {
      "epoch": 0.012833333333333334,
      "grad_norm": 0.9584335088729858,
      "learning_rate": 0.00029994393848595567,
      "loss": 4.1165,
      "step": 6160
    },
    {
      "epoch": 0.012854166666666667,
      "grad_norm": 0.9648441672325134,
      "learning_rate": 0.000299943668652387,
      "loss": 3.9458,
      "step": 6170
    },
    {
      "epoch": 0.012875,
      "grad_norm": 0.8765039443969727,
      "learning_rate": 0.00029994339817112107,
      "loss": 4.1653,
      "step": 6180
    },
    {
      "epoch": 0.012895833333333334,
      "grad_norm": 0.9018328785896301,
      "learning_rate": 0.000299943127042159,
      "loss": 4.1809,
      "step": 6190
    },
    {
      "epoch": 0.012916666666666667,
      "grad_norm": 0.8819262981414795,
      "learning_rate": 0.00029994285526550196,
      "loss": 4.1164,
      "step": 6200
    },
    {
      "epoch": 0.0129375,
      "grad_norm": 1.068333625793457,
      "learning_rate": 0.00029994258284115114,
      "loss": 3.9838,
      "step": 6210
    },
    {
      "epoch": 0.012958333333333334,
      "grad_norm": 0.9078938961029053,
      "learning_rate": 0.0002999423097691077,
      "loss": 3.9797,
      "step": 6220
    },
    {
      "epoch": 0.012979166666666667,
      "grad_norm": 0.9527643918991089,
      "learning_rate": 0.0002999420360493729,
      "loss": 4.0528,
      "step": 6230
    },
    {
      "epoch": 0.013,
      "grad_norm": 0.9671280384063721,
      "learning_rate": 0.0002999417616819478,
      "loss": 3.9915,
      "step": 6240
    },
    {
      "epoch": 0.013020833333333334,
      "grad_norm": 1.0323084592819214,
      "learning_rate": 0.00029994148666683364,
      "loss": 4.2473,
      "step": 6250
    },
    {
      "epoch": 0.013041666666666667,
      "grad_norm": 1.008888840675354,
      "learning_rate": 0.00029994121100403154,
      "loss": 4.0077,
      "step": 6260
    },
    {
      "epoch": 0.0130625,
      "grad_norm": 0.8360439538955688,
      "learning_rate": 0.0002999409346935429,
      "loss": 4.0394,
      "step": 6270
    },
    {
      "epoch": 0.013083333333333334,
      "grad_norm": 1.0562629699707031,
      "learning_rate": 0.00029994065773536867,
      "loss": 4.1728,
      "step": 6280
    },
    {
      "epoch": 0.013104166666666667,
      "grad_norm": 0.8998481631278992,
      "learning_rate": 0.00029994038012951023,
      "loss": 4.0647,
      "step": 6290
    },
    {
      "epoch": 0.013125,
      "grad_norm": 0.9556834101676941,
      "learning_rate": 0.00029994010187596866,
      "loss": 4.1575,
      "step": 6300
    },
    {
      "epoch": 0.013145833333333334,
      "grad_norm": 0.9387531280517578,
      "learning_rate": 0.0002999398229747452,
      "loss": 4.2053,
      "step": 6310
    },
    {
      "epoch": 0.013166666666666667,
      "grad_norm": 1.059512734413147,
      "learning_rate": 0.00029993954342584105,
      "loss": 4.1122,
      "step": 6320
    },
    {
      "epoch": 0.0131875,
      "grad_norm": 0.8863552212715149,
      "learning_rate": 0.0002999392632292574,
      "loss": 4.0638,
      "step": 6330
    },
    {
      "epoch": 0.013208333333333334,
      "grad_norm": 0.96615070104599,
      "learning_rate": 0.00029993898238499554,
      "loss": 4.069,
      "step": 6340
    },
    {
      "epoch": 0.013229166666666667,
      "grad_norm": 0.9637752175331116,
      "learning_rate": 0.00029993870089305657,
      "loss": 4.059,
      "step": 6350
    },
    {
      "epoch": 0.01325,
      "grad_norm": 0.9568811655044556,
      "learning_rate": 0.0002999384187534418,
      "loss": 4.0715,
      "step": 6360
    },
    {
      "epoch": 0.013270833333333334,
      "grad_norm": 0.9379424452781677,
      "learning_rate": 0.00029993813596615237,
      "loss": 4.0718,
      "step": 6370
    },
    {
      "epoch": 0.013291666666666667,
      "grad_norm": 1.0933842658996582,
      "learning_rate": 0.00029993785253118954,
      "loss": 4.0454,
      "step": 6380
    },
    {
      "epoch": 0.0133125,
      "grad_norm": 0.9435713887214661,
      "learning_rate": 0.00029993756844855457,
      "loss": 4.0584,
      "step": 6390
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 0.8405054211616516,
      "learning_rate": 0.00029993728371824867,
      "loss": 3.871,
      "step": 6400
    },
    {
      "epoch": 0.013354166666666667,
      "grad_norm": 0.933931291103363,
      "learning_rate": 0.000299936998340273,
      "loss": 4.1761,
      "step": 6410
    },
    {
      "epoch": 0.013375,
      "grad_norm": 0.8940505981445312,
      "learning_rate": 0.0002999367123146289,
      "loss": 4.0246,
      "step": 6420
    },
    {
      "epoch": 0.013395833333333333,
      "grad_norm": 0.9127814173698425,
      "learning_rate": 0.00029993642564131754,
      "loss": 4.0734,
      "step": 6430
    },
    {
      "epoch": 0.013416666666666667,
      "grad_norm": 0.9094292521476746,
      "learning_rate": 0.00029993613832034015,
      "loss": 3.946,
      "step": 6440
    },
    {
      "epoch": 0.0134375,
      "grad_norm": 1.2239240407943726,
      "learning_rate": 0.000299935850351698,
      "loss": 3.9459,
      "step": 6450
    },
    {
      "epoch": 0.013458333333333333,
      "grad_norm": 0.8955016732215881,
      "learning_rate": 0.00029993556173539234,
      "loss": 3.8617,
      "step": 6460
    },
    {
      "epoch": 0.013479166666666667,
      "grad_norm": 0.8669296503067017,
      "learning_rate": 0.00029993527247142436,
      "loss": 4.0158,
      "step": 6470
    },
    {
      "epoch": 0.0135,
      "grad_norm": 0.8309480547904968,
      "learning_rate": 0.0002999349825597954,
      "loss": 4.0057,
      "step": 6480
    },
    {
      "epoch": 0.013520833333333333,
      "grad_norm": 0.8429121971130371,
      "learning_rate": 0.0002999346920005066,
      "loss": 4.0032,
      "step": 6490
    },
    {
      "epoch": 0.013541666666666667,
      "grad_norm": 0.897562563419342,
      "learning_rate": 0.00029993440079355933,
      "loss": 4.052,
      "step": 6500
    },
    {
      "epoch": 0.0135625,
      "grad_norm": 0.8948218822479248,
      "learning_rate": 0.00029993410893895477,
      "loss": 4.0736,
      "step": 6510
    },
    {
      "epoch": 0.013583333333333333,
      "grad_norm": 0.9286693930625916,
      "learning_rate": 0.00029993381643669424,
      "loss": 4.1823,
      "step": 6520
    },
    {
      "epoch": 0.013604166666666667,
      "grad_norm": 0.8896878361701965,
      "learning_rate": 0.000299933523286779,
      "loss": 4.1354,
      "step": 6530
    },
    {
      "epoch": 0.013625,
      "grad_norm": 0.9024227261543274,
      "learning_rate": 0.00029993322948921024,
      "loss": 4.1706,
      "step": 6540
    },
    {
      "epoch": 0.013645833333333333,
      "grad_norm": 0.9716841578483582,
      "learning_rate": 0.00029993293504398927,
      "loss": 4.0001,
      "step": 6550
    },
    {
      "epoch": 0.013666666666666667,
      "grad_norm": 0.8848289251327515,
      "learning_rate": 0.00029993263995111737,
      "loss": 4.1008,
      "step": 6560
    },
    {
      "epoch": 0.0136875,
      "grad_norm": 0.9355757832527161,
      "learning_rate": 0.00029993234421059583,
      "loss": 4.0402,
      "step": 6570
    },
    {
      "epoch": 0.013708333333333333,
      "grad_norm": 0.9168696403503418,
      "learning_rate": 0.00029993204782242586,
      "loss": 4.0907,
      "step": 6580
    },
    {
      "epoch": 0.013729166666666667,
      "grad_norm": 1.1814876794815063,
      "learning_rate": 0.00029993175078660885,
      "loss": 4.1214,
      "step": 6590
    },
    {
      "epoch": 0.01375,
      "grad_norm": 1.0008504390716553,
      "learning_rate": 0.000299931453103146,
      "loss": 4.0659,
      "step": 6600
    },
    {
      "epoch": 0.013770833333333333,
      "grad_norm": 1.0081291198730469,
      "learning_rate": 0.00029993115477203864,
      "loss": 3.9152,
      "step": 6610
    },
    {
      "epoch": 0.013791666666666667,
      "grad_norm": 1.0494648218154907,
      "learning_rate": 0.000299930855793288,
      "loss": 4.0762,
      "step": 6620
    },
    {
      "epoch": 0.0138125,
      "grad_norm": 1.0659271478652954,
      "learning_rate": 0.0002999305561668955,
      "loss": 4.0953,
      "step": 6630
    },
    {
      "epoch": 0.013833333333333333,
      "grad_norm": 0.9607105851173401,
      "learning_rate": 0.00029993025589286225,
      "loss": 3.9694,
      "step": 6640
    },
    {
      "epoch": 0.013854166666666667,
      "grad_norm": 1.063226342201233,
      "learning_rate": 0.0002999299549711897,
      "loss": 4.0232,
      "step": 6650
    },
    {
      "epoch": 0.013875,
      "grad_norm": 0.8980494737625122,
      "learning_rate": 0.00029992965340187904,
      "loss": 4.0558,
      "step": 6660
    },
    {
      "epoch": 0.013895833333333333,
      "grad_norm": 0.8890358805656433,
      "learning_rate": 0.00029992935118493166,
      "loss": 4.0773,
      "step": 6670
    },
    {
      "epoch": 0.013916666666666667,
      "grad_norm": 1.0375691652297974,
      "learning_rate": 0.00029992904832034875,
      "loss": 4.2058,
      "step": 6680
    },
    {
      "epoch": 0.0139375,
      "grad_norm": 0.9427799582481384,
      "learning_rate": 0.0002999287448081318,
      "loss": 4.1623,
      "step": 6690
    },
    {
      "epoch": 0.013958333333333333,
      "grad_norm": 0.9718566536903381,
      "learning_rate": 0.00029992844064828195,
      "loss": 4.1282,
      "step": 6700
    },
    {
      "epoch": 0.013979166666666668,
      "grad_norm": 0.9963191747665405,
      "learning_rate": 0.00029992813584080066,
      "loss": 4.1961,
      "step": 6710
    },
    {
      "epoch": 0.014,
      "grad_norm": 0.887082576751709,
      "learning_rate": 0.0002999278303856891,
      "loss": 3.9252,
      "step": 6720
    },
    {
      "epoch": 0.014020833333333333,
      "grad_norm": 0.8736108541488647,
      "learning_rate": 0.00029992752428294867,
      "loss": 3.9604,
      "step": 6730
    },
    {
      "epoch": 0.014041666666666666,
      "grad_norm": 0.9039258360862732,
      "learning_rate": 0.0002999272175325807,
      "loss": 4.2475,
      "step": 6740
    },
    {
      "epoch": 0.0140625,
      "grad_norm": 0.9288772940635681,
      "learning_rate": 0.00029992691013458646,
      "loss": 3.9646,
      "step": 6750
    },
    {
      "epoch": 0.014083333333333333,
      "grad_norm": 0.9164652824401855,
      "learning_rate": 0.0002999266020889674,
      "loss": 4.0333,
      "step": 6760
    },
    {
      "epoch": 0.014104166666666666,
      "grad_norm": 0.8952393531799316,
      "learning_rate": 0.00029992629339572465,
      "loss": 4.0806,
      "step": 6770
    },
    {
      "epoch": 0.014125,
      "grad_norm": 0.8376536965370178,
      "learning_rate": 0.0002999259840548597,
      "loss": 3.9286,
      "step": 6780
    },
    {
      "epoch": 0.014145833333333333,
      "grad_norm": 0.9379526972770691,
      "learning_rate": 0.0002999256740663739,
      "loss": 4.1664,
      "step": 6790
    },
    {
      "epoch": 0.014166666666666666,
      "grad_norm": 0.977990448474884,
      "learning_rate": 0.00029992536343026845,
      "loss": 3.9658,
      "step": 6800
    },
    {
      "epoch": 0.0141875,
      "grad_norm": 0.8667201399803162,
      "learning_rate": 0.00029992505214654477,
      "loss": 3.9671,
      "step": 6810
    },
    {
      "epoch": 0.014208333333333333,
      "grad_norm": 0.9429517388343811,
      "learning_rate": 0.00029992474021520426,
      "loss": 3.98,
      "step": 6820
    },
    {
      "epoch": 0.014229166666666666,
      "grad_norm": 0.8257001042366028,
      "learning_rate": 0.0002999244276362482,
      "loss": 3.9335,
      "step": 6830
    },
    {
      "epoch": 0.01425,
      "grad_norm": 0.9612383842468262,
      "learning_rate": 0.000299924114409678,
      "loss": 4.0503,
      "step": 6840
    },
    {
      "epoch": 0.014270833333333333,
      "grad_norm": 0.7644697427749634,
      "learning_rate": 0.0002999238005354949,
      "loss": 4.2029,
      "step": 6850
    },
    {
      "epoch": 0.014291666666666666,
      "grad_norm": 0.8802212476730347,
      "learning_rate": 0.0002999234860137004,
      "loss": 4.0442,
      "step": 6860
    },
    {
      "epoch": 0.0143125,
      "grad_norm": 1.0356061458587646,
      "learning_rate": 0.0002999231708442957,
      "loss": 3.8788,
      "step": 6870
    },
    {
      "epoch": 0.014333333333333333,
      "grad_norm": 0.8861193656921387,
      "learning_rate": 0.0002999228550272823,
      "loss": 4.1211,
      "step": 6880
    },
    {
      "epoch": 0.014354166666666666,
      "grad_norm": 0.8845570683479309,
      "learning_rate": 0.0002999225385626615,
      "loss": 4.1261,
      "step": 6890
    },
    {
      "epoch": 0.014375,
      "grad_norm": 0.9453163743019104,
      "learning_rate": 0.0002999222214504347,
      "loss": 4.0783,
      "step": 6900
    },
    {
      "epoch": 0.014395833333333333,
      "grad_norm": 1.037510633468628,
      "learning_rate": 0.00029992190369060323,
      "loss": 4.0957,
      "step": 6910
    },
    {
      "epoch": 0.014416666666666666,
      "grad_norm": 0.9237430691719055,
      "learning_rate": 0.0002999215852831685,
      "loss": 4.0247,
      "step": 6920
    },
    {
      "epoch": 0.0144375,
      "grad_norm": 0.8403300642967224,
      "learning_rate": 0.0002999212662281318,
      "loss": 3.8862,
      "step": 6930
    },
    {
      "epoch": 0.014458333333333333,
      "grad_norm": 0.9654322862625122,
      "learning_rate": 0.00029992094652549455,
      "loss": 3.989,
      "step": 6940
    },
    {
      "epoch": 0.014479166666666666,
      "grad_norm": 0.9429084062576294,
      "learning_rate": 0.00029992062617525825,
      "loss": 4.1007,
      "step": 6950
    },
    {
      "epoch": 0.0145,
      "grad_norm": 0.9030852913856506,
      "learning_rate": 0.00029992030517742415,
      "loss": 3.996,
      "step": 6960
    },
    {
      "epoch": 0.014520833333333334,
      "grad_norm": 0.9190139770507812,
      "learning_rate": 0.00029991998353199364,
      "loss": 4.0217,
      "step": 6970
    },
    {
      "epoch": 0.014541666666666666,
      "grad_norm": 1.0145999193191528,
      "learning_rate": 0.0002999196612389682,
      "loss": 3.925,
      "step": 6980
    },
    {
      "epoch": 0.0145625,
      "grad_norm": 0.9598746299743652,
      "learning_rate": 0.00029991933829834913,
      "loss": 4.0229,
      "step": 6990
    },
    {
      "epoch": 0.014583333333333334,
      "grad_norm": 0.8927167654037476,
      "learning_rate": 0.0002999190147101379,
      "loss": 4.0605,
      "step": 7000
    },
    {
      "epoch": 0.014583333333333334,
      "eval_loss": 4.340586185455322,
      "eval_runtime": 11.0302,
      "eval_samples_per_second": 0.907,
      "eval_steps_per_second": 0.272,
      "step": 7000
    },
    {
      "epoch": 0.014604166666666666,
      "grad_norm": 1.0125157833099365,
      "learning_rate": 0.0002999186904743358,
      "loss": 3.9642,
      "step": 7010
    },
    {
      "epoch": 0.014625,
      "grad_norm": 0.9457781910896301,
      "learning_rate": 0.00029991836559094433,
      "loss": 4.0079,
      "step": 7020
    },
    {
      "epoch": 0.014645833333333334,
      "grad_norm": 0.9316348433494568,
      "learning_rate": 0.00029991804005996493,
      "loss": 4.0168,
      "step": 7030
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 0.9104083180427551,
      "learning_rate": 0.00029991771388139884,
      "loss": 4.0599,
      "step": 7040
    },
    {
      "epoch": 0.0146875,
      "grad_norm": 0.9380168914794922,
      "learning_rate": 0.00029991738705524763,
      "loss": 3.9804,
      "step": 7050
    },
    {
      "epoch": 0.014708333333333334,
      "grad_norm": 0.8020222187042236,
      "learning_rate": 0.0002999170595815126,
      "loss": 4.0416,
      "step": 7060
    },
    {
      "epoch": 0.014729166666666666,
      "grad_norm": 0.895160973072052,
      "learning_rate": 0.00029991673146019526,
      "loss": 4.0953,
      "step": 7070
    },
    {
      "epoch": 0.01475,
      "grad_norm": 0.9720396399497986,
      "learning_rate": 0.000299916402691297,
      "loss": 4.1505,
      "step": 7080
    },
    {
      "epoch": 0.014770833333333334,
      "grad_norm": 0.9162779450416565,
      "learning_rate": 0.00029991607327481916,
      "loss": 3.9746,
      "step": 7090
    },
    {
      "epoch": 0.014791666666666667,
      "grad_norm": 0.9347497224807739,
      "learning_rate": 0.00029991574321076327,
      "loss": 3.8849,
      "step": 7100
    },
    {
      "epoch": 0.0148125,
      "grad_norm": 1.1414587497711182,
      "learning_rate": 0.00029991541249913066,
      "loss": 4.1746,
      "step": 7110
    },
    {
      "epoch": 0.014833333333333334,
      "grad_norm": 0.8596989512443542,
      "learning_rate": 0.00029991508113992284,
      "loss": 4.0042,
      "step": 7120
    },
    {
      "epoch": 0.014854166666666667,
      "grad_norm": 1.5247185230255127,
      "learning_rate": 0.00029991474913314124,
      "loss": 4.0133,
      "step": 7130
    },
    {
      "epoch": 0.014875,
      "grad_norm": 1.1025023460388184,
      "learning_rate": 0.0002999144164787872,
      "loss": 4.0831,
      "step": 7140
    },
    {
      "epoch": 0.014895833333333334,
      "grad_norm": 0.8815367221832275,
      "learning_rate": 0.0002999140831768623,
      "loss": 4.1567,
      "step": 7150
    },
    {
      "epoch": 0.014916666666666667,
      "grad_norm": 0.8190339207649231,
      "learning_rate": 0.0002999137492273678,
      "loss": 4.0352,
      "step": 7160
    },
    {
      "epoch": 0.0149375,
      "grad_norm": 0.9389554858207703,
      "learning_rate": 0.0002999134146303053,
      "loss": 4.0819,
      "step": 7170
    },
    {
      "epoch": 0.014958333333333334,
      "grad_norm": 0.844062864780426,
      "learning_rate": 0.0002999130793856762,
      "loss": 4.1883,
      "step": 7180
    },
    {
      "epoch": 0.014979166666666667,
      "grad_norm": 0.9921501874923706,
      "learning_rate": 0.0002999127434934819,
      "loss": 4.0527,
      "step": 7190
    },
    {
      "epoch": 0.015,
      "grad_norm": 0.8162594437599182,
      "learning_rate": 0.00029991240695372397,
      "loss": 4.1004,
      "step": 7200
    },
    {
      "epoch": 0.015020833333333334,
      "grad_norm": 0.9247971177101135,
      "learning_rate": 0.0002999120697664037,
      "loss": 4.0457,
      "step": 7210
    },
    {
      "epoch": 0.015041666666666667,
      "grad_norm": 0.8534733057022095,
      "learning_rate": 0.00029991173193152264,
      "loss": 4.056,
      "step": 7220
    },
    {
      "epoch": 0.0150625,
      "grad_norm": 0.9703700542449951,
      "learning_rate": 0.0002999113934490822,
      "loss": 3.9965,
      "step": 7230
    },
    {
      "epoch": 0.015083333333333334,
      "grad_norm": 0.9544861912727356,
      "learning_rate": 0.000299911054319084,
      "loss": 4.1055,
      "step": 7240
    },
    {
      "epoch": 0.015104166666666667,
      "grad_norm": 0.9065807461738586,
      "learning_rate": 0.0002999107145415293,
      "loss": 4.0456,
      "step": 7250
    },
    {
      "epoch": 0.015125,
      "grad_norm": 0.9795711636543274,
      "learning_rate": 0.00029991037411641967,
      "loss": 3.8591,
      "step": 7260
    },
    {
      "epoch": 0.015145833333333334,
      "grad_norm": 0.9871900081634521,
      "learning_rate": 0.00029991003304375655,
      "loss": 4.0524,
      "step": 7270
    },
    {
      "epoch": 0.015166666666666667,
      "grad_norm": 0.8816227316856384,
      "learning_rate": 0.00029990969132354144,
      "loss": 4.2103,
      "step": 7280
    },
    {
      "epoch": 0.0151875,
      "grad_norm": 0.9611108899116516,
      "learning_rate": 0.0002999093489557758,
      "loss": 4.1064,
      "step": 7290
    },
    {
      "epoch": 0.015208333333333334,
      "grad_norm": 0.9315329194068909,
      "learning_rate": 0.0002999090059404611,
      "loss": 3.9858,
      "step": 7300
    },
    {
      "epoch": 0.015229166666666667,
      "grad_norm": 0.8917229771614075,
      "learning_rate": 0.0002999086622775988,
      "loss": 4.1627,
      "step": 7310
    },
    {
      "epoch": 0.01525,
      "grad_norm": 1.0180741548538208,
      "learning_rate": 0.0002999083179671905,
      "loss": 4.0763,
      "step": 7320
    },
    {
      "epoch": 0.015270833333333334,
      "grad_norm": 0.9636371731758118,
      "learning_rate": 0.00029990797300923755,
      "loss": 3.9742,
      "step": 7330
    },
    {
      "epoch": 0.015291666666666667,
      "grad_norm": 1.1485958099365234,
      "learning_rate": 0.00029990762740374145,
      "loss": 3.9178,
      "step": 7340
    },
    {
      "epoch": 0.0153125,
      "grad_norm": 0.900506317615509,
      "learning_rate": 0.0002999072811507038,
      "loss": 4.1424,
      "step": 7350
    },
    {
      "epoch": 0.015333333333333332,
      "grad_norm": 0.9068747162818909,
      "learning_rate": 0.000299906934250126,
      "loss": 4.0313,
      "step": 7360
    },
    {
      "epoch": 0.015354166666666667,
      "grad_norm": 1.0739527940750122,
      "learning_rate": 0.0002999065867020097,
      "loss": 4.0776,
      "step": 7370
    },
    {
      "epoch": 0.015375,
      "grad_norm": 0.8621461987495422,
      "learning_rate": 0.0002999062385063561,
      "loss": 4.1099,
      "step": 7380
    },
    {
      "epoch": 0.015395833333333333,
      "grad_norm": 0.925075113773346,
      "learning_rate": 0.000299905889663167,
      "loss": 3.9909,
      "step": 7390
    },
    {
      "epoch": 0.015416666666666667,
      "grad_norm": 1.0692356824874878,
      "learning_rate": 0.00029990554017244377,
      "loss": 4.2384,
      "step": 7400
    },
    {
      "epoch": 0.0154375,
      "grad_norm": 0.8479160666465759,
      "learning_rate": 0.0002999051900341879,
      "loss": 3.983,
      "step": 7410
    },
    {
      "epoch": 0.015458333333333333,
      "grad_norm": 0.9838065505027771,
      "learning_rate": 0.000299904839248401,
      "loss": 3.9416,
      "step": 7420
    },
    {
      "epoch": 0.015479166666666667,
      "grad_norm": 0.8836420178413391,
      "learning_rate": 0.00029990448781508453,
      "loss": 4.1588,
      "step": 7430
    },
    {
      "epoch": 0.0155,
      "grad_norm": 0.8008750677108765,
      "learning_rate": 0.00029990413573424,
      "loss": 4.3644,
      "step": 7440
    },
    {
      "epoch": 0.015520833333333333,
      "grad_norm": 0.8938660621643066,
      "learning_rate": 0.00029990378300586893,
      "loss": 4.077,
      "step": 7450
    },
    {
      "epoch": 0.015541666666666667,
      "grad_norm": 0.9481860995292664,
      "learning_rate": 0.0002999034296299729,
      "loss": 4.0922,
      "step": 7460
    },
    {
      "epoch": 0.0155625,
      "grad_norm": 0.8930200934410095,
      "learning_rate": 0.00029990307560655326,
      "loss": 3.995,
      "step": 7470
    },
    {
      "epoch": 0.015583333333333333,
      "grad_norm": 1.2217803001403809,
      "learning_rate": 0.00029990272093561183,
      "loss": 3.9935,
      "step": 7480
    },
    {
      "epoch": 0.015604166666666667,
      "grad_norm": 1.000601887702942,
      "learning_rate": 0.0002999023656171499,
      "loss": 4.0182,
      "step": 7490
    },
    {
      "epoch": 0.015625,
      "grad_norm": 0.8854073882102966,
      "learning_rate": 0.0002999020096511691,
      "loss": 3.9662,
      "step": 7500
    },
    {
      "epoch": 0.015645833333333335,
      "grad_norm": 1.2044990062713623,
      "learning_rate": 0.0002999016530376709,
      "loss": 3.9801,
      "step": 7510
    },
    {
      "epoch": 0.015666666666666666,
      "grad_norm": 0.9241108298301697,
      "learning_rate": 0.00029990129577665695,
      "loss": 4.0193,
      "step": 7520
    },
    {
      "epoch": 0.0156875,
      "grad_norm": 0.7738756537437439,
      "learning_rate": 0.0002999009378681287,
      "loss": 3.9725,
      "step": 7530
    },
    {
      "epoch": 0.015708333333333335,
      "grad_norm": 0.9775682687759399,
      "learning_rate": 0.0002999005793120878,
      "loss": 4.1193,
      "step": 7540
    },
    {
      "epoch": 0.015729166666666666,
      "grad_norm": 0.9840127825737,
      "learning_rate": 0.0002999002201085357,
      "loss": 4.0843,
      "step": 7550
    },
    {
      "epoch": 0.01575,
      "grad_norm": 0.900884747505188,
      "learning_rate": 0.000299899860257474,
      "loss": 4.009,
      "step": 7560
    },
    {
      "epoch": 0.015770833333333335,
      "grad_norm": 0.8358213901519775,
      "learning_rate": 0.0002998994997589042,
      "loss": 4.149,
      "step": 7570
    },
    {
      "epoch": 0.015791666666666666,
      "grad_norm": 0.8391352891921997,
      "learning_rate": 0.00029989913861282793,
      "loss": 3.9244,
      "step": 7580
    },
    {
      "epoch": 0.0158125,
      "grad_norm": 0.9761918783187866,
      "learning_rate": 0.0002998987768192467,
      "loss": 4.0347,
      "step": 7590
    },
    {
      "epoch": 0.015833333333333335,
      "grad_norm": 1.1620367765426636,
      "learning_rate": 0.0002998984143781621,
      "loss": 3.9484,
      "step": 7600
    },
    {
      "epoch": 0.015854166666666666,
      "grad_norm": 0.9000586271286011,
      "learning_rate": 0.0002998980512895756,
      "loss": 4.0313,
      "step": 7610
    },
    {
      "epoch": 0.015875,
      "grad_norm": 0.9657297134399414,
      "learning_rate": 0.00029989768755348895,
      "loss": 4.0561,
      "step": 7620
    },
    {
      "epoch": 0.015895833333333335,
      "grad_norm": 1.0161843299865723,
      "learning_rate": 0.0002998973231699036,
      "loss": 4.1927,
      "step": 7630
    },
    {
      "epoch": 0.015916666666666666,
      "grad_norm": 0.9004241824150085,
      "learning_rate": 0.0002998969581388211,
      "loss": 4.1073,
      "step": 7640
    },
    {
      "epoch": 0.0159375,
      "grad_norm": 0.9844752550125122,
      "learning_rate": 0.00029989659246024315,
      "loss": 4.1457,
      "step": 7650
    },
    {
      "epoch": 0.015958333333333335,
      "grad_norm": 0.9914301633834839,
      "learning_rate": 0.0002998962261341712,
      "loss": 4.1176,
      "step": 7660
    },
    {
      "epoch": 0.015979166666666666,
      "grad_norm": 0.9517707228660583,
      "learning_rate": 0.0002998958591606069,
      "loss": 4.0301,
      "step": 7670
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.9848448634147644,
      "learning_rate": 0.0002998954915395519,
      "loss": 3.9633,
      "step": 7680
    },
    {
      "epoch": 0.016020833333333335,
      "grad_norm": 0.9697771668434143,
      "learning_rate": 0.0002998951232710076,
      "loss": 4.0888,
      "step": 7690
    },
    {
      "epoch": 0.016041666666666666,
      "grad_norm": 0.8675816655158997,
      "learning_rate": 0.0002998947543549757,
      "loss": 4.1535,
      "step": 7700
    },
    {
      "epoch": 0.0160625,
      "grad_norm": 0.888594925403595,
      "learning_rate": 0.00029989438479145785,
      "loss": 4.0266,
      "step": 7710
    },
    {
      "epoch": 0.016083333333333335,
      "grad_norm": 0.8527824878692627,
      "learning_rate": 0.0002998940145804556,
      "loss": 4.076,
      "step": 7720
    },
    {
      "epoch": 0.016104166666666666,
      "grad_norm": 0.8573829531669617,
      "learning_rate": 0.0002998936437219705,
      "loss": 4.1426,
      "step": 7730
    },
    {
      "epoch": 0.016125,
      "grad_norm": 0.8374878168106079,
      "learning_rate": 0.0002998932722160042,
      "loss": 4.2586,
      "step": 7740
    },
    {
      "epoch": 0.016145833333333335,
      "grad_norm": 0.9867334365844727,
      "learning_rate": 0.0002998929000625583,
      "loss": 3.9878,
      "step": 7750
    },
    {
      "epoch": 0.016166666666666666,
      "grad_norm": 1.0349607467651367,
      "learning_rate": 0.0002998925272616344,
      "loss": 3.9155,
      "step": 7760
    },
    {
      "epoch": 0.0161875,
      "grad_norm": 0.9910019040107727,
      "learning_rate": 0.00029989215381323413,
      "loss": 4.1652,
      "step": 7770
    },
    {
      "epoch": 0.016208333333333335,
      "grad_norm": 1.1321102380752563,
      "learning_rate": 0.0002998917797173591,
      "loss": 3.9685,
      "step": 7780
    },
    {
      "epoch": 0.016229166666666666,
      "grad_norm": 0.8418395519256592,
      "learning_rate": 0.00029989140497401086,
      "loss": 4.1075,
      "step": 7790
    },
    {
      "epoch": 0.01625,
      "grad_norm": 0.8726577758789062,
      "learning_rate": 0.0002998910295831911,
      "loss": 4.1443,
      "step": 7800
    },
    {
      "epoch": 0.016270833333333335,
      "grad_norm": 0.9628142714500427,
      "learning_rate": 0.00029989065354490144,
      "loss": 3.9348,
      "step": 7810
    },
    {
      "epoch": 0.016291666666666666,
      "grad_norm": 0.875770092010498,
      "learning_rate": 0.00029989027685914344,
      "loss": 4.152,
      "step": 7820
    },
    {
      "epoch": 0.0163125,
      "grad_norm": 0.890224039554596,
      "learning_rate": 0.0002998898995259188,
      "loss": 4.1304,
      "step": 7830
    },
    {
      "epoch": 0.01633333333333333,
      "grad_norm": 0.9940407276153564,
      "learning_rate": 0.00029988952154522917,
      "loss": 4.1147,
      "step": 7840
    },
    {
      "epoch": 0.016354166666666666,
      "grad_norm": 1.057767629623413,
      "learning_rate": 0.0002998891429170761,
      "loss": 4.0949,
      "step": 7850
    },
    {
      "epoch": 0.016375,
      "grad_norm": 0.8641510009765625,
      "learning_rate": 0.00029988876364146126,
      "loss": 4.0559,
      "step": 7860
    },
    {
      "epoch": 0.01639583333333333,
      "grad_norm": 1.054960012435913,
      "learning_rate": 0.00029988838371838633,
      "loss": 3.9667,
      "step": 7870
    },
    {
      "epoch": 0.016416666666666666,
      "grad_norm": 0.887367308139801,
      "learning_rate": 0.0002998880031478528,
      "loss": 4.2097,
      "step": 7880
    },
    {
      "epoch": 0.0164375,
      "grad_norm": 1.0446540117263794,
      "learning_rate": 0.0002998876219298625,
      "loss": 3.9531,
      "step": 7890
    },
    {
      "epoch": 0.016458333333333332,
      "grad_norm": 0.8754667043685913,
      "learning_rate": 0.00029988724006441706,
      "loss": 4.1747,
      "step": 7900
    },
    {
      "epoch": 0.016479166666666666,
      "grad_norm": 0.867599606513977,
      "learning_rate": 0.00029988685755151805,
      "loss": 4.2133,
      "step": 7910
    },
    {
      "epoch": 0.0165,
      "grad_norm": 0.8551528453826904,
      "learning_rate": 0.00029988647439116705,
      "loss": 4.0214,
      "step": 7920
    },
    {
      "epoch": 0.016520833333333332,
      "grad_norm": 0.9514595866203308,
      "learning_rate": 0.0002998860905833659,
      "loss": 4.0321,
      "step": 7930
    },
    {
      "epoch": 0.016541666666666666,
      "grad_norm": 0.9246469140052795,
      "learning_rate": 0.0002998857061281161,
      "loss": 4.0849,
      "step": 7940
    },
    {
      "epoch": 0.0165625,
      "grad_norm": 0.8294110298156738,
      "learning_rate": 0.00029988532102541947,
      "loss": 3.8799,
      "step": 7950
    },
    {
      "epoch": 0.016583333333333332,
      "grad_norm": 0.9265419840812683,
      "learning_rate": 0.0002998849352752775,
      "loss": 4.2849,
      "step": 7960
    },
    {
      "epoch": 0.016604166666666666,
      "grad_norm": 0.9284372329711914,
      "learning_rate": 0.000299884548877692,
      "loss": 3.9457,
      "step": 7970
    },
    {
      "epoch": 0.016625,
      "grad_norm": 0.8611606955528259,
      "learning_rate": 0.00029988416183266456,
      "loss": 3.8719,
      "step": 7980
    },
    {
      "epoch": 0.016645833333333332,
      "grad_norm": 0.975935161113739,
      "learning_rate": 0.00029988377414019685,
      "loss": 4.0905,
      "step": 7990
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 0.8938225507736206,
      "learning_rate": 0.00029988338580029056,
      "loss": 4.0504,
      "step": 8000
    },
    {
      "epoch": 0.016666666666666666,
      "eval_loss": 4.359135627746582,
      "eval_runtime": 9.6608,
      "eval_samples_per_second": 1.035,
      "eval_steps_per_second": 0.311,
      "step": 8000
    },
    {
      "epoch": 0.0166875,
      "grad_norm": 0.8844358325004578,
      "learning_rate": 0.0002998829968129474,
      "loss": 4.159,
      "step": 8010
    },
    {
      "epoch": 0.016708333333333332,
      "grad_norm": 0.945570170879364,
      "learning_rate": 0.00029988260717816903,
      "loss": 4.0678,
      "step": 8020
    },
    {
      "epoch": 0.016729166666666666,
      "grad_norm": 0.9997355341911316,
      "learning_rate": 0.00029988221689595705,
      "loss": 4.2037,
      "step": 8030
    },
    {
      "epoch": 0.01675,
      "grad_norm": 0.9758825898170471,
      "learning_rate": 0.00029988182596631325,
      "loss": 3.8107,
      "step": 8040
    },
    {
      "epoch": 0.016770833333333332,
      "grad_norm": 0.7964422702789307,
      "learning_rate": 0.00029988143438923937,
      "loss": 4.2898,
      "step": 8050
    },
    {
      "epoch": 0.016791666666666667,
      "grad_norm": 0.903896689414978,
      "learning_rate": 0.000299881042164737,
      "loss": 4.1031,
      "step": 8060
    },
    {
      "epoch": 0.0168125,
      "grad_norm": 0.9570715427398682,
      "learning_rate": 0.00029988064929280776,
      "loss": 3.9441,
      "step": 8070
    },
    {
      "epoch": 0.016833333333333332,
      "grad_norm": 1.100372076034546,
      "learning_rate": 0.00029988025577345345,
      "loss": 4.1331,
      "step": 8080
    },
    {
      "epoch": 0.016854166666666667,
      "grad_norm": 1.2692229747772217,
      "learning_rate": 0.00029987986160667584,
      "loss": 4.1688,
      "step": 8090
    },
    {
      "epoch": 0.016875,
      "grad_norm": 0.9311814904212952,
      "learning_rate": 0.00029987946679247655,
      "loss": 4.0383,
      "step": 8100
    },
    {
      "epoch": 0.016895833333333332,
      "grad_norm": 0.9424052834510803,
      "learning_rate": 0.00029987907133085726,
      "loss": 4.4557,
      "step": 8110
    },
    {
      "epoch": 0.016916666666666667,
      "grad_norm": 0.9361470341682434,
      "learning_rate": 0.0002998786752218197,
      "loss": 3.956,
      "step": 8120
    },
    {
      "epoch": 0.0169375,
      "grad_norm": 0.9429013133049011,
      "learning_rate": 0.0002998782784653656,
      "loss": 4.072,
      "step": 8130
    },
    {
      "epoch": 0.016958333333333332,
      "grad_norm": 0.9332160949707031,
      "learning_rate": 0.00029987788106149664,
      "loss": 4.1583,
      "step": 8140
    },
    {
      "epoch": 0.016979166666666667,
      "grad_norm": 0.8462079167366028,
      "learning_rate": 0.0002998774830102146,
      "loss": 4.1381,
      "step": 8150
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.9293659925460815,
      "learning_rate": 0.00029987708431152113,
      "loss": 4.1782,
      "step": 8160
    },
    {
      "epoch": 0.017020833333333332,
      "grad_norm": 0.931438684463501,
      "learning_rate": 0.000299876684965418,
      "loss": 4.243,
      "step": 8170
    },
    {
      "epoch": 0.017041666666666667,
      "grad_norm": 0.8117160797119141,
      "learning_rate": 0.0002998762849719069,
      "loss": 4.0017,
      "step": 8180
    },
    {
      "epoch": 0.0170625,
      "grad_norm": 1.0574076175689697,
      "learning_rate": 0.0002998758843309896,
      "loss": 4.1704,
      "step": 8190
    },
    {
      "epoch": 0.017083333333333332,
      "grad_norm": 0.9583580493927002,
      "learning_rate": 0.0002998754830426678,
      "loss": 4.0298,
      "step": 8200
    },
    {
      "epoch": 0.017104166666666667,
      "grad_norm": 0.8882920145988464,
      "learning_rate": 0.00029987508110694317,
      "loss": 3.9623,
      "step": 8210
    },
    {
      "epoch": 0.017125,
      "grad_norm": 0.9885251522064209,
      "learning_rate": 0.00029987467852381764,
      "loss": 3.901,
      "step": 8220
    },
    {
      "epoch": 0.017145833333333332,
      "grad_norm": 1.0381290912628174,
      "learning_rate": 0.0002998742752932927,
      "loss": 4.1142,
      "step": 8230
    },
    {
      "epoch": 0.017166666666666667,
      "grad_norm": 1.0162827968597412,
      "learning_rate": 0.0002998738714153703,
      "loss": 3.8985,
      "step": 8240
    },
    {
      "epoch": 0.0171875,
      "grad_norm": 1.0146030187606812,
      "learning_rate": 0.00029987346689005204,
      "loss": 3.9436,
      "step": 8250
    },
    {
      "epoch": 0.017208333333333332,
      "grad_norm": 0.8633815050125122,
      "learning_rate": 0.00029987306171733977,
      "loss": 4.2695,
      "step": 8260
    },
    {
      "epoch": 0.017229166666666667,
      "grad_norm": 0.8891245722770691,
      "learning_rate": 0.0002998726558972352,
      "loss": 4.0899,
      "step": 8270
    },
    {
      "epoch": 0.01725,
      "grad_norm": 0.9359492063522339,
      "learning_rate": 0.00029987224942974006,
      "loss": 3.9815,
      "step": 8280
    },
    {
      "epoch": 0.017270833333333332,
      "grad_norm": 0.9664071798324585,
      "learning_rate": 0.0002998718423148561,
      "loss": 4.1807,
      "step": 8290
    },
    {
      "epoch": 0.017291666666666667,
      "grad_norm": 1.0486708879470825,
      "learning_rate": 0.00029987143455258516,
      "loss": 4.1797,
      "step": 8300
    },
    {
      "epoch": 0.0173125,
      "grad_norm": 0.9385436773300171,
      "learning_rate": 0.0002998710261429289,
      "loss": 4.0756,
      "step": 8310
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 0.9213384389877319,
      "learning_rate": 0.00029987061708588916,
      "loss": 4.0342,
      "step": 8320
    },
    {
      "epoch": 0.017354166666666667,
      "grad_norm": 0.948731541633606,
      "learning_rate": 0.00029987020738146767,
      "loss": 4.118,
      "step": 8330
    },
    {
      "epoch": 0.017375,
      "grad_norm": 0.9450809955596924,
      "learning_rate": 0.0002998697970296662,
      "loss": 4.1192,
      "step": 8340
    },
    {
      "epoch": 0.017395833333333333,
      "grad_norm": 0.8671319484710693,
      "learning_rate": 0.0002998693860304865,
      "loss": 4.0003,
      "step": 8350
    },
    {
      "epoch": 0.017416666666666667,
      "grad_norm": 0.9694793224334717,
      "learning_rate": 0.00029986897438393043,
      "loss": 3.8087,
      "step": 8360
    },
    {
      "epoch": 0.0174375,
      "grad_norm": 0.9735819101333618,
      "learning_rate": 0.0002998685620899997,
      "loss": 4.1153,
      "step": 8370
    },
    {
      "epoch": 0.017458333333333333,
      "grad_norm": 0.9942685961723328,
      "learning_rate": 0.0002998681491486961,
      "loss": 4.0003,
      "step": 8380
    },
    {
      "epoch": 0.017479166666666667,
      "grad_norm": 0.9571182727813721,
      "learning_rate": 0.0002998677355600214,
      "loss": 4.0935,
      "step": 8390
    },
    {
      "epoch": 0.0175,
      "grad_norm": 0.7830858826637268,
      "learning_rate": 0.0002998673213239774,
      "loss": 4.2864,
      "step": 8400
    },
    {
      "epoch": 0.017520833333333333,
      "grad_norm": 1.0673060417175293,
      "learning_rate": 0.0002998669064405659,
      "loss": 3.9124,
      "step": 8410
    },
    {
      "epoch": 0.017541666666666667,
      "grad_norm": 0.8895696997642517,
      "learning_rate": 0.0002998664909097887,
      "loss": 4.0705,
      "step": 8420
    },
    {
      "epoch": 0.0175625,
      "grad_norm": 1.176624059677124,
      "learning_rate": 0.0002998660747316476,
      "loss": 4.1571,
      "step": 8430
    },
    {
      "epoch": 0.017583333333333333,
      "grad_norm": 1.1625657081604004,
      "learning_rate": 0.00029986565790614435,
      "loss": 4.0164,
      "step": 8440
    },
    {
      "epoch": 0.017604166666666667,
      "grad_norm": 1.1032110452651978,
      "learning_rate": 0.0002998652404332808,
      "loss": 3.9599,
      "step": 8450
    },
    {
      "epoch": 0.017625,
      "grad_norm": 1.0995789766311646,
      "learning_rate": 0.0002998648223130587,
      "loss": 4.0638,
      "step": 8460
    },
    {
      "epoch": 0.017645833333333333,
      "grad_norm": 0.8630760312080383,
      "learning_rate": 0.0002998644035454799,
      "loss": 3.9497,
      "step": 8470
    },
    {
      "epoch": 0.017666666666666667,
      "grad_norm": 0.838282585144043,
      "learning_rate": 0.0002998639841305462,
      "loss": 4.0781,
      "step": 8480
    },
    {
      "epoch": 0.0176875,
      "grad_norm": 0.7680670022964478,
      "learning_rate": 0.0002998635640682594,
      "loss": 4.1953,
      "step": 8490
    },
    {
      "epoch": 0.017708333333333333,
      "grad_norm": 0.8610295653343201,
      "learning_rate": 0.00029986314335862135,
      "loss": 4.0202,
      "step": 8500
    },
    {
      "epoch": 0.017729166666666667,
      "grad_norm": 0.9679912328720093,
      "learning_rate": 0.0002998627220016338,
      "loss": 4.1376,
      "step": 8510
    },
    {
      "epoch": 0.01775,
      "grad_norm": 0.8499793410301208,
      "learning_rate": 0.0002998622999972987,
      "loss": 4.2573,
      "step": 8520
    },
    {
      "epoch": 0.017770833333333333,
      "grad_norm": 0.918820321559906,
      "learning_rate": 0.00029986187734561766,
      "loss": 4.1539,
      "step": 8530
    },
    {
      "epoch": 0.017791666666666667,
      "grad_norm": 1.0979641675949097,
      "learning_rate": 0.0002998614540465927,
      "loss": 4.0731,
      "step": 8540
    },
    {
      "epoch": 0.0178125,
      "grad_norm": 0.9051472544670105,
      "learning_rate": 0.0002998610301002256,
      "loss": 4.0903,
      "step": 8550
    },
    {
      "epoch": 0.017833333333333333,
      "grad_norm": 0.9612399935722351,
      "learning_rate": 0.0002998606055065181,
      "loss": 3.9094,
      "step": 8560
    },
    {
      "epoch": 0.017854166666666667,
      "grad_norm": 1.085081696510315,
      "learning_rate": 0.00029986018026547214,
      "loss": 4.0771,
      "step": 8570
    },
    {
      "epoch": 0.017875,
      "grad_norm": 0.9349003434181213,
      "learning_rate": 0.0002998597543770895,
      "loss": 4.1552,
      "step": 8580
    },
    {
      "epoch": 0.017895833333333333,
      "grad_norm": 0.8839707374572754,
      "learning_rate": 0.0002998593278413721,
      "loss": 4.0256,
      "step": 8590
    },
    {
      "epoch": 0.017916666666666668,
      "grad_norm": 0.958372950553894,
      "learning_rate": 0.00029985890065832165,
      "loss": 4.0301,
      "step": 8600
    },
    {
      "epoch": 0.0179375,
      "grad_norm": 1.2134268283843994,
      "learning_rate": 0.0002998584728279401,
      "loss": 4.1408,
      "step": 8610
    },
    {
      "epoch": 0.017958333333333333,
      "grad_norm": 0.9239814281463623,
      "learning_rate": 0.0002998580443502293,
      "loss": 4.0323,
      "step": 8620
    },
    {
      "epoch": 0.017979166666666668,
      "grad_norm": 0.843664824962616,
      "learning_rate": 0.00029985761522519094,
      "loss": 3.9146,
      "step": 8630
    },
    {
      "epoch": 0.018,
      "grad_norm": 1.2419476509094238,
      "learning_rate": 0.00029985718545282714,
      "loss": 4.1792,
      "step": 8640
    },
    {
      "epoch": 0.018020833333333333,
      "grad_norm": 1.329093098640442,
      "learning_rate": 0.00029985675503313956,
      "loss": 4.2059,
      "step": 8650
    },
    {
      "epoch": 0.018041666666666668,
      "grad_norm": 0.8298959136009216,
      "learning_rate": 0.0002998563239661301,
      "loss": 3.9852,
      "step": 8660
    },
    {
      "epoch": 0.0180625,
      "grad_norm": 0.7582468390464783,
      "learning_rate": 0.0002998558922518007,
      "loss": 4.084,
      "step": 8670
    },
    {
      "epoch": 0.018083333333333333,
      "grad_norm": 0.9785591959953308,
      "learning_rate": 0.0002998554598901531,
      "loss": 4.0348,
      "step": 8680
    },
    {
      "epoch": 0.018104166666666668,
      "grad_norm": 0.9617912769317627,
      "learning_rate": 0.00029985502688118925,
      "loss": 3.9361,
      "step": 8690
    },
    {
      "epoch": 0.018125,
      "grad_norm": 0.9017140865325928,
      "learning_rate": 0.000299854593224911,
      "loss": 4.1316,
      "step": 8700
    },
    {
      "epoch": 0.018145833333333333,
      "grad_norm": 0.8073142170906067,
      "learning_rate": 0.00029985415892132023,
      "loss": 3.9029,
      "step": 8710
    },
    {
      "epoch": 0.018166666666666668,
      "grad_norm": 1.0022088289260864,
      "learning_rate": 0.0002998537239704188,
      "loss": 4.1955,
      "step": 8720
    },
    {
      "epoch": 0.0181875,
      "grad_norm": 0.8683967590332031,
      "learning_rate": 0.0002998532883722086,
      "loss": 3.9902,
      "step": 8730
    },
    {
      "epoch": 0.018208333333333333,
      "grad_norm": 0.8850433230400085,
      "learning_rate": 0.0002998528521266915,
      "loss": 3.9935,
      "step": 8740
    },
    {
      "epoch": 0.018229166666666668,
      "grad_norm": 0.9850907921791077,
      "learning_rate": 0.0002998524152338694,
      "loss": 4.1306,
      "step": 8750
    },
    {
      "epoch": 0.01825,
      "grad_norm": 0.9019120335578918,
      "learning_rate": 0.00029985197769374423,
      "loss": 4.0238,
      "step": 8760
    },
    {
      "epoch": 0.018270833333333333,
      "grad_norm": 0.9077861309051514,
      "learning_rate": 0.0002998515395063177,
      "loss": 4.0197,
      "step": 8770
    },
    {
      "epoch": 0.018291666666666668,
      "grad_norm": 1.1095470190048218,
      "learning_rate": 0.000299851100671592,
      "loss": 3.9661,
      "step": 8780
    },
    {
      "epoch": 0.0183125,
      "grad_norm": 0.8263306617736816,
      "learning_rate": 0.0002998506611895688,
      "loss": 4.087,
      "step": 8790
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 1.001594066619873,
      "learning_rate": 0.00029985022106025,
      "loss": 4.042,
      "step": 8800
    },
    {
      "epoch": 0.018354166666666668,
      "grad_norm": 0.7825855016708374,
      "learning_rate": 0.0002998497802836376,
      "loss": 3.9146,
      "step": 8810
    },
    {
      "epoch": 0.018375,
      "grad_norm": 0.8702734708786011,
      "learning_rate": 0.00029984933885973355,
      "loss": 4.0408,
      "step": 8820
    },
    {
      "epoch": 0.018395833333333333,
      "grad_norm": 0.8864033222198486,
      "learning_rate": 0.00029984889678853955,
      "loss": 4.0739,
      "step": 8830
    },
    {
      "epoch": 0.018416666666666668,
      "grad_norm": 1.0076587200164795,
      "learning_rate": 0.00029984845407005767,
      "loss": 4.013,
      "step": 8840
    },
    {
      "epoch": 0.0184375,
      "grad_norm": 0.935309886932373,
      "learning_rate": 0.00029984801070428974,
      "loss": 4.1587,
      "step": 8850
    },
    {
      "epoch": 0.018458333333333334,
      "grad_norm": 0.8029825687408447,
      "learning_rate": 0.00029984756669123783,
      "loss": 4.055,
      "step": 8860
    },
    {
      "epoch": 0.018479166666666668,
      "grad_norm": 0.8799611926078796,
      "learning_rate": 0.00029984712203090367,
      "loss": 3.9093,
      "step": 8870
    },
    {
      "epoch": 0.0185,
      "grad_norm": 0.9531365633010864,
      "learning_rate": 0.0002998466767232892,
      "loss": 3.9717,
      "step": 8880
    },
    {
      "epoch": 0.018520833333333334,
      "grad_norm": 0.884185254573822,
      "learning_rate": 0.0002998462307683965,
      "loss": 3.9517,
      "step": 8890
    },
    {
      "epoch": 0.018541666666666668,
      "grad_norm": 0.9882393479347229,
      "learning_rate": 0.00029984578416622737,
      "loss": 4.0974,
      "step": 8900
    },
    {
      "epoch": 0.0185625,
      "grad_norm": 0.8401179313659668,
      "learning_rate": 0.0002998453369167838,
      "loss": 4.1953,
      "step": 8910
    },
    {
      "epoch": 0.018583333333333334,
      "grad_norm": 0.9629188179969788,
      "learning_rate": 0.0002998448890200676,
      "loss": 4.0424,
      "step": 8920
    },
    {
      "epoch": 0.018604166666666668,
      "grad_norm": 1.0426764488220215,
      "learning_rate": 0.0002998444404760808,
      "loss": 4.0312,
      "step": 8930
    },
    {
      "epoch": 0.018625,
      "grad_norm": 0.9690893292427063,
      "learning_rate": 0.0002998439912848254,
      "loss": 3.9159,
      "step": 8940
    },
    {
      "epoch": 0.018645833333333334,
      "grad_norm": 0.8988893032073975,
      "learning_rate": 0.0002998435414463032,
      "loss": 4.1215,
      "step": 8950
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 1.0951426029205322,
      "learning_rate": 0.00029984309096051624,
      "loss": 3.9974,
      "step": 8960
    },
    {
      "epoch": 0.0186875,
      "grad_norm": 0.858089029788971,
      "learning_rate": 0.0002998426398274665,
      "loss": 3.8983,
      "step": 8970
    },
    {
      "epoch": 0.018708333333333334,
      "grad_norm": 0.9532752633094788,
      "learning_rate": 0.0002998421880471558,
      "loss": 4.1317,
      "step": 8980
    },
    {
      "epoch": 0.01872916666666667,
      "grad_norm": 1.2736117839813232,
      "learning_rate": 0.00029984173561958615,
      "loss": 4.2258,
      "step": 8990
    },
    {
      "epoch": 0.01875,
      "grad_norm": 1.0548949241638184,
      "learning_rate": 0.0002998412825447595,
      "loss": 4.1096,
      "step": 9000
    },
    {
      "epoch": 0.01875,
      "eval_loss": 4.345475673675537,
      "eval_runtime": 10.5435,
      "eval_samples_per_second": 0.948,
      "eval_steps_per_second": 0.285,
      "step": 9000
    },
    {
      "epoch": 0.018770833333333334,
      "grad_norm": 0.9277525544166565,
      "learning_rate": 0.00029984082882267786,
      "loss": 4.2696,
      "step": 9010
    },
    {
      "epoch": 0.01879166666666667,
      "grad_norm": 1.0537359714508057,
      "learning_rate": 0.00029984037445334317,
      "loss": 4.113,
      "step": 9020
    },
    {
      "epoch": 0.0188125,
      "grad_norm": 0.8888839483261108,
      "learning_rate": 0.0002998399194367574,
      "loss": 4.0897,
      "step": 9030
    },
    {
      "epoch": 0.018833333333333334,
      "grad_norm": 0.9012905955314636,
      "learning_rate": 0.0002998394637729224,
      "loss": 4.0483,
      "step": 9040
    },
    {
      "epoch": 0.01885416666666667,
      "grad_norm": 0.966414749622345,
      "learning_rate": 0.00029983900746184027,
      "loss": 4.183,
      "step": 9050
    },
    {
      "epoch": 0.018875,
      "grad_norm": 0.8427063822746277,
      "learning_rate": 0.00029983855050351297,
      "loss": 3.8561,
      "step": 9060
    },
    {
      "epoch": 0.018895833333333334,
      "grad_norm": 0.823745608329773,
      "learning_rate": 0.0002998380928979424,
      "loss": 4.0483,
      "step": 9070
    },
    {
      "epoch": 0.018916666666666665,
      "grad_norm": 0.9898422360420227,
      "learning_rate": 0.00029983763464513057,
      "loss": 3.9237,
      "step": 9080
    },
    {
      "epoch": 0.0189375,
      "grad_norm": 0.8690701723098755,
      "learning_rate": 0.00029983717574507947,
      "loss": 4.0887,
      "step": 9090
    },
    {
      "epoch": 0.018958333333333334,
      "grad_norm": 1.0593056678771973,
      "learning_rate": 0.0002998367161977911,
      "loss": 4.2075,
      "step": 9100
    },
    {
      "epoch": 0.018979166666666665,
      "grad_norm": 1.0398879051208496,
      "learning_rate": 0.0002998362560032674,
      "loss": 4.1353,
      "step": 9110
    },
    {
      "epoch": 0.019,
      "grad_norm": 0.871092677116394,
      "learning_rate": 0.00029983579516151045,
      "loss": 4.1322,
      "step": 9120
    },
    {
      "epoch": 0.019020833333333334,
      "grad_norm": 0.8651396036148071,
      "learning_rate": 0.0002998353336725221,
      "loss": 3.9945,
      "step": 9130
    },
    {
      "epoch": 0.019041666666666665,
      "grad_norm": 0.8620742559432983,
      "learning_rate": 0.00029983487153630446,
      "loss": 4.0121,
      "step": 9140
    },
    {
      "epoch": 0.0190625,
      "grad_norm": 0.9897534847259521,
      "learning_rate": 0.00029983440875285943,
      "loss": 3.8512,
      "step": 9150
    },
    {
      "epoch": 0.019083333333333334,
      "grad_norm": 0.912268340587616,
      "learning_rate": 0.0002998339453221891,
      "loss": 4.0959,
      "step": 9160
    },
    {
      "epoch": 0.019104166666666665,
      "grad_norm": 0.9242444634437561,
      "learning_rate": 0.0002998334812442955,
      "loss": 3.9677,
      "step": 9170
    },
    {
      "epoch": 0.019125,
      "grad_norm": 0.9498921036720276,
      "learning_rate": 0.00029983301651918045,
      "loss": 3.9376,
      "step": 9180
    },
    {
      "epoch": 0.019145833333333334,
      "grad_norm": 0.9305335879325867,
      "learning_rate": 0.0002998325511468462,
      "loss": 4.0968,
      "step": 9190
    },
    {
      "epoch": 0.019166666666666665,
      "grad_norm": 0.8681609034538269,
      "learning_rate": 0.0002998320851272945,
      "loss": 3.9807,
      "step": 9200
    },
    {
      "epoch": 0.0191875,
      "grad_norm": 0.8862873911857605,
      "learning_rate": 0.0002998316184605276,
      "loss": 3.9169,
      "step": 9210
    },
    {
      "epoch": 0.019208333333333334,
      "grad_norm": 1.2506145238876343,
      "learning_rate": 0.0002998311511465474,
      "loss": 4.0204,
      "step": 9220
    },
    {
      "epoch": 0.019229166666666665,
      "grad_norm": 0.8647387027740479,
      "learning_rate": 0.0002998306831853559,
      "loss": 4.1874,
      "step": 9230
    },
    {
      "epoch": 0.01925,
      "grad_norm": 0.8172548413276672,
      "learning_rate": 0.00029983021457695517,
      "loss": 4.0949,
      "step": 9240
    },
    {
      "epoch": 0.019270833333333334,
      "grad_norm": 0.9220440983772278,
      "learning_rate": 0.0002998297453213472,
      "loss": 4.0685,
      "step": 9250
    },
    {
      "epoch": 0.019291666666666665,
      "grad_norm": 0.843744695186615,
      "learning_rate": 0.0002998292754185341,
      "loss": 4.0763,
      "step": 9260
    },
    {
      "epoch": 0.0193125,
      "grad_norm": 0.8689762949943542,
      "learning_rate": 0.0002998288048685178,
      "loss": 4.0799,
      "step": 9270
    },
    {
      "epoch": 0.019333333333333334,
      "grad_norm": 0.9222022294998169,
      "learning_rate": 0.00029982833367130036,
      "loss": 4.103,
      "step": 9280
    },
    {
      "epoch": 0.019354166666666665,
      "grad_norm": 0.8696931004524231,
      "learning_rate": 0.00029982786182688385,
      "loss": 4.0024,
      "step": 9290
    },
    {
      "epoch": 0.019375,
      "grad_norm": 0.9493642449378967,
      "learning_rate": 0.00029982738933527026,
      "loss": 3.9488,
      "step": 9300
    },
    {
      "epoch": 0.019395833333333334,
      "grad_norm": 0.8894075751304626,
      "learning_rate": 0.0002998269161964617,
      "loss": 3.9632,
      "step": 9310
    },
    {
      "epoch": 0.019416666666666665,
      "grad_norm": 0.9133402109146118,
      "learning_rate": 0.00029982644241046004,
      "loss": 4.0253,
      "step": 9320
    },
    {
      "epoch": 0.0194375,
      "grad_norm": 0.9435531497001648,
      "learning_rate": 0.00029982596797726755,
      "loss": 4.0884,
      "step": 9330
    },
    {
      "epoch": 0.019458333333333334,
      "grad_norm": 0.8678200840950012,
      "learning_rate": 0.0002998254928968862,
      "loss": 4.1925,
      "step": 9340
    },
    {
      "epoch": 0.019479166666666665,
      "grad_norm": 0.8157002925872803,
      "learning_rate": 0.000299825017169318,
      "loss": 4.1566,
      "step": 9350
    },
    {
      "epoch": 0.0195,
      "grad_norm": 0.8052384853363037,
      "learning_rate": 0.000299824540794565,
      "loss": 4.3168,
      "step": 9360
    },
    {
      "epoch": 0.019520833333333334,
      "grad_norm": 0.8435333967208862,
      "learning_rate": 0.00029982406377262934,
      "loss": 3.9149,
      "step": 9370
    },
    {
      "epoch": 0.019541666666666666,
      "grad_norm": 0.7847732305526733,
      "learning_rate": 0.000299823586103513,
      "loss": 4.0877,
      "step": 9380
    },
    {
      "epoch": 0.0195625,
      "grad_norm": 0.94866544008255,
      "learning_rate": 0.0002998231077872181,
      "loss": 4.0232,
      "step": 9390
    },
    {
      "epoch": 0.019583333333333335,
      "grad_norm": 0.8169416785240173,
      "learning_rate": 0.00029982262882374664,
      "loss": 3.9902,
      "step": 9400
    },
    {
      "epoch": 0.019604166666666666,
      "grad_norm": 0.9127697944641113,
      "learning_rate": 0.00029982214921310074,
      "loss": 3.9247,
      "step": 9410
    },
    {
      "epoch": 0.019625,
      "grad_norm": 0.9711620807647705,
      "learning_rate": 0.0002998216689552825,
      "loss": 4.1867,
      "step": 9420
    },
    {
      "epoch": 0.019645833333333335,
      "grad_norm": 0.9964255094528198,
      "learning_rate": 0.0002998211880502939,
      "loss": 4.0062,
      "step": 9430
    },
    {
      "epoch": 0.019666666666666666,
      "grad_norm": 1.0919461250305176,
      "learning_rate": 0.00029982070649813713,
      "loss": 4.0073,
      "step": 9440
    },
    {
      "epoch": 0.0196875,
      "grad_norm": 0.8851948380470276,
      "learning_rate": 0.0002998202242988141,
      "loss": 3.8325,
      "step": 9450
    },
    {
      "epoch": 0.019708333333333335,
      "grad_norm": 1.0363069772720337,
      "learning_rate": 0.0002998197414523271,
      "loss": 4.0856,
      "step": 9460
    },
    {
      "epoch": 0.019729166666666666,
      "grad_norm": 0.8468578457832336,
      "learning_rate": 0.0002998192579586781,
      "loss": 4.161,
      "step": 9470
    },
    {
      "epoch": 0.01975,
      "grad_norm": 1.2036677598953247,
      "learning_rate": 0.00029981877381786925,
      "loss": 4.2491,
      "step": 9480
    },
    {
      "epoch": 0.019770833333333335,
      "grad_norm": 0.9143335819244385,
      "learning_rate": 0.00029981828902990253,
      "loss": 3.9455,
      "step": 9490
    },
    {
      "epoch": 0.019791666666666666,
      "grad_norm": 0.8497856259346008,
      "learning_rate": 0.0002998178035947801,
      "loss": 3.9328,
      "step": 9500
    },
    {
      "epoch": 0.0198125,
      "grad_norm": 0.9727890491485596,
      "learning_rate": 0.0002998173175125041,
      "loss": 4.0492,
      "step": 9510
    },
    {
      "epoch": 0.019833333333333335,
      "grad_norm": 0.8242268562316895,
      "learning_rate": 0.00029981683078307656,
      "loss": 4.1791,
      "step": 9520
    },
    {
      "epoch": 0.019854166666666666,
      "grad_norm": 0.8298456072807312,
      "learning_rate": 0.00029981634340649964,
      "loss": 3.8701,
      "step": 9530
    },
    {
      "epoch": 0.019875,
      "grad_norm": 1.0017644166946411,
      "learning_rate": 0.0002998158553827754,
      "loss": 3.8854,
      "step": 9540
    },
    {
      "epoch": 0.019895833333333335,
      "grad_norm": 0.7783777713775635,
      "learning_rate": 0.000299815366711906,
      "loss": 4.1866,
      "step": 9550
    },
    {
      "epoch": 0.019916666666666666,
      "grad_norm": 0.8830393552780151,
      "learning_rate": 0.0002998148773938935,
      "loss": 4.0029,
      "step": 9560
    },
    {
      "epoch": 0.0199375,
      "grad_norm": 0.9470157623291016,
      "learning_rate": 0.00029981438742874,
      "loss": 4.0531,
      "step": 9570
    },
    {
      "epoch": 0.019958333333333335,
      "grad_norm": 0.9863994717597961,
      "learning_rate": 0.00029981389681644767,
      "loss": 4.1668,
      "step": 9580
    },
    {
      "epoch": 0.019979166666666666,
      "grad_norm": 0.8077663779258728,
      "learning_rate": 0.0002998134055570186,
      "loss": 3.9715,
      "step": 9590
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8208444714546204,
      "learning_rate": 0.0002998129136504549,
      "loss": 4.0146,
      "step": 9600
    },
    {
      "epoch": 0.020020833333333335,
      "grad_norm": 0.8585996627807617,
      "learning_rate": 0.00029981242109675875,
      "loss": 4.0237,
      "step": 9610
    },
    {
      "epoch": 0.020041666666666666,
      "grad_norm": 0.9613497853279114,
      "learning_rate": 0.0002998119278959322,
      "loss": 4.0188,
      "step": 9620
    },
    {
      "epoch": 0.0200625,
      "grad_norm": 0.8470491170883179,
      "learning_rate": 0.0002998114340479775,
      "loss": 4.0296,
      "step": 9630
    },
    {
      "epoch": 0.020083333333333335,
      "grad_norm": 0.8715327978134155,
      "learning_rate": 0.0002998109395528966,
      "loss": 4.19,
      "step": 9640
    },
    {
      "epoch": 0.020104166666666666,
      "grad_norm": 1.0012080669403076,
      "learning_rate": 0.00029981044441069186,
      "loss": 4.0675,
      "step": 9650
    },
    {
      "epoch": 0.020125,
      "grad_norm": 0.8255970478057861,
      "learning_rate": 0.00029980994862136516,
      "loss": 4.0845,
      "step": 9660
    },
    {
      "epoch": 0.020145833333333335,
      "grad_norm": 0.908376157283783,
      "learning_rate": 0.0002998094521849189,
      "loss": 3.9606,
      "step": 9670
    },
    {
      "epoch": 0.020166666666666666,
      "grad_norm": 0.8726487755775452,
      "learning_rate": 0.00029980895510135503,
      "loss": 4.0282,
      "step": 9680
    },
    {
      "epoch": 0.0201875,
      "grad_norm": 0.8931153416633606,
      "learning_rate": 0.0002998084573706758,
      "loss": 4.0197,
      "step": 9690
    },
    {
      "epoch": 0.02020833333333333,
      "grad_norm": 0.7906998991966248,
      "learning_rate": 0.00029980795899288334,
      "loss": 3.8319,
      "step": 9700
    },
    {
      "epoch": 0.020229166666666666,
      "grad_norm": 0.8168278932571411,
      "learning_rate": 0.0002998074599679798,
      "loss": 3.7907,
      "step": 9710
    },
    {
      "epoch": 0.02025,
      "grad_norm": 0.8812684416770935,
      "learning_rate": 0.0002998069602959673,
      "loss": 4.0428,
      "step": 9720
    },
    {
      "epoch": 0.02027083333333333,
      "grad_norm": 0.9491397142410278,
      "learning_rate": 0.00029980645997684807,
      "loss": 3.9361,
      "step": 9730
    },
    {
      "epoch": 0.020291666666666666,
      "grad_norm": 0.995573878288269,
      "learning_rate": 0.0002998059590106242,
      "loss": 4.0512,
      "step": 9740
    },
    {
      "epoch": 0.0203125,
      "grad_norm": 0.9225786924362183,
      "learning_rate": 0.0002998054573972979,
      "loss": 4.0591,
      "step": 9750
    },
    {
      "epoch": 0.02033333333333333,
      "grad_norm": 0.8943817615509033,
      "learning_rate": 0.00029980495513687126,
      "loss": 3.8922,
      "step": 9760
    },
    {
      "epoch": 0.020354166666666666,
      "grad_norm": 1.1089351177215576,
      "learning_rate": 0.0002998044522293466,
      "loss": 4.0297,
      "step": 9770
    },
    {
      "epoch": 0.020375,
      "grad_norm": 0.7932626008987427,
      "learning_rate": 0.000299803948674726,
      "loss": 3.9693,
      "step": 9780
    },
    {
      "epoch": 0.020395833333333332,
      "grad_norm": 0.9082998633384705,
      "learning_rate": 0.0002998034444730116,
      "loss": 4.2084,
      "step": 9790
    },
    {
      "epoch": 0.020416666666666666,
      "grad_norm": 0.7732157707214355,
      "learning_rate": 0.0002998029396242056,
      "loss": 4.2553,
      "step": 9800
    },
    {
      "epoch": 0.0204375,
      "grad_norm": 0.9002898931503296,
      "learning_rate": 0.00029980243412831023,
      "loss": 4.104,
      "step": 9810
    },
    {
      "epoch": 0.020458333333333332,
      "grad_norm": 0.815901517868042,
      "learning_rate": 0.0002998019279853276,
      "loss": 4.0168,
      "step": 9820
    },
    {
      "epoch": 0.020479166666666666,
      "grad_norm": 0.8804150223731995,
      "learning_rate": 0.00029980142119526,
      "loss": 4.0835,
      "step": 9830
    },
    {
      "epoch": 0.0205,
      "grad_norm": 1.1327600479125977,
      "learning_rate": 0.0002998009137581095,
      "loss": 4.0576,
      "step": 9840
    },
    {
      "epoch": 0.020520833333333332,
      "grad_norm": 0.807758629322052,
      "learning_rate": 0.0002998004056738784,
      "loss": 4.0875,
      "step": 9850
    },
    {
      "epoch": 0.020541666666666666,
      "grad_norm": 0.8243554830551147,
      "learning_rate": 0.0002997998969425688,
      "loss": 4.1321,
      "step": 9860
    },
    {
      "epoch": 0.0205625,
      "grad_norm": 0.8303701877593994,
      "learning_rate": 0.00029979938756418296,
      "loss": 4.0612,
      "step": 9870
    },
    {
      "epoch": 0.020583333333333332,
      "grad_norm": 0.8470600843429565,
      "learning_rate": 0.00029979887753872305,
      "loss": 3.9121,
      "step": 9880
    },
    {
      "epoch": 0.020604166666666666,
      "grad_norm": 0.8359178304672241,
      "learning_rate": 0.0002997983668661913,
      "loss": 3.9522,
      "step": 9890
    },
    {
      "epoch": 0.020625,
      "grad_norm": 0.9217105507850647,
      "learning_rate": 0.0002997978555465899,
      "loss": 4.0739,
      "step": 9900
    },
    {
      "epoch": 0.020645833333333332,
      "grad_norm": 0.9166182279586792,
      "learning_rate": 0.000299797343579921,
      "loss": 4.0379,
      "step": 9910
    },
    {
      "epoch": 0.020666666666666667,
      "grad_norm": 0.9592489004135132,
      "learning_rate": 0.0002997968309661869,
      "loss": 4.0243,
      "step": 9920
    },
    {
      "epoch": 0.0206875,
      "grad_norm": 0.9903649091720581,
      "learning_rate": 0.00029979631770538984,
      "loss": 4.0429,
      "step": 9930
    },
    {
      "epoch": 0.020708333333333332,
      "grad_norm": 0.8367807269096375,
      "learning_rate": 0.0002997958037975319,
      "loss": 4.2466,
      "step": 9940
    },
    {
      "epoch": 0.020729166666666667,
      "grad_norm": 0.9227380752563477,
      "learning_rate": 0.0002997952892426154,
      "loss": 4.0022,
      "step": 9950
    },
    {
      "epoch": 0.02075,
      "grad_norm": 0.8208871483802795,
      "learning_rate": 0.0002997947740406426,
      "loss": 4.0196,
      "step": 9960
    },
    {
      "epoch": 0.020770833333333332,
      "grad_norm": 0.8958483934402466,
      "learning_rate": 0.00029979425819161564,
      "loss": 4.147,
      "step": 9970
    },
    {
      "epoch": 0.020791666666666667,
      "grad_norm": 0.8915866613388062,
      "learning_rate": 0.00029979374169553677,
      "loss": 4.0215,
      "step": 9980
    },
    {
      "epoch": 0.0208125,
      "grad_norm": 1.0059232711791992,
      "learning_rate": 0.0002997932245524082,
      "loss": 4.0795,
      "step": 9990
    },
    {
      "epoch": 0.020833333333333332,
      "grad_norm": 0.8215759992599487,
      "learning_rate": 0.00029979270676223224,
      "loss": 3.9671,
      "step": 10000
    },
    {
      "epoch": 0.020833333333333332,
      "eval_loss": 4.33560848236084,
      "eval_runtime": 9.8481,
      "eval_samples_per_second": 1.015,
      "eval_steps_per_second": 0.305,
      "step": 10000
    },
    {
      "epoch": 0.020854166666666667,
      "grad_norm": 0.9175835847854614,
      "learning_rate": 0.0002997921883250111,
      "loss": 3.9231,
      "step": 10010
    },
    {
      "epoch": 0.020875,
      "grad_norm": 0.8828879594802856,
      "learning_rate": 0.0002997916692407469,
      "loss": 4.173,
      "step": 10020
    },
    {
      "epoch": 0.020895833333333332,
      "grad_norm": 0.7833811044692993,
      "learning_rate": 0.0002997911495094421,
      "loss": 4.1142,
      "step": 10030
    },
    {
      "epoch": 0.020916666666666667,
      "grad_norm": 0.8361049294471741,
      "learning_rate": 0.0002997906291310987,
      "loss": 4.0808,
      "step": 10040
    },
    {
      "epoch": 0.0209375,
      "grad_norm": 0.9083168506622314,
      "learning_rate": 0.0002997901081057192,
      "loss": 4.0225,
      "step": 10050
    },
    {
      "epoch": 0.020958333333333332,
      "grad_norm": 0.9234095215797424,
      "learning_rate": 0.00029978958643330563,
      "loss": 3.9358,
      "step": 10060
    },
    {
      "epoch": 0.020979166666666667,
      "grad_norm": 0.9170847535133362,
      "learning_rate": 0.00029978906411386034,
      "loss": 3.9666,
      "step": 10070
    },
    {
      "epoch": 0.021,
      "grad_norm": 0.9088347554206848,
      "learning_rate": 0.00029978854114738563,
      "loss": 3.8923,
      "step": 10080
    },
    {
      "epoch": 0.021020833333333332,
      "grad_norm": 0.8774302005767822,
      "learning_rate": 0.0002997880175338837,
      "loss": 4.0738,
      "step": 10090
    },
    {
      "epoch": 0.021041666666666667,
      "grad_norm": 0.8774318695068359,
      "learning_rate": 0.0002997874932733568,
      "loss": 3.9997,
      "step": 10100
    },
    {
      "epoch": 0.0210625,
      "grad_norm": 0.9026405215263367,
      "learning_rate": 0.00029978696836580727,
      "loss": 4.0601,
      "step": 10110
    },
    {
      "epoch": 0.021083333333333332,
      "grad_norm": 0.8695791363716125,
      "learning_rate": 0.0002997864428112373,
      "loss": 4.0592,
      "step": 10120
    },
    {
      "epoch": 0.021104166666666667,
      "grad_norm": 0.8792867064476013,
      "learning_rate": 0.00029978591660964913,
      "loss": 4.082,
      "step": 10130
    },
    {
      "epoch": 0.021125,
      "grad_norm": 0.8485450744628906,
      "learning_rate": 0.00029978538976104517,
      "loss": 3.9627,
      "step": 10140
    },
    {
      "epoch": 0.021145833333333332,
      "grad_norm": 0.9313712120056152,
      "learning_rate": 0.00029978486226542756,
      "loss": 3.974,
      "step": 10150
    },
    {
      "epoch": 0.021166666666666667,
      "grad_norm": 0.8878106474876404,
      "learning_rate": 0.0002997843341227987,
      "loss": 4.0948,
      "step": 10160
    },
    {
      "epoch": 0.0211875,
      "grad_norm": 0.7925577759742737,
      "learning_rate": 0.00029978380533316075,
      "loss": 4.0406,
      "step": 10170
    },
    {
      "epoch": 0.021208333333333333,
      "grad_norm": 1.175937533378601,
      "learning_rate": 0.00029978327589651605,
      "loss": 4.038,
      "step": 10180
    },
    {
      "epoch": 0.021229166666666667,
      "grad_norm": 0.8927673697471619,
      "learning_rate": 0.00029978274581286693,
      "loss": 3.995,
      "step": 10190
    },
    {
      "epoch": 0.02125,
      "grad_norm": 0.9335274696350098,
      "learning_rate": 0.00029978221508221556,
      "loss": 4.0519,
      "step": 10200
    },
    {
      "epoch": 0.021270833333333333,
      "grad_norm": 0.9304651021957397,
      "learning_rate": 0.00029978168370456437,
      "loss": 3.9445,
      "step": 10210
    },
    {
      "epoch": 0.021291666666666667,
      "grad_norm": 0.9953484535217285,
      "learning_rate": 0.0002997811516799156,
      "loss": 3.8738,
      "step": 10220
    },
    {
      "epoch": 0.0213125,
      "grad_norm": 0.8957852721214294,
      "learning_rate": 0.0002997806190082715,
      "loss": 4.1393,
      "step": 10230
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 1.2486326694488525,
      "learning_rate": 0.00029978008568963446,
      "loss": 3.9038,
      "step": 10240
    },
    {
      "epoch": 0.021354166666666667,
      "grad_norm": 0.9966117143630981,
      "learning_rate": 0.0002997795517240067,
      "loss": 3.9363,
      "step": 10250
    },
    {
      "epoch": 0.021375,
      "grad_norm": 0.9372152090072632,
      "learning_rate": 0.0002997790171113906,
      "loss": 4.0399,
      "step": 10260
    },
    {
      "epoch": 0.021395833333333333,
      "grad_norm": 0.8523468375205994,
      "learning_rate": 0.0002997784818517884,
      "loss": 4.0605,
      "step": 10270
    },
    {
      "epoch": 0.021416666666666667,
      "grad_norm": 0.7862476706504822,
      "learning_rate": 0.00029977794594520247,
      "loss": 4.004,
      "step": 10280
    },
    {
      "epoch": 0.0214375,
      "grad_norm": 0.8762577176094055,
      "learning_rate": 0.00029977740939163505,
      "loss": 4.148,
      "step": 10290
    },
    {
      "epoch": 0.021458333333333333,
      "grad_norm": 0.9351198673248291,
      "learning_rate": 0.0002997768721910886,
      "loss": 4.0516,
      "step": 10300
    },
    {
      "epoch": 0.021479166666666667,
      "grad_norm": 0.8949923515319824,
      "learning_rate": 0.0002997763343435653,
      "loss": 4.0902,
      "step": 10310
    },
    {
      "epoch": 0.0215,
      "grad_norm": 0.9014841318130493,
      "learning_rate": 0.0002997757958490675,
      "loss": 3.921,
      "step": 10320
    },
    {
      "epoch": 0.021520833333333333,
      "grad_norm": 0.9985924363136292,
      "learning_rate": 0.0002997752567075975,
      "loss": 3.9606,
      "step": 10330
    },
    {
      "epoch": 0.021541666666666667,
      "grad_norm": 0.8761548399925232,
      "learning_rate": 0.0002997747169191577,
      "loss": 3.9699,
      "step": 10340
    },
    {
      "epoch": 0.0215625,
      "grad_norm": 0.9579183459281921,
      "learning_rate": 0.0002997741764837505,
      "loss": 4.066,
      "step": 10350
    },
    {
      "epoch": 0.021583333333333333,
      "grad_norm": 0.9612360000610352,
      "learning_rate": 0.0002997736354013781,
      "loss": 4.1511,
      "step": 10360
    },
    {
      "epoch": 0.021604166666666667,
      "grad_norm": 0.9254598617553711,
      "learning_rate": 0.00029977309367204286,
      "loss": 3.999,
      "step": 10370
    },
    {
      "epoch": 0.021625,
      "grad_norm": 0.8962486386299133,
      "learning_rate": 0.00029977255129574713,
      "loss": 3.983,
      "step": 10380
    },
    {
      "epoch": 0.021645833333333333,
      "grad_norm": 0.9430379867553711,
      "learning_rate": 0.0002997720082724933,
      "loss": 4.0404,
      "step": 10390
    },
    {
      "epoch": 0.021666666666666667,
      "grad_norm": 0.7899466753005981,
      "learning_rate": 0.0002997714646022836,
      "loss": 3.9925,
      "step": 10400
    },
    {
      "epoch": 0.0216875,
      "grad_norm": 0.8284606337547302,
      "learning_rate": 0.00029977092028512055,
      "loss": 4.0593,
      "step": 10410
    },
    {
      "epoch": 0.021708333333333333,
      "grad_norm": 1.0812290906906128,
      "learning_rate": 0.00029977037532100635,
      "loss": 3.9444,
      "step": 10420
    },
    {
      "epoch": 0.021729166666666667,
      "grad_norm": 0.9192953705787659,
      "learning_rate": 0.0002997698297099434,
      "loss": 3.9267,
      "step": 10430
    },
    {
      "epoch": 0.02175,
      "grad_norm": 0.9366044402122498,
      "learning_rate": 0.0002997692834519341,
      "loss": 4.0496,
      "step": 10440
    },
    {
      "epoch": 0.021770833333333333,
      "grad_norm": 0.8483167886734009,
      "learning_rate": 0.0002997687365469808,
      "loss": 3.9238,
      "step": 10450
    },
    {
      "epoch": 0.021791666666666668,
      "grad_norm": 0.8915597200393677,
      "learning_rate": 0.0002997681889950858,
      "loss": 4.2339,
      "step": 10460
    },
    {
      "epoch": 0.0218125,
      "grad_norm": 0.8934999108314514,
      "learning_rate": 0.00029976764079625156,
      "loss": 4.131,
      "step": 10470
    },
    {
      "epoch": 0.021833333333333333,
      "grad_norm": 0.8878239989280701,
      "learning_rate": 0.0002997670919504803,
      "loss": 3.9485,
      "step": 10480
    },
    {
      "epoch": 0.021854166666666668,
      "grad_norm": 0.8602654933929443,
      "learning_rate": 0.0002997665424577746,
      "loss": 3.9105,
      "step": 10490
    },
    {
      "epoch": 0.021875,
      "grad_norm": 0.9528221487998962,
      "learning_rate": 0.00029976599231813664,
      "loss": 4.2378,
      "step": 10500
    },
    {
      "epoch": 0.021895833333333333,
      "grad_norm": 0.9370319247245789,
      "learning_rate": 0.0002997654415315689,
      "loss": 4.2288,
      "step": 10510
    },
    {
      "epoch": 0.021916666666666668,
      "grad_norm": 0.7875895500183105,
      "learning_rate": 0.00029976489009807375,
      "loss": 4.0764,
      "step": 10520
    },
    {
      "epoch": 0.0219375,
      "grad_norm": 0.9264360070228577,
      "learning_rate": 0.0002997643380176535,
      "loss": 4.0363,
      "step": 10530
    },
    {
      "epoch": 0.021958333333333333,
      "grad_norm": 0.8552992939949036,
      "learning_rate": 0.0002997637852903107,
      "loss": 3.9913,
      "step": 10540
    },
    {
      "epoch": 0.021979166666666668,
      "grad_norm": 1.1128019094467163,
      "learning_rate": 0.0002997632319160475,
      "loss": 3.8398,
      "step": 10550
    },
    {
      "epoch": 0.022,
      "grad_norm": 0.8485172390937805,
      "learning_rate": 0.00029976267789486646,
      "loss": 4.1162,
      "step": 10560
    },
    {
      "epoch": 0.022020833333333333,
      "grad_norm": 0.9465807676315308,
      "learning_rate": 0.00029976212322676995,
      "loss": 3.9185,
      "step": 10570
    },
    {
      "epoch": 0.022041666666666668,
      "grad_norm": 1.2987678050994873,
      "learning_rate": 0.0002997615679117604,
      "loss": 4.2336,
      "step": 10580
    },
    {
      "epoch": 0.0220625,
      "grad_norm": 0.8820592761039734,
      "learning_rate": 0.00029976101194984005,
      "loss": 4.0848,
      "step": 10590
    },
    {
      "epoch": 0.022083333333333333,
      "grad_norm": 0.8876746892929077,
      "learning_rate": 0.0002997604553410114,
      "loss": 4.1007,
      "step": 10600
    },
    {
      "epoch": 0.022104166666666668,
      "grad_norm": 0.9467823505401611,
      "learning_rate": 0.00029975989808527696,
      "loss": 4.2496,
      "step": 10610
    },
    {
      "epoch": 0.022125,
      "grad_norm": 0.9303798079490662,
      "learning_rate": 0.000299759340182639,
      "loss": 4.0466,
      "step": 10620
    },
    {
      "epoch": 0.022145833333333333,
      "grad_norm": 0.8960623741149902,
      "learning_rate": 0.00029975878163309995,
      "loss": 4.0465,
      "step": 10630
    },
    {
      "epoch": 0.022166666666666668,
      "grad_norm": 0.9176632761955261,
      "learning_rate": 0.00029975822243666225,
      "loss": 3.9194,
      "step": 10640
    },
    {
      "epoch": 0.0221875,
      "grad_norm": 0.8917275071144104,
      "learning_rate": 0.00029975766259332835,
      "loss": 4.1391,
      "step": 10650
    },
    {
      "epoch": 0.022208333333333333,
      "grad_norm": 0.8651731014251709,
      "learning_rate": 0.0002997571021031006,
      "loss": 4.1422,
      "step": 10660
    },
    {
      "epoch": 0.022229166666666668,
      "grad_norm": 0.8034875392913818,
      "learning_rate": 0.00029975654096598146,
      "loss": 4.0413,
      "step": 10670
    },
    {
      "epoch": 0.02225,
      "grad_norm": 1.0791233777999878,
      "learning_rate": 0.00029975597918197326,
      "loss": 4.0712,
      "step": 10680
    },
    {
      "epoch": 0.022270833333333333,
      "grad_norm": 0.9171955585479736,
      "learning_rate": 0.0002997554167510786,
      "loss": 4.1109,
      "step": 10690
    },
    {
      "epoch": 0.022291666666666668,
      "grad_norm": 0.9943594336509705,
      "learning_rate": 0.00029975485367329975,
      "loss": 4.0721,
      "step": 10700
    },
    {
      "epoch": 0.0223125,
      "grad_norm": 0.8181750178337097,
      "learning_rate": 0.00029975428994863927,
      "loss": 4.1605,
      "step": 10710
    },
    {
      "epoch": 0.022333333333333334,
      "grad_norm": 1.0147671699523926,
      "learning_rate": 0.0002997537255770995,
      "loss": 4.0986,
      "step": 10720
    },
    {
      "epoch": 0.022354166666666668,
      "grad_norm": 0.7744315266609192,
      "learning_rate": 0.00029975316055868293,
      "loss": 4.0211,
      "step": 10730
    },
    {
      "epoch": 0.022375,
      "grad_norm": 0.9602259397506714,
      "learning_rate": 0.00029975259489339195,
      "loss": 3.9665,
      "step": 10740
    },
    {
      "epoch": 0.022395833333333334,
      "grad_norm": 1.1291271448135376,
      "learning_rate": 0.00029975202858122904,
      "loss": 4.1789,
      "step": 10750
    },
    {
      "epoch": 0.022416666666666668,
      "grad_norm": 0.8661361336708069,
      "learning_rate": 0.0002997514616221967,
      "loss": 4.0007,
      "step": 10760
    },
    {
      "epoch": 0.0224375,
      "grad_norm": 1.1890524625778198,
      "learning_rate": 0.0002997508940162973,
      "loss": 3.9188,
      "step": 10770
    },
    {
      "epoch": 0.022458333333333334,
      "grad_norm": 0.9199486374855042,
      "learning_rate": 0.0002997503257635333,
      "loss": 4.0073,
      "step": 10780
    },
    {
      "epoch": 0.022479166666666668,
      "grad_norm": 0.8084762692451477,
      "learning_rate": 0.00029974975686390714,
      "loss": 4.1919,
      "step": 10790
    },
    {
      "epoch": 0.0225,
      "grad_norm": 0.8930673599243164,
      "learning_rate": 0.0002997491873174213,
      "loss": 4.1507,
      "step": 10800
    },
    {
      "epoch": 0.022520833333333334,
      "grad_norm": 0.9139108061790466,
      "learning_rate": 0.0002997486171240783,
      "loss": 4.0313,
      "step": 10810
    },
    {
      "epoch": 0.022541666666666668,
      "grad_norm": 0.8556119203567505,
      "learning_rate": 0.0002997480462838805,
      "loss": 4.0711,
      "step": 10820
    },
    {
      "epoch": 0.0225625,
      "grad_norm": 0.8903327584266663,
      "learning_rate": 0.0002997474747968305,
      "loss": 4.0011,
      "step": 10830
    },
    {
      "epoch": 0.022583333333333334,
      "grad_norm": 0.9576094150543213,
      "learning_rate": 0.00029974690266293055,
      "loss": 4.009,
      "step": 10840
    },
    {
      "epoch": 0.022604166666666668,
      "grad_norm": 1.0656836032867432,
      "learning_rate": 0.0002997463298821834,
      "loss": 3.931,
      "step": 10850
    },
    {
      "epoch": 0.022625,
      "grad_norm": 1.2704850435256958,
      "learning_rate": 0.00029974575645459127,
      "loss": 3.8534,
      "step": 10860
    },
    {
      "epoch": 0.022645833333333334,
      "grad_norm": 0.8838678598403931,
      "learning_rate": 0.0002997451823801568,
      "loss": 4.135,
      "step": 10870
    },
    {
      "epoch": 0.02266666666666667,
      "grad_norm": 0.9709188342094421,
      "learning_rate": 0.00029974460765888237,
      "loss": 3.9732,
      "step": 10880
    },
    {
      "epoch": 0.0226875,
      "grad_norm": 0.9118921160697937,
      "learning_rate": 0.00029974403229077054,
      "loss": 4.0216,
      "step": 10890
    },
    {
      "epoch": 0.022708333333333334,
      "grad_norm": 1.0146132707595825,
      "learning_rate": 0.00029974345627582376,
      "loss": 3.9529,
      "step": 10900
    },
    {
      "epoch": 0.02272916666666667,
      "grad_norm": 0.9561675786972046,
      "learning_rate": 0.0002997428796140445,
      "loss": 4.0696,
      "step": 10910
    },
    {
      "epoch": 0.02275,
      "grad_norm": 0.880499541759491,
      "learning_rate": 0.0002997423023054353,
      "loss": 4.1694,
      "step": 10920
    },
    {
      "epoch": 0.022770833333333334,
      "grad_norm": 0.9527094960212708,
      "learning_rate": 0.0002997417243499986,
      "loss": 4.3075,
      "step": 10930
    },
    {
      "epoch": 0.022791666666666665,
      "grad_norm": 0.8859124183654785,
      "learning_rate": 0.000299741145747737,
      "loss": 4.2147,
      "step": 10940
    },
    {
      "epoch": 0.0228125,
      "grad_norm": 0.8555907011032104,
      "learning_rate": 0.00029974056649865284,
      "loss": 3.8823,
      "step": 10950
    },
    {
      "epoch": 0.022833333333333334,
      "grad_norm": 0.7757290005683899,
      "learning_rate": 0.0002997399866027487,
      "loss": 3.9952,
      "step": 10960
    },
    {
      "epoch": 0.022854166666666665,
      "grad_norm": 0.8428161144256592,
      "learning_rate": 0.0002997394060600271,
      "loss": 3.9607,
      "step": 10970
    },
    {
      "epoch": 0.022875,
      "grad_norm": 0.9961905479431152,
      "learning_rate": 0.00029973882487049057,
      "loss": 4.1028,
      "step": 10980
    },
    {
      "epoch": 0.022895833333333334,
      "grad_norm": 1.4699156284332275,
      "learning_rate": 0.0002997382430341416,
      "loss": 4.1332,
      "step": 10990
    },
    {
      "epoch": 0.022916666666666665,
      "grad_norm": 1.0499873161315918,
      "learning_rate": 0.0002997376605509826,
      "loss": 3.9795,
      "step": 11000
    },
    {
      "epoch": 0.022916666666666665,
      "eval_loss": 4.343177318572998,
      "eval_runtime": 9.1751,
      "eval_samples_per_second": 1.09,
      "eval_steps_per_second": 0.327,
      "step": 11000
    },
    {
      "epoch": 0.0229375,
      "grad_norm": 0.9371368885040283,
      "learning_rate": 0.0002997370774210163,
      "loss": 4.0407,
      "step": 11010
    },
    {
      "epoch": 0.022958333333333334,
      "grad_norm": 0.9600356817245483,
      "learning_rate": 0.000299736493644245,
      "loss": 3.9043,
      "step": 11020
    },
    {
      "epoch": 0.022979166666666665,
      "grad_norm": 0.7833398580551147,
      "learning_rate": 0.00029973590922067133,
      "loss": 3.9522,
      "step": 11030
    },
    {
      "epoch": 0.023,
      "grad_norm": 0.8882167935371399,
      "learning_rate": 0.00029973532415029783,
      "loss": 3.9925,
      "step": 11040
    },
    {
      "epoch": 0.023020833333333334,
      "grad_norm": 0.7728996872901917,
      "learning_rate": 0.000299734738433127,
      "loss": 4.0763,
      "step": 11050
    },
    {
      "epoch": 0.023041666666666665,
      "grad_norm": 0.9067636728286743,
      "learning_rate": 0.00029973415206916137,
      "loss": 3.9489,
      "step": 11060
    },
    {
      "epoch": 0.0230625,
      "grad_norm": 1.0445528030395508,
      "learning_rate": 0.00029973356505840344,
      "loss": 4.143,
      "step": 11070
    },
    {
      "epoch": 0.023083333333333334,
      "grad_norm": 0.9083755016326904,
      "learning_rate": 0.0002997329774008558,
      "loss": 4.0993,
      "step": 11080
    },
    {
      "epoch": 0.023104166666666665,
      "grad_norm": 0.9739083051681519,
      "learning_rate": 0.000299732389096521,
      "loss": 4.0222,
      "step": 11090
    },
    {
      "epoch": 0.023125,
      "grad_norm": 0.8349357843399048,
      "learning_rate": 0.00029973180014540145,
      "loss": 3.9285,
      "step": 11100
    },
    {
      "epoch": 0.023145833333333334,
      "grad_norm": 0.8716956973075867,
      "learning_rate": 0.0002997312105474999,
      "loss": 3.9409,
      "step": 11110
    },
    {
      "epoch": 0.023166666666666665,
      "grad_norm": 0.8104733824729919,
      "learning_rate": 0.0002997306203028187,
      "loss": 3.9957,
      "step": 11120
    },
    {
      "epoch": 0.0231875,
      "grad_norm": 0.9289116859436035,
      "learning_rate": 0.00029973002941136056,
      "loss": 3.8664,
      "step": 11130
    },
    {
      "epoch": 0.023208333333333334,
      "grad_norm": 0.9071303606033325,
      "learning_rate": 0.00029972943787312794,
      "loss": 4.0065,
      "step": 11140
    },
    {
      "epoch": 0.023229166666666665,
      "grad_norm": 0.9404611587524414,
      "learning_rate": 0.0002997288456881234,
      "loss": 3.9897,
      "step": 11150
    },
    {
      "epoch": 0.02325,
      "grad_norm": 0.7688071131706238,
      "learning_rate": 0.0002997282528563495,
      "loss": 4.1101,
      "step": 11160
    },
    {
      "epoch": 0.023270833333333334,
      "grad_norm": 0.995836615562439,
      "learning_rate": 0.0002997276593778089,
      "loss": 3.9776,
      "step": 11170
    },
    {
      "epoch": 0.023291666666666665,
      "grad_norm": 0.8275904655456543,
      "learning_rate": 0.00029972706525250393,
      "loss": 3.8802,
      "step": 11180
    },
    {
      "epoch": 0.0233125,
      "grad_norm": 1.0180919170379639,
      "learning_rate": 0.00029972647048043743,
      "loss": 4.0066,
      "step": 11190
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 0.8439503312110901,
      "learning_rate": 0.0002997258750616118,
      "loss": 4.0384,
      "step": 11200
    },
    {
      "epoch": 0.023354166666666665,
      "grad_norm": 0.9801731109619141,
      "learning_rate": 0.00029972527899602966,
      "loss": 4.179,
      "step": 11210
    },
    {
      "epoch": 0.023375,
      "grad_norm": 0.8554068803787231,
      "learning_rate": 0.00029972468228369354,
      "loss": 4.1592,
      "step": 11220
    },
    {
      "epoch": 0.023395833333333334,
      "grad_norm": 0.8108168840408325,
      "learning_rate": 0.0002997240849246061,
      "loss": 4.0526,
      "step": 11230
    },
    {
      "epoch": 0.023416666666666665,
      "grad_norm": 1.0166338682174683,
      "learning_rate": 0.00029972348691876985,
      "loss": 4.0115,
      "step": 11240
    },
    {
      "epoch": 0.0234375,
      "grad_norm": 0.8622210621833801,
      "learning_rate": 0.0002997228882661874,
      "loss": 4.0564,
      "step": 11250
    },
    {
      "epoch": 0.023458333333333335,
      "grad_norm": 0.9354560375213623,
      "learning_rate": 0.0002997222889668614,
      "loss": 4.0369,
      "step": 11260
    },
    {
      "epoch": 0.023479166666666666,
      "grad_norm": 0.9387855529785156,
      "learning_rate": 0.00029972168902079433,
      "loss": 3.9696,
      "step": 11270
    },
    {
      "epoch": 0.0235,
      "grad_norm": 0.8381744623184204,
      "learning_rate": 0.0002997210884279888,
      "loss": 4.0454,
      "step": 11280
    },
    {
      "epoch": 0.023520833333333335,
      "grad_norm": 0.9276353120803833,
      "learning_rate": 0.00029972048718844747,
      "loss": 4.1896,
      "step": 11290
    },
    {
      "epoch": 0.023541666666666666,
      "grad_norm": 0.9661759734153748,
      "learning_rate": 0.00029971988530217293,
      "loss": 4.0251,
      "step": 11300
    },
    {
      "epoch": 0.0235625,
      "grad_norm": 0.9178288578987122,
      "learning_rate": 0.00029971928276916767,
      "loss": 3.9935,
      "step": 11310
    },
    {
      "epoch": 0.023583333333333335,
      "grad_norm": 0.9038762450218201,
      "learning_rate": 0.00029971867958943446,
      "loss": 4.1352,
      "step": 11320
    },
    {
      "epoch": 0.023604166666666666,
      "grad_norm": 1.0172170400619507,
      "learning_rate": 0.00029971807576297573,
      "loss": 4.2188,
      "step": 11330
    },
    {
      "epoch": 0.023625,
      "grad_norm": 0.8191777467727661,
      "learning_rate": 0.00029971747128979426,
      "loss": 4.0965,
      "step": 11340
    },
    {
      "epoch": 0.023645833333333335,
      "grad_norm": 0.8614866733551025,
      "learning_rate": 0.0002997168661698925,
      "loss": 4.0379,
      "step": 11350
    },
    {
      "epoch": 0.023666666666666666,
      "grad_norm": 0.8880031704902649,
      "learning_rate": 0.00029971626040327316,
      "loss": 4.165,
      "step": 11360
    },
    {
      "epoch": 0.0236875,
      "grad_norm": 1.225572109222412,
      "learning_rate": 0.00029971565398993885,
      "loss": 3.8343,
      "step": 11370
    },
    {
      "epoch": 0.023708333333333335,
      "grad_norm": 0.8210449814796448,
      "learning_rate": 0.0002997150469298922,
      "loss": 3.978,
      "step": 11380
    },
    {
      "epoch": 0.023729166666666666,
      "grad_norm": 0.9902667999267578,
      "learning_rate": 0.00029971443922313575,
      "loss": 3.9446,
      "step": 11390
    },
    {
      "epoch": 0.02375,
      "grad_norm": 0.7885863780975342,
      "learning_rate": 0.0002997138308696722,
      "loss": 4.1039,
      "step": 11400
    },
    {
      "epoch": 0.023770833333333335,
      "grad_norm": 0.8365364074707031,
      "learning_rate": 0.00029971322186950417,
      "loss": 4.0357,
      "step": 11410
    },
    {
      "epoch": 0.023791666666666666,
      "grad_norm": 0.9556369185447693,
      "learning_rate": 0.0002997126122226343,
      "loss": 3.9189,
      "step": 11420
    },
    {
      "epoch": 0.0238125,
      "grad_norm": 0.9085677862167358,
      "learning_rate": 0.0002997120019290652,
      "loss": 4.0772,
      "step": 11430
    },
    {
      "epoch": 0.023833333333333335,
      "grad_norm": 0.9845913648605347,
      "learning_rate": 0.00029971139098879953,
      "loss": 3.8277,
      "step": 11440
    },
    {
      "epoch": 0.023854166666666666,
      "grad_norm": 0.8270093202590942,
      "learning_rate": 0.00029971077940183985,
      "loss": 4.232,
      "step": 11450
    },
    {
      "epoch": 0.023875,
      "grad_norm": 0.9064054489135742,
      "learning_rate": 0.0002997101671681889,
      "loss": 3.9641,
      "step": 11460
    },
    {
      "epoch": 0.023895833333333335,
      "grad_norm": 0.7581167817115784,
      "learning_rate": 0.0002997095542878493,
      "loss": 4.0586,
      "step": 11470
    },
    {
      "epoch": 0.023916666666666666,
      "grad_norm": 0.9204100370407104,
      "learning_rate": 0.0002997089407608237,
      "loss": 4.1889,
      "step": 11480
    },
    {
      "epoch": 0.0239375,
      "grad_norm": 0.9697321653366089,
      "learning_rate": 0.0002997083265871147,
      "loss": 3.9386,
      "step": 11490
    },
    {
      "epoch": 0.023958333333333335,
      "grad_norm": 0.8670743703842163,
      "learning_rate": 0.00029970771176672495,
      "loss": 4.0658,
      "step": 11500
    },
    {
      "epoch": 0.023979166666666666,
      "grad_norm": 0.8086011409759521,
      "learning_rate": 0.00029970709629965724,
      "loss": 4.0686,
      "step": 11510
    },
    {
      "epoch": 0.024,
      "grad_norm": 0.9494633078575134,
      "learning_rate": 0.0002997064801859141,
      "loss": 4.204,
      "step": 11520
    },
    {
      "epoch": 0.024020833333333335,
      "grad_norm": 0.9828088879585266,
      "learning_rate": 0.00029970586342549814,
      "loss": 3.9099,
      "step": 11530
    },
    {
      "epoch": 0.024041666666666666,
      "grad_norm": 0.8706547617912292,
      "learning_rate": 0.00029970524601841223,
      "loss": 4.1493,
      "step": 11540
    },
    {
      "epoch": 0.0240625,
      "grad_norm": 0.99277663230896,
      "learning_rate": 0.0002997046279646588,
      "loss": 4.0736,
      "step": 11550
    },
    {
      "epoch": 0.024083333333333335,
      "grad_norm": 0.8699033260345459,
      "learning_rate": 0.0002997040092642407,
      "loss": 3.8887,
      "step": 11560
    },
    {
      "epoch": 0.024104166666666666,
      "grad_norm": 1.0016510486602783,
      "learning_rate": 0.00029970338991716053,
      "loss": 4.1261,
      "step": 11570
    },
    {
      "epoch": 0.024125,
      "grad_norm": 0.8793927431106567,
      "learning_rate": 0.00029970276992342097,
      "loss": 3.9855,
      "step": 11580
    },
    {
      "epoch": 0.02414583333333333,
      "grad_norm": 1.1882140636444092,
      "learning_rate": 0.0002997021492830247,
      "loss": 4.0677,
      "step": 11590
    },
    {
      "epoch": 0.024166666666666666,
      "grad_norm": 0.9322487711906433,
      "learning_rate": 0.0002997015279959744,
      "loss": 4.1846,
      "step": 11600
    },
    {
      "epoch": 0.0241875,
      "grad_norm": 1.0617856979370117,
      "learning_rate": 0.00029970090606227276,
      "loss": 3.9028,
      "step": 11610
    },
    {
      "epoch": 0.02420833333333333,
      "grad_norm": 0.8267401456832886,
      "learning_rate": 0.0002997002834819225,
      "loss": 4.1305,
      "step": 11620
    },
    {
      "epoch": 0.024229166666666666,
      "grad_norm": 0.8641538619995117,
      "learning_rate": 0.0002996996602549262,
      "loss": 4.1329,
      "step": 11630
    },
    {
      "epoch": 0.02425,
      "grad_norm": 0.9014443755149841,
      "learning_rate": 0.00029969903638128666,
      "loss": 4.0151,
      "step": 11640
    },
    {
      "epoch": 0.024270833333333332,
      "grad_norm": 0.9461457133293152,
      "learning_rate": 0.0002996984118610065,
      "loss": 4.0554,
      "step": 11650
    },
    {
      "epoch": 0.024291666666666666,
      "grad_norm": 1.0932786464691162,
      "learning_rate": 0.0002996977866940885,
      "loss": 4.0661,
      "step": 11660
    },
    {
      "epoch": 0.0243125,
      "grad_norm": 0.9318457245826721,
      "learning_rate": 0.00029969716088053527,
      "loss": 3.8919,
      "step": 11670
    },
    {
      "epoch": 0.024333333333333332,
      "grad_norm": 0.7869840860366821,
      "learning_rate": 0.0002996965344203496,
      "loss": 4.0947,
      "step": 11680
    },
    {
      "epoch": 0.024354166666666666,
      "grad_norm": 0.8918207287788391,
      "learning_rate": 0.00029969590731353414,
      "loss": 4.201,
      "step": 11690
    },
    {
      "epoch": 0.024375,
      "grad_norm": 0.9626954793930054,
      "learning_rate": 0.00029969527956009165,
      "loss": 3.8744,
      "step": 11700
    },
    {
      "epoch": 0.024395833333333332,
      "grad_norm": 0.8035925030708313,
      "learning_rate": 0.00029969465116002475,
      "loss": 4.0591,
      "step": 11710
    },
    {
      "epoch": 0.024416666666666666,
      "grad_norm": 0.8319073915481567,
      "learning_rate": 0.00029969402211333626,
      "loss": 4.0101,
      "step": 11720
    },
    {
      "epoch": 0.0244375,
      "grad_norm": 0.834764838218689,
      "learning_rate": 0.00029969339242002884,
      "loss": 3.9293,
      "step": 11730
    },
    {
      "epoch": 0.024458333333333332,
      "grad_norm": 0.9337142705917358,
      "learning_rate": 0.0002996927620801052,
      "loss": 3.9905,
      "step": 11740
    },
    {
      "epoch": 0.024479166666666666,
      "grad_norm": 0.8090513348579407,
      "learning_rate": 0.0002996921310935681,
      "loss": 4.1999,
      "step": 11750
    },
    {
      "epoch": 0.0245,
      "grad_norm": 0.8323469161987305,
      "learning_rate": 0.00029969149946042017,
      "loss": 4.0175,
      "step": 11760
    },
    {
      "epoch": 0.024520833333333332,
      "grad_norm": 0.9457613825798035,
      "learning_rate": 0.00029969086718066427,
      "loss": 4.0886,
      "step": 11770
    },
    {
      "epoch": 0.024541666666666666,
      "grad_norm": 0.9197525978088379,
      "learning_rate": 0.0002996902342543031,
      "loss": 3.9411,
      "step": 11780
    },
    {
      "epoch": 0.0245625,
      "grad_norm": 0.9073978066444397,
      "learning_rate": 0.0002996896006813393,
      "loss": 4.2741,
      "step": 11790
    },
    {
      "epoch": 0.024583333333333332,
      "grad_norm": 0.8798359632492065,
      "learning_rate": 0.00029968896646177573,
      "loss": 4.034,
      "step": 11800
    },
    {
      "epoch": 0.024604166666666667,
      "grad_norm": 0.9270487427711487,
      "learning_rate": 0.0002996883315956151,
      "loss": 3.9394,
      "step": 11810
    },
    {
      "epoch": 0.024625,
      "grad_norm": 0.8634020686149597,
      "learning_rate": 0.00029968769608286006,
      "loss": 4.1361,
      "step": 11820
    },
    {
      "epoch": 0.024645833333333332,
      "grad_norm": 0.782271683216095,
      "learning_rate": 0.00029968705992351345,
      "loss": 4.2818,
      "step": 11830
    },
    {
      "epoch": 0.024666666666666667,
      "grad_norm": 0.8318779468536377,
      "learning_rate": 0.00029968642311757805,
      "loss": 4.0002,
      "step": 11840
    },
    {
      "epoch": 0.0246875,
      "grad_norm": 0.7912973165512085,
      "learning_rate": 0.0002996857856650565,
      "loss": 4.0727,
      "step": 11850
    },
    {
      "epoch": 0.024708333333333332,
      "grad_norm": 1.0303070545196533,
      "learning_rate": 0.00029968514756595165,
      "loss": 4.0927,
      "step": 11860
    },
    {
      "epoch": 0.024729166666666667,
      "grad_norm": 0.8014335632324219,
      "learning_rate": 0.0002996845088202661,
      "loss": 3.9301,
      "step": 11870
    },
    {
      "epoch": 0.02475,
      "grad_norm": 0.9272903800010681,
      "learning_rate": 0.0002996838694280028,
      "loss": 4.1477,
      "step": 11880
    },
    {
      "epoch": 0.024770833333333332,
      "grad_norm": 0.8557513952255249,
      "learning_rate": 0.0002996832293891644,
      "loss": 4.1443,
      "step": 11890
    },
    {
      "epoch": 0.024791666666666667,
      "grad_norm": 0.8178189396858215,
      "learning_rate": 0.0002996825887037538,
      "loss": 4.0479,
      "step": 11900
    },
    {
      "epoch": 0.0248125,
      "grad_norm": 0.8239704966545105,
      "learning_rate": 0.0002996819473717736,
      "loss": 4.0242,
      "step": 11910
    },
    {
      "epoch": 0.024833333333333332,
      "grad_norm": 0.8839130401611328,
      "learning_rate": 0.0002996813053932266,
      "loss": 3.9996,
      "step": 11920
    },
    {
      "epoch": 0.024854166666666667,
      "grad_norm": 0.9180129766464233,
      "learning_rate": 0.0002996806627681156,
      "loss": 4.1706,
      "step": 11930
    },
    {
      "epoch": 0.024875,
      "grad_norm": 0.9097622632980347,
      "learning_rate": 0.00029968001949644344,
      "loss": 3.9873,
      "step": 11940
    },
    {
      "epoch": 0.024895833333333332,
      "grad_norm": 0.8870061039924622,
      "learning_rate": 0.0002996793755782128,
      "loss": 4.1646,
      "step": 11950
    },
    {
      "epoch": 0.024916666666666667,
      "grad_norm": 0.7925917506217957,
      "learning_rate": 0.0002996787310134265,
      "loss": 3.9,
      "step": 11960
    },
    {
      "epoch": 0.0249375,
      "grad_norm": 0.8051598072052002,
      "learning_rate": 0.0002996780858020874,
      "loss": 3.9708,
      "step": 11970
    },
    {
      "epoch": 0.024958333333333332,
      "grad_norm": 0.7883305549621582,
      "learning_rate": 0.00029967743994419813,
      "loss": 4.0361,
      "step": 11980
    },
    {
      "epoch": 0.024979166666666667,
      "grad_norm": 0.8263134360313416,
      "learning_rate": 0.00029967679343976167,
      "loss": 3.9609,
      "step": 11990
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.9787063598632812,
      "learning_rate": 0.0002996761462887806,
      "loss": 3.9739,
      "step": 12000
    },
    {
      "epoch": 0.025,
      "eval_loss": 4.355993747711182,
      "eval_runtime": 9.4117,
      "eval_samples_per_second": 1.063,
      "eval_steps_per_second": 0.319,
      "step": 12000
    },
    {
      "epoch": 0.025020833333333332,
      "grad_norm": 0.9648151397705078,
      "learning_rate": 0.0002996754984912579,
      "loss": 4.0873,
      "step": 12010
    },
    {
      "epoch": 0.025041666666666667,
      "grad_norm": 0.9900327920913696,
      "learning_rate": 0.00029967485004719625,
      "loss": 4.1845,
      "step": 12020
    },
    {
      "epoch": 0.0250625,
      "grad_norm": 0.7829849720001221,
      "learning_rate": 0.0002996742009565985,
      "loss": 4.098,
      "step": 12030
    },
    {
      "epoch": 0.025083333333333332,
      "grad_norm": 0.7555475831031799,
      "learning_rate": 0.00029967355121946745,
      "loss": 4.1276,
      "step": 12040
    },
    {
      "epoch": 0.025104166666666667,
      "grad_norm": 1.2551724910736084,
      "learning_rate": 0.0002996729008358059,
      "loss": 4.1739,
      "step": 12050
    },
    {
      "epoch": 0.025125,
      "grad_norm": 0.8260138034820557,
      "learning_rate": 0.0002996722498056167,
      "loss": 4.132,
      "step": 12060
    },
    {
      "epoch": 0.025145833333333333,
      "grad_norm": 0.8505834937095642,
      "learning_rate": 0.0002996715981289026,
      "loss": 4.1513,
      "step": 12070
    },
    {
      "epoch": 0.025166666666666667,
      "grad_norm": 0.8663877248764038,
      "learning_rate": 0.0002996709458056664,
      "loss": 4.0009,
      "step": 12080
    },
    {
      "epoch": 0.0251875,
      "grad_norm": 0.9046712517738342,
      "learning_rate": 0.000299670292835911,
      "loss": 3.9447,
      "step": 12090
    },
    {
      "epoch": 0.025208333333333333,
      "grad_norm": 0.8156468272209167,
      "learning_rate": 0.00029966963921963915,
      "loss": 3.9951,
      "step": 12100
    },
    {
      "epoch": 0.025229166666666667,
      "grad_norm": 0.8045362830162048,
      "learning_rate": 0.00029966898495685377,
      "loss": 3.9991,
      "step": 12110
    },
    {
      "epoch": 0.02525,
      "grad_norm": 0.8384324908256531,
      "learning_rate": 0.00029966833004755754,
      "loss": 4.0331,
      "step": 12120
    },
    {
      "epoch": 0.025270833333333333,
      "grad_norm": 0.8372187614440918,
      "learning_rate": 0.0002996676744917534,
      "loss": 4.073,
      "step": 12130
    },
    {
      "epoch": 0.025291666666666667,
      "grad_norm": 0.8713473677635193,
      "learning_rate": 0.00029966701828944417,
      "loss": 4.0687,
      "step": 12140
    },
    {
      "epoch": 0.0253125,
      "grad_norm": 0.8944408297538757,
      "learning_rate": 0.0002996663614406326,
      "loss": 4.1542,
      "step": 12150
    },
    {
      "epoch": 0.025333333333333333,
      "grad_norm": 0.8797274231910706,
      "learning_rate": 0.0002996657039453216,
      "loss": 3.9635,
      "step": 12160
    },
    {
      "epoch": 0.025354166666666667,
      "grad_norm": 0.8559905886650085,
      "learning_rate": 0.00029966504580351404,
      "loss": 4.1181,
      "step": 12170
    },
    {
      "epoch": 0.025375,
      "grad_norm": 1.1843395233154297,
      "learning_rate": 0.00029966438701521273,
      "loss": 4.0031,
      "step": 12180
    },
    {
      "epoch": 0.025395833333333333,
      "grad_norm": 0.9130030274391174,
      "learning_rate": 0.00029966372758042053,
      "loss": 4.0628,
      "step": 12190
    },
    {
      "epoch": 0.025416666666666667,
      "grad_norm": 0.7298511266708374,
      "learning_rate": 0.0002996630674991402,
      "loss": 4.0176,
      "step": 12200
    },
    {
      "epoch": 0.0254375,
      "grad_norm": 0.8563189506530762,
      "learning_rate": 0.0002996624067713747,
      "loss": 4.0227,
      "step": 12210
    },
    {
      "epoch": 0.025458333333333333,
      "grad_norm": 0.9190595746040344,
      "learning_rate": 0.00029966174539712684,
      "loss": 4.0652,
      "step": 12220
    },
    {
      "epoch": 0.025479166666666667,
      "grad_norm": 0.7569317817687988,
      "learning_rate": 0.0002996610833763995,
      "loss": 4.0059,
      "step": 12230
    },
    {
      "epoch": 0.0255,
      "grad_norm": 0.8048116564750671,
      "learning_rate": 0.00029966042070919544,
      "loss": 3.9274,
      "step": 12240
    },
    {
      "epoch": 0.025520833333333333,
      "grad_norm": 0.9239625334739685,
      "learning_rate": 0.0002996597573955177,
      "loss": 4.0971,
      "step": 12250
    },
    {
      "epoch": 0.025541666666666667,
      "grad_norm": 1.0842387676239014,
      "learning_rate": 0.000299659093435369,
      "loss": 4.0068,
      "step": 12260
    },
    {
      "epoch": 0.0255625,
      "grad_norm": 0.8540835976600647,
      "learning_rate": 0.00029965842882875225,
      "loss": 4.0468,
      "step": 12270
    },
    {
      "epoch": 0.025583333333333333,
      "grad_norm": 0.8760429620742798,
      "learning_rate": 0.0002996577635756703,
      "loss": 4.0911,
      "step": 12280
    },
    {
      "epoch": 0.025604166666666667,
      "grad_norm": 0.8791810870170593,
      "learning_rate": 0.00029965709767612613,
      "loss": 3.9895,
      "step": 12290
    },
    {
      "epoch": 0.025625,
      "grad_norm": 1.0496407747268677,
      "learning_rate": 0.00029965643113012247,
      "loss": 4.0144,
      "step": 12300
    },
    {
      "epoch": 0.025645833333333333,
      "grad_norm": 0.9198064208030701,
      "learning_rate": 0.00029965576393766233,
      "loss": 4.0595,
      "step": 12310
    },
    {
      "epoch": 0.025666666666666667,
      "grad_norm": 1.3422293663024902,
      "learning_rate": 0.00029965509609874844,
      "loss": 3.9287,
      "step": 12320
    },
    {
      "epoch": 0.0256875,
      "grad_norm": 0.8336278200149536,
      "learning_rate": 0.00029965442761338383,
      "loss": 4.069,
      "step": 12330
    },
    {
      "epoch": 0.025708333333333333,
      "grad_norm": 0.8513005971908569,
      "learning_rate": 0.0002996537584815713,
      "loss": 4.1971,
      "step": 12340
    },
    {
      "epoch": 0.025729166666666668,
      "grad_norm": 0.8377391695976257,
      "learning_rate": 0.0002996530887033138,
      "loss": 4.0051,
      "step": 12350
    },
    {
      "epoch": 0.02575,
      "grad_norm": 0.8428595662117004,
      "learning_rate": 0.0002996524182786142,
      "loss": 3.9223,
      "step": 12360
    },
    {
      "epoch": 0.025770833333333333,
      "grad_norm": 0.8020024299621582,
      "learning_rate": 0.00029965174720747537,
      "loss": 3.9248,
      "step": 12370
    },
    {
      "epoch": 0.025791666666666668,
      "grad_norm": 0.8445428013801575,
      "learning_rate": 0.0002996510754899002,
      "loss": 4.1044,
      "step": 12380
    },
    {
      "epoch": 0.0258125,
      "grad_norm": 0.8422583341598511,
      "learning_rate": 0.00029965040312589166,
      "loss": 4.0739,
      "step": 12390
    },
    {
      "epoch": 0.025833333333333333,
      "grad_norm": 0.77658611536026,
      "learning_rate": 0.0002996497301154526,
      "loss": 4.0383,
      "step": 12400
    },
    {
      "epoch": 0.025854166666666668,
      "grad_norm": 0.8723292946815491,
      "learning_rate": 0.00029964905645858594,
      "loss": 3.942,
      "step": 12410
    },
    {
      "epoch": 0.025875,
      "grad_norm": 0.8531607389450073,
      "learning_rate": 0.0002996483821552946,
      "loss": 4.1756,
      "step": 12420
    },
    {
      "epoch": 0.025895833333333333,
      "grad_norm": 0.865697979927063,
      "learning_rate": 0.0002996477072055815,
      "loss": 4.0767,
      "step": 12430
    },
    {
      "epoch": 0.025916666666666668,
      "grad_norm": 0.7985309362411499,
      "learning_rate": 0.00029964703160944954,
      "loss": 4.0182,
      "step": 12440
    },
    {
      "epoch": 0.0259375,
      "grad_norm": 0.9476754665374756,
      "learning_rate": 0.0002996463553669016,
      "loss": 4.0276,
      "step": 12450
    },
    {
      "epoch": 0.025958333333333333,
      "grad_norm": 0.8182475566864014,
      "learning_rate": 0.00029964567847794063,
      "loss": 4.037,
      "step": 12460
    },
    {
      "epoch": 0.025979166666666668,
      "grad_norm": 0.7820776700973511,
      "learning_rate": 0.0002996450009425696,
      "loss": 4.1314,
      "step": 12470
    },
    {
      "epoch": 0.026,
      "grad_norm": 0.953820526599884,
      "learning_rate": 0.0002996443227607914,
      "loss": 4.0649,
      "step": 12480
    },
    {
      "epoch": 0.026020833333333333,
      "grad_norm": 0.9297104477882385,
      "learning_rate": 0.00029964364393260894,
      "loss": 3.9231,
      "step": 12490
    },
    {
      "epoch": 0.026041666666666668,
      "grad_norm": 0.8150413036346436,
      "learning_rate": 0.0002996429644580252,
      "loss": 4.0518,
      "step": 12500
    },
    {
      "epoch": 0.0260625,
      "grad_norm": 0.9100131392478943,
      "learning_rate": 0.00029964228433704303,
      "loss": 4.112,
      "step": 12510
    },
    {
      "epoch": 0.026083333333333333,
      "grad_norm": 0.8346758484840393,
      "learning_rate": 0.00029964160356966545,
      "loss": 4.0265,
      "step": 12520
    },
    {
      "epoch": 0.026104166666666668,
      "grad_norm": 1.0204684734344482,
      "learning_rate": 0.00029964092215589537,
      "loss": 4.0501,
      "step": 12530
    },
    {
      "epoch": 0.026125,
      "grad_norm": 0.8823035955429077,
      "learning_rate": 0.00029964024009573577,
      "loss": 4.1322,
      "step": 12540
    },
    {
      "epoch": 0.026145833333333333,
      "grad_norm": 1.1147531270980835,
      "learning_rate": 0.00029963955738918953,
      "loss": 4.002,
      "step": 12550
    },
    {
      "epoch": 0.026166666666666668,
      "grad_norm": 0.8762080669403076,
      "learning_rate": 0.0002996388740362597,
      "loss": 4.1656,
      "step": 12560
    },
    {
      "epoch": 0.0261875,
      "grad_norm": 0.8316856026649475,
      "learning_rate": 0.0002996381900369491,
      "loss": 4.1048,
      "step": 12570
    },
    {
      "epoch": 0.026208333333333333,
      "grad_norm": 0.9266704320907593,
      "learning_rate": 0.00029963750539126075,
      "loss": 4.2185,
      "step": 12580
    },
    {
      "epoch": 0.026229166666666668,
      "grad_norm": 0.9004167318344116,
      "learning_rate": 0.00029963682009919763,
      "loss": 4.0116,
      "step": 12590
    },
    {
      "epoch": 0.02625,
      "grad_norm": 0.8255387544631958,
      "learning_rate": 0.0002996361341607627,
      "loss": 3.9482,
      "step": 12600
    },
    {
      "epoch": 0.026270833333333334,
      "grad_norm": 0.8466336131095886,
      "learning_rate": 0.00029963544757595885,
      "loss": 3.9322,
      "step": 12610
    },
    {
      "epoch": 0.026291666666666668,
      "grad_norm": 0.8526718616485596,
      "learning_rate": 0.0002996347603447891,
      "loss": 4.0327,
      "step": 12620
    },
    {
      "epoch": 0.0263125,
      "grad_norm": 0.9007949829101562,
      "learning_rate": 0.00029963407246725644,
      "loss": 4.0894,
      "step": 12630
    },
    {
      "epoch": 0.026333333333333334,
      "grad_norm": 0.810897707939148,
      "learning_rate": 0.0002996333839433638,
      "loss": 3.9678,
      "step": 12640
    },
    {
      "epoch": 0.026354166666666668,
      "grad_norm": 0.9200378656387329,
      "learning_rate": 0.0002996326947731142,
      "loss": 3.911,
      "step": 12650
    },
    {
      "epoch": 0.026375,
      "grad_norm": 0.9246525764465332,
      "learning_rate": 0.00029963200495651055,
      "loss": 3.8677,
      "step": 12660
    },
    {
      "epoch": 0.026395833333333334,
      "grad_norm": 0.8256850242614746,
      "learning_rate": 0.0002996313144935559,
      "loss": 3.9736,
      "step": 12670
    },
    {
      "epoch": 0.026416666666666668,
      "grad_norm": 0.8702117204666138,
      "learning_rate": 0.0002996306233842532,
      "loss": 3.9605,
      "step": 12680
    },
    {
      "epoch": 0.0264375,
      "grad_norm": 0.8772563934326172,
      "learning_rate": 0.0002996299316286054,
      "loss": 4.2239,
      "step": 12690
    },
    {
      "epoch": 0.026458333333333334,
      "grad_norm": 0.9275411367416382,
      "learning_rate": 0.0002996292392266155,
      "loss": 3.9043,
      "step": 12700
    },
    {
      "epoch": 0.026479166666666668,
      "grad_norm": 0.9481557607650757,
      "learning_rate": 0.0002996285461782866,
      "loss": 4.0144,
      "step": 12710
    },
    {
      "epoch": 0.0265,
      "grad_norm": 0.978755533695221,
      "learning_rate": 0.00029962785248362157,
      "loss": 3.953,
      "step": 12720
    },
    {
      "epoch": 0.026520833333333334,
      "grad_norm": 0.8623465299606323,
      "learning_rate": 0.0002996271581426234,
      "loss": 4.0704,
      "step": 12730
    },
    {
      "epoch": 0.02654166666666667,
      "grad_norm": 0.8921887278556824,
      "learning_rate": 0.0002996264631552952,
      "loss": 3.8152,
      "step": 12740
    },
    {
      "epoch": 0.0265625,
      "grad_norm": 0.839424192905426,
      "learning_rate": 0.0002996257675216399,
      "loss": 4.1187,
      "step": 12750
    },
    {
      "epoch": 0.026583333333333334,
      "grad_norm": 0.8677070140838623,
      "learning_rate": 0.00029962507124166044,
      "loss": 4.1257,
      "step": 12760
    },
    {
      "epoch": 0.02660416666666667,
      "grad_norm": 1.0243782997131348,
      "learning_rate": 0.00029962437431536,
      "loss": 4.018,
      "step": 12770
    },
    {
      "epoch": 0.026625,
      "grad_norm": 0.789656937122345,
      "learning_rate": 0.00029962367674274144,
      "loss": 4.0919,
      "step": 12780
    },
    {
      "epoch": 0.026645833333333334,
      "grad_norm": 0.9391693472862244,
      "learning_rate": 0.00029962297852380776,
      "loss": 3.9415,
      "step": 12790
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 0.8821779489517212,
      "learning_rate": 0.0002996222796585621,
      "loss": 4.0768,
      "step": 12800
    },
    {
      "epoch": 0.0266875,
      "grad_norm": 0.8409366607666016,
      "learning_rate": 0.0002996215801470074,
      "loss": 4.0558,
      "step": 12810
    },
    {
      "epoch": 0.026708333333333334,
      "grad_norm": 0.8120698928833008,
      "learning_rate": 0.0002996208799891467,
      "loss": 4.193,
      "step": 12820
    },
    {
      "epoch": 0.026729166666666665,
      "grad_norm": 0.8941954970359802,
      "learning_rate": 0.00029962017918498305,
      "loss": 3.9991,
      "step": 12830
    },
    {
      "epoch": 0.02675,
      "grad_norm": 0.8437336683273315,
      "learning_rate": 0.0002996194777345194,
      "loss": 4.0258,
      "step": 12840
    },
    {
      "epoch": 0.026770833333333334,
      "grad_norm": 0.9636651277542114,
      "learning_rate": 0.0002996187756377589,
      "loss": 4.0927,
      "step": 12850
    },
    {
      "epoch": 0.026791666666666665,
      "grad_norm": 0.8670513033866882,
      "learning_rate": 0.00029961807289470446,
      "loss": 3.9893,
      "step": 12860
    },
    {
      "epoch": 0.0268125,
      "grad_norm": 0.8243114352226257,
      "learning_rate": 0.00029961736950535916,
      "loss": 4.0284,
      "step": 12870
    },
    {
      "epoch": 0.026833333333333334,
      "grad_norm": 0.867907702922821,
      "learning_rate": 0.0002996166654697261,
      "loss": 4.0451,
      "step": 12880
    },
    {
      "epoch": 0.026854166666666665,
      "grad_norm": 0.9168021082878113,
      "learning_rate": 0.00029961596078780824,
      "loss": 3.9235,
      "step": 12890
    },
    {
      "epoch": 0.026875,
      "grad_norm": 0.9834937453269958,
      "learning_rate": 0.00029961525545960864,
      "loss": 4.0184,
      "step": 12900
    },
    {
      "epoch": 0.026895833333333334,
      "grad_norm": 0.9485666155815125,
      "learning_rate": 0.0002996145494851303,
      "loss": 4.1428,
      "step": 12910
    },
    {
      "epoch": 0.026916666666666665,
      "grad_norm": 0.9374496936798096,
      "learning_rate": 0.00029961384286437644,
      "loss": 4.0228,
      "step": 12920
    },
    {
      "epoch": 0.0269375,
      "grad_norm": 1.150719165802002,
      "learning_rate": 0.0002996131355973499,
      "loss": 4.0496,
      "step": 12930
    },
    {
      "epoch": 0.026958333333333334,
      "grad_norm": 0.8332419991493225,
      "learning_rate": 0.00029961242768405396,
      "loss": 4.3133,
      "step": 12940
    },
    {
      "epoch": 0.026979166666666665,
      "grad_norm": 1.0052791833877563,
      "learning_rate": 0.00029961171912449143,
      "loss": 4.0232,
      "step": 12950
    },
    {
      "epoch": 0.027,
      "grad_norm": 0.8669558167457581,
      "learning_rate": 0.0002996110099186655,
      "loss": 4.0503,
      "step": 12960
    },
    {
      "epoch": 0.027020833333333334,
      "grad_norm": 0.8199687600135803,
      "learning_rate": 0.00029961030006657934,
      "loss": 3.9457,
      "step": 12970
    },
    {
      "epoch": 0.027041666666666665,
      "grad_norm": 0.7889499664306641,
      "learning_rate": 0.0002996095895682358,
      "loss": 4.09,
      "step": 12980
    },
    {
      "epoch": 0.0270625,
      "grad_norm": 0.8110848665237427,
      "learning_rate": 0.0002996088784236381,
      "loss": 4.0489,
      "step": 12990
    },
    {
      "epoch": 0.027083333333333334,
      "grad_norm": 0.8707507848739624,
      "learning_rate": 0.00029960816663278925,
      "loss": 4.0854,
      "step": 13000
    },
    {
      "epoch": 0.027083333333333334,
      "eval_loss": 4.359851837158203,
      "eval_runtime": 9.5293,
      "eval_samples_per_second": 1.049,
      "eval_steps_per_second": 0.315,
      "step": 13000
    },
    {
      "epoch": 0.027104166666666665,
      "grad_norm": 0.8259526491165161,
      "learning_rate": 0.0002996074541956923,
      "loss": 3.9867,
      "step": 13010
    },
    {
      "epoch": 0.027125,
      "grad_norm": 0.8513361811637878,
      "learning_rate": 0.0002996067411123504,
      "loss": 4.2101,
      "step": 13020
    },
    {
      "epoch": 0.027145833333333334,
      "grad_norm": 0.8666677474975586,
      "learning_rate": 0.00029960602738276663,
      "loss": 4.1288,
      "step": 13030
    },
    {
      "epoch": 0.027166666666666665,
      "grad_norm": 0.8560096621513367,
      "learning_rate": 0.00029960531300694403,
      "loss": 4.0676,
      "step": 13040
    },
    {
      "epoch": 0.0271875,
      "grad_norm": 0.8779157996177673,
      "learning_rate": 0.00029960459798488565,
      "loss": 4.3977,
      "step": 13050
    },
    {
      "epoch": 0.027208333333333334,
      "grad_norm": 0.8502326011657715,
      "learning_rate": 0.0002996038823165947,
      "loss": 4.1232,
      "step": 13060
    },
    {
      "epoch": 0.027229166666666665,
      "grad_norm": 0.8127399682998657,
      "learning_rate": 0.00029960316600207413,
      "loss": 3.9757,
      "step": 13070
    },
    {
      "epoch": 0.02725,
      "grad_norm": 0.9204973578453064,
      "learning_rate": 0.0002996024490413271,
      "loss": 3.9006,
      "step": 13080
    },
    {
      "epoch": 0.027270833333333334,
      "grad_norm": 0.7315559387207031,
      "learning_rate": 0.00029960173143435675,
      "loss": 4.122,
      "step": 13090
    },
    {
      "epoch": 0.027291666666666665,
      "grad_norm": 0.7884310483932495,
      "learning_rate": 0.0002996010131811661,
      "loss": 3.988,
      "step": 13100
    },
    {
      "epoch": 0.0273125,
      "grad_norm": 0.7562890648841858,
      "learning_rate": 0.0002996002942817583,
      "loss": 4.0558,
      "step": 13110
    },
    {
      "epoch": 0.027333333333333334,
      "grad_norm": 0.8700065016746521,
      "learning_rate": 0.00029959957473613645,
      "loss": 4.1028,
      "step": 13120
    },
    {
      "epoch": 0.027354166666666666,
      "grad_norm": 0.9044538736343384,
      "learning_rate": 0.00029959885454430363,
      "loss": 4.0376,
      "step": 13130
    },
    {
      "epoch": 0.027375,
      "grad_norm": 1.1886190176010132,
      "learning_rate": 0.000299598133706263,
      "loss": 4.0132,
      "step": 13140
    },
    {
      "epoch": 0.027395833333333335,
      "grad_norm": 0.822162926197052,
      "learning_rate": 0.00029959741222201767,
      "loss": 4.038,
      "step": 13150
    },
    {
      "epoch": 0.027416666666666666,
      "grad_norm": 0.7957779765129089,
      "learning_rate": 0.0002995966900915707,
      "loss": 3.956,
      "step": 13160
    },
    {
      "epoch": 0.0274375,
      "grad_norm": 0.8780480623245239,
      "learning_rate": 0.0002995959673149252,
      "loss": 4.3233,
      "step": 13170
    },
    {
      "epoch": 0.027458333333333335,
      "grad_norm": 0.8577442169189453,
      "learning_rate": 0.0002995952438920844,
      "loss": 4.1567,
      "step": 13180
    },
    {
      "epoch": 0.027479166666666666,
      "grad_norm": 0.7436883449554443,
      "learning_rate": 0.0002995945198230514,
      "loss": 4.0913,
      "step": 13190
    },
    {
      "epoch": 0.0275,
      "grad_norm": 0.875278890132904,
      "learning_rate": 0.0002995937951078292,
      "loss": 4.0634,
      "step": 13200
    },
    {
      "epoch": 0.027520833333333335,
      "grad_norm": 0.8415312170982361,
      "learning_rate": 0.00029959306974642106,
      "loss": 4.0181,
      "step": 13210
    },
    {
      "epoch": 0.027541666666666666,
      "grad_norm": 0.8785003423690796,
      "learning_rate": 0.00029959234373883004,
      "loss": 3.9336,
      "step": 13220
    },
    {
      "epoch": 0.0275625,
      "grad_norm": 0.8308568596839905,
      "learning_rate": 0.00029959161708505936,
      "loss": 4.2094,
      "step": 13230
    },
    {
      "epoch": 0.027583333333333335,
      "grad_norm": 0.818951427936554,
      "learning_rate": 0.00029959088978511204,
      "loss": 4.0752,
      "step": 13240
    },
    {
      "epoch": 0.027604166666666666,
      "grad_norm": 0.955394983291626,
      "learning_rate": 0.00029959016183899134,
      "loss": 3.9359,
      "step": 13250
    },
    {
      "epoch": 0.027625,
      "grad_norm": 0.8723248839378357,
      "learning_rate": 0.00029958943324670035,
      "loss": 3.9903,
      "step": 13260
    },
    {
      "epoch": 0.027645833333333335,
      "grad_norm": 0.7435494065284729,
      "learning_rate": 0.00029958870400824216,
      "loss": 4.0909,
      "step": 13270
    },
    {
      "epoch": 0.027666666666666666,
      "grad_norm": 0.9011809229850769,
      "learning_rate": 0.00029958797412362,
      "loss": 4.1353,
      "step": 13280
    },
    {
      "epoch": 0.0276875,
      "grad_norm": 0.7393107414245605,
      "learning_rate": 0.0002995872435928371,
      "loss": 4.0422,
      "step": 13290
    },
    {
      "epoch": 0.027708333333333335,
      "grad_norm": 0.8635237812995911,
      "learning_rate": 0.00029958651241589646,
      "loss": 3.9878,
      "step": 13300
    },
    {
      "epoch": 0.027729166666666666,
      "grad_norm": 0.9227210879325867,
      "learning_rate": 0.0002995857805928012,
      "loss": 3.8942,
      "step": 13310
    },
    {
      "epoch": 0.02775,
      "grad_norm": 0.8019893765449524,
      "learning_rate": 0.00029958504812355473,
      "loss": 3.9775,
      "step": 13320
    },
    {
      "epoch": 0.027770833333333335,
      "grad_norm": 0.8776654005050659,
      "learning_rate": 0.00029958431500815995,
      "loss": 4.0897,
      "step": 13330
    },
    {
      "epoch": 0.027791666666666666,
      "grad_norm": 0.8234403729438782,
      "learning_rate": 0.0002995835812466202,
      "loss": 4.1636,
      "step": 13340
    },
    {
      "epoch": 0.0278125,
      "grad_norm": 0.8834239840507507,
      "learning_rate": 0.0002995828468389386,
      "loss": 4.1159,
      "step": 13350
    },
    {
      "epoch": 0.027833333333333335,
      "grad_norm": 0.8409972190856934,
      "learning_rate": 0.0002995821117851183,
      "loss": 4.1387,
      "step": 13360
    },
    {
      "epoch": 0.027854166666666666,
      "grad_norm": 0.8174935579299927,
      "learning_rate": 0.00029958137608516246,
      "loss": 4.1037,
      "step": 13370
    },
    {
      "epoch": 0.027875,
      "grad_norm": 1.0774798393249512,
      "learning_rate": 0.00029958063973907424,
      "loss": 3.8952,
      "step": 13380
    },
    {
      "epoch": 0.027895833333333335,
      "grad_norm": 1.0032036304473877,
      "learning_rate": 0.00029957990274685694,
      "loss": 4.0937,
      "step": 13390
    },
    {
      "epoch": 0.027916666666666666,
      "grad_norm": 0.8382406830787659,
      "learning_rate": 0.0002995791651085136,
      "loss": 4.1684,
      "step": 13400
    },
    {
      "epoch": 0.0279375,
      "grad_norm": 0.7782190442085266,
      "learning_rate": 0.00029957842682404757,
      "loss": 4.0188,
      "step": 13410
    },
    {
      "epoch": 0.027958333333333335,
      "grad_norm": 0.8803874850273132,
      "learning_rate": 0.0002995776878934619,
      "loss": 4.0396,
      "step": 13420
    },
    {
      "epoch": 0.027979166666666666,
      "grad_norm": 0.827543318271637,
      "learning_rate": 0.0002995769483167598,
      "loss": 4.2623,
      "step": 13430
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.861603856086731,
      "learning_rate": 0.0002995762080939445,
      "loss": 3.97,
      "step": 13440
    },
    {
      "epoch": 0.02802083333333333,
      "grad_norm": 0.9303983449935913,
      "learning_rate": 0.0002995754672250192,
      "loss": 4.1121,
      "step": 13450
    },
    {
      "epoch": 0.028041666666666666,
      "grad_norm": 0.9568511247634888,
      "learning_rate": 0.0002995747257099871,
      "loss": 3.9798,
      "step": 13460
    },
    {
      "epoch": 0.0280625,
      "grad_norm": 0.8132941126823425,
      "learning_rate": 0.00029957398354885133,
      "loss": 4.019,
      "step": 13470
    },
    {
      "epoch": 0.02808333333333333,
      "grad_norm": 0.9443039894104004,
      "learning_rate": 0.0002995732407416152,
      "loss": 4.1122,
      "step": 13480
    },
    {
      "epoch": 0.028104166666666666,
      "grad_norm": 0.9273906350135803,
      "learning_rate": 0.0002995724972882819,
      "loss": 4.0012,
      "step": 13490
    },
    {
      "epoch": 0.028125,
      "grad_norm": 0.7813358306884766,
      "learning_rate": 0.0002995717531888546,
      "loss": 3.9752,
      "step": 13500
    },
    {
      "epoch": 0.02814583333333333,
      "grad_norm": 0.9638699293136597,
      "learning_rate": 0.0002995710084433365,
      "loss": 4.0382,
      "step": 13510
    },
    {
      "epoch": 0.028166666666666666,
      "grad_norm": 1.0133676528930664,
      "learning_rate": 0.0002995702630517309,
      "loss": 4.0428,
      "step": 13520
    },
    {
      "epoch": 0.0281875,
      "grad_norm": 1.0262118577957153,
      "learning_rate": 0.0002995695170140409,
      "loss": 4.3586,
      "step": 13530
    },
    {
      "epoch": 0.028208333333333332,
      "grad_norm": 0.92856365442276,
      "learning_rate": 0.00029956877033026984,
      "loss": 3.9101,
      "step": 13540
    },
    {
      "epoch": 0.028229166666666666,
      "grad_norm": 0.8816470503807068,
      "learning_rate": 0.0002995680230004209,
      "loss": 4.1489,
      "step": 13550
    },
    {
      "epoch": 0.02825,
      "grad_norm": 1.0170079469680786,
      "learning_rate": 0.0002995672750244973,
      "loss": 4.1837,
      "step": 13560
    },
    {
      "epoch": 0.028270833333333332,
      "grad_norm": 0.9074510931968689,
      "learning_rate": 0.00029956652640250223,
      "loss": 4.1081,
      "step": 13570
    },
    {
      "epoch": 0.028291666666666666,
      "grad_norm": 0.8010416030883789,
      "learning_rate": 0.000299565777134439,
      "loss": 4.072,
      "step": 13580
    },
    {
      "epoch": 0.0283125,
      "grad_norm": 0.7508525252342224,
      "learning_rate": 0.0002995650272203108,
      "loss": 4.0573,
      "step": 13590
    },
    {
      "epoch": 0.028333333333333332,
      "grad_norm": 0.9767383933067322,
      "learning_rate": 0.0002995642766601209,
      "loss": 4.0596,
      "step": 13600
    },
    {
      "epoch": 0.028354166666666666,
      "grad_norm": 0.9028267860412598,
      "learning_rate": 0.00029956352545387256,
      "loss": 3.9044,
      "step": 13610
    },
    {
      "epoch": 0.028375,
      "grad_norm": 0.987820565700531,
      "learning_rate": 0.000299562773601569,
      "loss": 3.8103,
      "step": 13620
    },
    {
      "epoch": 0.028395833333333332,
      "grad_norm": 0.7659754753112793,
      "learning_rate": 0.0002995620211032134,
      "loss": 3.9897,
      "step": 13630
    },
    {
      "epoch": 0.028416666666666666,
      "grad_norm": 0.8494104146957397,
      "learning_rate": 0.00029956126795880906,
      "loss": 3.9812,
      "step": 13640
    },
    {
      "epoch": 0.0284375,
      "grad_norm": 0.8383607268333435,
      "learning_rate": 0.00029956051416835924,
      "loss": 4.2454,
      "step": 13650
    },
    {
      "epoch": 0.028458333333333332,
      "grad_norm": 0.9371084570884705,
      "learning_rate": 0.00029955975973186723,
      "loss": 3.9576,
      "step": 13660
    },
    {
      "epoch": 0.028479166666666667,
      "grad_norm": 0.9145421385765076,
      "learning_rate": 0.0002995590046493363,
      "loss": 4.195,
      "step": 13670
    },
    {
      "epoch": 0.0285,
      "grad_norm": 0.9933358430862427,
      "learning_rate": 0.0002995582489207696,
      "loss": 4.0705,
      "step": 13680
    },
    {
      "epoch": 0.028520833333333332,
      "grad_norm": 0.7886926531791687,
      "learning_rate": 0.0002995574925461705,
      "loss": 4.1436,
      "step": 13690
    },
    {
      "epoch": 0.028541666666666667,
      "grad_norm": 0.8565403819084167,
      "learning_rate": 0.0002995567355255422,
      "loss": 3.9428,
      "step": 13700
    },
    {
      "epoch": 0.0285625,
      "grad_norm": 0.9245144128799438,
      "learning_rate": 0.00029955597785888806,
      "loss": 4.0552,
      "step": 13710
    },
    {
      "epoch": 0.028583333333333332,
      "grad_norm": 0.9167112708091736,
      "learning_rate": 0.00029955521954621125,
      "loss": 3.9909,
      "step": 13720
    },
    {
      "epoch": 0.028604166666666667,
      "grad_norm": 0.8368225693702698,
      "learning_rate": 0.00029955446058751507,
      "loss": 4.1241,
      "step": 13730
    },
    {
      "epoch": 0.028625,
      "grad_norm": 0.9742733836174011,
      "learning_rate": 0.0002995537009828028,
      "loss": 3.9613,
      "step": 13740
    },
    {
      "epoch": 0.028645833333333332,
      "grad_norm": 0.7571779489517212,
      "learning_rate": 0.0002995529407320778,
      "loss": 3.9219,
      "step": 13750
    },
    {
      "epoch": 0.028666666666666667,
      "grad_norm": 0.821368932723999,
      "learning_rate": 0.0002995521798353433,
      "loss": 4.2434,
      "step": 13760
    },
    {
      "epoch": 0.0286875,
      "grad_norm": 0.88266521692276,
      "learning_rate": 0.0002995514182926026,
      "loss": 4.0037,
      "step": 13770
    },
    {
      "epoch": 0.028708333333333332,
      "grad_norm": 0.959341287612915,
      "learning_rate": 0.0002995506561038589,
      "loss": 4.0222,
      "step": 13780
    },
    {
      "epoch": 0.028729166666666667,
      "grad_norm": 0.7965496182441711,
      "learning_rate": 0.00029954989326911555,
      "loss": 4.0164,
      "step": 13790
    },
    {
      "epoch": 0.02875,
      "grad_norm": 0.8554810881614685,
      "learning_rate": 0.00029954912978837593,
      "loss": 3.9433,
      "step": 13800
    },
    {
      "epoch": 0.028770833333333332,
      "grad_norm": 0.9147219061851501,
      "learning_rate": 0.00029954836566164323,
      "loss": 4.1305,
      "step": 13810
    },
    {
      "epoch": 0.028791666666666667,
      "grad_norm": 0.9397408366203308,
      "learning_rate": 0.00029954760088892076,
      "loss": 3.913,
      "step": 13820
    },
    {
      "epoch": 0.0288125,
      "grad_norm": 0.9073673486709595,
      "learning_rate": 0.0002995468354702119,
      "loss": 4.0855,
      "step": 13830
    },
    {
      "epoch": 0.028833333333333332,
      "grad_norm": 0.7644234895706177,
      "learning_rate": 0.0002995460694055199,
      "loss": 4.0826,
      "step": 13840
    },
    {
      "epoch": 0.028854166666666667,
      "grad_norm": 0.8978095650672913,
      "learning_rate": 0.00029954530269484805,
      "loss": 4.147,
      "step": 13850
    },
    {
      "epoch": 0.028875,
      "grad_norm": 0.7489539384841919,
      "learning_rate": 0.00029954453533819966,
      "loss": 4.0548,
      "step": 13860
    },
    {
      "epoch": 0.028895833333333332,
      "grad_norm": 0.9819786548614502,
      "learning_rate": 0.0002995437673355781,
      "loss": 4.1459,
      "step": 13870
    },
    {
      "epoch": 0.028916666666666667,
      "grad_norm": 0.935992956161499,
      "learning_rate": 0.0002995429986869867,
      "loss": 4.1125,
      "step": 13880
    },
    {
      "epoch": 0.0289375,
      "grad_norm": 1.3112685680389404,
      "learning_rate": 0.0002995422293924287,
      "loss": 4.027,
      "step": 13890
    },
    {
      "epoch": 0.028958333333333332,
      "grad_norm": 0.8548194766044617,
      "learning_rate": 0.0002995414594519074,
      "loss": 3.9184,
      "step": 13900
    },
    {
      "epoch": 0.028979166666666667,
      "grad_norm": 0.8113975524902344,
      "learning_rate": 0.0002995406888654263,
      "loss": 4.0994,
      "step": 13910
    },
    {
      "epoch": 0.029,
      "grad_norm": 0.9581493139266968,
      "learning_rate": 0.00029953991763298856,
      "loss": 4.0694,
      "step": 13920
    },
    {
      "epoch": 0.029020833333333333,
      "grad_norm": 0.7941803932189941,
      "learning_rate": 0.00029953914575459755,
      "loss": 4.1715,
      "step": 13930
    },
    {
      "epoch": 0.029041666666666667,
      "grad_norm": 0.9321348667144775,
      "learning_rate": 0.00029953837323025667,
      "loss": 4.0293,
      "step": 13940
    },
    {
      "epoch": 0.0290625,
      "grad_norm": 1.9892157316207886,
      "learning_rate": 0.00029953760005996916,
      "loss": 3.8948,
      "step": 13950
    },
    {
      "epoch": 0.029083333333333333,
      "grad_norm": 1.0032389163970947,
      "learning_rate": 0.0002995368262437384,
      "loss": 4.0357,
      "step": 13960
    },
    {
      "epoch": 0.029104166666666667,
      "grad_norm": 0.8386779427528381,
      "learning_rate": 0.00029953605178156784,
      "loss": 4.1822,
      "step": 13970
    },
    {
      "epoch": 0.029125,
      "grad_norm": 0.7913174629211426,
      "learning_rate": 0.00029953527667346064,
      "loss": 4.188,
      "step": 13980
    },
    {
      "epoch": 0.029145833333333333,
      "grad_norm": 1.1361711025238037,
      "learning_rate": 0.00029953450091942026,
      "loss": 4.2595,
      "step": 13990
    },
    {
      "epoch": 0.029166666666666667,
      "grad_norm": 0.8619164228439331,
      "learning_rate": 0.00029953372451945,
      "loss": 3.9751,
      "step": 14000
    },
    {
      "epoch": 0.029166666666666667,
      "eval_loss": 4.356916427612305,
      "eval_runtime": 9.3544,
      "eval_samples_per_second": 1.069,
      "eval_steps_per_second": 0.321,
      "step": 14000
    },
    {
      "epoch": 0.0291875,
      "grad_norm": 0.7936063408851624,
      "learning_rate": 0.00029953294747355326,
      "loss": 4.091,
      "step": 14010
    },
    {
      "epoch": 0.029208333333333333,
      "grad_norm": 1.0108964443206787,
      "learning_rate": 0.00029953216978173335,
      "loss": 4.0172,
      "step": 14020
    },
    {
      "epoch": 0.029229166666666667,
      "grad_norm": 0.9538745880126953,
      "learning_rate": 0.0002995313914439937,
      "loss": 4.1773,
      "step": 14030
    },
    {
      "epoch": 0.02925,
      "grad_norm": 0.856364369392395,
      "learning_rate": 0.00029953061246033765,
      "loss": 3.9308,
      "step": 14040
    },
    {
      "epoch": 0.029270833333333333,
      "grad_norm": 0.8447313904762268,
      "learning_rate": 0.0002995298328307685,
      "loss": 4.0601,
      "step": 14050
    },
    {
      "epoch": 0.029291666666666667,
      "grad_norm": 0.8464942574501038,
      "learning_rate": 0.0002995290525552897,
      "loss": 4.0141,
      "step": 14060
    },
    {
      "epoch": 0.0293125,
      "grad_norm": 0.9490212202072144,
      "learning_rate": 0.0002995282716339045,
      "loss": 4.1654,
      "step": 14070
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 0.8684578537940979,
      "learning_rate": 0.0002995274900666164,
      "loss": 4.1965,
      "step": 14080
    },
    {
      "epoch": 0.029354166666666667,
      "grad_norm": 0.998436450958252,
      "learning_rate": 0.00029952670785342875,
      "loss": 3.9991,
      "step": 14090
    },
    {
      "epoch": 0.029375,
      "grad_norm": 0.7740040421485901,
      "learning_rate": 0.0002995259249943449,
      "loss": 4.2114,
      "step": 14100
    },
    {
      "epoch": 0.029395833333333333,
      "grad_norm": 1.4362983703613281,
      "learning_rate": 0.0002995251414893682,
      "loss": 3.9309,
      "step": 14110
    },
    {
      "epoch": 0.029416666666666667,
      "grad_norm": 0.8584771156311035,
      "learning_rate": 0.0002995243573385021,
      "loss": 4.0263,
      "step": 14120
    },
    {
      "epoch": 0.0294375,
      "grad_norm": 0.8559417724609375,
      "learning_rate": 0.00029952357254175,
      "loss": 4.1697,
      "step": 14130
    },
    {
      "epoch": 0.029458333333333333,
      "grad_norm": 0.9709491729736328,
      "learning_rate": 0.0002995227870991152,
      "loss": 4.2842,
      "step": 14140
    },
    {
      "epoch": 0.029479166666666667,
      "grad_norm": 0.8047007322311401,
      "learning_rate": 0.00029952200101060114,
      "loss": 3.9945,
      "step": 14150
    },
    {
      "epoch": 0.0295,
      "grad_norm": 0.8429526090621948,
      "learning_rate": 0.00029952121427621127,
      "loss": 4.2002,
      "step": 14160
    },
    {
      "epoch": 0.029520833333333333,
      "grad_norm": 0.946507453918457,
      "learning_rate": 0.0002995204268959489,
      "loss": 4.1771,
      "step": 14170
    },
    {
      "epoch": 0.029541666666666667,
      "grad_norm": 0.8206014037132263,
      "learning_rate": 0.00029951963886981744,
      "loss": 3.8681,
      "step": 14180
    },
    {
      "epoch": 0.0295625,
      "grad_norm": 0.8725135922431946,
      "learning_rate": 0.0002995188501978204,
      "loss": 4.0012,
      "step": 14190
    },
    {
      "epoch": 0.029583333333333333,
      "grad_norm": 0.8647250533103943,
      "learning_rate": 0.0002995180608799611,
      "loss": 3.835,
      "step": 14200
    },
    {
      "epoch": 0.029604166666666668,
      "grad_norm": 0.8583681583404541,
      "learning_rate": 0.0002995172709162429,
      "loss": 4.0018,
      "step": 14210
    },
    {
      "epoch": 0.029625,
      "grad_norm": 0.9821990728378296,
      "learning_rate": 0.0002995164803066693,
      "loss": 4.0503,
      "step": 14220
    },
    {
      "epoch": 0.029645833333333333,
      "grad_norm": 0.8250752091407776,
      "learning_rate": 0.0002995156890512437,
      "loss": 4.0846,
      "step": 14230
    },
    {
      "epoch": 0.029666666666666668,
      "grad_norm": 0.9520192742347717,
      "learning_rate": 0.0002995148971499695,
      "loss": 3.9514,
      "step": 14240
    },
    {
      "epoch": 0.0296875,
      "grad_norm": 1.0640666484832764,
      "learning_rate": 0.00029951410460285016,
      "loss": 4.094,
      "step": 14250
    },
    {
      "epoch": 0.029708333333333333,
      "grad_norm": 0.8637073040008545,
      "learning_rate": 0.00029951331140988904,
      "loss": 4.1746,
      "step": 14260
    },
    {
      "epoch": 0.029729166666666668,
      "grad_norm": 0.7906662821769714,
      "learning_rate": 0.0002995125175710896,
      "loss": 4.187,
      "step": 14270
    },
    {
      "epoch": 0.02975,
      "grad_norm": 0.8535051941871643,
      "learning_rate": 0.00029951172308645527,
      "loss": 4.2243,
      "step": 14280
    },
    {
      "epoch": 0.029770833333333333,
      "grad_norm": 0.8398330807685852,
      "learning_rate": 0.00029951092795598946,
      "loss": 3.992,
      "step": 14290
    },
    {
      "epoch": 0.029791666666666668,
      "grad_norm": 0.8448793292045593,
      "learning_rate": 0.00029951013217969564,
      "loss": 4.1865,
      "step": 14300
    },
    {
      "epoch": 0.0298125,
      "grad_norm": 0.991813600063324,
      "learning_rate": 0.00029950933575757717,
      "loss": 4.1371,
      "step": 14310
    },
    {
      "epoch": 0.029833333333333333,
      "grad_norm": 0.939232349395752,
      "learning_rate": 0.00029950853868963764,
      "loss": 4.1055,
      "step": 14320
    },
    {
      "epoch": 0.029854166666666668,
      "grad_norm": 0.9091331958770752,
      "learning_rate": 0.00029950774097588033,
      "loss": 3.8969,
      "step": 14330
    },
    {
      "epoch": 0.029875,
      "grad_norm": 0.8256743550300598,
      "learning_rate": 0.0002995069426163088,
      "loss": 4.0185,
      "step": 14340
    },
    {
      "epoch": 0.029895833333333333,
      "grad_norm": 0.9156287312507629,
      "learning_rate": 0.00029950614361092643,
      "loss": 4.046,
      "step": 14350
    },
    {
      "epoch": 0.029916666666666668,
      "grad_norm": 0.9120573401451111,
      "learning_rate": 0.00029950534395973676,
      "loss": 4.1613,
      "step": 14360
    },
    {
      "epoch": 0.0299375,
      "grad_norm": 0.8116564154624939,
      "learning_rate": 0.0002995045436627431,
      "loss": 4.1115,
      "step": 14370
    },
    {
      "epoch": 0.029958333333333333,
      "grad_norm": 0.8502389192581177,
      "learning_rate": 0.0002995037427199491,
      "loss": 4.1647,
      "step": 14380
    },
    {
      "epoch": 0.029979166666666668,
      "grad_norm": 0.8279502987861633,
      "learning_rate": 0.00029950294113135795,
      "loss": 3.976,
      "step": 14390
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7861356735229492,
      "learning_rate": 0.00029950213889697334,
      "loss": 4.0995,
      "step": 14400
    },
    {
      "epoch": 0.030020833333333333,
      "grad_norm": 0.8641905784606934,
      "learning_rate": 0.0002995013360167987,
      "loss": 4.0781,
      "step": 14410
    },
    {
      "epoch": 0.030041666666666668,
      "grad_norm": 0.9762683510780334,
      "learning_rate": 0.00029950053249083746,
      "loss": 3.9164,
      "step": 14420
    },
    {
      "epoch": 0.0300625,
      "grad_norm": 0.8936527371406555,
      "learning_rate": 0.0002994997283190931,
      "loss": 4.0197,
      "step": 14430
    },
    {
      "epoch": 0.030083333333333333,
      "grad_norm": 0.9123913645744324,
      "learning_rate": 0.0002994989235015691,
      "loss": 4.2142,
      "step": 14440
    },
    {
      "epoch": 0.030104166666666668,
      "grad_norm": 0.7833881378173828,
      "learning_rate": 0.00029949811803826887,
      "loss": 4.1087,
      "step": 14450
    },
    {
      "epoch": 0.030125,
      "grad_norm": 0.9175639152526855,
      "learning_rate": 0.000299497311929196,
      "loss": 4.0483,
      "step": 14460
    },
    {
      "epoch": 0.030145833333333334,
      "grad_norm": 1.0885392427444458,
      "learning_rate": 0.0002994965051743539,
      "loss": 4.1156,
      "step": 14470
    },
    {
      "epoch": 0.030166666666666668,
      "grad_norm": 0.7812568545341492,
      "learning_rate": 0.00029949569777374606,
      "loss": 4.2049,
      "step": 14480
    },
    {
      "epoch": 0.0301875,
      "grad_norm": 0.7951915264129639,
      "learning_rate": 0.00029949488972737595,
      "loss": 4.2044,
      "step": 14490
    },
    {
      "epoch": 0.030208333333333334,
      "grad_norm": 0.889025866985321,
      "learning_rate": 0.0002994940810352472,
      "loss": 4.0133,
      "step": 14500
    },
    {
      "epoch": 0.030229166666666668,
      "grad_norm": 0.8385442495346069,
      "learning_rate": 0.0002994932716973631,
      "loss": 3.9657,
      "step": 14510
    },
    {
      "epoch": 0.03025,
      "grad_norm": 0.8191893100738525,
      "learning_rate": 0.00029949246171372725,
      "loss": 3.9902,
      "step": 14520
    },
    {
      "epoch": 0.030270833333333334,
      "grad_norm": 0.8516495227813721,
      "learning_rate": 0.00029949165108434316,
      "loss": 3.8266,
      "step": 14530
    },
    {
      "epoch": 0.030291666666666668,
      "grad_norm": 0.8472347259521484,
      "learning_rate": 0.00029949083980921427,
      "loss": 4.1477,
      "step": 14540
    },
    {
      "epoch": 0.0303125,
      "grad_norm": 0.7125795483589172,
      "learning_rate": 0.0002994900278883441,
      "loss": 3.9867,
      "step": 14550
    },
    {
      "epoch": 0.030333333333333334,
      "grad_norm": 0.7736186385154724,
      "learning_rate": 0.00029948921532173625,
      "loss": 3.9828,
      "step": 14560
    },
    {
      "epoch": 0.030354166666666668,
      "grad_norm": 0.9110493659973145,
      "learning_rate": 0.0002994884021093942,
      "loss": 4.0417,
      "step": 14570
    },
    {
      "epoch": 0.030375,
      "grad_norm": 0.823752224445343,
      "learning_rate": 0.0002994875882513214,
      "loss": 4.0839,
      "step": 14580
    },
    {
      "epoch": 0.030395833333333334,
      "grad_norm": 0.8900298476219177,
      "learning_rate": 0.0002994867737475213,
      "loss": 4.0366,
      "step": 14590
    },
    {
      "epoch": 0.030416666666666668,
      "grad_norm": 0.8623661994934082,
      "learning_rate": 0.0002994859585979976,
      "loss": 4.2338,
      "step": 14600
    },
    {
      "epoch": 0.0304375,
      "grad_norm": 0.9114215970039368,
      "learning_rate": 0.00029948514280275367,
      "loss": 3.738,
      "step": 14610
    },
    {
      "epoch": 0.030458333333333334,
      "grad_norm": 0.794955849647522,
      "learning_rate": 0.00029948432636179315,
      "loss": 4.1121,
      "step": 14620
    },
    {
      "epoch": 0.03047916666666667,
      "grad_norm": 0.9092820286750793,
      "learning_rate": 0.00029948350927511944,
      "loss": 4.1745,
      "step": 14630
    },
    {
      "epoch": 0.0305,
      "grad_norm": 0.8599286079406738,
      "learning_rate": 0.0002994826915427362,
      "loss": 4.2106,
      "step": 14640
    },
    {
      "epoch": 0.030520833333333334,
      "grad_norm": 0.9800681471824646,
      "learning_rate": 0.0002994818731646469,
      "loss": 4.0644,
      "step": 14650
    },
    {
      "epoch": 0.03054166666666667,
      "grad_norm": 0.8235310912132263,
      "learning_rate": 0.0002994810541408551,
      "loss": 4.0764,
      "step": 14660
    },
    {
      "epoch": 0.0305625,
      "grad_norm": 0.8471696972846985,
      "learning_rate": 0.0002994802344713643,
      "loss": 4.0903,
      "step": 14670
    },
    {
      "epoch": 0.030583333333333334,
      "grad_norm": 0.900359570980072,
      "learning_rate": 0.00029947941415617795,
      "loss": 4.0169,
      "step": 14680
    },
    {
      "epoch": 0.030604166666666665,
      "grad_norm": 0.8637657165527344,
      "learning_rate": 0.00029947859319529984,
      "loss": 4.077,
      "step": 14690
    },
    {
      "epoch": 0.030625,
      "grad_norm": 0.86497563123703,
      "learning_rate": 0.00029947777158873326,
      "loss": 4.0702,
      "step": 14700
    },
    {
      "epoch": 0.030645833333333334,
      "grad_norm": 0.7919631004333496,
      "learning_rate": 0.00029947694933648195,
      "loss": 4.0094,
      "step": 14710
    },
    {
      "epoch": 0.030666666666666665,
      "grad_norm": 0.927245557308197,
      "learning_rate": 0.00029947612643854937,
      "loss": 4.1117,
      "step": 14720
    },
    {
      "epoch": 0.0306875,
      "grad_norm": 1.019700050354004,
      "learning_rate": 0.0002994753028949391,
      "loss": 4.1263,
      "step": 14730
    },
    {
      "epoch": 0.030708333333333334,
      "grad_norm": 0.8786669373512268,
      "learning_rate": 0.0002994744787056547,
      "loss": 4.0432,
      "step": 14740
    },
    {
      "epoch": 0.030729166666666665,
      "grad_norm": 0.8385117650032043,
      "learning_rate": 0.0002994736538706997,
      "loss": 4.0987,
      "step": 14750
    },
    {
      "epoch": 0.03075,
      "grad_norm": 0.746900737285614,
      "learning_rate": 0.0002994728283900776,
      "loss": 4.0355,
      "step": 14760
    },
    {
      "epoch": 0.030770833333333334,
      "grad_norm": 0.8696882724761963,
      "learning_rate": 0.0002994720022637922,
      "loss": 4.2424,
      "step": 14770
    },
    {
      "epoch": 0.030791666666666665,
      "grad_norm": 0.8687977194786072,
      "learning_rate": 0.0002994711754918468,
      "loss": 3.9462,
      "step": 14780
    },
    {
      "epoch": 0.0308125,
      "grad_norm": 0.9078602194786072,
      "learning_rate": 0.00029947034807424513,
      "loss": 4.013,
      "step": 14790
    },
    {
      "epoch": 0.030833333333333334,
      "grad_norm": 1.294808268547058,
      "learning_rate": 0.0002994695200109907,
      "loss": 3.987,
      "step": 14800
    },
    {
      "epoch": 0.030854166666666665,
      "grad_norm": 0.9757322072982788,
      "learning_rate": 0.00029946869130208713,
      "loss": 4.1635,
      "step": 14810
    },
    {
      "epoch": 0.030875,
      "grad_norm": 0.768364667892456,
      "learning_rate": 0.00029946786194753796,
      "loss": 4.0322,
      "step": 14820
    },
    {
      "epoch": 0.030895833333333334,
      "grad_norm": 0.7371079921722412,
      "learning_rate": 0.0002994670319473468,
      "loss": 4.0079,
      "step": 14830
    },
    {
      "epoch": 0.030916666666666665,
      "grad_norm": 0.8342958092689514,
      "learning_rate": 0.00029946620130151725,
      "loss": 4.0807,
      "step": 14840
    },
    {
      "epoch": 0.0309375,
      "grad_norm": 0.9092526435852051,
      "learning_rate": 0.0002994653700100528,
      "loss": 4.1937,
      "step": 14850
    },
    {
      "epoch": 0.030958333333333334,
      "grad_norm": 0.9627977013587952,
      "learning_rate": 0.00029946453807295717,
      "loss": 4.1064,
      "step": 14860
    },
    {
      "epoch": 0.030979166666666665,
      "grad_norm": 0.8539911508560181,
      "learning_rate": 0.00029946370549023386,
      "loss": 4.1365,
      "step": 14870
    },
    {
      "epoch": 0.031,
      "grad_norm": 0.872199296951294,
      "learning_rate": 0.00029946287226188654,
      "loss": 4.0328,
      "step": 14880
    },
    {
      "epoch": 0.031020833333333334,
      "grad_norm": 0.9470723867416382,
      "learning_rate": 0.00029946203838791883,
      "loss": 4.0389,
      "step": 14890
    },
    {
      "epoch": 0.031041666666666665,
      "grad_norm": 0.9475892186164856,
      "learning_rate": 0.0002994612038683342,
      "loss": 4.1021,
      "step": 14900
    },
    {
      "epoch": 0.0310625,
      "grad_norm": 0.881456732749939,
      "learning_rate": 0.0002994603687031363,
      "loss": 3.895,
      "step": 14910
    },
    {
      "epoch": 0.031083333333333334,
      "grad_norm": 0.8027737140655518,
      "learning_rate": 0.0002994595328923288,
      "loss": 4.1018,
      "step": 14920
    },
    {
      "epoch": 0.031104166666666665,
      "grad_norm": 0.9134830236434937,
      "learning_rate": 0.00029945869643591534,
      "loss": 4.0712,
      "step": 14930
    },
    {
      "epoch": 0.031125,
      "grad_norm": 0.9590940475463867,
      "learning_rate": 0.00029945785933389944,
      "loss": 4.144,
      "step": 14940
    },
    {
      "epoch": 0.031145833333333334,
      "grad_norm": 0.8448448777198792,
      "learning_rate": 0.0002994570215862847,
      "loss": 3.9476,
      "step": 14950
    },
    {
      "epoch": 0.031166666666666665,
      "grad_norm": 0.8625873327255249,
      "learning_rate": 0.00029945618319307483,
      "loss": 4.2291,
      "step": 14960
    },
    {
      "epoch": 0.0311875,
      "grad_norm": 0.8199671506881714,
      "learning_rate": 0.00029945534415427334,
      "loss": 4.2394,
      "step": 14970
    },
    {
      "epoch": 0.031208333333333334,
      "grad_norm": 0.9125764966011047,
      "learning_rate": 0.000299454504469884,
      "loss": 3.9974,
      "step": 14980
    },
    {
      "epoch": 0.031229166666666665,
      "grad_norm": 1.252485752105713,
      "learning_rate": 0.0002994536641399103,
      "loss": 3.9833,
      "step": 14990
    },
    {
      "epoch": 0.03125,
      "grad_norm": 0.8720163702964783,
      "learning_rate": 0.000299452823164356,
      "loss": 4.178,
      "step": 15000
    },
    {
      "epoch": 0.03125,
      "eval_loss": 4.33093786239624,
      "eval_runtime": 9.0611,
      "eval_samples_per_second": 1.104,
      "eval_steps_per_second": 0.331,
      "step": 15000
    },
    {
      "epoch": 0.03127083333333333,
      "grad_norm": 0.878359317779541,
      "learning_rate": 0.00029945198154322463,
      "loss": 4.1393,
      "step": 15010
    },
    {
      "epoch": 0.03129166666666667,
      "grad_norm": 0.8419456481933594,
      "learning_rate": 0.00029945113927651985,
      "loss": 4.1687,
      "step": 15020
    },
    {
      "epoch": 0.0313125,
      "grad_norm": 0.9828937649726868,
      "learning_rate": 0.00029945029636424525,
      "loss": 3.9624,
      "step": 15030
    },
    {
      "epoch": 0.03133333333333333,
      "grad_norm": 0.8137750029563904,
      "learning_rate": 0.0002994494528064046,
      "loss": 3.9851,
      "step": 15040
    },
    {
      "epoch": 0.03135416666666667,
      "grad_norm": 0.8770872354507446,
      "learning_rate": 0.0002994486086030015,
      "loss": 4.0027,
      "step": 15050
    },
    {
      "epoch": 0.031375,
      "grad_norm": 0.760393500328064,
      "learning_rate": 0.0002994477637540395,
      "loss": 4.015,
      "step": 15060
    },
    {
      "epoch": 0.03139583333333333,
      "grad_norm": 1.043774962425232,
      "learning_rate": 0.00029944691825952227,
      "loss": 4.0337,
      "step": 15070
    },
    {
      "epoch": 0.03141666666666667,
      "grad_norm": 0.8033528327941895,
      "learning_rate": 0.0002994460721194536,
      "loss": 4.0333,
      "step": 15080
    },
    {
      "epoch": 0.0314375,
      "grad_norm": 0.9265820980072021,
      "learning_rate": 0.00029944522533383706,
      "loss": 3.9952,
      "step": 15090
    },
    {
      "epoch": 0.03145833333333333,
      "grad_norm": 0.82586669921875,
      "learning_rate": 0.0002994443779026762,
      "loss": 4.0545,
      "step": 15100
    },
    {
      "epoch": 0.03147916666666667,
      "grad_norm": 0.910287082195282,
      "learning_rate": 0.0002994435298259749,
      "loss": 3.9704,
      "step": 15110
    },
    {
      "epoch": 0.0315,
      "grad_norm": 0.7352041602134705,
      "learning_rate": 0.00029944268110373664,
      "loss": 4.0829,
      "step": 15120
    },
    {
      "epoch": 0.03152083333333333,
      "grad_norm": 0.7913026213645935,
      "learning_rate": 0.00029944183173596516,
      "loss": 4.0073,
      "step": 15130
    },
    {
      "epoch": 0.03154166666666667,
      "grad_norm": 0.8794562220573425,
      "learning_rate": 0.00029944098172266415,
      "loss": 4.0265,
      "step": 15140
    },
    {
      "epoch": 0.0315625,
      "grad_norm": 0.8485791087150574,
      "learning_rate": 0.00029944013106383724,
      "loss": 4.0441,
      "step": 15150
    },
    {
      "epoch": 0.03158333333333333,
      "grad_norm": 0.7684953212738037,
      "learning_rate": 0.00029943927975948807,
      "loss": 4.1521,
      "step": 15160
    },
    {
      "epoch": 0.03160416666666667,
      "grad_norm": 0.8206188678741455,
      "learning_rate": 0.00029943842780962037,
      "loss": 4.1218,
      "step": 15170
    },
    {
      "epoch": 0.031625,
      "grad_norm": 0.7914516925811768,
      "learning_rate": 0.00029943757521423784,
      "loss": 3.9008,
      "step": 15180
    },
    {
      "epoch": 0.03164583333333333,
      "grad_norm": 0.8451589345932007,
      "learning_rate": 0.00029943672197334416,
      "loss": 3.9649,
      "step": 15190
    },
    {
      "epoch": 0.03166666666666667,
      "grad_norm": 0.8165528774261475,
      "learning_rate": 0.00029943586808694295,
      "loss": 4.1614,
      "step": 15200
    },
    {
      "epoch": 0.0316875,
      "grad_norm": 0.9129602909088135,
      "learning_rate": 0.000299435013555038,
      "loss": 4.1485,
      "step": 15210
    },
    {
      "epoch": 0.03170833333333333,
      "grad_norm": 0.9809873700141907,
      "learning_rate": 0.00029943415837763285,
      "loss": 4.0221,
      "step": 15220
    },
    {
      "epoch": 0.03172916666666667,
      "grad_norm": 0.8489075899124146,
      "learning_rate": 0.0002994333025547313,
      "loss": 4.275,
      "step": 15230
    },
    {
      "epoch": 0.03175,
      "grad_norm": 0.8379136919975281,
      "learning_rate": 0.0002994324460863371,
      "loss": 4.1557,
      "step": 15240
    },
    {
      "epoch": 0.03177083333333333,
      "grad_norm": 0.903752863407135,
      "learning_rate": 0.00029943158897245383,
      "loss": 4.0205,
      "step": 15250
    },
    {
      "epoch": 0.03179166666666667,
      "grad_norm": 0.9514161348342896,
      "learning_rate": 0.0002994307312130853,
      "loss": 4.0831,
      "step": 15260
    },
    {
      "epoch": 0.0318125,
      "grad_norm": 0.8124263286590576,
      "learning_rate": 0.0002994298728082351,
      "loss": 4.1813,
      "step": 15270
    },
    {
      "epoch": 0.03183333333333333,
      "grad_norm": 0.8268098831176758,
      "learning_rate": 0.00029942901375790707,
      "loss": 4.0504,
      "step": 15280
    },
    {
      "epoch": 0.03185416666666667,
      "grad_norm": 0.9709042906761169,
      "learning_rate": 0.0002994281540621048,
      "loss": 4.0775,
      "step": 15290
    },
    {
      "epoch": 0.031875,
      "grad_norm": 0.8725966215133667,
      "learning_rate": 0.00029942729372083206,
      "loss": 4.1487,
      "step": 15300
    },
    {
      "epoch": 0.03189583333333333,
      "grad_norm": 0.9131580591201782,
      "learning_rate": 0.0002994264327340925,
      "loss": 4.1491,
      "step": 15310
    },
    {
      "epoch": 0.03191666666666667,
      "grad_norm": 0.8566455841064453,
      "learning_rate": 0.00029942557110189,
      "loss": 3.8982,
      "step": 15320
    },
    {
      "epoch": 0.0319375,
      "grad_norm": 0.8703935742378235,
      "learning_rate": 0.0002994247088242281,
      "loss": 4.0579,
      "step": 15330
    },
    {
      "epoch": 0.03195833333333333,
      "grad_norm": 0.8805674314498901,
      "learning_rate": 0.00029942384590111066,
      "loss": 4.113,
      "step": 15340
    },
    {
      "epoch": 0.03197916666666667,
      "grad_norm": 0.8759633898735046,
      "learning_rate": 0.0002994229823325413,
      "loss": 4.1328,
      "step": 15350
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.7107021808624268,
      "learning_rate": 0.00029942211811852384,
      "loss": 4.1089,
      "step": 15360
    },
    {
      "epoch": 0.03202083333333333,
      "grad_norm": 0.7688440084457397,
      "learning_rate": 0.00029942125325906196,
      "loss": 4.0989,
      "step": 15370
    },
    {
      "epoch": 0.03204166666666667,
      "grad_norm": 0.7890715003013611,
      "learning_rate": 0.0002994203877541594,
      "loss": 4.0704,
      "step": 15380
    },
    {
      "epoch": 0.0320625,
      "grad_norm": 0.9604535698890686,
      "learning_rate": 0.0002994195216038199,
      "loss": 3.9661,
      "step": 15390
    },
    {
      "epoch": 0.03208333333333333,
      "grad_norm": 0.9563435912132263,
      "learning_rate": 0.0002994186548080473,
      "loss": 4.0421,
      "step": 15400
    },
    {
      "epoch": 0.03210416666666667,
      "grad_norm": 0.7535944581031799,
      "learning_rate": 0.0002994177873668451,
      "loss": 4.1313,
      "step": 15410
    },
    {
      "epoch": 0.032125,
      "grad_norm": 0.8137538433074951,
      "learning_rate": 0.00029941691928021737,
      "loss": 4.1078,
      "step": 15420
    },
    {
      "epoch": 0.03214583333333333,
      "grad_norm": 0.7604168653488159,
      "learning_rate": 0.0002994160505481676,
      "loss": 4.2108,
      "step": 15430
    },
    {
      "epoch": 0.03216666666666667,
      "grad_norm": 0.8974458575248718,
      "learning_rate": 0.0002994151811706996,
      "loss": 4.0118,
      "step": 15440
    },
    {
      "epoch": 0.0321875,
      "grad_norm": 0.8392168879508972,
      "learning_rate": 0.0002994143111478172,
      "loss": 4.1775,
      "step": 15450
    },
    {
      "epoch": 0.03220833333333333,
      "grad_norm": 0.7376740574836731,
      "learning_rate": 0.00029941344047952417,
      "loss": 4.3068,
      "step": 15460
    },
    {
      "epoch": 0.03222916666666667,
      "grad_norm": 0.7751104235649109,
      "learning_rate": 0.0002994125691658242,
      "loss": 3.8922,
      "step": 15470
    },
    {
      "epoch": 0.03225,
      "grad_norm": 0.8617166876792908,
      "learning_rate": 0.00029941169720672104,
      "loss": 3.9637,
      "step": 15480
    },
    {
      "epoch": 0.03227083333333333,
      "grad_norm": 0.8667832016944885,
      "learning_rate": 0.0002994108246022185,
      "loss": 3.9956,
      "step": 15490
    },
    {
      "epoch": 0.03229166666666667,
      "grad_norm": 0.8785979747772217,
      "learning_rate": 0.0002994099513523204,
      "loss": 3.9887,
      "step": 15500
    },
    {
      "epoch": 0.0323125,
      "grad_norm": 0.9857479333877563,
      "learning_rate": 0.0002994090774570303,
      "loss": 4.0639,
      "step": 15510
    },
    {
      "epoch": 0.03233333333333333,
      "grad_norm": 0.8522710204124451,
      "learning_rate": 0.0002994082029163522,
      "loss": 4.1742,
      "step": 15520
    },
    {
      "epoch": 0.03235416666666667,
      "grad_norm": 0.8661463856697083,
      "learning_rate": 0.00029940732773028986,
      "loss": 4.031,
      "step": 15530
    },
    {
      "epoch": 0.032375,
      "grad_norm": 0.7796003222465515,
      "learning_rate": 0.00029940645189884696,
      "loss": 4.0595,
      "step": 15540
    },
    {
      "epoch": 0.03239583333333333,
      "grad_norm": 0.8311572670936584,
      "learning_rate": 0.0002994055754220273,
      "loss": 3.9215,
      "step": 15550
    },
    {
      "epoch": 0.03241666666666667,
      "grad_norm": 0.8599438667297363,
      "learning_rate": 0.00029940469829983475,
      "loss": 4.0982,
      "step": 15560
    },
    {
      "epoch": 0.0324375,
      "grad_norm": 0.9948984384536743,
      "learning_rate": 0.000299403820532273,
      "loss": 4.0887,
      "step": 15570
    },
    {
      "epoch": 0.03245833333333333,
      "grad_norm": 0.8569654822349548,
      "learning_rate": 0.0002994029421193459,
      "loss": 3.904,
      "step": 15580
    },
    {
      "epoch": 0.03247916666666667,
      "grad_norm": 0.8488124012947083,
      "learning_rate": 0.00029940206306105723,
      "loss": 4.0056,
      "step": 15590
    },
    {
      "epoch": 0.0325,
      "grad_norm": 0.7372636198997498,
      "learning_rate": 0.00029940118335741077,
      "loss": 4.1109,
      "step": 15600
    },
    {
      "epoch": 0.03252083333333333,
      "grad_norm": 0.7716682553291321,
      "learning_rate": 0.0002994003030084103,
      "loss": 4.0849,
      "step": 15610
    },
    {
      "epoch": 0.03254166666666667,
      "grad_norm": 1.0652674436569214,
      "learning_rate": 0.0002993994220140597,
      "loss": 4.3322,
      "step": 15620
    },
    {
      "epoch": 0.0325625,
      "grad_norm": 0.89274662733078,
      "learning_rate": 0.00029939854037436275,
      "loss": 4.2091,
      "step": 15630
    },
    {
      "epoch": 0.03258333333333333,
      "grad_norm": 0.843664824962616,
      "learning_rate": 0.00029939765808932324,
      "loss": 4.0918,
      "step": 15640
    },
    {
      "epoch": 0.03260416666666666,
      "grad_norm": 0.7798587083816528,
      "learning_rate": 0.00029939677515894496,
      "loss": 4.2316,
      "step": 15650
    },
    {
      "epoch": 0.032625,
      "grad_norm": 0.908891499042511,
      "learning_rate": 0.00029939589158323177,
      "loss": 4.0584,
      "step": 15660
    },
    {
      "epoch": 0.03264583333333333,
      "grad_norm": 0.800485372543335,
      "learning_rate": 0.00029939500736218745,
      "loss": 3.8963,
      "step": 15670
    },
    {
      "epoch": 0.03266666666666666,
      "grad_norm": 0.8182084560394287,
      "learning_rate": 0.0002993941224958158,
      "loss": 3.8216,
      "step": 15680
    },
    {
      "epoch": 0.0326875,
      "grad_norm": 0.8195801973342896,
      "learning_rate": 0.0002993932369841207,
      "loss": 4.0306,
      "step": 15690
    },
    {
      "epoch": 0.03270833333333333,
      "grad_norm": 0.8744678497314453,
      "learning_rate": 0.000299392350827106,
      "loss": 3.8719,
      "step": 15700
    },
    {
      "epoch": 0.03272916666666666,
      "grad_norm": 0.8203961849212646,
      "learning_rate": 0.00029939146402477545,
      "loss": 4.2014,
      "step": 15710
    },
    {
      "epoch": 0.03275,
      "grad_norm": 0.8917534351348877,
      "learning_rate": 0.0002993905765771329,
      "loss": 4.1067,
      "step": 15720
    },
    {
      "epoch": 0.03277083333333333,
      "grad_norm": 0.8452229499816895,
      "learning_rate": 0.00029938968848418216,
      "loss": 4.2494,
      "step": 15730
    },
    {
      "epoch": 0.03279166666666666,
      "grad_norm": 0.8527575731277466,
      "learning_rate": 0.00029938879974592713,
      "loss": 4.0757,
      "step": 15740
    },
    {
      "epoch": 0.0328125,
      "grad_norm": 0.8027780055999756,
      "learning_rate": 0.0002993879103623716,
      "loss": 3.9564,
      "step": 15750
    },
    {
      "epoch": 0.03283333333333333,
      "grad_norm": 0.8674333691596985,
      "learning_rate": 0.00029938702033351945,
      "loss": 4.0269,
      "step": 15760
    },
    {
      "epoch": 0.03285416666666666,
      "grad_norm": 0.9531248211860657,
      "learning_rate": 0.0002993861296593745,
      "loss": 4.0679,
      "step": 15770
    },
    {
      "epoch": 0.032875,
      "grad_norm": 0.7846377491950989,
      "learning_rate": 0.0002993852383399406,
      "loss": 4.1212,
      "step": 15780
    },
    {
      "epoch": 0.03289583333333333,
      "grad_norm": 0.893591582775116,
      "learning_rate": 0.00029938434637522156,
      "loss": 4.0796,
      "step": 15790
    },
    {
      "epoch": 0.032916666666666664,
      "grad_norm": 0.8073575496673584,
      "learning_rate": 0.0002993834537652213,
      "loss": 3.9846,
      "step": 15800
    },
    {
      "epoch": 0.0329375,
      "grad_norm": 0.8872947692871094,
      "learning_rate": 0.0002993825605099437,
      "loss": 4.0895,
      "step": 15810
    },
    {
      "epoch": 0.03295833333333333,
      "grad_norm": 0.8714396953582764,
      "learning_rate": 0.0002993816666093925,
      "loss": 4.1946,
      "step": 15820
    },
    {
      "epoch": 0.032979166666666664,
      "grad_norm": 0.8361475467681885,
      "learning_rate": 0.0002993807720635717,
      "loss": 4.0983,
      "step": 15830
    },
    {
      "epoch": 0.033,
      "grad_norm": 0.8470453023910522,
      "learning_rate": 0.000299379876872485,
      "loss": 4.0223,
      "step": 15840
    },
    {
      "epoch": 0.03302083333333333,
      "grad_norm": 0.8411586880683899,
      "learning_rate": 0.00029937898103613643,
      "loss": 4.0823,
      "step": 15850
    },
    {
      "epoch": 0.033041666666666664,
      "grad_norm": 1.0533279180526733,
      "learning_rate": 0.0002993780845545298,
      "loss": 3.9746,
      "step": 15860
    },
    {
      "epoch": 0.0330625,
      "grad_norm": 0.8105953931808472,
      "learning_rate": 0.00029937718742766896,
      "loss": 3.9854,
      "step": 15870
    },
    {
      "epoch": 0.03308333333333333,
      "grad_norm": 0.8612307906150818,
      "learning_rate": 0.00029937628965555775,
      "loss": 4.2088,
      "step": 15880
    },
    {
      "epoch": 0.033104166666666664,
      "grad_norm": 0.8461914658546448,
      "learning_rate": 0.0002993753912382001,
      "loss": 4.0537,
      "step": 15890
    },
    {
      "epoch": 0.033125,
      "grad_norm": 0.8008294701576233,
      "learning_rate": 0.00029937449217559996,
      "loss": 4.0422,
      "step": 15900
    },
    {
      "epoch": 0.03314583333333333,
      "grad_norm": 0.7430229783058167,
      "learning_rate": 0.00029937359246776107,
      "loss": 4.0021,
      "step": 15910
    },
    {
      "epoch": 0.033166666666666664,
      "grad_norm": 0.775693953037262,
      "learning_rate": 0.0002993726921146874,
      "loss": 4.1492,
      "step": 15920
    },
    {
      "epoch": 0.0331875,
      "grad_norm": 0.8002509474754333,
      "learning_rate": 0.00029937179111638284,
      "loss": 4.126,
      "step": 15930
    },
    {
      "epoch": 0.03320833333333333,
      "grad_norm": 0.7978214025497437,
      "learning_rate": 0.0002993708894728513,
      "loss": 4.007,
      "step": 15940
    },
    {
      "epoch": 0.033229166666666664,
      "grad_norm": 0.9126216769218445,
      "learning_rate": 0.0002993699871840966,
      "loss": 4.1246,
      "step": 15950
    },
    {
      "epoch": 0.03325,
      "grad_norm": 0.9049301147460938,
      "learning_rate": 0.00029936908425012273,
      "loss": 4.0706,
      "step": 15960
    },
    {
      "epoch": 0.03327083333333333,
      "grad_norm": 0.8548170924186707,
      "learning_rate": 0.00029936818067093345,
      "loss": 4.0023,
      "step": 15970
    },
    {
      "epoch": 0.033291666666666664,
      "grad_norm": 0.8215303421020508,
      "learning_rate": 0.0002993672764465328,
      "loss": 4.0278,
      "step": 15980
    },
    {
      "epoch": 0.0333125,
      "grad_norm": 0.8506315350532532,
      "learning_rate": 0.00029936637157692463,
      "loss": 4.1399,
      "step": 15990
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 0.9001700282096863,
      "learning_rate": 0.0002993654660621129,
      "loss": 3.9919,
      "step": 16000
    },
    {
      "epoch": 0.03333333333333333,
      "eval_loss": 4.3315629959106445,
      "eval_runtime": 8.8322,
      "eval_samples_per_second": 1.132,
      "eval_steps_per_second": 0.34,
      "step": 16000
    },
    {
      "epoch": 0.033354166666666664,
      "grad_norm": 0.9198235869407654,
      "learning_rate": 0.00029936455990210145,
      "loss": 3.9796,
      "step": 16010
    },
    {
      "epoch": 0.033375,
      "grad_norm": 0.9833637475967407,
      "learning_rate": 0.00029936365309689425,
      "loss": 3.9212,
      "step": 16020
    },
    {
      "epoch": 0.03339583333333333,
      "grad_norm": 0.8164150714874268,
      "learning_rate": 0.00029936274564649513,
      "loss": 3.9538,
      "step": 16030
    },
    {
      "epoch": 0.033416666666666664,
      "grad_norm": 0.9178228974342346,
      "learning_rate": 0.0002993618375509081,
      "loss": 3.8791,
      "step": 16040
    },
    {
      "epoch": 0.0334375,
      "grad_norm": 0.7732407450675964,
      "learning_rate": 0.00029936092881013707,
      "loss": 4.0548,
      "step": 16050
    },
    {
      "epoch": 0.03345833333333333,
      "grad_norm": 0.7776960134506226,
      "learning_rate": 0.0002993600194241859,
      "loss": 4.071,
      "step": 16060
    },
    {
      "epoch": 0.033479166666666664,
      "grad_norm": 0.8848630785942078,
      "learning_rate": 0.00029935910939305865,
      "loss": 3.9908,
      "step": 16070
    },
    {
      "epoch": 0.0335,
      "grad_norm": 0.7808995246887207,
      "learning_rate": 0.0002993581987167591,
      "loss": 3.7747,
      "step": 16080
    },
    {
      "epoch": 0.03352083333333333,
      "grad_norm": 0.8991162776947021,
      "learning_rate": 0.0002993572873952913,
      "loss": 4.072,
      "step": 16090
    },
    {
      "epoch": 0.033541666666666664,
      "grad_norm": 0.8174862861633301,
      "learning_rate": 0.0002993563754286591,
      "loss": 4.1168,
      "step": 16100
    },
    {
      "epoch": 0.0335625,
      "grad_norm": 0.916215717792511,
      "learning_rate": 0.0002993554628168665,
      "loss": 3.989,
      "step": 16110
    },
    {
      "epoch": 0.03358333333333333,
      "grad_norm": 0.8327673673629761,
      "learning_rate": 0.00029935454955991737,
      "loss": 3.8921,
      "step": 16120
    },
    {
      "epoch": 0.033604166666666664,
      "grad_norm": 0.8554166555404663,
      "learning_rate": 0.0002993536356578158,
      "loss": 4.0543,
      "step": 16130
    },
    {
      "epoch": 0.033625,
      "grad_norm": 1.07235848903656,
      "learning_rate": 0.00029935272111056554,
      "loss": 3.9233,
      "step": 16140
    },
    {
      "epoch": 0.03364583333333333,
      "grad_norm": 0.828044593334198,
      "learning_rate": 0.00029935180591817074,
      "loss": 4.189,
      "step": 16150
    },
    {
      "epoch": 0.033666666666666664,
      "grad_norm": 1.0246752500534058,
      "learning_rate": 0.00029935089008063516,
      "loss": 3.7772,
      "step": 16160
    },
    {
      "epoch": 0.0336875,
      "grad_norm": 1.3070342540740967,
      "learning_rate": 0.0002993499735979629,
      "loss": 4.0821,
      "step": 16170
    },
    {
      "epoch": 0.03370833333333333,
      "grad_norm": 0.8444189429283142,
      "learning_rate": 0.00029934905647015784,
      "loss": 3.9954,
      "step": 16180
    },
    {
      "epoch": 0.033729166666666664,
      "grad_norm": 0.8488497734069824,
      "learning_rate": 0.000299348138697224,
      "loss": 3.9739,
      "step": 16190
    },
    {
      "epoch": 0.03375,
      "grad_norm": 0.8595477342605591,
      "learning_rate": 0.00029934722027916534,
      "loss": 3.7662,
      "step": 16200
    },
    {
      "epoch": 0.03377083333333333,
      "grad_norm": 0.7659378051757812,
      "learning_rate": 0.0002993463012159858,
      "loss": 4.0534,
      "step": 16210
    },
    {
      "epoch": 0.033791666666666664,
      "grad_norm": 0.924866795539856,
      "learning_rate": 0.00029934538150768933,
      "loss": 4.0921,
      "step": 16220
    },
    {
      "epoch": 0.0338125,
      "grad_norm": 0.9497525691986084,
      "learning_rate": 0.0002993444611542799,
      "loss": 4.0723,
      "step": 16230
    },
    {
      "epoch": 0.03383333333333333,
      "grad_norm": 0.8364046216011047,
      "learning_rate": 0.0002993435401557616,
      "loss": 4.0529,
      "step": 16240
    },
    {
      "epoch": 0.033854166666666664,
      "grad_norm": 0.9190325736999512,
      "learning_rate": 0.00029934261851213823,
      "loss": 4.0683,
      "step": 16250
    },
    {
      "epoch": 0.033875,
      "grad_norm": 1.1025983095169067,
      "learning_rate": 0.0002993416962234139,
      "loss": 4.1098,
      "step": 16260
    },
    {
      "epoch": 0.03389583333333333,
      "grad_norm": 0.886742889881134,
      "learning_rate": 0.00029934077328959256,
      "loss": 4.0909,
      "step": 16270
    },
    {
      "epoch": 0.033916666666666664,
      "grad_norm": 0.9103668928146362,
      "learning_rate": 0.0002993398497106782,
      "loss": 4.1457,
      "step": 16280
    },
    {
      "epoch": 0.0339375,
      "grad_norm": 0.8327091932296753,
      "learning_rate": 0.0002993389254866748,
      "loss": 4.0765,
      "step": 16290
    },
    {
      "epoch": 0.03395833333333333,
      "grad_norm": 0.9820424914360046,
      "learning_rate": 0.0002993380006175863,
      "loss": 4.0279,
      "step": 16300
    },
    {
      "epoch": 0.033979166666666664,
      "grad_norm": 0.90031898021698,
      "learning_rate": 0.0002993370751034168,
      "loss": 4.2943,
      "step": 16310
    },
    {
      "epoch": 0.034,
      "grad_norm": 0.8743019700050354,
      "learning_rate": 0.00029933614894417024,
      "loss": 3.9105,
      "step": 16320
    },
    {
      "epoch": 0.034020833333333333,
      "grad_norm": 0.8995828032493591,
      "learning_rate": 0.00029933522213985064,
      "loss": 3.9209,
      "step": 16330
    },
    {
      "epoch": 0.034041666666666665,
      "grad_norm": 0.8196219801902771,
      "learning_rate": 0.000299334294690462,
      "loss": 4.0775,
      "step": 16340
    },
    {
      "epoch": 0.0340625,
      "grad_norm": 0.8875076174736023,
      "learning_rate": 0.00029933336659600826,
      "loss": 4.052,
      "step": 16350
    },
    {
      "epoch": 0.034083333333333334,
      "grad_norm": 0.8845887184143066,
      "learning_rate": 0.00029933243785649355,
      "loss": 4.0091,
      "step": 16360
    },
    {
      "epoch": 0.034104166666666665,
      "grad_norm": 0.9027897715568542,
      "learning_rate": 0.00029933150847192175,
      "loss": 4.087,
      "step": 16370
    },
    {
      "epoch": 0.034125,
      "grad_norm": 0.9315267205238342,
      "learning_rate": 0.000299330578442297,
      "loss": 3.9661,
      "step": 16380
    },
    {
      "epoch": 0.034145833333333334,
      "grad_norm": 0.7526669502258301,
      "learning_rate": 0.00029932964776762327,
      "loss": 4.1032,
      "step": 16390
    },
    {
      "epoch": 0.034166666666666665,
      "grad_norm": 0.7556225061416626,
      "learning_rate": 0.0002993287164479045,
      "loss": 3.9778,
      "step": 16400
    },
    {
      "epoch": 0.0341875,
      "grad_norm": 0.8363755345344543,
      "learning_rate": 0.0002993277844831449,
      "loss": 4.0933,
      "step": 16410
    },
    {
      "epoch": 0.034208333333333334,
      "grad_norm": 0.8591242432594299,
      "learning_rate": 0.00029932685187334827,
      "loss": 4.0136,
      "step": 16420
    },
    {
      "epoch": 0.034229166666666665,
      "grad_norm": 0.8140270709991455,
      "learning_rate": 0.0002993259186185188,
      "loss": 4.0605,
      "step": 16430
    },
    {
      "epoch": 0.03425,
      "grad_norm": 0.8638515472412109,
      "learning_rate": 0.0002993249847186604,
      "loss": 4.1236,
      "step": 16440
    },
    {
      "epoch": 0.034270833333333334,
      "grad_norm": 0.9182011485099792,
      "learning_rate": 0.00029932405017377725,
      "loss": 4.0033,
      "step": 16450
    },
    {
      "epoch": 0.034291666666666665,
      "grad_norm": 0.741743266582489,
      "learning_rate": 0.0002993231149838733,
      "loss": 3.9522,
      "step": 16460
    },
    {
      "epoch": 0.0343125,
      "grad_norm": 0.7912690043449402,
      "learning_rate": 0.0002993221791489526,
      "loss": 4.0326,
      "step": 16470
    },
    {
      "epoch": 0.034333333333333334,
      "grad_norm": 0.8383122682571411,
      "learning_rate": 0.0002993212426690191,
      "loss": 3.8846,
      "step": 16480
    },
    {
      "epoch": 0.034354166666666665,
      "grad_norm": 0.8124603033065796,
      "learning_rate": 0.0002993203055440771,
      "loss": 4.1269,
      "step": 16490
    },
    {
      "epoch": 0.034375,
      "grad_norm": 0.8415465354919434,
      "learning_rate": 0.00029931936777413036,
      "loss": 4.1155,
      "step": 16500
    },
    {
      "epoch": 0.034395833333333334,
      "grad_norm": 0.8443299531936646,
      "learning_rate": 0.0002993184293591831,
      "loss": 4.1101,
      "step": 16510
    },
    {
      "epoch": 0.034416666666666665,
      "grad_norm": 0.7773112654685974,
      "learning_rate": 0.0002993174902992393,
      "loss": 4.093,
      "step": 16520
    },
    {
      "epoch": 0.0344375,
      "grad_norm": 0.9969574213027954,
      "learning_rate": 0.0002993165505943031,
      "loss": 3.892,
      "step": 16530
    },
    {
      "epoch": 0.034458333333333334,
      "grad_norm": 0.885007917881012,
      "learning_rate": 0.0002993156102443785,
      "loss": 4.0801,
      "step": 16540
    },
    {
      "epoch": 0.034479166666666665,
      "grad_norm": 0.9501005411148071,
      "learning_rate": 0.0002993146692494695,
      "loss": 4.0472,
      "step": 16550
    },
    {
      "epoch": 0.0345,
      "grad_norm": 1.0263216495513916,
      "learning_rate": 0.0002993137276095803,
      "loss": 4.0818,
      "step": 16560
    },
    {
      "epoch": 0.034520833333333334,
      "grad_norm": 0.8649660348892212,
      "learning_rate": 0.00029931278532471485,
      "loss": 4.3089,
      "step": 16570
    },
    {
      "epoch": 0.034541666666666665,
      "grad_norm": 0.9227863550186157,
      "learning_rate": 0.0002993118423948773,
      "loss": 4.0961,
      "step": 16580
    },
    {
      "epoch": 0.0345625,
      "grad_norm": 0.9151936769485474,
      "learning_rate": 0.0002993108988200717,
      "loss": 4.2533,
      "step": 16590
    },
    {
      "epoch": 0.034583333333333334,
      "grad_norm": 0.8485237956047058,
      "learning_rate": 0.0002993099546003021,
      "loss": 3.999,
      "step": 16600
    },
    {
      "epoch": 0.034604166666666665,
      "grad_norm": 0.9053081274032593,
      "learning_rate": 0.0002993090097355726,
      "loss": 4.198,
      "step": 16610
    },
    {
      "epoch": 0.034625,
      "grad_norm": 0.9125163555145264,
      "learning_rate": 0.0002993080642258873,
      "loss": 3.8507,
      "step": 16620
    },
    {
      "epoch": 0.034645833333333334,
      "grad_norm": 0.8891355395317078,
      "learning_rate": 0.0002993071180712502,
      "loss": 4.0648,
      "step": 16630
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 0.8034995198249817,
      "learning_rate": 0.0002993061712716655,
      "loss": 3.8943,
      "step": 16640
    },
    {
      "epoch": 0.0346875,
      "grad_norm": 0.8404164910316467,
      "learning_rate": 0.00029930522382713725,
      "loss": 4.125,
      "step": 16650
    },
    {
      "epoch": 0.034708333333333334,
      "grad_norm": 0.8723776936531067,
      "learning_rate": 0.00029930427573766953,
      "loss": 4.1484,
      "step": 16660
    },
    {
      "epoch": 0.034729166666666665,
      "grad_norm": 0.9118918180465698,
      "learning_rate": 0.00029930332700326643,
      "loss": 3.9387,
      "step": 16670
    },
    {
      "epoch": 0.03475,
      "grad_norm": 0.8488430380821228,
      "learning_rate": 0.000299302377623932,
      "loss": 4.0746,
      "step": 16680
    },
    {
      "epoch": 0.034770833333333334,
      "grad_norm": 0.7929940223693848,
      "learning_rate": 0.0002993014275996705,
      "loss": 4.0733,
      "step": 16690
    },
    {
      "epoch": 0.034791666666666665,
      "grad_norm": 0.8379742503166199,
      "learning_rate": 0.00029930047693048584,
      "loss": 3.9553,
      "step": 16700
    },
    {
      "epoch": 0.0348125,
      "grad_norm": 0.781258761882782,
      "learning_rate": 0.0002992995256163823,
      "loss": 4.011,
      "step": 16710
    },
    {
      "epoch": 0.034833333333333334,
      "grad_norm": 0.8825591802597046,
      "learning_rate": 0.00029929857365736383,
      "loss": 4.0178,
      "step": 16720
    },
    {
      "epoch": 0.034854166666666665,
      "grad_norm": 0.7728365659713745,
      "learning_rate": 0.00029929762105343466,
      "loss": 4.0435,
      "step": 16730
    },
    {
      "epoch": 0.034875,
      "grad_norm": 0.9625519514083862,
      "learning_rate": 0.0002992966678045988,
      "loss": 4.0808,
      "step": 16740
    },
    {
      "epoch": 0.034895833333333334,
      "grad_norm": 1.0772294998168945,
      "learning_rate": 0.00029929571391086054,
      "loss": 4.0629,
      "step": 16750
    },
    {
      "epoch": 0.034916666666666665,
      "grad_norm": 0.9131920337677002,
      "learning_rate": 0.00029929475937222376,
      "loss": 4.1774,
      "step": 16760
    },
    {
      "epoch": 0.0349375,
      "grad_norm": 0.8400788903236389,
      "learning_rate": 0.0002992938041886928,
      "loss": 3.8498,
      "step": 16770
    },
    {
      "epoch": 0.034958333333333334,
      "grad_norm": 0.8904976844787598,
      "learning_rate": 0.0002992928483602717,
      "loss": 4.0129,
      "step": 16780
    },
    {
      "epoch": 0.034979166666666665,
      "grad_norm": 0.8708992600440979,
      "learning_rate": 0.0002992918918869646,
      "loss": 4.006,
      "step": 16790
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.7637060284614563,
      "learning_rate": 0.0002992909347687756,
      "loss": 4.0009,
      "step": 16800
    },
    {
      "epoch": 0.035020833333333334,
      "grad_norm": 0.9666843414306641,
      "learning_rate": 0.0002992899770057088,
      "loss": 3.9724,
      "step": 16810
    },
    {
      "epoch": 0.035041666666666665,
      "grad_norm": 0.8615291714668274,
      "learning_rate": 0.00029928901859776845,
      "loss": 4.169,
      "step": 16820
    },
    {
      "epoch": 0.0350625,
      "grad_norm": 0.875882089138031,
      "learning_rate": 0.00029928805954495863,
      "loss": 3.9065,
      "step": 16830
    },
    {
      "epoch": 0.035083333333333334,
      "grad_norm": 0.7698918581008911,
      "learning_rate": 0.00029928709984728346,
      "loss": 3.881,
      "step": 16840
    },
    {
      "epoch": 0.035104166666666665,
      "grad_norm": 0.8980772495269775,
      "learning_rate": 0.00029928613950474717,
      "loss": 4.0857,
      "step": 16850
    },
    {
      "epoch": 0.035125,
      "grad_norm": 0.8362685441970825,
      "learning_rate": 0.0002992851785173538,
      "loss": 4.0175,
      "step": 16860
    },
    {
      "epoch": 0.035145833333333334,
      "grad_norm": 0.8589380979537964,
      "learning_rate": 0.00029928421688510756,
      "loss": 4.1152,
      "step": 16870
    },
    {
      "epoch": 0.035166666666666666,
      "grad_norm": 0.8299537301063538,
      "learning_rate": 0.00029928325460801264,
      "loss": 4.0223,
      "step": 16880
    },
    {
      "epoch": 0.0351875,
      "grad_norm": 0.7935989499092102,
      "learning_rate": 0.0002992822916860731,
      "loss": 3.9743,
      "step": 16890
    },
    {
      "epoch": 0.035208333333333335,
      "grad_norm": 0.8624267578125,
      "learning_rate": 0.0002992813281192931,
      "loss": 4.1329,
      "step": 16900
    },
    {
      "epoch": 0.035229166666666666,
      "grad_norm": 0.8893835544586182,
      "learning_rate": 0.0002992803639076769,
      "loss": 4.0249,
      "step": 16910
    },
    {
      "epoch": 0.03525,
      "grad_norm": 0.8192248940467834,
      "learning_rate": 0.00029927939905122864,
      "loss": 4.0329,
      "step": 16920
    },
    {
      "epoch": 0.035270833333333335,
      "grad_norm": 0.9476098418235779,
      "learning_rate": 0.00029927843354995244,
      "loss": 4.2627,
      "step": 16930
    },
    {
      "epoch": 0.035291666666666666,
      "grad_norm": 0.7768537402153015,
      "learning_rate": 0.0002992774674038525,
      "loss": 4.0038,
      "step": 16940
    },
    {
      "epoch": 0.0353125,
      "grad_norm": 0.829410970211029,
      "learning_rate": 0.000299276500612933,
      "loss": 4.1452,
      "step": 16950
    },
    {
      "epoch": 0.035333333333333335,
      "grad_norm": 0.8985475897789001,
      "learning_rate": 0.00029927553317719814,
      "loss": 3.9532,
      "step": 16960
    },
    {
      "epoch": 0.035354166666666666,
      "grad_norm": 0.9217942357063293,
      "learning_rate": 0.000299274565096652,
      "loss": 4.1556,
      "step": 16970
    },
    {
      "epoch": 0.035375,
      "grad_norm": 0.8565150499343872,
      "learning_rate": 0.0002992735963712988,
      "loss": 4.236,
      "step": 16980
    },
    {
      "epoch": 0.035395833333333335,
      "grad_norm": 0.8029810786247253,
      "learning_rate": 0.00029927262700114285,
      "loss": 4.2272,
      "step": 16990
    },
    {
      "epoch": 0.035416666666666666,
      "grad_norm": 0.8682880401611328,
      "learning_rate": 0.0002992716569861882,
      "loss": 4.1456,
      "step": 17000
    },
    {
      "epoch": 0.035416666666666666,
      "eval_loss": 4.325911045074463,
      "eval_runtime": 10.5687,
      "eval_samples_per_second": 0.946,
      "eval_steps_per_second": 0.284,
      "step": 17000
    },
    {
      "epoch": 0.0354375,
      "grad_norm": 0.862125039100647,
      "learning_rate": 0.00029927068632643907,
      "loss": 3.9567,
      "step": 17010
    },
    {
      "epoch": 0.035458333333333335,
      "grad_norm": 0.9618183970451355,
      "learning_rate": 0.0002992697150218996,
      "loss": 4.1078,
      "step": 17020
    },
    {
      "epoch": 0.035479166666666666,
      "grad_norm": 0.9096365571022034,
      "learning_rate": 0.0002992687430725741,
      "loss": 4.0195,
      "step": 17030
    },
    {
      "epoch": 0.0355,
      "grad_norm": 1.1312155723571777,
      "learning_rate": 0.0002992677704784667,
      "loss": 4.3551,
      "step": 17040
    },
    {
      "epoch": 0.035520833333333335,
      "grad_norm": 0.9860330820083618,
      "learning_rate": 0.00029926679723958166,
      "loss": 3.8919,
      "step": 17050
    },
    {
      "epoch": 0.035541666666666666,
      "grad_norm": 0.9555772542953491,
      "learning_rate": 0.0002992658233559231,
      "loss": 4.2192,
      "step": 17060
    },
    {
      "epoch": 0.0355625,
      "grad_norm": 0.8637245893478394,
      "learning_rate": 0.0002992648488274953,
      "loss": 4.1481,
      "step": 17070
    },
    {
      "epoch": 0.035583333333333335,
      "grad_norm": 1.1291141510009766,
      "learning_rate": 0.00029926387365430246,
      "loss": 3.9657,
      "step": 17080
    },
    {
      "epoch": 0.035604166666666666,
      "grad_norm": 0.8090156316757202,
      "learning_rate": 0.0002992628978363487,
      "loss": 4.1061,
      "step": 17090
    },
    {
      "epoch": 0.035625,
      "grad_norm": 0.8619391918182373,
      "learning_rate": 0.0002992619213736383,
      "loss": 4.119,
      "step": 17100
    },
    {
      "epoch": 0.035645833333333335,
      "grad_norm": 0.8947673439979553,
      "learning_rate": 0.0002992609442661755,
      "loss": 4.128,
      "step": 17110
    },
    {
      "epoch": 0.035666666666666666,
      "grad_norm": 0.812449038028717,
      "learning_rate": 0.0002992599665139645,
      "loss": 4.0285,
      "step": 17120
    },
    {
      "epoch": 0.0356875,
      "grad_norm": 0.8342782855033875,
      "learning_rate": 0.0002992589881170096,
      "loss": 4.0616,
      "step": 17130
    },
    {
      "epoch": 0.035708333333333335,
      "grad_norm": 0.9633160829544067,
      "learning_rate": 0.0002992580090753149,
      "loss": 4.079,
      "step": 17140
    },
    {
      "epoch": 0.035729166666666666,
      "grad_norm": 0.696545422077179,
      "learning_rate": 0.00029925702938888465,
      "loss": 4.1578,
      "step": 17150
    },
    {
      "epoch": 0.03575,
      "grad_norm": 0.845102071762085,
      "learning_rate": 0.00029925604905772313,
      "loss": 4.0031,
      "step": 17160
    },
    {
      "epoch": 0.035770833333333335,
      "grad_norm": 0.8604733943939209,
      "learning_rate": 0.0002992550680818345,
      "loss": 3.9297,
      "step": 17170
    },
    {
      "epoch": 0.035791666666666666,
      "grad_norm": 0.8403083682060242,
      "learning_rate": 0.00029925408646122316,
      "loss": 3.9781,
      "step": 17180
    },
    {
      "epoch": 0.0358125,
      "grad_norm": 0.8128111362457275,
      "learning_rate": 0.0002992531041958932,
      "loss": 4.0022,
      "step": 17190
    },
    {
      "epoch": 0.035833333333333335,
      "grad_norm": 0.8753374814987183,
      "learning_rate": 0.0002992521212858489,
      "loss": 4.0949,
      "step": 17200
    },
    {
      "epoch": 0.035854166666666666,
      "grad_norm": 0.8012135028839111,
      "learning_rate": 0.00029925113773109454,
      "loss": 4.0268,
      "step": 17210
    },
    {
      "epoch": 0.035875,
      "grad_norm": 0.9229749441146851,
      "learning_rate": 0.00029925015353163433,
      "loss": 3.9247,
      "step": 17220
    },
    {
      "epoch": 0.035895833333333335,
      "grad_norm": 0.8255541324615479,
      "learning_rate": 0.0002992491686874725,
      "loss": 3.9456,
      "step": 17230
    },
    {
      "epoch": 0.035916666666666666,
      "grad_norm": 0.8966618180274963,
      "learning_rate": 0.0002992481831986134,
      "loss": 4.0809,
      "step": 17240
    },
    {
      "epoch": 0.0359375,
      "grad_norm": 0.7697514295578003,
      "learning_rate": 0.0002992471970650612,
      "loss": 4.0766,
      "step": 17250
    },
    {
      "epoch": 0.035958333333333335,
      "grad_norm": 0.9949625730514526,
      "learning_rate": 0.00029924621028682016,
      "loss": 3.9723,
      "step": 17260
    },
    {
      "epoch": 0.035979166666666666,
      "grad_norm": 0.8245081901550293,
      "learning_rate": 0.00029924522286389456,
      "loss": 4.172,
      "step": 17270
    },
    {
      "epoch": 0.036,
      "grad_norm": 0.9166048765182495,
      "learning_rate": 0.0002992442347962887,
      "loss": 4.0882,
      "step": 17280
    },
    {
      "epoch": 0.036020833333333335,
      "grad_norm": 0.8413297533988953,
      "learning_rate": 0.00029924324608400683,
      "loss": 4.1594,
      "step": 17290
    },
    {
      "epoch": 0.036041666666666666,
      "grad_norm": 0.8478891253471375,
      "learning_rate": 0.0002992422567270532,
      "loss": 4.2285,
      "step": 17300
    },
    {
      "epoch": 0.0360625,
      "grad_norm": 0.8254544138908386,
      "learning_rate": 0.0002992412667254321,
      "loss": 4.0286,
      "step": 17310
    },
    {
      "epoch": 0.036083333333333335,
      "grad_norm": 0.9407104849815369,
      "learning_rate": 0.0002992402760791478,
      "loss": 3.9764,
      "step": 17320
    },
    {
      "epoch": 0.036104166666666666,
      "grad_norm": 0.7729441523551941,
      "learning_rate": 0.0002992392847882046,
      "loss": 4.192,
      "step": 17330
    },
    {
      "epoch": 0.036125,
      "grad_norm": 0.7948728203773499,
      "learning_rate": 0.00029923829285260676,
      "loss": 4.0012,
      "step": 17340
    },
    {
      "epoch": 0.036145833333333335,
      "grad_norm": 0.8187624216079712,
      "learning_rate": 0.0002992373002723585,
      "loss": 4.0948,
      "step": 17350
    },
    {
      "epoch": 0.036166666666666666,
      "grad_norm": 0.8051158785820007,
      "learning_rate": 0.0002992363070474642,
      "loss": 4.0792,
      "step": 17360
    },
    {
      "epoch": 0.0361875,
      "grad_norm": 0.8741142749786377,
      "learning_rate": 0.00029923531317792816,
      "loss": 4.0455,
      "step": 17370
    },
    {
      "epoch": 0.036208333333333335,
      "grad_norm": 0.923941433429718,
      "learning_rate": 0.0002992343186637547,
      "loss": 4.1369,
      "step": 17380
    },
    {
      "epoch": 0.036229166666666666,
      "grad_norm": 0.7342715263366699,
      "learning_rate": 0.0002992333235049479,
      "loss": 4.0837,
      "step": 17390
    },
    {
      "epoch": 0.03625,
      "grad_norm": 0.9889044165611267,
      "learning_rate": 0.0002992323277015123,
      "loss": 3.9174,
      "step": 17400
    },
    {
      "epoch": 0.036270833333333335,
      "grad_norm": 0.8009507060050964,
      "learning_rate": 0.00029923133125345214,
      "loss": 4.1974,
      "step": 17410
    },
    {
      "epoch": 0.036291666666666667,
      "grad_norm": 0.9379335641860962,
      "learning_rate": 0.00029923033416077164,
      "loss": 4.003,
      "step": 17420
    },
    {
      "epoch": 0.0363125,
      "grad_norm": 0.7982138991355896,
      "learning_rate": 0.0002992293364234752,
      "loss": 4.0089,
      "step": 17430
    },
    {
      "epoch": 0.036333333333333336,
      "grad_norm": 0.8073444962501526,
      "learning_rate": 0.00029922833804156714,
      "loss": 4.0755,
      "step": 17440
    },
    {
      "epoch": 0.03635416666666667,
      "grad_norm": 0.9774671196937561,
      "learning_rate": 0.00029922733901505165,
      "loss": 4.0084,
      "step": 17450
    },
    {
      "epoch": 0.036375,
      "grad_norm": 0.9018422365188599,
      "learning_rate": 0.00029922633934393315,
      "loss": 4.1354,
      "step": 17460
    },
    {
      "epoch": 0.036395833333333336,
      "grad_norm": 0.9321247935295105,
      "learning_rate": 0.00029922533902821595,
      "loss": 4.1484,
      "step": 17470
    },
    {
      "epoch": 0.03641666666666667,
      "grad_norm": 0.8886778950691223,
      "learning_rate": 0.0002992243380679043,
      "loss": 3.9415,
      "step": 17480
    },
    {
      "epoch": 0.0364375,
      "grad_norm": 0.831596851348877,
      "learning_rate": 0.0002992233364630026,
      "loss": 4.2244,
      "step": 17490
    },
    {
      "epoch": 0.036458333333333336,
      "grad_norm": 0.8984707593917847,
      "learning_rate": 0.0002992223342135152,
      "loss": 4.1016,
      "step": 17500
    },
    {
      "epoch": 0.03647916666666667,
      "grad_norm": 0.9435588121414185,
      "learning_rate": 0.00029922133131944634,
      "loss": 4.0101,
      "step": 17510
    },
    {
      "epoch": 0.0365,
      "grad_norm": 1.0250800848007202,
      "learning_rate": 0.0002992203277808004,
      "loss": 3.8668,
      "step": 17520
    },
    {
      "epoch": 0.036520833333333336,
      "grad_norm": 0.8414269685745239,
      "learning_rate": 0.0002992193235975817,
      "loss": 3.9304,
      "step": 17530
    },
    {
      "epoch": 0.03654166666666667,
      "grad_norm": 0.7908039093017578,
      "learning_rate": 0.0002992183187697946,
      "loss": 3.9574,
      "step": 17540
    },
    {
      "epoch": 0.0365625,
      "grad_norm": 0.9662392139434814,
      "learning_rate": 0.00029921731329744344,
      "loss": 4.1924,
      "step": 17550
    },
    {
      "epoch": 0.036583333333333336,
      "grad_norm": 0.7853904962539673,
      "learning_rate": 0.0002992163071805325,
      "loss": 4.092,
      "step": 17560
    },
    {
      "epoch": 0.03660416666666667,
      "grad_norm": 0.8106274604797363,
      "learning_rate": 0.0002992153004190662,
      "loss": 4.0854,
      "step": 17570
    },
    {
      "epoch": 0.036625,
      "grad_norm": 0.9367853403091431,
      "learning_rate": 0.0002992142930130489,
      "loss": 4.1014,
      "step": 17580
    },
    {
      "epoch": 0.036645833333333336,
      "grad_norm": 0.9035178422927856,
      "learning_rate": 0.000299213284962485,
      "loss": 3.9992,
      "step": 17590
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 0.8327311277389526,
      "learning_rate": 0.0002992122762673786,
      "loss": 4.0078,
      "step": 17600
    },
    {
      "epoch": 0.0366875,
      "grad_norm": 0.8424521684646606,
      "learning_rate": 0.00029921126692773433,
      "loss": 3.8943,
      "step": 17610
    },
    {
      "epoch": 0.036708333333333336,
      "grad_norm": 0.8831633925437927,
      "learning_rate": 0.0002992102569435564,
      "loss": 4.1153,
      "step": 17620
    },
    {
      "epoch": 0.03672916666666667,
      "grad_norm": 0.7973224520683289,
      "learning_rate": 0.00029920924631484926,
      "loss": 4.0758,
      "step": 17630
    },
    {
      "epoch": 0.03675,
      "grad_norm": 0.9161110520362854,
      "learning_rate": 0.00029920823504161716,
      "loss": 4.1701,
      "step": 17640
    },
    {
      "epoch": 0.036770833333333336,
      "grad_norm": 0.8322612643241882,
      "learning_rate": 0.0002992072231238646,
      "loss": 4.1645,
      "step": 17650
    },
    {
      "epoch": 0.03679166666666667,
      "grad_norm": 0.8155104517936707,
      "learning_rate": 0.00029920621056159593,
      "loss": 3.8653,
      "step": 17660
    },
    {
      "epoch": 0.0368125,
      "grad_norm": 0.7626095414161682,
      "learning_rate": 0.00029920519735481547,
      "loss": 4.1585,
      "step": 17670
    },
    {
      "epoch": 0.036833333333333336,
      "grad_norm": 0.862581729888916,
      "learning_rate": 0.0002992041835035276,
      "loss": 4.0399,
      "step": 17680
    },
    {
      "epoch": 0.03685416666666667,
      "grad_norm": 0.9299867749214172,
      "learning_rate": 0.0002992031690077367,
      "loss": 4.0202,
      "step": 17690
    },
    {
      "epoch": 0.036875,
      "grad_norm": 0.8643673062324524,
      "learning_rate": 0.0002992021538674472,
      "loss": 4.1596,
      "step": 17700
    },
    {
      "epoch": 0.036895833333333336,
      "grad_norm": 1.0663188695907593,
      "learning_rate": 0.00029920113808266344,
      "loss": 3.9553,
      "step": 17710
    },
    {
      "epoch": 0.03691666666666667,
      "grad_norm": 0.7960526347160339,
      "learning_rate": 0.00029920012165338984,
      "loss": 4.0284,
      "step": 17720
    },
    {
      "epoch": 0.0369375,
      "grad_norm": 0.9164923429489136,
      "learning_rate": 0.00029919910457963076,
      "loss": 4.1748,
      "step": 17730
    },
    {
      "epoch": 0.036958333333333336,
      "grad_norm": 0.8116590976715088,
      "learning_rate": 0.0002991980868613906,
      "loss": 4.0241,
      "step": 17740
    },
    {
      "epoch": 0.03697916666666667,
      "grad_norm": 0.8403971195220947,
      "learning_rate": 0.00029919706849867376,
      "loss": 4.0968,
      "step": 17750
    },
    {
      "epoch": 0.037,
      "grad_norm": 0.8196402788162231,
      "learning_rate": 0.0002991960494914846,
      "loss": 4.1031,
      "step": 17760
    },
    {
      "epoch": 0.037020833333333336,
      "grad_norm": 0.8030466437339783,
      "learning_rate": 0.00029919502983982764,
      "loss": 4.0138,
      "step": 17770
    },
    {
      "epoch": 0.03704166666666667,
      "grad_norm": 0.7459415793418884,
      "learning_rate": 0.00029919400954370716,
      "loss": 4.1023,
      "step": 17780
    },
    {
      "epoch": 0.0370625,
      "grad_norm": 0.8701621294021606,
      "learning_rate": 0.00029919298860312763,
      "loss": 4.032,
      "step": 17790
    },
    {
      "epoch": 0.037083333333333336,
      "grad_norm": 0.8480597138404846,
      "learning_rate": 0.00029919196701809345,
      "loss": 3.9828,
      "step": 17800
    },
    {
      "epoch": 0.03710416666666667,
      "grad_norm": 1.05820631980896,
      "learning_rate": 0.000299190944788609,
      "loss": 3.9067,
      "step": 17810
    },
    {
      "epoch": 0.037125,
      "grad_norm": 1.13596510887146,
      "learning_rate": 0.00029918992191467876,
      "loss": 4.155,
      "step": 17820
    },
    {
      "epoch": 0.037145833333333336,
      "grad_norm": 0.7410834431648254,
      "learning_rate": 0.0002991888983963071,
      "loss": 4.1258,
      "step": 17830
    },
    {
      "epoch": 0.03716666666666667,
      "grad_norm": 0.9526194334030151,
      "learning_rate": 0.00029918787423349844,
      "loss": 4.1948,
      "step": 17840
    },
    {
      "epoch": 0.0371875,
      "grad_norm": 0.7553843855857849,
      "learning_rate": 0.00029918684942625726,
      "loss": 3.9481,
      "step": 17850
    },
    {
      "epoch": 0.037208333333333336,
      "grad_norm": 1.279346227645874,
      "learning_rate": 0.0002991858239745879,
      "loss": 3.977,
      "step": 17860
    },
    {
      "epoch": 0.03722916666666667,
      "grad_norm": 0.9270862340927124,
      "learning_rate": 0.00029918479787849475,
      "loss": 4.0444,
      "step": 17870
    },
    {
      "epoch": 0.03725,
      "grad_norm": 1.1202037334442139,
      "learning_rate": 0.0002991837711379825,
      "loss": 3.9636,
      "step": 17880
    },
    {
      "epoch": 0.037270833333333336,
      "grad_norm": 1.1282846927642822,
      "learning_rate": 0.0002991827437530553,
      "loss": 3.9992,
      "step": 17890
    },
    {
      "epoch": 0.03729166666666667,
      "grad_norm": 0.9895198941230774,
      "learning_rate": 0.0002991817157237177,
      "loss": 3.9932,
      "step": 17900
    },
    {
      "epoch": 0.0373125,
      "grad_norm": 0.8551687002182007,
      "learning_rate": 0.0002991806870499741,
      "loss": 3.8968,
      "step": 17910
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 0.8136470913887024,
      "learning_rate": 0.0002991796577318291,
      "loss": 4.143,
      "step": 17920
    },
    {
      "epoch": 0.03735416666666667,
      "grad_norm": 0.8662888407707214,
      "learning_rate": 0.00029917862776928695,
      "loss": 3.9867,
      "step": 17930
    },
    {
      "epoch": 0.037375,
      "grad_norm": 0.7878057360649109,
      "learning_rate": 0.0002991775971623522,
      "loss": 4.0166,
      "step": 17940
    },
    {
      "epoch": 0.037395833333333336,
      "grad_norm": 0.8428813219070435,
      "learning_rate": 0.00029917656591102926,
      "loss": 3.9418,
      "step": 17950
    },
    {
      "epoch": 0.03741666666666667,
      "grad_norm": 0.9037641882896423,
      "learning_rate": 0.00029917553401532257,
      "loss": 3.9226,
      "step": 17960
    },
    {
      "epoch": 0.0374375,
      "grad_norm": 0.8467386960983276,
      "learning_rate": 0.0002991745014752367,
      "loss": 4.1006,
      "step": 17970
    },
    {
      "epoch": 0.03745833333333334,
      "grad_norm": 0.8506113290786743,
      "learning_rate": 0.00029917346829077597,
      "loss": 3.8726,
      "step": 17980
    },
    {
      "epoch": 0.03747916666666667,
      "grad_norm": 0.9531418681144714,
      "learning_rate": 0.000299172434461945,
      "loss": 4.0024,
      "step": 17990
    },
    {
      "epoch": 0.0375,
      "grad_norm": 0.7978168725967407,
      "learning_rate": 0.00029917139998874805,
      "loss": 4.0668,
      "step": 18000
    },
    {
      "epoch": 0.0375,
      "eval_loss": 4.329977989196777,
      "eval_runtime": 11.2845,
      "eval_samples_per_second": 0.886,
      "eval_steps_per_second": 0.266,
      "step": 18000
    },
    {
      "epoch": 0.03752083333333334,
      "grad_norm": 0.89188551902771,
      "learning_rate": 0.0002991703648711897,
      "loss": 4.0169,
      "step": 18010
    },
    {
      "epoch": 0.03754166666666667,
      "grad_norm": 0.8431882858276367,
      "learning_rate": 0.0002991693291092745,
      "loss": 3.9835,
      "step": 18020
    },
    {
      "epoch": 0.0375625,
      "grad_norm": 0.762832760810852,
      "learning_rate": 0.00029916829270300674,
      "loss": 4.0664,
      "step": 18030
    },
    {
      "epoch": 0.03758333333333334,
      "grad_norm": 0.9033599495887756,
      "learning_rate": 0.0002991672556523911,
      "loss": 4.2116,
      "step": 18040
    },
    {
      "epoch": 0.03760416666666667,
      "grad_norm": 0.9286917448043823,
      "learning_rate": 0.0002991662179574319,
      "loss": 4.0503,
      "step": 18050
    },
    {
      "epoch": 0.037625,
      "grad_norm": 0.7415966987609863,
      "learning_rate": 0.00029916517961813373,
      "loss": 4.1049,
      "step": 18060
    },
    {
      "epoch": 0.03764583333333334,
      "grad_norm": 0.8961454033851624,
      "learning_rate": 0.000299164140634501,
      "loss": 4.0114,
      "step": 18070
    },
    {
      "epoch": 0.03766666666666667,
      "grad_norm": 0.8220148682594299,
      "learning_rate": 0.0002991631010065382,
      "loss": 4.0936,
      "step": 18080
    },
    {
      "epoch": 0.0376875,
      "grad_norm": 0.9560121893882751,
      "learning_rate": 0.0002991620607342499,
      "loss": 3.9289,
      "step": 18090
    },
    {
      "epoch": 0.03770833333333334,
      "grad_norm": 0.8255181908607483,
      "learning_rate": 0.0002991610198176405,
      "loss": 4.0217,
      "step": 18100
    },
    {
      "epoch": 0.03772916666666667,
      "grad_norm": 0.7874506115913391,
      "learning_rate": 0.0002991599782567146,
      "loss": 4.0854,
      "step": 18110
    },
    {
      "epoch": 0.03775,
      "grad_norm": 0.7824701070785522,
      "learning_rate": 0.0002991589360514765,
      "loss": 4.1276,
      "step": 18120
    },
    {
      "epoch": 0.03777083333333333,
      "grad_norm": 0.8541786670684814,
      "learning_rate": 0.00029915789320193097,
      "loss": 4.2043,
      "step": 18130
    },
    {
      "epoch": 0.03779166666666667,
      "grad_norm": 0.794258713722229,
      "learning_rate": 0.00029915684970808234,
      "loss": 4.0339,
      "step": 18140
    },
    {
      "epoch": 0.0378125,
      "grad_norm": 0.9189763069152832,
      "learning_rate": 0.00029915580556993514,
      "loss": 3.9248,
      "step": 18150
    },
    {
      "epoch": 0.03783333333333333,
      "grad_norm": 0.7932783961296082,
      "learning_rate": 0.0002991547607874939,
      "loss": 4.2718,
      "step": 18160
    },
    {
      "epoch": 0.03785416666666667,
      "grad_norm": 0.8350664973258972,
      "learning_rate": 0.00029915371536076317,
      "loss": 4.044,
      "step": 18170
    },
    {
      "epoch": 0.037875,
      "grad_norm": 0.8246133327484131,
      "learning_rate": 0.0002991526692897474,
      "loss": 4.0622,
      "step": 18180
    },
    {
      "epoch": 0.03789583333333333,
      "grad_norm": 0.8944045305252075,
      "learning_rate": 0.00029915162257445114,
      "loss": 3.9538,
      "step": 18190
    },
    {
      "epoch": 0.03791666666666667,
      "grad_norm": 0.9330810904502869,
      "learning_rate": 0.0002991505752148789,
      "loss": 3.8877,
      "step": 18200
    },
    {
      "epoch": 0.0379375,
      "grad_norm": 0.8224648237228394,
      "learning_rate": 0.0002991495272110352,
      "loss": 3.8945,
      "step": 18210
    },
    {
      "epoch": 0.03795833333333333,
      "grad_norm": 0.8624475002288818,
      "learning_rate": 0.00029914847856292464,
      "loss": 4.0377,
      "step": 18220
    },
    {
      "epoch": 0.03797916666666667,
      "grad_norm": 0.8436950445175171,
      "learning_rate": 0.00029914742927055166,
      "loss": 4.0767,
      "step": 18230
    },
    {
      "epoch": 0.038,
      "grad_norm": 0.7826711535453796,
      "learning_rate": 0.0002991463793339208,
      "loss": 4.112,
      "step": 18240
    },
    {
      "epoch": 0.03802083333333333,
      "grad_norm": 0.7982813119888306,
      "learning_rate": 0.00029914532875303663,
      "loss": 4.0583,
      "step": 18250
    },
    {
      "epoch": 0.03804166666666667,
      "grad_norm": 0.7626778483390808,
      "learning_rate": 0.0002991442775279037,
      "loss": 4.0081,
      "step": 18260
    },
    {
      "epoch": 0.0380625,
      "grad_norm": 0.7969287633895874,
      "learning_rate": 0.0002991432256585265,
      "loss": 3.9837,
      "step": 18270
    },
    {
      "epoch": 0.03808333333333333,
      "grad_norm": 0.8490894436836243,
      "learning_rate": 0.0002991421731449096,
      "loss": 4.113,
      "step": 18280
    },
    {
      "epoch": 0.03810416666666667,
      "grad_norm": 0.8685401082038879,
      "learning_rate": 0.00029914111998705756,
      "loss": 4.1729,
      "step": 18290
    },
    {
      "epoch": 0.038125,
      "grad_norm": 0.8926373720169067,
      "learning_rate": 0.0002991400661849749,
      "loss": 4.1568,
      "step": 18300
    },
    {
      "epoch": 0.03814583333333333,
      "grad_norm": 0.8474584817886353,
      "learning_rate": 0.0002991390117386662,
      "loss": 4.0374,
      "step": 18310
    },
    {
      "epoch": 0.03816666666666667,
      "grad_norm": 0.7464219927787781,
      "learning_rate": 0.000299137956648136,
      "loss": 4.0927,
      "step": 18320
    },
    {
      "epoch": 0.0381875,
      "grad_norm": 1.1224325895309448,
      "learning_rate": 0.00029913690091338884,
      "loss": 3.888,
      "step": 18330
    },
    {
      "epoch": 0.03820833333333333,
      "grad_norm": 0.8654627203941345,
      "learning_rate": 0.0002991358445344294,
      "loss": 3.978,
      "step": 18340
    },
    {
      "epoch": 0.03822916666666667,
      "grad_norm": 0.805236279964447,
      "learning_rate": 0.000299134787511262,
      "loss": 4.2926,
      "step": 18350
    },
    {
      "epoch": 0.03825,
      "grad_norm": 0.8852526545524597,
      "learning_rate": 0.0002991337298438914,
      "loss": 4.0587,
      "step": 18360
    },
    {
      "epoch": 0.03827083333333333,
      "grad_norm": 0.8394462466239929,
      "learning_rate": 0.0002991326715323222,
      "loss": 4.1973,
      "step": 18370
    },
    {
      "epoch": 0.03829166666666667,
      "grad_norm": 0.9310835003852844,
      "learning_rate": 0.00029913161257655877,
      "loss": 4.086,
      "step": 18380
    },
    {
      "epoch": 0.0383125,
      "grad_norm": 0.8572797775268555,
      "learning_rate": 0.00029913055297660585,
      "loss": 4.0869,
      "step": 18390
    },
    {
      "epoch": 0.03833333333333333,
      "grad_norm": 0.8255114555358887,
      "learning_rate": 0.000299129492732468,
      "loss": 3.9834,
      "step": 18400
    },
    {
      "epoch": 0.03835416666666667,
      "grad_norm": 0.7923405766487122,
      "learning_rate": 0.00029912843184414975,
      "loss": 4.1786,
      "step": 18410
    },
    {
      "epoch": 0.038375,
      "grad_norm": 0.9362053871154785,
      "learning_rate": 0.00029912737031165563,
      "loss": 4.081,
      "step": 18420
    },
    {
      "epoch": 0.03839583333333333,
      "grad_norm": 0.7293967008590698,
      "learning_rate": 0.00029912630813499043,
      "loss": 4.0674,
      "step": 18430
    },
    {
      "epoch": 0.03841666666666667,
      "grad_norm": 0.9222938418388367,
      "learning_rate": 0.00029912524531415855,
      "loss": 4.2324,
      "step": 18440
    },
    {
      "epoch": 0.0384375,
      "grad_norm": 1.0506500005722046,
      "learning_rate": 0.00029912418184916464,
      "loss": 4.1515,
      "step": 18450
    },
    {
      "epoch": 0.03845833333333333,
      "grad_norm": 0.9396284222602844,
      "learning_rate": 0.00029912311774001326,
      "loss": 4.1479,
      "step": 18460
    },
    {
      "epoch": 0.03847916666666667,
      "grad_norm": 0.898797333240509,
      "learning_rate": 0.00029912205298670907,
      "loss": 4.115,
      "step": 18470
    },
    {
      "epoch": 0.0385,
      "grad_norm": 0.8962081074714661,
      "learning_rate": 0.0002991209875892566,
      "loss": 4.1352,
      "step": 18480
    },
    {
      "epoch": 0.03852083333333333,
      "grad_norm": 0.9243101477622986,
      "learning_rate": 0.0002991199215476606,
      "loss": 3.8898,
      "step": 18490
    },
    {
      "epoch": 0.03854166666666667,
      "grad_norm": 0.8865892291069031,
      "learning_rate": 0.00029911885486192546,
      "loss": 4.1713,
      "step": 18500
    },
    {
      "epoch": 0.0385625,
      "grad_norm": 0.7877585887908936,
      "learning_rate": 0.0002991177875320559,
      "loss": 4.0824,
      "step": 18510
    },
    {
      "epoch": 0.03858333333333333,
      "grad_norm": 0.9386928677558899,
      "learning_rate": 0.00029911671955805657,
      "loss": 4.0002,
      "step": 18520
    },
    {
      "epoch": 0.03860416666666667,
      "grad_norm": 0.7505200505256653,
      "learning_rate": 0.000299115650939932,
      "loss": 4.0505,
      "step": 18530
    },
    {
      "epoch": 0.038625,
      "grad_norm": 0.9526666402816772,
      "learning_rate": 0.0002991145816776869,
      "loss": 3.9049,
      "step": 18540
    },
    {
      "epoch": 0.03864583333333333,
      "grad_norm": 1.0136090517044067,
      "learning_rate": 0.0002991135117713257,
      "loss": 4.0518,
      "step": 18550
    },
    {
      "epoch": 0.03866666666666667,
      "grad_norm": 0.9006969332695007,
      "learning_rate": 0.0002991124412208533,
      "loss": 3.955,
      "step": 18560
    },
    {
      "epoch": 0.0386875,
      "grad_norm": 0.9038065671920776,
      "learning_rate": 0.00029911137002627407,
      "loss": 4.1199,
      "step": 18570
    },
    {
      "epoch": 0.03870833333333333,
      "grad_norm": 0.8486124873161316,
      "learning_rate": 0.0002991102981875928,
      "loss": 4.0811,
      "step": 18580
    },
    {
      "epoch": 0.03872916666666667,
      "grad_norm": 1.0298998355865479,
      "learning_rate": 0.00029910922570481404,
      "loss": 3.9936,
      "step": 18590
    },
    {
      "epoch": 0.03875,
      "grad_norm": 1.0010906457901,
      "learning_rate": 0.00029910815257794244,
      "loss": 4.1464,
      "step": 18600
    },
    {
      "epoch": 0.03877083333333333,
      "grad_norm": 0.7848183512687683,
      "learning_rate": 0.00029910707880698265,
      "loss": 4.0499,
      "step": 18610
    },
    {
      "epoch": 0.03879166666666667,
      "grad_norm": 0.8498455286026001,
      "learning_rate": 0.00029910600439193933,
      "loss": 4.0583,
      "step": 18620
    },
    {
      "epoch": 0.0388125,
      "grad_norm": 0.9235027432441711,
      "learning_rate": 0.00029910492933281704,
      "loss": 3.9502,
      "step": 18630
    },
    {
      "epoch": 0.03883333333333333,
      "grad_norm": 0.7915307283401489,
      "learning_rate": 0.0002991038536296205,
      "loss": 3.9124,
      "step": 18640
    },
    {
      "epoch": 0.03885416666666667,
      "grad_norm": 0.9006110429763794,
      "learning_rate": 0.00029910277728235435,
      "loss": 4.0343,
      "step": 18650
    },
    {
      "epoch": 0.038875,
      "grad_norm": 0.8040832281112671,
      "learning_rate": 0.0002991017002910232,
      "loss": 4.0883,
      "step": 18660
    },
    {
      "epoch": 0.03889583333333333,
      "grad_norm": 0.8139463067054749,
      "learning_rate": 0.0002991006226556317,
      "loss": 3.9423,
      "step": 18670
    },
    {
      "epoch": 0.03891666666666667,
      "grad_norm": 0.9146645069122314,
      "learning_rate": 0.0002990995443761846,
      "loss": 4.0034,
      "step": 18680
    },
    {
      "epoch": 0.0389375,
      "grad_norm": 0.8637332320213318,
      "learning_rate": 0.00029909846545268646,
      "loss": 4.0658,
      "step": 18690
    },
    {
      "epoch": 0.03895833333333333,
      "grad_norm": 0.795529305934906,
      "learning_rate": 0.00029909738588514194,
      "loss": 4.1287,
      "step": 18700
    },
    {
      "epoch": 0.03897916666666667,
      "grad_norm": 0.7612804770469666,
      "learning_rate": 0.0002990963056735557,
      "loss": 4.0551,
      "step": 18710
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.8011635541915894,
      "learning_rate": 0.00029909522481793254,
      "loss": 3.9135,
      "step": 18720
    },
    {
      "epoch": 0.03902083333333333,
      "grad_norm": 0.8500843048095703,
      "learning_rate": 0.00029909414331827697,
      "loss": 4.2049,
      "step": 18730
    },
    {
      "epoch": 0.03904166666666667,
      "grad_norm": 0.86812424659729,
      "learning_rate": 0.00029909306117459366,
      "loss": 4.1068,
      "step": 18740
    },
    {
      "epoch": 0.0390625,
      "grad_norm": 0.9230269193649292,
      "learning_rate": 0.0002990919783868874,
      "loss": 4.0994,
      "step": 18750
    },
    {
      "epoch": 0.03908333333333333,
      "grad_norm": 0.8421009182929993,
      "learning_rate": 0.0002990908949551628,
      "loss": 4.0894,
      "step": 18760
    },
    {
      "epoch": 0.03910416666666667,
      "grad_norm": 0.8920373320579529,
      "learning_rate": 0.00029908981087942453,
      "loss": 4.0574,
      "step": 18770
    },
    {
      "epoch": 0.039125,
      "grad_norm": 0.7673577070236206,
      "learning_rate": 0.0002990887261596773,
      "loss": 4.0279,
      "step": 18780
    },
    {
      "epoch": 0.03914583333333333,
      "grad_norm": 0.7957242727279663,
      "learning_rate": 0.0002990876407959258,
      "loss": 3.988,
      "step": 18790
    },
    {
      "epoch": 0.03916666666666667,
      "grad_norm": 0.9724499583244324,
      "learning_rate": 0.0002990865547881747,
      "loss": 4.226,
      "step": 18800
    },
    {
      "epoch": 0.0391875,
      "grad_norm": 0.8133620023727417,
      "learning_rate": 0.00029908546813642864,
      "loss": 4.0273,
      "step": 18810
    },
    {
      "epoch": 0.03920833333333333,
      "grad_norm": 0.8466202020645142,
      "learning_rate": 0.0002990843808406925,
      "loss": 4.112,
      "step": 18820
    },
    {
      "epoch": 0.03922916666666667,
      "grad_norm": 0.7579261064529419,
      "learning_rate": 0.00029908329290097074,
      "loss": 4.045,
      "step": 18830
    },
    {
      "epoch": 0.03925,
      "grad_norm": 0.9687149524688721,
      "learning_rate": 0.0002990822043172682,
      "loss": 4.051,
      "step": 18840
    },
    {
      "epoch": 0.03927083333333333,
      "grad_norm": 0.7535285353660583,
      "learning_rate": 0.00029908111508958953,
      "loss": 4.1092,
      "step": 18850
    },
    {
      "epoch": 0.03929166666666667,
      "grad_norm": 0.796410083770752,
      "learning_rate": 0.00029908002521793946,
      "loss": 4.045,
      "step": 18860
    },
    {
      "epoch": 0.0393125,
      "grad_norm": 0.8584465384483337,
      "learning_rate": 0.0002990789347023227,
      "loss": 4.0383,
      "step": 18870
    },
    {
      "epoch": 0.03933333333333333,
      "grad_norm": 0.8105795383453369,
      "learning_rate": 0.000299077843542744,
      "loss": 4.0037,
      "step": 18880
    },
    {
      "epoch": 0.03935416666666667,
      "grad_norm": 0.8511812090873718,
      "learning_rate": 0.00029907675173920795,
      "loss": 4.1038,
      "step": 18890
    },
    {
      "epoch": 0.039375,
      "grad_norm": 0.7357218861579895,
      "learning_rate": 0.0002990756592917193,
      "loss": 4.0421,
      "step": 18900
    },
    {
      "epoch": 0.03939583333333333,
      "grad_norm": 0.8205394148826599,
      "learning_rate": 0.00029907456620028287,
      "loss": 4.0321,
      "step": 18910
    },
    {
      "epoch": 0.03941666666666667,
      "grad_norm": 0.8561420440673828,
      "learning_rate": 0.00029907347246490337,
      "loss": 4.1758,
      "step": 18920
    },
    {
      "epoch": 0.0394375,
      "grad_norm": 0.9624341726303101,
      "learning_rate": 0.0002990723780855854,
      "loss": 4.2025,
      "step": 18930
    },
    {
      "epoch": 0.03945833333333333,
      "grad_norm": 0.9427738785743713,
      "learning_rate": 0.00029907128306233386,
      "loss": 4.2542,
      "step": 18940
    },
    {
      "epoch": 0.03947916666666667,
      "grad_norm": 0.9757403135299683,
      "learning_rate": 0.0002990701873951533,
      "loss": 4.1038,
      "step": 18950
    },
    {
      "epoch": 0.0395,
      "grad_norm": 0.9808940291404724,
      "learning_rate": 0.00029906909108404857,
      "loss": 4.0875,
      "step": 18960
    },
    {
      "epoch": 0.03952083333333333,
      "grad_norm": 1.2218230962753296,
      "learning_rate": 0.00029906799412902436,
      "loss": 3.8337,
      "step": 18970
    },
    {
      "epoch": 0.03954166666666667,
      "grad_norm": 0.9045658111572266,
      "learning_rate": 0.0002990668965300854,
      "loss": 3.9948,
      "step": 18980
    },
    {
      "epoch": 0.0395625,
      "grad_norm": 0.9830717444419861,
      "learning_rate": 0.0002990657982872365,
      "loss": 3.9738,
      "step": 18990
    },
    {
      "epoch": 0.03958333333333333,
      "grad_norm": 0.7774221301078796,
      "learning_rate": 0.0002990646994004823,
      "loss": 4.1336,
      "step": 19000
    },
    {
      "epoch": 0.03958333333333333,
      "eval_loss": 4.341280460357666,
      "eval_runtime": 10.6438,
      "eval_samples_per_second": 0.94,
      "eval_steps_per_second": 0.282,
      "step": 19000
    },
    {
      "epoch": 0.03960416666666667,
      "grad_norm": 0.9579519033432007,
      "learning_rate": 0.00029906359986982766,
      "loss": 4.0295,
      "step": 19010
    },
    {
      "epoch": 0.039625,
      "grad_norm": 0.8091082572937012,
      "learning_rate": 0.0002990624996952772,
      "loss": 3.9964,
      "step": 19020
    },
    {
      "epoch": 0.03964583333333333,
      "grad_norm": 0.9176852703094482,
      "learning_rate": 0.0002990613988768358,
      "loss": 4.0226,
      "step": 19030
    },
    {
      "epoch": 0.03966666666666667,
      "grad_norm": 0.8329704403877258,
      "learning_rate": 0.00029906029741450814,
      "loss": 3.8441,
      "step": 19040
    },
    {
      "epoch": 0.0396875,
      "grad_norm": 0.9402167797088623,
      "learning_rate": 0.000299059195308299,
      "loss": 4.0174,
      "step": 19050
    },
    {
      "epoch": 0.03970833333333333,
      "grad_norm": 0.7524610161781311,
      "learning_rate": 0.00029905809255821315,
      "loss": 3.8213,
      "step": 19060
    },
    {
      "epoch": 0.03972916666666667,
      "grad_norm": 0.802990734577179,
      "learning_rate": 0.0002990569891642553,
      "loss": 4.1643,
      "step": 19070
    },
    {
      "epoch": 0.03975,
      "grad_norm": 0.7742749452590942,
      "learning_rate": 0.0002990558851264303,
      "loss": 3.973,
      "step": 19080
    },
    {
      "epoch": 0.03977083333333333,
      "grad_norm": 0.8257986307144165,
      "learning_rate": 0.0002990547804447429,
      "loss": 3.9735,
      "step": 19090
    },
    {
      "epoch": 0.03979166666666667,
      "grad_norm": 1.0188935995101929,
      "learning_rate": 0.00029905367511919777,
      "loss": 4.119,
      "step": 19100
    },
    {
      "epoch": 0.0398125,
      "grad_norm": 0.8712319135665894,
      "learning_rate": 0.00029905256914979984,
      "loss": 4.0557,
      "step": 19110
    },
    {
      "epoch": 0.03983333333333333,
      "grad_norm": 0.790169894695282,
      "learning_rate": 0.00029905146253655376,
      "loss": 3.9663,
      "step": 19120
    },
    {
      "epoch": 0.03985416666666667,
      "grad_norm": 0.7941786646842957,
      "learning_rate": 0.0002990503552794644,
      "loss": 4.1641,
      "step": 19130
    },
    {
      "epoch": 0.039875,
      "grad_norm": 0.7915155291557312,
      "learning_rate": 0.00029904924737853645,
      "loss": 4.0691,
      "step": 19140
    },
    {
      "epoch": 0.03989583333333333,
      "grad_norm": 0.8612808585166931,
      "learning_rate": 0.0002990481388337748,
      "loss": 4.2411,
      "step": 19150
    },
    {
      "epoch": 0.03991666666666667,
      "grad_norm": 0.8533260226249695,
      "learning_rate": 0.0002990470296451842,
      "loss": 4.0003,
      "step": 19160
    },
    {
      "epoch": 0.0399375,
      "grad_norm": 0.7836639881134033,
      "learning_rate": 0.00029904591981276936,
      "loss": 3.9807,
      "step": 19170
    },
    {
      "epoch": 0.03995833333333333,
      "grad_norm": 0.8117405772209167,
      "learning_rate": 0.0002990448093365352,
      "loss": 4.0027,
      "step": 19180
    },
    {
      "epoch": 0.03997916666666667,
      "grad_norm": 0.9094319343566895,
      "learning_rate": 0.00029904369821648645,
      "loss": 3.9399,
      "step": 19190
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8511267304420471,
      "learning_rate": 0.0002990425864526279,
      "loss": 3.9751,
      "step": 19200
    },
    {
      "epoch": 0.04002083333333333,
      "grad_norm": 0.8012973070144653,
      "learning_rate": 0.00029904147404496436,
      "loss": 4.2045,
      "step": 19210
    },
    {
      "epoch": 0.04004166666666667,
      "grad_norm": 0.8121950030326843,
      "learning_rate": 0.00029904036099350065,
      "loss": 4.0326,
      "step": 19220
    },
    {
      "epoch": 0.0400625,
      "grad_norm": 0.9457129836082458,
      "learning_rate": 0.00029903924729824164,
      "loss": 3.8929,
      "step": 19230
    },
    {
      "epoch": 0.04008333333333333,
      "grad_norm": 0.8939108848571777,
      "learning_rate": 0.000299038132959192,
      "loss": 4.0577,
      "step": 19240
    },
    {
      "epoch": 0.04010416666666667,
      "grad_norm": 0.9702565670013428,
      "learning_rate": 0.00029903701797635667,
      "loss": 4.0625,
      "step": 19250
    },
    {
      "epoch": 0.040125,
      "grad_norm": 0.8929636478424072,
      "learning_rate": 0.00029903590234974035,
      "loss": 3.8455,
      "step": 19260
    },
    {
      "epoch": 0.04014583333333333,
      "grad_norm": 0.770983099937439,
      "learning_rate": 0.000299034786079348,
      "loss": 3.9727,
      "step": 19270
    },
    {
      "epoch": 0.04016666666666667,
      "grad_norm": 0.7728239893913269,
      "learning_rate": 0.0002990336691651843,
      "loss": 4.1381,
      "step": 19280
    },
    {
      "epoch": 0.0401875,
      "grad_norm": 0.9467799067497253,
      "learning_rate": 0.0002990325516072542,
      "loss": 3.8386,
      "step": 19290
    },
    {
      "epoch": 0.04020833333333333,
      "grad_norm": 0.7413394451141357,
      "learning_rate": 0.0002990314334055625,
      "loss": 4.0526,
      "step": 19300
    },
    {
      "epoch": 0.04022916666666667,
      "grad_norm": 0.8904475569725037,
      "learning_rate": 0.0002990303145601139,
      "loss": 4.0035,
      "step": 19310
    },
    {
      "epoch": 0.04025,
      "grad_norm": 0.9265841245651245,
      "learning_rate": 0.0002990291950709134,
      "loss": 3.9815,
      "step": 19320
    },
    {
      "epoch": 0.04027083333333333,
      "grad_norm": 0.8558010458946228,
      "learning_rate": 0.0002990280749379657,
      "loss": 4.1903,
      "step": 19330
    },
    {
      "epoch": 0.04029166666666667,
      "grad_norm": 0.854515552520752,
      "learning_rate": 0.0002990269541612757,
      "loss": 4.0478,
      "step": 19340
    },
    {
      "epoch": 0.0403125,
      "grad_norm": 0.7501394152641296,
      "learning_rate": 0.0002990258327408483,
      "loss": 3.8788,
      "step": 19350
    },
    {
      "epoch": 0.04033333333333333,
      "grad_norm": 0.8303591012954712,
      "learning_rate": 0.0002990247106766883,
      "loss": 4.1537,
      "step": 19360
    },
    {
      "epoch": 0.04035416666666667,
      "grad_norm": 0.8489549160003662,
      "learning_rate": 0.00029902358796880053,
      "loss": 3.9616,
      "step": 19370
    },
    {
      "epoch": 0.040375,
      "grad_norm": 0.9887664318084717,
      "learning_rate": 0.0002990224646171898,
      "loss": 4.0038,
      "step": 19380
    },
    {
      "epoch": 0.04039583333333333,
      "grad_norm": 0.9427640438079834,
      "learning_rate": 0.0002990213406218611,
      "loss": 4.1949,
      "step": 19390
    },
    {
      "epoch": 0.04041666666666666,
      "grad_norm": 0.9842920303344727,
      "learning_rate": 0.00029902021598281913,
      "loss": 4.0348,
      "step": 19400
    },
    {
      "epoch": 0.0404375,
      "grad_norm": 0.932799220085144,
      "learning_rate": 0.00029901909070006885,
      "loss": 4.0667,
      "step": 19410
    },
    {
      "epoch": 0.04045833333333333,
      "grad_norm": 0.9740130305290222,
      "learning_rate": 0.00029901796477361506,
      "loss": 4.0779,
      "step": 19420
    },
    {
      "epoch": 0.04047916666666666,
      "grad_norm": 0.8243486881256104,
      "learning_rate": 0.0002990168382034626,
      "loss": 4.0661,
      "step": 19430
    },
    {
      "epoch": 0.0405,
      "grad_norm": 0.8936859965324402,
      "learning_rate": 0.0002990157109896165,
      "loss": 4.1681,
      "step": 19440
    },
    {
      "epoch": 0.04052083333333333,
      "grad_norm": 0.7526562809944153,
      "learning_rate": 0.0002990145831320814,
      "loss": 4.0743,
      "step": 19450
    },
    {
      "epoch": 0.04054166666666666,
      "grad_norm": 0.9612098336219788,
      "learning_rate": 0.0002990134546308623,
      "loss": 4.0618,
      "step": 19460
    },
    {
      "epoch": 0.0405625,
      "grad_norm": 0.8145372271537781,
      "learning_rate": 0.00029901232548596417,
      "loss": 4.0131,
      "step": 19470
    },
    {
      "epoch": 0.04058333333333333,
      "grad_norm": 0.7904540300369263,
      "learning_rate": 0.00029901119569739163,
      "loss": 4.029,
      "step": 19480
    },
    {
      "epoch": 0.04060416666666666,
      "grad_norm": 0.895660936832428,
      "learning_rate": 0.0002990100652651498,
      "loss": 4.0449,
      "step": 19490
    },
    {
      "epoch": 0.040625,
      "grad_norm": 0.774512529373169,
      "learning_rate": 0.00029900893418924345,
      "loss": 4.1697,
      "step": 19500
    },
    {
      "epoch": 0.04064583333333333,
      "grad_norm": 0.7943359017372131,
      "learning_rate": 0.00029900780246967746,
      "loss": 4.0913,
      "step": 19510
    },
    {
      "epoch": 0.04066666666666666,
      "grad_norm": 0.9477747678756714,
      "learning_rate": 0.0002990066701064568,
      "loss": 4.1187,
      "step": 19520
    },
    {
      "epoch": 0.0406875,
      "grad_norm": 0.7964714169502258,
      "learning_rate": 0.00029900553709958624,
      "loss": 4.0871,
      "step": 19530
    },
    {
      "epoch": 0.04070833333333333,
      "grad_norm": 0.9286220669746399,
      "learning_rate": 0.0002990044034490708,
      "loss": 3.9705,
      "step": 19540
    },
    {
      "epoch": 0.040729166666666664,
      "grad_norm": 0.8784612417221069,
      "learning_rate": 0.00029900326915491526,
      "loss": 4.2264,
      "step": 19550
    },
    {
      "epoch": 0.04075,
      "grad_norm": 0.9004016518592834,
      "learning_rate": 0.0002990021342171246,
      "loss": 4.134,
      "step": 19560
    },
    {
      "epoch": 0.04077083333333333,
      "grad_norm": 0.7956963181495667,
      "learning_rate": 0.0002990009986357037,
      "loss": 4.0411,
      "step": 19570
    },
    {
      "epoch": 0.040791666666666664,
      "grad_norm": 0.8759351372718811,
      "learning_rate": 0.0002989998624106575,
      "loss": 3.9668,
      "step": 19580
    },
    {
      "epoch": 0.0408125,
      "grad_norm": 0.7882117033004761,
      "learning_rate": 0.0002989987255419908,
      "loss": 3.9748,
      "step": 19590
    },
    {
      "epoch": 0.04083333333333333,
      "grad_norm": 0.7675451040267944,
      "learning_rate": 0.00029899758802970865,
      "loss": 3.9407,
      "step": 19600
    },
    {
      "epoch": 0.040854166666666664,
      "grad_norm": 0.8273264765739441,
      "learning_rate": 0.0002989964498738159,
      "loss": 3.9075,
      "step": 19610
    },
    {
      "epoch": 0.040875,
      "grad_norm": 0.8595001101493835,
      "learning_rate": 0.00029899531107431743,
      "loss": 4.2709,
      "step": 19620
    },
    {
      "epoch": 0.04089583333333333,
      "grad_norm": 0.7630137205123901,
      "learning_rate": 0.0002989941716312182,
      "loss": 4.1199,
      "step": 19630
    },
    {
      "epoch": 0.040916666666666664,
      "grad_norm": 0.8992254734039307,
      "learning_rate": 0.00029899303154452307,
      "loss": 3.9466,
      "step": 19640
    },
    {
      "epoch": 0.0409375,
      "grad_norm": 0.8261836171150208,
      "learning_rate": 0.0002989918908142371,
      "loss": 4.0807,
      "step": 19650
    },
    {
      "epoch": 0.04095833333333333,
      "grad_norm": 0.8630461096763611,
      "learning_rate": 0.00029899074944036514,
      "loss": 4.0508,
      "step": 19660
    },
    {
      "epoch": 0.040979166666666664,
      "grad_norm": 0.8429964184761047,
      "learning_rate": 0.00029898960742291204,
      "loss": 4.0517,
      "step": 19670
    },
    {
      "epoch": 0.041,
      "grad_norm": 0.842780590057373,
      "learning_rate": 0.0002989884647618829,
      "loss": 3.9959,
      "step": 19680
    },
    {
      "epoch": 0.04102083333333333,
      "grad_norm": 0.8531880974769592,
      "learning_rate": 0.0002989873214572825,
      "loss": 4.0766,
      "step": 19690
    },
    {
      "epoch": 0.041041666666666664,
      "grad_norm": 0.8812277913093567,
      "learning_rate": 0.00029898617750911586,
      "loss": 4.0027,
      "step": 19700
    },
    {
      "epoch": 0.0410625,
      "grad_norm": 0.9288310408592224,
      "learning_rate": 0.00029898503291738793,
      "loss": 4.0754,
      "step": 19710
    },
    {
      "epoch": 0.04108333333333333,
      "grad_norm": 0.7201988101005554,
      "learning_rate": 0.0002989838876821036,
      "loss": 3.9664,
      "step": 19720
    },
    {
      "epoch": 0.041104166666666664,
      "grad_norm": 0.8363280296325684,
      "learning_rate": 0.0002989827418032679,
      "loss": 3.9896,
      "step": 19730
    },
    {
      "epoch": 0.041125,
      "grad_norm": 0.8436617851257324,
      "learning_rate": 0.0002989815952808857,
      "loss": 3.961,
      "step": 19740
    },
    {
      "epoch": 0.04114583333333333,
      "grad_norm": 0.7581911087036133,
      "learning_rate": 0.0002989804481149619,
      "loss": 3.973,
      "step": 19750
    },
    {
      "epoch": 0.041166666666666664,
      "grad_norm": 0.9866726994514465,
      "learning_rate": 0.0002989793003055016,
      "loss": 3.9393,
      "step": 19760
    },
    {
      "epoch": 0.0411875,
      "grad_norm": 0.8931960463523865,
      "learning_rate": 0.0002989781518525097,
      "loss": 4.1512,
      "step": 19770
    },
    {
      "epoch": 0.04120833333333333,
      "grad_norm": 0.8303420543670654,
      "learning_rate": 0.00029897700275599115,
      "loss": 3.9041,
      "step": 19780
    },
    {
      "epoch": 0.041229166666666664,
      "grad_norm": 0.8282143473625183,
      "learning_rate": 0.00029897585301595094,
      "loss": 4.0572,
      "step": 19790
    },
    {
      "epoch": 0.04125,
      "grad_norm": 0.8140398263931274,
      "learning_rate": 0.00029897470263239397,
      "loss": 3.8685,
      "step": 19800
    },
    {
      "epoch": 0.04127083333333333,
      "grad_norm": 0.8276671171188354,
      "learning_rate": 0.0002989735516053253,
      "loss": 4.214,
      "step": 19810
    },
    {
      "epoch": 0.041291666666666664,
      "grad_norm": 0.8132264614105225,
      "learning_rate": 0.0002989723999347498,
      "loss": 4.1084,
      "step": 19820
    },
    {
      "epoch": 0.0413125,
      "grad_norm": 0.8550259470939636,
      "learning_rate": 0.00029897124762067254,
      "loss": 3.9829,
      "step": 19830
    },
    {
      "epoch": 0.04133333333333333,
      "grad_norm": 0.8192998766899109,
      "learning_rate": 0.00029897009466309845,
      "loss": 4.0238,
      "step": 19840
    },
    {
      "epoch": 0.041354166666666664,
      "grad_norm": 0.8596383929252625,
      "learning_rate": 0.0002989689410620325,
      "loss": 4.0818,
      "step": 19850
    },
    {
      "epoch": 0.041375,
      "grad_norm": 0.8116164803504944,
      "learning_rate": 0.0002989677868174797,
      "loss": 4.0884,
      "step": 19860
    },
    {
      "epoch": 0.04139583333333333,
      "grad_norm": 0.7821484804153442,
      "learning_rate": 0.00029896663192944503,
      "loss": 4.0213,
      "step": 19870
    },
    {
      "epoch": 0.041416666666666664,
      "grad_norm": 0.8388898968696594,
      "learning_rate": 0.00029896547639793347,
      "loss": 4.1012,
      "step": 19880
    },
    {
      "epoch": 0.0414375,
      "grad_norm": 0.8078532218933105,
      "learning_rate": 0.00029896432022295,
      "loss": 3.987,
      "step": 19890
    },
    {
      "epoch": 0.04145833333333333,
      "grad_norm": 0.7909790873527527,
      "learning_rate": 0.0002989631634044997,
      "loss": 4.0759,
      "step": 19900
    },
    {
      "epoch": 0.041479166666666664,
      "grad_norm": 0.87013179063797,
      "learning_rate": 0.0002989620059425874,
      "loss": 4.0145,
      "step": 19910
    },
    {
      "epoch": 0.0415,
      "grad_norm": 0.9134252071380615,
      "learning_rate": 0.00029896084783721826,
      "loss": 4.2776,
      "step": 19920
    },
    {
      "epoch": 0.04152083333333333,
      "grad_norm": 0.8537418842315674,
      "learning_rate": 0.00029895968908839725,
      "loss": 3.9478,
      "step": 19930
    },
    {
      "epoch": 0.041541666666666664,
      "grad_norm": 0.7740315198898315,
      "learning_rate": 0.0002989585296961293,
      "loss": 3.9771,
      "step": 19940
    },
    {
      "epoch": 0.0415625,
      "grad_norm": 0.9200629591941833,
      "learning_rate": 0.0002989573696604194,
      "loss": 3.8804,
      "step": 19950
    },
    {
      "epoch": 0.04158333333333333,
      "grad_norm": 0.8819804787635803,
      "learning_rate": 0.00029895620898127273,
      "loss": 3.979,
      "step": 19960
    },
    {
      "epoch": 0.041604166666666664,
      "grad_norm": 0.7973604202270508,
      "learning_rate": 0.00029895504765869416,
      "loss": 4.0228,
      "step": 19970
    },
    {
      "epoch": 0.041625,
      "grad_norm": 0.7860952019691467,
      "learning_rate": 0.00029895388569268875,
      "loss": 4.1862,
      "step": 19980
    },
    {
      "epoch": 0.04164583333333333,
      "grad_norm": 0.7795244455337524,
      "learning_rate": 0.0002989527230832615,
      "loss": 4.0954,
      "step": 19990
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 0.8634036779403687,
      "learning_rate": 0.0002989515598304175,
      "loss": 4.0671,
      "step": 20000
    },
    {
      "epoch": 0.041666666666666664,
      "eval_loss": 4.356691837310791,
      "eval_runtime": 9.3469,
      "eval_samples_per_second": 1.07,
      "eval_steps_per_second": 0.321,
      "step": 20000
    },
    {
      "epoch": 0.0416875,
      "grad_norm": 0.8759312629699707,
      "learning_rate": 0.0002989503959341616,
      "loss": 3.9117,
      "step": 20010
    },
    {
      "epoch": 0.04170833333333333,
      "grad_norm": 0.7715888023376465,
      "learning_rate": 0.00029894923139449906,
      "loss": 4.0521,
      "step": 20020
    },
    {
      "epoch": 0.041729166666666664,
      "grad_norm": 0.8118507266044617,
      "learning_rate": 0.00029894806621143477,
      "loss": 4.0882,
      "step": 20030
    },
    {
      "epoch": 0.04175,
      "grad_norm": 0.8489455580711365,
      "learning_rate": 0.00029894690038497374,
      "loss": 4.0879,
      "step": 20040
    },
    {
      "epoch": 0.04177083333333333,
      "grad_norm": 0.7553942799568176,
      "learning_rate": 0.0002989457339151211,
      "loss": 4.2581,
      "step": 20050
    },
    {
      "epoch": 0.041791666666666664,
      "grad_norm": 0.7601281404495239,
      "learning_rate": 0.00029894456680188184,
      "loss": 4.0657,
      "step": 20060
    },
    {
      "epoch": 0.0418125,
      "grad_norm": 0.8257625102996826,
      "learning_rate": 0.000298943399045261,
      "loss": 4.1645,
      "step": 20070
    },
    {
      "epoch": 0.041833333333333333,
      "grad_norm": 0.9124462604522705,
      "learning_rate": 0.00029894223064526364,
      "loss": 4.0896,
      "step": 20080
    },
    {
      "epoch": 0.041854166666666665,
      "grad_norm": 0.7645278573036194,
      "learning_rate": 0.0002989410616018948,
      "loss": 3.9214,
      "step": 20090
    },
    {
      "epoch": 0.041875,
      "grad_norm": 0.7650265097618103,
      "learning_rate": 0.00029893989191515953,
      "loss": 3.9849,
      "step": 20100
    },
    {
      "epoch": 0.041895833333333334,
      "grad_norm": 0.8830063343048096,
      "learning_rate": 0.0002989387215850629,
      "loss": 4.0202,
      "step": 20110
    },
    {
      "epoch": 0.041916666666666665,
      "grad_norm": 0.9637686610221863,
      "learning_rate": 0.00029893755061160995,
      "loss": 3.9164,
      "step": 20120
    },
    {
      "epoch": 0.0419375,
      "grad_norm": 0.7511094212532043,
      "learning_rate": 0.0002989363789948057,
      "loss": 4.1804,
      "step": 20130
    },
    {
      "epoch": 0.041958333333333334,
      "grad_norm": 0.8582311272621155,
      "learning_rate": 0.0002989352067346553,
      "loss": 3.8717,
      "step": 20140
    },
    {
      "epoch": 0.041979166666666665,
      "grad_norm": 0.8694915175437927,
      "learning_rate": 0.0002989340338311637,
      "loss": 4.1398,
      "step": 20150
    },
    {
      "epoch": 0.042,
      "grad_norm": 0.9513646960258484,
      "learning_rate": 0.0002989328602843361,
      "loss": 4.0545,
      "step": 20160
    },
    {
      "epoch": 0.042020833333333334,
      "grad_norm": 0.8045638799667358,
      "learning_rate": 0.00029893168609417735,
      "loss": 3.9002,
      "step": 20170
    },
    {
      "epoch": 0.042041666666666665,
      "grad_norm": 0.8433430790901184,
      "learning_rate": 0.0002989305112606928,
      "loss": 4.1201,
      "step": 20180
    },
    {
      "epoch": 0.0420625,
      "grad_norm": 0.9190186858177185,
      "learning_rate": 0.0002989293357838874,
      "loss": 3.9669,
      "step": 20190
    },
    {
      "epoch": 0.042083333333333334,
      "grad_norm": 0.8294636607170105,
      "learning_rate": 0.0002989281596637661,
      "loss": 4.0941,
      "step": 20200
    },
    {
      "epoch": 0.042104166666666665,
      "grad_norm": 0.7841537594795227,
      "learning_rate": 0.0002989269829003342,
      "loss": 3.9028,
      "step": 20210
    },
    {
      "epoch": 0.042125,
      "grad_norm": 0.8012672662734985,
      "learning_rate": 0.00029892580549359664,
      "loss": 4.0301,
      "step": 20220
    },
    {
      "epoch": 0.042145833333333334,
      "grad_norm": 0.7876178026199341,
      "learning_rate": 0.00029892462744355853,
      "loss": 4.0458,
      "step": 20230
    },
    {
      "epoch": 0.042166666666666665,
      "grad_norm": 0.8605347275733948,
      "learning_rate": 0.00029892344875022506,
      "loss": 4.1663,
      "step": 20240
    },
    {
      "epoch": 0.0421875,
      "grad_norm": 0.808997392654419,
      "learning_rate": 0.0002989222694136012,
      "loss": 4.1925,
      "step": 20250
    },
    {
      "epoch": 0.042208333333333334,
      "grad_norm": 0.9098405838012695,
      "learning_rate": 0.00029892108943369207,
      "loss": 4.1443,
      "step": 20260
    },
    {
      "epoch": 0.042229166666666665,
      "grad_norm": 1.0289746522903442,
      "learning_rate": 0.0002989199088105028,
      "loss": 4.0824,
      "step": 20270
    },
    {
      "epoch": 0.04225,
      "grad_norm": 1.152687668800354,
      "learning_rate": 0.00029891872754403843,
      "loss": 4.1575,
      "step": 20280
    },
    {
      "epoch": 0.042270833333333334,
      "grad_norm": 0.9322471618652344,
      "learning_rate": 0.0002989175456343041,
      "loss": 3.8919,
      "step": 20290
    },
    {
      "epoch": 0.042291666666666665,
      "grad_norm": 0.8055235147476196,
      "learning_rate": 0.00029891636308130497,
      "loss": 3.9307,
      "step": 20300
    },
    {
      "epoch": 0.0423125,
      "grad_norm": 0.8612207770347595,
      "learning_rate": 0.0002989151798850461,
      "loss": 3.8903,
      "step": 20310
    },
    {
      "epoch": 0.042333333333333334,
      "grad_norm": 0.8071341514587402,
      "learning_rate": 0.00029891399604553255,
      "loss": 4.1545,
      "step": 20320
    },
    {
      "epoch": 0.042354166666666665,
      "grad_norm": 0.8333863019943237,
      "learning_rate": 0.00029891281156276954,
      "loss": 4.1198,
      "step": 20330
    },
    {
      "epoch": 0.042375,
      "grad_norm": 0.9973903298377991,
      "learning_rate": 0.0002989116264367621,
      "loss": 4.0832,
      "step": 20340
    },
    {
      "epoch": 0.042395833333333334,
      "grad_norm": 0.91508549451828,
      "learning_rate": 0.00029891044066751533,
      "loss": 3.9209,
      "step": 20350
    },
    {
      "epoch": 0.042416666666666665,
      "grad_norm": 0.8464558720588684,
      "learning_rate": 0.00029890925425503443,
      "loss": 4.1249,
      "step": 20360
    },
    {
      "epoch": 0.0424375,
      "grad_norm": 0.9107999205589294,
      "learning_rate": 0.0002989080671993245,
      "loss": 3.9123,
      "step": 20370
    },
    {
      "epoch": 0.042458333333333334,
      "grad_norm": 0.8324167132377625,
      "learning_rate": 0.0002989068795003907,
      "loss": 4.1045,
      "step": 20380
    },
    {
      "epoch": 0.042479166666666665,
      "grad_norm": 1.1924091577529907,
      "learning_rate": 0.0002989056911582381,
      "loss": 4.1479,
      "step": 20390
    },
    {
      "epoch": 0.0425,
      "grad_norm": 0.7891703844070435,
      "learning_rate": 0.0002989045021728718,
      "loss": 3.8278,
      "step": 20400
    },
    {
      "epoch": 0.042520833333333334,
      "grad_norm": 0.9066067337989807,
      "learning_rate": 0.000298903312544297,
      "loss": 3.8816,
      "step": 20410
    },
    {
      "epoch": 0.042541666666666665,
      "grad_norm": 0.7761522531509399,
      "learning_rate": 0.0002989021222725189,
      "loss": 4.0225,
      "step": 20420
    },
    {
      "epoch": 0.0425625,
      "grad_norm": 0.7034361958503723,
      "learning_rate": 0.0002989009313575426,
      "loss": 3.9949,
      "step": 20430
    },
    {
      "epoch": 0.042583333333333334,
      "grad_norm": 0.8663376569747925,
      "learning_rate": 0.00029889973979937306,
      "loss": 3.9422,
      "step": 20440
    },
    {
      "epoch": 0.042604166666666665,
      "grad_norm": 0.8308099508285522,
      "learning_rate": 0.0002988985475980157,
      "loss": 4.1418,
      "step": 20450
    },
    {
      "epoch": 0.042625,
      "grad_norm": 0.8246246576309204,
      "learning_rate": 0.0002988973547534755,
      "loss": 4.1612,
      "step": 20460
    },
    {
      "epoch": 0.042645833333333334,
      "grad_norm": 0.8274480700492859,
      "learning_rate": 0.00029889616126575774,
      "loss": 4.0601,
      "step": 20470
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 0.8237221837043762,
      "learning_rate": 0.00029889496713486743,
      "loss": 4.0561,
      "step": 20480
    },
    {
      "epoch": 0.0426875,
      "grad_norm": 0.8102717399597168,
      "learning_rate": 0.0002988937723608098,
      "loss": 4.0598,
      "step": 20490
    },
    {
      "epoch": 0.042708333333333334,
      "grad_norm": 0.8775338530540466,
      "learning_rate": 0.00029889257694359005,
      "loss": 3.978,
      "step": 20500
    },
    {
      "epoch": 0.042729166666666665,
      "grad_norm": 0.9087735414505005,
      "learning_rate": 0.0002988913808832133,
      "loss": 3.9511,
      "step": 20510
    },
    {
      "epoch": 0.04275,
      "grad_norm": 0.8823198080062866,
      "learning_rate": 0.00029889018417968464,
      "loss": 4.1523,
      "step": 20520
    },
    {
      "epoch": 0.042770833333333334,
      "grad_norm": 0.7123168110847473,
      "learning_rate": 0.0002988889868330094,
      "loss": 4.2501,
      "step": 20530
    },
    {
      "epoch": 0.042791666666666665,
      "grad_norm": 0.838696300983429,
      "learning_rate": 0.00029888778884319266,
      "loss": 4.2978,
      "step": 20540
    },
    {
      "epoch": 0.0428125,
      "grad_norm": 0.8302586674690247,
      "learning_rate": 0.0002988865902102396,
      "loss": 4.1594,
      "step": 20550
    },
    {
      "epoch": 0.042833333333333334,
      "grad_norm": 0.7455853223800659,
      "learning_rate": 0.0002988853909341554,
      "loss": 3.9102,
      "step": 20560
    },
    {
      "epoch": 0.042854166666666665,
      "grad_norm": 0.8502945899963379,
      "learning_rate": 0.00029888419101494526,
      "loss": 4.2051,
      "step": 20570
    },
    {
      "epoch": 0.042875,
      "grad_norm": 0.9518006443977356,
      "learning_rate": 0.0002988829904526143,
      "loss": 4.1166,
      "step": 20580
    },
    {
      "epoch": 0.042895833333333334,
      "grad_norm": 0.9034779667854309,
      "learning_rate": 0.0002988817892471678,
      "loss": 4.0879,
      "step": 20590
    },
    {
      "epoch": 0.042916666666666665,
      "grad_norm": 0.85948246717453,
      "learning_rate": 0.00029888058739861094,
      "loss": 4.3566,
      "step": 20600
    },
    {
      "epoch": 0.0429375,
      "grad_norm": 0.9593669772148132,
      "learning_rate": 0.0002988793849069488,
      "loss": 3.9918,
      "step": 20610
    },
    {
      "epoch": 0.042958333333333334,
      "grad_norm": 0.8105344176292419,
      "learning_rate": 0.00029887818177218664,
      "loss": 4.051,
      "step": 20620
    },
    {
      "epoch": 0.042979166666666666,
      "grad_norm": 0.7919904589653015,
      "learning_rate": 0.00029887697799432973,
      "loss": 3.9889,
      "step": 20630
    },
    {
      "epoch": 0.043,
      "grad_norm": 0.7364378571510315,
      "learning_rate": 0.0002988757735733831,
      "loss": 4.1475,
      "step": 20640
    },
    {
      "epoch": 0.043020833333333335,
      "grad_norm": 0.9468852281570435,
      "learning_rate": 0.0002988745685093522,
      "loss": 3.9732,
      "step": 20650
    },
    {
      "epoch": 0.043041666666666666,
      "grad_norm": 0.7278488278388977,
      "learning_rate": 0.000298873362802242,
      "loss": 3.9801,
      "step": 20660
    },
    {
      "epoch": 0.0430625,
      "grad_norm": 0.8633148670196533,
      "learning_rate": 0.00029887215645205785,
      "loss": 3.9939,
      "step": 20670
    },
    {
      "epoch": 0.043083333333333335,
      "grad_norm": 0.7592607140541077,
      "learning_rate": 0.00029887094945880483,
      "loss": 4.1462,
      "step": 20680
    },
    {
      "epoch": 0.043104166666666666,
      "grad_norm": 0.9357673525810242,
      "learning_rate": 0.0002988697418224883,
      "loss": 4.2028,
      "step": 20690
    },
    {
      "epoch": 0.043125,
      "grad_norm": 0.7456374168395996,
      "learning_rate": 0.0002988685335431134,
      "loss": 4.0889,
      "step": 20700
    },
    {
      "epoch": 0.043145833333333335,
      "grad_norm": 0.8095307350158691,
      "learning_rate": 0.00029886732462068534,
      "loss": 4.0449,
      "step": 20710
    },
    {
      "epoch": 0.043166666666666666,
      "grad_norm": 0.8302525877952576,
      "learning_rate": 0.0002988661150552094,
      "loss": 4.1706,
      "step": 20720
    },
    {
      "epoch": 0.0431875,
      "grad_norm": 0.8823374509811401,
      "learning_rate": 0.00029886490484669077,
      "loss": 4.0623,
      "step": 20730
    },
    {
      "epoch": 0.043208333333333335,
      "grad_norm": 0.8972064852714539,
      "learning_rate": 0.00029886369399513465,
      "loss": 3.984,
      "step": 20740
    },
    {
      "epoch": 0.043229166666666666,
      "grad_norm": 0.7620996832847595,
      "learning_rate": 0.0002988624825005463,
      "loss": 4.028,
      "step": 20750
    },
    {
      "epoch": 0.04325,
      "grad_norm": 0.7509312033653259,
      "learning_rate": 0.000298861270362931,
      "loss": 3.9502,
      "step": 20760
    },
    {
      "epoch": 0.043270833333333335,
      "grad_norm": 1.1475015878677368,
      "learning_rate": 0.0002988600575822938,
      "loss": 3.975,
      "step": 20770
    },
    {
      "epoch": 0.043291666666666666,
      "grad_norm": 0.8252683877944946,
      "learning_rate": 0.0002988588441586402,
      "loss": 4.1735,
      "step": 20780
    },
    {
      "epoch": 0.0433125,
      "grad_norm": 0.8755101561546326,
      "learning_rate": 0.00029885763009197526,
      "loss": 4.0033,
      "step": 20790
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 0.9288033246994019,
      "learning_rate": 0.0002988564153823043,
      "loss": 4.0037,
      "step": 20800
    },
    {
      "epoch": 0.043354166666666666,
      "grad_norm": 0.9187635779380798,
      "learning_rate": 0.00029885520002963256,
      "loss": 4.0188,
      "step": 20810
    },
    {
      "epoch": 0.043375,
      "grad_norm": 0.8449559211730957,
      "learning_rate": 0.0002988539840339653,
      "loss": 4.0035,
      "step": 20820
    },
    {
      "epoch": 0.043395833333333335,
      "grad_norm": 0.9719502925872803,
      "learning_rate": 0.0002988527673953077,
      "loss": 3.9277,
      "step": 20830
    },
    {
      "epoch": 0.043416666666666666,
      "grad_norm": 0.8123107552528381,
      "learning_rate": 0.00029885155011366506,
      "loss": 3.9122,
      "step": 20840
    },
    {
      "epoch": 0.0434375,
      "grad_norm": 0.9114618897438049,
      "learning_rate": 0.00029885033218904263,
      "loss": 4.028,
      "step": 20850
    },
    {
      "epoch": 0.043458333333333335,
      "grad_norm": 0.9195820093154907,
      "learning_rate": 0.00029884911362144576,
      "loss": 3.9208,
      "step": 20860
    },
    {
      "epoch": 0.043479166666666666,
      "grad_norm": 0.8139805793762207,
      "learning_rate": 0.0002988478944108796,
      "loss": 4.1397,
      "step": 20870
    },
    {
      "epoch": 0.0435,
      "grad_norm": 0.8421893119812012,
      "learning_rate": 0.0002988466745573494,
      "loss": 4.0376,
      "step": 20880
    },
    {
      "epoch": 0.043520833333333335,
      "grad_norm": 0.7710242867469788,
      "learning_rate": 0.00029884545406086053,
      "loss": 4.1664,
      "step": 20890
    },
    {
      "epoch": 0.043541666666666666,
      "grad_norm": 0.8128140568733215,
      "learning_rate": 0.0002988442329214182,
      "loss": 4.1851,
      "step": 20900
    },
    {
      "epoch": 0.0435625,
      "grad_norm": 0.9261941313743591,
      "learning_rate": 0.00029884301113902777,
      "loss": 4.2067,
      "step": 20910
    },
    {
      "epoch": 0.043583333333333335,
      "grad_norm": 0.713985800743103,
      "learning_rate": 0.00029884178871369434,
      "loss": 4.0594,
      "step": 20920
    },
    {
      "epoch": 0.043604166666666666,
      "grad_norm": 0.9778813123703003,
      "learning_rate": 0.0002988405656454234,
      "loss": 4.0018,
      "step": 20930
    },
    {
      "epoch": 0.043625,
      "grad_norm": 0.8556178212165833,
      "learning_rate": 0.00029883934193422005,
      "loss": 3.9153,
      "step": 20940
    },
    {
      "epoch": 0.043645833333333335,
      "grad_norm": 0.9584822058677673,
      "learning_rate": 0.0002988381175800897,
      "loss": 4.1116,
      "step": 20950
    },
    {
      "epoch": 0.043666666666666666,
      "grad_norm": 0.8164499402046204,
      "learning_rate": 0.0002988368925830376,
      "loss": 4.0733,
      "step": 20960
    },
    {
      "epoch": 0.0436875,
      "grad_norm": 0.8415399789810181,
      "learning_rate": 0.00029883566694306903,
      "loss": 3.8703,
      "step": 20970
    },
    {
      "epoch": 0.043708333333333335,
      "grad_norm": 0.8571978807449341,
      "learning_rate": 0.00029883444066018927,
      "loss": 3.9118,
      "step": 20980
    },
    {
      "epoch": 0.043729166666666666,
      "grad_norm": 0.9375819563865662,
      "learning_rate": 0.0002988332137344037,
      "loss": 4.011,
      "step": 20990
    },
    {
      "epoch": 0.04375,
      "grad_norm": 0.9054540395736694,
      "learning_rate": 0.00029883198616571745,
      "loss": 4.0745,
      "step": 21000
    },
    {
      "epoch": 0.04375,
      "eval_loss": 4.342305660247803,
      "eval_runtime": 10.6161,
      "eval_samples_per_second": 0.942,
      "eval_steps_per_second": 0.283,
      "step": 21000
    },
    {
      "epoch": 0.043770833333333335,
      "grad_norm": 0.7840487360954285,
      "learning_rate": 0.000298830757954136,
      "loss": 4.0177,
      "step": 21010
    },
    {
      "epoch": 0.043791666666666666,
      "grad_norm": 0.7767271995544434,
      "learning_rate": 0.0002988295290996646,
      "loss": 3.9951,
      "step": 21020
    },
    {
      "epoch": 0.0438125,
      "grad_norm": 0.8999386429786682,
      "learning_rate": 0.0002988282996023085,
      "loss": 3.9783,
      "step": 21030
    },
    {
      "epoch": 0.043833333333333335,
      "grad_norm": 0.8055039048194885,
      "learning_rate": 0.00029882706946207313,
      "loss": 3.9577,
      "step": 21040
    },
    {
      "epoch": 0.043854166666666666,
      "grad_norm": 0.955872654914856,
      "learning_rate": 0.0002988258386789637,
      "loss": 3.9639,
      "step": 21050
    },
    {
      "epoch": 0.043875,
      "grad_norm": 0.7130734324455261,
      "learning_rate": 0.00029882460725298547,
      "loss": 4.2128,
      "step": 21060
    },
    {
      "epoch": 0.043895833333333335,
      "grad_norm": 0.8525375127792358,
      "learning_rate": 0.00029882337518414393,
      "loss": 4.1003,
      "step": 21070
    },
    {
      "epoch": 0.043916666666666666,
      "grad_norm": 0.7908002734184265,
      "learning_rate": 0.00029882214247244434,
      "loss": 3.9476,
      "step": 21080
    },
    {
      "epoch": 0.0439375,
      "grad_norm": 0.9101952910423279,
      "learning_rate": 0.00029882090911789196,
      "loss": 4.1166,
      "step": 21090
    },
    {
      "epoch": 0.043958333333333335,
      "grad_norm": 0.8621652722358704,
      "learning_rate": 0.0002988196751204922,
      "loss": 4.1249,
      "step": 21100
    },
    {
      "epoch": 0.043979166666666666,
      "grad_norm": 0.842359721660614,
      "learning_rate": 0.0002988184404802503,
      "loss": 3.887,
      "step": 21110
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.9741432070732117,
      "learning_rate": 0.0002988172051971717,
      "loss": 4.1093,
      "step": 21120
    },
    {
      "epoch": 0.044020833333333335,
      "grad_norm": 0.7646159529685974,
      "learning_rate": 0.0002988159692712616,
      "loss": 3.9678,
      "step": 21130
    },
    {
      "epoch": 0.044041666666666666,
      "grad_norm": 0.8408020734786987,
      "learning_rate": 0.00029881473270252544,
      "loss": 3.903,
      "step": 21140
    },
    {
      "epoch": 0.0440625,
      "grad_norm": 0.8076792359352112,
      "learning_rate": 0.00029881349549096855,
      "loss": 4.2073,
      "step": 21150
    },
    {
      "epoch": 0.044083333333333335,
      "grad_norm": 0.8714789748191833,
      "learning_rate": 0.0002988122576365963,
      "loss": 4.0777,
      "step": 21160
    },
    {
      "epoch": 0.044104166666666667,
      "grad_norm": 0.7896570563316345,
      "learning_rate": 0.00029881101913941397,
      "loss": 4.0486,
      "step": 21170
    },
    {
      "epoch": 0.044125,
      "grad_norm": 0.9539129734039307,
      "learning_rate": 0.00029880977999942695,
      "loss": 3.9694,
      "step": 21180
    },
    {
      "epoch": 0.044145833333333336,
      "grad_norm": 0.8589633107185364,
      "learning_rate": 0.0002988085402166406,
      "loss": 4.1517,
      "step": 21190
    },
    {
      "epoch": 0.04416666666666667,
      "grad_norm": 0.7775989770889282,
      "learning_rate": 0.0002988072997910602,
      "loss": 3.8292,
      "step": 21200
    },
    {
      "epoch": 0.0441875,
      "grad_norm": 0.7837172150611877,
      "learning_rate": 0.0002988060587226912,
      "loss": 3.9982,
      "step": 21210
    },
    {
      "epoch": 0.044208333333333336,
      "grad_norm": 0.812075674533844,
      "learning_rate": 0.00029880481701153894,
      "loss": 4.0384,
      "step": 21220
    },
    {
      "epoch": 0.04422916666666667,
      "grad_norm": 0.7884976863861084,
      "learning_rate": 0.00029880357465760876,
      "loss": 4.0503,
      "step": 21230
    },
    {
      "epoch": 0.04425,
      "grad_norm": 0.8431472182273865,
      "learning_rate": 0.000298802331660906,
      "loss": 4.0609,
      "step": 21240
    },
    {
      "epoch": 0.044270833333333336,
      "grad_norm": 0.8969181776046753,
      "learning_rate": 0.00029880108802143613,
      "loss": 3.9494,
      "step": 21250
    },
    {
      "epoch": 0.04429166666666667,
      "grad_norm": 0.8280304670333862,
      "learning_rate": 0.00029879984373920446,
      "loss": 3.8908,
      "step": 21260
    },
    {
      "epoch": 0.0443125,
      "grad_norm": 1.0088303089141846,
      "learning_rate": 0.0002987985988142163,
      "loss": 4.0184,
      "step": 21270
    },
    {
      "epoch": 0.044333333333333336,
      "grad_norm": 0.8146201372146606,
      "learning_rate": 0.00029879735324647716,
      "loss": 4.0107,
      "step": 21280
    },
    {
      "epoch": 0.04435416666666667,
      "grad_norm": 0.7911062836647034,
      "learning_rate": 0.0002987961070359923,
      "loss": 4.1728,
      "step": 21290
    },
    {
      "epoch": 0.044375,
      "grad_norm": 0.8497121930122375,
      "learning_rate": 0.0002987948601827672,
      "loss": 3.9123,
      "step": 21300
    },
    {
      "epoch": 0.044395833333333336,
      "grad_norm": 0.9167283177375793,
      "learning_rate": 0.00029879361268680716,
      "loss": 3.9619,
      "step": 21310
    },
    {
      "epoch": 0.04441666666666667,
      "grad_norm": 0.8920363783836365,
      "learning_rate": 0.00029879236454811764,
      "loss": 3.9886,
      "step": 21320
    },
    {
      "epoch": 0.0444375,
      "grad_norm": 0.835915207862854,
      "learning_rate": 0.000298791115766704,
      "loss": 4.0911,
      "step": 21330
    },
    {
      "epoch": 0.044458333333333336,
      "grad_norm": 0.8288701772689819,
      "learning_rate": 0.00029878986634257167,
      "loss": 3.8817,
      "step": 21340
    },
    {
      "epoch": 0.04447916666666667,
      "grad_norm": 0.8506772518157959,
      "learning_rate": 0.00029878861627572595,
      "loss": 3.9851,
      "step": 21350
    },
    {
      "epoch": 0.0445,
      "grad_norm": 0.7778975367546082,
      "learning_rate": 0.0002987873655661723,
      "loss": 4.0973,
      "step": 21360
    },
    {
      "epoch": 0.044520833333333336,
      "grad_norm": 0.8713276982307434,
      "learning_rate": 0.00029878611421391615,
      "loss": 3.9076,
      "step": 21370
    },
    {
      "epoch": 0.04454166666666667,
      "grad_norm": 0.8287427425384521,
      "learning_rate": 0.0002987848622189629,
      "loss": 4.108,
      "step": 21380
    },
    {
      "epoch": 0.0445625,
      "grad_norm": 0.7868844866752625,
      "learning_rate": 0.0002987836095813179,
      "loss": 3.8827,
      "step": 21390
    },
    {
      "epoch": 0.044583333333333336,
      "grad_norm": 0.8835132718086243,
      "learning_rate": 0.0002987823563009866,
      "loss": 4.1014,
      "step": 21400
    },
    {
      "epoch": 0.04460416666666667,
      "grad_norm": 0.7861273288726807,
      "learning_rate": 0.00029878110237797445,
      "loss": 3.9649,
      "step": 21410
    },
    {
      "epoch": 0.044625,
      "grad_norm": 1.045042634010315,
      "learning_rate": 0.0002987798478122868,
      "loss": 3.9185,
      "step": 21420
    },
    {
      "epoch": 0.044645833333333336,
      "grad_norm": 0.8592798113822937,
      "learning_rate": 0.00029877859260392907,
      "loss": 4.2066,
      "step": 21430
    },
    {
      "epoch": 0.04466666666666667,
      "grad_norm": 0.9575827717781067,
      "learning_rate": 0.00029877733675290677,
      "loss": 3.9745,
      "step": 21440
    },
    {
      "epoch": 0.0446875,
      "grad_norm": 1.0012986660003662,
      "learning_rate": 0.00029877608025922526,
      "loss": 4.1846,
      "step": 21450
    },
    {
      "epoch": 0.044708333333333336,
      "grad_norm": 0.861296534538269,
      "learning_rate": 0.00029877482312288997,
      "loss": 4.0348,
      "step": 21460
    },
    {
      "epoch": 0.04472916666666667,
      "grad_norm": 0.8247374296188354,
      "learning_rate": 0.0002987735653439063,
      "loss": 4.0714,
      "step": 21470
    },
    {
      "epoch": 0.04475,
      "grad_norm": 0.8407560586929321,
      "learning_rate": 0.00029877230692227974,
      "loss": 4.002,
      "step": 21480
    },
    {
      "epoch": 0.044770833333333336,
      "grad_norm": 0.8621786832809448,
      "learning_rate": 0.00029877104785801565,
      "loss": 4.0648,
      "step": 21490
    },
    {
      "epoch": 0.04479166666666667,
      "grad_norm": 0.9582839608192444,
      "learning_rate": 0.0002987697881511196,
      "loss": 3.9656,
      "step": 21500
    },
    {
      "epoch": 0.0448125,
      "grad_norm": 0.8821082711219788,
      "learning_rate": 0.0002987685278015969,
      "loss": 4.046,
      "step": 21510
    },
    {
      "epoch": 0.044833333333333336,
      "grad_norm": 0.8624160885810852,
      "learning_rate": 0.0002987672668094531,
      "loss": 4.1448,
      "step": 21520
    },
    {
      "epoch": 0.04485416666666667,
      "grad_norm": 0.762911319732666,
      "learning_rate": 0.0002987660051746936,
      "loss": 4.0884,
      "step": 21530
    },
    {
      "epoch": 0.044875,
      "grad_norm": 0.7878764271736145,
      "learning_rate": 0.0002987647428973237,
      "loss": 4.0743,
      "step": 21540
    },
    {
      "epoch": 0.044895833333333336,
      "grad_norm": 0.8286069631576538,
      "learning_rate": 0.0002987634799773491,
      "loss": 3.9454,
      "step": 21550
    },
    {
      "epoch": 0.04491666666666667,
      "grad_norm": 0.8537937998771667,
      "learning_rate": 0.0002987622164147752,
      "loss": 3.9981,
      "step": 21560
    },
    {
      "epoch": 0.0449375,
      "grad_norm": 0.7299149632453918,
      "learning_rate": 0.00029876095220960735,
      "loss": 3.992,
      "step": 21570
    },
    {
      "epoch": 0.044958333333333336,
      "grad_norm": 0.868556797504425,
      "learning_rate": 0.0002987596873618511,
      "loss": 4.0636,
      "step": 21580
    },
    {
      "epoch": 0.04497916666666667,
      "grad_norm": 0.9318055510520935,
      "learning_rate": 0.00029875842187151183,
      "loss": 4.0708,
      "step": 21590
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.8826606869697571,
      "learning_rate": 0.0002987571557385951,
      "loss": 4.2334,
      "step": 21600
    },
    {
      "epoch": 0.045020833333333336,
      "grad_norm": 0.7222569584846497,
      "learning_rate": 0.00029875588896310636,
      "loss": 3.9474,
      "step": 21610
    },
    {
      "epoch": 0.04504166666666667,
      "grad_norm": 0.8353235125541687,
      "learning_rate": 0.00029875462154505103,
      "loss": 3.9243,
      "step": 21620
    },
    {
      "epoch": 0.0450625,
      "grad_norm": 0.8069102764129639,
      "learning_rate": 0.0002987533534844346,
      "loss": 4.0081,
      "step": 21630
    },
    {
      "epoch": 0.045083333333333336,
      "grad_norm": 0.8081286549568176,
      "learning_rate": 0.0002987520847812626,
      "loss": 3.8208,
      "step": 21640
    },
    {
      "epoch": 0.04510416666666667,
      "grad_norm": 0.9237086176872253,
      "learning_rate": 0.00029875081543554046,
      "loss": 3.9938,
      "step": 21650
    },
    {
      "epoch": 0.045125,
      "grad_norm": 0.7181043028831482,
      "learning_rate": 0.0002987495454472737,
      "loss": 4.2054,
      "step": 21660
    },
    {
      "epoch": 0.045145833333333336,
      "grad_norm": 0.7970734238624573,
      "learning_rate": 0.00029874827481646775,
      "loss": 3.9812,
      "step": 21670
    },
    {
      "epoch": 0.04516666666666667,
      "grad_norm": 0.9189584851264954,
      "learning_rate": 0.0002987470035431281,
      "loss": 3.8936,
      "step": 21680
    },
    {
      "epoch": 0.0451875,
      "grad_norm": 0.7783712148666382,
      "learning_rate": 0.0002987457316272603,
      "loss": 4.0323,
      "step": 21690
    },
    {
      "epoch": 0.045208333333333336,
      "grad_norm": 0.8427685499191284,
      "learning_rate": 0.00029874445906886987,
      "loss": 4.0199,
      "step": 21700
    },
    {
      "epoch": 0.04522916666666667,
      "grad_norm": 0.6924123167991638,
      "learning_rate": 0.0002987431858679622,
      "loss": 4.0269,
      "step": 21710
    },
    {
      "epoch": 0.04525,
      "grad_norm": 0.7433684468269348,
      "learning_rate": 0.00029874191202454285,
      "loss": 4.0587,
      "step": 21720
    },
    {
      "epoch": 0.04527083333333334,
      "grad_norm": 0.8644247651100159,
      "learning_rate": 0.00029874063753861736,
      "loss": 3.9536,
      "step": 21730
    },
    {
      "epoch": 0.04529166666666667,
      "grad_norm": 0.7696301937103271,
      "learning_rate": 0.0002987393624101911,
      "loss": 3.9833,
      "step": 21740
    },
    {
      "epoch": 0.0453125,
      "grad_norm": 0.8788250088691711,
      "learning_rate": 0.00029873808663926976,
      "loss": 3.957,
      "step": 21750
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 0.8382790684700012,
      "learning_rate": 0.0002987368102258587,
      "loss": 4.0449,
      "step": 21760
    },
    {
      "epoch": 0.04535416666666667,
      "grad_norm": 0.9234817028045654,
      "learning_rate": 0.00029873553316996353,
      "loss": 4.1019,
      "step": 21770
    },
    {
      "epoch": 0.045375,
      "grad_norm": 0.9328406453132629,
      "learning_rate": 0.00029873425547158973,
      "loss": 3.9747,
      "step": 21780
    },
    {
      "epoch": 0.04539583333333334,
      "grad_norm": 0.7501475811004639,
      "learning_rate": 0.0002987329771307428,
      "loss": 3.9689,
      "step": 21790
    },
    {
      "epoch": 0.04541666666666667,
      "grad_norm": 0.8602458238601685,
      "learning_rate": 0.00029873169814742827,
      "loss": 3.9403,
      "step": 21800
    },
    {
      "epoch": 0.0454375,
      "grad_norm": 0.8079740405082703,
      "learning_rate": 0.0002987304185216517,
      "loss": 3.9825,
      "step": 21810
    },
    {
      "epoch": 0.04545833333333334,
      "grad_norm": 0.8885995149612427,
      "learning_rate": 0.0002987291382534186,
      "loss": 4.0956,
      "step": 21820
    },
    {
      "epoch": 0.04547916666666667,
      "grad_norm": 0.9286413192749023,
      "learning_rate": 0.0002987278573427345,
      "loss": 3.9514,
      "step": 21830
    },
    {
      "epoch": 0.0455,
      "grad_norm": 0.826884925365448,
      "learning_rate": 0.0002987265757896049,
      "loss": 4.0596,
      "step": 21840
    },
    {
      "epoch": 0.04552083333333334,
      "grad_norm": 0.7914295196533203,
      "learning_rate": 0.0002987252935940354,
      "loss": 4.011,
      "step": 21850
    },
    {
      "epoch": 0.04554166666666667,
      "grad_norm": 0.9241766333580017,
      "learning_rate": 0.0002987240107560314,
      "loss": 3.9946,
      "step": 21860
    },
    {
      "epoch": 0.0455625,
      "grad_norm": 0.9710869193077087,
      "learning_rate": 0.00029872272727559865,
      "loss": 3.811,
      "step": 21870
    },
    {
      "epoch": 0.04558333333333333,
      "grad_norm": 1.0117418766021729,
      "learning_rate": 0.00029872144315274253,
      "loss": 4.0161,
      "step": 21880
    },
    {
      "epoch": 0.04560416666666667,
      "grad_norm": 0.7901581525802612,
      "learning_rate": 0.0002987201583874687,
      "loss": 3.8874,
      "step": 21890
    },
    {
      "epoch": 0.045625,
      "grad_norm": 0.9436231255531311,
      "learning_rate": 0.00029871887297978266,
      "loss": 3.9467,
      "step": 21900
    },
    {
      "epoch": 0.04564583333333333,
      "grad_norm": 0.7543326616287231,
      "learning_rate": 0.0002987175869296899,
      "loss": 4.1383,
      "step": 21910
    },
    {
      "epoch": 0.04566666666666667,
      "grad_norm": 0.8146910071372986,
      "learning_rate": 0.00029871630023719603,
      "loss": 3.7994,
      "step": 21920
    },
    {
      "epoch": 0.0456875,
      "grad_norm": 0.8492389917373657,
      "learning_rate": 0.0002987150129023066,
      "loss": 4.0704,
      "step": 21930
    },
    {
      "epoch": 0.04570833333333333,
      "grad_norm": 0.7508938312530518,
      "learning_rate": 0.0002987137249250272,
      "loss": 3.9807,
      "step": 21940
    },
    {
      "epoch": 0.04572916666666667,
      "grad_norm": 0.9773673415184021,
      "learning_rate": 0.0002987124363053634,
      "loss": 4.1246,
      "step": 21950
    },
    {
      "epoch": 0.04575,
      "grad_norm": 0.8136064410209656,
      "learning_rate": 0.0002987111470433207,
      "loss": 4.0942,
      "step": 21960
    },
    {
      "epoch": 0.04577083333333333,
      "grad_norm": 0.8137964606285095,
      "learning_rate": 0.00029870985713890475,
      "loss": 3.846,
      "step": 21970
    },
    {
      "epoch": 0.04579166666666667,
      "grad_norm": 0.8571567535400391,
      "learning_rate": 0.00029870856659212105,
      "loss": 4.0758,
      "step": 21980
    },
    {
      "epoch": 0.0458125,
      "grad_norm": 0.7699553370475769,
      "learning_rate": 0.0002987072754029752,
      "loss": 3.9059,
      "step": 21990
    },
    {
      "epoch": 0.04583333333333333,
      "grad_norm": 0.7438395619392395,
      "learning_rate": 0.0002987059835714728,
      "loss": 3.8593,
      "step": 22000
    },
    {
      "epoch": 0.04583333333333333,
      "eval_loss": 4.354062080383301,
      "eval_runtime": 11.5051,
      "eval_samples_per_second": 0.869,
      "eval_steps_per_second": 0.261,
      "step": 22000
    },
    {
      "epoch": 0.04585416666666667,
      "grad_norm": 0.963277280330658,
      "learning_rate": 0.0002987046910976194,
      "loss": 4.0335,
      "step": 22010
    },
    {
      "epoch": 0.045875,
      "grad_norm": 0.8337883949279785,
      "learning_rate": 0.00029870339798142065,
      "loss": 4.0478,
      "step": 22020
    },
    {
      "epoch": 0.04589583333333333,
      "grad_norm": 0.942034900188446,
      "learning_rate": 0.00029870210422288203,
      "loss": 4.0527,
      "step": 22030
    },
    {
      "epoch": 0.04591666666666667,
      "grad_norm": 0.7627479434013367,
      "learning_rate": 0.00029870080982200914,
      "loss": 4.0365,
      "step": 22040
    },
    {
      "epoch": 0.0459375,
      "grad_norm": 0.9044426083564758,
      "learning_rate": 0.00029869951477880767,
      "loss": 4.0874,
      "step": 22050
    },
    {
      "epoch": 0.04595833333333333,
      "grad_norm": 0.762162446975708,
      "learning_rate": 0.00029869821909328314,
      "loss": 4.1664,
      "step": 22060
    },
    {
      "epoch": 0.04597916666666667,
      "grad_norm": 0.9194058775901794,
      "learning_rate": 0.0002986969227654412,
      "loss": 4.1284,
      "step": 22070
    },
    {
      "epoch": 0.046,
      "grad_norm": 0.8108769655227661,
      "learning_rate": 0.00029869562579528736,
      "loss": 4.2683,
      "step": 22080
    },
    {
      "epoch": 0.04602083333333333,
      "grad_norm": 0.8059133291244507,
      "learning_rate": 0.0002986943281828273,
      "loss": 3.9431,
      "step": 22090
    },
    {
      "epoch": 0.04604166666666667,
      "grad_norm": 0.8922027349472046,
      "learning_rate": 0.0002986930299280666,
      "loss": 3.9547,
      "step": 22100
    },
    {
      "epoch": 0.0460625,
      "grad_norm": 0.9259348511695862,
      "learning_rate": 0.00029869173103101086,
      "loss": 4.0867,
      "step": 22110
    },
    {
      "epoch": 0.04608333333333333,
      "grad_norm": 0.8041831851005554,
      "learning_rate": 0.0002986904314916657,
      "loss": 4.1057,
      "step": 22120
    },
    {
      "epoch": 0.04610416666666667,
      "grad_norm": 0.7673734426498413,
      "learning_rate": 0.0002986891313100367,
      "loss": 3.9661,
      "step": 22130
    },
    {
      "epoch": 0.046125,
      "grad_norm": 0.8898199796676636,
      "learning_rate": 0.0002986878304861296,
      "loss": 4.1018,
      "step": 22140
    },
    {
      "epoch": 0.04614583333333333,
      "grad_norm": 0.7537437677383423,
      "learning_rate": 0.0002986865290199498,
      "loss": 4.0202,
      "step": 22150
    },
    {
      "epoch": 0.04616666666666667,
      "grad_norm": 0.8874825239181519,
      "learning_rate": 0.00029868522691150313,
      "loss": 4.0891,
      "step": 22160
    },
    {
      "epoch": 0.0461875,
      "grad_norm": 1.0299723148345947,
      "learning_rate": 0.0002986839241607951,
      "loss": 4.1572,
      "step": 22170
    },
    {
      "epoch": 0.04620833333333333,
      "grad_norm": 1.2870489358901978,
      "learning_rate": 0.0002986826207678314,
      "loss": 3.9314,
      "step": 22180
    },
    {
      "epoch": 0.04622916666666667,
      "grad_norm": 2.1369118690490723,
      "learning_rate": 0.00029868131673261764,
      "loss": 4.1211,
      "step": 22190
    },
    {
      "epoch": 0.04625,
      "grad_norm": 0.7322140336036682,
      "learning_rate": 0.0002986800120551594,
      "loss": 4.1071,
      "step": 22200
    },
    {
      "epoch": 0.04627083333333333,
      "grad_norm": 0.9373006224632263,
      "learning_rate": 0.0002986787067354624,
      "loss": 4.0729,
      "step": 22210
    },
    {
      "epoch": 0.04629166666666667,
      "grad_norm": 0.8496093153953552,
      "learning_rate": 0.0002986774007735322,
      "loss": 4.0306,
      "step": 22220
    },
    {
      "epoch": 0.0463125,
      "grad_norm": 0.9111897945404053,
      "learning_rate": 0.0002986760941693745,
      "loss": 4.1942,
      "step": 22230
    },
    {
      "epoch": 0.04633333333333333,
      "grad_norm": 0.839640736579895,
      "learning_rate": 0.0002986747869229949,
      "loss": 3.7773,
      "step": 22240
    },
    {
      "epoch": 0.04635416666666667,
      "grad_norm": 0.9309871196746826,
      "learning_rate": 0.0002986734790343991,
      "loss": 4.0495,
      "step": 22250
    },
    {
      "epoch": 0.046375,
      "grad_norm": 0.7932628393173218,
      "learning_rate": 0.00029867217050359273,
      "loss": 3.8967,
      "step": 22260
    },
    {
      "epoch": 0.04639583333333333,
      "grad_norm": 0.9826204180717468,
      "learning_rate": 0.0002986708613305814,
      "loss": 4.0896,
      "step": 22270
    },
    {
      "epoch": 0.04641666666666667,
      "grad_norm": 0.8916264772415161,
      "learning_rate": 0.0002986695515153708,
      "loss": 3.9854,
      "step": 22280
    },
    {
      "epoch": 0.0464375,
      "grad_norm": 0.7940315008163452,
      "learning_rate": 0.00029866824105796665,
      "loss": 3.9841,
      "step": 22290
    },
    {
      "epoch": 0.04645833333333333,
      "grad_norm": 0.7411952018737793,
      "learning_rate": 0.00029866692995837447,
      "loss": 4.0936,
      "step": 22300
    },
    {
      "epoch": 0.04647916666666667,
      "grad_norm": 0.8142653107643127,
      "learning_rate": 0.0002986656182166,
      "loss": 4.1644,
      "step": 22310
    },
    {
      "epoch": 0.0465,
      "grad_norm": 0.8728663921356201,
      "learning_rate": 0.00029866430583264895,
      "loss": 3.9703,
      "step": 22320
    },
    {
      "epoch": 0.04652083333333333,
      "grad_norm": 0.7799032330513,
      "learning_rate": 0.0002986629928065269,
      "loss": 4.1193,
      "step": 22330
    },
    {
      "epoch": 0.04654166666666667,
      "grad_norm": 0.7886219620704651,
      "learning_rate": 0.00029866167913823955,
      "loss": 3.9689,
      "step": 22340
    },
    {
      "epoch": 0.0465625,
      "grad_norm": 0.9437947869300842,
      "learning_rate": 0.00029866036482779267,
      "loss": 4.0851,
      "step": 22350
    },
    {
      "epoch": 0.04658333333333333,
      "grad_norm": 0.7859421968460083,
      "learning_rate": 0.0002986590498751918,
      "loss": 3.987,
      "step": 22360
    },
    {
      "epoch": 0.04660416666666667,
      "grad_norm": 0.9420626759529114,
      "learning_rate": 0.0002986577342804427,
      "loss": 3.8112,
      "step": 22370
    },
    {
      "epoch": 0.046625,
      "grad_norm": 0.7825009226799011,
      "learning_rate": 0.000298656418043551,
      "loss": 4.1615,
      "step": 22380
    },
    {
      "epoch": 0.04664583333333333,
      "grad_norm": 0.8822476267814636,
      "learning_rate": 0.00029865510116452244,
      "loss": 3.85,
      "step": 22390
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 0.7992731928825378,
      "learning_rate": 0.0002986537836433627,
      "loss": 3.9237,
      "step": 22400
    },
    {
      "epoch": 0.0466875,
      "grad_norm": 0.8337991833686829,
      "learning_rate": 0.00029865246548007744,
      "loss": 3.93,
      "step": 22410
    },
    {
      "epoch": 0.04670833333333333,
      "grad_norm": 0.7592121362686157,
      "learning_rate": 0.0002986511466746724,
      "loss": 4.2034,
      "step": 22420
    },
    {
      "epoch": 0.04672916666666667,
      "grad_norm": 0.8443527817726135,
      "learning_rate": 0.0002986498272271532,
      "loss": 4.1472,
      "step": 22430
    },
    {
      "epoch": 0.04675,
      "grad_norm": 0.8086874485015869,
      "learning_rate": 0.0002986485071375256,
      "loss": 3.8892,
      "step": 22440
    },
    {
      "epoch": 0.04677083333333333,
      "grad_norm": 0.9691826701164246,
      "learning_rate": 0.0002986471864057953,
      "loss": 4.0856,
      "step": 22450
    },
    {
      "epoch": 0.04679166666666667,
      "grad_norm": 0.8090049624443054,
      "learning_rate": 0.00029864586503196793,
      "loss": 3.9837,
      "step": 22460
    },
    {
      "epoch": 0.0468125,
      "grad_norm": 0.8533264994621277,
      "learning_rate": 0.0002986445430160493,
      "loss": 3.805,
      "step": 22470
    },
    {
      "epoch": 0.04683333333333333,
      "grad_norm": 0.933143138885498,
      "learning_rate": 0.00029864322035804515,
      "loss": 4.0314,
      "step": 22480
    },
    {
      "epoch": 0.04685416666666667,
      "grad_norm": 0.9897992610931396,
      "learning_rate": 0.00029864189705796105,
      "loss": 3.9058,
      "step": 22490
    },
    {
      "epoch": 0.046875,
      "grad_norm": 0.837530255317688,
      "learning_rate": 0.0002986405731158028,
      "loss": 4.2135,
      "step": 22500
    },
    {
      "epoch": 0.04689583333333333,
      "grad_norm": 0.8330625295639038,
      "learning_rate": 0.0002986392485315762,
      "loss": 3.9353,
      "step": 22510
    },
    {
      "epoch": 0.04691666666666667,
      "grad_norm": 0.9670344591140747,
      "learning_rate": 0.00029863792330528675,
      "loss": 4.0792,
      "step": 22520
    },
    {
      "epoch": 0.0469375,
      "grad_norm": 0.7565240859985352,
      "learning_rate": 0.0002986365974369403,
      "loss": 4.0004,
      "step": 22530
    },
    {
      "epoch": 0.04695833333333333,
      "grad_norm": 0.8141567707061768,
      "learning_rate": 0.0002986352709265427,
      "loss": 4.0345,
      "step": 22540
    },
    {
      "epoch": 0.04697916666666667,
      "grad_norm": 0.8310573697090149,
      "learning_rate": 0.00029863394377409953,
      "loss": 3.9254,
      "step": 22550
    },
    {
      "epoch": 0.047,
      "grad_norm": 0.8589280247688293,
      "learning_rate": 0.0002986326159796165,
      "loss": 4.0716,
      "step": 22560
    },
    {
      "epoch": 0.04702083333333333,
      "grad_norm": 0.7215357422828674,
      "learning_rate": 0.00029863128754309946,
      "loss": 3.9456,
      "step": 22570
    },
    {
      "epoch": 0.04704166666666667,
      "grad_norm": 0.7969028949737549,
      "learning_rate": 0.00029862995846455405,
      "loss": 4.0897,
      "step": 22580
    },
    {
      "epoch": 0.0470625,
      "grad_norm": 0.7791271805763245,
      "learning_rate": 0.0002986286287439861,
      "loss": 3.9209,
      "step": 22590
    },
    {
      "epoch": 0.04708333333333333,
      "grad_norm": 0.9344449043273926,
      "learning_rate": 0.0002986272983814013,
      "loss": 3.8205,
      "step": 22600
    },
    {
      "epoch": 0.04710416666666667,
      "grad_norm": 0.7766220569610596,
      "learning_rate": 0.00029862596737680535,
      "loss": 3.9536,
      "step": 22610
    },
    {
      "epoch": 0.047125,
      "grad_norm": 0.8056253790855408,
      "learning_rate": 0.00029862463573020404,
      "loss": 4.075,
      "step": 22620
    },
    {
      "epoch": 0.04714583333333333,
      "grad_norm": 0.9218420386314392,
      "learning_rate": 0.0002986233034416032,
      "loss": 3.9197,
      "step": 22630
    },
    {
      "epoch": 0.04716666666666667,
      "grad_norm": 0.778448224067688,
      "learning_rate": 0.00029862197051100847,
      "loss": 4.0624,
      "step": 22640
    },
    {
      "epoch": 0.0471875,
      "grad_norm": 0.7777163982391357,
      "learning_rate": 0.00029862063693842565,
      "loss": 4.1116,
      "step": 22650
    },
    {
      "epoch": 0.04720833333333333,
      "grad_norm": 0.8576770424842834,
      "learning_rate": 0.00029861930272386054,
      "loss": 3.9981,
      "step": 22660
    },
    {
      "epoch": 0.04722916666666667,
      "grad_norm": 0.7913747429847717,
      "learning_rate": 0.0002986179678673189,
      "loss": 4.1004,
      "step": 22670
    },
    {
      "epoch": 0.04725,
      "grad_norm": 0.7739566564559937,
      "learning_rate": 0.00029861663236880644,
      "loss": 3.9592,
      "step": 22680
    },
    {
      "epoch": 0.04727083333333333,
      "grad_norm": 0.7838767170906067,
      "learning_rate": 0.0002986152962283289,
      "loss": 3.9783,
      "step": 22690
    },
    {
      "epoch": 0.04729166666666667,
      "grad_norm": 1.0018246173858643,
      "learning_rate": 0.00029861395944589213,
      "loss": 3.9618,
      "step": 22700
    },
    {
      "epoch": 0.0473125,
      "grad_norm": 0.8772920966148376,
      "learning_rate": 0.0002986126220215019,
      "loss": 3.9055,
      "step": 22710
    },
    {
      "epoch": 0.04733333333333333,
      "grad_norm": 0.8416135907173157,
      "learning_rate": 0.00029861128395516397,
      "loss": 3.9989,
      "step": 22720
    },
    {
      "epoch": 0.04735416666666667,
      "grad_norm": 0.8006986975669861,
      "learning_rate": 0.00029860994524688416,
      "loss": 4.0264,
      "step": 22730
    },
    {
      "epoch": 0.047375,
      "grad_norm": 0.9206904768943787,
      "learning_rate": 0.00029860860589666814,
      "loss": 4.0113,
      "step": 22740
    },
    {
      "epoch": 0.04739583333333333,
      "grad_norm": 0.7833201885223389,
      "learning_rate": 0.00029860726590452176,
      "loss": 4.0429,
      "step": 22750
    },
    {
      "epoch": 0.04741666666666667,
      "grad_norm": 0.8064197897911072,
      "learning_rate": 0.0002986059252704509,
      "loss": 4.1145,
      "step": 22760
    },
    {
      "epoch": 0.0474375,
      "grad_norm": 0.8648513555526733,
      "learning_rate": 0.0002986045839944612,
      "loss": 4.1137,
      "step": 22770
    },
    {
      "epoch": 0.04745833333333333,
      "grad_norm": 0.7918399572372437,
      "learning_rate": 0.0002986032420765585,
      "loss": 4.1543,
      "step": 22780
    },
    {
      "epoch": 0.04747916666666667,
      "grad_norm": 0.8101834058761597,
      "learning_rate": 0.00029860189951674864,
      "loss": 3.9161,
      "step": 22790
    },
    {
      "epoch": 0.0475,
      "grad_norm": 0.819925844669342,
      "learning_rate": 0.00029860055631503743,
      "loss": 3.7748,
      "step": 22800
    },
    {
      "epoch": 0.04752083333333333,
      "grad_norm": 0.9304993152618408,
      "learning_rate": 0.00029859921247143056,
      "loss": 4.0368,
      "step": 22810
    },
    {
      "epoch": 0.04754166666666667,
      "grad_norm": 0.7387692928314209,
      "learning_rate": 0.00029859786798593394,
      "loss": 4.0492,
      "step": 22820
    },
    {
      "epoch": 0.0475625,
      "grad_norm": 0.8166192173957825,
      "learning_rate": 0.0002985965228585534,
      "loss": 4.2042,
      "step": 22830
    },
    {
      "epoch": 0.04758333333333333,
      "grad_norm": 0.7961153984069824,
      "learning_rate": 0.00029859517708929464,
      "loss": 4.0143,
      "step": 22840
    },
    {
      "epoch": 0.04760416666666667,
      "grad_norm": 0.9300776720046997,
      "learning_rate": 0.0002985938306781636,
      "loss": 4.1284,
      "step": 22850
    },
    {
      "epoch": 0.047625,
      "grad_norm": 0.6692639589309692,
      "learning_rate": 0.000298592483625166,
      "loss": 4.1159,
      "step": 22860
    },
    {
      "epoch": 0.04764583333333333,
      "grad_norm": 0.7543424963951111,
      "learning_rate": 0.00029859113593030766,
      "loss": 4.2312,
      "step": 22870
    },
    {
      "epoch": 0.04766666666666667,
      "grad_norm": 0.8469621539115906,
      "learning_rate": 0.00029858978759359444,
      "loss": 3.9753,
      "step": 22880
    },
    {
      "epoch": 0.0476875,
      "grad_norm": 0.7444190979003906,
      "learning_rate": 0.0002985884386150321,
      "loss": 3.8403,
      "step": 22890
    },
    {
      "epoch": 0.04770833333333333,
      "grad_norm": 0.8989748358726501,
      "learning_rate": 0.00029858708899462667,
      "loss": 4.1799,
      "step": 22900
    },
    {
      "epoch": 0.04772916666666667,
      "grad_norm": 0.8425635099411011,
      "learning_rate": 0.00029858573873238367,
      "loss": 3.9979,
      "step": 22910
    },
    {
      "epoch": 0.04775,
      "grad_norm": 0.8152500987052917,
      "learning_rate": 0.0002985843878283092,
      "loss": 4.218,
      "step": 22920
    },
    {
      "epoch": 0.04777083333333333,
      "grad_norm": 0.7674303650856018,
      "learning_rate": 0.000298583036282409,
      "loss": 3.9885,
      "step": 22930
    },
    {
      "epoch": 0.04779166666666667,
      "grad_norm": 0.9175886511802673,
      "learning_rate": 0.0002985816840946888,
      "loss": 4.0797,
      "step": 22940
    },
    {
      "epoch": 0.0478125,
      "grad_norm": 0.7852349877357483,
      "learning_rate": 0.0002985803312651546,
      "loss": 3.985,
      "step": 22950
    },
    {
      "epoch": 0.04783333333333333,
      "grad_norm": 0.8315421938896179,
      "learning_rate": 0.00029857897779381215,
      "loss": 3.946,
      "step": 22960
    },
    {
      "epoch": 0.04785416666666667,
      "grad_norm": 0.9046752452850342,
      "learning_rate": 0.00029857762368066734,
      "loss": 4.089,
      "step": 22970
    },
    {
      "epoch": 0.047875,
      "grad_norm": 0.8425107002258301,
      "learning_rate": 0.000298576268925726,
      "loss": 3.9325,
      "step": 22980
    },
    {
      "epoch": 0.04789583333333333,
      "grad_norm": 0.7931081056594849,
      "learning_rate": 0.000298574913528994,
      "loss": 3.9356,
      "step": 22990
    },
    {
      "epoch": 0.04791666666666667,
      "grad_norm": 0.8432623744010925,
      "learning_rate": 0.0002985735574904772,
      "loss": 4.0354,
      "step": 23000
    },
    {
      "epoch": 0.04791666666666667,
      "eval_loss": 4.345559120178223,
      "eval_runtime": 10.2992,
      "eval_samples_per_second": 0.971,
      "eval_steps_per_second": 0.291,
      "step": 23000
    },
    {
      "epoch": 0.0479375,
      "grad_norm": 0.8986987471580505,
      "learning_rate": 0.0002985722008101814,
      "loss": 4.1672,
      "step": 23010
    },
    {
      "epoch": 0.04795833333333333,
      "grad_norm": 0.7821569442749023,
      "learning_rate": 0.00029857084348811254,
      "loss": 4.1932,
      "step": 23020
    },
    {
      "epoch": 0.04797916666666667,
      "grad_norm": 0.7799119353294373,
      "learning_rate": 0.00029856948552427643,
      "loss": 3.9748,
      "step": 23030
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.6990039348602295,
      "learning_rate": 0.00029856812691867894,
      "loss": 4.0561,
      "step": 23040
    },
    {
      "epoch": 0.04802083333333333,
      "grad_norm": 0.7636101841926575,
      "learning_rate": 0.0002985667676713259,
      "loss": 3.9505,
      "step": 23050
    },
    {
      "epoch": 0.04804166666666667,
      "grad_norm": 0.7896153330802917,
      "learning_rate": 0.00029856540778222334,
      "loss": 4.0456,
      "step": 23060
    },
    {
      "epoch": 0.0480625,
      "grad_norm": 0.8444091081619263,
      "learning_rate": 0.000298564047251377,
      "loss": 4.0778,
      "step": 23070
    },
    {
      "epoch": 0.04808333333333333,
      "grad_norm": 0.8280452489852905,
      "learning_rate": 0.0002985626860787928,
      "loss": 4.0967,
      "step": 23080
    },
    {
      "epoch": 0.04810416666666667,
      "grad_norm": 0.7722503542900085,
      "learning_rate": 0.0002985613242644765,
      "loss": 3.9439,
      "step": 23090
    },
    {
      "epoch": 0.048125,
      "grad_norm": 0.7447543144226074,
      "learning_rate": 0.00029855996180843417,
      "loss": 3.877,
      "step": 23100
    },
    {
      "epoch": 0.04814583333333333,
      "grad_norm": 0.836034893989563,
      "learning_rate": 0.00029855859871067157,
      "loss": 3.9852,
      "step": 23110
    },
    {
      "epoch": 0.04816666666666667,
      "grad_norm": 0.7539575099945068,
      "learning_rate": 0.0002985572349711946,
      "loss": 4.1457,
      "step": 23120
    },
    {
      "epoch": 0.0481875,
      "grad_norm": 0.9515137076377869,
      "learning_rate": 0.00029855587059000925,
      "loss": 4.2138,
      "step": 23130
    },
    {
      "epoch": 0.04820833333333333,
      "grad_norm": 0.7746474146842957,
      "learning_rate": 0.0002985545055671213,
      "loss": 3.869,
      "step": 23140
    },
    {
      "epoch": 0.04822916666666666,
      "grad_norm": 0.9983747005462646,
      "learning_rate": 0.0002985531399025367,
      "loss": 3.8766,
      "step": 23150
    },
    {
      "epoch": 0.04825,
      "grad_norm": 0.8665918111801147,
      "learning_rate": 0.0002985517735962613,
      "loss": 4.001,
      "step": 23160
    },
    {
      "epoch": 0.04827083333333333,
      "grad_norm": 0.895491361618042,
      "learning_rate": 0.0002985504066483011,
      "loss": 3.9846,
      "step": 23170
    },
    {
      "epoch": 0.04829166666666666,
      "grad_norm": 0.7675134539604187,
      "learning_rate": 0.0002985490390586619,
      "loss": 4.0145,
      "step": 23180
    },
    {
      "epoch": 0.0483125,
      "grad_norm": 0.7956461310386658,
      "learning_rate": 0.0002985476708273497,
      "loss": 3.9626,
      "step": 23190
    },
    {
      "epoch": 0.04833333333333333,
      "grad_norm": 0.7424895763397217,
      "learning_rate": 0.00029854630195437026,
      "loss": 4.1756,
      "step": 23200
    },
    {
      "epoch": 0.04835416666666666,
      "grad_norm": 0.8789083957672119,
      "learning_rate": 0.00029854493243972974,
      "loss": 4.1089,
      "step": 23210
    },
    {
      "epoch": 0.048375,
      "grad_norm": 0.9808844923973083,
      "learning_rate": 0.0002985435622834338,
      "loss": 4.1352,
      "step": 23220
    },
    {
      "epoch": 0.04839583333333333,
      "grad_norm": 0.840724527835846,
      "learning_rate": 0.0002985421914854885,
      "loss": 3.8581,
      "step": 23230
    },
    {
      "epoch": 0.04841666666666666,
      "grad_norm": 0.7633494138717651,
      "learning_rate": 0.0002985408200458997,
      "loss": 3.9884,
      "step": 23240
    },
    {
      "epoch": 0.0484375,
      "grad_norm": 0.8793787956237793,
      "learning_rate": 0.0002985394479646734,
      "loss": 4.1357,
      "step": 23250
    },
    {
      "epoch": 0.04845833333333333,
      "grad_norm": 0.8369579315185547,
      "learning_rate": 0.0002985380752418155,
      "loss": 4.0,
      "step": 23260
    },
    {
      "epoch": 0.04847916666666666,
      "grad_norm": 0.8232877254486084,
      "learning_rate": 0.0002985367018773318,
      "loss": 4.1381,
      "step": 23270
    },
    {
      "epoch": 0.0485,
      "grad_norm": 0.7644029855728149,
      "learning_rate": 0.0002985353278712285,
      "loss": 4.0884,
      "step": 23280
    },
    {
      "epoch": 0.04852083333333333,
      "grad_norm": 0.779992938041687,
      "learning_rate": 0.00029853395322351127,
      "loss": 4.0118,
      "step": 23290
    },
    {
      "epoch": 0.048541666666666664,
      "grad_norm": 0.8719344735145569,
      "learning_rate": 0.0002985325779341862,
      "loss": 3.9963,
      "step": 23300
    },
    {
      "epoch": 0.0485625,
      "grad_norm": 0.8808066248893738,
      "learning_rate": 0.0002985312020032591,
      "loss": 3.9822,
      "step": 23310
    },
    {
      "epoch": 0.04858333333333333,
      "grad_norm": 0.7952739000320435,
      "learning_rate": 0.0002985298254307361,
      "loss": 4.135,
      "step": 23320
    },
    {
      "epoch": 0.048604166666666664,
      "grad_norm": 0.8016321063041687,
      "learning_rate": 0.000298528448216623,
      "loss": 4.0967,
      "step": 23330
    },
    {
      "epoch": 0.048625,
      "grad_norm": 0.8336403965950012,
      "learning_rate": 0.00029852707036092584,
      "loss": 4.0093,
      "step": 23340
    },
    {
      "epoch": 0.04864583333333333,
      "grad_norm": 0.9109510183334351,
      "learning_rate": 0.00029852569186365047,
      "loss": 4.1692,
      "step": 23350
    },
    {
      "epoch": 0.048666666666666664,
      "grad_norm": 0.9067474007606506,
      "learning_rate": 0.00029852431272480297,
      "loss": 4.0933,
      "step": 23360
    },
    {
      "epoch": 0.0486875,
      "grad_norm": 0.8083096146583557,
      "learning_rate": 0.0002985229329443892,
      "loss": 4.1891,
      "step": 23370
    },
    {
      "epoch": 0.04870833333333333,
      "grad_norm": 0.941169261932373,
      "learning_rate": 0.0002985215525224151,
      "loss": 4.0323,
      "step": 23380
    },
    {
      "epoch": 0.048729166666666664,
      "grad_norm": 0.8773019909858704,
      "learning_rate": 0.00029852017145888673,
      "loss": 4.0611,
      "step": 23390
    },
    {
      "epoch": 0.04875,
      "grad_norm": 0.7840174436569214,
      "learning_rate": 0.00029851878975381,
      "loss": 4.0132,
      "step": 23400
    },
    {
      "epoch": 0.04877083333333333,
      "grad_norm": 0.8746412992477417,
      "learning_rate": 0.00029851740740719087,
      "loss": 4.0547,
      "step": 23410
    },
    {
      "epoch": 0.048791666666666664,
      "grad_norm": 0.957899808883667,
      "learning_rate": 0.00029851602441903534,
      "loss": 3.9956,
      "step": 23420
    },
    {
      "epoch": 0.0488125,
      "grad_norm": 0.8321362137794495,
      "learning_rate": 0.00029851464078934937,
      "loss": 4.0338,
      "step": 23430
    },
    {
      "epoch": 0.04883333333333333,
      "grad_norm": 0.9092917442321777,
      "learning_rate": 0.00029851325651813896,
      "loss": 3.9863,
      "step": 23440
    },
    {
      "epoch": 0.048854166666666664,
      "grad_norm": 0.7861893177032471,
      "learning_rate": 0.00029851187160541003,
      "loss": 4.0301,
      "step": 23450
    },
    {
      "epoch": 0.048875,
      "grad_norm": 0.8398141860961914,
      "learning_rate": 0.0002985104860511686,
      "loss": 4.027,
      "step": 23460
    },
    {
      "epoch": 0.04889583333333333,
      "grad_norm": 0.7907713055610657,
      "learning_rate": 0.00029850909985542067,
      "loss": 4.0736,
      "step": 23470
    },
    {
      "epoch": 0.048916666666666664,
      "grad_norm": 0.9949638843536377,
      "learning_rate": 0.0002985077130181722,
      "loss": 3.9623,
      "step": 23480
    },
    {
      "epoch": 0.0489375,
      "grad_norm": 0.8502593636512756,
      "learning_rate": 0.0002985063255394292,
      "loss": 3.9878,
      "step": 23490
    },
    {
      "epoch": 0.04895833333333333,
      "grad_norm": 0.8614035248756409,
      "learning_rate": 0.0002985049374191977,
      "loss": 4.1044,
      "step": 23500
    },
    {
      "epoch": 0.048979166666666664,
      "grad_norm": 0.8500977754592896,
      "learning_rate": 0.0002985035486574836,
      "loss": 4.0118,
      "step": 23510
    },
    {
      "epoch": 0.049,
      "grad_norm": 0.9270911812782288,
      "learning_rate": 0.000298502159254293,
      "loss": 3.9884,
      "step": 23520
    },
    {
      "epoch": 0.04902083333333333,
      "grad_norm": 0.7390990853309631,
      "learning_rate": 0.0002985007692096318,
      "loss": 4.1772,
      "step": 23530
    },
    {
      "epoch": 0.049041666666666664,
      "grad_norm": 0.8720413446426392,
      "learning_rate": 0.0002984993785235061,
      "loss": 4.1545,
      "step": 23540
    },
    {
      "epoch": 0.0490625,
      "grad_norm": 0.8146336674690247,
      "learning_rate": 0.0002984979871959218,
      "loss": 4.0268,
      "step": 23550
    },
    {
      "epoch": 0.04908333333333333,
      "grad_norm": 0.8770825862884521,
      "learning_rate": 0.000298496595226885,
      "loss": 3.949,
      "step": 23560
    },
    {
      "epoch": 0.049104166666666664,
      "grad_norm": 0.9566527605056763,
      "learning_rate": 0.00029849520261640176,
      "loss": 4.0052,
      "step": 23570
    },
    {
      "epoch": 0.049125,
      "grad_norm": 0.9146139621734619,
      "learning_rate": 0.00029849380936447793,
      "loss": 4.042,
      "step": 23580
    },
    {
      "epoch": 0.04914583333333333,
      "grad_norm": 0.7903580665588379,
      "learning_rate": 0.00029849241547111967,
      "loss": 3.9194,
      "step": 23590
    },
    {
      "epoch": 0.049166666666666664,
      "grad_norm": 0.8264316916465759,
      "learning_rate": 0.0002984910209363329,
      "loss": 4.0075,
      "step": 23600
    },
    {
      "epoch": 0.0491875,
      "grad_norm": 0.7081221342086792,
      "learning_rate": 0.00029848962576012377,
      "loss": 4.0911,
      "step": 23610
    },
    {
      "epoch": 0.04920833333333333,
      "grad_norm": 0.8810615539550781,
      "learning_rate": 0.0002984882299424982,
      "loss": 4.0778,
      "step": 23620
    },
    {
      "epoch": 0.049229166666666664,
      "grad_norm": 0.9713292121887207,
      "learning_rate": 0.0002984868334834623,
      "loss": 4.0909,
      "step": 23630
    },
    {
      "epoch": 0.04925,
      "grad_norm": 0.9011144042015076,
      "learning_rate": 0.000298485436383022,
      "loss": 4.0532,
      "step": 23640
    },
    {
      "epoch": 0.04927083333333333,
      "grad_norm": 0.7226399183273315,
      "learning_rate": 0.00029848403864118336,
      "loss": 4.0379,
      "step": 23650
    },
    {
      "epoch": 0.049291666666666664,
      "grad_norm": 0.8149161338806152,
      "learning_rate": 0.0002984826402579525,
      "loss": 4.0274,
      "step": 23660
    },
    {
      "epoch": 0.0493125,
      "grad_norm": 0.8129730820655823,
      "learning_rate": 0.0002984812412333354,
      "loss": 4.0539,
      "step": 23670
    },
    {
      "epoch": 0.04933333333333333,
      "grad_norm": 1.073933482170105,
      "learning_rate": 0.0002984798415673381,
      "loss": 3.9665,
      "step": 23680
    },
    {
      "epoch": 0.049354166666666664,
      "grad_norm": 0.7957851886749268,
      "learning_rate": 0.0002984784412599667,
      "loss": 3.9831,
      "step": 23690
    },
    {
      "epoch": 0.049375,
      "grad_norm": 0.7592307925224304,
      "learning_rate": 0.00029847704031122713,
      "loss": 4.1233,
      "step": 23700
    },
    {
      "epoch": 0.04939583333333333,
      "grad_norm": 0.782427191734314,
      "learning_rate": 0.00029847563872112555,
      "loss": 3.9348,
      "step": 23710
    },
    {
      "epoch": 0.049416666666666664,
      "grad_norm": 0.7728231549263,
      "learning_rate": 0.00029847423648966803,
      "loss": 3.8702,
      "step": 23720
    },
    {
      "epoch": 0.0494375,
      "grad_norm": 0.7528290748596191,
      "learning_rate": 0.0002984728336168605,
      "loss": 4.0914,
      "step": 23730
    },
    {
      "epoch": 0.04945833333333333,
      "grad_norm": 0.7910967469215393,
      "learning_rate": 0.0002984714301027091,
      "loss": 4.001,
      "step": 23740
    },
    {
      "epoch": 0.049479166666666664,
      "grad_norm": 0.8371394276618958,
      "learning_rate": 0.00029847002594721997,
      "loss": 4.1024,
      "step": 23750
    },
    {
      "epoch": 0.0495,
      "grad_norm": 0.8186953663825989,
      "learning_rate": 0.00029846862115039905,
      "loss": 4.0757,
      "step": 23760
    },
    {
      "epoch": 0.04952083333333333,
      "grad_norm": 0.92894047498703,
      "learning_rate": 0.00029846721571225244,
      "loss": 4.0526,
      "step": 23770
    },
    {
      "epoch": 0.049541666666666664,
      "grad_norm": 0.8800164461135864,
      "learning_rate": 0.00029846580963278625,
      "loss": 3.7911,
      "step": 23780
    },
    {
      "epoch": 0.0495625,
      "grad_norm": 0.8590853214263916,
      "learning_rate": 0.0002984644029120065,
      "loss": 4.0327,
      "step": 23790
    },
    {
      "epoch": 0.04958333333333333,
      "grad_norm": 0.7221733927726746,
      "learning_rate": 0.00029846299554991935,
      "loss": 3.9983,
      "step": 23800
    },
    {
      "epoch": 0.049604166666666664,
      "grad_norm": 0.7771899104118347,
      "learning_rate": 0.00029846158754653077,
      "loss": 3.87,
      "step": 23810
    },
    {
      "epoch": 0.049625,
      "grad_norm": 0.7342985272407532,
      "learning_rate": 0.0002984601789018469,
      "loss": 4.0121,
      "step": 23820
    },
    {
      "epoch": 0.049645833333333333,
      "grad_norm": 0.853218138217926,
      "learning_rate": 0.0002984587696158739,
      "loss": 4.0565,
      "step": 23830
    },
    {
      "epoch": 0.049666666666666665,
      "grad_norm": 0.8374419808387756,
      "learning_rate": 0.00029845735968861767,
      "loss": 3.8785,
      "step": 23840
    },
    {
      "epoch": 0.0496875,
      "grad_norm": 0.851003110408783,
      "learning_rate": 0.00029845594912008443,
      "loss": 4.1569,
      "step": 23850
    },
    {
      "epoch": 0.049708333333333334,
      "grad_norm": 0.833723783493042,
      "learning_rate": 0.0002984545379102803,
      "loss": 4.055,
      "step": 23860
    },
    {
      "epoch": 0.049729166666666665,
      "grad_norm": 0.8583168387413025,
      "learning_rate": 0.0002984531260592113,
      "loss": 3.9413,
      "step": 23870
    },
    {
      "epoch": 0.04975,
      "grad_norm": 0.7722224593162537,
      "learning_rate": 0.0002984517135668836,
      "loss": 4.149,
      "step": 23880
    },
    {
      "epoch": 0.049770833333333334,
      "grad_norm": 0.8198390603065491,
      "learning_rate": 0.0002984503004333032,
      "loss": 4.0969,
      "step": 23890
    },
    {
      "epoch": 0.049791666666666665,
      "grad_norm": 0.8864487409591675,
      "learning_rate": 0.0002984488866584763,
      "loss": 4.1366,
      "step": 23900
    },
    {
      "epoch": 0.0498125,
      "grad_norm": 0.6893771886825562,
      "learning_rate": 0.000298447472242409,
      "loss": 4.0697,
      "step": 23910
    },
    {
      "epoch": 0.049833333333333334,
      "grad_norm": 0.737511157989502,
      "learning_rate": 0.0002984460571851073,
      "loss": 3.9544,
      "step": 23920
    },
    {
      "epoch": 0.049854166666666665,
      "grad_norm": 1.0342742204666138,
      "learning_rate": 0.00029844464148657743,
      "loss": 4.0968,
      "step": 23930
    },
    {
      "epoch": 0.049875,
      "grad_norm": 0.8139572739601135,
      "learning_rate": 0.00029844322514682546,
      "loss": 3.8609,
      "step": 23940
    },
    {
      "epoch": 0.049895833333333334,
      "grad_norm": 0.7324793338775635,
      "learning_rate": 0.0002984418081658575,
      "loss": 3.9894,
      "step": 23950
    },
    {
      "epoch": 0.049916666666666665,
      "grad_norm": 0.7340117692947388,
      "learning_rate": 0.0002984403905436797,
      "loss": 3.98,
      "step": 23960
    },
    {
      "epoch": 0.0499375,
      "grad_norm": 0.851635217666626,
      "learning_rate": 0.0002984389722802982,
      "loss": 3.9136,
      "step": 23970
    },
    {
      "epoch": 0.049958333333333334,
      "grad_norm": 0.7983063459396362,
      "learning_rate": 0.0002984375533757191,
      "loss": 4.0232,
      "step": 23980
    },
    {
      "epoch": 0.049979166666666665,
      "grad_norm": 0.853800892829895,
      "learning_rate": 0.0002984361338299485,
      "loss": 3.8672,
      "step": 23990
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8548151254653931,
      "learning_rate": 0.00029843471364299256,
      "loss": 4.0783,
      "step": 24000
    },
    {
      "epoch": 0.05,
      "eval_loss": 4.347347736358643,
      "eval_runtime": 11.4296,
      "eval_samples_per_second": 0.875,
      "eval_steps_per_second": 0.262,
      "step": 24000
    },
    {
      "epoch": 0.050020833333333334,
      "grad_norm": 0.8277662396430969,
      "learning_rate": 0.0002984332928148574,
      "loss": 3.9539,
      "step": 24010
    },
    {
      "epoch": 0.050041666666666665,
      "grad_norm": 0.8331337571144104,
      "learning_rate": 0.00029843187134554914,
      "loss": 3.9732,
      "step": 24020
    },
    {
      "epoch": 0.0500625,
      "grad_norm": 0.9000012874603271,
      "learning_rate": 0.000298430449235074,
      "loss": 3.9963,
      "step": 24030
    },
    {
      "epoch": 0.050083333333333334,
      "grad_norm": 0.9151877760887146,
      "learning_rate": 0.00029842902648343807,
      "loss": 3.9517,
      "step": 24040
    },
    {
      "epoch": 0.050104166666666665,
      "grad_norm": 0.8493151068687439,
      "learning_rate": 0.0002984276030906475,
      "loss": 4.093,
      "step": 24050
    },
    {
      "epoch": 0.050125,
      "grad_norm": 0.7760912775993347,
      "learning_rate": 0.0002984261790567084,
      "loss": 4.055,
      "step": 24060
    },
    {
      "epoch": 0.050145833333333334,
      "grad_norm": 0.864129364490509,
      "learning_rate": 0.000298424754381627,
      "loss": 3.9772,
      "step": 24070
    },
    {
      "epoch": 0.050166666666666665,
      "grad_norm": 0.9417356848716736,
      "learning_rate": 0.00029842332906540933,
      "loss": 3.9935,
      "step": 24080
    },
    {
      "epoch": 0.0501875,
      "grad_norm": 0.8644965887069702,
      "learning_rate": 0.00029842190310806174,
      "loss": 3.932,
      "step": 24090
    },
    {
      "epoch": 0.050208333333333334,
      "grad_norm": 0.8468145728111267,
      "learning_rate": 0.0002984204765095902,
      "loss": 4.0962,
      "step": 24100
    },
    {
      "epoch": 0.050229166666666665,
      "grad_norm": 0.95412677526474,
      "learning_rate": 0.00029841904927000097,
      "loss": 4.073,
      "step": 24110
    },
    {
      "epoch": 0.05025,
      "grad_norm": 0.8298219442367554,
      "learning_rate": 0.0002984176213893002,
      "loss": 4.1402,
      "step": 24120
    },
    {
      "epoch": 0.050270833333333334,
      "grad_norm": 0.9508038759231567,
      "learning_rate": 0.0002984161928674941,
      "loss": 3.9665,
      "step": 24130
    },
    {
      "epoch": 0.050291666666666665,
      "grad_norm": 0.7885833382606506,
      "learning_rate": 0.00029841476370458876,
      "loss": 4.0473,
      "step": 24140
    },
    {
      "epoch": 0.0503125,
      "grad_norm": 0.9281105995178223,
      "learning_rate": 0.00029841333390059037,
      "loss": 4.0735,
      "step": 24150
    },
    {
      "epoch": 0.050333333333333334,
      "grad_norm": 0.9810423254966736,
      "learning_rate": 0.0002984119034555051,
      "loss": 4.1767,
      "step": 24160
    },
    {
      "epoch": 0.050354166666666665,
      "grad_norm": 0.8207609057426453,
      "learning_rate": 0.0002984104723693392,
      "loss": 4.0661,
      "step": 24170
    },
    {
      "epoch": 0.050375,
      "grad_norm": 0.8254885673522949,
      "learning_rate": 0.00029840904064209876,
      "loss": 3.9213,
      "step": 24180
    },
    {
      "epoch": 0.050395833333333334,
      "grad_norm": 1.1959748268127441,
      "learning_rate": 0.00029840760827379005,
      "loss": 3.8813,
      "step": 24190
    },
    {
      "epoch": 0.050416666666666665,
      "grad_norm": 0.8329674005508423,
      "learning_rate": 0.0002984061752644192,
      "loss": 4.0065,
      "step": 24200
    },
    {
      "epoch": 0.0504375,
      "grad_norm": 0.7591705918312073,
      "learning_rate": 0.00029840474161399244,
      "loss": 4.0899,
      "step": 24210
    },
    {
      "epoch": 0.050458333333333334,
      "grad_norm": 0.8808771967887878,
      "learning_rate": 0.0002984033073225159,
      "loss": 3.8932,
      "step": 24220
    },
    {
      "epoch": 0.050479166666666665,
      "grad_norm": 0.7809692025184631,
      "learning_rate": 0.00029840187238999586,
      "loss": 4.1626,
      "step": 24230
    },
    {
      "epoch": 0.0505,
      "grad_norm": 0.8034283518791199,
      "learning_rate": 0.0002984004368164384,
      "loss": 4.0652,
      "step": 24240
    },
    {
      "epoch": 0.050520833333333334,
      "grad_norm": 0.6930572390556335,
      "learning_rate": 0.00029839900060184987,
      "loss": 4.0517,
      "step": 24250
    },
    {
      "epoch": 0.050541666666666665,
      "grad_norm": 0.9040699601173401,
      "learning_rate": 0.0002983975637462364,
      "loss": 4.0113,
      "step": 24260
    },
    {
      "epoch": 0.0505625,
      "grad_norm": 0.8656926155090332,
      "learning_rate": 0.0002983961262496041,
      "loss": 4.0329,
      "step": 24270
    },
    {
      "epoch": 0.050583333333333334,
      "grad_norm": 0.967914879322052,
      "learning_rate": 0.00029839468811195934,
      "loss": 3.8955,
      "step": 24280
    },
    {
      "epoch": 0.050604166666666665,
      "grad_norm": 0.8455100655555725,
      "learning_rate": 0.00029839324933330833,
      "loss": 3.9037,
      "step": 24290
    },
    {
      "epoch": 0.050625,
      "grad_norm": 0.7704584002494812,
      "learning_rate": 0.0002983918099136571,
      "loss": 4.0779,
      "step": 24300
    },
    {
      "epoch": 0.050645833333333334,
      "grad_norm": 0.7977133989334106,
      "learning_rate": 0.00029839036985301203,
      "loss": 4.0039,
      "step": 24310
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 0.7024787664413452,
      "learning_rate": 0.00029838892915137933,
      "loss": 4.1259,
      "step": 24320
    },
    {
      "epoch": 0.0506875,
      "grad_norm": 0.9227488040924072,
      "learning_rate": 0.00029838748780876517,
      "loss": 4.1485,
      "step": 24330
    },
    {
      "epoch": 0.050708333333333334,
      "grad_norm": 0.872511088848114,
      "learning_rate": 0.0002983860458251758,
      "loss": 4.0785,
      "step": 24340
    },
    {
      "epoch": 0.050729166666666665,
      "grad_norm": 0.7802706956863403,
      "learning_rate": 0.00029838460320061745,
      "loss": 4.0116,
      "step": 24350
    },
    {
      "epoch": 0.05075,
      "grad_norm": 0.8472303748130798,
      "learning_rate": 0.00029838315993509635,
      "loss": 4.1154,
      "step": 24360
    },
    {
      "epoch": 0.050770833333333334,
      "grad_norm": 0.7653231620788574,
      "learning_rate": 0.00029838171602861874,
      "loss": 4.0464,
      "step": 24370
    },
    {
      "epoch": 0.050791666666666666,
      "grad_norm": 0.8424580693244934,
      "learning_rate": 0.0002983802714811908,
      "loss": 3.9846,
      "step": 24380
    },
    {
      "epoch": 0.0508125,
      "grad_norm": 0.7617825269699097,
      "learning_rate": 0.0002983788262928189,
      "loss": 4.0596,
      "step": 24390
    },
    {
      "epoch": 0.050833333333333335,
      "grad_norm": 0.8510026335716248,
      "learning_rate": 0.0002983773804635092,
      "loss": 3.9542,
      "step": 24400
    },
    {
      "epoch": 0.050854166666666666,
      "grad_norm": 0.8444216251373291,
      "learning_rate": 0.00029837593399326785,
      "loss": 4.0048,
      "step": 24410
    },
    {
      "epoch": 0.050875,
      "grad_norm": 0.863207221031189,
      "learning_rate": 0.00029837448688210127,
      "loss": 4.0538,
      "step": 24420
    },
    {
      "epoch": 0.050895833333333335,
      "grad_norm": 0.8117720484733582,
      "learning_rate": 0.00029837303913001563,
      "loss": 4.1629,
      "step": 24430
    },
    {
      "epoch": 0.050916666666666666,
      "grad_norm": 0.7415464520454407,
      "learning_rate": 0.0002983715907370172,
      "loss": 4.0591,
      "step": 24440
    },
    {
      "epoch": 0.0509375,
      "grad_norm": 0.8261129260063171,
      "learning_rate": 0.0002983701417031122,
      "loss": 3.9611,
      "step": 24450
    },
    {
      "epoch": 0.050958333333333335,
      "grad_norm": 0.7381312847137451,
      "learning_rate": 0.0002983686920283069,
      "loss": 3.969,
      "step": 24460
    },
    {
      "epoch": 0.050979166666666666,
      "grad_norm": 0.8820986151695251,
      "learning_rate": 0.0002983672417126077,
      "loss": 4.1006,
      "step": 24470
    },
    {
      "epoch": 0.051,
      "grad_norm": 0.9130018949508667,
      "learning_rate": 0.0002983657907560206,
      "loss": 3.9329,
      "step": 24480
    },
    {
      "epoch": 0.051020833333333335,
      "grad_norm": 0.8240141272544861,
      "learning_rate": 0.00029836433915855206,
      "loss": 4.1243,
      "step": 24490
    },
    {
      "epoch": 0.051041666666666666,
      "grad_norm": 0.8886264562606812,
      "learning_rate": 0.0002983628869202083,
      "loss": 3.8389,
      "step": 24500
    },
    {
      "epoch": 0.0510625,
      "grad_norm": 0.906816840171814,
      "learning_rate": 0.00029836143404099566,
      "loss": 4.1605,
      "step": 24510
    },
    {
      "epoch": 0.051083333333333335,
      "grad_norm": 0.8155732154846191,
      "learning_rate": 0.00029835998052092026,
      "loss": 4.0416,
      "step": 24520
    },
    {
      "epoch": 0.051104166666666666,
      "grad_norm": 0.8686359524726868,
      "learning_rate": 0.00029835852635998845,
      "loss": 3.9916,
      "step": 24530
    },
    {
      "epoch": 0.051125,
      "grad_norm": 0.8684254288673401,
      "learning_rate": 0.00029835707155820664,
      "loss": 3.9057,
      "step": 24540
    },
    {
      "epoch": 0.051145833333333335,
      "grad_norm": 0.7405751943588257,
      "learning_rate": 0.00029835561611558096,
      "loss": 3.9584,
      "step": 24550
    },
    {
      "epoch": 0.051166666666666666,
      "grad_norm": 0.7128321528434753,
      "learning_rate": 0.0002983541600321177,
      "loss": 4.0761,
      "step": 24560
    },
    {
      "epoch": 0.0511875,
      "grad_norm": 0.8397940993309021,
      "learning_rate": 0.0002983527033078232,
      "loss": 4.1326,
      "step": 24570
    },
    {
      "epoch": 0.051208333333333335,
      "grad_norm": 0.7793668508529663,
      "learning_rate": 0.0002983512459427038,
      "loss": 4.0901,
      "step": 24580
    },
    {
      "epoch": 0.051229166666666666,
      "grad_norm": 0.8340938687324524,
      "learning_rate": 0.0002983497879367657,
      "loss": 4.0293,
      "step": 24590
    },
    {
      "epoch": 0.05125,
      "grad_norm": 0.7802310585975647,
      "learning_rate": 0.0002983483292900152,
      "loss": 3.8209,
      "step": 24600
    },
    {
      "epoch": 0.051270833333333335,
      "grad_norm": 0.7505518794059753,
      "learning_rate": 0.0002983468700024587,
      "loss": 4.028,
      "step": 24610
    },
    {
      "epoch": 0.051291666666666666,
      "grad_norm": 0.8410331010818481,
      "learning_rate": 0.0002983454100741024,
      "loss": 4.0063,
      "step": 24620
    },
    {
      "epoch": 0.0513125,
      "grad_norm": 0.8373920321464539,
      "learning_rate": 0.0002983439495049527,
      "loss": 4.1231,
      "step": 24630
    },
    {
      "epoch": 0.051333333333333335,
      "grad_norm": 0.8215093612670898,
      "learning_rate": 0.0002983424882950158,
      "loss": 4.0855,
      "step": 24640
    },
    {
      "epoch": 0.051354166666666666,
      "grad_norm": 0.8255186080932617,
      "learning_rate": 0.0002983410264442981,
      "loss": 3.9579,
      "step": 24650
    },
    {
      "epoch": 0.051375,
      "grad_norm": 0.8137394785881042,
      "learning_rate": 0.00029833956395280585,
      "loss": 4.2709,
      "step": 24660
    },
    {
      "epoch": 0.051395833333333335,
      "grad_norm": 0.9061751365661621,
      "learning_rate": 0.0002983381008205455,
      "loss": 3.8865,
      "step": 24670
    },
    {
      "epoch": 0.051416666666666666,
      "grad_norm": 0.8042217493057251,
      "learning_rate": 0.00029833663704752314,
      "loss": 3.9136,
      "step": 24680
    },
    {
      "epoch": 0.0514375,
      "grad_norm": 0.8291239738464355,
      "learning_rate": 0.0002983351726337453,
      "loss": 4.0106,
      "step": 24690
    },
    {
      "epoch": 0.051458333333333335,
      "grad_norm": 0.7796221971511841,
      "learning_rate": 0.0002983337075792182,
      "loss": 3.9272,
      "step": 24700
    },
    {
      "epoch": 0.051479166666666666,
      "grad_norm": 0.810979962348938,
      "learning_rate": 0.00029833224188394815,
      "loss": 4.1116,
      "step": 24710
    },
    {
      "epoch": 0.0515,
      "grad_norm": 0.9180625081062317,
      "learning_rate": 0.00029833077554794165,
      "loss": 4.0781,
      "step": 24720
    },
    {
      "epoch": 0.051520833333333335,
      "grad_norm": 0.8540144562721252,
      "learning_rate": 0.00029832930857120484,
      "loss": 3.9997,
      "step": 24730
    },
    {
      "epoch": 0.051541666666666666,
      "grad_norm": 0.856884777545929,
      "learning_rate": 0.0002983278409537441,
      "loss": 3.9783,
      "step": 24740
    },
    {
      "epoch": 0.0515625,
      "grad_norm": 0.8272156119346619,
      "learning_rate": 0.0002983263726955659,
      "loss": 3.9733,
      "step": 24750
    },
    {
      "epoch": 0.051583333333333335,
      "grad_norm": 0.877055823802948,
      "learning_rate": 0.0002983249037966764,
      "loss": 4.0,
      "step": 24760
    },
    {
      "epoch": 0.051604166666666666,
      "grad_norm": 0.7884106040000916,
      "learning_rate": 0.00029832343425708203,
      "loss": 4.3885,
      "step": 24770
    },
    {
      "epoch": 0.051625,
      "grad_norm": 0.7568530440330505,
      "learning_rate": 0.00029832196407678915,
      "loss": 4.2284,
      "step": 24780
    },
    {
      "epoch": 0.051645833333333335,
      "grad_norm": 1.0403521060943604,
      "learning_rate": 0.00029832049325580407,
      "loss": 4.0581,
      "step": 24790
    },
    {
      "epoch": 0.051666666666666666,
      "grad_norm": 0.7303665280342102,
      "learning_rate": 0.00029831902179413324,
      "loss": 3.9523,
      "step": 24800
    },
    {
      "epoch": 0.0516875,
      "grad_norm": 0.8102442622184753,
      "learning_rate": 0.0002983175496917829,
      "loss": 4.2264,
      "step": 24810
    },
    {
      "epoch": 0.051708333333333335,
      "grad_norm": 0.8393380641937256,
      "learning_rate": 0.00029831607694875945,
      "loss": 4.0427,
      "step": 24820
    },
    {
      "epoch": 0.051729166666666666,
      "grad_norm": 0.8443405628204346,
      "learning_rate": 0.0002983146035650692,
      "loss": 4.0817,
      "step": 24830
    },
    {
      "epoch": 0.05175,
      "grad_norm": 0.7182561755180359,
      "learning_rate": 0.0002983131295407187,
      "loss": 4.141,
      "step": 24840
    },
    {
      "epoch": 0.051770833333333335,
      "grad_norm": 0.8440575003623962,
      "learning_rate": 0.0002983116548757141,
      "loss": 3.8603,
      "step": 24850
    },
    {
      "epoch": 0.051791666666666666,
      "grad_norm": 0.8431190252304077,
      "learning_rate": 0.00029831017957006187,
      "loss": 4.0168,
      "step": 24860
    },
    {
      "epoch": 0.0518125,
      "grad_norm": 0.6841872930526733,
      "learning_rate": 0.00029830870362376836,
      "loss": 4.0044,
      "step": 24870
    },
    {
      "epoch": 0.051833333333333335,
      "grad_norm": 0.8726463913917542,
      "learning_rate": 0.00029830722703683995,
      "loss": 4.1405,
      "step": 24880
    },
    {
      "epoch": 0.051854166666666666,
      "grad_norm": 0.9809200763702393,
      "learning_rate": 0.00029830574980928303,
      "loss": 4.082,
      "step": 24890
    },
    {
      "epoch": 0.051875,
      "grad_norm": 0.786038875579834,
      "learning_rate": 0.000298304271941104,
      "loss": 3.9916,
      "step": 24900
    },
    {
      "epoch": 0.051895833333333335,
      "grad_norm": 0.8995456695556641,
      "learning_rate": 0.00029830279343230924,
      "loss": 4.1122,
      "step": 24910
    },
    {
      "epoch": 0.051916666666666667,
      "grad_norm": 0.9543859958648682,
      "learning_rate": 0.00029830131428290504,
      "loss": 4.0918,
      "step": 24920
    },
    {
      "epoch": 0.0519375,
      "grad_norm": 0.7774547934532166,
      "learning_rate": 0.00029829983449289793,
      "loss": 4.0482,
      "step": 24930
    },
    {
      "epoch": 0.051958333333333336,
      "grad_norm": 0.8629083037376404,
      "learning_rate": 0.00029829835406229414,
      "loss": 4.0204,
      "step": 24940
    },
    {
      "epoch": 0.05197916666666667,
      "grad_norm": 0.9175631403923035,
      "learning_rate": 0.0002982968729911003,
      "loss": 4.0845,
      "step": 24950
    },
    {
      "epoch": 0.052,
      "grad_norm": 0.7594811320304871,
      "learning_rate": 0.00029829539127932254,
      "loss": 3.9998,
      "step": 24960
    },
    {
      "epoch": 0.052020833333333336,
      "grad_norm": 0.6801733374595642,
      "learning_rate": 0.0002982939089269675,
      "loss": 4.0655,
      "step": 24970
    },
    {
      "epoch": 0.05204166666666667,
      "grad_norm": 0.7805155515670776,
      "learning_rate": 0.00029829242593404137,
      "loss": 4.161,
      "step": 24980
    },
    {
      "epoch": 0.0520625,
      "grad_norm": 0.7797288298606873,
      "learning_rate": 0.00029829094230055073,
      "loss": 4.0497,
      "step": 24990
    },
    {
      "epoch": 0.052083333333333336,
      "grad_norm": 0.7731020450592041,
      "learning_rate": 0.0002982894580265019,
      "loss": 4.0063,
      "step": 25000
    },
    {
      "epoch": 0.052083333333333336,
      "eval_loss": 4.336343765258789,
      "eval_runtime": 10.9593,
      "eval_samples_per_second": 0.912,
      "eval_steps_per_second": 0.274,
      "step": 25000
    },
    {
      "epoch": 0.05210416666666667,
      "grad_norm": 0.8679764270782471,
      "learning_rate": 0.0002982879731119013,
      "loss": 3.9288,
      "step": 25010
    },
    {
      "epoch": 0.052125,
      "grad_norm": 0.9660125374794006,
      "learning_rate": 0.0002982864875567553,
      "loss": 4.0654,
      "step": 25020
    },
    {
      "epoch": 0.052145833333333336,
      "grad_norm": 0.8176667094230652,
      "learning_rate": 0.00029828500136107046,
      "loss": 3.8819,
      "step": 25030
    },
    {
      "epoch": 0.05216666666666667,
      "grad_norm": 0.9000110626220703,
      "learning_rate": 0.00029828351452485305,
      "loss": 4.068,
      "step": 25040
    },
    {
      "epoch": 0.0521875,
      "grad_norm": 0.8695964813232422,
      "learning_rate": 0.0002982820270481096,
      "loss": 3.9395,
      "step": 25050
    },
    {
      "epoch": 0.052208333333333336,
      "grad_norm": 0.8436212539672852,
      "learning_rate": 0.00029828053893084645,
      "loss": 3.9008,
      "step": 25060
    },
    {
      "epoch": 0.05222916666666667,
      "grad_norm": 0.9326121807098389,
      "learning_rate": 0.00029827905017307005,
      "loss": 4.1116,
      "step": 25070
    },
    {
      "epoch": 0.05225,
      "grad_norm": 0.8112564086914062,
      "learning_rate": 0.0002982775607747869,
      "loss": 4.0608,
      "step": 25080
    },
    {
      "epoch": 0.052270833333333336,
      "grad_norm": 0.7582147121429443,
      "learning_rate": 0.00029827607073600336,
      "loss": 3.951,
      "step": 25090
    },
    {
      "epoch": 0.05229166666666667,
      "grad_norm": 1.0393558740615845,
      "learning_rate": 0.00029827458005672586,
      "loss": 3.9703,
      "step": 25100
    },
    {
      "epoch": 0.0523125,
      "grad_norm": 0.8984432220458984,
      "learning_rate": 0.0002982730887369609,
      "loss": 3.8697,
      "step": 25110
    },
    {
      "epoch": 0.052333333333333336,
      "grad_norm": 0.8416324257850647,
      "learning_rate": 0.00029827159677671487,
      "loss": 4.0942,
      "step": 25120
    },
    {
      "epoch": 0.05235416666666667,
      "grad_norm": 0.883117139339447,
      "learning_rate": 0.0002982701041759942,
      "loss": 4.0695,
      "step": 25130
    },
    {
      "epoch": 0.052375,
      "grad_norm": 0.9035819172859192,
      "learning_rate": 0.00029826861093480543,
      "loss": 3.8093,
      "step": 25140
    },
    {
      "epoch": 0.052395833333333336,
      "grad_norm": 0.8934262990951538,
      "learning_rate": 0.00029826711705315494,
      "loss": 3.8761,
      "step": 25150
    },
    {
      "epoch": 0.05241666666666667,
      "grad_norm": 0.7317814826965332,
      "learning_rate": 0.00029826562253104915,
      "loss": 3.9768,
      "step": 25160
    },
    {
      "epoch": 0.0524375,
      "grad_norm": 0.8332627415657043,
      "learning_rate": 0.0002982641273684946,
      "loss": 3.9911,
      "step": 25170
    },
    {
      "epoch": 0.052458333333333336,
      "grad_norm": 0.8975181579589844,
      "learning_rate": 0.0002982626315654977,
      "loss": 4.1191,
      "step": 25180
    },
    {
      "epoch": 0.05247916666666667,
      "grad_norm": 0.7242105007171631,
      "learning_rate": 0.00029826113512206493,
      "loss": 4.1464,
      "step": 25190
    },
    {
      "epoch": 0.0525,
      "grad_norm": 0.9058417081832886,
      "learning_rate": 0.0002982596380382027,
      "loss": 4.1535,
      "step": 25200
    },
    {
      "epoch": 0.052520833333333336,
      "grad_norm": 0.8835211992263794,
      "learning_rate": 0.0002982581403139175,
      "loss": 4.1697,
      "step": 25210
    },
    {
      "epoch": 0.05254166666666667,
      "grad_norm": 0.7679778337478638,
      "learning_rate": 0.00029825664194921584,
      "loss": 4.1739,
      "step": 25220
    },
    {
      "epoch": 0.0525625,
      "grad_norm": 0.7050166130065918,
      "learning_rate": 0.00029825514294410424,
      "loss": 3.9807,
      "step": 25230
    },
    {
      "epoch": 0.052583333333333336,
      "grad_norm": 0.8627490401268005,
      "learning_rate": 0.00029825364329858905,
      "loss": 3.9646,
      "step": 25240
    },
    {
      "epoch": 0.05260416666666667,
      "grad_norm": 0.7679743766784668,
      "learning_rate": 0.00029825214301267683,
      "loss": 4.1079,
      "step": 25250
    },
    {
      "epoch": 0.052625,
      "grad_norm": 0.693442165851593,
      "learning_rate": 0.000298250642086374,
      "loss": 3.8797,
      "step": 25260
    },
    {
      "epoch": 0.052645833333333336,
      "grad_norm": 0.7887197732925415,
      "learning_rate": 0.00029824914051968703,
      "loss": 4.01,
      "step": 25270
    },
    {
      "epoch": 0.05266666666666667,
      "grad_norm": 0.7396295070648193,
      "learning_rate": 0.00029824763831262256,
      "loss": 4.0108,
      "step": 25280
    },
    {
      "epoch": 0.0526875,
      "grad_norm": 0.9091010689735413,
      "learning_rate": 0.0002982461354651869,
      "loss": 3.9888,
      "step": 25290
    },
    {
      "epoch": 0.052708333333333336,
      "grad_norm": 0.7854157090187073,
      "learning_rate": 0.00029824463197738663,
      "loss": 4.0078,
      "step": 25300
    },
    {
      "epoch": 0.05272916666666667,
      "grad_norm": 0.7814156413078308,
      "learning_rate": 0.0002982431278492283,
      "loss": 4.0492,
      "step": 25310
    },
    {
      "epoch": 0.05275,
      "grad_norm": 0.9090737104415894,
      "learning_rate": 0.00029824162308071824,
      "loss": 3.853,
      "step": 25320
    },
    {
      "epoch": 0.052770833333333336,
      "grad_norm": 0.8163498640060425,
      "learning_rate": 0.0002982401176718631,
      "loss": 3.9872,
      "step": 25330
    },
    {
      "epoch": 0.05279166666666667,
      "grad_norm": 0.8593524694442749,
      "learning_rate": 0.00029823861162266927,
      "loss": 3.9036,
      "step": 25340
    },
    {
      "epoch": 0.0528125,
      "grad_norm": 0.7348817586898804,
      "learning_rate": 0.00029823710493314336,
      "loss": 4.0633,
      "step": 25350
    },
    {
      "epoch": 0.052833333333333336,
      "grad_norm": 0.8376555442810059,
      "learning_rate": 0.0002982355976032919,
      "loss": 4.2846,
      "step": 25360
    },
    {
      "epoch": 0.05285416666666667,
      "grad_norm": 0.9028012752532959,
      "learning_rate": 0.0002982340896331212,
      "loss": 4.0197,
      "step": 25370
    },
    {
      "epoch": 0.052875,
      "grad_norm": 0.7531469464302063,
      "learning_rate": 0.000298232581022638,
      "loss": 4.0577,
      "step": 25380
    },
    {
      "epoch": 0.052895833333333336,
      "grad_norm": 0.7810875773429871,
      "learning_rate": 0.0002982310717718487,
      "loss": 4.1812,
      "step": 25390
    },
    {
      "epoch": 0.05291666666666667,
      "grad_norm": 0.9420462846755981,
      "learning_rate": 0.0002982295618807598,
      "loss": 4.0903,
      "step": 25400
    },
    {
      "epoch": 0.0529375,
      "grad_norm": 0.8849202394485474,
      "learning_rate": 0.0002982280513493779,
      "loss": 4.0536,
      "step": 25410
    },
    {
      "epoch": 0.052958333333333336,
      "grad_norm": 0.7876471281051636,
      "learning_rate": 0.00029822654017770954,
      "loss": 4.1859,
      "step": 25420
    },
    {
      "epoch": 0.05297916666666667,
      "grad_norm": 0.6946332454681396,
      "learning_rate": 0.00029822502836576113,
      "loss": 4.0652,
      "step": 25430
    },
    {
      "epoch": 0.053,
      "grad_norm": 0.766572892665863,
      "learning_rate": 0.0002982235159135393,
      "loss": 4.0054,
      "step": 25440
    },
    {
      "epoch": 0.053020833333333336,
      "grad_norm": 0.7415236234664917,
      "learning_rate": 0.0002982220028210506,
      "loss": 3.9045,
      "step": 25450
    },
    {
      "epoch": 0.05304166666666667,
      "grad_norm": 0.8876575231552124,
      "learning_rate": 0.0002982204890883014,
      "loss": 4.091,
      "step": 25460
    },
    {
      "epoch": 0.0530625,
      "grad_norm": 0.7859832644462585,
      "learning_rate": 0.00029821897471529843,
      "loss": 4.0758,
      "step": 25470
    },
    {
      "epoch": 0.05308333333333334,
      "grad_norm": 0.8452519178390503,
      "learning_rate": 0.00029821745970204816,
      "loss": 4.0975,
      "step": 25480
    },
    {
      "epoch": 0.05310416666666667,
      "grad_norm": 0.8111564517021179,
      "learning_rate": 0.0002982159440485571,
      "loss": 4.1749,
      "step": 25490
    },
    {
      "epoch": 0.053125,
      "grad_norm": 0.7085198163986206,
      "learning_rate": 0.00029821442775483187,
      "loss": 4.0537,
      "step": 25500
    },
    {
      "epoch": 0.05314583333333334,
      "grad_norm": 0.9012235999107361,
      "learning_rate": 0.00029821291082087896,
      "loss": 4.176,
      "step": 25510
    },
    {
      "epoch": 0.05316666666666667,
      "grad_norm": 0.8650346994400024,
      "learning_rate": 0.000298211393246705,
      "loss": 3.9709,
      "step": 25520
    },
    {
      "epoch": 0.0531875,
      "grad_norm": 0.7626082897186279,
      "learning_rate": 0.0002982098750323164,
      "loss": 3.9534,
      "step": 25530
    },
    {
      "epoch": 0.05320833333333334,
      "grad_norm": 0.7616943120956421,
      "learning_rate": 0.00029820835617771986,
      "loss": 3.9295,
      "step": 25540
    },
    {
      "epoch": 0.05322916666666667,
      "grad_norm": 0.8339295387268066,
      "learning_rate": 0.0002982068366829218,
      "loss": 4.0818,
      "step": 25550
    },
    {
      "epoch": 0.05325,
      "grad_norm": 0.7236396670341492,
      "learning_rate": 0.000298205316547929,
      "loss": 4.1177,
      "step": 25560
    },
    {
      "epoch": 0.05327083333333334,
      "grad_norm": 0.7763800621032715,
      "learning_rate": 0.0002982037957727478,
      "loss": 4.0758,
      "step": 25570
    },
    {
      "epoch": 0.05329166666666667,
      "grad_norm": 0.9085537195205688,
      "learning_rate": 0.0002982022743573849,
      "loss": 4.014,
      "step": 25580
    },
    {
      "epoch": 0.0533125,
      "grad_norm": 0.8715782761573792,
      "learning_rate": 0.00029820075230184683,
      "loss": 4.1275,
      "step": 25590
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 0.8721398711204529,
      "learning_rate": 0.0002981992296061402,
      "loss": 4.0606,
      "step": 25600
    },
    {
      "epoch": 0.05335416666666667,
      "grad_norm": 0.7593717575073242,
      "learning_rate": 0.00029819770627027153,
      "loss": 3.9948,
      "step": 25610
    },
    {
      "epoch": 0.053375,
      "grad_norm": 0.7327515482902527,
      "learning_rate": 0.00029819618229424744,
      "loss": 4.123,
      "step": 25620
    },
    {
      "epoch": 0.05339583333333333,
      "grad_norm": 0.7870599627494812,
      "learning_rate": 0.0002981946576780745,
      "loss": 4.1349,
      "step": 25630
    },
    {
      "epoch": 0.05341666666666667,
      "grad_norm": 0.751373291015625,
      "learning_rate": 0.0002981931324217593,
      "loss": 4.174,
      "step": 25640
    },
    {
      "epoch": 0.0534375,
      "grad_norm": 0.9155678749084473,
      "learning_rate": 0.0002981916065253084,
      "loss": 4.1807,
      "step": 25650
    },
    {
      "epoch": 0.05345833333333333,
      "grad_norm": 0.8148955702781677,
      "learning_rate": 0.0002981900799887284,
      "loss": 4.0155,
      "step": 25660
    },
    {
      "epoch": 0.05347916666666667,
      "grad_norm": 0.9303485155105591,
      "learning_rate": 0.000298188552812026,
      "loss": 3.9967,
      "step": 25670
    },
    {
      "epoch": 0.0535,
      "grad_norm": 0.8783281445503235,
      "learning_rate": 0.00029818702499520767,
      "loss": 4.0327,
      "step": 25680
    },
    {
      "epoch": 0.05352083333333333,
      "grad_norm": 0.8327281475067139,
      "learning_rate": 0.00029818549653828,
      "loss": 3.8982,
      "step": 25690
    },
    {
      "epoch": 0.05354166666666667,
      "grad_norm": 0.8736926317214966,
      "learning_rate": 0.0002981839674412497,
      "loss": 4.2395,
      "step": 25700
    },
    {
      "epoch": 0.0535625,
      "grad_norm": 0.8507968187332153,
      "learning_rate": 0.00029818243770412324,
      "loss": 4.0424,
      "step": 25710
    },
    {
      "epoch": 0.05358333333333333,
      "grad_norm": 0.923012375831604,
      "learning_rate": 0.0002981809073269074,
      "loss": 4.1088,
      "step": 25720
    },
    {
      "epoch": 0.05360416666666667,
      "grad_norm": 0.8640167713165283,
      "learning_rate": 0.0002981793763096086,
      "loss": 3.9143,
      "step": 25730
    },
    {
      "epoch": 0.053625,
      "grad_norm": 0.7366524934768677,
      "learning_rate": 0.00029817784465223363,
      "loss": 4.1999,
      "step": 25740
    },
    {
      "epoch": 0.05364583333333333,
      "grad_norm": 0.7925456762313843,
      "learning_rate": 0.00029817631235478905,
      "loss": 4.1754,
      "step": 25750
    },
    {
      "epoch": 0.05366666666666667,
      "grad_norm": 0.7976001501083374,
      "learning_rate": 0.0002981747794172814,
      "loss": 3.9346,
      "step": 25760
    },
    {
      "epoch": 0.0536875,
      "grad_norm": 0.8176832795143127,
      "learning_rate": 0.00029817324583971734,
      "loss": 3.8272,
      "step": 25770
    },
    {
      "epoch": 0.05370833333333333,
      "grad_norm": 0.9460039138793945,
      "learning_rate": 0.0002981717116221035,
      "loss": 4.0609,
      "step": 25780
    },
    {
      "epoch": 0.05372916666666667,
      "grad_norm": 0.8226052522659302,
      "learning_rate": 0.00029817017676444656,
      "loss": 4.213,
      "step": 25790
    },
    {
      "epoch": 0.05375,
      "grad_norm": 0.7489712834358215,
      "learning_rate": 0.00029816864126675305,
      "loss": 4.0105,
      "step": 25800
    },
    {
      "epoch": 0.05377083333333333,
      "grad_norm": 0.821898877620697,
      "learning_rate": 0.00029816710512902973,
      "loss": 4.1611,
      "step": 25810
    },
    {
      "epoch": 0.05379166666666667,
      "grad_norm": 0.8764083385467529,
      "learning_rate": 0.0002981655683512831,
      "loss": 3.9773,
      "step": 25820
    },
    {
      "epoch": 0.0538125,
      "grad_norm": 0.9119960069656372,
      "learning_rate": 0.00029816403093351987,
      "loss": 4.3071,
      "step": 25830
    },
    {
      "epoch": 0.05383333333333333,
      "grad_norm": 0.8117544054985046,
      "learning_rate": 0.00029816249287574676,
      "loss": 3.9691,
      "step": 25840
    },
    {
      "epoch": 0.05385416666666667,
      "grad_norm": 0.8214718103408813,
      "learning_rate": 0.0002981609541779702,
      "loss": 3.9859,
      "step": 25850
    },
    {
      "epoch": 0.053875,
      "grad_norm": 0.8828718662261963,
      "learning_rate": 0.00029815941484019707,
      "loss": 4.1477,
      "step": 25860
    },
    {
      "epoch": 0.05389583333333333,
      "grad_norm": 0.7494086623191833,
      "learning_rate": 0.00029815787486243387,
      "loss": 4.0238,
      "step": 25870
    },
    {
      "epoch": 0.05391666666666667,
      "grad_norm": 0.7445788979530334,
      "learning_rate": 0.00029815633424468726,
      "loss": 3.9501,
      "step": 25880
    },
    {
      "epoch": 0.0539375,
      "grad_norm": 0.8191030621528625,
      "learning_rate": 0.000298154792986964,
      "loss": 3.8307,
      "step": 25890
    },
    {
      "epoch": 0.05395833333333333,
      "grad_norm": 0.800342321395874,
      "learning_rate": 0.00029815325108927063,
      "loss": 4.002,
      "step": 25900
    },
    {
      "epoch": 0.05397916666666667,
      "grad_norm": 0.8192203044891357,
      "learning_rate": 0.0002981517085516139,
      "loss": 3.8703,
      "step": 25910
    },
    {
      "epoch": 0.054,
      "grad_norm": 0.793821394443512,
      "learning_rate": 0.00029815016537400037,
      "loss": 4.1342,
      "step": 25920
    },
    {
      "epoch": 0.05402083333333333,
      "grad_norm": 0.7684448957443237,
      "learning_rate": 0.00029814862155643683,
      "loss": 4.0141,
      "step": 25930
    },
    {
      "epoch": 0.05404166666666667,
      "grad_norm": 2.2807905673980713,
      "learning_rate": 0.00029814707709892985,
      "loss": 4.0951,
      "step": 25940
    },
    {
      "epoch": 0.0540625,
      "grad_norm": 0.9063512682914734,
      "learning_rate": 0.00029814553200148614,
      "loss": 3.9841,
      "step": 25950
    },
    {
      "epoch": 0.05408333333333333,
      "grad_norm": 0.9260051250457764,
      "learning_rate": 0.0002981439862641124,
      "loss": 4.1763,
      "step": 25960
    },
    {
      "epoch": 0.05410416666666667,
      "grad_norm": 0.7608188390731812,
      "learning_rate": 0.0002981424398868152,
      "loss": 3.8682,
      "step": 25970
    },
    {
      "epoch": 0.054125,
      "grad_norm": 0.8798760771751404,
      "learning_rate": 0.00029814089286960135,
      "loss": 4.0684,
      "step": 25980
    },
    {
      "epoch": 0.05414583333333333,
      "grad_norm": 0.9029885530471802,
      "learning_rate": 0.0002981393452124775,
      "loss": 3.8543,
      "step": 25990
    },
    {
      "epoch": 0.05416666666666667,
      "grad_norm": 0.8066505193710327,
      "learning_rate": 0.0002981377969154503,
      "loss": 4.0914,
      "step": 26000
    },
    {
      "epoch": 0.05416666666666667,
      "eval_loss": 4.327880859375,
      "eval_runtime": 9.9548,
      "eval_samples_per_second": 1.005,
      "eval_steps_per_second": 0.301,
      "step": 26000
    },
    {
      "epoch": 0.0541875,
      "grad_norm": 0.8141273856163025,
      "learning_rate": 0.00029813624797852645,
      "loss": 4.0672,
      "step": 26010
    },
    {
      "epoch": 0.05420833333333333,
      "grad_norm": 0.987872838973999,
      "learning_rate": 0.0002981346984017127,
      "loss": 4.019,
      "step": 26020
    },
    {
      "epoch": 0.05422916666666667,
      "grad_norm": 0.7986794710159302,
      "learning_rate": 0.0002981331481850156,
      "loss": 4.0217,
      "step": 26030
    },
    {
      "epoch": 0.05425,
      "grad_norm": 0.8378542065620422,
      "learning_rate": 0.000298131597328442,
      "loss": 4.0203,
      "step": 26040
    },
    {
      "epoch": 0.05427083333333333,
      "grad_norm": 0.7954228520393372,
      "learning_rate": 0.00029813004583199854,
      "loss": 4.042,
      "step": 26050
    },
    {
      "epoch": 0.05429166666666667,
      "grad_norm": 0.8431785702705383,
      "learning_rate": 0.00029812849369569185,
      "loss": 4.1244,
      "step": 26060
    },
    {
      "epoch": 0.0543125,
      "grad_norm": 0.9173063039779663,
      "learning_rate": 0.0002981269409195287,
      "loss": 4.029,
      "step": 26070
    },
    {
      "epoch": 0.05433333333333333,
      "grad_norm": 0.9336336255073547,
      "learning_rate": 0.00029812538750351587,
      "loss": 4.2161,
      "step": 26080
    },
    {
      "epoch": 0.05435416666666667,
      "grad_norm": 0.7570144534111023,
      "learning_rate": 0.00029812383344765997,
      "loss": 4.1046,
      "step": 26090
    },
    {
      "epoch": 0.054375,
      "grad_norm": 0.7910475134849548,
      "learning_rate": 0.0002981222787519677,
      "loss": 3.9664,
      "step": 26100
    },
    {
      "epoch": 0.05439583333333333,
      "grad_norm": 0.8541643023490906,
      "learning_rate": 0.00029812072341644586,
      "loss": 4.1627,
      "step": 26110
    },
    {
      "epoch": 0.05441666666666667,
      "grad_norm": 1.0798332691192627,
      "learning_rate": 0.00029811916744110114,
      "loss": 4.0423,
      "step": 26120
    },
    {
      "epoch": 0.0544375,
      "grad_norm": 0.8847834467887878,
      "learning_rate": 0.0002981176108259402,
      "loss": 4.0959,
      "step": 26130
    },
    {
      "epoch": 0.05445833333333333,
      "grad_norm": 0.8834118843078613,
      "learning_rate": 0.00029811605357096983,
      "loss": 4.1612,
      "step": 26140
    },
    {
      "epoch": 0.05447916666666667,
      "grad_norm": 0.7863786220550537,
      "learning_rate": 0.00029811449567619674,
      "loss": 4.1921,
      "step": 26150
    },
    {
      "epoch": 0.0545,
      "grad_norm": 0.7746523022651672,
      "learning_rate": 0.00029811293714162765,
      "loss": 4.0166,
      "step": 26160
    },
    {
      "epoch": 0.05452083333333333,
      "grad_norm": 0.9141077399253845,
      "learning_rate": 0.0002981113779672693,
      "loss": 3.9987,
      "step": 26170
    },
    {
      "epoch": 0.05454166666666667,
      "grad_norm": 0.8758476376533508,
      "learning_rate": 0.00029810981815312843,
      "loss": 4.0979,
      "step": 26180
    },
    {
      "epoch": 0.0545625,
      "grad_norm": 0.8166067004203796,
      "learning_rate": 0.0002981082576992118,
      "loss": 4.1661,
      "step": 26190
    },
    {
      "epoch": 0.05458333333333333,
      "grad_norm": 0.9543054699897766,
      "learning_rate": 0.00029810669660552605,
      "loss": 3.9377,
      "step": 26200
    },
    {
      "epoch": 0.05460416666666667,
      "grad_norm": 0.8993768692016602,
      "learning_rate": 0.00029810513487207803,
      "loss": 4.1213,
      "step": 26210
    },
    {
      "epoch": 0.054625,
      "grad_norm": 0.8368244767189026,
      "learning_rate": 0.00029810357249887445,
      "loss": 4.0153,
      "step": 26220
    },
    {
      "epoch": 0.05464583333333333,
      "grad_norm": 0.7785241603851318,
      "learning_rate": 0.0002981020094859221,
      "loss": 4.0867,
      "step": 26230
    },
    {
      "epoch": 0.05466666666666667,
      "grad_norm": 0.8933708071708679,
      "learning_rate": 0.00029810044583322763,
      "loss": 4.0624,
      "step": 26240
    },
    {
      "epoch": 0.0546875,
      "grad_norm": 0.8962421417236328,
      "learning_rate": 0.0002980988815407979,
      "loss": 3.9639,
      "step": 26250
    },
    {
      "epoch": 0.05470833333333333,
      "grad_norm": 0.684798538684845,
      "learning_rate": 0.0002980973166086396,
      "loss": 4.1126,
      "step": 26260
    },
    {
      "epoch": 0.05472916666666667,
      "grad_norm": 0.9264472723007202,
      "learning_rate": 0.00029809575103675954,
      "loss": 3.862,
      "step": 26270
    },
    {
      "epoch": 0.05475,
      "grad_norm": 0.843055248260498,
      "learning_rate": 0.00029809418482516445,
      "loss": 4.1021,
      "step": 26280
    },
    {
      "epoch": 0.05477083333333333,
      "grad_norm": 0.8278912305831909,
      "learning_rate": 0.00029809261797386107,
      "loss": 4.0889,
      "step": 26290
    },
    {
      "epoch": 0.05479166666666667,
      "grad_norm": 0.6960598230361938,
      "learning_rate": 0.00029809105048285623,
      "loss": 4.0218,
      "step": 26300
    },
    {
      "epoch": 0.0548125,
      "grad_norm": 0.9725921750068665,
      "learning_rate": 0.00029808948235215667,
      "loss": 4.1104,
      "step": 26310
    },
    {
      "epoch": 0.05483333333333333,
      "grad_norm": 0.8458218574523926,
      "learning_rate": 0.00029808791358176915,
      "loss": 3.9462,
      "step": 26320
    },
    {
      "epoch": 0.05485416666666667,
      "grad_norm": 0.8072821497917175,
      "learning_rate": 0.00029808634417170045,
      "loss": 3.8956,
      "step": 26330
    },
    {
      "epoch": 0.054875,
      "grad_norm": 0.8500383496284485,
      "learning_rate": 0.00029808477412195735,
      "loss": 4.0255,
      "step": 26340
    },
    {
      "epoch": 0.05489583333333333,
      "grad_norm": 0.8301315903663635,
      "learning_rate": 0.00029808320343254667,
      "loss": 4.1327,
      "step": 26350
    },
    {
      "epoch": 0.05491666666666667,
      "grad_norm": 0.8975498676300049,
      "learning_rate": 0.00029808163210347515,
      "loss": 3.9418,
      "step": 26360
    },
    {
      "epoch": 0.0549375,
      "grad_norm": 0.7640777230262756,
      "learning_rate": 0.00029808006013474966,
      "loss": 4.0775,
      "step": 26370
    },
    {
      "epoch": 0.05495833333333333,
      "grad_norm": 0.967329740524292,
      "learning_rate": 0.00029807848752637687,
      "loss": 3.8917,
      "step": 26380
    },
    {
      "epoch": 0.05497916666666667,
      "grad_norm": 0.9528917670249939,
      "learning_rate": 0.00029807691427836356,
      "loss": 4.3266,
      "step": 26390
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.7159419655799866,
      "learning_rate": 0.0002980753403907167,
      "loss": 4.1829,
      "step": 26400
    },
    {
      "epoch": 0.05502083333333333,
      "grad_norm": 0.9421341419219971,
      "learning_rate": 0.0002980737658634429,
      "loss": 4.3492,
      "step": 26410
    },
    {
      "epoch": 0.05504166666666667,
      "grad_norm": 0.7884871363639832,
      "learning_rate": 0.00029807219069654913,
      "loss": 4.0769,
      "step": 26420
    },
    {
      "epoch": 0.0550625,
      "grad_norm": 0.836663544178009,
      "learning_rate": 0.0002980706148900421,
      "loss": 4.0898,
      "step": 26430
    },
    {
      "epoch": 0.05508333333333333,
      "grad_norm": 0.8299884796142578,
      "learning_rate": 0.0002980690384439286,
      "loss": 4.2722,
      "step": 26440
    },
    {
      "epoch": 0.05510416666666667,
      "grad_norm": 0.827055811882019,
      "learning_rate": 0.0002980674613582154,
      "loss": 4.1584,
      "step": 26450
    },
    {
      "epoch": 0.055125,
      "grad_norm": 0.798271894454956,
      "learning_rate": 0.00029806588363290944,
      "loss": 4.1217,
      "step": 26460
    },
    {
      "epoch": 0.05514583333333333,
      "grad_norm": 0.7749260067939758,
      "learning_rate": 0.0002980643052680174,
      "loss": 4.0913,
      "step": 26470
    },
    {
      "epoch": 0.05516666666666667,
      "grad_norm": 0.8462902903556824,
      "learning_rate": 0.00029806272626354624,
      "loss": 3.9218,
      "step": 26480
    },
    {
      "epoch": 0.0551875,
      "grad_norm": 0.7688209414482117,
      "learning_rate": 0.00029806114661950274,
      "loss": 3.876,
      "step": 26490
    },
    {
      "epoch": 0.05520833333333333,
      "grad_norm": 0.7899056077003479,
      "learning_rate": 0.00029805956633589364,
      "loss": 4.1518,
      "step": 26500
    },
    {
      "epoch": 0.05522916666666667,
      "grad_norm": 0.7763992547988892,
      "learning_rate": 0.0002980579854127259,
      "loss": 4.1465,
      "step": 26510
    },
    {
      "epoch": 0.05525,
      "grad_norm": 0.7726714611053467,
      "learning_rate": 0.0002980564038500061,
      "loss": 4.07,
      "step": 26520
    },
    {
      "epoch": 0.05527083333333333,
      "grad_norm": 0.8705474734306335,
      "learning_rate": 0.0002980548216477414,
      "loss": 3.9944,
      "step": 26530
    },
    {
      "epoch": 0.05529166666666667,
      "grad_norm": 0.939509391784668,
      "learning_rate": 0.00029805323880593835,
      "loss": 4.1509,
      "step": 26540
    },
    {
      "epoch": 0.0553125,
      "grad_norm": 1.152762532234192,
      "learning_rate": 0.000298051655324604,
      "loss": 3.9186,
      "step": 26550
    },
    {
      "epoch": 0.05533333333333333,
      "grad_norm": 0.9585802555084229,
      "learning_rate": 0.0002980500712037451,
      "loss": 4.1011,
      "step": 26560
    },
    {
      "epoch": 0.05535416666666667,
      "grad_norm": 0.9303189516067505,
      "learning_rate": 0.00029804848644336847,
      "loss": 4.0939,
      "step": 26570
    },
    {
      "epoch": 0.055375,
      "grad_norm": 0.9007387161254883,
      "learning_rate": 0.000298046901043481,
      "loss": 4.162,
      "step": 26580
    },
    {
      "epoch": 0.05539583333333333,
      "grad_norm": 0.9668160676956177,
      "learning_rate": 0.0002980453150040895,
      "loss": 4.1048,
      "step": 26590
    },
    {
      "epoch": 0.05541666666666667,
      "grad_norm": 1.0031564235687256,
      "learning_rate": 0.00029804372832520083,
      "loss": 4.1194,
      "step": 26600
    },
    {
      "epoch": 0.0554375,
      "grad_norm": 0.7170320153236389,
      "learning_rate": 0.0002980421410068218,
      "loss": 3.9291,
      "step": 26610
    },
    {
      "epoch": 0.05545833333333333,
      "grad_norm": 0.9012174010276794,
      "learning_rate": 0.0002980405530489594,
      "loss": 4.0613,
      "step": 26620
    },
    {
      "epoch": 0.05547916666666667,
      "grad_norm": 0.8920809030532837,
      "learning_rate": 0.00029803896445162044,
      "loss": 3.9663,
      "step": 26630
    },
    {
      "epoch": 0.0555,
      "grad_norm": 0.8539957404136658,
      "learning_rate": 0.0002980373752148117,
      "loss": 4.1443,
      "step": 26640
    },
    {
      "epoch": 0.05552083333333333,
      "grad_norm": 0.7610334157943726,
      "learning_rate": 0.00029803578533854006,
      "loss": 4.0156,
      "step": 26650
    },
    {
      "epoch": 0.05554166666666667,
      "grad_norm": 0.8605121970176697,
      "learning_rate": 0.0002980341948228125,
      "loss": 4.0721,
      "step": 26660
    },
    {
      "epoch": 0.0555625,
      "grad_norm": 0.9511190056800842,
      "learning_rate": 0.00029803260366763573,
      "loss": 4.0147,
      "step": 26670
    },
    {
      "epoch": 0.05558333333333333,
      "grad_norm": 0.8601688742637634,
      "learning_rate": 0.0002980310118730168,
      "loss": 3.9876,
      "step": 26680
    },
    {
      "epoch": 0.05560416666666667,
      "grad_norm": 0.8312391042709351,
      "learning_rate": 0.00029802941943896246,
      "loss": 4.1528,
      "step": 26690
    },
    {
      "epoch": 0.055625,
      "grad_norm": 0.877134382724762,
      "learning_rate": 0.0002980278263654796,
      "loss": 4.0018,
      "step": 26700
    },
    {
      "epoch": 0.05564583333333333,
      "grad_norm": 0.7916426658630371,
      "learning_rate": 0.0002980262326525751,
      "loss": 4.0851,
      "step": 26710
    },
    {
      "epoch": 0.05566666666666667,
      "grad_norm": 1.0125732421875,
      "learning_rate": 0.00029802463830025594,
      "loss": 4.079,
      "step": 26720
    },
    {
      "epoch": 0.0556875,
      "grad_norm": 0.8588639497756958,
      "learning_rate": 0.0002980230433085289,
      "loss": 4.0211,
      "step": 26730
    },
    {
      "epoch": 0.05570833333333333,
      "grad_norm": 0.712783932685852,
      "learning_rate": 0.0002980214476774009,
      "loss": 3.9905,
      "step": 26740
    },
    {
      "epoch": 0.05572916666666667,
      "grad_norm": 0.8296897411346436,
      "learning_rate": 0.00029801985140687887,
      "loss": 3.9402,
      "step": 26750
    },
    {
      "epoch": 0.05575,
      "grad_norm": 0.8519870638847351,
      "learning_rate": 0.0002980182544969696,
      "loss": 3.9881,
      "step": 26760
    },
    {
      "epoch": 0.05577083333333333,
      "grad_norm": 0.775160551071167,
      "learning_rate": 0.0002980166569476801,
      "loss": 3.8696,
      "step": 26770
    },
    {
      "epoch": 0.05579166666666667,
      "grad_norm": 0.8488153219223022,
      "learning_rate": 0.00029801505875901724,
      "loss": 4.1092,
      "step": 26780
    },
    {
      "epoch": 0.0558125,
      "grad_norm": 0.8470948934555054,
      "learning_rate": 0.0002980134599309879,
      "loss": 3.9841,
      "step": 26790
    },
    {
      "epoch": 0.05583333333333333,
      "grad_norm": 0.8169370889663696,
      "learning_rate": 0.000298011860463599,
      "loss": 4.0456,
      "step": 26800
    },
    {
      "epoch": 0.05585416666666667,
      "grad_norm": 0.8172879815101624,
      "learning_rate": 0.00029801026035685747,
      "loss": 4.162,
      "step": 26810
    },
    {
      "epoch": 0.055875,
      "grad_norm": 0.8793221712112427,
      "learning_rate": 0.0002980086596107702,
      "loss": 3.8978,
      "step": 26820
    },
    {
      "epoch": 0.05589583333333333,
      "grad_norm": 0.7493585348129272,
      "learning_rate": 0.0002980070582253441,
      "loss": 4.1169,
      "step": 26830
    },
    {
      "epoch": 0.05591666666666667,
      "grad_norm": 0.7737422585487366,
      "learning_rate": 0.00029800545620058605,
      "loss": 4.1433,
      "step": 26840
    },
    {
      "epoch": 0.0559375,
      "grad_norm": 0.8545136451721191,
      "learning_rate": 0.0002980038535365031,
      "loss": 4.0284,
      "step": 26850
    },
    {
      "epoch": 0.05595833333333333,
      "grad_norm": 0.7985082268714905,
      "learning_rate": 0.00029800225023310205,
      "loss": 4.2711,
      "step": 26860
    },
    {
      "epoch": 0.05597916666666667,
      "grad_norm": 1.006777048110962,
      "learning_rate": 0.00029800064629038984,
      "loss": 4.1632,
      "step": 26870
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.8652099370956421,
      "learning_rate": 0.0002979990417083734,
      "loss": 3.9666,
      "step": 26880
    },
    {
      "epoch": 0.05602083333333333,
      "grad_norm": 0.8486884832382202,
      "learning_rate": 0.00029799743648705975,
      "loss": 3.9628,
      "step": 26890
    },
    {
      "epoch": 0.05604166666666666,
      "grad_norm": 0.7718522548675537,
      "learning_rate": 0.0002979958306264557,
      "loss": 4.1106,
      "step": 26900
    },
    {
      "epoch": 0.0560625,
      "grad_norm": 0.7484955191612244,
      "learning_rate": 0.0002979942241265683,
      "loss": 3.9871,
      "step": 26910
    },
    {
      "epoch": 0.05608333333333333,
      "grad_norm": 0.8751292824745178,
      "learning_rate": 0.0002979926169874044,
      "loss": 3.9829,
      "step": 26920
    },
    {
      "epoch": 0.05610416666666666,
      "grad_norm": 0.8743491768836975,
      "learning_rate": 0.00029799100920897093,
      "loss": 4.0426,
      "step": 26930
    },
    {
      "epoch": 0.056125,
      "grad_norm": 0.7279717326164246,
      "learning_rate": 0.000297989400791275,
      "loss": 4.3661,
      "step": 26940
    },
    {
      "epoch": 0.05614583333333333,
      "grad_norm": 0.9955036044120789,
      "learning_rate": 0.0002979877917343233,
      "loss": 4.0641,
      "step": 26950
    },
    {
      "epoch": 0.05616666666666666,
      "grad_norm": 0.9362075328826904,
      "learning_rate": 0.000297986182038123,
      "loss": 4.0888,
      "step": 26960
    },
    {
      "epoch": 0.0561875,
      "grad_norm": 0.8330509066581726,
      "learning_rate": 0.0002979845717026809,
      "loss": 4.0181,
      "step": 26970
    },
    {
      "epoch": 0.05620833333333333,
      "grad_norm": 0.8496983051300049,
      "learning_rate": 0.0002979829607280041,
      "loss": 3.9437,
      "step": 26980
    },
    {
      "epoch": 0.05622916666666666,
      "grad_norm": 0.8705129623413086,
      "learning_rate": 0.00029798134911409945,
      "loss": 4.0155,
      "step": 26990
    },
    {
      "epoch": 0.05625,
      "grad_norm": 0.8399545550346375,
      "learning_rate": 0.00029797973686097396,
      "loss": 4.1028,
      "step": 27000
    },
    {
      "epoch": 0.05625,
      "eval_loss": 4.34025764465332,
      "eval_runtime": 8.7535,
      "eval_samples_per_second": 1.142,
      "eval_steps_per_second": 0.343,
      "step": 27000
    },
    {
      "epoch": 0.05627083333333333,
      "grad_norm": 0.7662619352340698,
      "learning_rate": 0.0002979781239686346,
      "loss": 3.9422,
      "step": 27010
    },
    {
      "epoch": 0.05629166666666666,
      "grad_norm": 0.8046996593475342,
      "learning_rate": 0.00029797651043708825,
      "loss": 3.939,
      "step": 27020
    },
    {
      "epoch": 0.0563125,
      "grad_norm": 0.7235816717147827,
      "learning_rate": 0.000297974896266342,
      "loss": 3.8503,
      "step": 27030
    },
    {
      "epoch": 0.05633333333333333,
      "grad_norm": 0.7669816613197327,
      "learning_rate": 0.00029797328145640277,
      "loss": 3.9678,
      "step": 27040
    },
    {
      "epoch": 0.056354166666666664,
      "grad_norm": 0.9331650733947754,
      "learning_rate": 0.00029797166600727755,
      "loss": 3.9661,
      "step": 27050
    },
    {
      "epoch": 0.056375,
      "grad_norm": 0.8737671971321106,
      "learning_rate": 0.00029797004991897325,
      "loss": 4.083,
      "step": 27060
    },
    {
      "epoch": 0.05639583333333333,
      "grad_norm": 0.8824302554130554,
      "learning_rate": 0.0002979684331914969,
      "loss": 3.9502,
      "step": 27070
    },
    {
      "epoch": 0.056416666666666664,
      "grad_norm": 0.8021812438964844,
      "learning_rate": 0.0002979668158248556,
      "loss": 4.0736,
      "step": 27080
    },
    {
      "epoch": 0.0564375,
      "grad_norm": 0.8866938352584839,
      "learning_rate": 0.0002979651978190561,
      "loss": 4.099,
      "step": 27090
    },
    {
      "epoch": 0.05645833333333333,
      "grad_norm": 1.1149288415908813,
      "learning_rate": 0.0002979635791741056,
      "loss": 4.0386,
      "step": 27100
    },
    {
      "epoch": 0.056479166666666664,
      "grad_norm": 0.8148994445800781,
      "learning_rate": 0.00029796195989001097,
      "loss": 3.997,
      "step": 27110
    },
    {
      "epoch": 0.0565,
      "grad_norm": 0.9753552079200745,
      "learning_rate": 0.00029796033996677923,
      "loss": 3.9277,
      "step": 27120
    },
    {
      "epoch": 0.05652083333333333,
      "grad_norm": 0.7911841869354248,
      "learning_rate": 0.0002979587194044174,
      "loss": 4.129,
      "step": 27130
    },
    {
      "epoch": 0.056541666666666664,
      "grad_norm": 0.9248166680335999,
      "learning_rate": 0.00029795709820293245,
      "loss": 4.0083,
      "step": 27140
    },
    {
      "epoch": 0.0565625,
      "grad_norm": 0.8655888438224792,
      "learning_rate": 0.0002979554763623314,
      "loss": 4.0271,
      "step": 27150
    },
    {
      "epoch": 0.05658333333333333,
      "grad_norm": 0.818027138710022,
      "learning_rate": 0.0002979538538826213,
      "loss": 4.028,
      "step": 27160
    },
    {
      "epoch": 0.056604166666666664,
      "grad_norm": 0.7877675890922546,
      "learning_rate": 0.0002979522307638091,
      "loss": 4.0262,
      "step": 27170
    },
    {
      "epoch": 0.056625,
      "grad_norm": 0.8260944485664368,
      "learning_rate": 0.0002979506070059018,
      "loss": 3.796,
      "step": 27180
    },
    {
      "epoch": 0.05664583333333333,
      "grad_norm": 0.8311991095542908,
      "learning_rate": 0.0002979489826089065,
      "loss": 3.8647,
      "step": 27190
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 0.8984955549240112,
      "learning_rate": 0.0002979473575728301,
      "loss": 4.0896,
      "step": 27200
    },
    {
      "epoch": 0.0566875,
      "grad_norm": 0.7244242429733276,
      "learning_rate": 0.0002979457318976797,
      "loss": 3.9002,
      "step": 27210
    },
    {
      "epoch": 0.05670833333333333,
      "grad_norm": 0.9853846430778503,
      "learning_rate": 0.0002979441055834623,
      "loss": 3.9856,
      "step": 27220
    },
    {
      "epoch": 0.056729166666666664,
      "grad_norm": 0.8580873012542725,
      "learning_rate": 0.0002979424786301849,
      "loss": 4.0081,
      "step": 27230
    },
    {
      "epoch": 0.05675,
      "grad_norm": 0.8319786787033081,
      "learning_rate": 0.00029794085103785456,
      "loss": 4.0757,
      "step": 27240
    },
    {
      "epoch": 0.05677083333333333,
      "grad_norm": 0.8109108805656433,
      "learning_rate": 0.00029793922280647834,
      "loss": 4.1142,
      "step": 27250
    },
    {
      "epoch": 0.056791666666666664,
      "grad_norm": 0.8998830914497375,
      "learning_rate": 0.00029793759393606316,
      "loss": 4.0393,
      "step": 27260
    },
    {
      "epoch": 0.0568125,
      "grad_norm": 0.900560200214386,
      "learning_rate": 0.0002979359644266162,
      "loss": 4.0735,
      "step": 27270
    },
    {
      "epoch": 0.05683333333333333,
      "grad_norm": 0.7826215028762817,
      "learning_rate": 0.0002979343342781444,
      "loss": 4.1502,
      "step": 27280
    },
    {
      "epoch": 0.056854166666666664,
      "grad_norm": 0.9946727156639099,
      "learning_rate": 0.00029793270349065483,
      "loss": 4.1398,
      "step": 27290
    },
    {
      "epoch": 0.056875,
      "grad_norm": 0.7540108561515808,
      "learning_rate": 0.0002979310720641546,
      "loss": 4.0657,
      "step": 27300
    },
    {
      "epoch": 0.05689583333333333,
      "grad_norm": 0.8192663788795471,
      "learning_rate": 0.00029792943999865063,
      "loss": 4.0565,
      "step": 27310
    },
    {
      "epoch": 0.056916666666666664,
      "grad_norm": 0.8690114617347717,
      "learning_rate": 0.00029792780729415006,
      "loss": 3.9907,
      "step": 27320
    },
    {
      "epoch": 0.0569375,
      "grad_norm": 0.7957090139389038,
      "learning_rate": 0.00029792617395065987,
      "loss": 3.9551,
      "step": 27330
    },
    {
      "epoch": 0.05695833333333333,
      "grad_norm": 0.8989977836608887,
      "learning_rate": 0.0002979245399681872,
      "loss": 3.7973,
      "step": 27340
    },
    {
      "epoch": 0.056979166666666664,
      "grad_norm": 0.756544291973114,
      "learning_rate": 0.00029792290534673904,
      "loss": 3.9086,
      "step": 27350
    },
    {
      "epoch": 0.057,
      "grad_norm": 0.765736997127533,
      "learning_rate": 0.00029792127008632254,
      "loss": 4.0317,
      "step": 27360
    },
    {
      "epoch": 0.05702083333333333,
      "grad_norm": 0.7790989279747009,
      "learning_rate": 0.00029791963418694466,
      "loss": 4.0469,
      "step": 27370
    },
    {
      "epoch": 0.057041666666666664,
      "grad_norm": 0.9195044040679932,
      "learning_rate": 0.0002979179976486125,
      "loss": 4.0934,
      "step": 27380
    },
    {
      "epoch": 0.0570625,
      "grad_norm": 0.776422917842865,
      "learning_rate": 0.00029791636047133313,
      "loss": 3.9163,
      "step": 27390
    },
    {
      "epoch": 0.05708333333333333,
      "grad_norm": 0.6974582672119141,
      "learning_rate": 0.00029791472265511374,
      "loss": 4.0636,
      "step": 27400
    },
    {
      "epoch": 0.057104166666666664,
      "grad_norm": 0.8672731518745422,
      "learning_rate": 0.00029791308419996115,
      "loss": 3.9009,
      "step": 27410
    },
    {
      "epoch": 0.057125,
      "grad_norm": 0.7101858854293823,
      "learning_rate": 0.0002979114451058827,
      "loss": 4.1968,
      "step": 27420
    },
    {
      "epoch": 0.05714583333333333,
      "grad_norm": 0.7952308654785156,
      "learning_rate": 0.0002979098053728853,
      "loss": 4.1748,
      "step": 27430
    },
    {
      "epoch": 0.057166666666666664,
      "grad_norm": 0.8893304467201233,
      "learning_rate": 0.0002979081650009761,
      "loss": 4.0173,
      "step": 27440
    },
    {
      "epoch": 0.0571875,
      "grad_norm": 0.7687021493911743,
      "learning_rate": 0.00029790652399016215,
      "loss": 4.025,
      "step": 27450
    },
    {
      "epoch": 0.05720833333333333,
      "grad_norm": 0.8946152925491333,
      "learning_rate": 0.0002979048823404506,
      "loss": 4.0742,
      "step": 27460
    },
    {
      "epoch": 0.057229166666666664,
      "grad_norm": 0.85627681016922,
      "learning_rate": 0.0002979032400518485,
      "loss": 4.0041,
      "step": 27470
    },
    {
      "epoch": 0.05725,
      "grad_norm": 0.7949414253234863,
      "learning_rate": 0.0002979015971243629,
      "loss": 4.0341,
      "step": 27480
    },
    {
      "epoch": 0.05727083333333333,
      "grad_norm": 0.8534319400787354,
      "learning_rate": 0.00029789995355800097,
      "loss": 4.159,
      "step": 27490
    },
    {
      "epoch": 0.057291666666666664,
      "grad_norm": 0.8384714722633362,
      "learning_rate": 0.0002978983093527698,
      "loss": 3.859,
      "step": 27500
    },
    {
      "epoch": 0.0573125,
      "grad_norm": 0.8197859525680542,
      "learning_rate": 0.00029789666450867646,
      "loss": 4.117,
      "step": 27510
    },
    {
      "epoch": 0.05733333333333333,
      "grad_norm": 1.0367538928985596,
      "learning_rate": 0.0002978950190257281,
      "loss": 4.1616,
      "step": 27520
    },
    {
      "epoch": 0.057354166666666664,
      "grad_norm": 0.99312424659729,
      "learning_rate": 0.0002978933729039318,
      "loss": 4.169,
      "step": 27530
    },
    {
      "epoch": 0.057375,
      "grad_norm": 0.8041914701461792,
      "learning_rate": 0.0002978917261432946,
      "loss": 4.0776,
      "step": 27540
    },
    {
      "epoch": 0.05739583333333333,
      "grad_norm": 0.8126703500747681,
      "learning_rate": 0.0002978900787438237,
      "loss": 4.0802,
      "step": 27550
    },
    {
      "epoch": 0.057416666666666664,
      "grad_norm": 0.9069227576255798,
      "learning_rate": 0.00029788843070552626,
      "loss": 3.9387,
      "step": 27560
    },
    {
      "epoch": 0.0574375,
      "grad_norm": 0.887240469455719,
      "learning_rate": 0.0002978867820284093,
      "loss": 3.9194,
      "step": 27570
    },
    {
      "epoch": 0.057458333333333333,
      "grad_norm": 0.9570077061653137,
      "learning_rate": 0.00029788513271247996,
      "loss": 4.0781,
      "step": 27580
    },
    {
      "epoch": 0.057479166666666665,
      "grad_norm": 0.8808181881904602,
      "learning_rate": 0.0002978834827577454,
      "loss": 4.1384,
      "step": 27590
    },
    {
      "epoch": 0.0575,
      "grad_norm": 0.8422778844833374,
      "learning_rate": 0.00029788183216421276,
      "loss": 4.1494,
      "step": 27600
    },
    {
      "epoch": 0.057520833333333334,
      "grad_norm": 0.6994836330413818,
      "learning_rate": 0.00029788018093188914,
      "loss": 4.1421,
      "step": 27610
    },
    {
      "epoch": 0.057541666666666665,
      "grad_norm": 0.8527041077613831,
      "learning_rate": 0.00029787852906078163,
      "loss": 4.1566,
      "step": 27620
    },
    {
      "epoch": 0.0575625,
      "grad_norm": 0.7462884783744812,
      "learning_rate": 0.00029787687655089744,
      "loss": 4.0049,
      "step": 27630
    },
    {
      "epoch": 0.057583333333333334,
      "grad_norm": 0.813798725605011,
      "learning_rate": 0.00029787522340224366,
      "loss": 4.0982,
      "step": 27640
    },
    {
      "epoch": 0.057604166666666665,
      "grad_norm": 0.8344324231147766,
      "learning_rate": 0.00029787356961482746,
      "loss": 4.0809,
      "step": 27650
    },
    {
      "epoch": 0.057625,
      "grad_norm": 1.0217283964157104,
      "learning_rate": 0.00029787191518865593,
      "loss": 3.9823,
      "step": 27660
    },
    {
      "epoch": 0.057645833333333334,
      "grad_norm": 0.9248143434524536,
      "learning_rate": 0.00029787026012373635,
      "loss": 3.8954,
      "step": 27670
    },
    {
      "epoch": 0.057666666666666665,
      "grad_norm": 0.7930680513381958,
      "learning_rate": 0.00029786860442007574,
      "loss": 4.1168,
      "step": 27680
    },
    {
      "epoch": 0.0576875,
      "grad_norm": 0.8671926856040955,
      "learning_rate": 0.00029786694807768123,
      "loss": 3.9908,
      "step": 27690
    },
    {
      "epoch": 0.057708333333333334,
      "grad_norm": 0.7984269857406616,
      "learning_rate": 0.0002978652910965601,
      "loss": 4.062,
      "step": 27700
    },
    {
      "epoch": 0.057729166666666665,
      "grad_norm": 1.006212830543518,
      "learning_rate": 0.00029786363347671937,
      "loss": 3.9895,
      "step": 27710
    },
    {
      "epoch": 0.05775,
      "grad_norm": 0.8185776472091675,
      "learning_rate": 0.0002978619752181663,
      "loss": 4.1555,
      "step": 27720
    },
    {
      "epoch": 0.057770833333333334,
      "grad_norm": 0.7997540235519409,
      "learning_rate": 0.00029786031632090805,
      "loss": 4.0457,
      "step": 27730
    },
    {
      "epoch": 0.057791666666666665,
      "grad_norm": 0.9799068570137024,
      "learning_rate": 0.0002978586567849518,
      "loss": 4.0002,
      "step": 27740
    },
    {
      "epoch": 0.0578125,
      "grad_norm": 0.7385460734367371,
      "learning_rate": 0.0002978569966103046,
      "loss": 4.0234,
      "step": 27750
    },
    {
      "epoch": 0.057833333333333334,
      "grad_norm": 0.8779273629188538,
      "learning_rate": 0.00029785533579697375,
      "loss": 4.0522,
      "step": 27760
    },
    {
      "epoch": 0.057854166666666665,
      "grad_norm": 0.914624035358429,
      "learning_rate": 0.00029785367434496636,
      "loss": 4.1752,
      "step": 27770
    },
    {
      "epoch": 0.057875,
      "grad_norm": 0.8123421669006348,
      "learning_rate": 0.00029785201225428963,
      "loss": 4.1883,
      "step": 27780
    },
    {
      "epoch": 0.057895833333333334,
      "grad_norm": 0.8019118905067444,
      "learning_rate": 0.0002978503495249507,
      "loss": 4.1303,
      "step": 27790
    },
    {
      "epoch": 0.057916666666666665,
      "grad_norm": 0.8312571048736572,
      "learning_rate": 0.0002978486861569568,
      "loss": 4.1969,
      "step": 27800
    },
    {
      "epoch": 0.0579375,
      "grad_norm": 0.8312780261039734,
      "learning_rate": 0.0002978470221503151,
      "loss": 4.1649,
      "step": 27810
    },
    {
      "epoch": 0.057958333333333334,
      "grad_norm": 0.9603740572929382,
      "learning_rate": 0.0002978453575050328,
      "loss": 3.848,
      "step": 27820
    },
    {
      "epoch": 0.057979166666666665,
      "grad_norm": 0.7763473391532898,
      "learning_rate": 0.00029784369222111707,
      "loss": 4.1055,
      "step": 27830
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.8713984489440918,
      "learning_rate": 0.0002978420262985751,
      "loss": 4.0039,
      "step": 27840
    },
    {
      "epoch": 0.058020833333333334,
      "grad_norm": 0.7909165024757385,
      "learning_rate": 0.00029784035973741413,
      "loss": 4.0107,
      "step": 27850
    },
    {
      "epoch": 0.058041666666666665,
      "grad_norm": 0.8102976083755493,
      "learning_rate": 0.0002978386925376413,
      "loss": 3.9948,
      "step": 27860
    },
    {
      "epoch": 0.0580625,
      "grad_norm": 0.7579713463783264,
      "learning_rate": 0.0002978370246992638,
      "loss": 4.0644,
      "step": 27870
    },
    {
      "epoch": 0.058083333333333334,
      "grad_norm": 0.8094449043273926,
      "learning_rate": 0.0002978353562222889,
      "loss": 4.0242,
      "step": 27880
    },
    {
      "epoch": 0.058104166666666665,
      "grad_norm": 0.8413870930671692,
      "learning_rate": 0.0002978336871067238,
      "loss": 4.1037,
      "step": 27890
    },
    {
      "epoch": 0.058125,
      "grad_norm": 0.9004387855529785,
      "learning_rate": 0.0002978320173525757,
      "loss": 3.9812,
      "step": 27900
    },
    {
      "epoch": 0.058145833333333334,
      "grad_norm": 0.8963835835456848,
      "learning_rate": 0.0002978303469598517,
      "loss": 4.0219,
      "step": 27910
    },
    {
      "epoch": 0.058166666666666665,
      "grad_norm": 0.7338860630989075,
      "learning_rate": 0.00029782867592855925,
      "loss": 4.0023,
      "step": 27920
    },
    {
      "epoch": 0.0581875,
      "grad_norm": 0.8324993848800659,
      "learning_rate": 0.0002978270042587054,
      "loss": 4.0042,
      "step": 27930
    },
    {
      "epoch": 0.058208333333333334,
      "grad_norm": 0.9510817527770996,
      "learning_rate": 0.00029782533195029737,
      "loss": 3.8577,
      "step": 27940
    },
    {
      "epoch": 0.058229166666666665,
      "grad_norm": 0.8871030211448669,
      "learning_rate": 0.0002978236590033424,
      "loss": 3.9181,
      "step": 27950
    },
    {
      "epoch": 0.05825,
      "grad_norm": 0.7444835901260376,
      "learning_rate": 0.0002978219854178478,
      "loss": 3.8736,
      "step": 27960
    },
    {
      "epoch": 0.058270833333333334,
      "grad_norm": 0.8341856598854065,
      "learning_rate": 0.0002978203111938207,
      "loss": 4.0376,
      "step": 27970
    },
    {
      "epoch": 0.058291666666666665,
      "grad_norm": 0.9582986235618591,
      "learning_rate": 0.00029781863633126837,
      "loss": 4.0826,
      "step": 27980
    },
    {
      "epoch": 0.0583125,
      "grad_norm": 0.7271352410316467,
      "learning_rate": 0.00029781696083019797,
      "loss": 4.0753,
      "step": 27990
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 0.7385260462760925,
      "learning_rate": 0.00029781528469061694,
      "loss": 3.9719,
      "step": 28000
    },
    {
      "epoch": 0.058333333333333334,
      "eval_loss": 4.3337297439575195,
      "eval_runtime": 9.7426,
      "eval_samples_per_second": 1.026,
      "eval_steps_per_second": 0.308,
      "step": 28000
    },
    {
      "epoch": 0.058354166666666665,
      "grad_norm": 0.9821462631225586,
      "learning_rate": 0.0002978136079125323,
      "loss": 3.8396,
      "step": 28010
    },
    {
      "epoch": 0.058375,
      "grad_norm": 0.8511221408843994,
      "learning_rate": 0.00029781193049595143,
      "loss": 4.1699,
      "step": 28020
    },
    {
      "epoch": 0.058395833333333334,
      "grad_norm": 0.8254387974739075,
      "learning_rate": 0.0002978102524408815,
      "loss": 4.082,
      "step": 28030
    },
    {
      "epoch": 0.058416666666666665,
      "grad_norm": 0.783639132976532,
      "learning_rate": 0.0002978085737473298,
      "loss": 3.9503,
      "step": 28040
    },
    {
      "epoch": 0.0584375,
      "grad_norm": 1.0915508270263672,
      "learning_rate": 0.00029780689441530355,
      "loss": 3.9063,
      "step": 28050
    },
    {
      "epoch": 0.058458333333333334,
      "grad_norm": 0.9193095564842224,
      "learning_rate": 0.00029780521444481,
      "loss": 4.0717,
      "step": 28060
    },
    {
      "epoch": 0.058479166666666665,
      "grad_norm": 0.9121372103691101,
      "learning_rate": 0.0002978035338358565,
      "loss": 3.9815,
      "step": 28070
    },
    {
      "epoch": 0.0585,
      "grad_norm": 0.787655234336853,
      "learning_rate": 0.0002978018525884502,
      "loss": 4.1139,
      "step": 28080
    },
    {
      "epoch": 0.058520833333333334,
      "grad_norm": 0.8940716981887817,
      "learning_rate": 0.0002978001707025984,
      "loss": 4.1568,
      "step": 28090
    },
    {
      "epoch": 0.058541666666666665,
      "grad_norm": 0.8758763670921326,
      "learning_rate": 0.0002977984881783084,
      "loss": 3.9863,
      "step": 28100
    },
    {
      "epoch": 0.0585625,
      "grad_norm": 0.7488703727722168,
      "learning_rate": 0.00029779680501558736,
      "loss": 3.8419,
      "step": 28110
    },
    {
      "epoch": 0.058583333333333334,
      "grad_norm": 0.771414041519165,
      "learning_rate": 0.0002977951212144427,
      "loss": 4.028,
      "step": 28120
    },
    {
      "epoch": 0.058604166666666666,
      "grad_norm": 1.0134316682815552,
      "learning_rate": 0.0002977934367748816,
      "loss": 3.9775,
      "step": 28130
    },
    {
      "epoch": 0.058625,
      "grad_norm": 0.8183576464653015,
      "learning_rate": 0.0002977917516969113,
      "loss": 4.0934,
      "step": 28140
    },
    {
      "epoch": 0.058645833333333335,
      "grad_norm": 0.8778153657913208,
      "learning_rate": 0.0002977900659805392,
      "loss": 4.0242,
      "step": 28150
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 1.1029689311981201,
      "learning_rate": 0.0002977883796257725,
      "loss": 4.0612,
      "step": 28160
    },
    {
      "epoch": 0.0586875,
      "grad_norm": 0.7578759789466858,
      "learning_rate": 0.00029778669263261844,
      "loss": 4.0755,
      "step": 28170
    },
    {
      "epoch": 0.058708333333333335,
      "grad_norm": 0.8067404627799988,
      "learning_rate": 0.0002977850050010844,
      "loss": 4.0353,
      "step": 28180
    },
    {
      "epoch": 0.058729166666666666,
      "grad_norm": 0.7950558066368103,
      "learning_rate": 0.00029778331673117767,
      "loss": 4.0281,
      "step": 28190
    },
    {
      "epoch": 0.05875,
      "grad_norm": 0.7035298347473145,
      "learning_rate": 0.0002977816278229055,
      "loss": 3.901,
      "step": 28200
    },
    {
      "epoch": 0.058770833333333335,
      "grad_norm": 0.8084566593170166,
      "learning_rate": 0.00029777993827627517,
      "loss": 4.137,
      "step": 28210
    },
    {
      "epoch": 0.058791666666666666,
      "grad_norm": 0.8556565642356873,
      "learning_rate": 0.000297778248091294,
      "loss": 4.2009,
      "step": 28220
    },
    {
      "epoch": 0.0588125,
      "grad_norm": 0.7428489923477173,
      "learning_rate": 0.0002977765572679693,
      "loss": 4.113,
      "step": 28230
    },
    {
      "epoch": 0.058833333333333335,
      "grad_norm": 0.7887394428253174,
      "learning_rate": 0.0002977748658063084,
      "loss": 4.0304,
      "step": 28240
    },
    {
      "epoch": 0.058854166666666666,
      "grad_norm": 0.8271185159683228,
      "learning_rate": 0.0002977731737063185,
      "loss": 4.0396,
      "step": 28250
    },
    {
      "epoch": 0.058875,
      "grad_norm": 0.7731518745422363,
      "learning_rate": 0.00029777148096800707,
      "loss": 4.0463,
      "step": 28260
    },
    {
      "epoch": 0.058895833333333335,
      "grad_norm": 0.8690152764320374,
      "learning_rate": 0.00029776978759138125,
      "loss": 4.0801,
      "step": 28270
    },
    {
      "epoch": 0.058916666666666666,
      "grad_norm": 0.8408668041229248,
      "learning_rate": 0.0002977680935764485,
      "loss": 4.0922,
      "step": 28280
    },
    {
      "epoch": 0.0589375,
      "grad_norm": 0.8092278838157654,
      "learning_rate": 0.00029776639892321606,
      "loss": 4.1257,
      "step": 28290
    },
    {
      "epoch": 0.058958333333333335,
      "grad_norm": 0.8814899325370789,
      "learning_rate": 0.0002977647036316913,
      "loss": 3.9045,
      "step": 28300
    },
    {
      "epoch": 0.058979166666666666,
      "grad_norm": 4.785010814666748,
      "learning_rate": 0.00029776300770188144,
      "loss": 3.9294,
      "step": 28310
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.7081260681152344,
      "learning_rate": 0.00029776131113379387,
      "loss": 4.0657,
      "step": 28320
    },
    {
      "epoch": 0.059020833333333335,
      "grad_norm": 0.7731541395187378,
      "learning_rate": 0.000297759613927436,
      "loss": 4.0361,
      "step": 28330
    },
    {
      "epoch": 0.059041666666666666,
      "grad_norm": 0.7795857787132263,
      "learning_rate": 0.000297757916082815,
      "loss": 4.0586,
      "step": 28340
    },
    {
      "epoch": 0.0590625,
      "grad_norm": 0.8129675984382629,
      "learning_rate": 0.0002977562175999384,
      "loss": 4.0363,
      "step": 28350
    },
    {
      "epoch": 0.059083333333333335,
      "grad_norm": 0.8184221386909485,
      "learning_rate": 0.00029775451847881333,
      "loss": 3.9616,
      "step": 28360
    },
    {
      "epoch": 0.059104166666666666,
      "grad_norm": 0.8976306319236755,
      "learning_rate": 0.00029775281871944725,
      "loss": 3.937,
      "step": 28370
    },
    {
      "epoch": 0.059125,
      "grad_norm": 0.7422711253166199,
      "learning_rate": 0.0002977511183218475,
      "loss": 4.097,
      "step": 28380
    },
    {
      "epoch": 0.059145833333333335,
      "grad_norm": 0.8507609963417053,
      "learning_rate": 0.00029774941728602137,
      "loss": 3.9694,
      "step": 28390
    },
    {
      "epoch": 0.059166666666666666,
      "grad_norm": 0.7471102476119995,
      "learning_rate": 0.00029774771561197626,
      "loss": 4.0232,
      "step": 28400
    },
    {
      "epoch": 0.0591875,
      "grad_norm": 0.8396421670913696,
      "learning_rate": 0.0002977460132997195,
      "loss": 3.911,
      "step": 28410
    },
    {
      "epoch": 0.059208333333333335,
      "grad_norm": 0.8948994278907776,
      "learning_rate": 0.00029774431034925846,
      "loss": 4.3207,
      "step": 28420
    },
    {
      "epoch": 0.059229166666666666,
      "grad_norm": 0.649896502494812,
      "learning_rate": 0.00029774260676060046,
      "loss": 4.1688,
      "step": 28430
    },
    {
      "epoch": 0.05925,
      "grad_norm": 0.8756998777389526,
      "learning_rate": 0.00029774090253375287,
      "loss": 3.9492,
      "step": 28440
    },
    {
      "epoch": 0.059270833333333335,
      "grad_norm": 1.0259588956832886,
      "learning_rate": 0.00029773919766872307,
      "loss": 3.9834,
      "step": 28450
    },
    {
      "epoch": 0.059291666666666666,
      "grad_norm": 1.091251015663147,
      "learning_rate": 0.0002977374921655184,
      "loss": 4.0844,
      "step": 28460
    },
    {
      "epoch": 0.0593125,
      "grad_norm": 0.8668212294578552,
      "learning_rate": 0.0002977357860241463,
      "loss": 4.1526,
      "step": 28470
    },
    {
      "epoch": 0.059333333333333335,
      "grad_norm": 0.8509314656257629,
      "learning_rate": 0.00029773407924461404,
      "loss": 3.9016,
      "step": 28480
    },
    {
      "epoch": 0.059354166666666666,
      "grad_norm": 0.8672800660133362,
      "learning_rate": 0.00029773237182692904,
      "loss": 4.1919,
      "step": 28490
    },
    {
      "epoch": 0.059375,
      "grad_norm": 0.8291724324226379,
      "learning_rate": 0.0002977306637710987,
      "loss": 3.9928,
      "step": 28500
    },
    {
      "epoch": 0.059395833333333335,
      "grad_norm": 0.7973001599311829,
      "learning_rate": 0.0002977289550771303,
      "loss": 4.2397,
      "step": 28510
    },
    {
      "epoch": 0.059416666666666666,
      "grad_norm": 0.8378255367279053,
      "learning_rate": 0.00029772724574503133,
      "loss": 4.1656,
      "step": 28520
    },
    {
      "epoch": 0.0594375,
      "grad_norm": 0.7942454218864441,
      "learning_rate": 0.00029772553577480916,
      "loss": 4.1935,
      "step": 28530
    },
    {
      "epoch": 0.059458333333333335,
      "grad_norm": 0.8349277377128601,
      "learning_rate": 0.0002977238251664711,
      "loss": 3.9162,
      "step": 28540
    },
    {
      "epoch": 0.059479166666666666,
      "grad_norm": 0.7770869731903076,
      "learning_rate": 0.0002977221139200246,
      "loss": 4.2089,
      "step": 28550
    },
    {
      "epoch": 0.0595,
      "grad_norm": 0.7684369683265686,
      "learning_rate": 0.0002977204020354771,
      "loss": 4.018,
      "step": 28560
    },
    {
      "epoch": 0.059520833333333335,
      "grad_norm": 0.7355980277061462,
      "learning_rate": 0.00029771868951283586,
      "loss": 4.0613,
      "step": 28570
    },
    {
      "epoch": 0.059541666666666666,
      "grad_norm": 0.7931314706802368,
      "learning_rate": 0.0002977169763521084,
      "loss": 4.1778,
      "step": 28580
    },
    {
      "epoch": 0.0595625,
      "grad_norm": 0.8197821378707886,
      "learning_rate": 0.000297715262553302,
      "loss": 4.0474,
      "step": 28590
    },
    {
      "epoch": 0.059583333333333335,
      "grad_norm": 0.9635288119316101,
      "learning_rate": 0.00029771354811642417,
      "loss": 4.0023,
      "step": 28600
    },
    {
      "epoch": 0.059604166666666666,
      "grad_norm": 0.8888946771621704,
      "learning_rate": 0.0002977118330414823,
      "loss": 4.0462,
      "step": 28610
    },
    {
      "epoch": 0.059625,
      "grad_norm": 0.7992176413536072,
      "learning_rate": 0.0002977101173284838,
      "loss": 3.917,
      "step": 28620
    },
    {
      "epoch": 0.059645833333333335,
      "grad_norm": 0.7799692749977112,
      "learning_rate": 0.000297708400977436,
      "loss": 4.0065,
      "step": 28630
    },
    {
      "epoch": 0.059666666666666666,
      "grad_norm": 0.8649428486824036,
      "learning_rate": 0.00029770668398834644,
      "loss": 4.1142,
      "step": 28640
    },
    {
      "epoch": 0.0596875,
      "grad_norm": 0.7527645230293274,
      "learning_rate": 0.0002977049663612224,
      "loss": 4.0586,
      "step": 28650
    },
    {
      "epoch": 0.059708333333333335,
      "grad_norm": 0.8963967561721802,
      "learning_rate": 0.0002977032480960715,
      "loss": 4.1482,
      "step": 28660
    },
    {
      "epoch": 0.059729166666666667,
      "grad_norm": 0.773729145526886,
      "learning_rate": 0.0002977015291929009,
      "loss": 3.9072,
      "step": 28670
    },
    {
      "epoch": 0.05975,
      "grad_norm": 0.8178229331970215,
      "learning_rate": 0.00029769980965171824,
      "loss": 3.8887,
      "step": 28680
    },
    {
      "epoch": 0.059770833333333336,
      "grad_norm": 0.8257982730865479,
      "learning_rate": 0.0002976980894725308,
      "loss": 3.9644,
      "step": 28690
    },
    {
      "epoch": 0.05979166666666667,
      "grad_norm": 0.686358630657196,
      "learning_rate": 0.0002976963686553461,
      "loss": 4.1402,
      "step": 28700
    },
    {
      "epoch": 0.0598125,
      "grad_norm": 0.7905331254005432,
      "learning_rate": 0.0002976946472001716,
      "loss": 4.0758,
      "step": 28710
    },
    {
      "epoch": 0.059833333333333336,
      "grad_norm": 0.7291516661643982,
      "learning_rate": 0.0002976929251070146,
      "loss": 4.0882,
      "step": 28720
    },
    {
      "epoch": 0.05985416666666667,
      "grad_norm": 0.8644330501556396,
      "learning_rate": 0.0002976912023758827,
      "loss": 4.0914,
      "step": 28730
    },
    {
      "epoch": 0.059875,
      "grad_norm": 0.8880428075790405,
      "learning_rate": 0.0002976894790067832,
      "loss": 3.9662,
      "step": 28740
    },
    {
      "epoch": 0.059895833333333336,
      "grad_norm": 0.8069501519203186,
      "learning_rate": 0.00029768775499972364,
      "loss": 3.9497,
      "step": 28750
    },
    {
      "epoch": 0.05991666666666667,
      "grad_norm": 0.8965879678726196,
      "learning_rate": 0.0002976860303547114,
      "loss": 3.895,
      "step": 28760
    },
    {
      "epoch": 0.0599375,
      "grad_norm": 0.9722900986671448,
      "learning_rate": 0.00029768430507175404,
      "loss": 4.2203,
      "step": 28770
    },
    {
      "epoch": 0.059958333333333336,
      "grad_norm": 0.9029613137245178,
      "learning_rate": 0.0002976825791508589,
      "loss": 3.9507,
      "step": 28780
    },
    {
      "epoch": 0.05997916666666667,
      "grad_norm": 0.9038407802581787,
      "learning_rate": 0.00029768085259203347,
      "loss": 4.0853,
      "step": 28790
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8156259059906006,
      "learning_rate": 0.00029767912539528527,
      "loss": 4.147,
      "step": 28800
    },
    {
      "epoch": 0.060020833333333336,
      "grad_norm": 0.7823668122291565,
      "learning_rate": 0.0002976773975606216,
      "loss": 3.7448,
      "step": 28810
    },
    {
      "epoch": 0.06004166666666667,
      "grad_norm": 0.7521113753318787,
      "learning_rate": 0.0002976756690880501,
      "loss": 4.2022,
      "step": 28820
    },
    {
      "epoch": 0.0600625,
      "grad_norm": 0.7777439951896667,
      "learning_rate": 0.0002976739399775782,
      "loss": 3.8334,
      "step": 28830
    },
    {
      "epoch": 0.060083333333333336,
      "grad_norm": 0.7256953716278076,
      "learning_rate": 0.00029767221022921323,
      "loss": 4.0322,
      "step": 28840
    },
    {
      "epoch": 0.06010416666666667,
      "grad_norm": 0.839480996131897,
      "learning_rate": 0.0002976704798429629,
      "loss": 4.0847,
      "step": 28850
    },
    {
      "epoch": 0.060125,
      "grad_norm": 0.788024365901947,
      "learning_rate": 0.0002976687488188344,
      "loss": 4.1183,
      "step": 28860
    },
    {
      "epoch": 0.060145833333333336,
      "grad_norm": 0.8533191084861755,
      "learning_rate": 0.0002976670171568354,
      "loss": 3.9709,
      "step": 28870
    },
    {
      "epoch": 0.06016666666666667,
      "grad_norm": 0.7956870198249817,
      "learning_rate": 0.0002976652848569734,
      "loss": 3.9244,
      "step": 28880
    },
    {
      "epoch": 0.0601875,
      "grad_norm": 0.8222197890281677,
      "learning_rate": 0.0002976635519192557,
      "loss": 4.0253,
      "step": 28890
    },
    {
      "epoch": 0.060208333333333336,
      "grad_norm": 0.9385104775428772,
      "learning_rate": 0.0002976618183436901,
      "loss": 3.9232,
      "step": 28900
    },
    {
      "epoch": 0.06022916666666667,
      "grad_norm": 0.7920111417770386,
      "learning_rate": 0.0002976600841302837,
      "loss": 3.9925,
      "step": 28910
    },
    {
      "epoch": 0.06025,
      "grad_norm": 0.791247546672821,
      "learning_rate": 0.0002976583492790443,
      "loss": 4.037,
      "step": 28920
    },
    {
      "epoch": 0.060270833333333336,
      "grad_norm": 0.7524693012237549,
      "learning_rate": 0.0002976566137899792,
      "loss": 4.0421,
      "step": 28930
    },
    {
      "epoch": 0.06029166666666667,
      "grad_norm": 0.8059237599372864,
      "learning_rate": 0.00029765487766309607,
      "loss": 4.1032,
      "step": 28940
    },
    {
      "epoch": 0.0603125,
      "grad_norm": 0.731202244758606,
      "learning_rate": 0.00029765314089840226,
      "loss": 4.2398,
      "step": 28950
    },
    {
      "epoch": 0.060333333333333336,
      "grad_norm": 0.8298438787460327,
      "learning_rate": 0.00029765140349590527,
      "loss": 4.0979,
      "step": 28960
    },
    {
      "epoch": 0.06035416666666667,
      "grad_norm": 0.8490571975708008,
      "learning_rate": 0.00029764966545561274,
      "loss": 4.0255,
      "step": 28970
    },
    {
      "epoch": 0.060375,
      "grad_norm": 0.7874022722244263,
      "learning_rate": 0.00029764792677753206,
      "loss": 4.1048,
      "step": 28980
    },
    {
      "epoch": 0.060395833333333336,
      "grad_norm": 0.7926114201545715,
      "learning_rate": 0.0002976461874616708,
      "loss": 3.9858,
      "step": 28990
    },
    {
      "epoch": 0.06041666666666667,
      "grad_norm": 0.8511772751808167,
      "learning_rate": 0.00029764444750803644,
      "loss": 3.9235,
      "step": 29000
    },
    {
      "epoch": 0.06041666666666667,
      "eval_loss": 4.322887420654297,
      "eval_runtime": 11.8134,
      "eval_samples_per_second": 0.846,
      "eval_steps_per_second": 0.254,
      "step": 29000
    },
    {
      "epoch": 0.0604375,
      "grad_norm": 0.7601058483123779,
      "learning_rate": 0.00029764270691663654,
      "loss": 4.1378,
      "step": 29010
    },
    {
      "epoch": 0.060458333333333336,
      "grad_norm": 0.8406563401222229,
      "learning_rate": 0.00029764096568747855,
      "loss": 4.1004,
      "step": 29020
    },
    {
      "epoch": 0.06047916666666667,
      "grad_norm": 0.7866235971450806,
      "learning_rate": 0.00029763922382057003,
      "loss": 3.9188,
      "step": 29030
    },
    {
      "epoch": 0.0605,
      "grad_norm": 0.7315018773078918,
      "learning_rate": 0.00029763748131591855,
      "loss": 4.1622,
      "step": 29040
    },
    {
      "epoch": 0.060520833333333336,
      "grad_norm": 0.8574497699737549,
      "learning_rate": 0.00029763573817353156,
      "loss": 3.9901,
      "step": 29050
    },
    {
      "epoch": 0.06054166666666667,
      "grad_norm": 0.7249524593353271,
      "learning_rate": 0.0002976339943934166,
      "loss": 3.8701,
      "step": 29060
    },
    {
      "epoch": 0.0605625,
      "grad_norm": 0.8211441040039062,
      "learning_rate": 0.00029763224997558124,
      "loss": 3.8699,
      "step": 29070
    },
    {
      "epoch": 0.060583333333333336,
      "grad_norm": 0.9947181344032288,
      "learning_rate": 0.00029763050492003293,
      "loss": 4.1574,
      "step": 29080
    },
    {
      "epoch": 0.06060416666666667,
      "grad_norm": 0.8259121179580688,
      "learning_rate": 0.0002976287592267794,
      "loss": 4.1622,
      "step": 29090
    },
    {
      "epoch": 0.060625,
      "grad_norm": 0.8960739970207214,
      "learning_rate": 0.000297627012895828,
      "loss": 4.2004,
      "step": 29100
    },
    {
      "epoch": 0.060645833333333336,
      "grad_norm": 0.7725949883460999,
      "learning_rate": 0.00029762526592718634,
      "loss": 4.1912,
      "step": 29110
    },
    {
      "epoch": 0.06066666666666667,
      "grad_norm": 0.8095203638076782,
      "learning_rate": 0.00029762351832086193,
      "loss": 3.8589,
      "step": 29120
    },
    {
      "epoch": 0.0606875,
      "grad_norm": 0.8058037161827087,
      "learning_rate": 0.00029762177007686244,
      "loss": 4.1732,
      "step": 29130
    },
    {
      "epoch": 0.060708333333333336,
      "grad_norm": 0.7959723472595215,
      "learning_rate": 0.00029762002119519524,
      "loss": 4.0271,
      "step": 29140
    },
    {
      "epoch": 0.06072916666666667,
      "grad_norm": 0.8201887011528015,
      "learning_rate": 0.00029761827167586804,
      "loss": 3.8185,
      "step": 29150
    },
    {
      "epoch": 0.06075,
      "grad_norm": 0.8226702213287354,
      "learning_rate": 0.00029761652151888835,
      "loss": 4.0489,
      "step": 29160
    },
    {
      "epoch": 0.060770833333333336,
      "grad_norm": 0.9228971004486084,
      "learning_rate": 0.0002976147707242637,
      "loss": 4.0783,
      "step": 29170
    },
    {
      "epoch": 0.06079166666666667,
      "grad_norm": 0.8470959663391113,
      "learning_rate": 0.00029761301929200166,
      "loss": 3.7855,
      "step": 29180
    },
    {
      "epoch": 0.0608125,
      "grad_norm": 0.892784059047699,
      "learning_rate": 0.0002976112672221098,
      "loss": 4.0425,
      "step": 29190
    },
    {
      "epoch": 0.060833333333333336,
      "grad_norm": 0.7882646322250366,
      "learning_rate": 0.0002976095145145957,
      "loss": 4.171,
      "step": 29200
    },
    {
      "epoch": 0.06085416666666667,
      "grad_norm": 0.9007334113121033,
      "learning_rate": 0.00029760776116946695,
      "loss": 4.0816,
      "step": 29210
    },
    {
      "epoch": 0.060875,
      "grad_norm": 0.7402275800704956,
      "learning_rate": 0.00029760600718673104,
      "loss": 4.1153,
      "step": 29220
    },
    {
      "epoch": 0.06089583333333334,
      "grad_norm": 0.7783899903297424,
      "learning_rate": 0.0002976042525663957,
      "loss": 3.9135,
      "step": 29230
    },
    {
      "epoch": 0.06091666666666667,
      "grad_norm": 0.7397148609161377,
      "learning_rate": 0.00029760249730846833,
      "loss": 4.1428,
      "step": 29240
    },
    {
      "epoch": 0.0609375,
      "grad_norm": 0.8965991139411926,
      "learning_rate": 0.0002976007414129566,
      "loss": 3.8902,
      "step": 29250
    },
    {
      "epoch": 0.06095833333333334,
      "grad_norm": 0.8673374056816101,
      "learning_rate": 0.00029759898487986814,
      "loss": 4.1646,
      "step": 29260
    },
    {
      "epoch": 0.06097916666666667,
      "grad_norm": 0.7434284090995789,
      "learning_rate": 0.00029759722770921046,
      "loss": 4.0116,
      "step": 29270
    },
    {
      "epoch": 0.061,
      "grad_norm": 0.7829568982124329,
      "learning_rate": 0.00029759546990099116,
      "loss": 3.921,
      "step": 29280
    },
    {
      "epoch": 0.06102083333333334,
      "grad_norm": 0.7590770721435547,
      "learning_rate": 0.0002975937114552179,
      "loss": 4.0415,
      "step": 29290
    },
    {
      "epoch": 0.06104166666666667,
      "grad_norm": 0.8968276381492615,
      "learning_rate": 0.0002975919523718982,
      "loss": 4.0704,
      "step": 29300
    },
    {
      "epoch": 0.0610625,
      "grad_norm": 0.8446416854858398,
      "learning_rate": 0.0002975901926510397,
      "loss": 3.8829,
      "step": 29310
    },
    {
      "epoch": 0.06108333333333334,
      "grad_norm": 0.9309907555580139,
      "learning_rate": 0.00029758843229264997,
      "loss": 4.2758,
      "step": 29320
    },
    {
      "epoch": 0.06110416666666667,
      "grad_norm": 1.035027265548706,
      "learning_rate": 0.00029758667129673664,
      "loss": 4.248,
      "step": 29330
    },
    {
      "epoch": 0.061125,
      "grad_norm": 0.9120420217514038,
      "learning_rate": 0.00029758490966330734,
      "loss": 3.9837,
      "step": 29340
    },
    {
      "epoch": 0.06114583333333334,
      "grad_norm": 0.7119563221931458,
      "learning_rate": 0.0002975831473923696,
      "loss": 3.9887,
      "step": 29350
    },
    {
      "epoch": 0.06116666666666667,
      "grad_norm": 0.8198143243789673,
      "learning_rate": 0.0002975813844839311,
      "loss": 4.1055,
      "step": 29360
    },
    {
      "epoch": 0.0611875,
      "grad_norm": 0.8531615734100342,
      "learning_rate": 0.00029757962093799944,
      "loss": 3.9404,
      "step": 29370
    },
    {
      "epoch": 0.06120833333333333,
      "grad_norm": 0.8927220106124878,
      "learning_rate": 0.00029757785675458225,
      "loss": 4.2244,
      "step": 29380
    },
    {
      "epoch": 0.06122916666666667,
      "grad_norm": 0.8094875812530518,
      "learning_rate": 0.0002975760919336871,
      "loss": 4.1497,
      "step": 29390
    },
    {
      "epoch": 0.06125,
      "grad_norm": 0.7430135607719421,
      "learning_rate": 0.00029757432647532165,
      "loss": 4.1052,
      "step": 29400
    },
    {
      "epoch": 0.06127083333333333,
      "grad_norm": 0.8661625981330872,
      "learning_rate": 0.00029757256037949353,
      "loss": 3.8259,
      "step": 29410
    },
    {
      "epoch": 0.06129166666666667,
      "grad_norm": 0.7521441578865051,
      "learning_rate": 0.00029757079364621037,
      "loss": 3.9456,
      "step": 29420
    },
    {
      "epoch": 0.0613125,
      "grad_norm": 0.9092415571212769,
      "learning_rate": 0.0002975690262754798,
      "loss": 4.0387,
      "step": 29430
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 0.7576876878738403,
      "learning_rate": 0.00029756725826730944,
      "loss": 4.0582,
      "step": 29440
    },
    {
      "epoch": 0.06135416666666667,
      "grad_norm": 0.7739952802658081,
      "learning_rate": 0.0002975654896217069,
      "loss": 4.265,
      "step": 29450
    },
    {
      "epoch": 0.061375,
      "grad_norm": 0.7803800106048584,
      "learning_rate": 0.0002975637203386799,
      "loss": 3.9619,
      "step": 29460
    },
    {
      "epoch": 0.06139583333333333,
      "grad_norm": 0.7534099221229553,
      "learning_rate": 0.00029756195041823603,
      "loss": 4.1132,
      "step": 29470
    },
    {
      "epoch": 0.06141666666666667,
      "grad_norm": 0.8216633200645447,
      "learning_rate": 0.000297560179860383,
      "loss": 4.0204,
      "step": 29480
    },
    {
      "epoch": 0.0614375,
      "grad_norm": 0.7341957688331604,
      "learning_rate": 0.0002975584086651283,
      "loss": 4.2073,
      "step": 29490
    },
    {
      "epoch": 0.06145833333333333,
      "grad_norm": 0.8970953226089478,
      "learning_rate": 0.00029755663683247974,
      "loss": 4.1837,
      "step": 29500
    },
    {
      "epoch": 0.06147916666666667,
      "grad_norm": 0.7884898781776428,
      "learning_rate": 0.0002975548643624449,
      "loss": 3.8748,
      "step": 29510
    },
    {
      "epoch": 0.0615,
      "grad_norm": 0.7638188004493713,
      "learning_rate": 0.00029755309125503146,
      "loss": 4.1444,
      "step": 29520
    },
    {
      "epoch": 0.06152083333333333,
      "grad_norm": 0.9098157286643982,
      "learning_rate": 0.00029755131751024706,
      "loss": 3.9118,
      "step": 29530
    },
    {
      "epoch": 0.06154166666666667,
      "grad_norm": 0.7245421409606934,
      "learning_rate": 0.0002975495431280994,
      "loss": 4.0327,
      "step": 29540
    },
    {
      "epoch": 0.0615625,
      "grad_norm": 0.8401640057563782,
      "learning_rate": 0.0002975477681085961,
      "loss": 4.1407,
      "step": 29550
    },
    {
      "epoch": 0.06158333333333333,
      "grad_norm": 0.7999250888824463,
      "learning_rate": 0.0002975459924517448,
      "loss": 3.8629,
      "step": 29560
    },
    {
      "epoch": 0.06160416666666667,
      "grad_norm": 0.8138478994369507,
      "learning_rate": 0.00029754421615755324,
      "loss": 4.0969,
      "step": 29570
    },
    {
      "epoch": 0.061625,
      "grad_norm": 0.8567155003547668,
      "learning_rate": 0.0002975424392260291,
      "loss": 3.9414,
      "step": 29580
    },
    {
      "epoch": 0.06164583333333333,
      "grad_norm": 0.8274092674255371,
      "learning_rate": 0.00029754066165718,
      "loss": 3.9926,
      "step": 29590
    },
    {
      "epoch": 0.06166666666666667,
      "grad_norm": 0.8721805214881897,
      "learning_rate": 0.0002975388834510137,
      "loss": 4.1218,
      "step": 29600
    },
    {
      "epoch": 0.0616875,
      "grad_norm": 0.7927626371383667,
      "learning_rate": 0.00029753710460753775,
      "loss": 4.0701,
      "step": 29610
    },
    {
      "epoch": 0.06170833333333333,
      "grad_norm": 0.8384056091308594,
      "learning_rate": 0.0002975353251267599,
      "loss": 4.0369,
      "step": 29620
    },
    {
      "epoch": 0.06172916666666667,
      "grad_norm": 0.7487731575965881,
      "learning_rate": 0.0002975335450086879,
      "loss": 3.9579,
      "step": 29630
    },
    {
      "epoch": 0.06175,
      "grad_norm": 0.7705084681510925,
      "learning_rate": 0.00029753176425332937,
      "loss": 4.0489,
      "step": 29640
    },
    {
      "epoch": 0.06177083333333333,
      "grad_norm": 0.7480839490890503,
      "learning_rate": 0.000297529982860692,
      "loss": 4.1216,
      "step": 29650
    },
    {
      "epoch": 0.06179166666666667,
      "grad_norm": 0.8982182741165161,
      "learning_rate": 0.0002975282008307835,
      "loss": 4.0328,
      "step": 29660
    },
    {
      "epoch": 0.0618125,
      "grad_norm": 0.8441203236579895,
      "learning_rate": 0.00029752641816361154,
      "loss": 4.0597,
      "step": 29670
    },
    {
      "epoch": 0.06183333333333333,
      "grad_norm": 0.7914412617683411,
      "learning_rate": 0.0002975246348591839,
      "loss": 3.9471,
      "step": 29680
    },
    {
      "epoch": 0.06185416666666667,
      "grad_norm": 0.8117268085479736,
      "learning_rate": 0.00029752285091750826,
      "loss": 4.0691,
      "step": 29690
    },
    {
      "epoch": 0.061875,
      "grad_norm": 0.8864880800247192,
      "learning_rate": 0.0002975210663385922,
      "loss": 4.0181,
      "step": 29700
    },
    {
      "epoch": 0.06189583333333333,
      "grad_norm": 0.7351661920547485,
      "learning_rate": 0.0002975192811224436,
      "loss": 4.1602,
      "step": 29710
    },
    {
      "epoch": 0.06191666666666667,
      "grad_norm": 0.8308060765266418,
      "learning_rate": 0.0002975174952690701,
      "loss": 4.0104,
      "step": 29720
    },
    {
      "epoch": 0.0619375,
      "grad_norm": 0.7503709197044373,
      "learning_rate": 0.00029751570877847936,
      "loss": 4.0182,
      "step": 29730
    },
    {
      "epoch": 0.06195833333333333,
      "grad_norm": 0.9317289590835571,
      "learning_rate": 0.0002975139216506792,
      "loss": 4.0455,
      "step": 29740
    },
    {
      "epoch": 0.06197916666666667,
      "grad_norm": 0.7762730717658997,
      "learning_rate": 0.0002975121338856773,
      "loss": 4.0948,
      "step": 29750
    },
    {
      "epoch": 0.062,
      "grad_norm": 0.8129236698150635,
      "learning_rate": 0.00029751034548348125,
      "loss": 3.9879,
      "step": 29760
    },
    {
      "epoch": 0.06202083333333333,
      "grad_norm": 0.8658553957939148,
      "learning_rate": 0.000297508556444099,
      "loss": 4.1238,
      "step": 29770
    },
    {
      "epoch": 0.06204166666666667,
      "grad_norm": 0.8257842659950256,
      "learning_rate": 0.00029750676676753814,
      "loss": 4.1069,
      "step": 29780
    },
    {
      "epoch": 0.0620625,
      "grad_norm": 0.7369842529296875,
      "learning_rate": 0.0002975049764538065,
      "loss": 3.9901,
      "step": 29790
    },
    {
      "epoch": 0.06208333333333333,
      "grad_norm": 0.7898491621017456,
      "learning_rate": 0.0002975031855029117,
      "loss": 4.22,
      "step": 29800
    },
    {
      "epoch": 0.06210416666666667,
      "grad_norm": 0.8031477928161621,
      "learning_rate": 0.00029750139391486154,
      "loss": 4.1133,
      "step": 29810
    },
    {
      "epoch": 0.062125,
      "grad_norm": 0.8880355954170227,
      "learning_rate": 0.00029749960168966365,
      "loss": 3.9919,
      "step": 29820
    },
    {
      "epoch": 0.06214583333333333,
      "grad_norm": 0.8185032606124878,
      "learning_rate": 0.000297497808827326,
      "loss": 4.1218,
      "step": 29830
    },
    {
      "epoch": 0.06216666666666667,
      "grad_norm": 0.7776533961296082,
      "learning_rate": 0.00029749601532785613,
      "loss": 4.1606,
      "step": 29840
    },
    {
      "epoch": 0.0621875,
      "grad_norm": 0.9000627994537354,
      "learning_rate": 0.00029749422119126185,
      "loss": 4.2967,
      "step": 29850
    },
    {
      "epoch": 0.06220833333333333,
      "grad_norm": 0.8902272582054138,
      "learning_rate": 0.00029749242641755096,
      "loss": 4.2825,
      "step": 29860
    },
    {
      "epoch": 0.06222916666666667,
      "grad_norm": 0.7393922209739685,
      "learning_rate": 0.0002974906310067311,
      "loss": 3.9437,
      "step": 29870
    },
    {
      "epoch": 0.06225,
      "grad_norm": 0.7200772762298584,
      "learning_rate": 0.0002974888349588102,
      "loss": 3.8702,
      "step": 29880
    },
    {
      "epoch": 0.06227083333333333,
      "grad_norm": 0.7521827816963196,
      "learning_rate": 0.00029748703827379584,
      "loss": 4.1196,
      "step": 29890
    },
    {
      "epoch": 0.06229166666666667,
      "grad_norm": 0.8694015741348267,
      "learning_rate": 0.0002974852409516958,
      "loss": 4.0499,
      "step": 29900
    },
    {
      "epoch": 0.0623125,
      "grad_norm": 0.9441766738891602,
      "learning_rate": 0.000297483442992518,
      "loss": 4.0785,
      "step": 29910
    },
    {
      "epoch": 0.06233333333333333,
      "grad_norm": 0.7816182374954224,
      "learning_rate": 0.00029748164439627006,
      "loss": 4.078,
      "step": 29920
    },
    {
      "epoch": 0.06235416666666667,
      "grad_norm": 0.9444436430931091,
      "learning_rate": 0.0002974798451629598,
      "loss": 4.0156,
      "step": 29930
    },
    {
      "epoch": 0.062375,
      "grad_norm": 0.9038636684417725,
      "learning_rate": 0.00029747804529259503,
      "loss": 4.0655,
      "step": 29940
    },
    {
      "epoch": 0.06239583333333333,
      "grad_norm": 0.7659188508987427,
      "learning_rate": 0.0002974762447851834,
      "loss": 4.0383,
      "step": 29950
    },
    {
      "epoch": 0.06241666666666667,
      "grad_norm": 0.8716976642608643,
      "learning_rate": 0.0002974744436407328,
      "loss": 4.0691,
      "step": 29960
    },
    {
      "epoch": 0.0624375,
      "grad_norm": 0.7936158776283264,
      "learning_rate": 0.00029747264185925104,
      "loss": 4.0111,
      "step": 29970
    },
    {
      "epoch": 0.06245833333333333,
      "grad_norm": 0.7584034204483032,
      "learning_rate": 0.0002974708394407458,
      "loss": 3.8973,
      "step": 29980
    },
    {
      "epoch": 0.06247916666666667,
      "grad_norm": 0.8849518895149231,
      "learning_rate": 0.0002974690363852248,
      "loss": 4.1221,
      "step": 29990
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.8789483308792114,
      "learning_rate": 0.0002974672326926961,
      "loss": 4.0542,
      "step": 30000
    },
    {
      "epoch": 0.0625,
      "eval_loss": 4.3088226318359375,
      "eval_runtime": 10.3979,
      "eval_samples_per_second": 0.962,
      "eval_steps_per_second": 0.289,
      "step": 30000
    },
    {
      "epoch": 0.06252083333333333,
      "grad_norm": 0.7615856528282166,
      "learning_rate": 0.0002974654283631672,
      "loss": 4.0688,
      "step": 30010
    },
    {
      "epoch": 0.06254166666666666,
      "grad_norm": 0.8719075322151184,
      "learning_rate": 0.00029746362339664613,
      "loss": 3.9027,
      "step": 30020
    },
    {
      "epoch": 0.0625625,
      "grad_norm": 0.7590094208717346,
      "learning_rate": 0.00029746181779314045,
      "loss": 4.1192,
      "step": 30030
    },
    {
      "epoch": 0.06258333333333334,
      "grad_norm": 0.8476407527923584,
      "learning_rate": 0.00029746001155265823,
      "loss": 4.2799,
      "step": 30040
    },
    {
      "epoch": 0.06260416666666667,
      "grad_norm": 0.7637699246406555,
      "learning_rate": 0.000297458204675207,
      "loss": 3.8025,
      "step": 30050
    },
    {
      "epoch": 0.062625,
      "grad_norm": 0.8245696425437927,
      "learning_rate": 0.00029745639716079474,
      "loss": 4.0993,
      "step": 30060
    },
    {
      "epoch": 0.06264583333333333,
      "grad_norm": 0.7953047752380371,
      "learning_rate": 0.00029745458900942923,
      "loss": 3.9929,
      "step": 30070
    },
    {
      "epoch": 0.06266666666666666,
      "grad_norm": 0.854537844657898,
      "learning_rate": 0.00029745278022111826,
      "loss": 4.0205,
      "step": 30080
    },
    {
      "epoch": 0.0626875,
      "grad_norm": 0.7934266924858093,
      "learning_rate": 0.00029745097079586963,
      "loss": 4.0638,
      "step": 30090
    },
    {
      "epoch": 0.06270833333333334,
      "grad_norm": 0.9018909335136414,
      "learning_rate": 0.0002974491607336912,
      "loss": 3.8446,
      "step": 30100
    },
    {
      "epoch": 0.06272916666666667,
      "grad_norm": 0.7847442030906677,
      "learning_rate": 0.0002974473500345907,
      "loss": 4.1644,
      "step": 30110
    },
    {
      "epoch": 0.06275,
      "grad_norm": 0.9136395454406738,
      "learning_rate": 0.0002974455386985761,
      "loss": 4.0613,
      "step": 30120
    },
    {
      "epoch": 0.06277083333333333,
      "grad_norm": 0.8492864370346069,
      "learning_rate": 0.00029744372672565507,
      "loss": 4.0666,
      "step": 30130
    },
    {
      "epoch": 0.06279166666666666,
      "grad_norm": 0.7803292274475098,
      "learning_rate": 0.0002974419141158355,
      "loss": 4.1496,
      "step": 30140
    },
    {
      "epoch": 0.0628125,
      "grad_norm": 0.957654595375061,
      "learning_rate": 0.0002974401008691252,
      "loss": 4.0739,
      "step": 30150
    },
    {
      "epoch": 0.06283333333333334,
      "grad_norm": 0.813822865486145,
      "learning_rate": 0.0002974382869855321,
      "loss": 4.1172,
      "step": 30160
    },
    {
      "epoch": 0.06285416666666667,
      "grad_norm": 0.775952935218811,
      "learning_rate": 0.00029743647246506397,
      "loss": 4.0997,
      "step": 30170
    },
    {
      "epoch": 0.062875,
      "grad_norm": 0.9162753224372864,
      "learning_rate": 0.0002974346573077286,
      "loss": 4.1247,
      "step": 30180
    },
    {
      "epoch": 0.06289583333333333,
      "grad_norm": 0.8309741616249084,
      "learning_rate": 0.00029743284151353386,
      "loss": 4.0527,
      "step": 30190
    },
    {
      "epoch": 0.06291666666666666,
      "grad_norm": 0.7462338805198669,
      "learning_rate": 0.0002974310250824876,
      "loss": 4.0192,
      "step": 30200
    },
    {
      "epoch": 0.0629375,
      "grad_norm": 0.7510952353477478,
      "learning_rate": 0.00029742920801459767,
      "loss": 4.0718,
      "step": 30210
    },
    {
      "epoch": 0.06295833333333334,
      "grad_norm": 0.8406834602355957,
      "learning_rate": 0.00029742739030987194,
      "loss": 4.0744,
      "step": 30220
    },
    {
      "epoch": 0.06297916666666667,
      "grad_norm": 1.1555323600769043,
      "learning_rate": 0.0002974255719683182,
      "loss": 4.0551,
      "step": 30230
    },
    {
      "epoch": 0.063,
      "grad_norm": 0.9106763601303101,
      "learning_rate": 0.0002974237529899444,
      "loss": 4.184,
      "step": 30240
    },
    {
      "epoch": 0.06302083333333333,
      "grad_norm": 0.8510547280311584,
      "learning_rate": 0.00029742193337475826,
      "loss": 3.942,
      "step": 30250
    },
    {
      "epoch": 0.06304166666666666,
      "grad_norm": 0.8301993608474731,
      "learning_rate": 0.00029742011312276783,
      "loss": 4.0557,
      "step": 30260
    },
    {
      "epoch": 0.0630625,
      "grad_norm": 1.0253045558929443,
      "learning_rate": 0.0002974182922339808,
      "loss": 3.9317,
      "step": 30270
    },
    {
      "epoch": 0.06308333333333334,
      "grad_norm": 0.9290629625320435,
      "learning_rate": 0.0002974164707084051,
      "loss": 3.9818,
      "step": 30280
    },
    {
      "epoch": 0.06310416666666667,
      "grad_norm": 0.839447021484375,
      "learning_rate": 0.0002974146485460486,
      "loss": 4.1364,
      "step": 30290
    },
    {
      "epoch": 0.063125,
      "grad_norm": 0.9093735814094543,
      "learning_rate": 0.0002974128257469192,
      "loss": 4.0505,
      "step": 30300
    },
    {
      "epoch": 0.06314583333333333,
      "grad_norm": 0.8682764172554016,
      "learning_rate": 0.00029741100231102467,
      "loss": 4.196,
      "step": 30310
    },
    {
      "epoch": 0.06316666666666666,
      "grad_norm": 1.0093507766723633,
      "learning_rate": 0.000297409178238373,
      "loss": 4.0192,
      "step": 30320
    },
    {
      "epoch": 0.0631875,
      "grad_norm": 0.758405864238739,
      "learning_rate": 0.000297407353528972,
      "loss": 4.1125,
      "step": 30330
    },
    {
      "epoch": 0.06320833333333334,
      "grad_norm": 0.7153067588806152,
      "learning_rate": 0.00029740552818282966,
      "loss": 3.9845,
      "step": 30340
    },
    {
      "epoch": 0.06322916666666667,
      "grad_norm": 1.0695821046829224,
      "learning_rate": 0.00029740370219995374,
      "loss": 4.0491,
      "step": 30350
    },
    {
      "epoch": 0.06325,
      "grad_norm": 0.8226625323295593,
      "learning_rate": 0.0002974018755803522,
      "loss": 4.2443,
      "step": 30360
    },
    {
      "epoch": 0.06327083333333333,
      "grad_norm": 0.7931281328201294,
      "learning_rate": 0.00029740004832403284,
      "loss": 4.0016,
      "step": 30370
    },
    {
      "epoch": 0.06329166666666666,
      "grad_norm": 0.7048029899597168,
      "learning_rate": 0.0002973982204310036,
      "loss": 3.9643,
      "step": 30380
    },
    {
      "epoch": 0.0633125,
      "grad_norm": 0.9208285212516785,
      "learning_rate": 0.0002973963919012725,
      "loss": 4.0966,
      "step": 30390
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 0.8361964821815491,
      "learning_rate": 0.00029739456273484725,
      "loss": 4.143,
      "step": 30400
    },
    {
      "epoch": 0.06335416666666667,
      "grad_norm": 0.9277132749557495,
      "learning_rate": 0.00029739273293173587,
      "loss": 4.0723,
      "step": 30410
    },
    {
      "epoch": 0.063375,
      "grad_norm": 0.8738767504692078,
      "learning_rate": 0.0002973909024919462,
      "loss": 4.1602,
      "step": 30420
    },
    {
      "epoch": 0.06339583333333333,
      "grad_norm": 0.8876873850822449,
      "learning_rate": 0.00029738907141548616,
      "loss": 4.3174,
      "step": 30430
    },
    {
      "epoch": 0.06341666666666666,
      "grad_norm": 0.8104599714279175,
      "learning_rate": 0.00029738723970236373,
      "loss": 4.1129,
      "step": 30440
    },
    {
      "epoch": 0.0634375,
      "grad_norm": 0.827494740486145,
      "learning_rate": 0.0002973854073525868,
      "loss": 3.9899,
      "step": 30450
    },
    {
      "epoch": 0.06345833333333334,
      "grad_norm": 0.7558072209358215,
      "learning_rate": 0.0002973835743661631,
      "loss": 4.0355,
      "step": 30460
    },
    {
      "epoch": 0.06347916666666667,
      "grad_norm": 0.9447765350341797,
      "learning_rate": 0.0002973817407431008,
      "loss": 4.0774,
      "step": 30470
    },
    {
      "epoch": 0.0635,
      "grad_norm": 0.8737657070159912,
      "learning_rate": 0.0002973799064834077,
      "loss": 3.794,
      "step": 30480
    },
    {
      "epoch": 0.06352083333333333,
      "grad_norm": 0.8352288007736206,
      "learning_rate": 0.0002973780715870917,
      "loss": 4.1867,
      "step": 30490
    },
    {
      "epoch": 0.06354166666666666,
      "grad_norm": 0.7322183847427368,
      "learning_rate": 0.00029737623605416083,
      "loss": 4.0311,
      "step": 30500
    },
    {
      "epoch": 0.0635625,
      "grad_norm": 0.7374336123466492,
      "learning_rate": 0.0002973743998846229,
      "loss": 4.1752,
      "step": 30510
    },
    {
      "epoch": 0.06358333333333334,
      "grad_norm": 0.9266337752342224,
      "learning_rate": 0.0002973725630784859,
      "loss": 4.0956,
      "step": 30520
    },
    {
      "epoch": 0.06360416666666667,
      "grad_norm": 0.9650958180427551,
      "learning_rate": 0.00029737072563575784,
      "loss": 4.1907,
      "step": 30530
    },
    {
      "epoch": 0.063625,
      "grad_norm": 0.8382750749588013,
      "learning_rate": 0.0002973688875564465,
      "loss": 4.143,
      "step": 30540
    },
    {
      "epoch": 0.06364583333333333,
      "grad_norm": 0.8110083341598511,
      "learning_rate": 0.00029736704884055995,
      "loss": 4.1531,
      "step": 30550
    },
    {
      "epoch": 0.06366666666666666,
      "grad_norm": 0.8101698756217957,
      "learning_rate": 0.00029736520948810607,
      "loss": 3.9661,
      "step": 30560
    },
    {
      "epoch": 0.0636875,
      "grad_norm": 0.7475102543830872,
      "learning_rate": 0.0002973633694990928,
      "loss": 4.068,
      "step": 30570
    },
    {
      "epoch": 0.06370833333333334,
      "grad_norm": 0.8122192025184631,
      "learning_rate": 0.0002973615288735281,
      "loss": 4.1541,
      "step": 30580
    },
    {
      "epoch": 0.06372916666666667,
      "grad_norm": 0.7345097064971924,
      "learning_rate": 0.0002973596876114199,
      "loss": 4.0125,
      "step": 30590
    },
    {
      "epoch": 0.06375,
      "grad_norm": 0.8869519233703613,
      "learning_rate": 0.0002973578457127763,
      "loss": 4.1472,
      "step": 30600
    },
    {
      "epoch": 0.06377083333333333,
      "grad_norm": 0.8308647274971008,
      "learning_rate": 0.00029735600317760497,
      "loss": 3.9293,
      "step": 30610
    },
    {
      "epoch": 0.06379166666666666,
      "grad_norm": 0.7990361452102661,
      "learning_rate": 0.00029735416000591417,
      "loss": 4.003,
      "step": 30620
    },
    {
      "epoch": 0.0638125,
      "grad_norm": 0.9568301439285278,
      "learning_rate": 0.00029735231619771164,
      "loss": 4.0668,
      "step": 30630
    },
    {
      "epoch": 0.06383333333333334,
      "grad_norm": 0.9603811502456665,
      "learning_rate": 0.0002973504717530054,
      "loss": 4.0397,
      "step": 30640
    },
    {
      "epoch": 0.06385416666666667,
      "grad_norm": 0.8037965297698975,
      "learning_rate": 0.00029734862667180355,
      "loss": 3.96,
      "step": 30650
    },
    {
      "epoch": 0.063875,
      "grad_norm": 0.8071364164352417,
      "learning_rate": 0.00029734678095411386,
      "loss": 4.1265,
      "step": 30660
    },
    {
      "epoch": 0.06389583333333333,
      "grad_norm": 0.9483314156532288,
      "learning_rate": 0.0002973449345999445,
      "loss": 4.0536,
      "step": 30670
    },
    {
      "epoch": 0.06391666666666666,
      "grad_norm": 0.7776271104812622,
      "learning_rate": 0.0002973430876093033,
      "loss": 4.0215,
      "step": 30680
    },
    {
      "epoch": 0.0639375,
      "grad_norm": 0.955297589302063,
      "learning_rate": 0.00029734123998219824,
      "loss": 3.9222,
      "step": 30690
    },
    {
      "epoch": 0.06395833333333334,
      "grad_norm": 0.757895290851593,
      "learning_rate": 0.0002973393917186374,
      "loss": 4.0686,
      "step": 30700
    },
    {
      "epoch": 0.06397916666666667,
      "grad_norm": 1.2091442346572876,
      "learning_rate": 0.0002973375428186287,
      "loss": 4.1071,
      "step": 30710
    },
    {
      "epoch": 0.064,
      "grad_norm": 1.0378495454788208,
      "learning_rate": 0.0002973356932821801,
      "loss": 4.2626,
      "step": 30720
    },
    {
      "epoch": 0.06402083333333333,
      "grad_norm": 0.7644453048706055,
      "learning_rate": 0.00029733384310929965,
      "loss": 3.9924,
      "step": 30730
    },
    {
      "epoch": 0.06404166666666666,
      "grad_norm": 0.8094509840011597,
      "learning_rate": 0.00029733199229999534,
      "loss": 3.9202,
      "step": 30740
    },
    {
      "epoch": 0.0640625,
      "grad_norm": 0.7730520963668823,
      "learning_rate": 0.00029733014085427513,
      "loss": 4.2904,
      "step": 30750
    },
    {
      "epoch": 0.06408333333333334,
      "grad_norm": 0.765953004360199,
      "learning_rate": 0.000297328288772147,
      "loss": 4.0511,
      "step": 30760
    },
    {
      "epoch": 0.06410416666666667,
      "grad_norm": 0.8394192457199097,
      "learning_rate": 0.000297326436053619,
      "loss": 4.2438,
      "step": 30770
    },
    {
      "epoch": 0.064125,
      "grad_norm": 0.7873914241790771,
      "learning_rate": 0.0002973245826986991,
      "loss": 4.1383,
      "step": 30780
    },
    {
      "epoch": 0.06414583333333333,
      "grad_norm": 0.8852495551109314,
      "learning_rate": 0.00029732272870739535,
      "loss": 4.251,
      "step": 30790
    },
    {
      "epoch": 0.06416666666666666,
      "grad_norm": 0.763525128364563,
      "learning_rate": 0.00029732087407971573,
      "loss": 4.0772,
      "step": 30800
    },
    {
      "epoch": 0.0641875,
      "grad_norm": 0.8675146102905273,
      "learning_rate": 0.0002973190188156682,
      "loss": 3.9152,
      "step": 30810
    },
    {
      "epoch": 0.06420833333333334,
      "grad_norm": 0.7569173574447632,
      "learning_rate": 0.00029731716291526083,
      "loss": 3.9699,
      "step": 30820
    },
    {
      "epoch": 0.06422916666666667,
      "grad_norm": 0.8899872303009033,
      "learning_rate": 0.00029731530637850165,
      "loss": 3.9029,
      "step": 30830
    },
    {
      "epoch": 0.06425,
      "grad_norm": 0.8663697242736816,
      "learning_rate": 0.00029731344920539863,
      "loss": 4.0137,
      "step": 30840
    },
    {
      "epoch": 0.06427083333333333,
      "grad_norm": 0.7411839365959167,
      "learning_rate": 0.0002973115913959599,
      "loss": 4.2699,
      "step": 30850
    },
    {
      "epoch": 0.06429166666666666,
      "grad_norm": 0.974566638469696,
      "learning_rate": 0.0002973097329501933,
      "loss": 3.9777,
      "step": 30860
    },
    {
      "epoch": 0.0643125,
      "grad_norm": 0.814213216304779,
      "learning_rate": 0.000297307873868107,
      "loss": 4.0143,
      "step": 30870
    },
    {
      "epoch": 0.06433333333333334,
      "grad_norm": 0.8665851950645447,
      "learning_rate": 0.000297306014149709,
      "loss": 3.9548,
      "step": 30880
    },
    {
      "epoch": 0.06435416666666667,
      "grad_norm": 1.047326683998108,
      "learning_rate": 0.00029730415379500735,
      "loss": 4.0394,
      "step": 30890
    },
    {
      "epoch": 0.064375,
      "grad_norm": 0.7123035788536072,
      "learning_rate": 0.00029730229280401004,
      "loss": 4.1292,
      "step": 30900
    },
    {
      "epoch": 0.06439583333333333,
      "grad_norm": 0.8742004632949829,
      "learning_rate": 0.00029730043117672515,
      "loss": 4.1564,
      "step": 30910
    },
    {
      "epoch": 0.06441666666666666,
      "grad_norm": 0.8704647421836853,
      "learning_rate": 0.00029729856891316065,
      "loss": 4.0216,
      "step": 30920
    },
    {
      "epoch": 0.0644375,
      "grad_norm": 0.8091585636138916,
      "learning_rate": 0.0002972967060133247,
      "loss": 4.0617,
      "step": 30930
    },
    {
      "epoch": 0.06445833333333334,
      "grad_norm": 0.7084479331970215,
      "learning_rate": 0.0002972948424772253,
      "loss": 3.9508,
      "step": 30940
    },
    {
      "epoch": 0.06447916666666667,
      "grad_norm": 0.7011492848396301,
      "learning_rate": 0.0002972929783048704,
      "loss": 4.0573,
      "step": 30950
    },
    {
      "epoch": 0.0645,
      "grad_norm": 0.756658136844635,
      "learning_rate": 0.00029729111349626814,
      "loss": 4.164,
      "step": 30960
    },
    {
      "epoch": 0.06452083333333333,
      "grad_norm": 1.0252101421356201,
      "learning_rate": 0.00029728924805142663,
      "loss": 4.0559,
      "step": 30970
    },
    {
      "epoch": 0.06454166666666666,
      "grad_norm": 0.7813262343406677,
      "learning_rate": 0.00029728738197035387,
      "loss": 3.888,
      "step": 30980
    },
    {
      "epoch": 0.0645625,
      "grad_norm": 0.7838340401649475,
      "learning_rate": 0.0002972855152530579,
      "loss": 4.0857,
      "step": 30990
    },
    {
      "epoch": 0.06458333333333334,
      "grad_norm": 0.8517456650733948,
      "learning_rate": 0.00029728364789954675,
      "loss": 3.995,
      "step": 31000
    },
    {
      "epoch": 0.06458333333333334,
      "eval_loss": 4.327376365661621,
      "eval_runtime": 11.2178,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.267,
      "step": 31000
    },
    {
      "epoch": 0.06460416666666667,
      "grad_norm": 0.7699393630027771,
      "learning_rate": 0.0002972817799098286,
      "loss": 3.9777,
      "step": 31010
    },
    {
      "epoch": 0.064625,
      "grad_norm": 0.7769227027893066,
      "learning_rate": 0.00029727991128391146,
      "loss": 4.0379,
      "step": 31020
    },
    {
      "epoch": 0.06464583333333333,
      "grad_norm": 0.7739619612693787,
      "learning_rate": 0.0002972780420218034,
      "loss": 4.1631,
      "step": 31030
    },
    {
      "epoch": 0.06466666666666666,
      "grad_norm": 0.7439864277839661,
      "learning_rate": 0.0002972761721235125,
      "loss": 3.9989,
      "step": 31040
    },
    {
      "epoch": 0.0646875,
      "grad_norm": 0.7921522259712219,
      "learning_rate": 0.0002972743015890468,
      "loss": 3.9507,
      "step": 31050
    },
    {
      "epoch": 0.06470833333333334,
      "grad_norm": 0.8532997965812683,
      "learning_rate": 0.0002972724304184144,
      "loss": 4.215,
      "step": 31060
    },
    {
      "epoch": 0.06472916666666667,
      "grad_norm": 0.7538086175918579,
      "learning_rate": 0.00029727055861162346,
      "loss": 3.9818,
      "step": 31070
    },
    {
      "epoch": 0.06475,
      "grad_norm": 0.8587008118629456,
      "learning_rate": 0.000297268686168682,
      "loss": 3.9471,
      "step": 31080
    },
    {
      "epoch": 0.06477083333333333,
      "grad_norm": 1.573502540588379,
      "learning_rate": 0.000297266813089598,
      "loss": 3.9741,
      "step": 31090
    },
    {
      "epoch": 0.06479166666666666,
      "grad_norm": 0.8328423500061035,
      "learning_rate": 0.00029726493937437976,
      "loss": 3.9454,
      "step": 31100
    },
    {
      "epoch": 0.0648125,
      "grad_norm": 0.8369524478912354,
      "learning_rate": 0.00029726306502303527,
      "loss": 3.9664,
      "step": 31110
    },
    {
      "epoch": 0.06483333333333334,
      "grad_norm": 0.805446207523346,
      "learning_rate": 0.0002972611900355726,
      "loss": 3.9284,
      "step": 31120
    },
    {
      "epoch": 0.06485416666666667,
      "grad_norm": 0.8027258515357971,
      "learning_rate": 0.00029725931441199993,
      "loss": 4.0722,
      "step": 31130
    },
    {
      "epoch": 0.064875,
      "grad_norm": 0.8427593111991882,
      "learning_rate": 0.00029725743815232523,
      "loss": 3.9705,
      "step": 31140
    },
    {
      "epoch": 0.06489583333333333,
      "grad_norm": 0.8590787053108215,
      "learning_rate": 0.00029725556125655676,
      "loss": 4.0192,
      "step": 31150
    },
    {
      "epoch": 0.06491666666666666,
      "grad_norm": 0.7328251004219055,
      "learning_rate": 0.0002972536837247025,
      "loss": 4.0692,
      "step": 31160
    },
    {
      "epoch": 0.0649375,
      "grad_norm": 0.8321552276611328,
      "learning_rate": 0.00029725180555677065,
      "loss": 3.8933,
      "step": 31170
    },
    {
      "epoch": 0.06495833333333334,
      "grad_norm": 0.8210546374320984,
      "learning_rate": 0.0002972499267527692,
      "loss": 3.8613,
      "step": 31180
    },
    {
      "epoch": 0.06497916666666667,
      "grad_norm": 0.7840132117271423,
      "learning_rate": 0.00029724804731270644,
      "loss": 4.1586,
      "step": 31190
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.7932566404342651,
      "learning_rate": 0.0002972461672365904,
      "loss": 3.8534,
      "step": 31200
    },
    {
      "epoch": 0.06502083333333333,
      "grad_norm": 0.8288613557815552,
      "learning_rate": 0.00029724428652442913,
      "loss": 4.308,
      "step": 31210
    },
    {
      "epoch": 0.06504166666666666,
      "grad_norm": 0.749365508556366,
      "learning_rate": 0.0002972424051762309,
      "loss": 4.0178,
      "step": 31220
    },
    {
      "epoch": 0.0650625,
      "grad_norm": 0.6931217908859253,
      "learning_rate": 0.00029724052319200377,
      "loss": 4.23,
      "step": 31230
    },
    {
      "epoch": 0.06508333333333334,
      "grad_norm": 0.8485331535339355,
      "learning_rate": 0.0002972386405717558,
      "loss": 3.8514,
      "step": 31240
    },
    {
      "epoch": 0.06510416666666667,
      "grad_norm": 0.8824385404586792,
      "learning_rate": 0.00029723675731549524,
      "loss": 4.0208,
      "step": 31250
    },
    {
      "epoch": 0.065125,
      "grad_norm": 0.7513061761856079,
      "learning_rate": 0.0002972348734232301,
      "loss": 4.0345,
      "step": 31260
    },
    {
      "epoch": 0.06514583333333333,
      "grad_norm": 0.8242037892341614,
      "learning_rate": 0.00029723298889496865,
      "loss": 4.0345,
      "step": 31270
    },
    {
      "epoch": 0.06516666666666666,
      "grad_norm": 0.8075969815254211,
      "learning_rate": 0.00029723110373071896,
      "loss": 3.943,
      "step": 31280
    },
    {
      "epoch": 0.0651875,
      "grad_norm": 0.8235570192337036,
      "learning_rate": 0.0002972292179304892,
      "loss": 4.1328,
      "step": 31290
    },
    {
      "epoch": 0.06520833333333333,
      "grad_norm": 0.8061322569847107,
      "learning_rate": 0.00029722733149428743,
      "loss": 4.0461,
      "step": 31300
    },
    {
      "epoch": 0.06522916666666667,
      "grad_norm": 0.7223886847496033,
      "learning_rate": 0.0002972254444221219,
      "loss": 4.0573,
      "step": 31310
    },
    {
      "epoch": 0.06525,
      "grad_norm": 0.836357593536377,
      "learning_rate": 0.00029722355671400074,
      "loss": 4.0626,
      "step": 31320
    },
    {
      "epoch": 0.06527083333333333,
      "grad_norm": 0.8263186812400818,
      "learning_rate": 0.00029722166836993206,
      "loss": 4.1345,
      "step": 31330
    },
    {
      "epoch": 0.06529166666666666,
      "grad_norm": 0.7752527594566345,
      "learning_rate": 0.00029721977938992406,
      "loss": 4.0337,
      "step": 31340
    },
    {
      "epoch": 0.0653125,
      "grad_norm": 0.7923381328582764,
      "learning_rate": 0.00029721788977398486,
      "loss": 4.2156,
      "step": 31350
    },
    {
      "epoch": 0.06533333333333333,
      "grad_norm": 0.8020000457763672,
      "learning_rate": 0.0002972159995221227,
      "loss": 4.1175,
      "step": 31360
    },
    {
      "epoch": 0.06535416666666667,
      "grad_norm": 0.7421557903289795,
      "learning_rate": 0.0002972141086343457,
      "loss": 4.0763,
      "step": 31370
    },
    {
      "epoch": 0.065375,
      "grad_norm": 0.8899211883544922,
      "learning_rate": 0.00029721221711066195,
      "loss": 4.1089,
      "step": 31380
    },
    {
      "epoch": 0.06539583333333333,
      "grad_norm": 1.061769962310791,
      "learning_rate": 0.0002972103249510797,
      "loss": 4.0919,
      "step": 31390
    },
    {
      "epoch": 0.06541666666666666,
      "grad_norm": 0.803652286529541,
      "learning_rate": 0.0002972084321556072,
      "loss": 4.0907,
      "step": 31400
    },
    {
      "epoch": 0.0654375,
      "grad_norm": 0.9599441885948181,
      "learning_rate": 0.0002972065387242525,
      "loss": 4.0686,
      "step": 31410
    },
    {
      "epoch": 0.06545833333333333,
      "grad_norm": 1.2810839414596558,
      "learning_rate": 0.0002972046446570238,
      "loss": 4.1072,
      "step": 31420
    },
    {
      "epoch": 0.06547916666666667,
      "grad_norm": 0.772625207901001,
      "learning_rate": 0.0002972027499539293,
      "loss": 4.0324,
      "step": 31430
    },
    {
      "epoch": 0.0655,
      "grad_norm": 0.7917378544807434,
      "learning_rate": 0.0002972008546149772,
      "loss": 3.9718,
      "step": 31440
    },
    {
      "epoch": 0.06552083333333333,
      "grad_norm": 0.7269752025604248,
      "learning_rate": 0.0002971989586401757,
      "loss": 4.0404,
      "step": 31450
    },
    {
      "epoch": 0.06554166666666666,
      "grad_norm": 0.8392676711082458,
      "learning_rate": 0.00029719706202953295,
      "loss": 4.0295,
      "step": 31460
    },
    {
      "epoch": 0.0655625,
      "grad_norm": 0.858913779258728,
      "learning_rate": 0.00029719516478305714,
      "loss": 4.1028,
      "step": 31470
    },
    {
      "epoch": 0.06558333333333333,
      "grad_norm": 0.8909509778022766,
      "learning_rate": 0.0002971932669007565,
      "loss": 4.0115,
      "step": 31480
    },
    {
      "epoch": 0.06560416666666667,
      "grad_norm": 0.7191335558891296,
      "learning_rate": 0.0002971913683826392,
      "loss": 4.1224,
      "step": 31490
    },
    {
      "epoch": 0.065625,
      "grad_norm": 0.8361225128173828,
      "learning_rate": 0.00029718946922871345,
      "loss": 4.0749,
      "step": 31500
    },
    {
      "epoch": 0.06564583333333333,
      "grad_norm": 0.8083269000053406,
      "learning_rate": 0.00029718756943898747,
      "loss": 4.001,
      "step": 31510
    },
    {
      "epoch": 0.06566666666666666,
      "grad_norm": 0.784357488155365,
      "learning_rate": 0.0002971856690134694,
      "loss": 4.1027,
      "step": 31520
    },
    {
      "epoch": 0.0656875,
      "grad_norm": 0.8807656764984131,
      "learning_rate": 0.0002971837679521676,
      "loss": 3.935,
      "step": 31530
    },
    {
      "epoch": 0.06570833333333333,
      "grad_norm": 0.8418789505958557,
      "learning_rate": 0.0002971818662550901,
      "loss": 3.88,
      "step": 31540
    },
    {
      "epoch": 0.06572916666666667,
      "grad_norm": 0.8894891142845154,
      "learning_rate": 0.0002971799639222452,
      "loss": 3.9813,
      "step": 31550
    },
    {
      "epoch": 0.06575,
      "grad_norm": 0.8310811519622803,
      "learning_rate": 0.00029717806095364116,
      "loss": 4.0596,
      "step": 31560
    },
    {
      "epoch": 0.06577083333333333,
      "grad_norm": 0.8758858442306519,
      "learning_rate": 0.00029717615734928607,
      "loss": 3.886,
      "step": 31570
    },
    {
      "epoch": 0.06579166666666666,
      "grad_norm": 1.004859209060669,
      "learning_rate": 0.0002971742531091883,
      "loss": 4.2089,
      "step": 31580
    },
    {
      "epoch": 0.0658125,
      "grad_norm": 0.983969509601593,
      "learning_rate": 0.000297172348233356,
      "loss": 4.005,
      "step": 31590
    },
    {
      "epoch": 0.06583333333333333,
      "grad_norm": 0.7759684324264526,
      "learning_rate": 0.00029717044272179746,
      "loss": 4.0044,
      "step": 31600
    },
    {
      "epoch": 0.06585416666666667,
      "grad_norm": 0.7237251400947571,
      "learning_rate": 0.00029716853657452076,
      "loss": 4.1092,
      "step": 31610
    },
    {
      "epoch": 0.065875,
      "grad_norm": 0.7398350238800049,
      "learning_rate": 0.0002971666297915343,
      "loss": 4.0639,
      "step": 31620
    },
    {
      "epoch": 0.06589583333333333,
      "grad_norm": 0.9780521392822266,
      "learning_rate": 0.00029716472237284626,
      "loss": 4.0527,
      "step": 31630
    },
    {
      "epoch": 0.06591666666666667,
      "grad_norm": 0.8306523561477661,
      "learning_rate": 0.00029716281431846483,
      "loss": 4.0306,
      "step": 31640
    },
    {
      "epoch": 0.0659375,
      "grad_norm": 0.7594656348228455,
      "learning_rate": 0.00029716090562839837,
      "loss": 4.0069,
      "step": 31650
    },
    {
      "epoch": 0.06595833333333333,
      "grad_norm": 0.825843334197998,
      "learning_rate": 0.00029715899630265496,
      "loss": 4.0511,
      "step": 31660
    },
    {
      "epoch": 0.06597916666666667,
      "grad_norm": 0.8742634654045105,
      "learning_rate": 0.00029715708634124295,
      "loss": 4.1882,
      "step": 31670
    },
    {
      "epoch": 0.066,
      "grad_norm": 0.8525441884994507,
      "learning_rate": 0.0002971551757441706,
      "loss": 4.1154,
      "step": 31680
    },
    {
      "epoch": 0.06602083333333333,
      "grad_norm": 0.761658787727356,
      "learning_rate": 0.00029715326451144615,
      "loss": 3.8906,
      "step": 31690
    },
    {
      "epoch": 0.06604166666666667,
      "grad_norm": 0.8600627779960632,
      "learning_rate": 0.0002971513526430778,
      "loss": 4.1001,
      "step": 31700
    },
    {
      "epoch": 0.0660625,
      "grad_norm": 0.8396868705749512,
      "learning_rate": 0.0002971494401390739,
      "loss": 4.0184,
      "step": 31710
    },
    {
      "epoch": 0.06608333333333333,
      "grad_norm": 0.8151586651802063,
      "learning_rate": 0.00029714752699944267,
      "loss": 4.1384,
      "step": 31720
    },
    {
      "epoch": 0.06610416666666667,
      "grad_norm": 0.8682240843772888,
      "learning_rate": 0.00029714561322419236,
      "loss": 3.9103,
      "step": 31730
    },
    {
      "epoch": 0.066125,
      "grad_norm": 0.9842267036437988,
      "learning_rate": 0.0002971436988133312,
      "loss": 3.9658,
      "step": 31740
    },
    {
      "epoch": 0.06614583333333333,
      "grad_norm": 0.7141526341438293,
      "learning_rate": 0.00029714178376686755,
      "loss": 3.7982,
      "step": 31750
    },
    {
      "epoch": 0.06616666666666667,
      "grad_norm": 0.8450179696083069,
      "learning_rate": 0.0002971398680848096,
      "loss": 4.0135,
      "step": 31760
    },
    {
      "epoch": 0.0661875,
      "grad_norm": 0.8115793466567993,
      "learning_rate": 0.0002971379517671657,
      "loss": 4.1593,
      "step": 31770
    },
    {
      "epoch": 0.06620833333333333,
      "grad_norm": 0.8941506743431091,
      "learning_rate": 0.0002971360348139441,
      "loss": 3.9621,
      "step": 31780
    },
    {
      "epoch": 0.06622916666666667,
      "grad_norm": 0.8005551695823669,
      "learning_rate": 0.000297134117225153,
      "loss": 4.0692,
      "step": 31790
    },
    {
      "epoch": 0.06625,
      "grad_norm": 0.838133692741394,
      "learning_rate": 0.0002971321990008008,
      "loss": 4.1592,
      "step": 31800
    },
    {
      "epoch": 0.06627083333333333,
      "grad_norm": 0.6778169274330139,
      "learning_rate": 0.0002971302801408957,
      "loss": 4.1142,
      "step": 31810
    },
    {
      "epoch": 0.06629166666666667,
      "grad_norm": 0.7644655704498291,
      "learning_rate": 0.00029712836064544614,
      "loss": 3.8673,
      "step": 31820
    },
    {
      "epoch": 0.0663125,
      "grad_norm": 0.8340640068054199,
      "learning_rate": 0.0002971264405144602,
      "loss": 4.0668,
      "step": 31830
    },
    {
      "epoch": 0.06633333333333333,
      "grad_norm": 0.8286347985267639,
      "learning_rate": 0.00029712451974794624,
      "loss": 4.0207,
      "step": 31840
    },
    {
      "epoch": 0.06635416666666667,
      "grad_norm": 0.8984985947608948,
      "learning_rate": 0.00029712259834591267,
      "loss": 3.938,
      "step": 31850
    },
    {
      "epoch": 0.066375,
      "grad_norm": 0.7914735078811646,
      "learning_rate": 0.0002971206763083677,
      "loss": 4.1784,
      "step": 31860
    },
    {
      "epoch": 0.06639583333333333,
      "grad_norm": 0.8044353723526001,
      "learning_rate": 0.00029711875363531965,
      "loss": 4.1324,
      "step": 31870
    },
    {
      "epoch": 0.06641666666666667,
      "grad_norm": 0.8105528354644775,
      "learning_rate": 0.0002971168303267768,
      "loss": 3.8935,
      "step": 31880
    },
    {
      "epoch": 0.0664375,
      "grad_norm": 0.868144690990448,
      "learning_rate": 0.00029711490638274746,
      "loss": 4.0305,
      "step": 31890
    },
    {
      "epoch": 0.06645833333333333,
      "grad_norm": 0.808652400970459,
      "learning_rate": 0.00029711298180324,
      "loss": 4.0267,
      "step": 31900
    },
    {
      "epoch": 0.06647916666666667,
      "grad_norm": 0.7524037957191467,
      "learning_rate": 0.00029711105658826264,
      "loss": 4.104,
      "step": 31910
    },
    {
      "epoch": 0.0665,
      "grad_norm": 0.9060965776443481,
      "learning_rate": 0.00029710913073782377,
      "loss": 4.1547,
      "step": 31920
    },
    {
      "epoch": 0.06652083333333333,
      "grad_norm": 0.6752282381057739,
      "learning_rate": 0.0002971072042519317,
      "loss": 4.0694,
      "step": 31930
    },
    {
      "epoch": 0.06654166666666667,
      "grad_norm": 0.8896430730819702,
      "learning_rate": 0.0002971052771305947,
      "loss": 3.8984,
      "step": 31940
    },
    {
      "epoch": 0.0665625,
      "grad_norm": 0.8401201963424683,
      "learning_rate": 0.0002971033493738211,
      "loss": 4.1298,
      "step": 31950
    },
    {
      "epoch": 0.06658333333333333,
      "grad_norm": 0.7810353636741638,
      "learning_rate": 0.00029710142098161933,
      "loss": 4.0069,
      "step": 31960
    },
    {
      "epoch": 0.06660416666666667,
      "grad_norm": 0.8506817817687988,
      "learning_rate": 0.0002970994919539976,
      "loss": 4.0399,
      "step": 31970
    },
    {
      "epoch": 0.066625,
      "grad_norm": 0.7968143224716187,
      "learning_rate": 0.00029709756229096435,
      "loss": 4.0042,
      "step": 31980
    },
    {
      "epoch": 0.06664583333333333,
      "grad_norm": 0.7629056572914124,
      "learning_rate": 0.00029709563199252785,
      "loss": 4.1703,
      "step": 31990
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 0.7136216163635254,
      "learning_rate": 0.0002970937010586964,
      "loss": 3.9575,
      "step": 32000
    },
    {
      "epoch": 0.06666666666666667,
      "eval_loss": 4.317984580993652,
      "eval_runtime": 10.0305,
      "eval_samples_per_second": 0.997,
      "eval_steps_per_second": 0.299,
      "step": 32000
    },
    {
      "epoch": 0.0666875,
      "grad_norm": 0.8806329965591431,
      "learning_rate": 0.0002970917694894784,
      "loss": 3.9776,
      "step": 32010
    },
    {
      "epoch": 0.06670833333333333,
      "grad_norm": 0.8076229691505432,
      "learning_rate": 0.00029708983728488216,
      "loss": 3.833,
      "step": 32020
    },
    {
      "epoch": 0.06672916666666667,
      "grad_norm": 0.7460716962814331,
      "learning_rate": 0.0002970879044449161,
      "loss": 3.978,
      "step": 32030
    },
    {
      "epoch": 0.06675,
      "grad_norm": 0.7601043581962585,
      "learning_rate": 0.00029708597096958847,
      "loss": 4.0981,
      "step": 32040
    },
    {
      "epoch": 0.06677083333333333,
      "grad_norm": 1.3620151281356812,
      "learning_rate": 0.00029708403685890767,
      "loss": 4.0756,
      "step": 32050
    },
    {
      "epoch": 0.06679166666666667,
      "grad_norm": 0.9241359233856201,
      "learning_rate": 0.00029708210211288206,
      "loss": 4.1327,
      "step": 32060
    },
    {
      "epoch": 0.0668125,
      "grad_norm": 0.8080127239227295,
      "learning_rate": 0.00029708016673152,
      "loss": 3.7964,
      "step": 32070
    },
    {
      "epoch": 0.06683333333333333,
      "grad_norm": 0.8615015149116516,
      "learning_rate": 0.0002970782307148298,
      "loss": 4.127,
      "step": 32080
    },
    {
      "epoch": 0.06685416666666667,
      "grad_norm": 0.8855525255203247,
      "learning_rate": 0.0002970762940628199,
      "loss": 4.0057,
      "step": 32090
    },
    {
      "epoch": 0.066875,
      "grad_norm": 0.8995692729949951,
      "learning_rate": 0.0002970743567754986,
      "loss": 4.134,
      "step": 32100
    },
    {
      "epoch": 0.06689583333333333,
      "grad_norm": 0.7830197811126709,
      "learning_rate": 0.0002970724188528743,
      "loss": 4.0404,
      "step": 32110
    },
    {
      "epoch": 0.06691666666666667,
      "grad_norm": 0.836725652217865,
      "learning_rate": 0.00029707048029495536,
      "loss": 4.0553,
      "step": 32120
    },
    {
      "epoch": 0.0669375,
      "grad_norm": 0.9917230010032654,
      "learning_rate": 0.0002970685411017502,
      "loss": 3.9583,
      "step": 32130
    },
    {
      "epoch": 0.06695833333333333,
      "grad_norm": 0.9153820276260376,
      "learning_rate": 0.0002970666012732671,
      "loss": 4.1199,
      "step": 32140
    },
    {
      "epoch": 0.06697916666666667,
      "grad_norm": 0.7497650980949402,
      "learning_rate": 0.00029706466080951457,
      "loss": 4.0236,
      "step": 32150
    },
    {
      "epoch": 0.067,
      "grad_norm": 0.7608867287635803,
      "learning_rate": 0.00029706271971050084,
      "loss": 4.0119,
      "step": 32160
    },
    {
      "epoch": 0.06702083333333334,
      "grad_norm": 0.8883413672447205,
      "learning_rate": 0.0002970607779762344,
      "loss": 3.9867,
      "step": 32170
    },
    {
      "epoch": 0.06704166666666667,
      "grad_norm": 0.7936492562294006,
      "learning_rate": 0.0002970588356067236,
      "loss": 4.2201,
      "step": 32180
    },
    {
      "epoch": 0.0670625,
      "grad_norm": 0.8649752736091614,
      "learning_rate": 0.0002970568926019769,
      "loss": 4.1098,
      "step": 32190
    },
    {
      "epoch": 0.06708333333333333,
      "grad_norm": 0.8336516618728638,
      "learning_rate": 0.00029705494896200256,
      "loss": 3.9697,
      "step": 32200
    },
    {
      "epoch": 0.06710416666666667,
      "grad_norm": 0.8784851431846619,
      "learning_rate": 0.0002970530046868091,
      "loss": 3.9302,
      "step": 32210
    },
    {
      "epoch": 0.067125,
      "grad_norm": 0.7416805624961853,
      "learning_rate": 0.00029705105977640485,
      "loss": 4.0154,
      "step": 32220
    },
    {
      "epoch": 0.06714583333333334,
      "grad_norm": 1.0436137914657593,
      "learning_rate": 0.0002970491142307982,
      "loss": 4.0089,
      "step": 32230
    },
    {
      "epoch": 0.06716666666666667,
      "grad_norm": 0.8003923296928406,
      "learning_rate": 0.0002970471680499976,
      "loss": 4.102,
      "step": 32240
    },
    {
      "epoch": 0.0671875,
      "grad_norm": 0.8729292750358582,
      "learning_rate": 0.00029704522123401143,
      "loss": 3.7755,
      "step": 32250
    },
    {
      "epoch": 0.06720833333333333,
      "grad_norm": 0.7801644802093506,
      "learning_rate": 0.0002970432737828481,
      "loss": 3.9371,
      "step": 32260
    },
    {
      "epoch": 0.06722916666666667,
      "grad_norm": 0.8539013862609863,
      "learning_rate": 0.00029704132569651604,
      "loss": 4.2793,
      "step": 32270
    },
    {
      "epoch": 0.06725,
      "grad_norm": 0.8270050883293152,
      "learning_rate": 0.0002970393769750237,
      "loss": 4.0033,
      "step": 32280
    },
    {
      "epoch": 0.06727083333333334,
      "grad_norm": 0.9147341847419739,
      "learning_rate": 0.00029703742761837945,
      "loss": 3.89,
      "step": 32290
    },
    {
      "epoch": 0.06729166666666667,
      "grad_norm": 0.8416891098022461,
      "learning_rate": 0.00029703547762659167,
      "loss": 4.047,
      "step": 32300
    },
    {
      "epoch": 0.0673125,
      "grad_norm": 0.9025658965110779,
      "learning_rate": 0.0002970335269996688,
      "loss": 3.9372,
      "step": 32310
    },
    {
      "epoch": 0.06733333333333333,
      "grad_norm": 0.7795712351799011,
      "learning_rate": 0.00029703157573761937,
      "loss": 4.0626,
      "step": 32320
    },
    {
      "epoch": 0.06735416666666667,
      "grad_norm": 0.7526452541351318,
      "learning_rate": 0.0002970296238404517,
      "loss": 4.1811,
      "step": 32330
    },
    {
      "epoch": 0.067375,
      "grad_norm": 0.7744480967521667,
      "learning_rate": 0.00029702767130817425,
      "loss": 4.1262,
      "step": 32340
    },
    {
      "epoch": 0.06739583333333334,
      "grad_norm": 0.7511940598487854,
      "learning_rate": 0.0002970257181407955,
      "loss": 3.8759,
      "step": 32350
    },
    {
      "epoch": 0.06741666666666667,
      "grad_norm": 0.8914083242416382,
      "learning_rate": 0.00029702376433832374,
      "loss": 4.0982,
      "step": 32360
    },
    {
      "epoch": 0.0674375,
      "grad_norm": 0.8178173303604126,
      "learning_rate": 0.0002970218099007676,
      "loss": 4.0966,
      "step": 32370
    },
    {
      "epoch": 0.06745833333333333,
      "grad_norm": 0.958595335483551,
      "learning_rate": 0.00029701985482813545,
      "loss": 4.0551,
      "step": 32380
    },
    {
      "epoch": 0.06747916666666667,
      "grad_norm": 0.7528960704803467,
      "learning_rate": 0.00029701789912043566,
      "loss": 4.1179,
      "step": 32390
    },
    {
      "epoch": 0.0675,
      "grad_norm": 0.8234387040138245,
      "learning_rate": 0.0002970159427776768,
      "loss": 4.0874,
      "step": 32400
    },
    {
      "epoch": 0.06752083333333334,
      "grad_norm": 0.8581607341766357,
      "learning_rate": 0.0002970139857998672,
      "loss": 4.0402,
      "step": 32410
    },
    {
      "epoch": 0.06754166666666667,
      "grad_norm": 0.7798576951026917,
      "learning_rate": 0.0002970120281870154,
      "loss": 3.9334,
      "step": 32420
    },
    {
      "epoch": 0.0675625,
      "grad_norm": 0.8752985596656799,
      "learning_rate": 0.00029701006993912985,
      "loss": 3.9642,
      "step": 32430
    },
    {
      "epoch": 0.06758333333333333,
      "grad_norm": 0.9090281128883362,
      "learning_rate": 0.00029700811105621894,
      "loss": 3.96,
      "step": 32440
    },
    {
      "epoch": 0.06760416666666667,
      "grad_norm": 0.8500468730926514,
      "learning_rate": 0.00029700615153829124,
      "loss": 3.9925,
      "step": 32450
    },
    {
      "epoch": 0.067625,
      "grad_norm": 0.7876474261283875,
      "learning_rate": 0.0002970041913853551,
      "loss": 3.8318,
      "step": 32460
    },
    {
      "epoch": 0.06764583333333334,
      "grad_norm": 0.8432392477989197,
      "learning_rate": 0.0002970022305974191,
      "loss": 3.7714,
      "step": 32470
    },
    {
      "epoch": 0.06766666666666667,
      "grad_norm": 0.7286289930343628,
      "learning_rate": 0.0002970002691744916,
      "loss": 4.0779,
      "step": 32480
    },
    {
      "epoch": 0.0676875,
      "grad_norm": 0.7543696165084839,
      "learning_rate": 0.0002969983071165811,
      "loss": 4.0354,
      "step": 32490
    },
    {
      "epoch": 0.06770833333333333,
      "grad_norm": 0.7769435048103333,
      "learning_rate": 0.00029699634442369616,
      "loss": 3.9855,
      "step": 32500
    },
    {
      "epoch": 0.06772916666666666,
      "grad_norm": 0.8413987159729004,
      "learning_rate": 0.00029699438109584517,
      "loss": 4.0958,
      "step": 32510
    },
    {
      "epoch": 0.06775,
      "grad_norm": 0.7596355676651001,
      "learning_rate": 0.00029699241713303665,
      "loss": 3.9752,
      "step": 32520
    },
    {
      "epoch": 0.06777083333333334,
      "grad_norm": 0.9097784757614136,
      "learning_rate": 0.00029699045253527907,
      "loss": 3.9581,
      "step": 32530
    },
    {
      "epoch": 0.06779166666666667,
      "grad_norm": 0.8153075575828552,
      "learning_rate": 0.0002969884873025809,
      "loss": 3.8622,
      "step": 32540
    },
    {
      "epoch": 0.0678125,
      "grad_norm": 0.8951911926269531,
      "learning_rate": 0.00029698652143495067,
      "loss": 4.0406,
      "step": 32550
    },
    {
      "epoch": 0.06783333333333333,
      "grad_norm": 0.8234619498252869,
      "learning_rate": 0.00029698455493239683,
      "loss": 4.0881,
      "step": 32560
    },
    {
      "epoch": 0.06785416666666666,
      "grad_norm": 0.8194829821586609,
      "learning_rate": 0.0002969825877949279,
      "loss": 3.9506,
      "step": 32570
    },
    {
      "epoch": 0.067875,
      "grad_norm": 0.7898656129837036,
      "learning_rate": 0.00029698062002255236,
      "loss": 3.9118,
      "step": 32580
    },
    {
      "epoch": 0.06789583333333334,
      "grad_norm": 0.9381137490272522,
      "learning_rate": 0.00029697865161527876,
      "loss": 3.964,
      "step": 32590
    },
    {
      "epoch": 0.06791666666666667,
      "grad_norm": 0.8576021790504456,
      "learning_rate": 0.0002969766825731155,
      "loss": 4.0403,
      "step": 32600
    },
    {
      "epoch": 0.0679375,
      "grad_norm": 0.836057186126709,
      "learning_rate": 0.0002969747128960712,
      "loss": 4.122,
      "step": 32610
    },
    {
      "epoch": 0.06795833333333333,
      "grad_norm": 0.8609469532966614,
      "learning_rate": 0.0002969727425841543,
      "loss": 4.0805,
      "step": 32620
    },
    {
      "epoch": 0.06797916666666666,
      "grad_norm": 0.8229736089706421,
      "learning_rate": 0.0002969707716373733,
      "loss": 3.9666,
      "step": 32630
    },
    {
      "epoch": 0.068,
      "grad_norm": 1.3043606281280518,
      "learning_rate": 0.0002969688000557368,
      "loss": 4.0234,
      "step": 32640
    },
    {
      "epoch": 0.06802083333333334,
      "grad_norm": 0.829684317111969,
      "learning_rate": 0.0002969668278392532,
      "loss": 4.0865,
      "step": 32650
    },
    {
      "epoch": 0.06804166666666667,
      "grad_norm": 0.874487042427063,
      "learning_rate": 0.00029696485498793113,
      "loss": 4.117,
      "step": 32660
    },
    {
      "epoch": 0.0680625,
      "grad_norm": 0.6601777672767639,
      "learning_rate": 0.0002969628815017791,
      "loss": 3.9687,
      "step": 32670
    },
    {
      "epoch": 0.06808333333333333,
      "grad_norm": 0.8547908067703247,
      "learning_rate": 0.00029696090738080545,
      "loss": 4.038,
      "step": 32680
    },
    {
      "epoch": 0.06810416666666666,
      "grad_norm": 0.7928237318992615,
      "learning_rate": 0.000296958932625019,
      "loss": 4.1302,
      "step": 32690
    },
    {
      "epoch": 0.068125,
      "grad_norm": 0.7978391051292419,
      "learning_rate": 0.00029695695723442803,
      "loss": 4.0002,
      "step": 32700
    },
    {
      "epoch": 0.06814583333333334,
      "grad_norm": 0.8476807475090027,
      "learning_rate": 0.0002969549812090412,
      "loss": 4.1103,
      "step": 32710
    },
    {
      "epoch": 0.06816666666666667,
      "grad_norm": 0.9178527593612671,
      "learning_rate": 0.000296953004548867,
      "loss": 4.0663,
      "step": 32720
    },
    {
      "epoch": 0.0681875,
      "grad_norm": 0.738376259803772,
      "learning_rate": 0.000296951027253914,
      "loss": 4.0339,
      "step": 32730
    },
    {
      "epoch": 0.06820833333333333,
      "grad_norm": 0.8412818908691406,
      "learning_rate": 0.0002969490493241908,
      "loss": 4.0402,
      "step": 32740
    },
    {
      "epoch": 0.06822916666666666,
      "grad_norm": 0.934935450553894,
      "learning_rate": 0.0002969470707597058,
      "loss": 3.901,
      "step": 32750
    },
    {
      "epoch": 0.06825,
      "grad_norm": 0.897495687007904,
      "learning_rate": 0.00029694509156046766,
      "loss": 3.9922,
      "step": 32760
    },
    {
      "epoch": 0.06827083333333334,
      "grad_norm": 0.8871989846229553,
      "learning_rate": 0.00029694311172648487,
      "loss": 3.9878,
      "step": 32770
    },
    {
      "epoch": 0.06829166666666667,
      "grad_norm": 0.719870924949646,
      "learning_rate": 0.000296941131257766,
      "loss": 3.9769,
      "step": 32780
    },
    {
      "epoch": 0.0683125,
      "grad_norm": 0.8276297450065613,
      "learning_rate": 0.0002969391501543196,
      "loss": 4.1362,
      "step": 32790
    },
    {
      "epoch": 0.06833333333333333,
      "grad_norm": 0.8307990431785583,
      "learning_rate": 0.0002969371684161542,
      "loss": 3.9933,
      "step": 32800
    },
    {
      "epoch": 0.06835416666666666,
      "grad_norm": 0.8146401047706604,
      "learning_rate": 0.00029693518604327845,
      "loss": 3.9748,
      "step": 32810
    },
    {
      "epoch": 0.068375,
      "grad_norm": 0.9713392853736877,
      "learning_rate": 0.00029693320303570087,
      "loss": 4.0625,
      "step": 32820
    },
    {
      "epoch": 0.06839583333333334,
      "grad_norm": 1.029344916343689,
      "learning_rate": 0.00029693121939342997,
      "loss": 4.0584,
      "step": 32830
    },
    {
      "epoch": 0.06841666666666667,
      "grad_norm": 0.9031974673271179,
      "learning_rate": 0.0002969292351164744,
      "loss": 3.9429,
      "step": 32840
    },
    {
      "epoch": 0.0684375,
      "grad_norm": 0.7857670187950134,
      "learning_rate": 0.0002969272502048427,
      "loss": 4.0534,
      "step": 32850
    },
    {
      "epoch": 0.06845833333333333,
      "grad_norm": 0.8948509097099304,
      "learning_rate": 0.00029692526465854337,
      "loss": 4.1799,
      "step": 32860
    },
    {
      "epoch": 0.06847916666666666,
      "grad_norm": 0.7429506778717041,
      "learning_rate": 0.00029692327847758506,
      "loss": 3.993,
      "step": 32870
    },
    {
      "epoch": 0.0685,
      "grad_norm": 0.9259060621261597,
      "learning_rate": 0.0002969212916619764,
      "loss": 3.9473,
      "step": 32880
    },
    {
      "epoch": 0.06852083333333334,
      "grad_norm": 0.920107901096344,
      "learning_rate": 0.00029691930421172583,
      "loss": 4.0013,
      "step": 32890
    },
    {
      "epoch": 0.06854166666666667,
      "grad_norm": 0.829792857170105,
      "learning_rate": 0.00029691731612684215,
      "loss": 4.1036,
      "step": 32900
    },
    {
      "epoch": 0.0685625,
      "grad_norm": 0.7543922662734985,
      "learning_rate": 0.00029691532740733375,
      "loss": 4.0015,
      "step": 32910
    },
    {
      "epoch": 0.06858333333333333,
      "grad_norm": 0.7866932153701782,
      "learning_rate": 0.0002969133380532092,
      "loss": 4.0068,
      "step": 32920
    },
    {
      "epoch": 0.06860416666666666,
      "grad_norm": 0.8012253642082214,
      "learning_rate": 0.00029691134806447727,
      "loss": 4.3772,
      "step": 32930
    },
    {
      "epoch": 0.068625,
      "grad_norm": 0.7860134243965149,
      "learning_rate": 0.00029690935744114655,
      "loss": 3.8687,
      "step": 32940
    },
    {
      "epoch": 0.06864583333333334,
      "grad_norm": 0.7570598721504211,
      "learning_rate": 0.00029690736618322546,
      "loss": 4.1057,
      "step": 32950
    },
    {
      "epoch": 0.06866666666666667,
      "grad_norm": 0.856360673904419,
      "learning_rate": 0.0002969053742907227,
      "loss": 4.1768,
      "step": 32960
    },
    {
      "epoch": 0.0686875,
      "grad_norm": 0.8201711177825928,
      "learning_rate": 0.00029690338176364685,
      "loss": 4.129,
      "step": 32970
    },
    {
      "epoch": 0.06870833333333333,
      "grad_norm": 0.8094348311424255,
      "learning_rate": 0.00029690138860200655,
      "loss": 4.0328,
      "step": 32980
    },
    {
      "epoch": 0.06872916666666666,
      "grad_norm": 0.7905895709991455,
      "learning_rate": 0.00029689939480581043,
      "loss": 4.0906,
      "step": 32990
    },
    {
      "epoch": 0.06875,
      "grad_norm": 0.8108993768692017,
      "learning_rate": 0.0002968974003750671,
      "loss": 4.0015,
      "step": 33000
    },
    {
      "epoch": 0.06875,
      "eval_loss": 4.30398416519165,
      "eval_runtime": 9.9665,
      "eval_samples_per_second": 1.003,
      "eval_steps_per_second": 0.301,
      "step": 33000
    },
    {
      "epoch": 0.06877083333333334,
      "grad_norm": 0.8802614808082581,
      "learning_rate": 0.00029689540530978507,
      "loss": 3.9564,
      "step": 33010
    },
    {
      "epoch": 0.06879166666666667,
      "grad_norm": 0.8001412749290466,
      "learning_rate": 0.00029689340960997306,
      "loss": 4.0892,
      "step": 33020
    },
    {
      "epoch": 0.0688125,
      "grad_norm": 0.850569486618042,
      "learning_rate": 0.0002968914132756397,
      "loss": 3.8203,
      "step": 33030
    },
    {
      "epoch": 0.06883333333333333,
      "grad_norm": 0.8175033330917358,
      "learning_rate": 0.00029688941630679356,
      "loss": 4.0917,
      "step": 33040
    },
    {
      "epoch": 0.06885416666666666,
      "grad_norm": 0.7801465392112732,
      "learning_rate": 0.0002968874187034433,
      "loss": 4.0185,
      "step": 33050
    },
    {
      "epoch": 0.068875,
      "grad_norm": 0.9223626852035522,
      "learning_rate": 0.0002968854204655975,
      "loss": 3.9671,
      "step": 33060
    },
    {
      "epoch": 0.06889583333333334,
      "grad_norm": 0.8289282321929932,
      "learning_rate": 0.0002968834215932648,
      "loss": 4.1713,
      "step": 33070
    },
    {
      "epoch": 0.06891666666666667,
      "grad_norm": 0.8045044541358948,
      "learning_rate": 0.00029688142208645393,
      "loss": 3.9174,
      "step": 33080
    },
    {
      "epoch": 0.0689375,
      "grad_norm": 0.8104084730148315,
      "learning_rate": 0.00029687942194517346,
      "loss": 4.0087,
      "step": 33090
    },
    {
      "epoch": 0.06895833333333333,
      "grad_norm": 0.852576494216919,
      "learning_rate": 0.000296877421169432,
      "loss": 3.8957,
      "step": 33100
    },
    {
      "epoch": 0.06897916666666666,
      "grad_norm": 0.7764285802841187,
      "learning_rate": 0.0002968754197592382,
      "loss": 4.0078,
      "step": 33110
    },
    {
      "epoch": 0.069,
      "grad_norm": 0.6912543177604675,
      "learning_rate": 0.0002968734177146007,
      "loss": 3.985,
      "step": 33120
    },
    {
      "epoch": 0.06902083333333334,
      "grad_norm": 0.7757405638694763,
      "learning_rate": 0.0002968714150355282,
      "loss": 3.9926,
      "step": 33130
    },
    {
      "epoch": 0.06904166666666667,
      "grad_norm": 0.8769288659095764,
      "learning_rate": 0.0002968694117220293,
      "loss": 4.0758,
      "step": 33140
    },
    {
      "epoch": 0.0690625,
      "grad_norm": 0.9956322312355042,
      "learning_rate": 0.00029686740777411274,
      "loss": 4.0011,
      "step": 33150
    },
    {
      "epoch": 0.06908333333333333,
      "grad_norm": 0.9630488753318787,
      "learning_rate": 0.0002968654031917871,
      "loss": 4.1207,
      "step": 33160
    },
    {
      "epoch": 0.06910416666666666,
      "grad_norm": 0.730347216129303,
      "learning_rate": 0.00029686339797506097,
      "loss": 3.9294,
      "step": 33170
    },
    {
      "epoch": 0.069125,
      "grad_norm": 0.7564640641212463,
      "learning_rate": 0.00029686139212394317,
      "loss": 4.1184,
      "step": 33180
    },
    {
      "epoch": 0.06914583333333334,
      "grad_norm": 0.9014918804168701,
      "learning_rate": 0.0002968593856384423,
      "loss": 4.1378,
      "step": 33190
    },
    {
      "epoch": 0.06916666666666667,
      "grad_norm": 0.8133769631385803,
      "learning_rate": 0.00029685737851856695,
      "loss": 4.0697,
      "step": 33200
    },
    {
      "epoch": 0.0691875,
      "grad_norm": 0.7749180197715759,
      "learning_rate": 0.0002968553707643259,
      "loss": 3.9783,
      "step": 33210
    },
    {
      "epoch": 0.06920833333333333,
      "grad_norm": 0.7466203570365906,
      "learning_rate": 0.00029685336237572776,
      "loss": 3.9652,
      "step": 33220
    },
    {
      "epoch": 0.06922916666666666,
      "grad_norm": 0.8236038088798523,
      "learning_rate": 0.0002968513533527812,
      "loss": 4.1628,
      "step": 33230
    },
    {
      "epoch": 0.06925,
      "grad_norm": 0.8048877716064453,
      "learning_rate": 0.000296849343695495,
      "loss": 4.2041,
      "step": 33240
    },
    {
      "epoch": 0.06927083333333334,
      "grad_norm": 0.9180687665939331,
      "learning_rate": 0.0002968473334038777,
      "loss": 4.0011,
      "step": 33250
    },
    {
      "epoch": 0.06929166666666667,
      "grad_norm": 0.894702672958374,
      "learning_rate": 0.000296845322477938,
      "loss": 4.0673,
      "step": 33260
    },
    {
      "epoch": 0.0693125,
      "grad_norm": 0.7540309429168701,
      "learning_rate": 0.00029684331091768475,
      "loss": 3.9622,
      "step": 33270
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 0.9511730074882507,
      "learning_rate": 0.0002968412987231265,
      "loss": 4.2008,
      "step": 33280
    },
    {
      "epoch": 0.06935416666666666,
      "grad_norm": 0.717928409576416,
      "learning_rate": 0.00029683928589427193,
      "loss": 4.0966,
      "step": 33290
    },
    {
      "epoch": 0.069375,
      "grad_norm": 0.8435646891593933,
      "learning_rate": 0.00029683727243112973,
      "loss": 4.1442,
      "step": 33300
    },
    {
      "epoch": 0.06939583333333334,
      "grad_norm": 0.9767887592315674,
      "learning_rate": 0.00029683525833370866,
      "loss": 4.1393,
      "step": 33310
    },
    {
      "epoch": 0.06941666666666667,
      "grad_norm": 0.803268313407898,
      "learning_rate": 0.0002968332436020174,
      "loss": 3.9012,
      "step": 33320
    },
    {
      "epoch": 0.0694375,
      "grad_norm": 0.7727909684181213,
      "learning_rate": 0.00029683122823606466,
      "loss": 4.0018,
      "step": 33330
    },
    {
      "epoch": 0.06945833333333333,
      "grad_norm": 0.7855028510093689,
      "learning_rate": 0.0002968292122358591,
      "loss": 3.9996,
      "step": 33340
    },
    {
      "epoch": 0.06947916666666666,
      "grad_norm": 0.8063452243804932,
      "learning_rate": 0.0002968271956014095,
      "loss": 3.8731,
      "step": 33350
    },
    {
      "epoch": 0.0695,
      "grad_norm": 0.7760762572288513,
      "learning_rate": 0.00029682517833272453,
      "loss": 4.1372,
      "step": 33360
    },
    {
      "epoch": 0.06952083333333334,
      "grad_norm": 0.8319500684738159,
      "learning_rate": 0.0002968231604298129,
      "loss": 4.0792,
      "step": 33370
    },
    {
      "epoch": 0.06954166666666667,
      "grad_norm": 0.852035403251648,
      "learning_rate": 0.0002968211418926833,
      "loss": 3.9093,
      "step": 33380
    },
    {
      "epoch": 0.0695625,
      "grad_norm": 0.7542200088500977,
      "learning_rate": 0.0002968191227213445,
      "loss": 4.0235,
      "step": 33390
    },
    {
      "epoch": 0.06958333333333333,
      "grad_norm": 0.8637761473655701,
      "learning_rate": 0.0002968171029158053,
      "loss": 3.9892,
      "step": 33400
    },
    {
      "epoch": 0.06960416666666666,
      "grad_norm": 0.8369530439376831,
      "learning_rate": 0.0002968150824760742,
      "loss": 3.7701,
      "step": 33410
    },
    {
      "epoch": 0.069625,
      "grad_norm": 0.8714974522590637,
      "learning_rate": 0.00029681306140216015,
      "loss": 4.0782,
      "step": 33420
    },
    {
      "epoch": 0.06964583333333334,
      "grad_norm": 0.8339084982872009,
      "learning_rate": 0.0002968110396940717,
      "loss": 4.0547,
      "step": 33430
    },
    {
      "epoch": 0.06966666666666667,
      "grad_norm": 0.7795150279998779,
      "learning_rate": 0.0002968090173518177,
      "loss": 4.1387,
      "step": 33440
    },
    {
      "epoch": 0.0696875,
      "grad_norm": 0.9617117643356323,
      "learning_rate": 0.00029680699437540693,
      "loss": 4.061,
      "step": 33450
    },
    {
      "epoch": 0.06970833333333333,
      "grad_norm": 0.7326298356056213,
      "learning_rate": 0.00029680497076484797,
      "loss": 4.0547,
      "step": 33460
    },
    {
      "epoch": 0.06972916666666666,
      "grad_norm": 0.8423073887825012,
      "learning_rate": 0.0002968029465201497,
      "loss": 4.0466,
      "step": 33470
    },
    {
      "epoch": 0.06975,
      "grad_norm": 0.7888397574424744,
      "learning_rate": 0.0002968009216413208,
      "loss": 3.9723,
      "step": 33480
    },
    {
      "epoch": 0.06977083333333334,
      "grad_norm": 0.9914518594741821,
      "learning_rate": 0.00029679889612836994,
      "loss": 3.8201,
      "step": 33490
    },
    {
      "epoch": 0.06979166666666667,
      "grad_norm": 0.8486353158950806,
      "learning_rate": 0.000296796869981306,
      "loss": 3.9613,
      "step": 33500
    },
    {
      "epoch": 0.0698125,
      "grad_norm": 1.2235668897628784,
      "learning_rate": 0.00029679484320013777,
      "loss": 4.0318,
      "step": 33510
    },
    {
      "epoch": 0.06983333333333333,
      "grad_norm": 0.7431442737579346,
      "learning_rate": 0.0002967928157848739,
      "loss": 4.0536,
      "step": 33520
    },
    {
      "epoch": 0.06985416666666666,
      "grad_norm": 0.875646710395813,
      "learning_rate": 0.0002967907877355231,
      "loss": 4.076,
      "step": 33530
    },
    {
      "epoch": 0.069875,
      "grad_norm": 1.174370288848877,
      "learning_rate": 0.0002967887590520942,
      "loss": 3.9788,
      "step": 33540
    },
    {
      "epoch": 0.06989583333333334,
      "grad_norm": 1.2928259372711182,
      "learning_rate": 0.000296786729734596,
      "loss": 4.1273,
      "step": 33550
    },
    {
      "epoch": 0.06991666666666667,
      "grad_norm": 0.793785035610199,
      "learning_rate": 0.00029678469978303726,
      "loss": 4.2496,
      "step": 33560
    },
    {
      "epoch": 0.0699375,
      "grad_norm": 0.7670491933822632,
      "learning_rate": 0.0002967826691974267,
      "loss": 4.0288,
      "step": 33570
    },
    {
      "epoch": 0.06995833333333333,
      "grad_norm": 0.8878262639045715,
      "learning_rate": 0.00029678063797777306,
      "loss": 3.9737,
      "step": 33580
    },
    {
      "epoch": 0.06997916666666666,
      "grad_norm": 0.7248619198799133,
      "learning_rate": 0.00029677860612408526,
      "loss": 4.2008,
      "step": 33590
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9372048377990723,
      "learning_rate": 0.00029677657363637186,
      "loss": 4.0277,
      "step": 33600
    },
    {
      "epoch": 0.07002083333333334,
      "grad_norm": 0.8380268216133118,
      "learning_rate": 0.0002967745405146418,
      "loss": 4.0995,
      "step": 33610
    },
    {
      "epoch": 0.07004166666666667,
      "grad_norm": 0.8668045997619629,
      "learning_rate": 0.0002967725067589039,
      "loss": 4.0373,
      "step": 33620
    },
    {
      "epoch": 0.0700625,
      "grad_norm": 0.7666056156158447,
      "learning_rate": 0.0002967704723691668,
      "loss": 3.9088,
      "step": 33630
    },
    {
      "epoch": 0.07008333333333333,
      "grad_norm": 0.7111327648162842,
      "learning_rate": 0.00029676843734543937,
      "loss": 3.8105,
      "step": 33640
    },
    {
      "epoch": 0.07010416666666666,
      "grad_norm": 0.7928159832954407,
      "learning_rate": 0.0002967664016877304,
      "loss": 4.1738,
      "step": 33650
    },
    {
      "epoch": 0.070125,
      "grad_norm": 0.9042511582374573,
      "learning_rate": 0.00029676436539604863,
      "loss": 3.9378,
      "step": 33660
    },
    {
      "epoch": 0.07014583333333334,
      "grad_norm": 0.8160687685012817,
      "learning_rate": 0.0002967623284704029,
      "loss": 3.951,
      "step": 33670
    },
    {
      "epoch": 0.07016666666666667,
      "grad_norm": 0.722602128982544,
      "learning_rate": 0.00029676029091080204,
      "loss": 3.9503,
      "step": 33680
    },
    {
      "epoch": 0.0701875,
      "grad_norm": 0.7011421918869019,
      "learning_rate": 0.0002967582527172548,
      "loss": 3.884,
      "step": 33690
    },
    {
      "epoch": 0.07020833333333333,
      "grad_norm": 0.9496217966079712,
      "learning_rate": 0.00029675621388976995,
      "loss": 4.1054,
      "step": 33700
    },
    {
      "epoch": 0.07022916666666666,
      "grad_norm": 0.870117723941803,
      "learning_rate": 0.0002967541744283564,
      "loss": 4.0435,
      "step": 33710
    },
    {
      "epoch": 0.07025,
      "grad_norm": 0.7466534972190857,
      "learning_rate": 0.0002967521343330229,
      "loss": 3.8093,
      "step": 33720
    },
    {
      "epoch": 0.07027083333333334,
      "grad_norm": 0.8525457978248596,
      "learning_rate": 0.00029675009360377824,
      "loss": 3.9675,
      "step": 33730
    },
    {
      "epoch": 0.07029166666666667,
      "grad_norm": 1.002378225326538,
      "learning_rate": 0.00029674805224063136,
      "loss": 3.9346,
      "step": 33740
    },
    {
      "epoch": 0.0703125,
      "grad_norm": 0.8722872734069824,
      "learning_rate": 0.0002967460102435909,
      "loss": 3.9666,
      "step": 33750
    },
    {
      "epoch": 0.07033333333333333,
      "grad_norm": 0.8394680023193359,
      "learning_rate": 0.00029674396761266575,
      "loss": 3.9941,
      "step": 33760
    },
    {
      "epoch": 0.07035416666666666,
      "grad_norm": 0.874859094619751,
      "learning_rate": 0.00029674192434786474,
      "loss": 4.146,
      "step": 33770
    },
    {
      "epoch": 0.070375,
      "grad_norm": 0.7514142394065857,
      "learning_rate": 0.00029673988044919675,
      "loss": 3.9637,
      "step": 33780
    },
    {
      "epoch": 0.07039583333333334,
      "grad_norm": 0.8669379353523254,
      "learning_rate": 0.0002967378359166705,
      "loss": 3.821,
      "step": 33790
    },
    {
      "epoch": 0.07041666666666667,
      "grad_norm": 0.7747814655303955,
      "learning_rate": 0.00029673579075029495,
      "loss": 3.9791,
      "step": 33800
    },
    {
      "epoch": 0.0704375,
      "grad_norm": 0.7659511566162109,
      "learning_rate": 0.00029673374495007887,
      "loss": 4.0308,
      "step": 33810
    },
    {
      "epoch": 0.07045833333333333,
      "grad_norm": 0.7867910861968994,
      "learning_rate": 0.00029673169851603104,
      "loss": 4.0675,
      "step": 33820
    },
    {
      "epoch": 0.07047916666666666,
      "grad_norm": 0.7915265560150146,
      "learning_rate": 0.00029672965144816036,
      "loss": 4.0912,
      "step": 33830
    },
    {
      "epoch": 0.0705,
      "grad_norm": 0.7157679796218872,
      "learning_rate": 0.00029672760374647566,
      "loss": 3.9876,
      "step": 33840
    },
    {
      "epoch": 0.07052083333333334,
      "grad_norm": 0.7815073728561401,
      "learning_rate": 0.00029672555541098583,
      "loss": 4.1667,
      "step": 33850
    },
    {
      "epoch": 0.07054166666666667,
      "grad_norm": 0.8013626337051392,
      "learning_rate": 0.00029672350644169965,
      "loss": 4.152,
      "step": 33860
    },
    {
      "epoch": 0.0705625,
      "grad_norm": 0.8340665698051453,
      "learning_rate": 0.000296721456838626,
      "loss": 3.9851,
      "step": 33870
    },
    {
      "epoch": 0.07058333333333333,
      "grad_norm": 0.8668696284294128,
      "learning_rate": 0.0002967194066017737,
      "loss": 4.168,
      "step": 33880
    },
    {
      "epoch": 0.07060416666666666,
      "grad_norm": 0.9821145534515381,
      "learning_rate": 0.00029671735573115173,
      "loss": 4.0226,
      "step": 33890
    },
    {
      "epoch": 0.070625,
      "grad_norm": 0.6895598769187927,
      "learning_rate": 0.0002967153042267688,
      "loss": 3.8604,
      "step": 33900
    },
    {
      "epoch": 0.07064583333333334,
      "grad_norm": 0.7109642624855042,
      "learning_rate": 0.0002967132520886338,
      "loss": 3.8212,
      "step": 33910
    },
    {
      "epoch": 0.07066666666666667,
      "grad_norm": 0.9442762136459351,
      "learning_rate": 0.00029671119931675566,
      "loss": 4.0117,
      "step": 33920
    },
    {
      "epoch": 0.0706875,
      "grad_norm": 0.8387334942817688,
      "learning_rate": 0.00029670914591114323,
      "loss": 3.9426,
      "step": 33930
    },
    {
      "epoch": 0.07070833333333333,
      "grad_norm": 0.8189740180969238,
      "learning_rate": 0.00029670709187180536,
      "loss": 4.0305,
      "step": 33940
    },
    {
      "epoch": 0.07072916666666666,
      "grad_norm": 0.7688173651695251,
      "learning_rate": 0.00029670503719875083,
      "loss": 3.9379,
      "step": 33950
    },
    {
      "epoch": 0.07075,
      "grad_norm": 0.8473075032234192,
      "learning_rate": 0.00029670298189198876,
      "loss": 4.0834,
      "step": 33960
    },
    {
      "epoch": 0.07077083333333334,
      "grad_norm": 0.7963990569114685,
      "learning_rate": 0.00029670092595152775,
      "loss": 4.0196,
      "step": 33970
    },
    {
      "epoch": 0.07079166666666667,
      "grad_norm": 0.8827261924743652,
      "learning_rate": 0.00029669886937737686,
      "loss": 3.9595,
      "step": 33980
    },
    {
      "epoch": 0.0708125,
      "grad_norm": 0.6806573867797852,
      "learning_rate": 0.00029669681216954493,
      "loss": 3.8904,
      "step": 33990
    },
    {
      "epoch": 0.07083333333333333,
      "grad_norm": 0.8010231852531433,
      "learning_rate": 0.00029669475432804086,
      "loss": 3.8917,
      "step": 34000
    },
    {
      "epoch": 0.07083333333333333,
      "eval_loss": 4.30956506729126,
      "eval_runtime": 8.8143,
      "eval_samples_per_second": 1.135,
      "eval_steps_per_second": 0.34,
      "step": 34000
    },
    {
      "epoch": 0.07085416666666666,
      "grad_norm": 0.7778903841972351,
      "learning_rate": 0.00029669269585287346,
      "loss": 3.9224,
      "step": 34010
    },
    {
      "epoch": 0.070875,
      "grad_norm": 0.9363383054733276,
      "learning_rate": 0.0002966906367440517,
      "loss": 3.9191,
      "step": 34020
    },
    {
      "epoch": 0.07089583333333334,
      "grad_norm": 0.7179674506187439,
      "learning_rate": 0.00029668857700158445,
      "loss": 4.0013,
      "step": 34030
    },
    {
      "epoch": 0.07091666666666667,
      "grad_norm": 0.7650682926177979,
      "learning_rate": 0.0002966865166254806,
      "loss": 4.0714,
      "step": 34040
    },
    {
      "epoch": 0.0709375,
      "grad_norm": 0.9580439329147339,
      "learning_rate": 0.0002966844556157491,
      "loss": 4.0841,
      "step": 34050
    },
    {
      "epoch": 0.07095833333333333,
      "grad_norm": 0.7576990127563477,
      "learning_rate": 0.0002966823939723988,
      "loss": 3.8032,
      "step": 34060
    },
    {
      "epoch": 0.07097916666666666,
      "grad_norm": 0.7621942162513733,
      "learning_rate": 0.0002966803316954386,
      "loss": 4.0872,
      "step": 34070
    },
    {
      "epoch": 0.071,
      "grad_norm": 0.8907612562179565,
      "learning_rate": 0.0002966782687848775,
      "loss": 4.2552,
      "step": 34080
    },
    {
      "epoch": 0.07102083333333334,
      "grad_norm": 0.8342941999435425,
      "learning_rate": 0.0002966762052407242,
      "loss": 4.1747,
      "step": 34090
    },
    {
      "epoch": 0.07104166666666667,
      "grad_norm": 0.7848079800605774,
      "learning_rate": 0.00029667414106298787,
      "loss": 4.1088,
      "step": 34100
    },
    {
      "epoch": 0.0710625,
      "grad_norm": 0.7720039486885071,
      "learning_rate": 0.0002966720762516773,
      "loss": 3.991,
      "step": 34110
    },
    {
      "epoch": 0.07108333333333333,
      "grad_norm": 0.7395342588424683,
      "learning_rate": 0.0002966700108068013,
      "loss": 4.1175,
      "step": 34120
    },
    {
      "epoch": 0.07110416666666666,
      "grad_norm": 0.8203276991844177,
      "learning_rate": 0.00029666794472836907,
      "loss": 3.9117,
      "step": 34130
    },
    {
      "epoch": 0.071125,
      "grad_norm": 0.9160122871398926,
      "learning_rate": 0.00029666587801638924,
      "loss": 4.1776,
      "step": 34140
    },
    {
      "epoch": 0.07114583333333334,
      "grad_norm": 0.7634288668632507,
      "learning_rate": 0.00029666381067087094,
      "loss": 3.7585,
      "step": 34150
    },
    {
      "epoch": 0.07116666666666667,
      "grad_norm": 0.9294099807739258,
      "learning_rate": 0.00029666174269182306,
      "loss": 4.0327,
      "step": 34160
    },
    {
      "epoch": 0.0711875,
      "grad_norm": 0.817876935005188,
      "learning_rate": 0.00029665967407925444,
      "loss": 3.903,
      "step": 34170
    },
    {
      "epoch": 0.07120833333333333,
      "grad_norm": 0.7977610230445862,
      "learning_rate": 0.0002966576048331741,
      "loss": 4.04,
      "step": 34180
    },
    {
      "epoch": 0.07122916666666666,
      "grad_norm": 0.8410491943359375,
      "learning_rate": 0.00029665553495359097,
      "loss": 3.9731,
      "step": 34190
    },
    {
      "epoch": 0.07125,
      "grad_norm": 0.7685146927833557,
      "learning_rate": 0.00029665346444051395,
      "loss": 4.2364,
      "step": 34200
    },
    {
      "epoch": 0.07127083333333334,
      "grad_norm": 0.8239428400993347,
      "learning_rate": 0.0002966513932939521,
      "loss": 4.0998,
      "step": 34210
    },
    {
      "epoch": 0.07129166666666667,
      "grad_norm": 0.8673047423362732,
      "learning_rate": 0.00029664932151391414,
      "loss": 4.0048,
      "step": 34220
    },
    {
      "epoch": 0.0713125,
      "grad_norm": 0.8363068699836731,
      "learning_rate": 0.0002966472491004093,
      "loss": 4.0507,
      "step": 34230
    },
    {
      "epoch": 0.07133333333333333,
      "grad_norm": 0.8142035007476807,
      "learning_rate": 0.0002966451760534463,
      "loss": 3.991,
      "step": 34240
    },
    {
      "epoch": 0.07135416666666666,
      "grad_norm": 0.7678346633911133,
      "learning_rate": 0.00029664310237303423,
      "loss": 4.0147,
      "step": 34250
    },
    {
      "epoch": 0.071375,
      "grad_norm": 0.9523639678955078,
      "learning_rate": 0.000296641028059182,
      "loss": 4.0481,
      "step": 34260
    },
    {
      "epoch": 0.07139583333333334,
      "grad_norm": 0.9097340703010559,
      "learning_rate": 0.00029663895311189854,
      "loss": 4.1269,
      "step": 34270
    },
    {
      "epoch": 0.07141666666666667,
      "grad_norm": 0.7901546955108643,
      "learning_rate": 0.0002966368775311928,
      "loss": 3.9693,
      "step": 34280
    },
    {
      "epoch": 0.0714375,
      "grad_norm": 0.8100095987319946,
      "learning_rate": 0.0002966348013170739,
      "loss": 4.1189,
      "step": 34290
    },
    {
      "epoch": 0.07145833333333333,
      "grad_norm": 0.8052130937576294,
      "learning_rate": 0.00029663272446955066,
      "loss": 3.9931,
      "step": 34300
    },
    {
      "epoch": 0.07147916666666666,
      "grad_norm": 0.7385896444320679,
      "learning_rate": 0.0002966306469886321,
      "loss": 4.0292,
      "step": 34310
    },
    {
      "epoch": 0.0715,
      "grad_norm": 0.7445738315582275,
      "learning_rate": 0.00029662856887432715,
      "loss": 4.0386,
      "step": 34320
    },
    {
      "epoch": 0.07152083333333334,
      "grad_norm": 0.8286782503128052,
      "learning_rate": 0.00029662649012664487,
      "loss": 4.1846,
      "step": 34330
    },
    {
      "epoch": 0.07154166666666667,
      "grad_norm": 0.835978627204895,
      "learning_rate": 0.00029662441074559416,
      "loss": 4.0104,
      "step": 34340
    },
    {
      "epoch": 0.0715625,
      "grad_norm": 0.7241278290748596,
      "learning_rate": 0.000296622330731184,
      "loss": 3.9984,
      "step": 34350
    },
    {
      "epoch": 0.07158333333333333,
      "grad_norm": 0.7916358113288879,
      "learning_rate": 0.00029662025008342347,
      "loss": 3.9964,
      "step": 34360
    },
    {
      "epoch": 0.07160416666666666,
      "grad_norm": 0.8084188103675842,
      "learning_rate": 0.00029661816880232147,
      "loss": 3.9023,
      "step": 34370
    },
    {
      "epoch": 0.071625,
      "grad_norm": 0.9834280014038086,
      "learning_rate": 0.000296616086887887,
      "loss": 4.1501,
      "step": 34380
    },
    {
      "epoch": 0.07164583333333334,
      "grad_norm": 1.250417947769165,
      "learning_rate": 0.0002966140043401291,
      "loss": 3.9661,
      "step": 34390
    },
    {
      "epoch": 0.07166666666666667,
      "grad_norm": 0.8166579008102417,
      "learning_rate": 0.0002966119211590567,
      "loss": 4.2811,
      "step": 34400
    },
    {
      "epoch": 0.0716875,
      "grad_norm": 0.795012354850769,
      "learning_rate": 0.0002966098373446789,
      "loss": 3.9427,
      "step": 34410
    },
    {
      "epoch": 0.07170833333333333,
      "grad_norm": 0.7691431641578674,
      "learning_rate": 0.0002966077528970046,
      "loss": 4.0989,
      "step": 34420
    },
    {
      "epoch": 0.07172916666666666,
      "grad_norm": 0.8499016165733337,
      "learning_rate": 0.00029660566781604283,
      "loss": 4.007,
      "step": 34430
    },
    {
      "epoch": 0.07175,
      "grad_norm": 1.0078589916229248,
      "learning_rate": 0.00029660358210180257,
      "loss": 4.018,
      "step": 34440
    },
    {
      "epoch": 0.07177083333333334,
      "grad_norm": 0.9950017333030701,
      "learning_rate": 0.00029660149575429294,
      "loss": 4.0182,
      "step": 34450
    },
    {
      "epoch": 0.07179166666666667,
      "grad_norm": 0.8495825529098511,
      "learning_rate": 0.0002965994087735228,
      "loss": 3.9463,
      "step": 34460
    },
    {
      "epoch": 0.0718125,
      "grad_norm": 0.8476213812828064,
      "learning_rate": 0.00029659732115950134,
      "loss": 4.0219,
      "step": 34470
    },
    {
      "epoch": 0.07183333333333333,
      "grad_norm": 0.8481163382530212,
      "learning_rate": 0.00029659523291223743,
      "loss": 3.997,
      "step": 34480
    },
    {
      "epoch": 0.07185416666666666,
      "grad_norm": 0.784838080406189,
      "learning_rate": 0.0002965931440317401,
      "loss": 3.9901,
      "step": 34490
    },
    {
      "epoch": 0.071875,
      "grad_norm": 0.7931450605392456,
      "learning_rate": 0.00029659105451801843,
      "loss": 4.0337,
      "step": 34500
    },
    {
      "epoch": 0.07189583333333334,
      "grad_norm": 0.7204222679138184,
      "learning_rate": 0.00029658896437108145,
      "loss": 4.1675,
      "step": 34510
    },
    {
      "epoch": 0.07191666666666667,
      "grad_norm": 0.8351861238479614,
      "learning_rate": 0.0002965868735909382,
      "loss": 4.1174,
      "step": 34520
    },
    {
      "epoch": 0.0719375,
      "grad_norm": 0.844732940196991,
      "learning_rate": 0.0002965847821775976,
      "loss": 4.0976,
      "step": 34530
    },
    {
      "epoch": 0.07195833333333333,
      "grad_norm": 0.7252404093742371,
      "learning_rate": 0.0002965826901310688,
      "loss": 3.8816,
      "step": 34540
    },
    {
      "epoch": 0.07197916666666666,
      "grad_norm": 0.7991320490837097,
      "learning_rate": 0.00029658059745136086,
      "loss": 4.0478,
      "step": 34550
    },
    {
      "epoch": 0.072,
      "grad_norm": 0.9043586850166321,
      "learning_rate": 0.0002965785041384827,
      "loss": 3.8861,
      "step": 34560
    },
    {
      "epoch": 0.07202083333333334,
      "grad_norm": 0.8165860176086426,
      "learning_rate": 0.0002965764101924434,
      "loss": 3.9754,
      "step": 34570
    },
    {
      "epoch": 0.07204166666666667,
      "grad_norm": 0.7429885864257812,
      "learning_rate": 0.00029657431561325203,
      "loss": 3.8601,
      "step": 34580
    },
    {
      "epoch": 0.0720625,
      "grad_norm": 0.7756181359291077,
      "learning_rate": 0.00029657222040091767,
      "loss": 4.0326,
      "step": 34590
    },
    {
      "epoch": 0.07208333333333333,
      "grad_norm": 0.7901198267936707,
      "learning_rate": 0.00029657012455544936,
      "loss": 3.8946,
      "step": 34600
    },
    {
      "epoch": 0.07210416666666666,
      "grad_norm": 0.9060100317001343,
      "learning_rate": 0.0002965680280768561,
      "loss": 3.9984,
      "step": 34610
    },
    {
      "epoch": 0.072125,
      "grad_norm": 0.8289158940315247,
      "learning_rate": 0.000296565930965147,
      "loss": 3.9317,
      "step": 34620
    },
    {
      "epoch": 0.07214583333333334,
      "grad_norm": 0.7244383692741394,
      "learning_rate": 0.000296563833220331,
      "loss": 3.9479,
      "step": 34630
    },
    {
      "epoch": 0.07216666666666667,
      "grad_norm": 0.9270050525665283,
      "learning_rate": 0.00029656173484241737,
      "loss": 4.2067,
      "step": 34640
    },
    {
      "epoch": 0.0721875,
      "grad_norm": 0.7597124576568604,
      "learning_rate": 0.0002965596358314149,
      "loss": 3.9662,
      "step": 34650
    },
    {
      "epoch": 0.07220833333333333,
      "grad_norm": 0.7923332452774048,
      "learning_rate": 0.00029655753618733295,
      "loss": 4.0753,
      "step": 34660
    },
    {
      "epoch": 0.07222916666666666,
      "grad_norm": 0.8057259917259216,
      "learning_rate": 0.00029655543591018045,
      "loss": 3.9184,
      "step": 34670
    },
    {
      "epoch": 0.07225,
      "grad_norm": 0.752720057964325,
      "learning_rate": 0.0002965533349999664,
      "loss": 4.2899,
      "step": 34680
    },
    {
      "epoch": 0.07227083333333334,
      "grad_norm": 0.8049156665802002,
      "learning_rate": 0.0002965512334567001,
      "loss": 3.9185,
      "step": 34690
    },
    {
      "epoch": 0.07229166666666667,
      "grad_norm": 0.9156242609024048,
      "learning_rate": 0.0002965491312803903,
      "loss": 4.047,
      "step": 34700
    },
    {
      "epoch": 0.0723125,
      "grad_norm": 0.9886599183082581,
      "learning_rate": 0.0002965470284710464,
      "loss": 4.0564,
      "step": 34710
    },
    {
      "epoch": 0.07233333333333333,
      "grad_norm": 0.8577404618263245,
      "learning_rate": 0.0002965449250286773,
      "loss": 4.1354,
      "step": 34720
    },
    {
      "epoch": 0.07235416666666666,
      "grad_norm": 0.7323829531669617,
      "learning_rate": 0.00029654282095329206,
      "loss": 3.9785,
      "step": 34730
    },
    {
      "epoch": 0.072375,
      "grad_norm": 0.8211647272109985,
      "learning_rate": 0.00029654071624489995,
      "loss": 3.8582,
      "step": 34740
    },
    {
      "epoch": 0.07239583333333334,
      "grad_norm": 0.7520632147789001,
      "learning_rate": 0.00029653861090350985,
      "loss": 4.0582,
      "step": 34750
    },
    {
      "epoch": 0.07241666666666667,
      "grad_norm": 0.8814414739608765,
      "learning_rate": 0.000296536504929131,
      "loss": 3.8657,
      "step": 34760
    },
    {
      "epoch": 0.0724375,
      "grad_norm": 0.8057808876037598,
      "learning_rate": 0.0002965343983217725,
      "loss": 4.0863,
      "step": 34770
    },
    {
      "epoch": 0.07245833333333333,
      "grad_norm": 0.9344736337661743,
      "learning_rate": 0.00029653229108144336,
      "loss": 4.1154,
      "step": 34780
    },
    {
      "epoch": 0.07247916666666666,
      "grad_norm": 0.7676615715026855,
      "learning_rate": 0.00029653018320815273,
      "loss": 4.0494,
      "step": 34790
    },
    {
      "epoch": 0.0725,
      "grad_norm": 0.8011816143989563,
      "learning_rate": 0.00029652807470190965,
      "loss": 4.0338,
      "step": 34800
    },
    {
      "epoch": 0.07252083333333334,
      "grad_norm": 0.8048277497291565,
      "learning_rate": 0.0002965259655627234,
      "loss": 4.198,
      "step": 34810
    },
    {
      "epoch": 0.07254166666666667,
      "grad_norm": 0.9864151477813721,
      "learning_rate": 0.0002965238557906029,
      "loss": 3.9156,
      "step": 34820
    },
    {
      "epoch": 0.0725625,
      "grad_norm": 0.7824810147285461,
      "learning_rate": 0.0002965217453855573,
      "loss": 4.0586,
      "step": 34830
    },
    {
      "epoch": 0.07258333333333333,
      "grad_norm": 0.7975809574127197,
      "learning_rate": 0.00029651963434759585,
      "loss": 4.0375,
      "step": 34840
    },
    {
      "epoch": 0.07260416666666666,
      "grad_norm": 0.8203453421592712,
      "learning_rate": 0.0002965175226767276,
      "loss": 4.2048,
      "step": 34850
    },
    {
      "epoch": 0.072625,
      "grad_norm": 0.8084617853164673,
      "learning_rate": 0.00029651541037296154,
      "loss": 4.1456,
      "step": 34860
    },
    {
      "epoch": 0.07264583333333334,
      "grad_norm": 0.7126981616020203,
      "learning_rate": 0.00029651329743630696,
      "loss": 4.0064,
      "step": 34870
    },
    {
      "epoch": 0.07266666666666667,
      "grad_norm": 0.8411117792129517,
      "learning_rate": 0.0002965111838667729,
      "loss": 4.0272,
      "step": 34880
    },
    {
      "epoch": 0.0726875,
      "grad_norm": 1.056633472442627,
      "learning_rate": 0.00029650906966436854,
      "loss": 4.1501,
      "step": 34890
    },
    {
      "epoch": 0.07270833333333333,
      "grad_norm": 0.7296987771987915,
      "learning_rate": 0.000296506954829103,
      "loss": 3.918,
      "step": 34900
    },
    {
      "epoch": 0.07272916666666666,
      "grad_norm": 0.8309071063995361,
      "learning_rate": 0.0002965048393609854,
      "loss": 4.0558,
      "step": 34910
    },
    {
      "epoch": 0.07275,
      "grad_norm": 0.7744765281677246,
      "learning_rate": 0.00029650272326002487,
      "loss": 3.999,
      "step": 34920
    },
    {
      "epoch": 0.07277083333333334,
      "grad_norm": 0.8296480178833008,
      "learning_rate": 0.0002965006065262306,
      "loss": 4.1963,
      "step": 34930
    },
    {
      "epoch": 0.07279166666666667,
      "grad_norm": 0.7535804510116577,
      "learning_rate": 0.00029649848915961165,
      "loss": 4.1776,
      "step": 34940
    },
    {
      "epoch": 0.0728125,
      "grad_norm": 0.7694225907325745,
      "learning_rate": 0.00029649637116017723,
      "loss": 3.9261,
      "step": 34950
    },
    {
      "epoch": 0.07283333333333333,
      "grad_norm": 0.9155572056770325,
      "learning_rate": 0.0002964942525279365,
      "loss": 4.146,
      "step": 34960
    },
    {
      "epoch": 0.07285416666666666,
      "grad_norm": 0.9715854525566101,
      "learning_rate": 0.0002964921332628986,
      "loss": 4.0463,
      "step": 34970
    },
    {
      "epoch": 0.072875,
      "grad_norm": 0.7245194911956787,
      "learning_rate": 0.0002964900133650726,
      "loss": 4.0114,
      "step": 34980
    },
    {
      "epoch": 0.07289583333333334,
      "grad_norm": 0.7836931347846985,
      "learning_rate": 0.00029648789283446777,
      "loss": 4.0209,
      "step": 34990
    },
    {
      "epoch": 0.07291666666666667,
      "grad_norm": 0.7943224906921387,
      "learning_rate": 0.0002964857716710932,
      "loss": 4.0533,
      "step": 35000
    },
    {
      "epoch": 0.07291666666666667,
      "eval_loss": 4.305691719055176,
      "eval_runtime": 9.7859,
      "eval_samples_per_second": 1.022,
      "eval_steps_per_second": 0.307,
      "step": 35000
    },
    {
      "epoch": 0.0729375,
      "grad_norm": 0.7306997776031494,
      "learning_rate": 0.00029648364987495816,
      "loss": 3.9367,
      "step": 35010
    },
    {
      "epoch": 0.07295833333333333,
      "grad_norm": 0.7793446779251099,
      "learning_rate": 0.00029648152744607165,
      "loss": 4.2814,
      "step": 35020
    },
    {
      "epoch": 0.07297916666666666,
      "grad_norm": 0.7725879549980164,
      "learning_rate": 0.00029647940438444297,
      "loss": 3.8449,
      "step": 35030
    },
    {
      "epoch": 0.073,
      "grad_norm": 0.7934012413024902,
      "learning_rate": 0.00029647728069008116,
      "loss": 3.8821,
      "step": 35040
    },
    {
      "epoch": 0.07302083333333333,
      "grad_norm": 0.8492363691329956,
      "learning_rate": 0.00029647515636299556,
      "loss": 4.1515,
      "step": 35050
    },
    {
      "epoch": 0.07304166666666667,
      "grad_norm": 0.8373302221298218,
      "learning_rate": 0.0002964730314031953,
      "loss": 4.0603,
      "step": 35060
    },
    {
      "epoch": 0.0730625,
      "grad_norm": 0.7923370003700256,
      "learning_rate": 0.00029647090581068943,
      "loss": 4.2322,
      "step": 35070
    },
    {
      "epoch": 0.07308333333333333,
      "grad_norm": 0.7685287594795227,
      "learning_rate": 0.00029646877958548724,
      "loss": 4.0921,
      "step": 35080
    },
    {
      "epoch": 0.07310416666666666,
      "grad_norm": 0.9121419787406921,
      "learning_rate": 0.000296466652727598,
      "loss": 4.1951,
      "step": 35090
    },
    {
      "epoch": 0.073125,
      "grad_norm": 0.7648252248764038,
      "learning_rate": 0.00029646452523703065,
      "loss": 4.078,
      "step": 35100
    },
    {
      "epoch": 0.07314583333333333,
      "grad_norm": 0.781970202922821,
      "learning_rate": 0.00029646239711379464,
      "loss": 3.9369,
      "step": 35110
    },
    {
      "epoch": 0.07316666666666667,
      "grad_norm": 0.8711278438568115,
      "learning_rate": 0.00029646026835789896,
      "loss": 3.9517,
      "step": 35120
    },
    {
      "epoch": 0.0731875,
      "grad_norm": 0.7999338507652283,
      "learning_rate": 0.00029645813896935294,
      "loss": 3.9792,
      "step": 35130
    },
    {
      "epoch": 0.07320833333333333,
      "grad_norm": 0.9928709268569946,
      "learning_rate": 0.00029645600894816573,
      "loss": 4.1135,
      "step": 35140
    },
    {
      "epoch": 0.07322916666666666,
      "grad_norm": 0.8712597489356995,
      "learning_rate": 0.0002964538782943465,
      "loss": 4.2042,
      "step": 35150
    },
    {
      "epoch": 0.07325,
      "grad_norm": 0.7487674951553345,
      "learning_rate": 0.0002964517470079045,
      "loss": 3.9612,
      "step": 35160
    },
    {
      "epoch": 0.07327083333333333,
      "grad_norm": 0.8097735047340393,
      "learning_rate": 0.000296449615088849,
      "loss": 4.0626,
      "step": 35170
    },
    {
      "epoch": 0.07329166666666667,
      "grad_norm": 0.7810301184654236,
      "learning_rate": 0.00029644748253718906,
      "loss": 4.024,
      "step": 35180
    },
    {
      "epoch": 0.0733125,
      "grad_norm": 0.7320312857627869,
      "learning_rate": 0.00029644534935293395,
      "loss": 3.9831,
      "step": 35190
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 0.7716202735900879,
      "learning_rate": 0.0002964432155360929,
      "loss": 3.9052,
      "step": 35200
    },
    {
      "epoch": 0.07335416666666666,
      "grad_norm": 0.7827876210212708,
      "learning_rate": 0.0002964410810866751,
      "loss": 4.0381,
      "step": 35210
    },
    {
      "epoch": 0.073375,
      "grad_norm": 0.8971740007400513,
      "learning_rate": 0.0002964389460046899,
      "loss": 3.9978,
      "step": 35220
    },
    {
      "epoch": 0.07339583333333333,
      "grad_norm": 0.9332857728004456,
      "learning_rate": 0.00029643681029014636,
      "loss": 3.9959,
      "step": 35230
    },
    {
      "epoch": 0.07341666666666667,
      "grad_norm": 0.764346182346344,
      "learning_rate": 0.00029643467394305375,
      "loss": 4.0156,
      "step": 35240
    },
    {
      "epoch": 0.0734375,
      "grad_norm": 0.8342650532722473,
      "learning_rate": 0.00029643253696342133,
      "loss": 4.081,
      "step": 35250
    },
    {
      "epoch": 0.07345833333333333,
      "grad_norm": 0.7679824233055115,
      "learning_rate": 0.0002964303993512583,
      "loss": 4.0621,
      "step": 35260
    },
    {
      "epoch": 0.07347916666666666,
      "grad_norm": 0.7782136797904968,
      "learning_rate": 0.0002964282611065739,
      "loss": 4.0428,
      "step": 35270
    },
    {
      "epoch": 0.0735,
      "grad_norm": 0.7785505056381226,
      "learning_rate": 0.0002964261222293774,
      "loss": 4.0503,
      "step": 35280
    },
    {
      "epoch": 0.07352083333333333,
      "grad_norm": 0.7279910445213318,
      "learning_rate": 0.000296423982719678,
      "loss": 4.0955,
      "step": 35290
    },
    {
      "epoch": 0.07354166666666667,
      "grad_norm": 0.921248733997345,
      "learning_rate": 0.00029642184257748494,
      "loss": 4.0726,
      "step": 35300
    },
    {
      "epoch": 0.0735625,
      "grad_norm": 0.8328261375427246,
      "learning_rate": 0.0002964197018028075,
      "loss": 3.8495,
      "step": 35310
    },
    {
      "epoch": 0.07358333333333333,
      "grad_norm": 0.6995542645454407,
      "learning_rate": 0.0002964175603956549,
      "loss": 3.9838,
      "step": 35320
    },
    {
      "epoch": 0.07360416666666666,
      "grad_norm": 0.8579522371292114,
      "learning_rate": 0.00029641541835603635,
      "loss": 3.9773,
      "step": 35330
    },
    {
      "epoch": 0.073625,
      "grad_norm": 0.9279875755310059,
      "learning_rate": 0.00029641327568396116,
      "loss": 3.9344,
      "step": 35340
    },
    {
      "epoch": 0.07364583333333333,
      "grad_norm": 0.9031012654304504,
      "learning_rate": 0.00029641113237943863,
      "loss": 4.1148,
      "step": 35350
    },
    {
      "epoch": 0.07366666666666667,
      "grad_norm": 0.7149977684020996,
      "learning_rate": 0.00029640898844247794,
      "loss": 4.0075,
      "step": 35360
    },
    {
      "epoch": 0.0736875,
      "grad_norm": 0.7964022755622864,
      "learning_rate": 0.00029640684387308836,
      "loss": 4.0426,
      "step": 35370
    },
    {
      "epoch": 0.07370833333333333,
      "grad_norm": 0.8121726512908936,
      "learning_rate": 0.00029640469867127915,
      "loss": 3.9129,
      "step": 35380
    },
    {
      "epoch": 0.07372916666666667,
      "grad_norm": 0.755895733833313,
      "learning_rate": 0.00029640255283705963,
      "loss": 3.9886,
      "step": 35390
    },
    {
      "epoch": 0.07375,
      "grad_norm": 0.7760776877403259,
      "learning_rate": 0.00029640040637043903,
      "loss": 4.0111,
      "step": 35400
    },
    {
      "epoch": 0.07377083333333333,
      "grad_norm": 0.9190277457237244,
      "learning_rate": 0.0002963982592714266,
      "loss": 4.1372,
      "step": 35410
    },
    {
      "epoch": 0.07379166666666667,
      "grad_norm": 0.861737847328186,
      "learning_rate": 0.00029639611154003165,
      "loss": 3.989,
      "step": 35420
    },
    {
      "epoch": 0.0738125,
      "grad_norm": 0.8301714658737183,
      "learning_rate": 0.0002963939631762634,
      "loss": 3.9743,
      "step": 35430
    },
    {
      "epoch": 0.07383333333333333,
      "grad_norm": 0.7350360155105591,
      "learning_rate": 0.0002963918141801312,
      "loss": 3.9452,
      "step": 35440
    },
    {
      "epoch": 0.07385416666666667,
      "grad_norm": 0.8459472060203552,
      "learning_rate": 0.00029638966455164433,
      "loss": 4.1029,
      "step": 35450
    },
    {
      "epoch": 0.073875,
      "grad_norm": 0.8764699697494507,
      "learning_rate": 0.0002963875142908121,
      "loss": 3.9305,
      "step": 35460
    },
    {
      "epoch": 0.07389583333333333,
      "grad_norm": 0.7529707551002502,
      "learning_rate": 0.00029638536339764366,
      "loss": 3.9423,
      "step": 35470
    },
    {
      "epoch": 0.07391666666666667,
      "grad_norm": 0.872035562992096,
      "learning_rate": 0.00029638321187214846,
      "loss": 3.9666,
      "step": 35480
    },
    {
      "epoch": 0.0739375,
      "grad_norm": 0.8320852518081665,
      "learning_rate": 0.0002963810597143357,
      "loss": 4.242,
      "step": 35490
    },
    {
      "epoch": 0.07395833333333333,
      "grad_norm": 0.7556165456771851,
      "learning_rate": 0.0002963789069242147,
      "loss": 4.1042,
      "step": 35500
    },
    {
      "epoch": 0.07397916666666667,
      "grad_norm": 0.7183017134666443,
      "learning_rate": 0.00029637675350179476,
      "loss": 3.8368,
      "step": 35510
    },
    {
      "epoch": 0.074,
      "grad_norm": 0.8620455861091614,
      "learning_rate": 0.0002963745994470852,
      "loss": 3.9178,
      "step": 35520
    },
    {
      "epoch": 0.07402083333333333,
      "grad_norm": 0.7336896061897278,
      "learning_rate": 0.00029637244476009533,
      "loss": 4.1052,
      "step": 35530
    },
    {
      "epoch": 0.07404166666666667,
      "grad_norm": 0.848529577255249,
      "learning_rate": 0.00029637028944083443,
      "loss": 4.0174,
      "step": 35540
    },
    {
      "epoch": 0.0740625,
      "grad_norm": 1.0079830884933472,
      "learning_rate": 0.00029636813348931176,
      "loss": 4.097,
      "step": 35550
    },
    {
      "epoch": 0.07408333333333333,
      "grad_norm": 0.8438879251480103,
      "learning_rate": 0.00029636597690553676,
      "loss": 4.1545,
      "step": 35560
    },
    {
      "epoch": 0.07410416666666667,
      "grad_norm": 0.7041335105895996,
      "learning_rate": 0.0002963638196895186,
      "loss": 4.0444,
      "step": 35570
    },
    {
      "epoch": 0.074125,
      "grad_norm": 1.1556686162948608,
      "learning_rate": 0.0002963616618412667,
      "loss": 4.0741,
      "step": 35580
    },
    {
      "epoch": 0.07414583333333333,
      "grad_norm": 0.8188339471817017,
      "learning_rate": 0.00029635950336079044,
      "loss": 4.1731,
      "step": 35590
    },
    {
      "epoch": 0.07416666666666667,
      "grad_norm": 0.9124742746353149,
      "learning_rate": 0.00029635734424809896,
      "loss": 4.0729,
      "step": 35600
    },
    {
      "epoch": 0.0741875,
      "grad_norm": 0.8401139378547668,
      "learning_rate": 0.0002963551845032017,
      "loss": 4.0203,
      "step": 35610
    },
    {
      "epoch": 0.07420833333333333,
      "grad_norm": 0.7535160779953003,
      "learning_rate": 0.00029635302412610797,
      "loss": 3.9809,
      "step": 35620
    },
    {
      "epoch": 0.07422916666666667,
      "grad_norm": 0.8272704482078552,
      "learning_rate": 0.0002963508631168271,
      "loss": 3.9414,
      "step": 35630
    },
    {
      "epoch": 0.07425,
      "grad_norm": 0.8048223257064819,
      "learning_rate": 0.0002963487014753685,
      "loss": 3.895,
      "step": 35640
    },
    {
      "epoch": 0.07427083333333333,
      "grad_norm": 0.6860840320587158,
      "learning_rate": 0.00029634653920174143,
      "loss": 3.9506,
      "step": 35650
    },
    {
      "epoch": 0.07429166666666667,
      "grad_norm": 0.848264217376709,
      "learning_rate": 0.00029634437629595515,
      "loss": 4.1003,
      "step": 35660
    },
    {
      "epoch": 0.0743125,
      "grad_norm": 0.8062774538993835,
      "learning_rate": 0.00029634221275801916,
      "loss": 3.8597,
      "step": 35670
    },
    {
      "epoch": 0.07433333333333333,
      "grad_norm": 0.8030310273170471,
      "learning_rate": 0.0002963400485879427,
      "loss": 3.9421,
      "step": 35680
    },
    {
      "epoch": 0.07435416666666667,
      "grad_norm": 0.8365631103515625,
      "learning_rate": 0.0002963378837857352,
      "loss": 3.9952,
      "step": 35690
    },
    {
      "epoch": 0.074375,
      "grad_norm": 0.9957694411277771,
      "learning_rate": 0.000296335718351406,
      "loss": 4.0493,
      "step": 35700
    },
    {
      "epoch": 0.07439583333333333,
      "grad_norm": 0.7643691897392273,
      "learning_rate": 0.0002963335522849643,
      "loss": 4.2126,
      "step": 35710
    },
    {
      "epoch": 0.07441666666666667,
      "grad_norm": 0.8527258634567261,
      "learning_rate": 0.00029633138558641967,
      "loss": 4.12,
      "step": 35720
    },
    {
      "epoch": 0.0744375,
      "grad_norm": 0.877537190914154,
      "learning_rate": 0.00029632921825578136,
      "loss": 4.0202,
      "step": 35730
    },
    {
      "epoch": 0.07445833333333333,
      "grad_norm": 0.726547360420227,
      "learning_rate": 0.0002963270502930587,
      "loss": 4.1443,
      "step": 35740
    },
    {
      "epoch": 0.07447916666666667,
      "grad_norm": 0.7473787069320679,
      "learning_rate": 0.00029632488169826116,
      "loss": 3.9678,
      "step": 35750
    },
    {
      "epoch": 0.0745,
      "grad_norm": 0.7974646091461182,
      "learning_rate": 0.00029632271247139803,
      "loss": 3.9869,
      "step": 35760
    },
    {
      "epoch": 0.07452083333333333,
      "grad_norm": 0.7550406455993652,
      "learning_rate": 0.00029632054261247864,
      "loss": 3.9846,
      "step": 35770
    },
    {
      "epoch": 0.07454166666666667,
      "grad_norm": 0.842200756072998,
      "learning_rate": 0.00029631837212151254,
      "loss": 3.9496,
      "step": 35780
    },
    {
      "epoch": 0.0745625,
      "grad_norm": 0.779826819896698,
      "learning_rate": 0.00029631620099850893,
      "loss": 3.9756,
      "step": 35790
    },
    {
      "epoch": 0.07458333333333333,
      "grad_norm": 0.7636182308197021,
      "learning_rate": 0.00029631402924347726,
      "loss": 3.994,
      "step": 35800
    },
    {
      "epoch": 0.07460416666666667,
      "grad_norm": 0.7469265460968018,
      "learning_rate": 0.00029631185685642685,
      "loss": 3.908,
      "step": 35810
    },
    {
      "epoch": 0.074625,
      "grad_norm": 0.9977638125419617,
      "learning_rate": 0.0002963096838373672,
      "loss": 3.9486,
      "step": 35820
    },
    {
      "epoch": 0.07464583333333333,
      "grad_norm": 0.776183009147644,
      "learning_rate": 0.0002963075101863076,
      "loss": 3.9755,
      "step": 35830
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 0.8263929486274719,
      "learning_rate": 0.0002963053359032575,
      "loss": 4.0692,
      "step": 35840
    },
    {
      "epoch": 0.0746875,
      "grad_norm": 0.8160837888717651,
      "learning_rate": 0.0002963031609882262,
      "loss": 4.0548,
      "step": 35850
    },
    {
      "epoch": 0.07470833333333333,
      "grad_norm": 0.7614683508872986,
      "learning_rate": 0.0002963009854412232,
      "loss": 4.0331,
      "step": 35860
    },
    {
      "epoch": 0.07472916666666667,
      "grad_norm": 0.7082501649856567,
      "learning_rate": 0.00029629880926225786,
      "loss": 4.0458,
      "step": 35870
    },
    {
      "epoch": 0.07475,
      "grad_norm": 0.7138420343399048,
      "learning_rate": 0.00029629663245133955,
      "loss": 4.002,
      "step": 35880
    },
    {
      "epoch": 0.07477083333333333,
      "grad_norm": 0.7747806310653687,
      "learning_rate": 0.0002962944550084776,
      "loss": 4.0928,
      "step": 35890
    },
    {
      "epoch": 0.07479166666666667,
      "grad_norm": 0.8437674641609192,
      "learning_rate": 0.00029629227693368164,
      "loss": 4.1077,
      "step": 35900
    },
    {
      "epoch": 0.0748125,
      "grad_norm": 0.7835533022880554,
      "learning_rate": 0.00029629009822696096,
      "loss": 3.8493,
      "step": 35910
    },
    {
      "epoch": 0.07483333333333334,
      "grad_norm": 0.8468340635299683,
      "learning_rate": 0.0002962879188883249,
      "loss": 4.1164,
      "step": 35920
    },
    {
      "epoch": 0.07485416666666667,
      "grad_norm": 0.8024889826774597,
      "learning_rate": 0.000296285738917783,
      "loss": 4.0396,
      "step": 35930
    },
    {
      "epoch": 0.074875,
      "grad_norm": 0.7800811529159546,
      "learning_rate": 0.00029628355831534453,
      "loss": 4.0764,
      "step": 35940
    },
    {
      "epoch": 0.07489583333333333,
      "grad_norm": 0.7939956188201904,
      "learning_rate": 0.00029628137708101904,
      "loss": 3.9092,
      "step": 35950
    },
    {
      "epoch": 0.07491666666666667,
      "grad_norm": 0.671669065952301,
      "learning_rate": 0.00029627919521481587,
      "loss": 4.2676,
      "step": 35960
    },
    {
      "epoch": 0.0749375,
      "grad_norm": 0.7691323757171631,
      "learning_rate": 0.0002962770127167445,
      "loss": 4.0801,
      "step": 35970
    },
    {
      "epoch": 0.07495833333333334,
      "grad_norm": 0.7836569547653198,
      "learning_rate": 0.00029627482958681435,
      "loss": 3.9632,
      "step": 35980
    },
    {
      "epoch": 0.07497916666666667,
      "grad_norm": 0.8050476312637329,
      "learning_rate": 0.0002962726458250348,
      "loss": 4.035,
      "step": 35990
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.7917085289955139,
      "learning_rate": 0.0002962704614314154,
      "loss": 4.0497,
      "step": 36000
    },
    {
      "epoch": 0.075,
      "eval_loss": 4.300467491149902,
      "eval_runtime": 9.4204,
      "eval_samples_per_second": 1.062,
      "eval_steps_per_second": 0.318,
      "step": 36000
    },
    {
      "epoch": 0.07502083333333333,
      "grad_norm": 0.738937258720398,
      "learning_rate": 0.0002962682764059654,
      "loss": 4.1442,
      "step": 36010
    },
    {
      "epoch": 0.07504166666666667,
      "grad_norm": 0.8388813138008118,
      "learning_rate": 0.00029626609074869437,
      "loss": 4.0227,
      "step": 36020
    },
    {
      "epoch": 0.0750625,
      "grad_norm": 0.8582183718681335,
      "learning_rate": 0.00029626390445961176,
      "loss": 4.1786,
      "step": 36030
    },
    {
      "epoch": 0.07508333333333334,
      "grad_norm": 1.169152021408081,
      "learning_rate": 0.000296261717538727,
      "loss": 3.8671,
      "step": 36040
    },
    {
      "epoch": 0.07510416666666667,
      "grad_norm": 0.8342555165290833,
      "learning_rate": 0.0002962595299860494,
      "loss": 3.9194,
      "step": 36050
    },
    {
      "epoch": 0.075125,
      "grad_norm": 0.944935142993927,
      "learning_rate": 0.0002962573418015886,
      "loss": 3.8282,
      "step": 36060
    },
    {
      "epoch": 0.07514583333333333,
      "grad_norm": 0.7791286706924438,
      "learning_rate": 0.00029625515298535403,
      "loss": 3.842,
      "step": 36070
    },
    {
      "epoch": 0.07516666666666667,
      "grad_norm": 0.7628130912780762,
      "learning_rate": 0.00029625296353735504,
      "loss": 3.9589,
      "step": 36080
    },
    {
      "epoch": 0.0751875,
      "grad_norm": 0.7664324045181274,
      "learning_rate": 0.0002962507734576011,
      "loss": 4.0628,
      "step": 36090
    },
    {
      "epoch": 0.07520833333333334,
      "grad_norm": 0.8196033835411072,
      "learning_rate": 0.00029624858274610174,
      "loss": 3.9964,
      "step": 36100
    },
    {
      "epoch": 0.07522916666666667,
      "grad_norm": 0.8291841149330139,
      "learning_rate": 0.0002962463914028664,
      "loss": 4.1657,
      "step": 36110
    },
    {
      "epoch": 0.07525,
      "grad_norm": 0.9361351728439331,
      "learning_rate": 0.00029624419942790456,
      "loss": 3.8748,
      "step": 36120
    },
    {
      "epoch": 0.07527083333333333,
      "grad_norm": 0.7884825468063354,
      "learning_rate": 0.0002962420068212256,
      "loss": 4.0064,
      "step": 36130
    },
    {
      "epoch": 0.07529166666666667,
      "grad_norm": 0.8539175391197205,
      "learning_rate": 0.0002962398135828391,
      "loss": 3.9583,
      "step": 36140
    },
    {
      "epoch": 0.0753125,
      "grad_norm": 0.8156542181968689,
      "learning_rate": 0.0002962376197127545,
      "loss": 3.9116,
      "step": 36150
    },
    {
      "epoch": 0.07533333333333334,
      "grad_norm": 0.8740443587303162,
      "learning_rate": 0.0002962354252109812,
      "loss": 3.9896,
      "step": 36160
    },
    {
      "epoch": 0.07535416666666667,
      "grad_norm": 0.8404247760772705,
      "learning_rate": 0.00029623323007752883,
      "loss": 4.1796,
      "step": 36170
    },
    {
      "epoch": 0.075375,
      "grad_norm": 0.8641976714134216,
      "learning_rate": 0.0002962310343124068,
      "loss": 3.8365,
      "step": 36180
    },
    {
      "epoch": 0.07539583333333333,
      "grad_norm": 0.8248933553695679,
      "learning_rate": 0.0002962288379156245,
      "loss": 4.1353,
      "step": 36190
    },
    {
      "epoch": 0.07541666666666667,
      "grad_norm": 0.7754831910133362,
      "learning_rate": 0.0002962266408871916,
      "loss": 3.856,
      "step": 36200
    },
    {
      "epoch": 0.0754375,
      "grad_norm": 0.8486154079437256,
      "learning_rate": 0.00029622444322711743,
      "loss": 3.8701,
      "step": 36210
    },
    {
      "epoch": 0.07545833333333334,
      "grad_norm": 0.7412910461425781,
      "learning_rate": 0.00029622224493541154,
      "loss": 4.0491,
      "step": 36220
    },
    {
      "epoch": 0.07547916666666667,
      "grad_norm": 0.7294564247131348,
      "learning_rate": 0.00029622004601208345,
      "loss": 3.9166,
      "step": 36230
    },
    {
      "epoch": 0.0755,
      "grad_norm": 0.8076752424240112,
      "learning_rate": 0.0002962178464571426,
      "loss": 4.0313,
      "step": 36240
    },
    {
      "epoch": 0.07552083333333333,
      "grad_norm": 0.8667954206466675,
      "learning_rate": 0.00029621564627059857,
      "loss": 4.0789,
      "step": 36250
    },
    {
      "epoch": 0.07554166666666666,
      "grad_norm": 0.7598586082458496,
      "learning_rate": 0.0002962134454524608,
      "loss": 4.0216,
      "step": 36260
    },
    {
      "epoch": 0.0755625,
      "grad_norm": 0.9358484148979187,
      "learning_rate": 0.00029621124400273886,
      "loss": 4.0297,
      "step": 36270
    },
    {
      "epoch": 0.07558333333333334,
      "grad_norm": 0.849852979183197,
      "learning_rate": 0.0002962090419214422,
      "loss": 4.1254,
      "step": 36280
    },
    {
      "epoch": 0.07560416666666667,
      "grad_norm": 0.7753157019615173,
      "learning_rate": 0.00029620683920858037,
      "loss": 3.9684,
      "step": 36290
    },
    {
      "epoch": 0.075625,
      "grad_norm": 0.84865802526474,
      "learning_rate": 0.0002962046358641628,
      "loss": 4.0145,
      "step": 36300
    },
    {
      "epoch": 0.07564583333333333,
      "grad_norm": 0.9601401686668396,
      "learning_rate": 0.00029620243188819916,
      "loss": 4.1134,
      "step": 36310
    },
    {
      "epoch": 0.07566666666666666,
      "grad_norm": 0.9930610060691833,
      "learning_rate": 0.00029620022728069886,
      "loss": 3.8587,
      "step": 36320
    },
    {
      "epoch": 0.0756875,
      "grad_norm": 0.7303016781806946,
      "learning_rate": 0.0002961980220416714,
      "loss": 4.1542,
      "step": 36330
    },
    {
      "epoch": 0.07570833333333334,
      "grad_norm": 0.7336821556091309,
      "learning_rate": 0.0002961958161711264,
      "loss": 4.0211,
      "step": 36340
    },
    {
      "epoch": 0.07572916666666667,
      "grad_norm": 0.9012675285339355,
      "learning_rate": 0.00029619360966907335,
      "loss": 4.027,
      "step": 36350
    },
    {
      "epoch": 0.07575,
      "grad_norm": 0.7260995507240295,
      "learning_rate": 0.00029619140253552174,
      "loss": 4.0522,
      "step": 36360
    },
    {
      "epoch": 0.07577083333333333,
      "grad_norm": 0.7804322838783264,
      "learning_rate": 0.0002961891947704812,
      "loss": 3.9825,
      "step": 36370
    },
    {
      "epoch": 0.07579166666666666,
      "grad_norm": 0.728702962398529,
      "learning_rate": 0.0002961869863739611,
      "loss": 3.7808,
      "step": 36380
    },
    {
      "epoch": 0.0758125,
      "grad_norm": 0.7990889549255371,
      "learning_rate": 0.00029618477734597113,
      "loss": 4.0985,
      "step": 36390
    },
    {
      "epoch": 0.07583333333333334,
      "grad_norm": 0.8330264687538147,
      "learning_rate": 0.0002961825676865208,
      "loss": 3.9572,
      "step": 36400
    },
    {
      "epoch": 0.07585416666666667,
      "grad_norm": 0.7718349099159241,
      "learning_rate": 0.0002961803573956197,
      "loss": 3.902,
      "step": 36410
    },
    {
      "epoch": 0.075875,
      "grad_norm": 0.8250359296798706,
      "learning_rate": 0.0002961781464732772,
      "loss": 4.156,
      "step": 36420
    },
    {
      "epoch": 0.07589583333333333,
      "grad_norm": 0.8182675838470459,
      "learning_rate": 0.00029617593491950306,
      "loss": 3.907,
      "step": 36430
    },
    {
      "epoch": 0.07591666666666666,
      "grad_norm": 0.7601507306098938,
      "learning_rate": 0.0002961737227343067,
      "loss": 3.9524,
      "step": 36440
    },
    {
      "epoch": 0.0759375,
      "grad_norm": 0.8122261166572571,
      "learning_rate": 0.0002961715099176977,
      "loss": 3.825,
      "step": 36450
    },
    {
      "epoch": 0.07595833333333334,
      "grad_norm": 0.8997005820274353,
      "learning_rate": 0.0002961692964696857,
      "loss": 4.0245,
      "step": 36460
    },
    {
      "epoch": 0.07597916666666667,
      "grad_norm": 0.9487331509590149,
      "learning_rate": 0.00029616708239028016,
      "loss": 4.0542,
      "step": 36470
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.8770477771759033,
      "learning_rate": 0.00029616486767949067,
      "loss": 3.8533,
      "step": 36480
    },
    {
      "epoch": 0.07602083333333333,
      "grad_norm": 0.7269647717475891,
      "learning_rate": 0.0002961626523373268,
      "loss": 3.9401,
      "step": 36490
    },
    {
      "epoch": 0.07604166666666666,
      "grad_norm": 0.8264038562774658,
      "learning_rate": 0.00029616043636379813,
      "loss": 3.9713,
      "step": 36500
    },
    {
      "epoch": 0.0760625,
      "grad_norm": 0.8643702864646912,
      "learning_rate": 0.0002961582197589142,
      "loss": 4.0293,
      "step": 36510
    },
    {
      "epoch": 0.07608333333333334,
      "grad_norm": 0.7657296061515808,
      "learning_rate": 0.0002961560025226847,
      "loss": 3.9293,
      "step": 36520
    },
    {
      "epoch": 0.07610416666666667,
      "grad_norm": 0.7731497883796692,
      "learning_rate": 0.0002961537846551191,
      "loss": 3.7988,
      "step": 36530
    },
    {
      "epoch": 0.076125,
      "grad_norm": 0.8306047916412354,
      "learning_rate": 0.00029615156615622697,
      "loss": 4.0641,
      "step": 36540
    },
    {
      "epoch": 0.07614583333333333,
      "grad_norm": 0.8543121218681335,
      "learning_rate": 0.0002961493470260179,
      "loss": 4.0031,
      "step": 36550
    },
    {
      "epoch": 0.07616666666666666,
      "grad_norm": 0.8059775829315186,
      "learning_rate": 0.0002961471272645016,
      "loss": 4.0376,
      "step": 36560
    },
    {
      "epoch": 0.0761875,
      "grad_norm": 0.785234808921814,
      "learning_rate": 0.0002961449068716875,
      "loss": 4.1641,
      "step": 36570
    },
    {
      "epoch": 0.07620833333333334,
      "grad_norm": 0.9886530041694641,
      "learning_rate": 0.0002961426858475852,
      "loss": 4.0072,
      "step": 36580
    },
    {
      "epoch": 0.07622916666666667,
      "grad_norm": 0.8501163721084595,
      "learning_rate": 0.0002961404641922044,
      "loss": 4.1371,
      "step": 36590
    },
    {
      "epoch": 0.07625,
      "grad_norm": 0.7805602550506592,
      "learning_rate": 0.00029613824190555466,
      "loss": 3.9913,
      "step": 36600
    },
    {
      "epoch": 0.07627083333333333,
      "grad_norm": 0.7363852858543396,
      "learning_rate": 0.0002961360189876455,
      "loss": 3.7785,
      "step": 36610
    },
    {
      "epoch": 0.07629166666666666,
      "grad_norm": 0.8388037085533142,
      "learning_rate": 0.00029613379543848664,
      "loss": 4.0168,
      "step": 36620
    },
    {
      "epoch": 0.0763125,
      "grad_norm": 1.0611220598220825,
      "learning_rate": 0.0002961315712580876,
      "loss": 3.8934,
      "step": 36630
    },
    {
      "epoch": 0.07633333333333334,
      "grad_norm": 0.756959855556488,
      "learning_rate": 0.00029612934644645796,
      "loss": 3.9728,
      "step": 36640
    },
    {
      "epoch": 0.07635416666666667,
      "grad_norm": 0.7098036408424377,
      "learning_rate": 0.0002961271210036075,
      "loss": 4.0563,
      "step": 36650
    },
    {
      "epoch": 0.076375,
      "grad_norm": 0.7992086410522461,
      "learning_rate": 0.00029612489492954566,
      "loss": 4.1365,
      "step": 36660
    },
    {
      "epoch": 0.07639583333333333,
      "grad_norm": 0.7532985210418701,
      "learning_rate": 0.00029612266822428207,
      "loss": 4.1396,
      "step": 36670
    },
    {
      "epoch": 0.07641666666666666,
      "grad_norm": 0.7035313844680786,
      "learning_rate": 0.00029612044088782644,
      "loss": 3.9514,
      "step": 36680
    },
    {
      "epoch": 0.0764375,
      "grad_norm": 0.775600254535675,
      "learning_rate": 0.00029611821292018837,
      "loss": 4.1449,
      "step": 36690
    },
    {
      "epoch": 0.07645833333333334,
      "grad_norm": 0.7044334411621094,
      "learning_rate": 0.00029611598432137745,
      "loss": 4.0229,
      "step": 36700
    },
    {
      "epoch": 0.07647916666666667,
      "grad_norm": 0.8057827949523926,
      "learning_rate": 0.0002961137550914033,
      "loss": 4.044,
      "step": 36710
    },
    {
      "epoch": 0.0765,
      "grad_norm": 0.7750446796417236,
      "learning_rate": 0.0002961115252302755,
      "loss": 3.8684,
      "step": 36720
    },
    {
      "epoch": 0.07652083333333333,
      "grad_norm": 0.8386626243591309,
      "learning_rate": 0.0002961092947380038,
      "loss": 4.1276,
      "step": 36730
    },
    {
      "epoch": 0.07654166666666666,
      "grad_norm": 0.7107052206993103,
      "learning_rate": 0.0002961070636145978,
      "loss": 3.8592,
      "step": 36740
    },
    {
      "epoch": 0.0765625,
      "grad_norm": 0.9275119304656982,
      "learning_rate": 0.0002961048318600671,
      "loss": 4.0631,
      "step": 36750
    },
    {
      "epoch": 0.07658333333333334,
      "grad_norm": 0.8354018926620483,
      "learning_rate": 0.0002961025994744214,
      "loss": 3.9175,
      "step": 36760
    },
    {
      "epoch": 0.07660416666666667,
      "grad_norm": 0.7953336238861084,
      "learning_rate": 0.0002961003664576702,
      "loss": 3.8631,
      "step": 36770
    },
    {
      "epoch": 0.076625,
      "grad_norm": 0.924675464630127,
      "learning_rate": 0.0002960981328098233,
      "loss": 3.953,
      "step": 36780
    },
    {
      "epoch": 0.07664583333333333,
      "grad_norm": 0.8692046999931335,
      "learning_rate": 0.00029609589853089033,
      "loss": 3.9594,
      "step": 36790
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 0.8744808435440063,
      "learning_rate": 0.0002960936636208809,
      "loss": 4.0827,
      "step": 36800
    },
    {
      "epoch": 0.0766875,
      "grad_norm": 0.8684138059616089,
      "learning_rate": 0.0002960914280798047,
      "loss": 3.976,
      "step": 36810
    },
    {
      "epoch": 0.07670833333333334,
      "grad_norm": 0.8174667954444885,
      "learning_rate": 0.00029608919190767126,
      "loss": 4.158,
      "step": 36820
    },
    {
      "epoch": 0.07672916666666667,
      "grad_norm": 0.7397491335868835,
      "learning_rate": 0.00029608695510449043,
      "loss": 3.9984,
      "step": 36830
    },
    {
      "epoch": 0.07675,
      "grad_norm": 0.8393524289131165,
      "learning_rate": 0.0002960847176702717,
      "loss": 3.9714,
      "step": 36840
    },
    {
      "epoch": 0.07677083333333333,
      "grad_norm": 0.6774730086326599,
      "learning_rate": 0.00029608247960502483,
      "loss": 4.0747,
      "step": 36850
    },
    {
      "epoch": 0.07679166666666666,
      "grad_norm": 0.8538318872451782,
      "learning_rate": 0.0002960802409087596,
      "loss": 4.055,
      "step": 36860
    },
    {
      "epoch": 0.0768125,
      "grad_norm": 0.81735759973526,
      "learning_rate": 0.00029607800158148534,
      "loss": 4.1263,
      "step": 36870
    },
    {
      "epoch": 0.07683333333333334,
      "grad_norm": 0.9084687829017639,
      "learning_rate": 0.00029607576162321206,
      "loss": 3.9921,
      "step": 36880
    },
    {
      "epoch": 0.07685416666666667,
      "grad_norm": 0.7403016686439514,
      "learning_rate": 0.00029607352103394927,
      "loss": 4.0089,
      "step": 36890
    },
    {
      "epoch": 0.076875,
      "grad_norm": 0.7804655432701111,
      "learning_rate": 0.00029607127981370673,
      "loss": 3.9077,
      "step": 36900
    },
    {
      "epoch": 0.07689583333333333,
      "grad_norm": 0.7995839715003967,
      "learning_rate": 0.0002960690379624941,
      "loss": 3.9604,
      "step": 36910
    },
    {
      "epoch": 0.07691666666666666,
      "grad_norm": 0.7769097685813904,
      "learning_rate": 0.000296066795480321,
      "loss": 3.9761,
      "step": 36920
    },
    {
      "epoch": 0.0769375,
      "grad_norm": 0.8375133275985718,
      "learning_rate": 0.00029606455236719714,
      "loss": 4.0559,
      "step": 36930
    },
    {
      "epoch": 0.07695833333333334,
      "grad_norm": 0.7096104621887207,
      "learning_rate": 0.0002960623086231323,
      "loss": 4.0807,
      "step": 36940
    },
    {
      "epoch": 0.07697916666666667,
      "grad_norm": 0.8935699462890625,
      "learning_rate": 0.000296060064248136,
      "loss": 3.9905,
      "step": 36950
    },
    {
      "epoch": 0.077,
      "grad_norm": 0.8278427124023438,
      "learning_rate": 0.00029605781924221813,
      "loss": 3.8517,
      "step": 36960
    },
    {
      "epoch": 0.07702083333333333,
      "grad_norm": 0.7334986925125122,
      "learning_rate": 0.0002960555736053882,
      "loss": 4.1174,
      "step": 36970
    },
    {
      "epoch": 0.07704166666666666,
      "grad_norm": 0.8122662305831909,
      "learning_rate": 0.00029605332733765606,
      "loss": 4.0126,
      "step": 36980
    },
    {
      "epoch": 0.0770625,
      "grad_norm": 0.8243107795715332,
      "learning_rate": 0.0002960510804390314,
      "loss": 4.1348,
      "step": 36990
    },
    {
      "epoch": 0.07708333333333334,
      "grad_norm": 0.9356787204742432,
      "learning_rate": 0.00029604883290952383,
      "loss": 3.9832,
      "step": 37000
    },
    {
      "epoch": 0.07708333333333334,
      "eval_loss": 4.303212642669678,
      "eval_runtime": 9.645,
      "eval_samples_per_second": 1.037,
      "eval_steps_per_second": 0.311,
      "step": 37000
    },
    {
      "epoch": 0.07710416666666667,
      "grad_norm": 0.8894367218017578,
      "learning_rate": 0.00029604658474914315,
      "loss": 3.8955,
      "step": 37010
    },
    {
      "epoch": 0.077125,
      "grad_norm": 0.7301793098449707,
      "learning_rate": 0.000296044335957899,
      "loss": 4.0434,
      "step": 37020
    },
    {
      "epoch": 0.07714583333333333,
      "grad_norm": 0.8568573594093323,
      "learning_rate": 0.00029604208653580114,
      "loss": 3.8931,
      "step": 37030
    },
    {
      "epoch": 0.07716666666666666,
      "grad_norm": 0.8391117453575134,
      "learning_rate": 0.00029603983648285927,
      "loss": 3.9051,
      "step": 37040
    },
    {
      "epoch": 0.0771875,
      "grad_norm": 0.784164309501648,
      "learning_rate": 0.0002960375857990831,
      "loss": 3.9916,
      "step": 37050
    },
    {
      "epoch": 0.07720833333333334,
      "grad_norm": 0.7964832782745361,
      "learning_rate": 0.00029603533448448237,
      "loss": 4.0086,
      "step": 37060
    },
    {
      "epoch": 0.07722916666666667,
      "grad_norm": 0.8854414224624634,
      "learning_rate": 0.0002960330825390668,
      "loss": 3.83,
      "step": 37070
    },
    {
      "epoch": 0.07725,
      "grad_norm": 0.7870660424232483,
      "learning_rate": 0.00029603082996284614,
      "loss": 4.067,
      "step": 37080
    },
    {
      "epoch": 0.07727083333333333,
      "grad_norm": 1.0131460428237915,
      "learning_rate": 0.0002960285767558301,
      "loss": 4.0958,
      "step": 37090
    },
    {
      "epoch": 0.07729166666666666,
      "grad_norm": 0.8952473402023315,
      "learning_rate": 0.0002960263229180284,
      "loss": 3.9738,
      "step": 37100
    },
    {
      "epoch": 0.0773125,
      "grad_norm": 0.7505180835723877,
      "learning_rate": 0.0002960240684494508,
      "loss": 3.9285,
      "step": 37110
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 0.7252408266067505,
      "learning_rate": 0.000296021813350107,
      "loss": 4.0219,
      "step": 37120
    },
    {
      "epoch": 0.07735416666666667,
      "grad_norm": 0.9749805927276611,
      "learning_rate": 0.00029601955762000677,
      "loss": 3.9056,
      "step": 37130
    },
    {
      "epoch": 0.077375,
      "grad_norm": 0.7523090243339539,
      "learning_rate": 0.00029601730125915985,
      "loss": 3.9569,
      "step": 37140
    },
    {
      "epoch": 0.07739583333333333,
      "grad_norm": 0.7962819337844849,
      "learning_rate": 0.000296015044267576,
      "loss": 4.0049,
      "step": 37150
    },
    {
      "epoch": 0.07741666666666666,
      "grad_norm": 0.7877984642982483,
      "learning_rate": 0.00029601278664526494,
      "loss": 3.9931,
      "step": 37160
    },
    {
      "epoch": 0.0774375,
      "grad_norm": 0.8227845430374146,
      "learning_rate": 0.0002960105283922364,
      "loss": 4.0331,
      "step": 37170
    },
    {
      "epoch": 0.07745833333333334,
      "grad_norm": 0.7852182984352112,
      "learning_rate": 0.00029600826950850026,
      "loss": 3.955,
      "step": 37180
    },
    {
      "epoch": 0.07747916666666667,
      "grad_norm": 0.8177304863929749,
      "learning_rate": 0.0002960060099940661,
      "loss": 3.9852,
      "step": 37190
    },
    {
      "epoch": 0.0775,
      "grad_norm": 0.7786300778388977,
      "learning_rate": 0.0002960037498489438,
      "loss": 4.1275,
      "step": 37200
    },
    {
      "epoch": 0.07752083333333333,
      "grad_norm": 0.7030205130577087,
      "learning_rate": 0.00029600148907314315,
      "loss": 4.0328,
      "step": 37210
    },
    {
      "epoch": 0.07754166666666666,
      "grad_norm": 0.8485303521156311,
      "learning_rate": 0.0002959992276666738,
      "loss": 3.936,
      "step": 37220
    },
    {
      "epoch": 0.0775625,
      "grad_norm": 0.7638468146324158,
      "learning_rate": 0.0002959969656295456,
      "loss": 3.9583,
      "step": 37230
    },
    {
      "epoch": 0.07758333333333334,
      "grad_norm": 0.7291339635848999,
      "learning_rate": 0.0002959947029617683,
      "loss": 4.0612,
      "step": 37240
    },
    {
      "epoch": 0.07760416666666667,
      "grad_norm": 0.7313277125358582,
      "learning_rate": 0.00029599243966335165,
      "loss": 3.9409,
      "step": 37250
    },
    {
      "epoch": 0.077625,
      "grad_norm": 0.7537336945533752,
      "learning_rate": 0.00029599017573430546,
      "loss": 4.0731,
      "step": 37260
    },
    {
      "epoch": 0.07764583333333333,
      "grad_norm": 0.7785717248916626,
      "learning_rate": 0.0002959879111746395,
      "loss": 4.1558,
      "step": 37270
    },
    {
      "epoch": 0.07766666666666666,
      "grad_norm": 0.7225485444068909,
      "learning_rate": 0.0002959856459843635,
      "loss": 4.0801,
      "step": 37280
    },
    {
      "epoch": 0.0776875,
      "grad_norm": 0.8311878442764282,
      "learning_rate": 0.0002959833801634874,
      "loss": 4.0419,
      "step": 37290
    },
    {
      "epoch": 0.07770833333333334,
      "grad_norm": 0.8113701939582825,
      "learning_rate": 0.00029598111371202077,
      "loss": 4.0289,
      "step": 37300
    },
    {
      "epoch": 0.07772916666666667,
      "grad_norm": 0.7142004370689392,
      "learning_rate": 0.0002959788466299736,
      "loss": 3.913,
      "step": 37310
    },
    {
      "epoch": 0.07775,
      "grad_norm": 0.8352668285369873,
      "learning_rate": 0.00029597657891735555,
      "loss": 3.8792,
      "step": 37320
    },
    {
      "epoch": 0.07777083333333333,
      "grad_norm": 0.856296181678772,
      "learning_rate": 0.00029597431057417647,
      "loss": 4.2033,
      "step": 37330
    },
    {
      "epoch": 0.07779166666666666,
      "grad_norm": 0.8602162003517151,
      "learning_rate": 0.0002959720416004461,
      "loss": 3.9732,
      "step": 37340
    },
    {
      "epoch": 0.0778125,
      "grad_norm": 0.8192880153656006,
      "learning_rate": 0.0002959697719961744,
      "loss": 3.9089,
      "step": 37350
    },
    {
      "epoch": 0.07783333333333334,
      "grad_norm": 0.9011448621749878,
      "learning_rate": 0.00029596750176137096,
      "loss": 3.9583,
      "step": 37360
    },
    {
      "epoch": 0.07785416666666667,
      "grad_norm": 0.8908724188804626,
      "learning_rate": 0.00029596523089604575,
      "loss": 4.1122,
      "step": 37370
    },
    {
      "epoch": 0.077875,
      "grad_norm": 0.7739980220794678,
      "learning_rate": 0.0002959629594002085,
      "loss": 3.9148,
      "step": 37380
    },
    {
      "epoch": 0.07789583333333333,
      "grad_norm": 0.908785879611969,
      "learning_rate": 0.00029596068727386906,
      "loss": 3.8749,
      "step": 37390
    },
    {
      "epoch": 0.07791666666666666,
      "grad_norm": 0.8008125424385071,
      "learning_rate": 0.00029595841451703726,
      "loss": 3.8464,
      "step": 37400
    },
    {
      "epoch": 0.0779375,
      "grad_norm": 0.7783828973770142,
      "learning_rate": 0.00029595614112972276,
      "loss": 4.223,
      "step": 37410
    },
    {
      "epoch": 0.07795833333333334,
      "grad_norm": 0.758909285068512,
      "learning_rate": 0.00029595386711193564,
      "loss": 3.958,
      "step": 37420
    },
    {
      "epoch": 0.07797916666666667,
      "grad_norm": 0.9812204837799072,
      "learning_rate": 0.00029595159246368545,
      "loss": 4.0739,
      "step": 37430
    },
    {
      "epoch": 0.078,
      "grad_norm": 0.8455809950828552,
      "learning_rate": 0.00029594931718498227,
      "loss": 3.955,
      "step": 37440
    },
    {
      "epoch": 0.07802083333333333,
      "grad_norm": 0.8847913146018982,
      "learning_rate": 0.00029594704127583574,
      "loss": 4.0595,
      "step": 37450
    },
    {
      "epoch": 0.07804166666666666,
      "grad_norm": 0.7541486024856567,
      "learning_rate": 0.00029594476473625584,
      "loss": 4.1097,
      "step": 37460
    },
    {
      "epoch": 0.0780625,
      "grad_norm": 0.8574343919754028,
      "learning_rate": 0.0002959424875662523,
      "loss": 3.9557,
      "step": 37470
    },
    {
      "epoch": 0.07808333333333334,
      "grad_norm": 0.8774288296699524,
      "learning_rate": 0.0002959402097658349,
      "loss": 4.0834,
      "step": 37480
    },
    {
      "epoch": 0.07810416666666667,
      "grad_norm": 0.9778867959976196,
      "learning_rate": 0.00029593793133501364,
      "loss": 4.0005,
      "step": 37490
    },
    {
      "epoch": 0.078125,
      "grad_norm": 0.9871839284896851,
      "learning_rate": 0.0002959356522737982,
      "loss": 4.0814,
      "step": 37500
    },
    {
      "epoch": 0.07814583333333333,
      "grad_norm": 0.885253369808197,
      "learning_rate": 0.0002959333725821986,
      "loss": 4.059,
      "step": 37510
    },
    {
      "epoch": 0.07816666666666666,
      "grad_norm": 0.7796623706817627,
      "learning_rate": 0.00029593109226022456,
      "loss": 3.9882,
      "step": 37520
    },
    {
      "epoch": 0.0781875,
      "grad_norm": 0.781611979007721,
      "learning_rate": 0.000295928811307886,
      "loss": 3.8674,
      "step": 37530
    },
    {
      "epoch": 0.07820833333333334,
      "grad_norm": 0.7042635083198547,
      "learning_rate": 0.0002959265297251927,
      "loss": 4.0858,
      "step": 37540
    },
    {
      "epoch": 0.07822916666666667,
      "grad_norm": 0.7512226700782776,
      "learning_rate": 0.0002959242475121546,
      "loss": 4.0258,
      "step": 37550
    },
    {
      "epoch": 0.07825,
      "grad_norm": 0.7486161589622498,
      "learning_rate": 0.0002959219646687814,
      "loss": 4.0598,
      "step": 37560
    },
    {
      "epoch": 0.07827083333333333,
      "grad_norm": 0.8785876035690308,
      "learning_rate": 0.00029591968119508315,
      "loss": 4.1487,
      "step": 37570
    },
    {
      "epoch": 0.07829166666666666,
      "grad_norm": 0.8238632082939148,
      "learning_rate": 0.00029591739709106964,
      "loss": 3.982,
      "step": 37580
    },
    {
      "epoch": 0.0783125,
      "grad_norm": 0.772164523601532,
      "learning_rate": 0.00029591511235675075,
      "loss": 3.9607,
      "step": 37590
    },
    {
      "epoch": 0.07833333333333334,
      "grad_norm": 0.7794156670570374,
      "learning_rate": 0.0002959128269921363,
      "loss": 3.941,
      "step": 37600
    },
    {
      "epoch": 0.07835416666666667,
      "grad_norm": 0.7868004441261292,
      "learning_rate": 0.0002959105409972362,
      "loss": 4.031,
      "step": 37610
    },
    {
      "epoch": 0.078375,
      "grad_norm": 0.7520425319671631,
      "learning_rate": 0.0002959082543720603,
      "loss": 3.9003,
      "step": 37620
    },
    {
      "epoch": 0.07839583333333333,
      "grad_norm": 0.8113343119621277,
      "learning_rate": 0.0002959059671166185,
      "loss": 4.0041,
      "step": 37630
    },
    {
      "epoch": 0.07841666666666666,
      "grad_norm": 0.7939594984054565,
      "learning_rate": 0.00029590367923092067,
      "loss": 4.138,
      "step": 37640
    },
    {
      "epoch": 0.0784375,
      "grad_norm": 0.8828052878379822,
      "learning_rate": 0.00029590139071497676,
      "loss": 4.1531,
      "step": 37650
    },
    {
      "epoch": 0.07845833333333334,
      "grad_norm": 0.8034064769744873,
      "learning_rate": 0.0002958991015687965,
      "loss": 3.9517,
      "step": 37660
    },
    {
      "epoch": 0.07847916666666667,
      "grad_norm": 0.8105040192604065,
      "learning_rate": 0.00029589681179238996,
      "loss": 3.9339,
      "step": 37670
    },
    {
      "epoch": 0.0785,
      "grad_norm": 0.7540189623832703,
      "learning_rate": 0.00029589452138576686,
      "loss": 3.9986,
      "step": 37680
    },
    {
      "epoch": 0.07852083333333333,
      "grad_norm": 0.7663857936859131,
      "learning_rate": 0.0002958922303489372,
      "loss": 3.949,
      "step": 37690
    },
    {
      "epoch": 0.07854166666666666,
      "grad_norm": 0.869475781917572,
      "learning_rate": 0.0002958899386819109,
      "loss": 3.9517,
      "step": 37700
    },
    {
      "epoch": 0.0785625,
      "grad_norm": 0.7547687888145447,
      "learning_rate": 0.0002958876463846978,
      "loss": 3.9768,
      "step": 37710
    },
    {
      "epoch": 0.07858333333333334,
      "grad_norm": 0.8117455244064331,
      "learning_rate": 0.0002958853534573078,
      "loss": 4.0086,
      "step": 37720
    },
    {
      "epoch": 0.07860416666666667,
      "grad_norm": 0.8115429282188416,
      "learning_rate": 0.0002958830598997508,
      "loss": 4.1081,
      "step": 37730
    },
    {
      "epoch": 0.078625,
      "grad_norm": 0.773429811000824,
      "learning_rate": 0.0002958807657120368,
      "loss": 4.0609,
      "step": 37740
    },
    {
      "epoch": 0.07864583333333333,
      "grad_norm": 0.8656041622161865,
      "learning_rate": 0.00029587847089417556,
      "loss": 3.9974,
      "step": 37750
    },
    {
      "epoch": 0.07866666666666666,
      "grad_norm": 0.8010833263397217,
      "learning_rate": 0.0002958761754461771,
      "loss": 3.8826,
      "step": 37760
    },
    {
      "epoch": 0.0786875,
      "grad_norm": 0.6985688805580139,
      "learning_rate": 0.0002958738793680513,
      "loss": 3.9508,
      "step": 37770
    },
    {
      "epoch": 0.07870833333333334,
      "grad_norm": 1.1281057596206665,
      "learning_rate": 0.00029587158265980806,
      "loss": 4.0319,
      "step": 37780
    },
    {
      "epoch": 0.07872916666666667,
      "grad_norm": 0.8178333640098572,
      "learning_rate": 0.00029586928532145736,
      "loss": 4.079,
      "step": 37790
    },
    {
      "epoch": 0.07875,
      "grad_norm": 0.8388230800628662,
      "learning_rate": 0.000295866987353009,
      "loss": 3.822,
      "step": 37800
    },
    {
      "epoch": 0.07877083333333333,
      "grad_norm": 0.7320294976234436,
      "learning_rate": 0.0002958646887544731,
      "loss": 4.0358,
      "step": 37810
    },
    {
      "epoch": 0.07879166666666666,
      "grad_norm": 0.7816610932350159,
      "learning_rate": 0.0002958623895258594,
      "loss": 3.9942,
      "step": 37820
    },
    {
      "epoch": 0.0788125,
      "grad_norm": 0.8699864745140076,
      "learning_rate": 0.000295860089667178,
      "loss": 4.0238,
      "step": 37830
    },
    {
      "epoch": 0.07883333333333334,
      "grad_norm": 0.8653493523597717,
      "learning_rate": 0.0002958577891784387,
      "loss": 3.973,
      "step": 37840
    },
    {
      "epoch": 0.07885416666666667,
      "grad_norm": 0.7553151845932007,
      "learning_rate": 0.0002958554880596515,
      "loss": 3.966,
      "step": 37850
    },
    {
      "epoch": 0.078875,
      "grad_norm": 0.7623425126075745,
      "learning_rate": 0.0002958531863108263,
      "loss": 4.0373,
      "step": 37860
    },
    {
      "epoch": 0.07889583333333333,
      "grad_norm": 0.7176605463027954,
      "learning_rate": 0.00029585088393197304,
      "loss": 3.9565,
      "step": 37870
    },
    {
      "epoch": 0.07891666666666666,
      "grad_norm": 0.9141770005226135,
      "learning_rate": 0.00029584858092310175,
      "loss": 4.0154,
      "step": 37880
    },
    {
      "epoch": 0.0789375,
      "grad_norm": 0.7692462801933289,
      "learning_rate": 0.00029584627728422233,
      "loss": 4.1445,
      "step": 37890
    },
    {
      "epoch": 0.07895833333333334,
      "grad_norm": 0.9171366691589355,
      "learning_rate": 0.0002958439730153447,
      "loss": 4.0913,
      "step": 37900
    },
    {
      "epoch": 0.07897916666666667,
      "grad_norm": 0.7264308929443359,
      "learning_rate": 0.0002958416681164788,
      "loss": 4.0221,
      "step": 37910
    },
    {
      "epoch": 0.079,
      "grad_norm": 0.7637732028961182,
      "learning_rate": 0.00029583936258763467,
      "loss": 3.8922,
      "step": 37920
    },
    {
      "epoch": 0.07902083333333333,
      "grad_norm": 0.846948504447937,
      "learning_rate": 0.00029583705642882214,
      "loss": 3.9272,
      "step": 37930
    },
    {
      "epoch": 0.07904166666666666,
      "grad_norm": 0.8535504937171936,
      "learning_rate": 0.00029583474964005134,
      "loss": 4.1317,
      "step": 37940
    },
    {
      "epoch": 0.0790625,
      "grad_norm": 0.708281934261322,
      "learning_rate": 0.00029583244222133214,
      "loss": 3.9945,
      "step": 37950
    },
    {
      "epoch": 0.07908333333333334,
      "grad_norm": 0.8934239745140076,
      "learning_rate": 0.0002958301341726745,
      "loss": 3.9696,
      "step": 37960
    },
    {
      "epoch": 0.07910416666666667,
      "grad_norm": 0.7739936113357544,
      "learning_rate": 0.0002958278254940884,
      "loss": 3.7936,
      "step": 37970
    },
    {
      "epoch": 0.079125,
      "grad_norm": 0.8384619951248169,
      "learning_rate": 0.0002958255161855838,
      "loss": 3.8725,
      "step": 37980
    },
    {
      "epoch": 0.07914583333333333,
      "grad_norm": 0.7832215428352356,
      "learning_rate": 0.0002958232062471707,
      "loss": 4.0722,
      "step": 37990
    },
    {
      "epoch": 0.07916666666666666,
      "grad_norm": 0.8406527638435364,
      "learning_rate": 0.0002958208956788591,
      "loss": 3.9568,
      "step": 38000
    },
    {
      "epoch": 0.07916666666666666,
      "eval_loss": 4.3098602294921875,
      "eval_runtime": 10.5772,
      "eval_samples_per_second": 0.945,
      "eval_steps_per_second": 0.284,
      "step": 38000
    },
    {
      "epoch": 0.0791875,
      "grad_norm": 0.835521936416626,
      "learning_rate": 0.00029581858448065896,
      "loss": 4.1885,
      "step": 38010
    },
    {
      "epoch": 0.07920833333333334,
      "grad_norm": 0.8701942563056946,
      "learning_rate": 0.00029581627265258016,
      "loss": 4.272,
      "step": 38020
    },
    {
      "epoch": 0.07922916666666667,
      "grad_norm": 1.5983165502548218,
      "learning_rate": 0.00029581396019463286,
      "loss": 3.9923,
      "step": 38030
    },
    {
      "epoch": 0.07925,
      "grad_norm": 0.7321540117263794,
      "learning_rate": 0.000295811647106827,
      "loss": 3.8809,
      "step": 38040
    },
    {
      "epoch": 0.07927083333333333,
      "grad_norm": 0.8294848203659058,
      "learning_rate": 0.00029580933338917246,
      "loss": 3.9394,
      "step": 38050
    },
    {
      "epoch": 0.07929166666666666,
      "grad_norm": 0.7507039308547974,
      "learning_rate": 0.0002958070190416794,
      "loss": 4.112,
      "step": 38060
    },
    {
      "epoch": 0.0793125,
      "grad_norm": 0.764258086681366,
      "learning_rate": 0.00029580470406435764,
      "loss": 4.0496,
      "step": 38070
    },
    {
      "epoch": 0.07933333333333334,
      "grad_norm": 0.9215588569641113,
      "learning_rate": 0.0002958023884572173,
      "loss": 4.0618,
      "step": 38080
    },
    {
      "epoch": 0.07935416666666667,
      "grad_norm": 0.7847050428390503,
      "learning_rate": 0.00029580007222026843,
      "loss": 4.0495,
      "step": 38090
    },
    {
      "epoch": 0.079375,
      "grad_norm": 0.7890319228172302,
      "learning_rate": 0.0002957977553535209,
      "loss": 4.0172,
      "step": 38100
    },
    {
      "epoch": 0.07939583333333333,
      "grad_norm": 0.8720386028289795,
      "learning_rate": 0.00029579543785698473,
      "loss": 3.968,
      "step": 38110
    },
    {
      "epoch": 0.07941666666666666,
      "grad_norm": 0.7805672883987427,
      "learning_rate": 0.00029579311973067,
      "loss": 3.9467,
      "step": 38120
    },
    {
      "epoch": 0.0794375,
      "grad_norm": 0.7763761878013611,
      "learning_rate": 0.00029579080097458677,
      "loss": 3.9352,
      "step": 38130
    },
    {
      "epoch": 0.07945833333333334,
      "grad_norm": 0.8057962656021118,
      "learning_rate": 0.0002957884815887449,
      "loss": 4.0188,
      "step": 38140
    },
    {
      "epoch": 0.07947916666666667,
      "grad_norm": 0.8831015825271606,
      "learning_rate": 0.0002957861615731545,
      "loss": 3.8797,
      "step": 38150
    },
    {
      "epoch": 0.0795,
      "grad_norm": 0.8869669437408447,
      "learning_rate": 0.0002957838409278257,
      "loss": 4.1105,
      "step": 38160
    },
    {
      "epoch": 0.07952083333333333,
      "grad_norm": 0.7498947978019714,
      "learning_rate": 0.0002957815196527683,
      "loss": 3.8928,
      "step": 38170
    },
    {
      "epoch": 0.07954166666666666,
      "grad_norm": 0.7492097616195679,
      "learning_rate": 0.0002957791977479925,
      "loss": 4.1214,
      "step": 38180
    },
    {
      "epoch": 0.0795625,
      "grad_norm": 0.6641942262649536,
      "learning_rate": 0.00029577687521350826,
      "loss": 3.8433,
      "step": 38190
    },
    {
      "epoch": 0.07958333333333334,
      "grad_norm": 0.7778754234313965,
      "learning_rate": 0.0002957745520493256,
      "loss": 4.0498,
      "step": 38200
    },
    {
      "epoch": 0.07960416666666667,
      "grad_norm": 0.8144408464431763,
      "learning_rate": 0.0002957722282554546,
      "loss": 4.0489,
      "step": 38210
    },
    {
      "epoch": 0.079625,
      "grad_norm": 0.826065719127655,
      "learning_rate": 0.00029576990383190524,
      "loss": 4.1199,
      "step": 38220
    },
    {
      "epoch": 0.07964583333333333,
      "grad_norm": 0.8868575692176819,
      "learning_rate": 0.00029576757877868763,
      "loss": 4.007,
      "step": 38230
    },
    {
      "epoch": 0.07966666666666666,
      "grad_norm": 0.8908885717391968,
      "learning_rate": 0.0002957652530958118,
      "loss": 4.0049,
      "step": 38240
    },
    {
      "epoch": 0.0796875,
      "grad_norm": 1.2171024084091187,
      "learning_rate": 0.0002957629267832877,
      "loss": 4.1292,
      "step": 38250
    },
    {
      "epoch": 0.07970833333333334,
      "grad_norm": 0.752056360244751,
      "learning_rate": 0.0002957605998411255,
      "loss": 3.9834,
      "step": 38260
    },
    {
      "epoch": 0.07972916666666667,
      "grad_norm": 0.7996678352355957,
      "learning_rate": 0.0002957582722693352,
      "loss": 3.987,
      "step": 38270
    },
    {
      "epoch": 0.07975,
      "grad_norm": 0.760346531867981,
      "learning_rate": 0.00029575594406792684,
      "loss": 3.9882,
      "step": 38280
    },
    {
      "epoch": 0.07977083333333333,
      "grad_norm": 0.8054348230361938,
      "learning_rate": 0.0002957536152369105,
      "loss": 4.0532,
      "step": 38290
    },
    {
      "epoch": 0.07979166666666666,
      "grad_norm": 0.8142649531364441,
      "learning_rate": 0.00029575128577629626,
      "loss": 4.0326,
      "step": 38300
    },
    {
      "epoch": 0.0798125,
      "grad_norm": 0.7759074568748474,
      "learning_rate": 0.00029574895568609415,
      "loss": 4.1319,
      "step": 38310
    },
    {
      "epoch": 0.07983333333333334,
      "grad_norm": 0.7903830409049988,
      "learning_rate": 0.00029574662496631427,
      "loss": 3.9098,
      "step": 38320
    },
    {
      "epoch": 0.07985416666666667,
      "grad_norm": 0.8345667123794556,
      "learning_rate": 0.0002957442936169666,
      "loss": 3.9699,
      "step": 38330
    },
    {
      "epoch": 0.079875,
      "grad_norm": 0.7826368808746338,
      "learning_rate": 0.0002957419616380613,
      "loss": 4.0635,
      "step": 38340
    },
    {
      "epoch": 0.07989583333333333,
      "grad_norm": 0.780045747756958,
      "learning_rate": 0.00029573962902960845,
      "loss": 3.9639,
      "step": 38350
    },
    {
      "epoch": 0.07991666666666666,
      "grad_norm": 0.8617037534713745,
      "learning_rate": 0.000295737295791618,
      "loss": 4.042,
      "step": 38360
    },
    {
      "epoch": 0.0799375,
      "grad_norm": 0.7709670066833496,
      "learning_rate": 0.0002957349619241002,
      "loss": 3.9764,
      "step": 38370
    },
    {
      "epoch": 0.07995833333333334,
      "grad_norm": 0.7708585262298584,
      "learning_rate": 0.00029573262742706505,
      "loss": 4.0448,
      "step": 38380
    },
    {
      "epoch": 0.07997916666666667,
      "grad_norm": 0.7847542762756348,
      "learning_rate": 0.00029573029230052256,
      "loss": 4.0114,
      "step": 38390
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7399855852127075,
      "learning_rate": 0.00029572795654448297,
      "loss": 3.9459,
      "step": 38400
    },
    {
      "epoch": 0.08002083333333333,
      "grad_norm": 0.7248812913894653,
      "learning_rate": 0.00029572562015895624,
      "loss": 3.9244,
      "step": 38410
    },
    {
      "epoch": 0.08004166666666666,
      "grad_norm": 0.9456031322479248,
      "learning_rate": 0.0002957232831439525,
      "loss": 3.9386,
      "step": 38420
    },
    {
      "epoch": 0.0800625,
      "grad_norm": 0.8325448632240295,
      "learning_rate": 0.00029572094549948195,
      "loss": 4.2068,
      "step": 38430
    },
    {
      "epoch": 0.08008333333333334,
      "grad_norm": 0.8106370568275452,
      "learning_rate": 0.00029571860722555455,
      "loss": 4.0544,
      "step": 38440
    },
    {
      "epoch": 0.08010416666666667,
      "grad_norm": 0.815687894821167,
      "learning_rate": 0.0002957162683221804,
      "loss": 4.0184,
      "step": 38450
    },
    {
      "epoch": 0.080125,
      "grad_norm": 0.8154532313346863,
      "learning_rate": 0.0002957139287893697,
      "loss": 3.9144,
      "step": 38460
    },
    {
      "epoch": 0.08014583333333333,
      "grad_norm": 0.8380201458930969,
      "learning_rate": 0.0002957115886271325,
      "loss": 4.0877,
      "step": 38470
    },
    {
      "epoch": 0.08016666666666666,
      "grad_norm": 0.7439801096916199,
      "learning_rate": 0.0002957092478354789,
      "loss": 4.0516,
      "step": 38480
    },
    {
      "epoch": 0.0801875,
      "grad_norm": 0.8770380616188049,
      "learning_rate": 0.000295706906414419,
      "loss": 4.0147,
      "step": 38490
    },
    {
      "epoch": 0.08020833333333334,
      "grad_norm": 0.7167606353759766,
      "learning_rate": 0.000295704564363963,
      "loss": 3.9512,
      "step": 38500
    },
    {
      "epoch": 0.08022916666666667,
      "grad_norm": 0.8488460779190063,
      "learning_rate": 0.00029570222168412094,
      "loss": 4.0267,
      "step": 38510
    },
    {
      "epoch": 0.08025,
      "grad_norm": 0.7501782774925232,
      "learning_rate": 0.00029569987837490294,
      "loss": 4.1095,
      "step": 38520
    },
    {
      "epoch": 0.08027083333333333,
      "grad_norm": 0.8191635608673096,
      "learning_rate": 0.0002956975344363191,
      "loss": 3.8804,
      "step": 38530
    },
    {
      "epoch": 0.08029166666666666,
      "grad_norm": 1.1388297080993652,
      "learning_rate": 0.00029569518986837965,
      "loss": 4.2477,
      "step": 38540
    },
    {
      "epoch": 0.0803125,
      "grad_norm": 0.9039329886436462,
      "learning_rate": 0.0002956928446710946,
      "loss": 4.0366,
      "step": 38550
    },
    {
      "epoch": 0.08033333333333334,
      "grad_norm": 0.8913304805755615,
      "learning_rate": 0.0002956904988444741,
      "loss": 4.1228,
      "step": 38560
    },
    {
      "epoch": 0.08035416666666667,
      "grad_norm": 0.8467113375663757,
      "learning_rate": 0.0002956881523885284,
      "loss": 4.0357,
      "step": 38570
    },
    {
      "epoch": 0.080375,
      "grad_norm": 0.8059454560279846,
      "learning_rate": 0.0002956858053032675,
      "loss": 3.9712,
      "step": 38580
    },
    {
      "epoch": 0.08039583333333333,
      "grad_norm": 0.7427771091461182,
      "learning_rate": 0.0002956834575887016,
      "loss": 4.0785,
      "step": 38590
    },
    {
      "epoch": 0.08041666666666666,
      "grad_norm": 0.9557122588157654,
      "learning_rate": 0.0002956811092448408,
      "loss": 3.9419,
      "step": 38600
    },
    {
      "epoch": 0.0804375,
      "grad_norm": 0.7548374533653259,
      "learning_rate": 0.00029567876027169533,
      "loss": 4.0637,
      "step": 38610
    },
    {
      "epoch": 0.08045833333333334,
      "grad_norm": 0.8431499600410461,
      "learning_rate": 0.00029567641066927526,
      "loss": 3.9737,
      "step": 38620
    },
    {
      "epoch": 0.08047916666666667,
      "grad_norm": 0.8312988877296448,
      "learning_rate": 0.00029567406043759075,
      "loss": 3.9104,
      "step": 38630
    },
    {
      "epoch": 0.0805,
      "grad_norm": 0.754848301410675,
      "learning_rate": 0.00029567170957665195,
      "loss": 4.0635,
      "step": 38640
    },
    {
      "epoch": 0.08052083333333333,
      "grad_norm": 0.8082960844039917,
      "learning_rate": 0.00029566935808646904,
      "loss": 3.9813,
      "step": 38650
    },
    {
      "epoch": 0.08054166666666666,
      "grad_norm": 0.8546106815338135,
      "learning_rate": 0.00029566700596705216,
      "loss": 4.0363,
      "step": 38660
    },
    {
      "epoch": 0.0805625,
      "grad_norm": 0.8824333548545837,
      "learning_rate": 0.00029566465321841144,
      "loss": 3.7413,
      "step": 38670
    },
    {
      "epoch": 0.08058333333333334,
      "grad_norm": 0.8826181292533875,
      "learning_rate": 0.0002956622998405571,
      "loss": 4.0552,
      "step": 38680
    },
    {
      "epoch": 0.08060416666666667,
      "grad_norm": 0.7803552150726318,
      "learning_rate": 0.0002956599458334993,
      "loss": 3.884,
      "step": 38690
    },
    {
      "epoch": 0.080625,
      "grad_norm": 0.807855486869812,
      "learning_rate": 0.00029565759119724817,
      "loss": 3.9381,
      "step": 38700
    },
    {
      "epoch": 0.08064583333333333,
      "grad_norm": 0.7235782742500305,
      "learning_rate": 0.0002956552359318139,
      "loss": 4.0619,
      "step": 38710
    },
    {
      "epoch": 0.08066666666666666,
      "grad_norm": 0.7210096120834351,
      "learning_rate": 0.0002956528800372067,
      "loss": 3.9703,
      "step": 38720
    },
    {
      "epoch": 0.0806875,
      "grad_norm": 0.915455162525177,
      "learning_rate": 0.0002956505235134367,
      "loss": 4.0331,
      "step": 38730
    },
    {
      "epoch": 0.08070833333333334,
      "grad_norm": 0.7352243065834045,
      "learning_rate": 0.0002956481663605141,
      "loss": 4.0842,
      "step": 38740
    },
    {
      "epoch": 0.08072916666666667,
      "grad_norm": 0.7845919132232666,
      "learning_rate": 0.000295645808578449,
      "loss": 4.1241,
      "step": 38750
    },
    {
      "epoch": 0.08075,
      "grad_norm": 0.8045593500137329,
      "learning_rate": 0.00029564345016725173,
      "loss": 3.9679,
      "step": 38760
    },
    {
      "epoch": 0.08077083333333333,
      "grad_norm": 0.9383342862129211,
      "learning_rate": 0.00029564109112693236,
      "loss": 3.9011,
      "step": 38770
    },
    {
      "epoch": 0.08079166666666666,
      "grad_norm": 0.7674330472946167,
      "learning_rate": 0.00029563873145750115,
      "loss": 3.9333,
      "step": 38780
    },
    {
      "epoch": 0.0808125,
      "grad_norm": 0.801990270614624,
      "learning_rate": 0.00029563637115896825,
      "loss": 3.9456,
      "step": 38790
    },
    {
      "epoch": 0.08083333333333333,
      "grad_norm": 0.7783843278884888,
      "learning_rate": 0.0002956340102313439,
      "loss": 3.9849,
      "step": 38800
    },
    {
      "epoch": 0.08085416666666667,
      "grad_norm": 0.8149083256721497,
      "learning_rate": 0.0002956316486746383,
      "loss": 3.9153,
      "step": 38810
    },
    {
      "epoch": 0.080875,
      "grad_norm": 0.7793574333190918,
      "learning_rate": 0.00029562928648886155,
      "loss": 4.153,
      "step": 38820
    },
    {
      "epoch": 0.08089583333333333,
      "grad_norm": 0.8162181377410889,
      "learning_rate": 0.00029562692367402394,
      "loss": 3.9424,
      "step": 38830
    },
    {
      "epoch": 0.08091666666666666,
      "grad_norm": 0.9892764091491699,
      "learning_rate": 0.0002956245602301357,
      "loss": 4.082,
      "step": 38840
    },
    {
      "epoch": 0.0809375,
      "grad_norm": 0.8548150062561035,
      "learning_rate": 0.00029562219615720696,
      "loss": 3.852,
      "step": 38850
    },
    {
      "epoch": 0.08095833333333333,
      "grad_norm": 0.7403591871261597,
      "learning_rate": 0.000295619831455248,
      "loss": 4.0535,
      "step": 38860
    },
    {
      "epoch": 0.08097916666666667,
      "grad_norm": 0.8180938363075256,
      "learning_rate": 0.00029561746612426904,
      "loss": 4.1334,
      "step": 38870
    },
    {
      "epoch": 0.081,
      "grad_norm": 0.8348621129989624,
      "learning_rate": 0.00029561510016428024,
      "loss": 4.0137,
      "step": 38880
    },
    {
      "epoch": 0.08102083333333333,
      "grad_norm": 0.8257707357406616,
      "learning_rate": 0.0002956127335752918,
      "loss": 4.0189,
      "step": 38890
    },
    {
      "epoch": 0.08104166666666666,
      "grad_norm": 0.8818042278289795,
      "learning_rate": 0.00029561036635731403,
      "loss": 4.1722,
      "step": 38900
    },
    {
      "epoch": 0.0810625,
      "grad_norm": 0.7866851687431335,
      "learning_rate": 0.0002956079985103571,
      "loss": 4.0944,
      "step": 38910
    },
    {
      "epoch": 0.08108333333333333,
      "grad_norm": 0.8159758448600769,
      "learning_rate": 0.0002956056300344313,
      "loss": 4.1673,
      "step": 38920
    },
    {
      "epoch": 0.08110416666666667,
      "grad_norm": 0.7859052419662476,
      "learning_rate": 0.00029560326092954676,
      "loss": 3.8531,
      "step": 38930
    },
    {
      "epoch": 0.081125,
      "grad_norm": 0.7926644682884216,
      "learning_rate": 0.00029560089119571377,
      "loss": 4.0277,
      "step": 38940
    },
    {
      "epoch": 0.08114583333333333,
      "grad_norm": 0.849351704120636,
      "learning_rate": 0.00029559852083294264,
      "loss": 4.1047,
      "step": 38950
    },
    {
      "epoch": 0.08116666666666666,
      "grad_norm": 0.9178153276443481,
      "learning_rate": 0.00029559614984124344,
      "loss": 4.0932,
      "step": 38960
    },
    {
      "epoch": 0.0811875,
      "grad_norm": 0.7889618873596191,
      "learning_rate": 0.00029559377822062653,
      "loss": 4.0629,
      "step": 38970
    },
    {
      "epoch": 0.08120833333333333,
      "grad_norm": 0.7828762531280518,
      "learning_rate": 0.0002955914059711021,
      "loss": 3.9042,
      "step": 38980
    },
    {
      "epoch": 0.08122916666666667,
      "grad_norm": 0.7672367095947266,
      "learning_rate": 0.00029558903309268047,
      "loss": 4.0882,
      "step": 38990
    },
    {
      "epoch": 0.08125,
      "grad_norm": 0.8167468309402466,
      "learning_rate": 0.0002955866595853718,
      "loss": 3.8289,
      "step": 39000
    },
    {
      "epoch": 0.08125,
      "eval_loss": 4.291996955871582,
      "eval_runtime": 10.9907,
      "eval_samples_per_second": 0.91,
      "eval_steps_per_second": 0.273,
      "step": 39000
    },
    {
      "epoch": 0.08127083333333333,
      "grad_norm": 0.7726606726646423,
      "learning_rate": 0.0002955842854491864,
      "loss": 3.7998,
      "step": 39010
    },
    {
      "epoch": 0.08129166666666666,
      "grad_norm": 0.8469964265823364,
      "learning_rate": 0.00029558191068413455,
      "loss": 3.9465,
      "step": 39020
    },
    {
      "epoch": 0.0813125,
      "grad_norm": 0.895370364189148,
      "learning_rate": 0.00029557953529022645,
      "loss": 4.0793,
      "step": 39030
    },
    {
      "epoch": 0.08133333333333333,
      "grad_norm": 1.0283160209655762,
      "learning_rate": 0.00029557715926747236,
      "loss": 4.0181,
      "step": 39040
    },
    {
      "epoch": 0.08135416666666667,
      "grad_norm": 0.9524704217910767,
      "learning_rate": 0.00029557478261588264,
      "loss": 4.102,
      "step": 39050
    },
    {
      "epoch": 0.081375,
      "grad_norm": 0.7596519589424133,
      "learning_rate": 0.0002955724053354674,
      "loss": 3.889,
      "step": 39060
    },
    {
      "epoch": 0.08139583333333333,
      "grad_norm": 0.9691551923751831,
      "learning_rate": 0.00029557002742623705,
      "loss": 3.9839,
      "step": 39070
    },
    {
      "epoch": 0.08141666666666666,
      "grad_norm": 0.7861046195030212,
      "learning_rate": 0.00029556764888820174,
      "loss": 4.0419,
      "step": 39080
    },
    {
      "epoch": 0.0814375,
      "grad_norm": 0.7543548941612244,
      "learning_rate": 0.0002955652697213719,
      "loss": 4.0894,
      "step": 39090
    },
    {
      "epoch": 0.08145833333333333,
      "grad_norm": 0.756062388420105,
      "learning_rate": 0.0002955628899257576,
      "loss": 4.0713,
      "step": 39100
    },
    {
      "epoch": 0.08147916666666667,
      "grad_norm": 0.8209773302078247,
      "learning_rate": 0.0002955605095013693,
      "loss": 4.041,
      "step": 39110
    },
    {
      "epoch": 0.0815,
      "grad_norm": 0.7886714339256287,
      "learning_rate": 0.0002955581284482172,
      "loss": 3.8696,
      "step": 39120
    },
    {
      "epoch": 0.08152083333333333,
      "grad_norm": 1.0151418447494507,
      "learning_rate": 0.00029555574676631163,
      "loss": 4.0925,
      "step": 39130
    },
    {
      "epoch": 0.08154166666666667,
      "grad_norm": 0.8185462355613708,
      "learning_rate": 0.0002955533644556628,
      "loss": 4.0839,
      "step": 39140
    },
    {
      "epoch": 0.0815625,
      "grad_norm": 0.8452709913253784,
      "learning_rate": 0.00029555098151628107,
      "loss": 4.0803,
      "step": 39150
    },
    {
      "epoch": 0.08158333333333333,
      "grad_norm": 0.7674920558929443,
      "learning_rate": 0.00029554859794817673,
      "loss": 4.1111,
      "step": 39160
    },
    {
      "epoch": 0.08160416666666667,
      "grad_norm": 0.7823147773742676,
      "learning_rate": 0.00029554621375136003,
      "loss": 4.0107,
      "step": 39170
    },
    {
      "epoch": 0.081625,
      "grad_norm": 0.7618927955627441,
      "learning_rate": 0.0002955438289258413,
      "loss": 4.1289,
      "step": 39180
    },
    {
      "epoch": 0.08164583333333333,
      "grad_norm": 0.7578924298286438,
      "learning_rate": 0.0002955414434716309,
      "loss": 3.9363,
      "step": 39190
    },
    {
      "epoch": 0.08166666666666667,
      "grad_norm": 0.8352966904640198,
      "learning_rate": 0.000295539057388739,
      "loss": 3.9148,
      "step": 39200
    },
    {
      "epoch": 0.0816875,
      "grad_norm": 0.7858846783638,
      "learning_rate": 0.000295536670677176,
      "loss": 3.9217,
      "step": 39210
    },
    {
      "epoch": 0.08170833333333333,
      "grad_norm": 0.6847884058952332,
      "learning_rate": 0.0002955342833369522,
      "loss": 4.0134,
      "step": 39220
    },
    {
      "epoch": 0.08172916666666667,
      "grad_norm": 0.8603465557098389,
      "learning_rate": 0.0002955318953680779,
      "loss": 3.9807,
      "step": 39230
    },
    {
      "epoch": 0.08175,
      "grad_norm": 0.7598857879638672,
      "learning_rate": 0.0002955295067705634,
      "loss": 4.0214,
      "step": 39240
    },
    {
      "epoch": 0.08177083333333333,
      "grad_norm": 0.8915538787841797,
      "learning_rate": 0.00029552711754441904,
      "loss": 4.0623,
      "step": 39250
    },
    {
      "epoch": 0.08179166666666667,
      "grad_norm": 0.994425892829895,
      "learning_rate": 0.00029552472768965514,
      "loss": 4.096,
      "step": 39260
    },
    {
      "epoch": 0.0818125,
      "grad_norm": 0.8511155843734741,
      "learning_rate": 0.00029552233720628204,
      "loss": 4.0264,
      "step": 39270
    },
    {
      "epoch": 0.08183333333333333,
      "grad_norm": 0.803685188293457,
      "learning_rate": 0.00029551994609431005,
      "loss": 4.0392,
      "step": 39280
    },
    {
      "epoch": 0.08185416666666667,
      "grad_norm": 0.7087610363960266,
      "learning_rate": 0.00029551755435374945,
      "loss": 3.9866,
      "step": 39290
    },
    {
      "epoch": 0.081875,
      "grad_norm": 0.7413554191589355,
      "learning_rate": 0.0002955151619846106,
      "loss": 4.1119,
      "step": 39300
    },
    {
      "epoch": 0.08189583333333333,
      "grad_norm": 1.0579023361206055,
      "learning_rate": 0.00029551276898690394,
      "loss": 3.9476,
      "step": 39310
    },
    {
      "epoch": 0.08191666666666667,
      "grad_norm": 0.8936607837677002,
      "learning_rate": 0.0002955103753606396,
      "loss": 3.9985,
      "step": 39320
    },
    {
      "epoch": 0.0819375,
      "grad_norm": 0.7556195259094238,
      "learning_rate": 0.0002955079811058282,
      "loss": 4.0032,
      "step": 39330
    },
    {
      "epoch": 0.08195833333333333,
      "grad_norm": 0.8329411745071411,
      "learning_rate": 0.0002955055862224798,
      "loss": 3.9169,
      "step": 39340
    },
    {
      "epoch": 0.08197916666666667,
      "grad_norm": 0.8235631585121155,
      "learning_rate": 0.0002955031907106049,
      "loss": 4.0571,
      "step": 39350
    },
    {
      "epoch": 0.082,
      "grad_norm": 0.7948472499847412,
      "learning_rate": 0.00029550079457021374,
      "loss": 3.9939,
      "step": 39360
    },
    {
      "epoch": 0.08202083333333333,
      "grad_norm": 1.0078328847885132,
      "learning_rate": 0.0002954983978013168,
      "loss": 3.9105,
      "step": 39370
    },
    {
      "epoch": 0.08204166666666667,
      "grad_norm": 0.8439496755599976,
      "learning_rate": 0.00029549600040392436,
      "loss": 4.0252,
      "step": 39380
    },
    {
      "epoch": 0.0820625,
      "grad_norm": 0.9888390898704529,
      "learning_rate": 0.0002954936023780468,
      "loss": 4.0362,
      "step": 39390
    },
    {
      "epoch": 0.08208333333333333,
      "grad_norm": 0.9036434888839722,
      "learning_rate": 0.0002954912037236945,
      "loss": 3.9005,
      "step": 39400
    },
    {
      "epoch": 0.08210416666666667,
      "grad_norm": 0.7148544192314148,
      "learning_rate": 0.0002954888044408777,
      "loss": 4.0273,
      "step": 39410
    },
    {
      "epoch": 0.082125,
      "grad_norm": 0.8010039329528809,
      "learning_rate": 0.00029548640452960694,
      "loss": 4.1072,
      "step": 39420
    },
    {
      "epoch": 0.08214583333333333,
      "grad_norm": 0.7364577651023865,
      "learning_rate": 0.00029548400398989245,
      "loss": 3.8795,
      "step": 39430
    },
    {
      "epoch": 0.08216666666666667,
      "grad_norm": 0.9328866600990295,
      "learning_rate": 0.0002954816028217446,
      "loss": 4.035,
      "step": 39440
    },
    {
      "epoch": 0.0821875,
      "grad_norm": 0.8062793016433716,
      "learning_rate": 0.0002954792010251739,
      "loss": 4.0921,
      "step": 39450
    },
    {
      "epoch": 0.08220833333333333,
      "grad_norm": 0.7482831478118896,
      "learning_rate": 0.0002954767986001906,
      "loss": 3.9935,
      "step": 39460
    },
    {
      "epoch": 0.08222916666666667,
      "grad_norm": 0.7336897850036621,
      "learning_rate": 0.00029547439554680516,
      "loss": 4.0436,
      "step": 39470
    },
    {
      "epoch": 0.08225,
      "grad_norm": 0.83796226978302,
      "learning_rate": 0.00029547199186502783,
      "loss": 3.8492,
      "step": 39480
    },
    {
      "epoch": 0.08227083333333333,
      "grad_norm": 0.8167172074317932,
      "learning_rate": 0.00029546958755486915,
      "loss": 3.7169,
      "step": 39490
    },
    {
      "epoch": 0.08229166666666667,
      "grad_norm": 0.8210753202438354,
      "learning_rate": 0.0002954671826163394,
      "loss": 3.8259,
      "step": 39500
    },
    {
      "epoch": 0.0823125,
      "grad_norm": 0.8436444401741028,
      "learning_rate": 0.00029546477704944904,
      "loss": 4.1069,
      "step": 39510
    },
    {
      "epoch": 0.08233333333333333,
      "grad_norm": 0.7612024545669556,
      "learning_rate": 0.00029546237085420837,
      "loss": 4.0756,
      "step": 39520
    },
    {
      "epoch": 0.08235416666666667,
      "grad_norm": 0.8128028512001038,
      "learning_rate": 0.0002954599640306279,
      "loss": 4.0698,
      "step": 39530
    },
    {
      "epoch": 0.082375,
      "grad_norm": 0.881759762763977,
      "learning_rate": 0.0002954575565787179,
      "loss": 4.0234,
      "step": 39540
    },
    {
      "epoch": 0.08239583333333333,
      "grad_norm": 0.8712320327758789,
      "learning_rate": 0.00029545514849848887,
      "loss": 3.8762,
      "step": 39550
    },
    {
      "epoch": 0.08241666666666667,
      "grad_norm": 0.889971137046814,
      "learning_rate": 0.0002954527397899511,
      "loss": 3.9912,
      "step": 39560
    },
    {
      "epoch": 0.0824375,
      "grad_norm": 0.7280272841453552,
      "learning_rate": 0.0002954503304531152,
      "loss": 3.9493,
      "step": 39570
    },
    {
      "epoch": 0.08245833333333333,
      "grad_norm": 0.8367044925689697,
      "learning_rate": 0.00029544792048799134,
      "loss": 3.9507,
      "step": 39580
    },
    {
      "epoch": 0.08247916666666667,
      "grad_norm": 0.6600242853164673,
      "learning_rate": 0.00029544550989459007,
      "loss": 4.064,
      "step": 39590
    },
    {
      "epoch": 0.0825,
      "grad_norm": 0.9706956148147583,
      "learning_rate": 0.0002954430986729217,
      "loss": 4.1823,
      "step": 39600
    },
    {
      "epoch": 0.08252083333333333,
      "grad_norm": 0.761099636554718,
      "learning_rate": 0.0002954406868229968,
      "loss": 3.8986,
      "step": 39610
    },
    {
      "epoch": 0.08254166666666667,
      "grad_norm": 0.8011664152145386,
      "learning_rate": 0.00029543827434482575,
      "loss": 3.8295,
      "step": 39620
    },
    {
      "epoch": 0.0825625,
      "grad_norm": 0.760365903377533,
      "learning_rate": 0.00029543586123841883,
      "loss": 3.9803,
      "step": 39630
    },
    {
      "epoch": 0.08258333333333333,
      "grad_norm": 0.8626951575279236,
      "learning_rate": 0.0002954334475037866,
      "loss": 4.0497,
      "step": 39640
    },
    {
      "epoch": 0.08260416666666667,
      "grad_norm": 0.7348446249961853,
      "learning_rate": 0.0002954310331409394,
      "loss": 3.9666,
      "step": 39650
    },
    {
      "epoch": 0.082625,
      "grad_norm": 0.831517219543457,
      "learning_rate": 0.0002954286181498877,
      "loss": 3.8508,
      "step": 39660
    },
    {
      "epoch": 0.08264583333333334,
      "grad_norm": 0.7469507455825806,
      "learning_rate": 0.000295426202530642,
      "loss": 3.795,
      "step": 39670
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 0.7859343886375427,
      "learning_rate": 0.0002954237862832126,
      "loss": 4.1068,
      "step": 39680
    },
    {
      "epoch": 0.0826875,
      "grad_norm": 0.9549103379249573,
      "learning_rate": 0.00029542136940761005,
      "loss": 3.8812,
      "step": 39690
    },
    {
      "epoch": 0.08270833333333333,
      "grad_norm": 0.7817336916923523,
      "learning_rate": 0.00029541895190384474,
      "loss": 4.1709,
      "step": 39700
    },
    {
      "epoch": 0.08272916666666667,
      "grad_norm": 0.9150531888008118,
      "learning_rate": 0.00029541653377192705,
      "loss": 3.9782,
      "step": 39710
    },
    {
      "epoch": 0.08275,
      "grad_norm": 0.7823895215988159,
      "learning_rate": 0.0002954141150118676,
      "loss": 3.8857,
      "step": 39720
    },
    {
      "epoch": 0.08277083333333334,
      "grad_norm": 0.8031970858573914,
      "learning_rate": 0.0002954116956236767,
      "loss": 3.8429,
      "step": 39730
    },
    {
      "epoch": 0.08279166666666667,
      "grad_norm": 0.7317859530448914,
      "learning_rate": 0.0002954092756073648,
      "loss": 3.8955,
      "step": 39740
    },
    {
      "epoch": 0.0828125,
      "grad_norm": 0.8032432198524475,
      "learning_rate": 0.0002954068549629424,
      "loss": 4.0156,
      "step": 39750
    },
    {
      "epoch": 0.08283333333333333,
      "grad_norm": 0.7419918775558472,
      "learning_rate": 0.0002954044336904199,
      "loss": 3.9979,
      "step": 39760
    },
    {
      "epoch": 0.08285416666666667,
      "grad_norm": 0.8238973021507263,
      "learning_rate": 0.0002954020117898079,
      "loss": 4.0284,
      "step": 39770
    },
    {
      "epoch": 0.082875,
      "grad_norm": 0.8344582915306091,
      "learning_rate": 0.0002953995892611167,
      "loss": 3.8484,
      "step": 39780
    },
    {
      "epoch": 0.08289583333333334,
      "grad_norm": 0.7901859879493713,
      "learning_rate": 0.00029539716610435686,
      "loss": 4.1131,
      "step": 39790
    },
    {
      "epoch": 0.08291666666666667,
      "grad_norm": 1.2362107038497925,
      "learning_rate": 0.0002953947423195388,
      "loss": 4.1673,
      "step": 39800
    },
    {
      "epoch": 0.0829375,
      "grad_norm": 0.7733821272850037,
      "learning_rate": 0.000295392317906673,
      "loss": 4.0315,
      "step": 39810
    },
    {
      "epoch": 0.08295833333333333,
      "grad_norm": 0.7855840921401978,
      "learning_rate": 0.00029538989286576994,
      "loss": 3.9756,
      "step": 39820
    },
    {
      "epoch": 0.08297916666666667,
      "grad_norm": 0.7556350231170654,
      "learning_rate": 0.00029538746719684006,
      "loss": 4.0757,
      "step": 39830
    },
    {
      "epoch": 0.083,
      "grad_norm": 0.9166795015335083,
      "learning_rate": 0.00029538504089989394,
      "loss": 4.0735,
      "step": 39840
    },
    {
      "epoch": 0.08302083333333334,
      "grad_norm": 0.8495510220527649,
      "learning_rate": 0.0002953826139749419,
      "loss": 4.1541,
      "step": 39850
    },
    {
      "epoch": 0.08304166666666667,
      "grad_norm": 0.7850422263145447,
      "learning_rate": 0.0002953801864219946,
      "loss": 3.9307,
      "step": 39860
    },
    {
      "epoch": 0.0830625,
      "grad_norm": 0.8123365640640259,
      "learning_rate": 0.0002953777582410624,
      "loss": 4.0357,
      "step": 39870
    },
    {
      "epoch": 0.08308333333333333,
      "grad_norm": 0.6958758234977722,
      "learning_rate": 0.0002953753294321558,
      "loss": 3.9602,
      "step": 39880
    },
    {
      "epoch": 0.08310416666666667,
      "grad_norm": 0.790923535823822,
      "learning_rate": 0.00029537289999528535,
      "loss": 4.0868,
      "step": 39890
    },
    {
      "epoch": 0.083125,
      "grad_norm": 0.6986278295516968,
      "learning_rate": 0.00029537046993046155,
      "loss": 3.9742,
      "step": 39900
    },
    {
      "epoch": 0.08314583333333334,
      "grad_norm": 0.7254986763000488,
      "learning_rate": 0.0002953680392376948,
      "loss": 3.9892,
      "step": 39910
    },
    {
      "epoch": 0.08316666666666667,
      "grad_norm": 0.7798058986663818,
      "learning_rate": 0.0002953656079169957,
      "loss": 3.8949,
      "step": 39920
    },
    {
      "epoch": 0.0831875,
      "grad_norm": 0.7755566239356995,
      "learning_rate": 0.00029536317596837473,
      "loss": 4.2092,
      "step": 39930
    },
    {
      "epoch": 0.08320833333333333,
      "grad_norm": 0.8778617978096008,
      "learning_rate": 0.0002953607433918423,
      "loss": 3.8185,
      "step": 39940
    },
    {
      "epoch": 0.08322916666666667,
      "grad_norm": 0.7662438750267029,
      "learning_rate": 0.0002953583101874091,
      "loss": 4.0375,
      "step": 39950
    },
    {
      "epoch": 0.08325,
      "grad_norm": 0.753700852394104,
      "learning_rate": 0.00029535587635508547,
      "loss": 4.0199,
      "step": 39960
    },
    {
      "epoch": 0.08327083333333334,
      "grad_norm": 0.7535341382026672,
      "learning_rate": 0.000295353441894882,
      "loss": 3.8479,
      "step": 39970
    },
    {
      "epoch": 0.08329166666666667,
      "grad_norm": 0.8183071613311768,
      "learning_rate": 0.0002953510068068092,
      "loss": 3.9107,
      "step": 39980
    },
    {
      "epoch": 0.0833125,
      "grad_norm": 0.9599559903144836,
      "learning_rate": 0.00029534857109087757,
      "loss": 4.0527,
      "step": 39990
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 0.7752543091773987,
      "learning_rate": 0.0002953461347470977,
      "loss": 3.8529,
      "step": 40000
    },
    {
      "epoch": 0.08333333333333333,
      "eval_loss": 4.3160858154296875,
      "eval_runtime": 9.7171,
      "eval_samples_per_second": 1.029,
      "eval_steps_per_second": 0.309,
      "step": 40000
    },
    {
      "epoch": 0.08335416666666666,
      "grad_norm": 0.8810330033302307,
      "learning_rate": 0.00029534369777547997,
      "loss": 3.9633,
      "step": 40010
    },
    {
      "epoch": 0.083375,
      "grad_norm": 0.7451746463775635,
      "learning_rate": 0.0002953412601760351,
      "loss": 3.9719,
      "step": 40020
    },
    {
      "epoch": 0.08339583333333334,
      "grad_norm": 0.6635525822639465,
      "learning_rate": 0.00029533882194877345,
      "loss": 3.9893,
      "step": 40030
    },
    {
      "epoch": 0.08341666666666667,
      "grad_norm": 0.7034791707992554,
      "learning_rate": 0.0002953363830937056,
      "loss": 4.1368,
      "step": 40040
    },
    {
      "epoch": 0.0834375,
      "grad_norm": 0.8015502095222473,
      "learning_rate": 0.00029533394361084213,
      "loss": 4.0442,
      "step": 40050
    },
    {
      "epoch": 0.08345833333333333,
      "grad_norm": 0.9256530404090881,
      "learning_rate": 0.00029533150350019355,
      "loss": 3.9799,
      "step": 40060
    },
    {
      "epoch": 0.08347916666666666,
      "grad_norm": 0.7481572031974792,
      "learning_rate": 0.00029532906276177044,
      "loss": 3.7837,
      "step": 40070
    },
    {
      "epoch": 0.0835,
      "grad_norm": 0.8887359499931335,
      "learning_rate": 0.00029532662139558326,
      "loss": 4.0775,
      "step": 40080
    },
    {
      "epoch": 0.08352083333333334,
      "grad_norm": 0.7956116199493408,
      "learning_rate": 0.0002953241794016426,
      "loss": 4.0568,
      "step": 40090
    },
    {
      "epoch": 0.08354166666666667,
      "grad_norm": 0.8131878972053528,
      "learning_rate": 0.000295321736779959,
      "loss": 4.1487,
      "step": 40100
    },
    {
      "epoch": 0.0835625,
      "grad_norm": 0.8691834211349487,
      "learning_rate": 0.0002953192935305431,
      "loss": 4.1206,
      "step": 40110
    },
    {
      "epoch": 0.08358333333333333,
      "grad_norm": 0.8800872564315796,
      "learning_rate": 0.0002953168496534053,
      "loss": 3.9826,
      "step": 40120
    },
    {
      "epoch": 0.08360416666666666,
      "grad_norm": 0.8334797620773315,
      "learning_rate": 0.0002953144051485562,
      "loss": 3.9316,
      "step": 40130
    },
    {
      "epoch": 0.083625,
      "grad_norm": 0.7883142232894897,
      "learning_rate": 0.00029531196001600645,
      "loss": 4.0256,
      "step": 40140
    },
    {
      "epoch": 0.08364583333333334,
      "grad_norm": 0.7695050239562988,
      "learning_rate": 0.0002953095142557665,
      "loss": 4.1047,
      "step": 40150
    },
    {
      "epoch": 0.08366666666666667,
      "grad_norm": 0.7532522678375244,
      "learning_rate": 0.000295307067867847,
      "loss": 3.9578,
      "step": 40160
    },
    {
      "epoch": 0.0836875,
      "grad_norm": 0.8554174900054932,
      "learning_rate": 0.0002953046208522585,
      "loss": 4.0071,
      "step": 40170
    },
    {
      "epoch": 0.08370833333333333,
      "grad_norm": 1.0648465156555176,
      "learning_rate": 0.00029530217320901153,
      "loss": 3.8847,
      "step": 40180
    },
    {
      "epoch": 0.08372916666666666,
      "grad_norm": 0.9709292054176331,
      "learning_rate": 0.0002952997249381167,
      "loss": 3.94,
      "step": 40190
    },
    {
      "epoch": 0.08375,
      "grad_norm": 0.8761364221572876,
      "learning_rate": 0.00029529727603958456,
      "loss": 4.0095,
      "step": 40200
    },
    {
      "epoch": 0.08377083333333334,
      "grad_norm": 0.9817759394645691,
      "learning_rate": 0.00029529482651342566,
      "loss": 4.0573,
      "step": 40210
    },
    {
      "epoch": 0.08379166666666667,
      "grad_norm": 0.7559182643890381,
      "learning_rate": 0.0002952923763596507,
      "loss": 4.0911,
      "step": 40220
    },
    {
      "epoch": 0.0838125,
      "grad_norm": 0.7756284475326538,
      "learning_rate": 0.0002952899255782702,
      "loss": 4.0082,
      "step": 40230
    },
    {
      "epoch": 0.08383333333333333,
      "grad_norm": 0.6966274380683899,
      "learning_rate": 0.00029528747416929463,
      "loss": 3.974,
      "step": 40240
    },
    {
      "epoch": 0.08385416666666666,
      "grad_norm": 0.7456491589546204,
      "learning_rate": 0.0002952850221327347,
      "loss": 3.9915,
      "step": 40250
    },
    {
      "epoch": 0.083875,
      "grad_norm": 0.791057288646698,
      "learning_rate": 0.00029528256946860103,
      "loss": 4.0014,
      "step": 40260
    },
    {
      "epoch": 0.08389583333333334,
      "grad_norm": 0.781719982624054,
      "learning_rate": 0.0002952801161769042,
      "loss": 3.9367,
      "step": 40270
    },
    {
      "epoch": 0.08391666666666667,
      "grad_norm": 0.7719324231147766,
      "learning_rate": 0.00029527766225765473,
      "loss": 3.8893,
      "step": 40280
    },
    {
      "epoch": 0.0839375,
      "grad_norm": 0.8983016014099121,
      "learning_rate": 0.0002952752077108632,
      "loss": 3.9955,
      "step": 40290
    },
    {
      "epoch": 0.08395833333333333,
      "grad_norm": 0.8440729975700378,
      "learning_rate": 0.00029527275253654037,
      "loss": 4.2824,
      "step": 40300
    },
    {
      "epoch": 0.08397916666666666,
      "grad_norm": 0.8424513936042786,
      "learning_rate": 0.0002952702967346967,
      "loss": 4.0175,
      "step": 40310
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.7515408992767334,
      "learning_rate": 0.0002952678403053429,
      "loss": 4.0967,
      "step": 40320
    },
    {
      "epoch": 0.08402083333333334,
      "grad_norm": 0.7701563239097595,
      "learning_rate": 0.0002952653832484895,
      "loss": 3.9375,
      "step": 40330
    },
    {
      "epoch": 0.08404166666666667,
      "grad_norm": 0.8456514477729797,
      "learning_rate": 0.0002952629255641471,
      "loss": 3.9784,
      "step": 40340
    },
    {
      "epoch": 0.0840625,
      "grad_norm": 0.793245792388916,
      "learning_rate": 0.0002952604672523264,
      "loss": 4.1198,
      "step": 40350
    },
    {
      "epoch": 0.08408333333333333,
      "grad_norm": 1.0205844640731812,
      "learning_rate": 0.000295258008313038,
      "loss": 4.1096,
      "step": 40360
    },
    {
      "epoch": 0.08410416666666666,
      "grad_norm": 0.8541035056114197,
      "learning_rate": 0.00029525554874629246,
      "loss": 4.0664,
      "step": 40370
    },
    {
      "epoch": 0.084125,
      "grad_norm": 0.8074439764022827,
      "learning_rate": 0.0002952530885521005,
      "loss": 4.182,
      "step": 40380
    },
    {
      "epoch": 0.08414583333333334,
      "grad_norm": 0.9555111527442932,
      "learning_rate": 0.00029525062773047263,
      "loss": 4.023,
      "step": 40390
    },
    {
      "epoch": 0.08416666666666667,
      "grad_norm": 0.8645537495613098,
      "learning_rate": 0.0002952481662814196,
      "loss": 3.9448,
      "step": 40400
    },
    {
      "epoch": 0.0841875,
      "grad_norm": 0.8022111654281616,
      "learning_rate": 0.00029524570420495197,
      "loss": 3.911,
      "step": 40410
    },
    {
      "epoch": 0.08420833333333333,
      "grad_norm": 0.7943487167358398,
      "learning_rate": 0.0002952432415010804,
      "loss": 3.9569,
      "step": 40420
    },
    {
      "epoch": 0.08422916666666666,
      "grad_norm": 0.8422197699546814,
      "learning_rate": 0.0002952407781698155,
      "loss": 4.0461,
      "step": 40430
    },
    {
      "epoch": 0.08425,
      "grad_norm": 0.8669431209564209,
      "learning_rate": 0.0002952383142111679,
      "loss": 3.9131,
      "step": 40440
    },
    {
      "epoch": 0.08427083333333334,
      "grad_norm": 0.8977519869804382,
      "learning_rate": 0.0002952358496251483,
      "loss": 4.0619,
      "step": 40450
    },
    {
      "epoch": 0.08429166666666667,
      "grad_norm": 0.8267379999160767,
      "learning_rate": 0.0002952333844117673,
      "loss": 3.9954,
      "step": 40460
    },
    {
      "epoch": 0.0843125,
      "grad_norm": 0.7932602167129517,
      "learning_rate": 0.0002952309185710356,
      "loss": 4.0215,
      "step": 40470
    },
    {
      "epoch": 0.08433333333333333,
      "grad_norm": 0.8399981260299683,
      "learning_rate": 0.00029522845210296376,
      "loss": 4.0082,
      "step": 40480
    },
    {
      "epoch": 0.08435416666666666,
      "grad_norm": 0.7943058609962463,
      "learning_rate": 0.00029522598500756253,
      "loss": 3.866,
      "step": 40490
    },
    {
      "epoch": 0.084375,
      "grad_norm": 0.9743422865867615,
      "learning_rate": 0.00029522351728484257,
      "loss": 3.8203,
      "step": 40500
    },
    {
      "epoch": 0.08439583333333334,
      "grad_norm": 0.8505024313926697,
      "learning_rate": 0.00029522104893481445,
      "loss": 3.9142,
      "step": 40510
    },
    {
      "epoch": 0.08441666666666667,
      "grad_norm": 0.9081649780273438,
      "learning_rate": 0.0002952185799574889,
      "loss": 3.9716,
      "step": 40520
    },
    {
      "epoch": 0.0844375,
      "grad_norm": 0.808097779750824,
      "learning_rate": 0.0002952161103528765,
      "loss": 3.8261,
      "step": 40530
    },
    {
      "epoch": 0.08445833333333333,
      "grad_norm": 0.6919296383857727,
      "learning_rate": 0.00029521364012098807,
      "loss": 3.9582,
      "step": 40540
    },
    {
      "epoch": 0.08447916666666666,
      "grad_norm": 0.8484278917312622,
      "learning_rate": 0.0002952111692618342,
      "loss": 4.0673,
      "step": 40550
    },
    {
      "epoch": 0.0845,
      "grad_norm": 0.8064979910850525,
      "learning_rate": 0.0002952086977754255,
      "loss": 3.9402,
      "step": 40560
    },
    {
      "epoch": 0.08452083333333334,
      "grad_norm": 1.082135796546936,
      "learning_rate": 0.00029520622566177275,
      "loss": 4.0787,
      "step": 40570
    },
    {
      "epoch": 0.08454166666666667,
      "grad_norm": 0.7906471490859985,
      "learning_rate": 0.0002952037529208865,
      "loss": 3.9984,
      "step": 40580
    },
    {
      "epoch": 0.0845625,
      "grad_norm": 0.7863172888755798,
      "learning_rate": 0.0002952012795527776,
      "loss": 3.9827,
      "step": 40590
    },
    {
      "epoch": 0.08458333333333333,
      "grad_norm": 0.7485764026641846,
      "learning_rate": 0.0002951988055574566,
      "loss": 3.9518,
      "step": 40600
    },
    {
      "epoch": 0.08460416666666666,
      "grad_norm": 0.8609005212783813,
      "learning_rate": 0.00029519633093493425,
      "loss": 3.9788,
      "step": 40610
    },
    {
      "epoch": 0.084625,
      "grad_norm": 0.9358100295066833,
      "learning_rate": 0.00029519385568522126,
      "loss": 3.9793,
      "step": 40620
    },
    {
      "epoch": 0.08464583333333334,
      "grad_norm": 0.7219364047050476,
      "learning_rate": 0.0002951913798083282,
      "loss": 3.9604,
      "step": 40630
    },
    {
      "epoch": 0.08466666666666667,
      "grad_norm": 0.8729304075241089,
      "learning_rate": 0.00029518890330426596,
      "loss": 3.9641,
      "step": 40640
    },
    {
      "epoch": 0.0846875,
      "grad_norm": 0.7921643853187561,
      "learning_rate": 0.00029518642617304506,
      "loss": 3.9851,
      "step": 40650
    },
    {
      "epoch": 0.08470833333333333,
      "grad_norm": 0.7497682571411133,
      "learning_rate": 0.00029518394841467624,
      "loss": 3.9941,
      "step": 40660
    },
    {
      "epoch": 0.08472916666666666,
      "grad_norm": 0.7908227443695068,
      "learning_rate": 0.0002951814700291703,
      "loss": 4.023,
      "step": 40670
    },
    {
      "epoch": 0.08475,
      "grad_norm": 1.077592372894287,
      "learning_rate": 0.0002951789910165378,
      "loss": 4.0483,
      "step": 40680
    },
    {
      "epoch": 0.08477083333333334,
      "grad_norm": 0.774064838886261,
      "learning_rate": 0.00029517651137678957,
      "loss": 4.1095,
      "step": 40690
    },
    {
      "epoch": 0.08479166666666667,
      "grad_norm": 0.748116135597229,
      "learning_rate": 0.0002951740311099363,
      "loss": 4.0148,
      "step": 40700
    },
    {
      "epoch": 0.0848125,
      "grad_norm": 0.8239189982414246,
      "learning_rate": 0.00029517155021598865,
      "loss": 3.9531,
      "step": 40710
    },
    {
      "epoch": 0.08483333333333333,
      "grad_norm": 0.8814311623573303,
      "learning_rate": 0.00029516906869495735,
      "loss": 3.8923,
      "step": 40720
    },
    {
      "epoch": 0.08485416666666666,
      "grad_norm": 0.809891402721405,
      "learning_rate": 0.00029516658654685316,
      "loss": 3.9542,
      "step": 40730
    },
    {
      "epoch": 0.084875,
      "grad_norm": 0.7630031108856201,
      "learning_rate": 0.00029516410377168677,
      "loss": 4.0421,
      "step": 40740
    },
    {
      "epoch": 0.08489583333333334,
      "grad_norm": 0.7674872279167175,
      "learning_rate": 0.0002951616203694689,
      "loss": 4.186,
      "step": 40750
    },
    {
      "epoch": 0.08491666666666667,
      "grad_norm": 0.7502391934394836,
      "learning_rate": 0.0002951591363402103,
      "loss": 3.8337,
      "step": 40760
    },
    {
      "epoch": 0.0849375,
      "grad_norm": 0.8281055092811584,
      "learning_rate": 0.0002951566516839217,
      "loss": 4.0981,
      "step": 40770
    },
    {
      "epoch": 0.08495833333333333,
      "grad_norm": 0.855686604976654,
      "learning_rate": 0.00029515416640061383,
      "loss": 4.0845,
      "step": 40780
    },
    {
      "epoch": 0.08497916666666666,
      "grad_norm": 0.7378755807876587,
      "learning_rate": 0.00029515168049029736,
      "loss": 4.0948,
      "step": 40790
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.8163841366767883,
      "learning_rate": 0.00029514919395298315,
      "loss": 3.9258,
      "step": 40800
    },
    {
      "epoch": 0.08502083333333334,
      "grad_norm": 0.8995517492294312,
      "learning_rate": 0.00029514670678868187,
      "loss": 4.0832,
      "step": 40810
    },
    {
      "epoch": 0.08504166666666667,
      "grad_norm": 0.878119170665741,
      "learning_rate": 0.0002951442189974042,
      "loss": 3.8408,
      "step": 40820
    },
    {
      "epoch": 0.0850625,
      "grad_norm": 1.2731839418411255,
      "learning_rate": 0.00029514173057916104,
      "loss": 3.903,
      "step": 40830
    },
    {
      "epoch": 0.08508333333333333,
      "grad_norm": 1.034277319908142,
      "learning_rate": 0.000295139241533963,
      "loss": 3.9679,
      "step": 40840
    },
    {
      "epoch": 0.08510416666666666,
      "grad_norm": 0.830437421798706,
      "learning_rate": 0.00029513675186182095,
      "loss": 4.0398,
      "step": 40850
    },
    {
      "epoch": 0.085125,
      "grad_norm": 0.6920918822288513,
      "learning_rate": 0.0002951342615627455,
      "loss": 3.9986,
      "step": 40860
    },
    {
      "epoch": 0.08514583333333334,
      "grad_norm": 0.7269055247306824,
      "learning_rate": 0.0002951317706367475,
      "loss": 3.7516,
      "step": 40870
    },
    {
      "epoch": 0.08516666666666667,
      "grad_norm": 1.0029613971710205,
      "learning_rate": 0.00029512927908383773,
      "loss": 4.0711,
      "step": 40880
    },
    {
      "epoch": 0.0851875,
      "grad_norm": 0.9874579906463623,
      "learning_rate": 0.00029512678690402696,
      "loss": 4.0736,
      "step": 40890
    },
    {
      "epoch": 0.08520833333333333,
      "grad_norm": 0.935871422290802,
      "learning_rate": 0.0002951242940973258,
      "loss": 4.0241,
      "step": 40900
    },
    {
      "epoch": 0.08522916666666666,
      "grad_norm": 0.8807684183120728,
      "learning_rate": 0.00029512180066374523,
      "loss": 4.0884,
      "step": 40910
    },
    {
      "epoch": 0.08525,
      "grad_norm": 0.8946520686149597,
      "learning_rate": 0.0002951193066032959,
      "loss": 4.0403,
      "step": 40920
    },
    {
      "epoch": 0.08527083333333334,
      "grad_norm": 0.8201988935470581,
      "learning_rate": 0.00029511681191598865,
      "loss": 3.8645,
      "step": 40930
    },
    {
      "epoch": 0.08529166666666667,
      "grad_norm": 0.8593981862068176,
      "learning_rate": 0.0002951143166018342,
      "loss": 3.9542,
      "step": 40940
    },
    {
      "epoch": 0.0853125,
      "grad_norm": 0.8323739171028137,
      "learning_rate": 0.0002951118206608433,
      "loss": 4.1311,
      "step": 40950
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 1.0657445192337036,
      "learning_rate": 0.00029510932409302677,
      "loss": 3.9995,
      "step": 40960
    },
    {
      "epoch": 0.08535416666666666,
      "grad_norm": 0.8317513465881348,
      "learning_rate": 0.00029510682689839535,
      "loss": 4.0846,
      "step": 40970
    },
    {
      "epoch": 0.085375,
      "grad_norm": 0.7623651623725891,
      "learning_rate": 0.00029510432907696,
      "loss": 4.026,
      "step": 40980
    },
    {
      "epoch": 0.08539583333333334,
      "grad_norm": 0.8314976692199707,
      "learning_rate": 0.0002951018306287313,
      "loss": 4.0619,
      "step": 40990
    },
    {
      "epoch": 0.08541666666666667,
      "grad_norm": 0.7977052927017212,
      "learning_rate": 0.00029509933155372014,
      "loss": 3.8106,
      "step": 41000
    },
    {
      "epoch": 0.08541666666666667,
      "eval_loss": 4.3104071617126465,
      "eval_runtime": 9.1906,
      "eval_samples_per_second": 1.088,
      "eval_steps_per_second": 0.326,
      "step": 41000
    },
    {
      "epoch": 0.0854375,
      "grad_norm": 1.0024137496948242,
      "learning_rate": 0.00029509683185193733,
      "loss": 4.1206,
      "step": 41010
    },
    {
      "epoch": 0.08545833333333333,
      "grad_norm": 0.804386556148529,
      "learning_rate": 0.0002950943315233936,
      "loss": 3.9907,
      "step": 41020
    },
    {
      "epoch": 0.08547916666666666,
      "grad_norm": 0.87026447057724,
      "learning_rate": 0.0002950918305680998,
      "loss": 4.0517,
      "step": 41030
    },
    {
      "epoch": 0.0855,
      "grad_norm": 0.8320297598838806,
      "learning_rate": 0.00029508932898606675,
      "loss": 4.0589,
      "step": 41040
    },
    {
      "epoch": 0.08552083333333334,
      "grad_norm": 0.77891606092453,
      "learning_rate": 0.0002950868267773052,
      "loss": 4.1862,
      "step": 41050
    },
    {
      "epoch": 0.08554166666666667,
      "grad_norm": 0.7073086500167847,
      "learning_rate": 0.00029508432394182604,
      "loss": 4.2102,
      "step": 41060
    },
    {
      "epoch": 0.0855625,
      "grad_norm": 0.7883306741714478,
      "learning_rate": 0.00029508182047964,
      "loss": 4.0454,
      "step": 41070
    },
    {
      "epoch": 0.08558333333333333,
      "grad_norm": 0.7921274304389954,
      "learning_rate": 0.0002950793163907579,
      "loss": 3.9783,
      "step": 41080
    },
    {
      "epoch": 0.08560416666666666,
      "grad_norm": 0.7707151174545288,
      "learning_rate": 0.0002950768116751906,
      "loss": 3.9141,
      "step": 41090
    },
    {
      "epoch": 0.085625,
      "grad_norm": 0.7047751545906067,
      "learning_rate": 0.0002950743063329489,
      "loss": 4.0247,
      "step": 41100
    },
    {
      "epoch": 0.08564583333333334,
      "grad_norm": 0.8615541458129883,
      "learning_rate": 0.00029507180036404364,
      "loss": 3.9876,
      "step": 41110
    },
    {
      "epoch": 0.08566666666666667,
      "grad_norm": 0.799470067024231,
      "learning_rate": 0.0002950692937684856,
      "loss": 4.0256,
      "step": 41120
    },
    {
      "epoch": 0.0856875,
      "grad_norm": 0.8191009759902954,
      "learning_rate": 0.0002950667865462856,
      "loss": 3.9168,
      "step": 41130
    },
    {
      "epoch": 0.08570833333333333,
      "grad_norm": 0.7492142915725708,
      "learning_rate": 0.00029506427869745454,
      "loss": 4.0545,
      "step": 41140
    },
    {
      "epoch": 0.08572916666666666,
      "grad_norm": 0.8375064134597778,
      "learning_rate": 0.00029506177022200326,
      "loss": 3.8802,
      "step": 41150
    },
    {
      "epoch": 0.08575,
      "grad_norm": 0.8648855090141296,
      "learning_rate": 0.0002950592611199424,
      "loss": 4.0726,
      "step": 41160
    },
    {
      "epoch": 0.08577083333333334,
      "grad_norm": 0.7259910106658936,
      "learning_rate": 0.0002950567513912831,
      "loss": 4.066,
      "step": 41170
    },
    {
      "epoch": 0.08579166666666667,
      "grad_norm": 0.8060943484306335,
      "learning_rate": 0.000295054241036036,
      "loss": 4.0666,
      "step": 41180
    },
    {
      "epoch": 0.0858125,
      "grad_norm": 0.7671103477478027,
      "learning_rate": 0.000295051730054212,
      "loss": 3.9625,
      "step": 41190
    },
    {
      "epoch": 0.08583333333333333,
      "grad_norm": 0.841223955154419,
      "learning_rate": 0.00029504921844582195,
      "loss": 4.0131,
      "step": 41200
    },
    {
      "epoch": 0.08585416666666666,
      "grad_norm": 0.7629988789558411,
      "learning_rate": 0.0002950467062108767,
      "loss": 4.0356,
      "step": 41210
    },
    {
      "epoch": 0.085875,
      "grad_norm": 0.7619121074676514,
      "learning_rate": 0.0002950441933493871,
      "loss": 3.8937,
      "step": 41220
    },
    {
      "epoch": 0.08589583333333334,
      "grad_norm": 0.8851059079170227,
      "learning_rate": 0.000295041679861364,
      "loss": 3.804,
      "step": 41230
    },
    {
      "epoch": 0.08591666666666667,
      "grad_norm": 0.7782284617424011,
      "learning_rate": 0.00029503916574681816,
      "loss": 3.9107,
      "step": 41240
    },
    {
      "epoch": 0.0859375,
      "grad_norm": 0.8175980448722839,
      "learning_rate": 0.0002950366510057607,
      "loss": 4.1916,
      "step": 41250
    },
    {
      "epoch": 0.08595833333333333,
      "grad_norm": 0.7695065140724182,
      "learning_rate": 0.0002950341356382022,
      "loss": 4.1557,
      "step": 41260
    },
    {
      "epoch": 0.08597916666666666,
      "grad_norm": 0.7636656165122986,
      "learning_rate": 0.00029503161964415366,
      "loss": 3.7724,
      "step": 41270
    },
    {
      "epoch": 0.086,
      "grad_norm": 0.7548907995223999,
      "learning_rate": 0.00029502910302362586,
      "loss": 4.2182,
      "step": 41280
    },
    {
      "epoch": 0.08602083333333334,
      "grad_norm": 1.0109362602233887,
      "learning_rate": 0.0002950265857766299,
      "loss": 3.9992,
      "step": 41290
    },
    {
      "epoch": 0.08604166666666667,
      "grad_norm": 0.8251057863235474,
      "learning_rate": 0.00029502406790317637,
      "loss": 3.8969,
      "step": 41300
    },
    {
      "epoch": 0.0860625,
      "grad_norm": 0.8136770129203796,
      "learning_rate": 0.0002950215494032763,
      "loss": 3.885,
      "step": 41310
    },
    {
      "epoch": 0.08608333333333333,
      "grad_norm": 0.7827541828155518,
      "learning_rate": 0.00029501903027694056,
      "loss": 4.1324,
      "step": 41320
    },
    {
      "epoch": 0.08610416666666666,
      "grad_norm": 0.9810552597045898,
      "learning_rate": 0.00029501651052418,
      "loss": 4.1593,
      "step": 41330
    },
    {
      "epoch": 0.086125,
      "grad_norm": 0.7190760970115662,
      "learning_rate": 0.00029501399014500554,
      "loss": 4.0375,
      "step": 41340
    },
    {
      "epoch": 0.08614583333333334,
      "grad_norm": 0.8209031820297241,
      "learning_rate": 0.000295011469139428,
      "loss": 4.1421,
      "step": 41350
    },
    {
      "epoch": 0.08616666666666667,
      "grad_norm": 0.7525475025177002,
      "learning_rate": 0.0002950089475074583,
      "loss": 3.9547,
      "step": 41360
    },
    {
      "epoch": 0.0861875,
      "grad_norm": 0.7952344417572021,
      "learning_rate": 0.0002950064252491074,
      "loss": 3.9079,
      "step": 41370
    },
    {
      "epoch": 0.08620833333333333,
      "grad_norm": 0.9942291378974915,
      "learning_rate": 0.0002950039023643862,
      "loss": 3.957,
      "step": 41380
    },
    {
      "epoch": 0.08622916666666666,
      "grad_norm": 0.7972968220710754,
      "learning_rate": 0.00029500137885330537,
      "loss": 3.9557,
      "step": 41390
    },
    {
      "epoch": 0.08625,
      "grad_norm": 0.9264628887176514,
      "learning_rate": 0.00029499885471587613,
      "loss": 3.8431,
      "step": 41400
    },
    {
      "epoch": 0.08627083333333334,
      "grad_norm": 0.8071819543838501,
      "learning_rate": 0.00029499632995210915,
      "loss": 3.9863,
      "step": 41410
    },
    {
      "epoch": 0.08629166666666667,
      "grad_norm": 0.7748240828514099,
      "learning_rate": 0.00029499380456201544,
      "loss": 4.0571,
      "step": 41420
    },
    {
      "epoch": 0.0863125,
      "grad_norm": 0.9464485049247742,
      "learning_rate": 0.0002949912785456059,
      "loss": 4.0748,
      "step": 41430
    },
    {
      "epoch": 0.08633333333333333,
      "grad_norm": 0.8939986228942871,
      "learning_rate": 0.0002949887519028914,
      "loss": 4.0442,
      "step": 41440
    },
    {
      "epoch": 0.08635416666666666,
      "grad_norm": 0.8501853346824646,
      "learning_rate": 0.0002949862246338829,
      "loss": 4.1724,
      "step": 41450
    },
    {
      "epoch": 0.086375,
      "grad_norm": 0.8819860219955444,
      "learning_rate": 0.0002949836967385913,
      "loss": 3.9074,
      "step": 41460
    },
    {
      "epoch": 0.08639583333333334,
      "grad_norm": 0.8306633830070496,
      "learning_rate": 0.00029498116821702753,
      "loss": 4.1966,
      "step": 41470
    },
    {
      "epoch": 0.08641666666666667,
      "grad_norm": 0.83210289478302,
      "learning_rate": 0.00029497863906920244,
      "loss": 3.9871,
      "step": 41480
    },
    {
      "epoch": 0.0864375,
      "grad_norm": 0.7752358913421631,
      "learning_rate": 0.0002949761092951271,
      "loss": 3.937,
      "step": 41490
    },
    {
      "epoch": 0.08645833333333333,
      "grad_norm": 0.7553769946098328,
      "learning_rate": 0.0002949735788948123,
      "loss": 4.0719,
      "step": 41500
    },
    {
      "epoch": 0.08647916666666666,
      "grad_norm": 0.9787576794624329,
      "learning_rate": 0.000294971047868269,
      "loss": 3.9406,
      "step": 41510
    },
    {
      "epoch": 0.0865,
      "grad_norm": 0.8051668405532837,
      "learning_rate": 0.0002949685162155082,
      "loss": 3.9068,
      "step": 41520
    },
    {
      "epoch": 0.08652083333333334,
      "grad_norm": 0.8855612277984619,
      "learning_rate": 0.0002949659839365408,
      "loss": 4.0666,
      "step": 41530
    },
    {
      "epoch": 0.08654166666666667,
      "grad_norm": 0.7393046617507935,
      "learning_rate": 0.00029496345103137775,
      "loss": 3.8983,
      "step": 41540
    },
    {
      "epoch": 0.0865625,
      "grad_norm": 0.7981412410736084,
      "learning_rate": 0.0002949609175000299,
      "loss": 3.951,
      "step": 41550
    },
    {
      "epoch": 0.08658333333333333,
      "grad_norm": 0.8218230605125427,
      "learning_rate": 0.0002949583833425083,
      "loss": 4.0063,
      "step": 41560
    },
    {
      "epoch": 0.08660416666666666,
      "grad_norm": 0.9690958857536316,
      "learning_rate": 0.0002949558485588239,
      "loss": 4.0212,
      "step": 41570
    },
    {
      "epoch": 0.086625,
      "grad_norm": 0.7868458032608032,
      "learning_rate": 0.00029495331314898757,
      "loss": 4.0097,
      "step": 41580
    },
    {
      "epoch": 0.08664583333333334,
      "grad_norm": 0.7454489469528198,
      "learning_rate": 0.0002949507771130103,
      "loss": 4.1879,
      "step": 41590
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 0.744897186756134,
      "learning_rate": 0.00029494824045090307,
      "loss": 4.0635,
      "step": 41600
    },
    {
      "epoch": 0.0866875,
      "grad_norm": 0.91488116979599,
      "learning_rate": 0.0002949457031626768,
      "loss": 3.9935,
      "step": 41610
    },
    {
      "epoch": 0.08670833333333333,
      "grad_norm": 0.7015627026557922,
      "learning_rate": 0.0002949431652483425,
      "loss": 4.1563,
      "step": 41620
    },
    {
      "epoch": 0.08672916666666666,
      "grad_norm": 0.8471096754074097,
      "learning_rate": 0.0002949406267079111,
      "loss": 3.9515,
      "step": 41630
    },
    {
      "epoch": 0.08675,
      "grad_norm": 0.9333097338676453,
      "learning_rate": 0.00029493808754139353,
      "loss": 3.961,
      "step": 41640
    },
    {
      "epoch": 0.08677083333333334,
      "grad_norm": 0.6925346255302429,
      "learning_rate": 0.00029493554774880077,
      "loss": 4.0183,
      "step": 41650
    },
    {
      "epoch": 0.08679166666666667,
      "grad_norm": 0.8468007445335388,
      "learning_rate": 0.00029493300733014386,
      "loss": 3.9,
      "step": 41660
    },
    {
      "epoch": 0.0868125,
      "grad_norm": 0.6942992210388184,
      "learning_rate": 0.00029493046628543366,
      "loss": 3.9264,
      "step": 41670
    },
    {
      "epoch": 0.08683333333333333,
      "grad_norm": 0.8026946187019348,
      "learning_rate": 0.00029492792461468126,
      "loss": 4.0087,
      "step": 41680
    },
    {
      "epoch": 0.08685416666666666,
      "grad_norm": 0.7880997061729431,
      "learning_rate": 0.00029492538231789764,
      "loss": 4.0191,
      "step": 41690
    },
    {
      "epoch": 0.086875,
      "grad_norm": 0.667799711227417,
      "learning_rate": 0.00029492283939509367,
      "loss": 3.8421,
      "step": 41700
    },
    {
      "epoch": 0.08689583333333334,
      "grad_norm": 0.7299315333366394,
      "learning_rate": 0.0002949202958462804,
      "loss": 3.9682,
      "step": 41710
    },
    {
      "epoch": 0.08691666666666667,
      "grad_norm": 0.7824422717094421,
      "learning_rate": 0.00029491775167146884,
      "loss": 4.2277,
      "step": 41720
    },
    {
      "epoch": 0.0869375,
      "grad_norm": 0.8981888890266418,
      "learning_rate": 0.00029491520687067,
      "loss": 3.9808,
      "step": 41730
    },
    {
      "epoch": 0.08695833333333333,
      "grad_norm": 0.9400178790092468,
      "learning_rate": 0.00029491266144389476,
      "loss": 4.1659,
      "step": 41740
    },
    {
      "epoch": 0.08697916666666666,
      "grad_norm": 0.7555736899375916,
      "learning_rate": 0.00029491011539115416,
      "loss": 3.9537,
      "step": 41750
    },
    {
      "epoch": 0.087,
      "grad_norm": 1.0127240419387817,
      "learning_rate": 0.00029490756871245925,
      "loss": 4.1171,
      "step": 41760
    },
    {
      "epoch": 0.08702083333333334,
      "grad_norm": 0.8870262503623962,
      "learning_rate": 0.00029490502140782103,
      "loss": 3.8499,
      "step": 41770
    },
    {
      "epoch": 0.08704166666666667,
      "grad_norm": 0.8875594139099121,
      "learning_rate": 0.00029490247347725045,
      "loss": 4.0795,
      "step": 41780
    },
    {
      "epoch": 0.0870625,
      "grad_norm": 0.8134050965309143,
      "learning_rate": 0.0002948999249207585,
      "loss": 3.8866,
      "step": 41790
    },
    {
      "epoch": 0.08708333333333333,
      "grad_norm": 0.7487722635269165,
      "learning_rate": 0.00029489737573835636,
      "loss": 4.0487,
      "step": 41800
    },
    {
      "epoch": 0.08710416666666666,
      "grad_norm": 0.8432722687721252,
      "learning_rate": 0.0002948948259300548,
      "loss": 3.8691,
      "step": 41810
    },
    {
      "epoch": 0.087125,
      "grad_norm": 0.7739296555519104,
      "learning_rate": 0.00029489227549586494,
      "loss": 4.0131,
      "step": 41820
    },
    {
      "epoch": 0.08714583333333334,
      "grad_norm": 0.7204379439353943,
      "learning_rate": 0.00029488972443579786,
      "loss": 4.0794,
      "step": 41830
    },
    {
      "epoch": 0.08716666666666667,
      "grad_norm": 1.6656044721603394,
      "learning_rate": 0.0002948871727498645,
      "loss": 3.9797,
      "step": 41840
    },
    {
      "epoch": 0.0871875,
      "grad_norm": 0.8357318639755249,
      "learning_rate": 0.0002948846204380759,
      "loss": 3.867,
      "step": 41850
    },
    {
      "epoch": 0.08720833333333333,
      "grad_norm": 0.7823435664176941,
      "learning_rate": 0.00029488206750044306,
      "loss": 4.1889,
      "step": 41860
    },
    {
      "epoch": 0.08722916666666666,
      "grad_norm": 1.0176388025283813,
      "learning_rate": 0.00029487951393697713,
      "loss": 4.0583,
      "step": 41870
    },
    {
      "epoch": 0.08725,
      "grad_norm": 0.833292543888092,
      "learning_rate": 0.00029487695974768894,
      "loss": 4.1123,
      "step": 41880
    },
    {
      "epoch": 0.08727083333333334,
      "grad_norm": 0.8002665042877197,
      "learning_rate": 0.00029487440493258967,
      "loss": 4.0134,
      "step": 41890
    },
    {
      "epoch": 0.08729166666666667,
      "grad_norm": 0.8142883777618408,
      "learning_rate": 0.00029487184949169036,
      "loss": 3.9468,
      "step": 41900
    },
    {
      "epoch": 0.0873125,
      "grad_norm": 0.6887205243110657,
      "learning_rate": 0.0002948692934250019,
      "loss": 3.9504,
      "step": 41910
    },
    {
      "epoch": 0.08733333333333333,
      "grad_norm": 0.79004967212677,
      "learning_rate": 0.0002948667367325355,
      "loss": 3.9669,
      "step": 41920
    },
    {
      "epoch": 0.08735416666666666,
      "grad_norm": 0.8711952567100525,
      "learning_rate": 0.0002948641794143022,
      "loss": 4.0087,
      "step": 41930
    },
    {
      "epoch": 0.087375,
      "grad_norm": 0.9570350050926208,
      "learning_rate": 0.00029486162147031287,
      "loss": 4.1573,
      "step": 41940
    },
    {
      "epoch": 0.08739583333333334,
      "grad_norm": 0.7846853137016296,
      "learning_rate": 0.00029485906290057875,
      "loss": 3.9937,
      "step": 41950
    },
    {
      "epoch": 0.08741666666666667,
      "grad_norm": 0.8267229199409485,
      "learning_rate": 0.0002948565037051108,
      "loss": 3.9589,
      "step": 41960
    },
    {
      "epoch": 0.0874375,
      "grad_norm": 0.8485077023506165,
      "learning_rate": 0.0002948539438839201,
      "loss": 3.9785,
      "step": 41970
    },
    {
      "epoch": 0.08745833333333333,
      "grad_norm": 0.8363606333732605,
      "learning_rate": 0.0002948513834370177,
      "loss": 4.0692,
      "step": 41980
    },
    {
      "epoch": 0.08747916666666666,
      "grad_norm": 0.8509315848350525,
      "learning_rate": 0.00029484882236441464,
      "loss": 4.0852,
      "step": 41990
    },
    {
      "epoch": 0.0875,
      "grad_norm": 0.8326745629310608,
      "learning_rate": 0.000294846260666122,
      "loss": 3.969,
      "step": 42000
    },
    {
      "epoch": 0.0875,
      "eval_loss": 4.3201904296875,
      "eval_runtime": 11.1793,
      "eval_samples_per_second": 0.895,
      "eval_steps_per_second": 0.268,
      "step": 42000
    },
    {
      "epoch": 0.08752083333333334,
      "grad_norm": 0.8001047968864441,
      "learning_rate": 0.00029484369834215085,
      "loss": 4.0541,
      "step": 42010
    },
    {
      "epoch": 0.08754166666666667,
      "grad_norm": 0.7435680627822876,
      "learning_rate": 0.0002948411353925123,
      "loss": 4.0293,
      "step": 42020
    },
    {
      "epoch": 0.0875625,
      "grad_norm": 1.0736318826675415,
      "learning_rate": 0.0002948385718172173,
      "loss": 4.1049,
      "step": 42030
    },
    {
      "epoch": 0.08758333333333333,
      "grad_norm": 0.8425572514533997,
      "learning_rate": 0.00029483600761627706,
      "loss": 4.2352,
      "step": 42040
    },
    {
      "epoch": 0.08760416666666666,
      "grad_norm": 0.8880539536476135,
      "learning_rate": 0.0002948334427897026,
      "loss": 3.9055,
      "step": 42050
    },
    {
      "epoch": 0.087625,
      "grad_norm": 0.9886736869812012,
      "learning_rate": 0.00029483087733750494,
      "loss": 3.8333,
      "step": 42060
    },
    {
      "epoch": 0.08764583333333334,
      "grad_norm": 0.7548125982284546,
      "learning_rate": 0.0002948283112596953,
      "loss": 4.0807,
      "step": 42070
    },
    {
      "epoch": 0.08766666666666667,
      "grad_norm": 0.8209026455879211,
      "learning_rate": 0.0002948257445562846,
      "loss": 3.8522,
      "step": 42080
    },
    {
      "epoch": 0.0876875,
      "grad_norm": 0.8678532838821411,
      "learning_rate": 0.00029482317722728406,
      "loss": 3.8797,
      "step": 42090
    },
    {
      "epoch": 0.08770833333333333,
      "grad_norm": 0.825298547744751,
      "learning_rate": 0.0002948206092727047,
      "loss": 3.9976,
      "step": 42100
    },
    {
      "epoch": 0.08772916666666666,
      "grad_norm": 0.7295336723327637,
      "learning_rate": 0.00029481804069255764,
      "loss": 4.1985,
      "step": 42110
    },
    {
      "epoch": 0.08775,
      "grad_norm": 0.8599714040756226,
      "learning_rate": 0.000294815471486854,
      "loss": 4.2141,
      "step": 42120
    },
    {
      "epoch": 0.08777083333333334,
      "grad_norm": 0.7893913984298706,
      "learning_rate": 0.00029481290165560476,
      "loss": 4.1094,
      "step": 42130
    },
    {
      "epoch": 0.08779166666666667,
      "grad_norm": 0.8628185391426086,
      "learning_rate": 0.0002948103311988212,
      "loss": 4.068,
      "step": 42140
    },
    {
      "epoch": 0.0878125,
      "grad_norm": 0.8842236399650574,
      "learning_rate": 0.00029480776011651423,
      "loss": 4.0787,
      "step": 42150
    },
    {
      "epoch": 0.08783333333333333,
      "grad_norm": 0.9375674724578857,
      "learning_rate": 0.00029480518840869515,
      "loss": 4.1803,
      "step": 42160
    },
    {
      "epoch": 0.08785416666666666,
      "grad_norm": 0.8143283724784851,
      "learning_rate": 0.00029480261607537495,
      "loss": 4.0892,
      "step": 42170
    },
    {
      "epoch": 0.087875,
      "grad_norm": 0.7836846113204956,
      "learning_rate": 0.00029480004311656474,
      "loss": 4.1025,
      "step": 42180
    },
    {
      "epoch": 0.08789583333333334,
      "grad_norm": 0.7979072332382202,
      "learning_rate": 0.00029479746953227565,
      "loss": 4.0188,
      "step": 42190
    },
    {
      "epoch": 0.08791666666666667,
      "grad_norm": 0.6883796453475952,
      "learning_rate": 0.00029479489532251884,
      "loss": 4.0588,
      "step": 42200
    },
    {
      "epoch": 0.0879375,
      "grad_norm": 0.8415140509605408,
      "learning_rate": 0.0002947923204873054,
      "loss": 3.9833,
      "step": 42210
    },
    {
      "epoch": 0.08795833333333333,
      "grad_norm": 0.8844811916351318,
      "learning_rate": 0.0002947897450266464,
      "loss": 4.0496,
      "step": 42220
    },
    {
      "epoch": 0.08797916666666666,
      "grad_norm": 0.7492492198944092,
      "learning_rate": 0.00029478716894055303,
      "loss": 3.9183,
      "step": 42230
    },
    {
      "epoch": 0.088,
      "grad_norm": 0.7968578934669495,
      "learning_rate": 0.00029478459222903646,
      "loss": 3.9996,
      "step": 42240
    },
    {
      "epoch": 0.08802083333333334,
      "grad_norm": 0.7849067449569702,
      "learning_rate": 0.0002947820148921077,
      "loss": 4.0639,
      "step": 42250
    },
    {
      "epoch": 0.08804166666666667,
      "grad_norm": 0.7851508855819702,
      "learning_rate": 0.00029477943692977795,
      "loss": 4.1146,
      "step": 42260
    },
    {
      "epoch": 0.0880625,
      "grad_norm": 0.6927087903022766,
      "learning_rate": 0.00029477685834205836,
      "loss": 4.0646,
      "step": 42270
    },
    {
      "epoch": 0.08808333333333333,
      "grad_norm": 0.7478302717208862,
      "learning_rate": 0.00029477427912896,
      "loss": 3.7984,
      "step": 42280
    },
    {
      "epoch": 0.08810416666666666,
      "grad_norm": 0.841584324836731,
      "learning_rate": 0.00029477169929049415,
      "loss": 4.0292,
      "step": 42290
    },
    {
      "epoch": 0.088125,
      "grad_norm": 0.9672145843505859,
      "learning_rate": 0.00029476911882667177,
      "loss": 3.9544,
      "step": 42300
    },
    {
      "epoch": 0.08814583333333334,
      "grad_norm": 0.8598831295967102,
      "learning_rate": 0.00029476653773750417,
      "loss": 4.062,
      "step": 42310
    },
    {
      "epoch": 0.08816666666666667,
      "grad_norm": 0.7894582748413086,
      "learning_rate": 0.0002947639560230024,
      "loss": 4.2106,
      "step": 42320
    },
    {
      "epoch": 0.0881875,
      "grad_norm": 0.8132268190383911,
      "learning_rate": 0.0002947613736831776,
      "loss": 4.1068,
      "step": 42330
    },
    {
      "epoch": 0.08820833333333333,
      "grad_norm": 0.8068294525146484,
      "learning_rate": 0.00029475879071804106,
      "loss": 4.0633,
      "step": 42340
    },
    {
      "epoch": 0.08822916666666666,
      "grad_norm": 0.890400767326355,
      "learning_rate": 0.0002947562071276038,
      "loss": 4.1362,
      "step": 42350
    },
    {
      "epoch": 0.08825,
      "grad_norm": 0.9333928823471069,
      "learning_rate": 0.000294753622911877,
      "loss": 3.8704,
      "step": 42360
    },
    {
      "epoch": 0.08827083333333334,
      "grad_norm": 0.9823259115219116,
      "learning_rate": 0.00029475103807087186,
      "loss": 4.1766,
      "step": 42370
    },
    {
      "epoch": 0.08829166666666667,
      "grad_norm": 0.7210860848426819,
      "learning_rate": 0.00029474845260459953,
      "loss": 4.057,
      "step": 42380
    },
    {
      "epoch": 0.0883125,
      "grad_norm": 0.9392378330230713,
      "learning_rate": 0.0002947458665130712,
      "loss": 4.0108,
      "step": 42390
    },
    {
      "epoch": 0.08833333333333333,
      "grad_norm": 0.7329999804496765,
      "learning_rate": 0.000294743279796298,
      "loss": 3.9424,
      "step": 42400
    },
    {
      "epoch": 0.08835416666666666,
      "grad_norm": 0.7590989470481873,
      "learning_rate": 0.0002947406924542911,
      "loss": 4.0665,
      "step": 42410
    },
    {
      "epoch": 0.088375,
      "grad_norm": 0.7778558731079102,
      "learning_rate": 0.00029473810448706175,
      "loss": 4.0113,
      "step": 42420
    },
    {
      "epoch": 0.08839583333333334,
      "grad_norm": 0.7191833257675171,
      "learning_rate": 0.0002947355158946211,
      "loss": 3.9296,
      "step": 42430
    },
    {
      "epoch": 0.08841666666666667,
      "grad_norm": 0.8321976661682129,
      "learning_rate": 0.00029473292667698024,
      "loss": 3.8711,
      "step": 42440
    },
    {
      "epoch": 0.0884375,
      "grad_norm": 0.8250235319137573,
      "learning_rate": 0.00029473033683415046,
      "loss": 4.0509,
      "step": 42450
    },
    {
      "epoch": 0.08845833333333333,
      "grad_norm": 0.731683611869812,
      "learning_rate": 0.00029472774636614293,
      "loss": 4.1734,
      "step": 42460
    },
    {
      "epoch": 0.08847916666666666,
      "grad_norm": 0.7778027057647705,
      "learning_rate": 0.0002947251552729688,
      "loss": 3.9395,
      "step": 42470
    },
    {
      "epoch": 0.0885,
      "grad_norm": 0.9636765718460083,
      "learning_rate": 0.00029472256355463934,
      "loss": 3.9252,
      "step": 42480
    },
    {
      "epoch": 0.08852083333333334,
      "grad_norm": 0.762139618396759,
      "learning_rate": 0.0002947199712111656,
      "loss": 4.1019,
      "step": 42490
    },
    {
      "epoch": 0.08854166666666667,
      "grad_norm": 0.7652614116668701,
      "learning_rate": 0.0002947173782425589,
      "loss": 4.1016,
      "step": 42500
    },
    {
      "epoch": 0.0885625,
      "grad_norm": 0.7420979738235474,
      "learning_rate": 0.0002947147846488304,
      "loss": 4.0403,
      "step": 42510
    },
    {
      "epoch": 0.08858333333333333,
      "grad_norm": 0.8781409859657288,
      "learning_rate": 0.00029471219042999136,
      "loss": 4.0363,
      "step": 42520
    },
    {
      "epoch": 0.08860416666666666,
      "grad_norm": 0.768880307674408,
      "learning_rate": 0.0002947095955860529,
      "loss": 4.1245,
      "step": 42530
    },
    {
      "epoch": 0.088625,
      "grad_norm": 0.8779938220977783,
      "learning_rate": 0.0002947070001170263,
      "loss": 3.9514,
      "step": 42540
    },
    {
      "epoch": 0.08864583333333333,
      "grad_norm": 0.8695088624954224,
      "learning_rate": 0.0002947044040229227,
      "loss": 3.9135,
      "step": 42550
    },
    {
      "epoch": 0.08866666666666667,
      "grad_norm": 0.7756330966949463,
      "learning_rate": 0.0002947018073037534,
      "loss": 3.8999,
      "step": 42560
    },
    {
      "epoch": 0.0886875,
      "grad_norm": 0.7573769688606262,
      "learning_rate": 0.0002946992099595295,
      "loss": 3.9569,
      "step": 42570
    },
    {
      "epoch": 0.08870833333333333,
      "grad_norm": 0.8245770931243896,
      "learning_rate": 0.00029469661199026234,
      "loss": 4.1479,
      "step": 42580
    },
    {
      "epoch": 0.08872916666666666,
      "grad_norm": 0.7074221968650818,
      "learning_rate": 0.00029469401339596307,
      "loss": 3.8665,
      "step": 42590
    },
    {
      "epoch": 0.08875,
      "grad_norm": 0.9191860556602478,
      "learning_rate": 0.00029469141417664293,
      "loss": 4.078,
      "step": 42600
    },
    {
      "epoch": 0.08877083333333333,
      "grad_norm": 0.8054348826408386,
      "learning_rate": 0.0002946888143323132,
      "loss": 3.859,
      "step": 42610
    },
    {
      "epoch": 0.08879166666666667,
      "grad_norm": 0.8052231669425964,
      "learning_rate": 0.00029468621386298505,
      "loss": 3.8963,
      "step": 42620
    },
    {
      "epoch": 0.0888125,
      "grad_norm": 0.6955286860466003,
      "learning_rate": 0.0002946836127686697,
      "loss": 3.9914,
      "step": 42630
    },
    {
      "epoch": 0.08883333333333333,
      "grad_norm": 0.7722811698913574,
      "learning_rate": 0.0002946810110493784,
      "loss": 3.9208,
      "step": 42640
    },
    {
      "epoch": 0.08885416666666666,
      "grad_norm": 0.8139607906341553,
      "learning_rate": 0.0002946784087051224,
      "loss": 4.097,
      "step": 42650
    },
    {
      "epoch": 0.088875,
      "grad_norm": 0.7836417555809021,
      "learning_rate": 0.000294675805735913,
      "loss": 3.9195,
      "step": 42660
    },
    {
      "epoch": 0.08889583333333333,
      "grad_norm": 0.9406384229660034,
      "learning_rate": 0.00029467320214176135,
      "loss": 3.9594,
      "step": 42670
    },
    {
      "epoch": 0.08891666666666667,
      "grad_norm": 0.7045599222183228,
      "learning_rate": 0.00029467059792267873,
      "loss": 3.8917,
      "step": 42680
    },
    {
      "epoch": 0.0889375,
      "grad_norm": 0.7611586451530457,
      "learning_rate": 0.0002946679930786764,
      "loss": 4.0687,
      "step": 42690
    },
    {
      "epoch": 0.08895833333333333,
      "grad_norm": 0.7552801966667175,
      "learning_rate": 0.0002946653876097656,
      "loss": 3.8939,
      "step": 42700
    },
    {
      "epoch": 0.08897916666666666,
      "grad_norm": 0.8357509970664978,
      "learning_rate": 0.0002946627815159576,
      "loss": 3.9682,
      "step": 42710
    },
    {
      "epoch": 0.089,
      "grad_norm": 0.8289886713027954,
      "learning_rate": 0.0002946601747972636,
      "loss": 3.9234,
      "step": 42720
    },
    {
      "epoch": 0.08902083333333333,
      "grad_norm": 0.9537912607192993,
      "learning_rate": 0.00029465756745369496,
      "loss": 4.0941,
      "step": 42730
    },
    {
      "epoch": 0.08904166666666667,
      "grad_norm": 0.7569817304611206,
      "learning_rate": 0.0002946549594852628,
      "loss": 3.7998,
      "step": 42740
    },
    {
      "epoch": 0.0890625,
      "grad_norm": 0.8027034401893616,
      "learning_rate": 0.00029465235089197857,
      "loss": 3.8901,
      "step": 42750
    },
    {
      "epoch": 0.08908333333333333,
      "grad_norm": 0.8456350564956665,
      "learning_rate": 0.0002946497416738534,
      "loss": 4.0097,
      "step": 42760
    },
    {
      "epoch": 0.08910416666666666,
      "grad_norm": 0.7440257668495178,
      "learning_rate": 0.00029464713183089867,
      "loss": 4.0463,
      "step": 42770
    },
    {
      "epoch": 0.089125,
      "grad_norm": 0.7810341715812683,
      "learning_rate": 0.0002946445213631255,
      "loss": 3.9267,
      "step": 42780
    },
    {
      "epoch": 0.08914583333333333,
      "grad_norm": 0.8820784091949463,
      "learning_rate": 0.0002946419102705453,
      "loss": 3.9428,
      "step": 42790
    },
    {
      "epoch": 0.08916666666666667,
      "grad_norm": 0.8829526305198669,
      "learning_rate": 0.0002946392985531693,
      "loss": 4.1117,
      "step": 42800
    },
    {
      "epoch": 0.0891875,
      "grad_norm": 0.8675321936607361,
      "learning_rate": 0.0002946366862110087,
      "loss": 3.9114,
      "step": 42810
    },
    {
      "epoch": 0.08920833333333333,
      "grad_norm": 0.7255529761314392,
      "learning_rate": 0.0002946340732440749,
      "loss": 3.8804,
      "step": 42820
    },
    {
      "epoch": 0.08922916666666666,
      "grad_norm": 0.86192387342453,
      "learning_rate": 0.0002946314596523792,
      "loss": 4.0199,
      "step": 42830
    },
    {
      "epoch": 0.08925,
      "grad_norm": 0.8590792417526245,
      "learning_rate": 0.00029462884543593286,
      "loss": 3.9187,
      "step": 42840
    },
    {
      "epoch": 0.08927083333333333,
      "grad_norm": 0.7454255223274231,
      "learning_rate": 0.0002946262305947471,
      "loss": 3.8774,
      "step": 42850
    },
    {
      "epoch": 0.08929166666666667,
      "grad_norm": 0.8704246878623962,
      "learning_rate": 0.00029462361512883333,
      "loss": 3.9811,
      "step": 42860
    },
    {
      "epoch": 0.0893125,
      "grad_norm": 0.9386780261993408,
      "learning_rate": 0.00029462099903820275,
      "loss": 4.0645,
      "step": 42870
    },
    {
      "epoch": 0.08933333333333333,
      "grad_norm": 0.9384982585906982,
      "learning_rate": 0.0002946183823228667,
      "loss": 4.0321,
      "step": 42880
    },
    {
      "epoch": 0.08935416666666667,
      "grad_norm": 0.9046117067337036,
      "learning_rate": 0.0002946157649828365,
      "loss": 4.1029,
      "step": 42890
    },
    {
      "epoch": 0.089375,
      "grad_norm": 0.77730393409729,
      "learning_rate": 0.0002946131470181234,
      "loss": 4.0287,
      "step": 42900
    },
    {
      "epoch": 0.08939583333333333,
      "grad_norm": 0.8170323371887207,
      "learning_rate": 0.00029461052842873875,
      "loss": 3.8487,
      "step": 42910
    },
    {
      "epoch": 0.08941666666666667,
      "grad_norm": 0.9389057159423828,
      "learning_rate": 0.0002946079092146939,
      "loss": 4.0167,
      "step": 42920
    },
    {
      "epoch": 0.0894375,
      "grad_norm": 1.011751413345337,
      "learning_rate": 0.0002946052893760001,
      "loss": 4.0095,
      "step": 42930
    },
    {
      "epoch": 0.08945833333333333,
      "grad_norm": 0.7465471625328064,
      "learning_rate": 0.0002946026689126687,
      "loss": 3.9126,
      "step": 42940
    },
    {
      "epoch": 0.08947916666666667,
      "grad_norm": 0.8126702308654785,
      "learning_rate": 0.00029460004782471094,
      "loss": 4.1007,
      "step": 42950
    },
    {
      "epoch": 0.0895,
      "grad_norm": 0.7804241180419922,
      "learning_rate": 0.0002945974261121383,
      "loss": 4.1154,
      "step": 42960
    },
    {
      "epoch": 0.08952083333333333,
      "grad_norm": 0.7789965867996216,
      "learning_rate": 0.00029459480377496197,
      "loss": 4.0101,
      "step": 42970
    },
    {
      "epoch": 0.08954166666666667,
      "grad_norm": 0.7300752401351929,
      "learning_rate": 0.00029459218081319334,
      "loss": 4.0277,
      "step": 42980
    },
    {
      "epoch": 0.0895625,
      "grad_norm": 0.7931423187255859,
      "learning_rate": 0.0002945895572268437,
      "loss": 4.0004,
      "step": 42990
    },
    {
      "epoch": 0.08958333333333333,
      "grad_norm": 0.8203656673431396,
      "learning_rate": 0.00029458693301592445,
      "loss": 3.9867,
      "step": 43000
    },
    {
      "epoch": 0.08958333333333333,
      "eval_loss": 4.30694580078125,
      "eval_runtime": 9.2713,
      "eval_samples_per_second": 1.079,
      "eval_steps_per_second": 0.324,
      "step": 43000
    },
    {
      "epoch": 0.08960416666666667,
      "grad_norm": 0.8444095253944397,
      "learning_rate": 0.00029458430818044684,
      "loss": 4.1082,
      "step": 43010
    },
    {
      "epoch": 0.089625,
      "grad_norm": 0.7924345135688782,
      "learning_rate": 0.0002945816827204222,
      "loss": 4.0802,
      "step": 43020
    },
    {
      "epoch": 0.08964583333333333,
      "grad_norm": 0.8866179585456848,
      "learning_rate": 0.000294579056635862,
      "loss": 3.7033,
      "step": 43030
    },
    {
      "epoch": 0.08966666666666667,
      "grad_norm": 0.6647859215736389,
      "learning_rate": 0.0002945764299267775,
      "loss": 3.9889,
      "step": 43040
    },
    {
      "epoch": 0.0896875,
      "grad_norm": 0.9313936829566956,
      "learning_rate": 0.00029457380259318,
      "loss": 4.2468,
      "step": 43050
    },
    {
      "epoch": 0.08970833333333333,
      "grad_norm": 0.8196076154708862,
      "learning_rate": 0.00029457117463508096,
      "loss": 3.8843,
      "step": 43060
    },
    {
      "epoch": 0.08972916666666667,
      "grad_norm": 0.8146063089370728,
      "learning_rate": 0.0002945685460524916,
      "loss": 3.9114,
      "step": 43070
    },
    {
      "epoch": 0.08975,
      "grad_norm": 0.8637206554412842,
      "learning_rate": 0.00029456591684542347,
      "loss": 3.8681,
      "step": 43080
    },
    {
      "epoch": 0.08977083333333333,
      "grad_norm": 0.7244358062744141,
      "learning_rate": 0.0002945632870138877,
      "loss": 3.9057,
      "step": 43090
    },
    {
      "epoch": 0.08979166666666667,
      "grad_norm": 0.7465149760246277,
      "learning_rate": 0.0002945606565578958,
      "loss": 4.0943,
      "step": 43100
    },
    {
      "epoch": 0.0898125,
      "grad_norm": 0.8507609367370605,
      "learning_rate": 0.00029455802547745906,
      "loss": 3.9996,
      "step": 43110
    },
    {
      "epoch": 0.08983333333333333,
      "grad_norm": 0.8512088060379028,
      "learning_rate": 0.00029455539377258886,
      "loss": 3.9068,
      "step": 43120
    },
    {
      "epoch": 0.08985416666666667,
      "grad_norm": 0.9440413117408752,
      "learning_rate": 0.00029455276144329655,
      "loss": 4.1447,
      "step": 43130
    },
    {
      "epoch": 0.089875,
      "grad_norm": 0.7424771189689636,
      "learning_rate": 0.0002945501284895936,
      "loss": 4.0837,
      "step": 43140
    },
    {
      "epoch": 0.08989583333333333,
      "grad_norm": 0.8660104870796204,
      "learning_rate": 0.0002945474949114913,
      "loss": 4.1466,
      "step": 43150
    },
    {
      "epoch": 0.08991666666666667,
      "grad_norm": 0.946259081363678,
      "learning_rate": 0.000294544860709001,
      "loss": 4.1048,
      "step": 43160
    },
    {
      "epoch": 0.0899375,
      "grad_norm": 0.8100252747535706,
      "learning_rate": 0.00029454222588213414,
      "loss": 3.934,
      "step": 43170
    },
    {
      "epoch": 0.08995833333333333,
      "grad_norm": 0.8373037576675415,
      "learning_rate": 0.00029453959043090205,
      "loss": 4.03,
      "step": 43180
    },
    {
      "epoch": 0.08997916666666667,
      "grad_norm": 0.7830778956413269,
      "learning_rate": 0.00029453695435531616,
      "loss": 3.8243,
      "step": 43190
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7190396189689636,
      "learning_rate": 0.00029453431765538783,
      "loss": 4.0928,
      "step": 43200
    },
    {
      "epoch": 0.09002083333333333,
      "grad_norm": 0.7575730085372925,
      "learning_rate": 0.00029453168033112846,
      "loss": 3.9815,
      "step": 43210
    },
    {
      "epoch": 0.09004166666666667,
      "grad_norm": 0.8525782227516174,
      "learning_rate": 0.0002945290423825494,
      "loss": 4.0159,
      "step": 43220
    },
    {
      "epoch": 0.0900625,
      "grad_norm": 0.7220017313957214,
      "learning_rate": 0.0002945264038096622,
      "loss": 3.9679,
      "step": 43230
    },
    {
      "epoch": 0.09008333333333333,
      "grad_norm": 0.8263263702392578,
      "learning_rate": 0.0002945237646124781,
      "loss": 4.069,
      "step": 43240
    },
    {
      "epoch": 0.09010416666666667,
      "grad_norm": 0.8334963321685791,
      "learning_rate": 0.00029452112479100854,
      "loss": 4.0371,
      "step": 43250
    },
    {
      "epoch": 0.090125,
      "grad_norm": 0.7859172821044922,
      "learning_rate": 0.00029451848434526486,
      "loss": 4.1109,
      "step": 43260
    },
    {
      "epoch": 0.09014583333333333,
      "grad_norm": 0.7925332188606262,
      "learning_rate": 0.00029451584327525856,
      "loss": 4.0525,
      "step": 43270
    },
    {
      "epoch": 0.09016666666666667,
      "grad_norm": 0.8517751097679138,
      "learning_rate": 0.00029451320158100107,
      "loss": 4.0617,
      "step": 43280
    },
    {
      "epoch": 0.0901875,
      "grad_norm": 0.742668092250824,
      "learning_rate": 0.0002945105592625037,
      "loss": 4.0383,
      "step": 43290
    },
    {
      "epoch": 0.09020833333333333,
      "grad_norm": 0.7760559320449829,
      "learning_rate": 0.0002945079163197779,
      "loss": 4.2101,
      "step": 43300
    },
    {
      "epoch": 0.09022916666666667,
      "grad_norm": 0.7289953827857971,
      "learning_rate": 0.0002945052727528352,
      "loss": 4.1305,
      "step": 43310
    },
    {
      "epoch": 0.09025,
      "grad_norm": 0.7664659023284912,
      "learning_rate": 0.00029450262856168684,
      "loss": 3.8662,
      "step": 43320
    },
    {
      "epoch": 0.09027083333333333,
      "grad_norm": 0.7196354269981384,
      "learning_rate": 0.00029449998374634435,
      "loss": 3.9908,
      "step": 43330
    },
    {
      "epoch": 0.09029166666666667,
      "grad_norm": 0.7771369218826294,
      "learning_rate": 0.00029449733830681915,
      "loss": 4.0429,
      "step": 43340
    },
    {
      "epoch": 0.0903125,
      "grad_norm": 0.7446789145469666,
      "learning_rate": 0.00029449469224312254,
      "loss": 3.9545,
      "step": 43350
    },
    {
      "epoch": 0.09033333333333333,
      "grad_norm": 0.6919028162956238,
      "learning_rate": 0.00029449204555526614,
      "loss": 3.9462,
      "step": 43360
    },
    {
      "epoch": 0.09035416666666667,
      "grad_norm": 0.7410955429077148,
      "learning_rate": 0.00029448939824326133,
      "loss": 4.0917,
      "step": 43370
    },
    {
      "epoch": 0.090375,
      "grad_norm": 0.7941297888755798,
      "learning_rate": 0.00029448675030711944,
      "loss": 3.9621,
      "step": 43380
    },
    {
      "epoch": 0.09039583333333333,
      "grad_norm": 0.9332024455070496,
      "learning_rate": 0.000294484101746852,
      "loss": 3.9202,
      "step": 43390
    },
    {
      "epoch": 0.09041666666666667,
      "grad_norm": 0.813433051109314,
      "learning_rate": 0.00029448145256247044,
      "loss": 3.8454,
      "step": 43400
    },
    {
      "epoch": 0.0904375,
      "grad_norm": 0.7347939610481262,
      "learning_rate": 0.0002944788027539862,
      "loss": 3.9784,
      "step": 43410
    },
    {
      "epoch": 0.09045833333333334,
      "grad_norm": 0.8219919800758362,
      "learning_rate": 0.0002944761523214107,
      "loss": 3.8413,
      "step": 43420
    },
    {
      "epoch": 0.09047916666666667,
      "grad_norm": 0.8722334504127502,
      "learning_rate": 0.00029447350126475546,
      "loss": 4.2205,
      "step": 43430
    },
    {
      "epoch": 0.0905,
      "grad_norm": 0.7705649733543396,
      "learning_rate": 0.00029447084958403183,
      "loss": 3.8749,
      "step": 43440
    },
    {
      "epoch": 0.09052083333333333,
      "grad_norm": 0.7951213121414185,
      "learning_rate": 0.00029446819727925135,
      "loss": 3.9178,
      "step": 43450
    },
    {
      "epoch": 0.09054166666666667,
      "grad_norm": 0.9023249745368958,
      "learning_rate": 0.0002944655443504254,
      "loss": 4.0634,
      "step": 43460
    },
    {
      "epoch": 0.0905625,
      "grad_norm": 0.8448863625526428,
      "learning_rate": 0.0002944628907975655,
      "loss": 4.1661,
      "step": 43470
    },
    {
      "epoch": 0.09058333333333334,
      "grad_norm": 0.8534286022186279,
      "learning_rate": 0.0002944602366206831,
      "loss": 3.8676,
      "step": 43480
    },
    {
      "epoch": 0.09060416666666667,
      "grad_norm": 0.7605075836181641,
      "learning_rate": 0.00029445758181978964,
      "loss": 4.1006,
      "step": 43490
    },
    {
      "epoch": 0.090625,
      "grad_norm": 0.7552652955055237,
      "learning_rate": 0.00029445492639489665,
      "loss": 4.0717,
      "step": 43500
    },
    {
      "epoch": 0.09064583333333333,
      "grad_norm": 0.8378645777702332,
      "learning_rate": 0.00029445227034601555,
      "loss": 3.9799,
      "step": 43510
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 0.7651781439781189,
      "learning_rate": 0.0002944496136731578,
      "loss": 4.0429,
      "step": 43520
    },
    {
      "epoch": 0.0906875,
      "grad_norm": 0.6993163824081421,
      "learning_rate": 0.00029444695637633486,
      "loss": 4.0011,
      "step": 43530
    },
    {
      "epoch": 0.09070833333333334,
      "grad_norm": 0.7793441414833069,
      "learning_rate": 0.0002944442984555583,
      "loss": 3.6606,
      "step": 43540
    },
    {
      "epoch": 0.09072916666666667,
      "grad_norm": 0.9402686357498169,
      "learning_rate": 0.00029444163991083954,
      "loss": 4.0064,
      "step": 43550
    },
    {
      "epoch": 0.09075,
      "grad_norm": 0.760085940361023,
      "learning_rate": 0.00029443898074219004,
      "loss": 3.9307,
      "step": 43560
    },
    {
      "epoch": 0.09077083333333333,
      "grad_norm": 0.8862836360931396,
      "learning_rate": 0.0002944363209496214,
      "loss": 3.9405,
      "step": 43570
    },
    {
      "epoch": 0.09079166666666667,
      "grad_norm": 0.8694409132003784,
      "learning_rate": 0.0002944336605331449,
      "loss": 4.1352,
      "step": 43580
    },
    {
      "epoch": 0.0908125,
      "grad_norm": 0.8726516366004944,
      "learning_rate": 0.0002944309994927722,
      "loss": 3.978,
      "step": 43590
    },
    {
      "epoch": 0.09083333333333334,
      "grad_norm": 1.0999330282211304,
      "learning_rate": 0.0002944283378285148,
      "loss": 4.0615,
      "step": 43600
    },
    {
      "epoch": 0.09085416666666667,
      "grad_norm": 0.88246750831604,
      "learning_rate": 0.0002944256755403841,
      "loss": 4.0006,
      "step": 43610
    },
    {
      "epoch": 0.090875,
      "grad_norm": 0.7008848190307617,
      "learning_rate": 0.0002944230126283917,
      "loss": 3.9439,
      "step": 43620
    },
    {
      "epoch": 0.09089583333333333,
      "grad_norm": 0.7714446187019348,
      "learning_rate": 0.00029442034909254897,
      "loss": 4.076,
      "step": 43630
    },
    {
      "epoch": 0.09091666666666667,
      "grad_norm": 0.7801547050476074,
      "learning_rate": 0.0002944176849328676,
      "loss": 4.0407,
      "step": 43640
    },
    {
      "epoch": 0.0909375,
      "grad_norm": 0.7807552814483643,
      "learning_rate": 0.0002944150201493589,
      "loss": 4.1463,
      "step": 43650
    },
    {
      "epoch": 0.09095833333333334,
      "grad_norm": 0.7293252944946289,
      "learning_rate": 0.00029441235474203455,
      "loss": 3.982,
      "step": 43660
    },
    {
      "epoch": 0.09097916666666667,
      "grad_norm": 0.9320241212844849,
      "learning_rate": 0.00029440968871090594,
      "loss": 4.0733,
      "step": 43670
    },
    {
      "epoch": 0.091,
      "grad_norm": 0.9199652075767517,
      "learning_rate": 0.0002944070220559847,
      "loss": 3.9163,
      "step": 43680
    },
    {
      "epoch": 0.09102083333333333,
      "grad_norm": 0.7276955246925354,
      "learning_rate": 0.0002944043547772822,
      "loss": 3.9544,
      "step": 43690
    },
    {
      "epoch": 0.09104166666666667,
      "grad_norm": 0.8825798034667969,
      "learning_rate": 0.0002944016868748101,
      "loss": 4.0254,
      "step": 43700
    },
    {
      "epoch": 0.0910625,
      "grad_norm": 0.8884842991828918,
      "learning_rate": 0.00029439901834857986,
      "loss": 4.0696,
      "step": 43710
    },
    {
      "epoch": 0.09108333333333334,
      "grad_norm": 0.7425711750984192,
      "learning_rate": 0.000294396349198603,
      "loss": 3.8903,
      "step": 43720
    },
    {
      "epoch": 0.09110416666666667,
      "grad_norm": 0.7916253805160522,
      "learning_rate": 0.0002943936794248911,
      "loss": 4.0976,
      "step": 43730
    },
    {
      "epoch": 0.091125,
      "grad_norm": 0.7162860035896301,
      "learning_rate": 0.00029439100902745567,
      "loss": 3.8368,
      "step": 43740
    },
    {
      "epoch": 0.09114583333333333,
      "grad_norm": 0.7752361297607422,
      "learning_rate": 0.00029438833800630814,
      "loss": 3.9273,
      "step": 43750
    },
    {
      "epoch": 0.09116666666666666,
      "grad_norm": 0.8526679277420044,
      "learning_rate": 0.00029438566636146024,
      "loss": 4.1703,
      "step": 43760
    },
    {
      "epoch": 0.0911875,
      "grad_norm": 0.6934775114059448,
      "learning_rate": 0.00029438299409292336,
      "loss": 3.8559,
      "step": 43770
    },
    {
      "epoch": 0.09120833333333334,
      "grad_norm": 0.7945747375488281,
      "learning_rate": 0.00029438032120070916,
      "loss": 4.0018,
      "step": 43780
    },
    {
      "epoch": 0.09122916666666667,
      "grad_norm": 0.7631188631057739,
      "learning_rate": 0.00029437764768482907,
      "loss": 3.8231,
      "step": 43790
    },
    {
      "epoch": 0.09125,
      "grad_norm": 0.7077094912528992,
      "learning_rate": 0.00029437497354529464,
      "loss": 4.0938,
      "step": 43800
    },
    {
      "epoch": 0.09127083333333333,
      "grad_norm": 0.7636808753013611,
      "learning_rate": 0.0002943722987821176,
      "loss": 4.0502,
      "step": 43810
    },
    {
      "epoch": 0.09129166666666666,
      "grad_norm": 0.739537239074707,
      "learning_rate": 0.0002943696233953093,
      "loss": 3.885,
      "step": 43820
    },
    {
      "epoch": 0.0913125,
      "grad_norm": 0.7227054238319397,
      "learning_rate": 0.0002943669473848814,
      "loss": 4.128,
      "step": 43830
    },
    {
      "epoch": 0.09133333333333334,
      "grad_norm": 0.7580694556236267,
      "learning_rate": 0.0002943642707508454,
      "loss": 4.0698,
      "step": 43840
    },
    {
      "epoch": 0.09135416666666667,
      "grad_norm": 0.8221091032028198,
      "learning_rate": 0.0002943615934932129,
      "loss": 3.9216,
      "step": 43850
    },
    {
      "epoch": 0.091375,
      "grad_norm": 0.906349778175354,
      "learning_rate": 0.00029435891561199545,
      "loss": 4.1842,
      "step": 43860
    },
    {
      "epoch": 0.09139583333333333,
      "grad_norm": 1.0237438678741455,
      "learning_rate": 0.00029435623710720465,
      "loss": 4.1169,
      "step": 43870
    },
    {
      "epoch": 0.09141666666666666,
      "grad_norm": 0.7215884327888489,
      "learning_rate": 0.00029435355797885205,
      "loss": 4.1899,
      "step": 43880
    },
    {
      "epoch": 0.0914375,
      "grad_norm": 0.8715304136276245,
      "learning_rate": 0.00029435087822694925,
      "loss": 4.2171,
      "step": 43890
    },
    {
      "epoch": 0.09145833333333334,
      "grad_norm": 0.8521788120269775,
      "learning_rate": 0.0002943481978515077,
      "loss": 4.1204,
      "step": 43900
    },
    {
      "epoch": 0.09147916666666667,
      "grad_norm": 0.728003203868866,
      "learning_rate": 0.0002943455168525391,
      "loss": 3.8925,
      "step": 43910
    },
    {
      "epoch": 0.0915,
      "grad_norm": 0.8462696671485901,
      "learning_rate": 0.00029434283523005505,
      "loss": 3.9204,
      "step": 43920
    },
    {
      "epoch": 0.09152083333333333,
      "grad_norm": 0.8120107054710388,
      "learning_rate": 0.00029434015298406707,
      "loss": 4.0471,
      "step": 43930
    },
    {
      "epoch": 0.09154166666666666,
      "grad_norm": 0.8170748949050903,
      "learning_rate": 0.0002943374701145868,
      "loss": 3.9965,
      "step": 43940
    },
    {
      "epoch": 0.0915625,
      "grad_norm": 0.8082450032234192,
      "learning_rate": 0.0002943347866216257,
      "loss": 3.9468,
      "step": 43950
    },
    {
      "epoch": 0.09158333333333334,
      "grad_norm": 0.7852224707603455,
      "learning_rate": 0.0002943321025051955,
      "loss": 4.002,
      "step": 43960
    },
    {
      "epoch": 0.09160416666666667,
      "grad_norm": 0.8908083438873291,
      "learning_rate": 0.0002943294177653077,
      "loss": 3.984,
      "step": 43970
    },
    {
      "epoch": 0.091625,
      "grad_norm": 0.7960920333862305,
      "learning_rate": 0.00029432673240197406,
      "loss": 4.0694,
      "step": 43980
    },
    {
      "epoch": 0.09164583333333333,
      "grad_norm": 0.8103930950164795,
      "learning_rate": 0.000294324046415206,
      "loss": 3.8609,
      "step": 43990
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 0.7782918810844421,
      "learning_rate": 0.00029432135980501516,
      "loss": 3.8601,
      "step": 44000
    },
    {
      "epoch": 0.09166666666666666,
      "eval_loss": 4.309880256652832,
      "eval_runtime": 10.7923,
      "eval_samples_per_second": 0.927,
      "eval_steps_per_second": 0.278,
      "step": 44000
    },
    {
      "epoch": 0.0916875,
      "grad_norm": 0.8031482696533203,
      "learning_rate": 0.00029431867257141323,
      "loss": 3.9053,
      "step": 44010
    },
    {
      "epoch": 0.09170833333333334,
      "grad_norm": 0.8081420063972473,
      "learning_rate": 0.0002943159847144117,
      "loss": 4.0059,
      "step": 44020
    },
    {
      "epoch": 0.09172916666666667,
      "grad_norm": 0.9997856020927429,
      "learning_rate": 0.00029431329623402227,
      "loss": 4.0293,
      "step": 44030
    },
    {
      "epoch": 0.09175,
      "grad_norm": 0.8736863732337952,
      "learning_rate": 0.00029431060713025654,
      "loss": 3.989,
      "step": 44040
    },
    {
      "epoch": 0.09177083333333333,
      "grad_norm": 0.8917863368988037,
      "learning_rate": 0.00029430791740312607,
      "loss": 4.0851,
      "step": 44050
    },
    {
      "epoch": 0.09179166666666666,
      "grad_norm": 0.7598302364349365,
      "learning_rate": 0.0002943052270526425,
      "loss": 3.8692,
      "step": 44060
    },
    {
      "epoch": 0.0918125,
      "grad_norm": 0.8449472188949585,
      "learning_rate": 0.00029430253607881754,
      "loss": 3.9616,
      "step": 44070
    },
    {
      "epoch": 0.09183333333333334,
      "grad_norm": 1.12465500831604,
      "learning_rate": 0.00029429984448166275,
      "loss": 3.9584,
      "step": 44080
    },
    {
      "epoch": 0.09185416666666667,
      "grad_norm": 0.8481159210205078,
      "learning_rate": 0.00029429715226118966,
      "loss": 3.9025,
      "step": 44090
    },
    {
      "epoch": 0.091875,
      "grad_norm": 0.7610899209976196,
      "learning_rate": 0.00029429445941741005,
      "loss": 3.9541,
      "step": 44100
    },
    {
      "epoch": 0.09189583333333333,
      "grad_norm": 0.7248851656913757,
      "learning_rate": 0.00029429176595033546,
      "loss": 4.0956,
      "step": 44110
    },
    {
      "epoch": 0.09191666666666666,
      "grad_norm": 0.9137314558029175,
      "learning_rate": 0.0002942890718599776,
      "loss": 4.086,
      "step": 44120
    },
    {
      "epoch": 0.0919375,
      "grad_norm": 0.7797259092330933,
      "learning_rate": 0.00029428637714634805,
      "loss": 3.9841,
      "step": 44130
    },
    {
      "epoch": 0.09195833333333334,
      "grad_norm": 0.7513639330863953,
      "learning_rate": 0.00029428368180945845,
      "loss": 3.9826,
      "step": 44140
    },
    {
      "epoch": 0.09197916666666667,
      "grad_norm": 0.8210268616676331,
      "learning_rate": 0.0002942809858493204,
      "loss": 3.9355,
      "step": 44150
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.7558812499046326,
      "learning_rate": 0.0002942782892659457,
      "loss": 4.013,
      "step": 44160
    },
    {
      "epoch": 0.09202083333333333,
      "grad_norm": 0.7633086442947388,
      "learning_rate": 0.00029427559205934587,
      "loss": 3.9024,
      "step": 44170
    },
    {
      "epoch": 0.09204166666666666,
      "grad_norm": 0.767743706703186,
      "learning_rate": 0.0002942728942295326,
      "loss": 3.9907,
      "step": 44180
    },
    {
      "epoch": 0.0920625,
      "grad_norm": 0.8723000884056091,
      "learning_rate": 0.00029427019577651746,
      "loss": 4.0468,
      "step": 44190
    },
    {
      "epoch": 0.09208333333333334,
      "grad_norm": 0.8200768828392029,
      "learning_rate": 0.00029426749670031225,
      "loss": 3.9864,
      "step": 44200
    },
    {
      "epoch": 0.09210416666666667,
      "grad_norm": 0.8050898909568787,
      "learning_rate": 0.00029426479700092855,
      "loss": 4.0267,
      "step": 44210
    },
    {
      "epoch": 0.092125,
      "grad_norm": 0.8020004630088806,
      "learning_rate": 0.000294262096678378,
      "loss": 4.0856,
      "step": 44220
    },
    {
      "epoch": 0.09214583333333333,
      "grad_norm": 0.7998018264770508,
      "learning_rate": 0.00029425939573267233,
      "loss": 4.019,
      "step": 44230
    },
    {
      "epoch": 0.09216666666666666,
      "grad_norm": 0.7449648976325989,
      "learning_rate": 0.00029425669416382317,
      "loss": 3.9596,
      "step": 44240
    },
    {
      "epoch": 0.0921875,
      "grad_norm": 0.6878941655158997,
      "learning_rate": 0.00029425399197184214,
      "loss": 4.1458,
      "step": 44250
    },
    {
      "epoch": 0.09220833333333334,
      "grad_norm": 0.8168017268180847,
      "learning_rate": 0.000294251289156741,
      "loss": 3.9638,
      "step": 44260
    },
    {
      "epoch": 0.09222916666666667,
      "grad_norm": 0.817136287689209,
      "learning_rate": 0.00029424858571853145,
      "loss": 3.9468,
      "step": 44270
    },
    {
      "epoch": 0.09225,
      "grad_norm": 0.840815544128418,
      "learning_rate": 0.0002942458816572251,
      "loss": 4.0618,
      "step": 44280
    },
    {
      "epoch": 0.09227083333333333,
      "grad_norm": 0.7990142107009888,
      "learning_rate": 0.00029424317697283355,
      "loss": 4.0276,
      "step": 44290
    },
    {
      "epoch": 0.09229166666666666,
      "grad_norm": 0.8356457948684692,
      "learning_rate": 0.00029424047166536863,
      "loss": 3.8558,
      "step": 44300
    },
    {
      "epoch": 0.0923125,
      "grad_norm": 0.7452893257141113,
      "learning_rate": 0.00029423776573484194,
      "loss": 4.0359,
      "step": 44310
    },
    {
      "epoch": 0.09233333333333334,
      "grad_norm": 0.7052478790283203,
      "learning_rate": 0.0002942350591812652,
      "loss": 3.9242,
      "step": 44320
    },
    {
      "epoch": 0.09235416666666667,
      "grad_norm": 0.8979045152664185,
      "learning_rate": 0.0002942323520046501,
      "loss": 3.9457,
      "step": 44330
    },
    {
      "epoch": 0.092375,
      "grad_norm": 1.0779821872711182,
      "learning_rate": 0.00029422964420500837,
      "loss": 3.7695,
      "step": 44340
    },
    {
      "epoch": 0.09239583333333333,
      "grad_norm": 0.9096167683601379,
      "learning_rate": 0.0002942269357823516,
      "loss": 4.0696,
      "step": 44350
    },
    {
      "epoch": 0.09241666666666666,
      "grad_norm": 0.8481919169425964,
      "learning_rate": 0.0002942242267366916,
      "loss": 4.0181,
      "step": 44360
    },
    {
      "epoch": 0.0924375,
      "grad_norm": 0.8121992349624634,
      "learning_rate": 0.00029422151706804,
      "loss": 3.9174,
      "step": 44370
    },
    {
      "epoch": 0.09245833333333334,
      "grad_norm": 0.793554425239563,
      "learning_rate": 0.00029421880677640855,
      "loss": 4.1729,
      "step": 44380
    },
    {
      "epoch": 0.09247916666666667,
      "grad_norm": 0.8427684903144836,
      "learning_rate": 0.0002942160958618089,
      "loss": 3.9512,
      "step": 44390
    },
    {
      "epoch": 0.0925,
      "grad_norm": 0.7466145753860474,
      "learning_rate": 0.00029421338432425285,
      "loss": 4.1747,
      "step": 44400
    },
    {
      "epoch": 0.09252083333333333,
      "grad_norm": 0.8613093495368958,
      "learning_rate": 0.00029421067216375206,
      "loss": 3.9326,
      "step": 44410
    },
    {
      "epoch": 0.09254166666666666,
      "grad_norm": 0.9479051828384399,
      "learning_rate": 0.00029420795938031824,
      "loss": 3.962,
      "step": 44420
    },
    {
      "epoch": 0.0925625,
      "grad_norm": 0.799017071723938,
      "learning_rate": 0.0002942052459739631,
      "loss": 4.1779,
      "step": 44430
    },
    {
      "epoch": 0.09258333333333334,
      "grad_norm": 0.8353898525238037,
      "learning_rate": 0.00029420253194469844,
      "loss": 4.0461,
      "step": 44440
    },
    {
      "epoch": 0.09260416666666667,
      "grad_norm": 0.8265305161476135,
      "learning_rate": 0.0002941998172925359,
      "loss": 4.0738,
      "step": 44450
    },
    {
      "epoch": 0.092625,
      "grad_norm": 0.7532750964164734,
      "learning_rate": 0.0002941971020174871,
      "loss": 3.9548,
      "step": 44460
    },
    {
      "epoch": 0.09264583333333333,
      "grad_norm": 0.7125318646430969,
      "learning_rate": 0.000294194386119564,
      "loss": 4.0091,
      "step": 44470
    },
    {
      "epoch": 0.09266666666666666,
      "grad_norm": 0.9766756296157837,
      "learning_rate": 0.0002941916695987783,
      "loss": 3.9721,
      "step": 44480
    },
    {
      "epoch": 0.0926875,
      "grad_norm": 0.9519219398498535,
      "learning_rate": 0.0002941889524551416,
      "loss": 4.0673,
      "step": 44490
    },
    {
      "epoch": 0.09270833333333334,
      "grad_norm": 1.026418685913086,
      "learning_rate": 0.0002941862346886657,
      "loss": 3.9473,
      "step": 44500
    },
    {
      "epoch": 0.09272916666666667,
      "grad_norm": 0.7453073859214783,
      "learning_rate": 0.0002941835162993623,
      "loss": 3.9278,
      "step": 44510
    },
    {
      "epoch": 0.09275,
      "grad_norm": 0.7474458813667297,
      "learning_rate": 0.00029418079728724323,
      "loss": 4.0404,
      "step": 44520
    },
    {
      "epoch": 0.09277083333333333,
      "grad_norm": 0.7959873676300049,
      "learning_rate": 0.00029417807765232015,
      "loss": 4.0546,
      "step": 44530
    },
    {
      "epoch": 0.09279166666666666,
      "grad_norm": 0.8463065028190613,
      "learning_rate": 0.0002941753573946049,
      "loss": 4.0388,
      "step": 44540
    },
    {
      "epoch": 0.0928125,
      "grad_norm": 0.890550434589386,
      "learning_rate": 0.0002941726365141091,
      "loss": 4.1776,
      "step": 44550
    },
    {
      "epoch": 0.09283333333333334,
      "grad_norm": 0.8318566083908081,
      "learning_rate": 0.0002941699150108446,
      "loss": 3.9651,
      "step": 44560
    },
    {
      "epoch": 0.09285416666666667,
      "grad_norm": 0.8426151871681213,
      "learning_rate": 0.00029416719288482315,
      "loss": 4.1016,
      "step": 44570
    },
    {
      "epoch": 0.092875,
      "grad_norm": 0.9810061454772949,
      "learning_rate": 0.0002941644701360565,
      "loss": 3.9551,
      "step": 44580
    },
    {
      "epoch": 0.09289583333333333,
      "grad_norm": 0.7402470707893372,
      "learning_rate": 0.00029416174676455637,
      "loss": 4.0274,
      "step": 44590
    },
    {
      "epoch": 0.09291666666666666,
      "grad_norm": 0.7677028775215149,
      "learning_rate": 0.0002941590227703346,
      "loss": 3.9278,
      "step": 44600
    },
    {
      "epoch": 0.0929375,
      "grad_norm": 0.7599290013313293,
      "learning_rate": 0.0002941562981534029,
      "loss": 3.8236,
      "step": 44610
    },
    {
      "epoch": 0.09295833333333334,
      "grad_norm": 0.7853174805641174,
      "learning_rate": 0.000294153572913773,
      "loss": 4.0376,
      "step": 44620
    },
    {
      "epoch": 0.09297916666666667,
      "grad_norm": 0.7803577184677124,
      "learning_rate": 0.0002941508470514568,
      "loss": 4.0135,
      "step": 44630
    },
    {
      "epoch": 0.093,
      "grad_norm": 0.7701123952865601,
      "learning_rate": 0.000294148120566466,
      "loss": 3.7755,
      "step": 44640
    },
    {
      "epoch": 0.09302083333333333,
      "grad_norm": 0.7495555877685547,
      "learning_rate": 0.0002941453934588123,
      "loss": 4.0453,
      "step": 44650
    },
    {
      "epoch": 0.09304166666666666,
      "grad_norm": 0.7904362678527832,
      "learning_rate": 0.00029414266572850764,
      "loss": 4.0224,
      "step": 44660
    },
    {
      "epoch": 0.0930625,
      "grad_norm": 0.7230803966522217,
      "learning_rate": 0.00029413993737556363,
      "loss": 3.9792,
      "step": 44670
    },
    {
      "epoch": 0.09308333333333334,
      "grad_norm": 0.7681822776794434,
      "learning_rate": 0.0002941372083999923,
      "loss": 3.9467,
      "step": 44680
    },
    {
      "epoch": 0.09310416666666667,
      "grad_norm": 0.8920527100563049,
      "learning_rate": 0.0002941344788018051,
      "loss": 3.9088,
      "step": 44690
    },
    {
      "epoch": 0.093125,
      "grad_norm": 0.8506249189376831,
      "learning_rate": 0.0002941317485810141,
      "loss": 4.0252,
      "step": 44700
    },
    {
      "epoch": 0.09314583333333333,
      "grad_norm": 0.8420354723930359,
      "learning_rate": 0.000294129017737631,
      "loss": 3.9802,
      "step": 44710
    },
    {
      "epoch": 0.09316666666666666,
      "grad_norm": 0.895836353302002,
      "learning_rate": 0.0002941262862716676,
      "loss": 3.9476,
      "step": 44720
    },
    {
      "epoch": 0.0931875,
      "grad_norm": 0.7952171564102173,
      "learning_rate": 0.0002941235541831356,
      "loss": 4.0108,
      "step": 44730
    },
    {
      "epoch": 0.09320833333333334,
      "grad_norm": 0.771656334400177,
      "learning_rate": 0.000294120821472047,
      "loss": 3.7503,
      "step": 44740
    },
    {
      "epoch": 0.09322916666666667,
      "grad_norm": 0.8233175873756409,
      "learning_rate": 0.00029411808813841346,
      "loss": 3.9324,
      "step": 44750
    },
    {
      "epoch": 0.09325,
      "grad_norm": 0.725185751914978,
      "learning_rate": 0.00029411535418224686,
      "loss": 4.0691,
      "step": 44760
    },
    {
      "epoch": 0.09327083333333333,
      "grad_norm": 0.925599217414856,
      "learning_rate": 0.0002941126196035589,
      "loss": 3.9398,
      "step": 44770
    },
    {
      "epoch": 0.09329166666666666,
      "grad_norm": 0.82265305519104,
      "learning_rate": 0.00029410988440236154,
      "loss": 3.957,
      "step": 44780
    },
    {
      "epoch": 0.0933125,
      "grad_norm": 0.6767252087593079,
      "learning_rate": 0.0002941071485786665,
      "loss": 3.9486,
      "step": 44790
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 0.6712161898612976,
      "learning_rate": 0.0002941044121324856,
      "loss": 4.0286,
      "step": 44800
    },
    {
      "epoch": 0.09335416666666667,
      "grad_norm": 0.8490703701972961,
      "learning_rate": 0.0002941016750638307,
      "loss": 3.9294,
      "step": 44810
    },
    {
      "epoch": 0.093375,
      "grad_norm": 0.8026022911071777,
      "learning_rate": 0.0002940989373727136,
      "loss": 3.9291,
      "step": 44820
    },
    {
      "epoch": 0.09339583333333333,
      "grad_norm": 0.8459638357162476,
      "learning_rate": 0.0002940961990591461,
      "loss": 3.8912,
      "step": 44830
    },
    {
      "epoch": 0.09341666666666666,
      "grad_norm": 0.7248906493186951,
      "learning_rate": 0.0002940934601231401,
      "loss": 4.0817,
      "step": 44840
    },
    {
      "epoch": 0.0934375,
      "grad_norm": 0.8020398616790771,
      "learning_rate": 0.00029409072056470735,
      "loss": 4.0784,
      "step": 44850
    },
    {
      "epoch": 0.09345833333333334,
      "grad_norm": 0.7141355872154236,
      "learning_rate": 0.00029408798038385977,
      "loss": 3.8319,
      "step": 44860
    },
    {
      "epoch": 0.09347916666666667,
      "grad_norm": 0.7934810519218445,
      "learning_rate": 0.00029408523958060907,
      "loss": 3.8135,
      "step": 44870
    },
    {
      "epoch": 0.0935,
      "grad_norm": 0.836158275604248,
      "learning_rate": 0.00029408249815496724,
      "loss": 3.8558,
      "step": 44880
    },
    {
      "epoch": 0.09352083333333333,
      "grad_norm": 0.8332101702690125,
      "learning_rate": 0.00029407975610694603,
      "loss": 4.0214,
      "step": 44890
    },
    {
      "epoch": 0.09354166666666666,
      "grad_norm": 0.6936440467834473,
      "learning_rate": 0.0002940770134365573,
      "loss": 3.8844,
      "step": 44900
    },
    {
      "epoch": 0.0935625,
      "grad_norm": 0.7573991417884827,
      "learning_rate": 0.0002940742701438129,
      "loss": 3.8361,
      "step": 44910
    },
    {
      "epoch": 0.09358333333333334,
      "grad_norm": 0.9917488098144531,
      "learning_rate": 0.0002940715262287247,
      "loss": 4.0734,
      "step": 44920
    },
    {
      "epoch": 0.09360416666666667,
      "grad_norm": 0.7606675624847412,
      "learning_rate": 0.0002940687816913045,
      "loss": 4.1563,
      "step": 44930
    },
    {
      "epoch": 0.093625,
      "grad_norm": 0.8295557498931885,
      "learning_rate": 0.00029406603653156423,
      "loss": 4.028,
      "step": 44940
    },
    {
      "epoch": 0.09364583333333333,
      "grad_norm": 0.7171760201454163,
      "learning_rate": 0.00029406329074951567,
      "loss": 4.0998,
      "step": 44950
    },
    {
      "epoch": 0.09366666666666666,
      "grad_norm": 0.7178971767425537,
      "learning_rate": 0.00029406054434517073,
      "loss": 3.9458,
      "step": 44960
    },
    {
      "epoch": 0.0936875,
      "grad_norm": 0.7910643815994263,
      "learning_rate": 0.0002940577973185413,
      "loss": 4.0222,
      "step": 44970
    },
    {
      "epoch": 0.09370833333333334,
      "grad_norm": 0.8305575251579285,
      "learning_rate": 0.0002940550496696391,
      "loss": 3.9458,
      "step": 44980
    },
    {
      "epoch": 0.09372916666666667,
      "grad_norm": 0.8426964282989502,
      "learning_rate": 0.0002940523013984762,
      "loss": 3.8022,
      "step": 44990
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.8178642392158508,
      "learning_rate": 0.0002940495525050644,
      "loss": 3.9873,
      "step": 45000
    },
    {
      "epoch": 0.09375,
      "eval_loss": 4.296371936798096,
      "eval_runtime": 12.0787,
      "eval_samples_per_second": 0.828,
      "eval_steps_per_second": 0.248,
      "step": 45000
    },
    {
      "epoch": 0.09377083333333333,
      "grad_norm": 0.7109588980674744,
      "learning_rate": 0.0002940468029894155,
      "loss": 4.0379,
      "step": 45010
    },
    {
      "epoch": 0.09379166666666666,
      "grad_norm": 0.8486259579658508,
      "learning_rate": 0.0002940440528515414,
      "loss": 4.0466,
      "step": 45020
    },
    {
      "epoch": 0.0938125,
      "grad_norm": 0.800613522529602,
      "learning_rate": 0.0002940413020914541,
      "loss": 4.1292,
      "step": 45030
    },
    {
      "epoch": 0.09383333333333334,
      "grad_norm": 1.1333023309707642,
      "learning_rate": 0.00029403855070916533,
      "loss": 3.9438,
      "step": 45040
    },
    {
      "epoch": 0.09385416666666667,
      "grad_norm": 0.8522650003433228,
      "learning_rate": 0.0002940357987046871,
      "loss": 4.079,
      "step": 45050
    },
    {
      "epoch": 0.093875,
      "grad_norm": 0.8141242861747742,
      "learning_rate": 0.0002940330460780311,
      "loss": 3.8797,
      "step": 45060
    },
    {
      "epoch": 0.09389583333333333,
      "grad_norm": 0.857005774974823,
      "learning_rate": 0.0002940302928292094,
      "loss": 4.068,
      "step": 45070
    },
    {
      "epoch": 0.09391666666666666,
      "grad_norm": 0.8024482131004333,
      "learning_rate": 0.0002940275389582339,
      "loss": 3.853,
      "step": 45080
    },
    {
      "epoch": 0.0939375,
      "grad_norm": 0.8534786701202393,
      "learning_rate": 0.00029402478446511644,
      "loss": 3.9696,
      "step": 45090
    },
    {
      "epoch": 0.09395833333333334,
      "grad_norm": 0.7749423980712891,
      "learning_rate": 0.0002940220293498689,
      "loss": 4.1012,
      "step": 45100
    },
    {
      "epoch": 0.09397916666666667,
      "grad_norm": 0.7832701802253723,
      "learning_rate": 0.00029401927361250317,
      "loss": 3.947,
      "step": 45110
    },
    {
      "epoch": 0.094,
      "grad_norm": 0.9558160305023193,
      "learning_rate": 0.00029401651725303123,
      "loss": 3.9801,
      "step": 45120
    },
    {
      "epoch": 0.09402083333333333,
      "grad_norm": 0.7724518179893494,
      "learning_rate": 0.0002940137602714649,
      "loss": 4.1078,
      "step": 45130
    },
    {
      "epoch": 0.09404166666666666,
      "grad_norm": 0.8304344415664673,
      "learning_rate": 0.00029401100266781616,
      "loss": 3.8744,
      "step": 45140
    },
    {
      "epoch": 0.0940625,
      "grad_norm": 0.7467166781425476,
      "learning_rate": 0.00029400824444209694,
      "loss": 4.0119,
      "step": 45150
    },
    {
      "epoch": 0.09408333333333334,
      "grad_norm": 0.8301234841346741,
      "learning_rate": 0.000294005485594319,
      "loss": 4.256,
      "step": 45160
    },
    {
      "epoch": 0.09410416666666667,
      "grad_norm": 1.1241601705551147,
      "learning_rate": 0.00029400272612449443,
      "loss": 4.052,
      "step": 45170
    },
    {
      "epoch": 0.094125,
      "grad_norm": 0.8703656792640686,
      "learning_rate": 0.00029399996603263505,
      "loss": 3.9461,
      "step": 45180
    },
    {
      "epoch": 0.09414583333333333,
      "grad_norm": 0.8705021739006042,
      "learning_rate": 0.00029399720531875283,
      "loss": 4.2238,
      "step": 45190
    },
    {
      "epoch": 0.09416666666666666,
      "grad_norm": 0.9271725416183472,
      "learning_rate": 0.0002939944439828597,
      "loss": 3.9347,
      "step": 45200
    },
    {
      "epoch": 0.0941875,
      "grad_norm": 0.8943268060684204,
      "learning_rate": 0.00029399168202496755,
      "loss": 4.0175,
      "step": 45210
    },
    {
      "epoch": 0.09420833333333334,
      "grad_norm": 1.001630425453186,
      "learning_rate": 0.00029398891944508833,
      "loss": 4.1536,
      "step": 45220
    },
    {
      "epoch": 0.09422916666666667,
      "grad_norm": 0.9092263579368591,
      "learning_rate": 0.000293986156243234,
      "loss": 3.9834,
      "step": 45230
    },
    {
      "epoch": 0.09425,
      "grad_norm": 0.7717384099960327,
      "learning_rate": 0.0002939833924194164,
      "loss": 3.9915,
      "step": 45240
    },
    {
      "epoch": 0.09427083333333333,
      "grad_norm": 0.8637787699699402,
      "learning_rate": 0.00029398062797364764,
      "loss": 3.8991,
      "step": 45250
    },
    {
      "epoch": 0.09429166666666666,
      "grad_norm": 0.7466741800308228,
      "learning_rate": 0.0002939778629059395,
      "loss": 3.9533,
      "step": 45260
    },
    {
      "epoch": 0.0943125,
      "grad_norm": 0.7700151801109314,
      "learning_rate": 0.000293975097216304,
      "loss": 3.9861,
      "step": 45270
    },
    {
      "epoch": 0.09433333333333334,
      "grad_norm": 1.0047454833984375,
      "learning_rate": 0.00029397233090475307,
      "loss": 4.013,
      "step": 45280
    },
    {
      "epoch": 0.09435416666666667,
      "grad_norm": 0.7972248196601868,
      "learning_rate": 0.0002939695639712986,
      "loss": 3.9734,
      "step": 45290
    },
    {
      "epoch": 0.094375,
      "grad_norm": 0.9308408498764038,
      "learning_rate": 0.00029396679641595266,
      "loss": 3.9484,
      "step": 45300
    },
    {
      "epoch": 0.09439583333333333,
      "grad_norm": 0.7517308592796326,
      "learning_rate": 0.0002939640282387271,
      "loss": 3.9754,
      "step": 45310
    },
    {
      "epoch": 0.09441666666666666,
      "grad_norm": 1.0082979202270508,
      "learning_rate": 0.000293961259439634,
      "loss": 3.8777,
      "step": 45320
    },
    {
      "epoch": 0.0944375,
      "grad_norm": 0.8289642930030823,
      "learning_rate": 0.00029395849001868517,
      "loss": 3.9432,
      "step": 45330
    },
    {
      "epoch": 0.09445833333333334,
      "grad_norm": 0.7206010818481445,
      "learning_rate": 0.00029395571997589264,
      "loss": 4.063,
      "step": 45340
    },
    {
      "epoch": 0.09447916666666667,
      "grad_norm": 0.7974848747253418,
      "learning_rate": 0.0002939529493112684,
      "loss": 3.9781,
      "step": 45350
    },
    {
      "epoch": 0.0945,
      "grad_norm": 0.7889509201049805,
      "learning_rate": 0.00029395017802482444,
      "loss": 4.0573,
      "step": 45360
    },
    {
      "epoch": 0.09452083333333333,
      "grad_norm": 0.7368786334991455,
      "learning_rate": 0.0002939474061165727,
      "loss": 3.9438,
      "step": 45370
    },
    {
      "epoch": 0.09454166666666666,
      "grad_norm": 0.81927090883255,
      "learning_rate": 0.00029394463358652507,
      "loss": 4.0366,
      "step": 45380
    },
    {
      "epoch": 0.0945625,
      "grad_norm": 0.8469406366348267,
      "learning_rate": 0.00029394186043469364,
      "loss": 4.0023,
      "step": 45390
    },
    {
      "epoch": 0.09458333333333334,
      "grad_norm": 0.9143786430358887,
      "learning_rate": 0.00029393908666109036,
      "loss": 4.0786,
      "step": 45400
    },
    {
      "epoch": 0.09460416666666667,
      "grad_norm": 0.8098400235176086,
      "learning_rate": 0.0002939363122657272,
      "loss": 4.0473,
      "step": 45410
    },
    {
      "epoch": 0.094625,
      "grad_norm": 0.9839364886283875,
      "learning_rate": 0.0002939335372486161,
      "loss": 3.7376,
      "step": 45420
    },
    {
      "epoch": 0.09464583333333333,
      "grad_norm": 0.8267048597335815,
      "learning_rate": 0.00029393076160976915,
      "loss": 3.9923,
      "step": 45430
    },
    {
      "epoch": 0.09466666666666666,
      "grad_norm": 0.8272232413291931,
      "learning_rate": 0.0002939279853491982,
      "loss": 4.1674,
      "step": 45440
    },
    {
      "epoch": 0.0946875,
      "grad_norm": 0.7564824819564819,
      "learning_rate": 0.0002939252084669154,
      "loss": 4.0907,
      "step": 45450
    },
    {
      "epoch": 0.09470833333333334,
      "grad_norm": 0.7972956895828247,
      "learning_rate": 0.00029392243096293267,
      "loss": 3.9741,
      "step": 45460
    },
    {
      "epoch": 0.09472916666666667,
      "grad_norm": 0.851256787776947,
      "learning_rate": 0.00029391965283726197,
      "loss": 3.9542,
      "step": 45470
    },
    {
      "epoch": 0.09475,
      "grad_norm": 0.7839607000350952,
      "learning_rate": 0.0002939168740899153,
      "loss": 4.078,
      "step": 45480
    },
    {
      "epoch": 0.09477083333333333,
      "grad_norm": 0.7978137135505676,
      "learning_rate": 0.0002939140947209048,
      "loss": 4.011,
      "step": 45490
    },
    {
      "epoch": 0.09479166666666666,
      "grad_norm": 0.7750713229179382,
      "learning_rate": 0.0002939113147302423,
      "loss": 4.0348,
      "step": 45500
    },
    {
      "epoch": 0.0948125,
      "grad_norm": 0.8086476922035217,
      "learning_rate": 0.00029390853411793993,
      "loss": 4.1319,
      "step": 45510
    },
    {
      "epoch": 0.09483333333333334,
      "grad_norm": 0.7548931837081909,
      "learning_rate": 0.00029390575288400965,
      "loss": 3.9,
      "step": 45520
    },
    {
      "epoch": 0.09485416666666667,
      "grad_norm": 0.8632543683052063,
      "learning_rate": 0.00029390297102846344,
      "loss": 4.1245,
      "step": 45530
    },
    {
      "epoch": 0.094875,
      "grad_norm": 0.8787257075309753,
      "learning_rate": 0.0002939001885513134,
      "loss": 3.9381,
      "step": 45540
    },
    {
      "epoch": 0.09489583333333333,
      "grad_norm": 0.8995476961135864,
      "learning_rate": 0.00029389740545257147,
      "loss": 4.0267,
      "step": 45550
    },
    {
      "epoch": 0.09491666666666666,
      "grad_norm": 0.8561380505561829,
      "learning_rate": 0.0002938946217322498,
      "loss": 4.1564,
      "step": 45560
    },
    {
      "epoch": 0.0949375,
      "grad_norm": 0.7836742997169495,
      "learning_rate": 0.0002938918373903602,
      "loss": 3.9547,
      "step": 45570
    },
    {
      "epoch": 0.09495833333333334,
      "grad_norm": 0.7427635192871094,
      "learning_rate": 0.00029388905242691484,
      "loss": 4.0397,
      "step": 45580
    },
    {
      "epoch": 0.09497916666666667,
      "grad_norm": 0.856387734413147,
      "learning_rate": 0.00029388626684192576,
      "loss": 4.0324,
      "step": 45590
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.8420458436012268,
      "learning_rate": 0.00029388348063540495,
      "loss": 4.0306,
      "step": 45600
    },
    {
      "epoch": 0.09502083333333333,
      "grad_norm": 0.8015421032905579,
      "learning_rate": 0.0002938806938073645,
      "loss": 3.9155,
      "step": 45610
    },
    {
      "epoch": 0.09504166666666666,
      "grad_norm": 0.763532280921936,
      "learning_rate": 0.0002938779063578164,
      "loss": 4.0875,
      "step": 45620
    },
    {
      "epoch": 0.0950625,
      "grad_norm": 0.8707883954048157,
      "learning_rate": 0.0002938751182867726,
      "loss": 4.0439,
      "step": 45630
    },
    {
      "epoch": 0.09508333333333334,
      "grad_norm": 0.7776477336883545,
      "learning_rate": 0.00029387232959424527,
      "loss": 4.099,
      "step": 45640
    },
    {
      "epoch": 0.09510416666666667,
      "grad_norm": 0.8542993068695068,
      "learning_rate": 0.00029386954028024653,
      "loss": 3.9848,
      "step": 45650
    },
    {
      "epoch": 0.095125,
      "grad_norm": 0.9668006300926208,
      "learning_rate": 0.0002938667503447882,
      "loss": 3.8554,
      "step": 45660
    },
    {
      "epoch": 0.09514583333333333,
      "grad_norm": 0.8329102993011475,
      "learning_rate": 0.00029386395978788253,
      "loss": 4.0377,
      "step": 45670
    },
    {
      "epoch": 0.09516666666666666,
      "grad_norm": 0.7556877136230469,
      "learning_rate": 0.00029386116860954145,
      "loss": 3.9923,
      "step": 45680
    },
    {
      "epoch": 0.0951875,
      "grad_norm": 0.8933076858520508,
      "learning_rate": 0.0002938583768097771,
      "loss": 4.0122,
      "step": 45690
    },
    {
      "epoch": 0.09520833333333334,
      "grad_norm": 0.7948035001754761,
      "learning_rate": 0.0002938555843886015,
      "loss": 3.8089,
      "step": 45700
    },
    {
      "epoch": 0.09522916666666667,
      "grad_norm": 0.7730541825294495,
      "learning_rate": 0.00029385279134602673,
      "loss": 4.0102,
      "step": 45710
    },
    {
      "epoch": 0.09525,
      "grad_norm": 0.7822456359863281,
      "learning_rate": 0.0002938499976820648,
      "loss": 3.9779,
      "step": 45720
    },
    {
      "epoch": 0.09527083333333333,
      "grad_norm": 0.7689204812049866,
      "learning_rate": 0.0002938472033967278,
      "loss": 4.1424,
      "step": 45730
    },
    {
      "epoch": 0.09529166666666666,
      "grad_norm": 0.8548687696456909,
      "learning_rate": 0.0002938444084900279,
      "loss": 4.1685,
      "step": 45740
    },
    {
      "epoch": 0.0953125,
      "grad_norm": 0.7702450752258301,
      "learning_rate": 0.00029384161296197705,
      "loss": 3.897,
      "step": 45750
    },
    {
      "epoch": 0.09533333333333334,
      "grad_norm": 0.9607065320014954,
      "learning_rate": 0.0002938388168125874,
      "loss": 4.0562,
      "step": 45760
    },
    {
      "epoch": 0.09535416666666667,
      "grad_norm": 0.6935707926750183,
      "learning_rate": 0.00029383602004187095,
      "loss": 3.9475,
      "step": 45770
    },
    {
      "epoch": 0.095375,
      "grad_norm": 0.9489383101463318,
      "learning_rate": 0.0002938332226498398,
      "loss": 3.8986,
      "step": 45780
    },
    {
      "epoch": 0.09539583333333333,
      "grad_norm": 0.6949952840805054,
      "learning_rate": 0.00029383042463650616,
      "loss": 3.7916,
      "step": 45790
    },
    {
      "epoch": 0.09541666666666666,
      "grad_norm": 0.8038750886917114,
      "learning_rate": 0.000293827626001882,
      "loss": 3.9577,
      "step": 45800
    },
    {
      "epoch": 0.0954375,
      "grad_norm": 0.8259865045547485,
      "learning_rate": 0.00029382482674597933,
      "loss": 4.1713,
      "step": 45810
    },
    {
      "epoch": 0.09545833333333334,
      "grad_norm": 0.7633161544799805,
      "learning_rate": 0.00029382202686881046,
      "loss": 4.1554,
      "step": 45820
    },
    {
      "epoch": 0.09547916666666667,
      "grad_norm": 0.905838668346405,
      "learning_rate": 0.0002938192263703873,
      "loss": 3.9201,
      "step": 45830
    },
    {
      "epoch": 0.0955,
      "grad_norm": 0.7080432772636414,
      "learning_rate": 0.00029381642525072197,
      "loss": 4.0738,
      "step": 45840
    },
    {
      "epoch": 0.09552083333333333,
      "grad_norm": 0.7999567985534668,
      "learning_rate": 0.0002938136235098267,
      "loss": 3.9494,
      "step": 45850
    },
    {
      "epoch": 0.09554166666666666,
      "grad_norm": 0.859424352645874,
      "learning_rate": 0.00029381082114771345,
      "loss": 3.9803,
      "step": 45860
    },
    {
      "epoch": 0.0955625,
      "grad_norm": 0.8311036825180054,
      "learning_rate": 0.00029380801816439436,
      "loss": 3.8966,
      "step": 45870
    },
    {
      "epoch": 0.09558333333333334,
      "grad_norm": 0.8434373736381531,
      "learning_rate": 0.00029380521455988164,
      "loss": 3.8801,
      "step": 45880
    },
    {
      "epoch": 0.09560416666666667,
      "grad_norm": 0.8669942617416382,
      "learning_rate": 0.0002938024103341872,
      "loss": 3.9971,
      "step": 45890
    },
    {
      "epoch": 0.095625,
      "grad_norm": 0.8655198216438293,
      "learning_rate": 0.00029379960548732334,
      "loss": 3.9539,
      "step": 45900
    },
    {
      "epoch": 0.09564583333333333,
      "grad_norm": 0.8112446069717407,
      "learning_rate": 0.0002937968000193021,
      "loss": 4.0565,
      "step": 45910
    },
    {
      "epoch": 0.09566666666666666,
      "grad_norm": 0.8392683267593384,
      "learning_rate": 0.00029379399393013555,
      "loss": 4.0648,
      "step": 45920
    },
    {
      "epoch": 0.0956875,
      "grad_norm": 0.6865496635437012,
      "learning_rate": 0.0002937911872198359,
      "loss": 3.9448,
      "step": 45930
    },
    {
      "epoch": 0.09570833333333334,
      "grad_norm": 0.777849555015564,
      "learning_rate": 0.0002937883798884152,
      "loss": 4.0476,
      "step": 45940
    },
    {
      "epoch": 0.09572916666666667,
      "grad_norm": 0.776465117931366,
      "learning_rate": 0.0002937855719358857,
      "loss": 3.9991,
      "step": 45950
    },
    {
      "epoch": 0.09575,
      "grad_norm": 0.7091624140739441,
      "learning_rate": 0.0002937827633622594,
      "loss": 4.024,
      "step": 45960
    },
    {
      "epoch": 0.09577083333333333,
      "grad_norm": 0.7408348321914673,
      "learning_rate": 0.0002937799541675485,
      "loss": 3.955,
      "step": 45970
    },
    {
      "epoch": 0.09579166666666666,
      "grad_norm": 0.7853039503097534,
      "learning_rate": 0.00029377714435176503,
      "loss": 4.1042,
      "step": 45980
    },
    {
      "epoch": 0.0958125,
      "grad_norm": 0.6806604266166687,
      "learning_rate": 0.0002937743339149213,
      "loss": 3.9942,
      "step": 45990
    },
    {
      "epoch": 0.09583333333333334,
      "grad_norm": 0.8249806761741638,
      "learning_rate": 0.00029377152285702934,
      "loss": 3.8743,
      "step": 46000
    },
    {
      "epoch": 0.09583333333333334,
      "eval_loss": 4.299300193786621,
      "eval_runtime": 12.5369,
      "eval_samples_per_second": 0.798,
      "eval_steps_per_second": 0.239,
      "step": 46000
    },
    {
      "epoch": 0.09585416666666667,
      "grad_norm": 0.8441017270088196,
      "learning_rate": 0.00029376871117810124,
      "loss": 3.6973,
      "step": 46010
    },
    {
      "epoch": 0.095875,
      "grad_norm": 0.8141298890113831,
      "learning_rate": 0.0002937658988781493,
      "loss": 3.9546,
      "step": 46020
    },
    {
      "epoch": 0.09589583333333333,
      "grad_norm": 0.8308836817741394,
      "learning_rate": 0.00029376308595718554,
      "loss": 4.0225,
      "step": 46030
    },
    {
      "epoch": 0.09591666666666666,
      "grad_norm": 0.8066573143005371,
      "learning_rate": 0.00029376027241522217,
      "loss": 4.0748,
      "step": 46040
    },
    {
      "epoch": 0.0959375,
      "grad_norm": 0.6995230913162231,
      "learning_rate": 0.0002937574582522713,
      "loss": 4.0718,
      "step": 46050
    },
    {
      "epoch": 0.09595833333333334,
      "grad_norm": 1.101096272468567,
      "learning_rate": 0.00029375464346834514,
      "loss": 4.1021,
      "step": 46060
    },
    {
      "epoch": 0.09597916666666667,
      "grad_norm": 0.8136130571365356,
      "learning_rate": 0.00029375182806345583,
      "loss": 4.1025,
      "step": 46070
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.8257946372032166,
      "learning_rate": 0.0002937490120376155,
      "loss": 3.9366,
      "step": 46080
    },
    {
      "epoch": 0.09602083333333333,
      "grad_norm": 0.9192647933959961,
      "learning_rate": 0.0002937461953908363,
      "loss": 4.0374,
      "step": 46090
    },
    {
      "epoch": 0.09604166666666666,
      "grad_norm": 0.8636994957923889,
      "learning_rate": 0.00029374337812313047,
      "loss": 4.038,
      "step": 46100
    },
    {
      "epoch": 0.0960625,
      "grad_norm": 0.7460533976554871,
      "learning_rate": 0.00029374056023451017,
      "loss": 4.0881,
      "step": 46110
    },
    {
      "epoch": 0.09608333333333334,
      "grad_norm": 0.7628961801528931,
      "learning_rate": 0.00029373774172498755,
      "loss": 3.8599,
      "step": 46120
    },
    {
      "epoch": 0.09610416666666667,
      "grad_norm": 0.8539522886276245,
      "learning_rate": 0.00029373492259457477,
      "loss": 3.9737,
      "step": 46130
    },
    {
      "epoch": 0.096125,
      "grad_norm": 0.7865321040153503,
      "learning_rate": 0.000293732102843284,
      "loss": 3.9836,
      "step": 46140
    },
    {
      "epoch": 0.09614583333333333,
      "grad_norm": 0.8417372107505798,
      "learning_rate": 0.0002937292824711275,
      "loss": 3.9105,
      "step": 46150
    },
    {
      "epoch": 0.09616666666666666,
      "grad_norm": 0.7831483483314514,
      "learning_rate": 0.0002937264614781173,
      "loss": 4.1743,
      "step": 46160
    },
    {
      "epoch": 0.0961875,
      "grad_norm": 0.8776770830154419,
      "learning_rate": 0.0002937236398642657,
      "loss": 4.1245,
      "step": 46170
    },
    {
      "epoch": 0.09620833333333334,
      "grad_norm": 0.7629642486572266,
      "learning_rate": 0.0002937208176295849,
      "loss": 3.7795,
      "step": 46180
    },
    {
      "epoch": 0.09622916666666667,
      "grad_norm": 0.8218974471092224,
      "learning_rate": 0.00029371799477408703,
      "loss": 3.8597,
      "step": 46190
    },
    {
      "epoch": 0.09625,
      "grad_norm": 0.7103642225265503,
      "learning_rate": 0.00029371517129778434,
      "loss": 3.9874,
      "step": 46200
    },
    {
      "epoch": 0.09627083333333333,
      "grad_norm": 0.9606780409812927,
      "learning_rate": 0.00029371234720068894,
      "loss": 3.8169,
      "step": 46210
    },
    {
      "epoch": 0.09629166666666666,
      "grad_norm": 0.9901225566864014,
      "learning_rate": 0.00029370952248281316,
      "loss": 4.1948,
      "step": 46220
    },
    {
      "epoch": 0.0963125,
      "grad_norm": 0.8903389573097229,
      "learning_rate": 0.0002937066971441691,
      "loss": 4.0652,
      "step": 46230
    },
    {
      "epoch": 0.09633333333333334,
      "grad_norm": 0.834360659122467,
      "learning_rate": 0.00029370387118476894,
      "loss": 4.1544,
      "step": 46240
    },
    {
      "epoch": 0.09635416666666667,
      "grad_norm": 0.8067901730537415,
      "learning_rate": 0.000293701044604625,
      "loss": 4.1274,
      "step": 46250
    },
    {
      "epoch": 0.096375,
      "grad_norm": 0.8308467268943787,
      "learning_rate": 0.0002936982174037494,
      "loss": 4.0566,
      "step": 46260
    },
    {
      "epoch": 0.09639583333333333,
      "grad_norm": 0.7196791768074036,
      "learning_rate": 0.00029369538958215436,
      "loss": 3.9862,
      "step": 46270
    },
    {
      "epoch": 0.09641666666666666,
      "grad_norm": 0.714933454990387,
      "learning_rate": 0.00029369256113985216,
      "loss": 3.9886,
      "step": 46280
    },
    {
      "epoch": 0.0964375,
      "grad_norm": 0.8049482107162476,
      "learning_rate": 0.00029368973207685495,
      "loss": 4.0938,
      "step": 46290
    },
    {
      "epoch": 0.09645833333333333,
      "grad_norm": 0.8619410395622253,
      "learning_rate": 0.000293686902393175,
      "loss": 3.9439,
      "step": 46300
    },
    {
      "epoch": 0.09647916666666667,
      "grad_norm": 0.7825434803962708,
      "learning_rate": 0.0002936840720888245,
      "loss": 3.9062,
      "step": 46310
    },
    {
      "epoch": 0.0965,
      "grad_norm": 1.0062544345855713,
      "learning_rate": 0.00029368124116381565,
      "loss": 3.8805,
      "step": 46320
    },
    {
      "epoch": 0.09652083333333333,
      "grad_norm": 0.7943782210350037,
      "learning_rate": 0.0002936784096181607,
      "loss": 3.9866,
      "step": 46330
    },
    {
      "epoch": 0.09654166666666666,
      "grad_norm": 0.9655819535255432,
      "learning_rate": 0.00029367557745187193,
      "loss": 3.9531,
      "step": 46340
    },
    {
      "epoch": 0.0965625,
      "grad_norm": 0.9315405488014221,
      "learning_rate": 0.00029367274466496156,
      "loss": 3.9954,
      "step": 46350
    },
    {
      "epoch": 0.09658333333333333,
      "grad_norm": 0.8463749289512634,
      "learning_rate": 0.0002936699112574418,
      "loss": 4.0735,
      "step": 46360
    },
    {
      "epoch": 0.09660416666666667,
      "grad_norm": 0.716788649559021,
      "learning_rate": 0.00029366707722932483,
      "loss": 4.0551,
      "step": 46370
    },
    {
      "epoch": 0.096625,
      "grad_norm": 0.7077880501747131,
      "learning_rate": 0.000293664242580623,
      "loss": 3.922,
      "step": 46380
    },
    {
      "epoch": 0.09664583333333333,
      "grad_norm": 0.8764641880989075,
      "learning_rate": 0.00029366140731134846,
      "loss": 3.9687,
      "step": 46390
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 0.7916440367698669,
      "learning_rate": 0.00029365857142151354,
      "loss": 4.2179,
      "step": 46400
    },
    {
      "epoch": 0.0966875,
      "grad_norm": 0.7199515104293823,
      "learning_rate": 0.00029365573491113047,
      "loss": 4.0171,
      "step": 46410
    },
    {
      "epoch": 0.09670833333333333,
      "grad_norm": 0.8514782786369324,
      "learning_rate": 0.0002936528977802115,
      "loss": 4.006,
      "step": 46420
    },
    {
      "epoch": 0.09672916666666667,
      "grad_norm": 0.8852013945579529,
      "learning_rate": 0.0002936500600287688,
      "loss": 3.9036,
      "step": 46430
    },
    {
      "epoch": 0.09675,
      "grad_norm": 0.8588011860847473,
      "learning_rate": 0.00029364722165681477,
      "loss": 4.0568,
      "step": 46440
    },
    {
      "epoch": 0.09677083333333333,
      "grad_norm": 0.8685310482978821,
      "learning_rate": 0.0002936443826643616,
      "loss": 3.9223,
      "step": 46450
    },
    {
      "epoch": 0.09679166666666666,
      "grad_norm": 0.7856481075286865,
      "learning_rate": 0.0002936415430514215,
      "loss": 3.8483,
      "step": 46460
    },
    {
      "epoch": 0.0968125,
      "grad_norm": 0.7501025795936584,
      "learning_rate": 0.00029363870281800685,
      "loss": 4.1985,
      "step": 46470
    },
    {
      "epoch": 0.09683333333333333,
      "grad_norm": 0.7500737309455872,
      "learning_rate": 0.00029363586196412984,
      "loss": 4.0021,
      "step": 46480
    },
    {
      "epoch": 0.09685416666666667,
      "grad_norm": 0.9198769330978394,
      "learning_rate": 0.00029363302048980274,
      "loss": 3.984,
      "step": 46490
    },
    {
      "epoch": 0.096875,
      "grad_norm": 0.7681224942207336,
      "learning_rate": 0.0002936301783950379,
      "loss": 4.0098,
      "step": 46500
    },
    {
      "epoch": 0.09689583333333333,
      "grad_norm": 0.9878162741661072,
      "learning_rate": 0.0002936273356798475,
      "loss": 3.9974,
      "step": 46510
    },
    {
      "epoch": 0.09691666666666666,
      "grad_norm": 0.7782607078552246,
      "learning_rate": 0.00029362449234424386,
      "loss": 4.0058,
      "step": 46520
    },
    {
      "epoch": 0.0969375,
      "grad_norm": 0.7389387488365173,
      "learning_rate": 0.0002936216483882393,
      "loss": 4.0637,
      "step": 46530
    },
    {
      "epoch": 0.09695833333333333,
      "grad_norm": 0.8099526762962341,
      "learning_rate": 0.000293618803811846,
      "loss": 4.0899,
      "step": 46540
    },
    {
      "epoch": 0.09697916666666667,
      "grad_norm": 0.8525927066802979,
      "learning_rate": 0.00029361595861507637,
      "loss": 3.9868,
      "step": 46550
    },
    {
      "epoch": 0.097,
      "grad_norm": 0.7432307004928589,
      "learning_rate": 0.0002936131127979426,
      "loss": 4.008,
      "step": 46560
    },
    {
      "epoch": 0.09702083333333333,
      "grad_norm": 0.849456250667572,
      "learning_rate": 0.0002936102663604571,
      "loss": 4.0013,
      "step": 46570
    },
    {
      "epoch": 0.09704166666666666,
      "grad_norm": 0.8985823392868042,
      "learning_rate": 0.0002936074193026321,
      "loss": 4.0003,
      "step": 46580
    },
    {
      "epoch": 0.0970625,
      "grad_norm": 0.7941288352012634,
      "learning_rate": 0.0002936045716244798,
      "loss": 3.9512,
      "step": 46590
    },
    {
      "epoch": 0.09708333333333333,
      "grad_norm": 0.7117406725883484,
      "learning_rate": 0.00029360172332601264,
      "loss": 4.107,
      "step": 46600
    },
    {
      "epoch": 0.09710416666666667,
      "grad_norm": 0.8271649479866028,
      "learning_rate": 0.0002935988744072429,
      "loss": 4.0049,
      "step": 46610
    },
    {
      "epoch": 0.097125,
      "grad_norm": 0.8262935876846313,
      "learning_rate": 0.00029359602486818284,
      "loss": 3.9537,
      "step": 46620
    },
    {
      "epoch": 0.09714583333333333,
      "grad_norm": 0.813737154006958,
      "learning_rate": 0.00029359317470884476,
      "loss": 3.9909,
      "step": 46630
    },
    {
      "epoch": 0.09716666666666667,
      "grad_norm": 0.8304045796394348,
      "learning_rate": 0.00029359032392924106,
      "loss": 4.2131,
      "step": 46640
    },
    {
      "epoch": 0.0971875,
      "grad_norm": 0.825265109539032,
      "learning_rate": 0.00029358747252938394,
      "loss": 4.1037,
      "step": 46650
    },
    {
      "epoch": 0.09720833333333333,
      "grad_norm": 0.7475466728210449,
      "learning_rate": 0.0002935846205092858,
      "loss": 4.085,
      "step": 46660
    },
    {
      "epoch": 0.09722916666666667,
      "grad_norm": 0.8651233911514282,
      "learning_rate": 0.00029358176786895896,
      "loss": 4.0821,
      "step": 46670
    },
    {
      "epoch": 0.09725,
      "grad_norm": 0.7834148406982422,
      "learning_rate": 0.0002935789146084157,
      "loss": 3.9834,
      "step": 46680
    },
    {
      "epoch": 0.09727083333333333,
      "grad_norm": 0.9636504650115967,
      "learning_rate": 0.0002935760607276684,
      "loss": 4.084,
      "step": 46690
    },
    {
      "epoch": 0.09729166666666667,
      "grad_norm": 0.8700416684150696,
      "learning_rate": 0.00029357320622672926,
      "loss": 3.9454,
      "step": 46700
    },
    {
      "epoch": 0.0973125,
      "grad_norm": 0.8495625257492065,
      "learning_rate": 0.0002935703511056108,
      "loss": 4.0206,
      "step": 46710
    },
    {
      "epoch": 0.09733333333333333,
      "grad_norm": 0.8255255222320557,
      "learning_rate": 0.00029356749536432514,
      "loss": 4.0458,
      "step": 46720
    },
    {
      "epoch": 0.09735416666666667,
      "grad_norm": 0.8789747953414917,
      "learning_rate": 0.0002935646390028848,
      "loss": 4.0792,
      "step": 46730
    },
    {
      "epoch": 0.097375,
      "grad_norm": 0.7113121747970581,
      "learning_rate": 0.00029356178202130206,
      "loss": 4.0351,
      "step": 46740
    },
    {
      "epoch": 0.09739583333333333,
      "grad_norm": 0.7882273197174072,
      "learning_rate": 0.00029355892441958924,
      "loss": 4.0773,
      "step": 46750
    },
    {
      "epoch": 0.09741666666666667,
      "grad_norm": 0.8116236329078674,
      "learning_rate": 0.00029355606619775864,
      "loss": 3.9887,
      "step": 46760
    },
    {
      "epoch": 0.0974375,
      "grad_norm": 0.8258769512176514,
      "learning_rate": 0.00029355320735582267,
      "loss": 4.1052,
      "step": 46770
    },
    {
      "epoch": 0.09745833333333333,
      "grad_norm": 0.7701417803764343,
      "learning_rate": 0.00029355034789379375,
      "loss": 4.0449,
      "step": 46780
    },
    {
      "epoch": 0.09747916666666667,
      "grad_norm": 0.7965903282165527,
      "learning_rate": 0.00029354748781168407,
      "loss": 3.9912,
      "step": 46790
    },
    {
      "epoch": 0.0975,
      "grad_norm": 0.7308945059776306,
      "learning_rate": 0.00029354462710950605,
      "loss": 3.9834,
      "step": 46800
    },
    {
      "epoch": 0.09752083333333333,
      "grad_norm": 0.7368971705436707,
      "learning_rate": 0.0002935417657872721,
      "loss": 3.8771,
      "step": 46810
    },
    {
      "epoch": 0.09754166666666667,
      "grad_norm": 0.8631055355072021,
      "learning_rate": 0.00029353890384499454,
      "loss": 3.939,
      "step": 46820
    },
    {
      "epoch": 0.0975625,
      "grad_norm": 0.7141445279121399,
      "learning_rate": 0.0002935360412826857,
      "loss": 3.7813,
      "step": 46830
    },
    {
      "epoch": 0.09758333333333333,
      "grad_norm": 0.8616940975189209,
      "learning_rate": 0.000293533178100358,
      "loss": 4.0156,
      "step": 46840
    },
    {
      "epoch": 0.09760416666666667,
      "grad_norm": 0.7957085967063904,
      "learning_rate": 0.00029353031429802377,
      "loss": 4.0405,
      "step": 46850
    },
    {
      "epoch": 0.097625,
      "grad_norm": 0.7393426299095154,
      "learning_rate": 0.0002935274498756954,
      "loss": 3.7949,
      "step": 46860
    },
    {
      "epoch": 0.09764583333333333,
      "grad_norm": 0.7329308390617371,
      "learning_rate": 0.0002935245848333853,
      "loss": 3.9535,
      "step": 46870
    },
    {
      "epoch": 0.09766666666666667,
      "grad_norm": 0.8251875042915344,
      "learning_rate": 0.0002935217191711058,
      "loss": 3.9549,
      "step": 46880
    },
    {
      "epoch": 0.0976875,
      "grad_norm": 0.8141350150108337,
      "learning_rate": 0.0002935188528888692,
      "loss": 3.8621,
      "step": 46890
    },
    {
      "epoch": 0.09770833333333333,
      "grad_norm": 1.0813504457473755,
      "learning_rate": 0.000293515985986688,
      "loss": 4.182,
      "step": 46900
    },
    {
      "epoch": 0.09772916666666667,
      "grad_norm": 0.7639939785003662,
      "learning_rate": 0.0002935131184645746,
      "loss": 3.9977,
      "step": 46910
    },
    {
      "epoch": 0.09775,
      "grad_norm": 0.7103754878044128,
      "learning_rate": 0.00029351025032254126,
      "loss": 4.1002,
      "step": 46920
    },
    {
      "epoch": 0.09777083333333333,
      "grad_norm": 0.69572913646698,
      "learning_rate": 0.00029350738156060053,
      "loss": 4.0071,
      "step": 46930
    },
    {
      "epoch": 0.09779166666666667,
      "grad_norm": 0.6946271061897278,
      "learning_rate": 0.00029350451217876466,
      "loss": 4.1441,
      "step": 46940
    },
    {
      "epoch": 0.0978125,
      "grad_norm": 0.7504689693450928,
      "learning_rate": 0.0002935016421770461,
      "loss": 3.9185,
      "step": 46950
    },
    {
      "epoch": 0.09783333333333333,
      "grad_norm": 0.7509973049163818,
      "learning_rate": 0.0002934987715554573,
      "loss": 3.9402,
      "step": 46960
    },
    {
      "epoch": 0.09785416666666667,
      "grad_norm": 0.6871477961540222,
      "learning_rate": 0.0002934959003140105,
      "loss": 3.9295,
      "step": 46970
    },
    {
      "epoch": 0.097875,
      "grad_norm": 0.8557692170143127,
      "learning_rate": 0.0002934930284527183,
      "loss": 4.1306,
      "step": 46980
    },
    {
      "epoch": 0.09789583333333333,
      "grad_norm": 1.0151721239089966,
      "learning_rate": 0.000293490155971593,
      "loss": 4.1212,
      "step": 46990
    },
    {
      "epoch": 0.09791666666666667,
      "grad_norm": 0.7988532781600952,
      "learning_rate": 0.00029348728287064704,
      "loss": 3.956,
      "step": 47000
    },
    {
      "epoch": 0.09791666666666667,
      "eval_loss": 4.286574363708496,
      "eval_runtime": 12.837,
      "eval_samples_per_second": 0.779,
      "eval_steps_per_second": 0.234,
      "step": 47000
    },
    {
      "epoch": 0.0979375,
      "grad_norm": 0.8488372564315796,
      "learning_rate": 0.00029348440914989273,
      "loss": 4.0811,
      "step": 47010
    },
    {
      "epoch": 0.09795833333333333,
      "grad_norm": 0.9412222504615784,
      "learning_rate": 0.00029348153480934265,
      "loss": 4.0637,
      "step": 47020
    },
    {
      "epoch": 0.09797916666666667,
      "grad_norm": 0.7563731670379639,
      "learning_rate": 0.0002934786598490091,
      "loss": 3.9543,
      "step": 47030
    },
    {
      "epoch": 0.098,
      "grad_norm": 0.8456201553344727,
      "learning_rate": 0.00029347578426890456,
      "loss": 3.9229,
      "step": 47040
    },
    {
      "epoch": 0.09802083333333333,
      "grad_norm": 0.8371520638465881,
      "learning_rate": 0.00029347290806904143,
      "loss": 3.8122,
      "step": 47050
    },
    {
      "epoch": 0.09804166666666667,
      "grad_norm": 0.7771221995353699,
      "learning_rate": 0.00029347003124943207,
      "loss": 4.1252,
      "step": 47060
    },
    {
      "epoch": 0.0980625,
      "grad_norm": 0.7986473441123962,
      "learning_rate": 0.000293467153810089,
      "loss": 3.9943,
      "step": 47070
    },
    {
      "epoch": 0.09808333333333333,
      "grad_norm": 0.8942128419876099,
      "learning_rate": 0.0002934642757510246,
      "loss": 3.9841,
      "step": 47080
    },
    {
      "epoch": 0.09810416666666667,
      "grad_norm": 0.9035899639129639,
      "learning_rate": 0.00029346139707225134,
      "loss": 3.7435,
      "step": 47090
    },
    {
      "epoch": 0.098125,
      "grad_norm": 0.8319689035415649,
      "learning_rate": 0.0002934585177737816,
      "loss": 3.894,
      "step": 47100
    },
    {
      "epoch": 0.09814583333333333,
      "grad_norm": 0.7116249203681946,
      "learning_rate": 0.0002934556378556279,
      "loss": 4.0223,
      "step": 47110
    },
    {
      "epoch": 0.09816666666666667,
      "grad_norm": 0.8204658031463623,
      "learning_rate": 0.0002934527573178026,
      "loss": 4.0601,
      "step": 47120
    },
    {
      "epoch": 0.0981875,
      "grad_norm": 0.883533239364624,
      "learning_rate": 0.00029344987616031817,
      "loss": 3.8983,
      "step": 47130
    },
    {
      "epoch": 0.09820833333333333,
      "grad_norm": 0.9911308884620667,
      "learning_rate": 0.000293446994383187,
      "loss": 4.0151,
      "step": 47140
    },
    {
      "epoch": 0.09822916666666667,
      "grad_norm": 0.7664318680763245,
      "learning_rate": 0.0002934441119864217,
      "loss": 4.0221,
      "step": 47150
    },
    {
      "epoch": 0.09825,
      "grad_norm": 0.8289836645126343,
      "learning_rate": 0.0002934412289700345,
      "loss": 4.1253,
      "step": 47160
    },
    {
      "epoch": 0.09827083333333334,
      "grad_norm": 0.8632632493972778,
      "learning_rate": 0.00029343834533403804,
      "loss": 3.9823,
      "step": 47170
    },
    {
      "epoch": 0.09829166666666667,
      "grad_norm": 0.895704984664917,
      "learning_rate": 0.0002934354610784447,
      "loss": 4.089,
      "step": 47180
    },
    {
      "epoch": 0.0983125,
      "grad_norm": 0.734760582447052,
      "learning_rate": 0.00029343257620326695,
      "loss": 3.9753,
      "step": 47190
    },
    {
      "epoch": 0.09833333333333333,
      "grad_norm": 0.9424364566802979,
      "learning_rate": 0.0002934296907085173,
      "loss": 3.9707,
      "step": 47200
    },
    {
      "epoch": 0.09835416666666667,
      "grad_norm": 0.8086329102516174,
      "learning_rate": 0.00029342680459420805,
      "loss": 4.017,
      "step": 47210
    },
    {
      "epoch": 0.098375,
      "grad_norm": 0.7572298645973206,
      "learning_rate": 0.0002934239178603518,
      "loss": 4.1001,
      "step": 47220
    },
    {
      "epoch": 0.09839583333333334,
      "grad_norm": 0.7728487253189087,
      "learning_rate": 0.00029342103050696103,
      "loss": 4.1189,
      "step": 47230
    },
    {
      "epoch": 0.09841666666666667,
      "grad_norm": 0.8716822862625122,
      "learning_rate": 0.0002934181425340482,
      "loss": 3.9293,
      "step": 47240
    },
    {
      "epoch": 0.0984375,
      "grad_norm": 0.8844538331031799,
      "learning_rate": 0.0002934152539416257,
      "loss": 4.1568,
      "step": 47250
    },
    {
      "epoch": 0.09845833333333333,
      "grad_norm": 0.7625339031219482,
      "learning_rate": 0.0002934123647297061,
      "loss": 3.91,
      "step": 47260
    },
    {
      "epoch": 0.09847916666666667,
      "grad_norm": 0.7267929315567017,
      "learning_rate": 0.00029340947489830184,
      "loss": 4.0305,
      "step": 47270
    },
    {
      "epoch": 0.0985,
      "grad_norm": 0.8579215407371521,
      "learning_rate": 0.0002934065844474254,
      "loss": 3.9841,
      "step": 47280
    },
    {
      "epoch": 0.09852083333333334,
      "grad_norm": 0.7883702516555786,
      "learning_rate": 0.00029340369337708933,
      "loss": 4.2355,
      "step": 47290
    },
    {
      "epoch": 0.09854166666666667,
      "grad_norm": 0.7911539673805237,
      "learning_rate": 0.00029340080168730603,
      "loss": 3.8045,
      "step": 47300
    },
    {
      "epoch": 0.0985625,
      "grad_norm": 0.7253926396369934,
      "learning_rate": 0.00029339790937808806,
      "loss": 4.0086,
      "step": 47310
    },
    {
      "epoch": 0.09858333333333333,
      "grad_norm": 0.8216734528541565,
      "learning_rate": 0.0002933950164494479,
      "loss": 3.9209,
      "step": 47320
    },
    {
      "epoch": 0.09860416666666667,
      "grad_norm": 0.8695818781852722,
      "learning_rate": 0.00029339212290139795,
      "loss": 4.2289,
      "step": 47330
    },
    {
      "epoch": 0.098625,
      "grad_norm": 0.7620000243186951,
      "learning_rate": 0.0002933892287339508,
      "loss": 3.9978,
      "step": 47340
    },
    {
      "epoch": 0.09864583333333334,
      "grad_norm": 0.7502625584602356,
      "learning_rate": 0.00029338633394711895,
      "loss": 4.2342,
      "step": 47350
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 0.8333707451820374,
      "learning_rate": 0.00029338343854091493,
      "loss": 4.1377,
      "step": 47360
    },
    {
      "epoch": 0.0986875,
      "grad_norm": 0.7773231863975525,
      "learning_rate": 0.0002933805425153512,
      "loss": 3.899,
      "step": 47370
    },
    {
      "epoch": 0.09870833333333333,
      "grad_norm": 0.7568817138671875,
      "learning_rate": 0.0002933776458704403,
      "loss": 3.919,
      "step": 47380
    },
    {
      "epoch": 0.09872916666666667,
      "grad_norm": 0.7336480021476746,
      "learning_rate": 0.0002933747486061947,
      "loss": 3.9067,
      "step": 47390
    },
    {
      "epoch": 0.09875,
      "grad_norm": 0.9175287485122681,
      "learning_rate": 0.0002933718507226269,
      "loss": 4.1145,
      "step": 47400
    },
    {
      "epoch": 0.09877083333333334,
      "grad_norm": 0.6970336437225342,
      "learning_rate": 0.00029336895221974946,
      "loss": 3.9954,
      "step": 47410
    },
    {
      "epoch": 0.09879166666666667,
      "grad_norm": 0.7734704613685608,
      "learning_rate": 0.00029336605309757493,
      "loss": 3.9061,
      "step": 47420
    },
    {
      "epoch": 0.0988125,
      "grad_norm": 0.8274029493331909,
      "learning_rate": 0.0002933631533561158,
      "loss": 3.8471,
      "step": 47430
    },
    {
      "epoch": 0.09883333333333333,
      "grad_norm": 0.788686215877533,
      "learning_rate": 0.0002933602529953846,
      "loss": 4.0784,
      "step": 47440
    },
    {
      "epoch": 0.09885416666666667,
      "grad_norm": 0.9297365546226501,
      "learning_rate": 0.00029335735201539383,
      "loss": 3.8914,
      "step": 47450
    },
    {
      "epoch": 0.098875,
      "grad_norm": 0.7887527942657471,
      "learning_rate": 0.0002933544504161561,
      "loss": 3.8535,
      "step": 47460
    },
    {
      "epoch": 0.09889583333333334,
      "grad_norm": 0.7966414093971252,
      "learning_rate": 0.0002933515481976838,
      "loss": 4.0694,
      "step": 47470
    },
    {
      "epoch": 0.09891666666666667,
      "grad_norm": 0.7667539119720459,
      "learning_rate": 0.0002933486453599896,
      "loss": 4.0607,
      "step": 47480
    },
    {
      "epoch": 0.0989375,
      "grad_norm": 0.9922259449958801,
      "learning_rate": 0.000293345741903086,
      "loss": 3.9776,
      "step": 47490
    },
    {
      "epoch": 0.09895833333333333,
      "grad_norm": 0.8321512937545776,
      "learning_rate": 0.0002933428378269855,
      "loss": 3.941,
      "step": 47500
    },
    {
      "epoch": 0.09897916666666666,
      "grad_norm": 0.873842179775238,
      "learning_rate": 0.00029333993313170075,
      "loss": 4.1358,
      "step": 47510
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.7720524072647095,
      "learning_rate": 0.00029333702781724413,
      "loss": 3.946,
      "step": 47520
    },
    {
      "epoch": 0.09902083333333334,
      "grad_norm": 0.7630630731582642,
      "learning_rate": 0.0002933341218836284,
      "loss": 3.9112,
      "step": 47530
    },
    {
      "epoch": 0.09904166666666667,
      "grad_norm": 0.7275964617729187,
      "learning_rate": 0.0002933312153308659,
      "loss": 4.081,
      "step": 47540
    },
    {
      "epoch": 0.0990625,
      "grad_norm": 0.9284539222717285,
      "learning_rate": 0.0002933283081589693,
      "loss": 4.0526,
      "step": 47550
    },
    {
      "epoch": 0.09908333333333333,
      "grad_norm": 0.9822106957435608,
      "learning_rate": 0.0002933254003679512,
      "loss": 4.1105,
      "step": 47560
    },
    {
      "epoch": 0.09910416666666666,
      "grad_norm": 0.8202856779098511,
      "learning_rate": 0.0002933224919578241,
      "loss": 3.9995,
      "step": 47570
    },
    {
      "epoch": 0.099125,
      "grad_norm": 0.8212708234786987,
      "learning_rate": 0.0002933195829286005,
      "loss": 4.076,
      "step": 47580
    },
    {
      "epoch": 0.09914583333333334,
      "grad_norm": 0.7797238230705261,
      "learning_rate": 0.000293316673280293,
      "loss": 3.9969,
      "step": 47590
    },
    {
      "epoch": 0.09916666666666667,
      "grad_norm": 0.8424199819564819,
      "learning_rate": 0.0002933137630129143,
      "loss": 3.9508,
      "step": 47600
    },
    {
      "epoch": 0.0991875,
      "grad_norm": 0.7882276177406311,
      "learning_rate": 0.0002933108521264768,
      "loss": 4.0074,
      "step": 47610
    },
    {
      "epoch": 0.09920833333333333,
      "grad_norm": 0.8117292523384094,
      "learning_rate": 0.00029330794062099323,
      "loss": 4.1246,
      "step": 47620
    },
    {
      "epoch": 0.09922916666666666,
      "grad_norm": 0.8007997870445251,
      "learning_rate": 0.000293305028496476,
      "loss": 4.1091,
      "step": 47630
    },
    {
      "epoch": 0.09925,
      "grad_norm": 0.8753410577774048,
      "learning_rate": 0.00029330211575293784,
      "loss": 3.9582,
      "step": 47640
    },
    {
      "epoch": 0.09927083333333334,
      "grad_norm": 0.8327863812446594,
      "learning_rate": 0.00029329920239039124,
      "loss": 4.1667,
      "step": 47650
    },
    {
      "epoch": 0.09929166666666667,
      "grad_norm": 0.6958761811256409,
      "learning_rate": 0.00029329628840884874,
      "loss": 3.9031,
      "step": 47660
    },
    {
      "epoch": 0.0993125,
      "grad_norm": 0.7629930973052979,
      "learning_rate": 0.0002932933738083231,
      "loss": 3.8925,
      "step": 47670
    },
    {
      "epoch": 0.09933333333333333,
      "grad_norm": 0.7567424178123474,
      "learning_rate": 0.00029329045858882667,
      "loss": 4.1094,
      "step": 47680
    },
    {
      "epoch": 0.09935416666666666,
      "grad_norm": 0.7268300652503967,
      "learning_rate": 0.0002932875427503723,
      "loss": 4.152,
      "step": 47690
    },
    {
      "epoch": 0.099375,
      "grad_norm": 0.7327772378921509,
      "learning_rate": 0.00029328462629297245,
      "loss": 3.9603,
      "step": 47700
    },
    {
      "epoch": 0.09939583333333334,
      "grad_norm": 0.709102988243103,
      "learning_rate": 0.0002932817092166397,
      "loss": 3.9712,
      "step": 47710
    },
    {
      "epoch": 0.09941666666666667,
      "grad_norm": 0.8208205103874207,
      "learning_rate": 0.0002932787915213867,
      "loss": 3.9861,
      "step": 47720
    },
    {
      "epoch": 0.0994375,
      "grad_norm": 0.7061445713043213,
      "learning_rate": 0.000293275873207226,
      "loss": 4.0136,
      "step": 47730
    },
    {
      "epoch": 0.09945833333333333,
      "grad_norm": 0.7958305478096008,
      "learning_rate": 0.00029327295427417023,
      "loss": 3.8072,
      "step": 47740
    },
    {
      "epoch": 0.09947916666666666,
      "grad_norm": 0.9317709803581238,
      "learning_rate": 0.000293270034722232,
      "loss": 4.0987,
      "step": 47750
    },
    {
      "epoch": 0.0995,
      "grad_norm": 0.7192344665527344,
      "learning_rate": 0.000293267114551424,
      "loss": 3.8612,
      "step": 47760
    },
    {
      "epoch": 0.09952083333333334,
      "grad_norm": 0.8794879913330078,
      "learning_rate": 0.00029326419376175876,
      "loss": 3.9788,
      "step": 47770
    },
    {
      "epoch": 0.09954166666666667,
      "grad_norm": 0.9681157469749451,
      "learning_rate": 0.00029326127235324885,
      "loss": 3.8749,
      "step": 47780
    },
    {
      "epoch": 0.0995625,
      "grad_norm": 0.8535354733467102,
      "learning_rate": 0.000293258350325907,
      "loss": 3.8568,
      "step": 47790
    },
    {
      "epoch": 0.09958333333333333,
      "grad_norm": 0.7619017958641052,
      "learning_rate": 0.00029325542767974575,
      "loss": 4.014,
      "step": 47800
    },
    {
      "epoch": 0.09960416666666666,
      "grad_norm": 0.802689790725708,
      "learning_rate": 0.0002932525044147778,
      "loss": 3.9159,
      "step": 47810
    },
    {
      "epoch": 0.099625,
      "grad_norm": 0.8904974460601807,
      "learning_rate": 0.0002932495805310157,
      "loss": 4.0193,
      "step": 47820
    },
    {
      "epoch": 0.09964583333333334,
      "grad_norm": 0.8420990705490112,
      "learning_rate": 0.00029324665602847215,
      "loss": 3.9607,
      "step": 47830
    },
    {
      "epoch": 0.09966666666666667,
      "grad_norm": 0.7978883981704712,
      "learning_rate": 0.0002932437309071597,
      "loss": 4.1455,
      "step": 47840
    },
    {
      "epoch": 0.0996875,
      "grad_norm": 0.8461341261863708,
      "learning_rate": 0.0002932408051670911,
      "loss": 3.8847,
      "step": 47850
    },
    {
      "epoch": 0.09970833333333333,
      "grad_norm": 0.7385954260826111,
      "learning_rate": 0.00029323787880827887,
      "loss": 3.8897,
      "step": 47860
    },
    {
      "epoch": 0.09972916666666666,
      "grad_norm": 0.7400155067443848,
      "learning_rate": 0.0002932349518307357,
      "loss": 4.0359,
      "step": 47870
    },
    {
      "epoch": 0.09975,
      "grad_norm": 0.7641866207122803,
      "learning_rate": 0.0002932320242344743,
      "loss": 3.9807,
      "step": 47880
    },
    {
      "epoch": 0.09977083333333334,
      "grad_norm": 0.7876996397972107,
      "learning_rate": 0.00029322909601950717,
      "loss": 3.977,
      "step": 47890
    },
    {
      "epoch": 0.09979166666666667,
      "grad_norm": 0.8762141466140747,
      "learning_rate": 0.00029322616718584704,
      "loss": 3.8671,
      "step": 47900
    },
    {
      "epoch": 0.0998125,
      "grad_norm": 0.78408282995224,
      "learning_rate": 0.0002932232377335066,
      "loss": 3.9272,
      "step": 47910
    },
    {
      "epoch": 0.09983333333333333,
      "grad_norm": 0.791938304901123,
      "learning_rate": 0.0002932203076624984,
      "loss": 4.1735,
      "step": 47920
    },
    {
      "epoch": 0.09985416666666666,
      "grad_norm": 0.8397022485733032,
      "learning_rate": 0.00029321737697283524,
      "loss": 4.0246,
      "step": 47930
    },
    {
      "epoch": 0.099875,
      "grad_norm": 0.845992922782898,
      "learning_rate": 0.00029321444566452967,
      "loss": 4.0681,
      "step": 47940
    },
    {
      "epoch": 0.09989583333333334,
      "grad_norm": 0.8215623497962952,
      "learning_rate": 0.0002932115137375944,
      "loss": 3.9697,
      "step": 47950
    },
    {
      "epoch": 0.09991666666666667,
      "grad_norm": 0.8136407136917114,
      "learning_rate": 0.00029320858119204207,
      "loss": 4.074,
      "step": 47960
    },
    {
      "epoch": 0.0999375,
      "grad_norm": 0.8700049519538879,
      "learning_rate": 0.0002932056480278853,
      "loss": 4.0678,
      "step": 47970
    },
    {
      "epoch": 0.09995833333333333,
      "grad_norm": 0.7943379282951355,
      "learning_rate": 0.0002932027142451369,
      "loss": 3.9094,
      "step": 47980
    },
    {
      "epoch": 0.09997916666666666,
      "grad_norm": 0.857939600944519,
      "learning_rate": 0.00029319977984380944,
      "loss": 4.0355,
      "step": 47990
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8543757796287537,
      "learning_rate": 0.0002931968448239156,
      "loss": 4.0474,
      "step": 48000
    },
    {
      "epoch": 0.1,
      "eval_loss": 4.289906978607178,
      "eval_runtime": 10.053,
      "eval_samples_per_second": 0.995,
      "eval_steps_per_second": 0.298,
      "step": 48000
    },
    {
      "epoch": 0.10002083333333334,
      "grad_norm": 0.8843062520027161,
      "learning_rate": 0.00029319390918546804,
      "loss": 3.9355,
      "step": 48010
    },
    {
      "epoch": 0.10004166666666667,
      "grad_norm": 0.816810131072998,
      "learning_rate": 0.0002931909729284795,
      "loss": 3.9121,
      "step": 48020
    },
    {
      "epoch": 0.1000625,
      "grad_norm": 0.773061215877533,
      "learning_rate": 0.00029318803605296264,
      "loss": 3.8712,
      "step": 48030
    },
    {
      "epoch": 0.10008333333333333,
      "grad_norm": 0.8586753010749817,
      "learning_rate": 0.0002931850985589301,
      "loss": 4.0974,
      "step": 48040
    },
    {
      "epoch": 0.10010416666666666,
      "grad_norm": 0.8092135190963745,
      "learning_rate": 0.00029318216044639463,
      "loss": 4.0471,
      "step": 48050
    },
    {
      "epoch": 0.100125,
      "grad_norm": 0.7748659253120422,
      "learning_rate": 0.00029317922171536896,
      "loss": 4.0627,
      "step": 48060
    },
    {
      "epoch": 0.10014583333333334,
      "grad_norm": 0.8715799450874329,
      "learning_rate": 0.0002931762823658657,
      "loss": 4.0038,
      "step": 48070
    },
    {
      "epoch": 0.10016666666666667,
      "grad_norm": 0.8398181200027466,
      "learning_rate": 0.0002931733423978975,
      "loss": 3.9143,
      "step": 48080
    },
    {
      "epoch": 0.1001875,
      "grad_norm": 0.8415820002555847,
      "learning_rate": 0.0002931704018114772,
      "loss": 4.1442,
      "step": 48090
    },
    {
      "epoch": 0.10020833333333333,
      "grad_norm": 0.7531724572181702,
      "learning_rate": 0.00029316746060661746,
      "loss": 3.9571,
      "step": 48100
    },
    {
      "epoch": 0.10022916666666666,
      "grad_norm": 0.752133309841156,
      "learning_rate": 0.0002931645187833309,
      "loss": 3.8803,
      "step": 48110
    },
    {
      "epoch": 0.10025,
      "grad_norm": 0.9217782020568848,
      "learning_rate": 0.00029316157634163035,
      "loss": 4.0354,
      "step": 48120
    },
    {
      "epoch": 0.10027083333333334,
      "grad_norm": 0.8473939895629883,
      "learning_rate": 0.0002931586332815284,
      "loss": 3.9859,
      "step": 48130
    },
    {
      "epoch": 0.10029166666666667,
      "grad_norm": 0.8177861571311951,
      "learning_rate": 0.00029315568960303784,
      "loss": 4.085,
      "step": 48140
    },
    {
      "epoch": 0.1003125,
      "grad_norm": 0.8352412581443787,
      "learning_rate": 0.0002931527453061714,
      "loss": 3.9094,
      "step": 48150
    },
    {
      "epoch": 0.10033333333333333,
      "grad_norm": 0.7417232394218445,
      "learning_rate": 0.0002931498003909417,
      "loss": 4.0231,
      "step": 48160
    },
    {
      "epoch": 0.10035416666666666,
      "grad_norm": 0.8653228878974915,
      "learning_rate": 0.0002931468548573616,
      "loss": 3.9814,
      "step": 48170
    },
    {
      "epoch": 0.100375,
      "grad_norm": 0.8144654035568237,
      "learning_rate": 0.0002931439087054436,
      "loss": 4.063,
      "step": 48180
    },
    {
      "epoch": 0.10039583333333334,
      "grad_norm": 0.7889935970306396,
      "learning_rate": 0.00029314096193520077,
      "loss": 3.8462,
      "step": 48190
    },
    {
      "epoch": 0.10041666666666667,
      "grad_norm": 0.8404820561408997,
      "learning_rate": 0.00029313801454664554,
      "loss": 4.0805,
      "step": 48200
    },
    {
      "epoch": 0.1004375,
      "grad_norm": 0.7923071384429932,
      "learning_rate": 0.00029313506653979074,
      "loss": 3.9353,
      "step": 48210
    },
    {
      "epoch": 0.10045833333333333,
      "grad_norm": 0.8893242478370667,
      "learning_rate": 0.0002931321179146491,
      "loss": 4.1147,
      "step": 48220
    },
    {
      "epoch": 0.10047916666666666,
      "grad_norm": 0.886955976486206,
      "learning_rate": 0.00029312916867123344,
      "loss": 4.1148,
      "step": 48230
    },
    {
      "epoch": 0.1005,
      "grad_norm": 0.7061347365379333,
      "learning_rate": 0.00029312621880955636,
      "loss": 3.8669,
      "step": 48240
    },
    {
      "epoch": 0.10052083333333334,
      "grad_norm": 0.8133607506752014,
      "learning_rate": 0.0002931232683296307,
      "loss": 4.0559,
      "step": 48250
    },
    {
      "epoch": 0.10054166666666667,
      "grad_norm": 0.7835643887519836,
      "learning_rate": 0.00029312031723146913,
      "loss": 3.9161,
      "step": 48260
    },
    {
      "epoch": 0.1005625,
      "grad_norm": 0.8083547353744507,
      "learning_rate": 0.00029311736551508453,
      "loss": 4.1201,
      "step": 48270
    },
    {
      "epoch": 0.10058333333333333,
      "grad_norm": 0.8246859908103943,
      "learning_rate": 0.00029311441318048947,
      "loss": 3.9337,
      "step": 48280
    },
    {
      "epoch": 0.10060416666666666,
      "grad_norm": 0.801796019077301,
      "learning_rate": 0.0002931114602276968,
      "loss": 4.0163,
      "step": 48290
    },
    {
      "epoch": 0.100625,
      "grad_norm": 0.7840844392776489,
      "learning_rate": 0.0002931085066567193,
      "loss": 4.0318,
      "step": 48300
    },
    {
      "epoch": 0.10064583333333334,
      "grad_norm": 0.7900235056877136,
      "learning_rate": 0.00029310555246756973,
      "loss": 4.0952,
      "step": 48310
    },
    {
      "epoch": 0.10066666666666667,
      "grad_norm": 0.8517465591430664,
      "learning_rate": 0.00029310259766026075,
      "loss": 4.0203,
      "step": 48320
    },
    {
      "epoch": 0.1006875,
      "grad_norm": 0.7868654131889343,
      "learning_rate": 0.0002930996422348052,
      "loss": 3.9934,
      "step": 48330
    },
    {
      "epoch": 0.10070833333333333,
      "grad_norm": 0.8206043839454651,
      "learning_rate": 0.0002930966861912159,
      "loss": 4.0506,
      "step": 48340
    },
    {
      "epoch": 0.10072916666666666,
      "grad_norm": 1.0599678754806519,
      "learning_rate": 0.0002930937295295055,
      "loss": 3.7486,
      "step": 48350
    },
    {
      "epoch": 0.10075,
      "grad_norm": 0.714768648147583,
      "learning_rate": 0.00029309077224968686,
      "loss": 4.0196,
      "step": 48360
    },
    {
      "epoch": 0.10077083333333334,
      "grad_norm": 0.7742012739181519,
      "learning_rate": 0.00029308781435177274,
      "loss": 4.3208,
      "step": 48370
    },
    {
      "epoch": 0.10079166666666667,
      "grad_norm": 0.7835144400596619,
      "learning_rate": 0.0002930848558357758,
      "loss": 3.9986,
      "step": 48380
    },
    {
      "epoch": 0.1008125,
      "grad_norm": 0.8875382542610168,
      "learning_rate": 0.00029308189670170903,
      "loss": 3.8927,
      "step": 48390
    },
    {
      "epoch": 0.10083333333333333,
      "grad_norm": 0.8478334546089172,
      "learning_rate": 0.00029307893694958503,
      "loss": 3.9623,
      "step": 48400
    },
    {
      "epoch": 0.10085416666666666,
      "grad_norm": 0.7733252644538879,
      "learning_rate": 0.0002930759765794167,
      "loss": 3.9346,
      "step": 48410
    },
    {
      "epoch": 0.100875,
      "grad_norm": 0.7413328886032104,
      "learning_rate": 0.0002930730155912168,
      "loss": 3.9085,
      "step": 48420
    },
    {
      "epoch": 0.10089583333333334,
      "grad_norm": 0.9449418783187866,
      "learning_rate": 0.0002930700539849981,
      "loss": 4.0404,
      "step": 48430
    },
    {
      "epoch": 0.10091666666666667,
      "grad_norm": 0.7948735952377319,
      "learning_rate": 0.00029306709176077334,
      "loss": 3.927,
      "step": 48440
    },
    {
      "epoch": 0.1009375,
      "grad_norm": 0.7707638740539551,
      "learning_rate": 0.0002930641289185554,
      "loss": 3.8619,
      "step": 48450
    },
    {
      "epoch": 0.10095833333333333,
      "grad_norm": 0.8079097867012024,
      "learning_rate": 0.0002930611654583571,
      "loss": 4.0775,
      "step": 48460
    },
    {
      "epoch": 0.10097916666666666,
      "grad_norm": 0.7329848408699036,
      "learning_rate": 0.0002930582013801911,
      "loss": 4.0869,
      "step": 48470
    },
    {
      "epoch": 0.101,
      "grad_norm": 0.8265479207038879,
      "learning_rate": 0.00029305523668407037,
      "loss": 3.9796,
      "step": 48480
    },
    {
      "epoch": 0.10102083333333334,
      "grad_norm": 0.8349348306655884,
      "learning_rate": 0.0002930522713700076,
      "loss": 3.9687,
      "step": 48490
    },
    {
      "epoch": 0.10104166666666667,
      "grad_norm": 0.7911477088928223,
      "learning_rate": 0.0002930493054380157,
      "loss": 4.054,
      "step": 48500
    },
    {
      "epoch": 0.1010625,
      "grad_norm": 0.9646768569946289,
      "learning_rate": 0.0002930463388881074,
      "loss": 3.9227,
      "step": 48510
    },
    {
      "epoch": 0.10108333333333333,
      "grad_norm": 0.6918789744377136,
      "learning_rate": 0.0002930433717202955,
      "loss": 3.9203,
      "step": 48520
    },
    {
      "epoch": 0.10110416666666666,
      "grad_norm": 0.8314200639724731,
      "learning_rate": 0.0002930404039345929,
      "loss": 4.0931,
      "step": 48530
    },
    {
      "epoch": 0.101125,
      "grad_norm": 0.8475630879402161,
      "learning_rate": 0.00029303743553101236,
      "loss": 4.1129,
      "step": 48540
    },
    {
      "epoch": 0.10114583333333334,
      "grad_norm": 0.8553993105888367,
      "learning_rate": 0.00029303446650956667,
      "loss": 4.0284,
      "step": 48550
    },
    {
      "epoch": 0.10116666666666667,
      "grad_norm": 0.6581719517707825,
      "learning_rate": 0.0002930314968702688,
      "loss": 3.8942,
      "step": 48560
    },
    {
      "epoch": 0.1011875,
      "grad_norm": 0.6285997033119202,
      "learning_rate": 0.0002930285266131314,
      "loss": 4.0276,
      "step": 48570
    },
    {
      "epoch": 0.10120833333333333,
      "grad_norm": 0.7463507652282715,
      "learning_rate": 0.0002930255557381674,
      "loss": 3.9576,
      "step": 48580
    },
    {
      "epoch": 0.10122916666666666,
      "grad_norm": 0.8259686231613159,
      "learning_rate": 0.00029302258424538963,
      "loss": 4.0482,
      "step": 48590
    },
    {
      "epoch": 0.10125,
      "grad_norm": 0.8114915490150452,
      "learning_rate": 0.0002930196121348109,
      "loss": 4.0009,
      "step": 48600
    },
    {
      "epoch": 0.10127083333333334,
      "grad_norm": 0.8224873542785645,
      "learning_rate": 0.000293016639406444,
      "loss": 3.9391,
      "step": 48610
    },
    {
      "epoch": 0.10129166666666667,
      "grad_norm": 0.78005051612854,
      "learning_rate": 0.00029301366606030186,
      "loss": 3.8487,
      "step": 48620
    },
    {
      "epoch": 0.1013125,
      "grad_norm": 0.8872798085212708,
      "learning_rate": 0.00029301069209639735,
      "loss": 4.0259,
      "step": 48630
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 0.7924345135688782,
      "learning_rate": 0.0002930077175147432,
      "loss": 3.8465,
      "step": 48640
    },
    {
      "epoch": 0.10135416666666666,
      "grad_norm": 0.7517092823982239,
      "learning_rate": 0.00029300474231535234,
      "loss": 4.0916,
      "step": 48650
    },
    {
      "epoch": 0.101375,
      "grad_norm": 0.7913499474525452,
      "learning_rate": 0.0002930017664982376,
      "loss": 4.0741,
      "step": 48660
    },
    {
      "epoch": 0.10139583333333334,
      "grad_norm": 0.7412816286087036,
      "learning_rate": 0.0002929987900634118,
      "loss": 3.8859,
      "step": 48670
    },
    {
      "epoch": 0.10141666666666667,
      "grad_norm": 0.7289633750915527,
      "learning_rate": 0.0002929958130108879,
      "loss": 4.1113,
      "step": 48680
    },
    {
      "epoch": 0.1014375,
      "grad_norm": 0.7767918109893799,
      "learning_rate": 0.00029299283534067863,
      "loss": 4.0098,
      "step": 48690
    },
    {
      "epoch": 0.10145833333333333,
      "grad_norm": 0.7512784004211426,
      "learning_rate": 0.00029298985705279696,
      "loss": 3.9756,
      "step": 48700
    },
    {
      "epoch": 0.10147916666666666,
      "grad_norm": 0.7407847046852112,
      "learning_rate": 0.0002929868781472556,
      "loss": 4.0508,
      "step": 48710
    },
    {
      "epoch": 0.1015,
      "grad_norm": 0.7690333724021912,
      "learning_rate": 0.00029298389862406765,
      "loss": 3.9943,
      "step": 48720
    },
    {
      "epoch": 0.10152083333333334,
      "grad_norm": 0.7743546366691589,
      "learning_rate": 0.00029298091848324576,
      "loss": 4.0104,
      "step": 48730
    },
    {
      "epoch": 0.10154166666666667,
      "grad_norm": 0.8832343816757202,
      "learning_rate": 0.00029297793772480296,
      "loss": 3.9181,
      "step": 48740
    },
    {
      "epoch": 0.1015625,
      "grad_norm": 0.8318539261817932,
      "learning_rate": 0.000292974956348752,
      "loss": 3.9926,
      "step": 48750
    },
    {
      "epoch": 0.10158333333333333,
      "grad_norm": 0.8682903051376343,
      "learning_rate": 0.0002929719743551059,
      "loss": 3.9908,
      "step": 48760
    },
    {
      "epoch": 0.10160416666666666,
      "grad_norm": 0.8463100790977478,
      "learning_rate": 0.0002929689917438774,
      "loss": 4.0358,
      "step": 48770
    },
    {
      "epoch": 0.101625,
      "grad_norm": 0.9606810808181763,
      "learning_rate": 0.0002929660085150795,
      "loss": 3.8609,
      "step": 48780
    },
    {
      "epoch": 0.10164583333333334,
      "grad_norm": 0.8414937853813171,
      "learning_rate": 0.00029296302466872505,
      "loss": 4.0187,
      "step": 48790
    },
    {
      "epoch": 0.10166666666666667,
      "grad_norm": 0.753025233745575,
      "learning_rate": 0.00029296004020482687,
      "loss": 3.9163,
      "step": 48800
    },
    {
      "epoch": 0.1016875,
      "grad_norm": 0.7454790472984314,
      "learning_rate": 0.0002929570551233979,
      "loss": 4.1404,
      "step": 48810
    },
    {
      "epoch": 0.10170833333333333,
      "grad_norm": 0.8382830619812012,
      "learning_rate": 0.00029295406942445105,
      "loss": 4.0039,
      "step": 48820
    },
    {
      "epoch": 0.10172916666666666,
      "grad_norm": 0.8115407824516296,
      "learning_rate": 0.0002929510831079992,
      "loss": 4.0264,
      "step": 48830
    },
    {
      "epoch": 0.10175,
      "grad_norm": 0.8527920246124268,
      "learning_rate": 0.0002929480961740553,
      "loss": 4.0552,
      "step": 48840
    },
    {
      "epoch": 0.10177083333333334,
      "grad_norm": 0.6670491099357605,
      "learning_rate": 0.0002929451086226321,
      "loss": 3.9676,
      "step": 48850
    },
    {
      "epoch": 0.10179166666666667,
      "grad_norm": 0.9203506112098694,
      "learning_rate": 0.00029294212045374277,
      "loss": 3.9041,
      "step": 48860
    },
    {
      "epoch": 0.1018125,
      "grad_norm": 1.0079104900360107,
      "learning_rate": 0.00029293913166739995,
      "loss": 4.2032,
      "step": 48870
    },
    {
      "epoch": 0.10183333333333333,
      "grad_norm": 0.7375483512878418,
      "learning_rate": 0.0002929361422636167,
      "loss": 4.0414,
      "step": 48880
    },
    {
      "epoch": 0.10185416666666666,
      "grad_norm": 0.7357567548751831,
      "learning_rate": 0.00029293315224240585,
      "loss": 3.8608,
      "step": 48890
    },
    {
      "epoch": 0.101875,
      "grad_norm": 0.872169554233551,
      "learning_rate": 0.0002929301616037804,
      "loss": 3.8202,
      "step": 48900
    },
    {
      "epoch": 0.10189583333333334,
      "grad_norm": 0.7828966379165649,
      "learning_rate": 0.00029292717034775317,
      "loss": 4.0236,
      "step": 48910
    },
    {
      "epoch": 0.10191666666666667,
      "grad_norm": 0.744910478591919,
      "learning_rate": 0.0002929241784743372,
      "loss": 3.7734,
      "step": 48920
    },
    {
      "epoch": 0.1019375,
      "grad_norm": 0.8325081467628479,
      "learning_rate": 0.0002929211859835453,
      "loss": 4.1502,
      "step": 48930
    },
    {
      "epoch": 0.10195833333333333,
      "grad_norm": 0.7611968517303467,
      "learning_rate": 0.0002929181928753905,
      "loss": 4.1402,
      "step": 48940
    },
    {
      "epoch": 0.10197916666666666,
      "grad_norm": 0.7041853666305542,
      "learning_rate": 0.0002929151991498857,
      "loss": 3.8247,
      "step": 48950
    },
    {
      "epoch": 0.102,
      "grad_norm": 1.2178140878677368,
      "learning_rate": 0.00029291220480704376,
      "loss": 3.9907,
      "step": 48960
    },
    {
      "epoch": 0.10202083333333334,
      "grad_norm": 0.8013404607772827,
      "learning_rate": 0.00029290920984687766,
      "loss": 4.0456,
      "step": 48970
    },
    {
      "epoch": 0.10204166666666667,
      "grad_norm": 0.911751925945282,
      "learning_rate": 0.00029290621426940035,
      "loss": 3.9297,
      "step": 48980
    },
    {
      "epoch": 0.1020625,
      "grad_norm": 0.7358882427215576,
      "learning_rate": 0.0002929032180746248,
      "loss": 4.0997,
      "step": 48990
    },
    {
      "epoch": 0.10208333333333333,
      "grad_norm": 0.7615472078323364,
      "learning_rate": 0.00029290022126256384,
      "loss": 3.9868,
      "step": 49000
    },
    {
      "epoch": 0.10208333333333333,
      "eval_loss": 4.279221534729004,
      "eval_runtime": 11.132,
      "eval_samples_per_second": 0.898,
      "eval_steps_per_second": 0.269,
      "step": 49000
    },
    {
      "epoch": 0.10210416666666666,
      "grad_norm": 0.9754301309585571,
      "learning_rate": 0.0002928972238332305,
      "loss": 3.9163,
      "step": 49010
    },
    {
      "epoch": 0.102125,
      "grad_norm": 0.7644997835159302,
      "learning_rate": 0.0002928942257866378,
      "loss": 3.9264,
      "step": 49020
    },
    {
      "epoch": 0.10214583333333334,
      "grad_norm": 0.9104974865913391,
      "learning_rate": 0.0002928912271227985,
      "loss": 3.9533,
      "step": 49030
    },
    {
      "epoch": 0.10216666666666667,
      "grad_norm": 0.7123526334762573,
      "learning_rate": 0.0002928882278417257,
      "loss": 4.0344,
      "step": 49040
    },
    {
      "epoch": 0.1021875,
      "grad_norm": 0.7307769060134888,
      "learning_rate": 0.0002928852279434323,
      "loss": 4.0587,
      "step": 49050
    },
    {
      "epoch": 0.10220833333333333,
      "grad_norm": 0.7550917863845825,
      "learning_rate": 0.0002928822274279313,
      "loss": 3.9351,
      "step": 49060
    },
    {
      "epoch": 0.10222916666666666,
      "grad_norm": 0.7527019381523132,
      "learning_rate": 0.00029287922629523566,
      "loss": 4.1098,
      "step": 49070
    },
    {
      "epoch": 0.10225,
      "grad_norm": 0.8842973709106445,
      "learning_rate": 0.0002928762245453583,
      "loss": 3.9981,
      "step": 49080
    },
    {
      "epoch": 0.10227083333333334,
      "grad_norm": 0.8290863037109375,
      "learning_rate": 0.0002928732221783122,
      "loss": 4.0481,
      "step": 49090
    },
    {
      "epoch": 0.10229166666666667,
      "grad_norm": 0.7998533248901367,
      "learning_rate": 0.00029287021919411027,
      "loss": 4.0834,
      "step": 49100
    },
    {
      "epoch": 0.1023125,
      "grad_norm": 0.762007474899292,
      "learning_rate": 0.00029286721559276563,
      "loss": 3.982,
      "step": 49110
    },
    {
      "epoch": 0.10233333333333333,
      "grad_norm": 0.8979332447052002,
      "learning_rate": 0.0002928642113742911,
      "loss": 4.0194,
      "step": 49120
    },
    {
      "epoch": 0.10235416666666666,
      "grad_norm": 0.9974207878112793,
      "learning_rate": 0.0002928612065386998,
      "loss": 4.1009,
      "step": 49130
    },
    {
      "epoch": 0.102375,
      "grad_norm": 0.9366331100463867,
      "learning_rate": 0.00029285820108600457,
      "loss": 4.029,
      "step": 49140
    },
    {
      "epoch": 0.10239583333333334,
      "grad_norm": 0.8985358476638794,
      "learning_rate": 0.0002928551950162185,
      "loss": 3.9376,
      "step": 49150
    },
    {
      "epoch": 0.10241666666666667,
      "grad_norm": 0.746322512626648,
      "learning_rate": 0.0002928521883293546,
      "loss": 4.0996,
      "step": 49160
    },
    {
      "epoch": 0.1024375,
      "grad_norm": 0.9474925398826599,
      "learning_rate": 0.0002928491810254257,
      "loss": 3.8871,
      "step": 49170
    },
    {
      "epoch": 0.10245833333333333,
      "grad_norm": 0.7851362824440002,
      "learning_rate": 0.0002928461731044448,
      "loss": 4.1091,
      "step": 49180
    },
    {
      "epoch": 0.10247916666666666,
      "grad_norm": 0.783072292804718,
      "learning_rate": 0.00029284316456642515,
      "loss": 3.7817,
      "step": 49190
    },
    {
      "epoch": 0.1025,
      "grad_norm": 0.9836112260818481,
      "learning_rate": 0.00029284015541137945,
      "loss": 3.905,
      "step": 49200
    },
    {
      "epoch": 0.10252083333333334,
      "grad_norm": 0.8573542237281799,
      "learning_rate": 0.00029283714563932086,
      "loss": 3.9814,
      "step": 49210
    },
    {
      "epoch": 0.10254166666666667,
      "grad_norm": 0.7882057428359985,
      "learning_rate": 0.0002928341352502624,
      "loss": 4.1734,
      "step": 49220
    },
    {
      "epoch": 0.1025625,
      "grad_norm": 0.9768480658531189,
      "learning_rate": 0.0002928311242442169,
      "loss": 3.9894,
      "step": 49230
    },
    {
      "epoch": 0.10258333333333333,
      "grad_norm": 0.9667037129402161,
      "learning_rate": 0.00029282811262119755,
      "loss": 4.0288,
      "step": 49240
    },
    {
      "epoch": 0.10260416666666666,
      "grad_norm": 0.8566751480102539,
      "learning_rate": 0.00029282510038121726,
      "loss": 3.8351,
      "step": 49250
    },
    {
      "epoch": 0.102625,
      "grad_norm": 0.7664220333099365,
      "learning_rate": 0.00029282208752428907,
      "loss": 3.6883,
      "step": 49260
    },
    {
      "epoch": 0.10264583333333334,
      "grad_norm": 0.9574827551841736,
      "learning_rate": 0.000292819074050426,
      "loss": 3.7981,
      "step": 49270
    },
    {
      "epoch": 0.10266666666666667,
      "grad_norm": 0.7889763712882996,
      "learning_rate": 0.00029281605995964114,
      "loss": 4.1148,
      "step": 49280
    },
    {
      "epoch": 0.1026875,
      "grad_norm": 0.829759955406189,
      "learning_rate": 0.0002928130452519473,
      "loss": 3.9801,
      "step": 49290
    },
    {
      "epoch": 0.10270833333333333,
      "grad_norm": 0.8234230279922485,
      "learning_rate": 0.00029281002992735775,
      "loss": 4.0917,
      "step": 49300
    },
    {
      "epoch": 0.10272916666666666,
      "grad_norm": 0.7281298637390137,
      "learning_rate": 0.00029280701398588533,
      "loss": 3.9818,
      "step": 49310
    },
    {
      "epoch": 0.10275,
      "grad_norm": 0.7572320699691772,
      "learning_rate": 0.00029280399742754313,
      "loss": 4.1521,
      "step": 49320
    },
    {
      "epoch": 0.10277083333333334,
      "grad_norm": 0.8192873597145081,
      "learning_rate": 0.0002928009802523442,
      "loss": 4.0046,
      "step": 49330
    },
    {
      "epoch": 0.10279166666666667,
      "grad_norm": 0.8160560727119446,
      "learning_rate": 0.0002927979624603016,
      "loss": 4.0175,
      "step": 49340
    },
    {
      "epoch": 0.1028125,
      "grad_norm": 0.7159867286682129,
      "learning_rate": 0.00029279494405142826,
      "loss": 4.0199,
      "step": 49350
    },
    {
      "epoch": 0.10283333333333333,
      "grad_norm": 0.766180157661438,
      "learning_rate": 0.0002927919250257373,
      "loss": 3.9971,
      "step": 49360
    },
    {
      "epoch": 0.10285416666666666,
      "grad_norm": 0.9074235558509827,
      "learning_rate": 0.0002927889053832418,
      "loss": 4.0298,
      "step": 49370
    },
    {
      "epoch": 0.102875,
      "grad_norm": 0.7642560005187988,
      "learning_rate": 0.0002927858851239547,
      "loss": 3.898,
      "step": 49380
    },
    {
      "epoch": 0.10289583333333334,
      "grad_norm": 0.829748809337616,
      "learning_rate": 0.0002927828642478891,
      "loss": 3.9329,
      "step": 49390
    },
    {
      "epoch": 0.10291666666666667,
      "grad_norm": 0.7976492643356323,
      "learning_rate": 0.000292779842755058,
      "loss": 3.9423,
      "step": 49400
    },
    {
      "epoch": 0.1029375,
      "grad_norm": 0.7786514163017273,
      "learning_rate": 0.0002927768206454746,
      "loss": 3.9403,
      "step": 49410
    },
    {
      "epoch": 0.10295833333333333,
      "grad_norm": 0.7262424230575562,
      "learning_rate": 0.0002927737979191518,
      "loss": 4.1115,
      "step": 49420
    },
    {
      "epoch": 0.10297916666666666,
      "grad_norm": 0.7670385837554932,
      "learning_rate": 0.00029277077457610267,
      "loss": 4.1396,
      "step": 49430
    },
    {
      "epoch": 0.103,
      "grad_norm": 0.82208251953125,
      "learning_rate": 0.0002927677506163404,
      "loss": 4.142,
      "step": 49440
    },
    {
      "epoch": 0.10302083333333334,
      "grad_norm": 0.7978679537773132,
      "learning_rate": 0.00029276472603987784,
      "loss": 4.1244,
      "step": 49450
    },
    {
      "epoch": 0.10304166666666667,
      "grad_norm": 0.7851456999778748,
      "learning_rate": 0.00029276170084672825,
      "loss": 3.9971,
      "step": 49460
    },
    {
      "epoch": 0.1030625,
      "grad_norm": 0.7363708019256592,
      "learning_rate": 0.0002927586750369046,
      "loss": 3.9513,
      "step": 49470
    },
    {
      "epoch": 0.10308333333333333,
      "grad_norm": 0.7379972338676453,
      "learning_rate": 0.00029275564861042,
      "loss": 4.002,
      "step": 49480
    },
    {
      "epoch": 0.10310416666666666,
      "grad_norm": 0.816502571105957,
      "learning_rate": 0.0002927526215672874,
      "loss": 3.9003,
      "step": 49490
    },
    {
      "epoch": 0.103125,
      "grad_norm": 0.6890751123428345,
      "learning_rate": 0.00029274959390752014,
      "loss": 4.088,
      "step": 49500
    },
    {
      "epoch": 0.10314583333333334,
      "grad_norm": 0.9515795111656189,
      "learning_rate": 0.000292746565631131,
      "loss": 4.0423,
      "step": 49510
    },
    {
      "epoch": 0.10316666666666667,
      "grad_norm": 0.8364551663398743,
      "learning_rate": 0.0002927435367381333,
      "loss": 4.1687,
      "step": 49520
    },
    {
      "epoch": 0.1031875,
      "grad_norm": 0.8386387228965759,
      "learning_rate": 0.00029274050722854003,
      "loss": 3.9976,
      "step": 49530
    },
    {
      "epoch": 0.10320833333333333,
      "grad_norm": 0.7329249382019043,
      "learning_rate": 0.0002927374771023642,
      "loss": 4.0518,
      "step": 49540
    },
    {
      "epoch": 0.10322916666666666,
      "grad_norm": 0.7842952609062195,
      "learning_rate": 0.000292734446359619,
      "loss": 4.1366,
      "step": 49550
    },
    {
      "epoch": 0.10325,
      "grad_norm": 1.1091388463974,
      "learning_rate": 0.00029273141500031744,
      "loss": 3.8086,
      "step": 49560
    },
    {
      "epoch": 0.10327083333333334,
      "grad_norm": 0.853715181350708,
      "learning_rate": 0.00029272838302447273,
      "loss": 4.2191,
      "step": 49570
    },
    {
      "epoch": 0.10329166666666667,
      "grad_norm": 0.7744817733764648,
      "learning_rate": 0.00029272535043209786,
      "loss": 3.8953,
      "step": 49580
    },
    {
      "epoch": 0.1033125,
      "grad_norm": 0.9503114223480225,
      "learning_rate": 0.000292722317223206,
      "loss": 4.0883,
      "step": 49590
    },
    {
      "epoch": 0.10333333333333333,
      "grad_norm": 0.9309439063072205,
      "learning_rate": 0.00029271928339781025,
      "loss": 3.9083,
      "step": 49600
    },
    {
      "epoch": 0.10335416666666666,
      "grad_norm": 0.7342001795768738,
      "learning_rate": 0.00029271624895592363,
      "loss": 4.1028,
      "step": 49610
    },
    {
      "epoch": 0.103375,
      "grad_norm": 0.7266141176223755,
      "learning_rate": 0.00029271321389755933,
      "loss": 3.969,
      "step": 49620
    },
    {
      "epoch": 0.10339583333333334,
      "grad_norm": 0.9200646281242371,
      "learning_rate": 0.0002927101782227304,
      "loss": 4.0235,
      "step": 49630
    },
    {
      "epoch": 0.10341666666666667,
      "grad_norm": 0.6631282567977905,
      "learning_rate": 0.00029270714193145006,
      "loss": 4.1643,
      "step": 49640
    },
    {
      "epoch": 0.1034375,
      "grad_norm": 0.7198712229728699,
      "learning_rate": 0.0002927041050237313,
      "loss": 4.0177,
      "step": 49650
    },
    {
      "epoch": 0.10345833333333333,
      "grad_norm": 0.9006595611572266,
      "learning_rate": 0.00029270106749958733,
      "loss": 4.0086,
      "step": 49660
    },
    {
      "epoch": 0.10347916666666666,
      "grad_norm": 0.8360154032707214,
      "learning_rate": 0.0002926980293590312,
      "loss": 3.8695,
      "step": 49670
    },
    {
      "epoch": 0.1035,
      "grad_norm": 0.9182197451591492,
      "learning_rate": 0.0002926949906020761,
      "loss": 3.9632,
      "step": 49680
    },
    {
      "epoch": 0.10352083333333334,
      "grad_norm": 0.9201945662498474,
      "learning_rate": 0.0002926919512287351,
      "loss": 3.9462,
      "step": 49690
    },
    {
      "epoch": 0.10354166666666667,
      "grad_norm": 0.7564398646354675,
      "learning_rate": 0.00029268891123902135,
      "loss": 4.0421,
      "step": 49700
    },
    {
      "epoch": 0.1035625,
      "grad_norm": 0.744978129863739,
      "learning_rate": 0.000292685870632948,
      "loss": 3.9736,
      "step": 49710
    },
    {
      "epoch": 0.10358333333333333,
      "grad_norm": 0.8487722873687744,
      "learning_rate": 0.0002926828294105281,
      "loss": 3.9147,
      "step": 49720
    },
    {
      "epoch": 0.10360416666666666,
      "grad_norm": 0.7436109185218811,
      "learning_rate": 0.00029267978757177495,
      "loss": 4.0179,
      "step": 49730
    },
    {
      "epoch": 0.103625,
      "grad_norm": 0.8878900408744812,
      "learning_rate": 0.00029267674511670154,
      "loss": 4.1525,
      "step": 49740
    },
    {
      "epoch": 0.10364583333333334,
      "grad_norm": 0.7143101692199707,
      "learning_rate": 0.0002926737020453211,
      "loss": 4.0508,
      "step": 49750
    },
    {
      "epoch": 0.10366666666666667,
      "grad_norm": 0.7519477605819702,
      "learning_rate": 0.0002926706583576467,
      "loss": 4.0238,
      "step": 49760
    },
    {
      "epoch": 0.1036875,
      "grad_norm": 0.7808490991592407,
      "learning_rate": 0.0002926676140536916,
      "loss": 4.1462,
      "step": 49770
    },
    {
      "epoch": 0.10370833333333333,
      "grad_norm": 0.8784478902816772,
      "learning_rate": 0.0002926645691334688,
      "loss": 4.0128,
      "step": 49780
    },
    {
      "epoch": 0.10372916666666666,
      "grad_norm": 1.1122761964797974,
      "learning_rate": 0.00029266152359699155,
      "loss": 3.9807,
      "step": 49790
    },
    {
      "epoch": 0.10375,
      "grad_norm": 0.7357746958732605,
      "learning_rate": 0.00029265847744427303,
      "loss": 3.9639,
      "step": 49800
    },
    {
      "epoch": 0.10377083333333334,
      "grad_norm": 0.7455911636352539,
      "learning_rate": 0.0002926554306753263,
      "loss": 3.8197,
      "step": 49810
    },
    {
      "epoch": 0.10379166666666667,
      "grad_norm": 1.1235969066619873,
      "learning_rate": 0.0002926523832901646,
      "loss": 3.9328,
      "step": 49820
    },
    {
      "epoch": 0.1038125,
      "grad_norm": 0.7532281279563904,
      "learning_rate": 0.0002926493352888011,
      "loss": 4.0109,
      "step": 49830
    },
    {
      "epoch": 0.10383333333333333,
      "grad_norm": 0.7917546629905701,
      "learning_rate": 0.0002926462866712489,
      "loss": 4.0569,
      "step": 49840
    },
    {
      "epoch": 0.10385416666666666,
      "grad_norm": 0.864628791809082,
      "learning_rate": 0.0002926432374375212,
      "loss": 3.9632,
      "step": 49850
    },
    {
      "epoch": 0.103875,
      "grad_norm": 0.8916741013526917,
      "learning_rate": 0.00029264018758763124,
      "loss": 4.0212,
      "step": 49860
    },
    {
      "epoch": 0.10389583333333334,
      "grad_norm": 0.7745014429092407,
      "learning_rate": 0.00029263713712159207,
      "loss": 3.7903,
      "step": 49870
    },
    {
      "epoch": 0.10391666666666667,
      "grad_norm": 0.7800654768943787,
      "learning_rate": 0.0002926340860394169,
      "loss": 3.9733,
      "step": 49880
    },
    {
      "epoch": 0.1039375,
      "grad_norm": 0.82977694272995,
      "learning_rate": 0.000292631034341119,
      "loss": 3.9504,
      "step": 49890
    },
    {
      "epoch": 0.10395833333333333,
      "grad_norm": 0.8692675828933716,
      "learning_rate": 0.00029262798202671147,
      "loss": 3.7943,
      "step": 49900
    },
    {
      "epoch": 0.10397916666666666,
      "grad_norm": 0.9102606177330017,
      "learning_rate": 0.0002926249290962075,
      "loss": 4.0497,
      "step": 49910
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.7787212133407593,
      "learning_rate": 0.0002926218755496203,
      "loss": 3.9585,
      "step": 49920
    },
    {
      "epoch": 0.10402083333333334,
      "grad_norm": 0.7164571285247803,
      "learning_rate": 0.000292618821386963,
      "loss": 3.9474,
      "step": 49930
    },
    {
      "epoch": 0.10404166666666667,
      "grad_norm": 0.8608791828155518,
      "learning_rate": 0.0002926157666082489,
      "loss": 3.8387,
      "step": 49940
    },
    {
      "epoch": 0.1040625,
      "grad_norm": 0.8274163007736206,
      "learning_rate": 0.0002926127112134912,
      "loss": 4.2699,
      "step": 49950
    },
    {
      "epoch": 0.10408333333333333,
      "grad_norm": 0.7702623605728149,
      "learning_rate": 0.0002926096552027029,
      "loss": 3.9437,
      "step": 49960
    },
    {
      "epoch": 0.10410416666666666,
      "grad_norm": 0.9424062371253967,
      "learning_rate": 0.0002926065985758974,
      "loss": 4.0845,
      "step": 49970
    },
    {
      "epoch": 0.104125,
      "grad_norm": 0.7174128890037537,
      "learning_rate": 0.0002926035413330879,
      "loss": 3.8873,
      "step": 49980
    },
    {
      "epoch": 0.10414583333333334,
      "grad_norm": 0.84706050157547,
      "learning_rate": 0.00029260048347428747,
      "loss": 4.1487,
      "step": 49990
    },
    {
      "epoch": 0.10416666666666667,
      "grad_norm": 0.8415717482566833,
      "learning_rate": 0.0002925974249995094,
      "loss": 4.1809,
      "step": 50000
    },
    {
      "epoch": 0.10416666666666667,
      "eval_loss": 4.297389984130859,
      "eval_runtime": 10.293,
      "eval_samples_per_second": 0.972,
      "eval_steps_per_second": 0.291,
      "step": 50000
    },
    {
      "epoch": 0.1041875,
      "grad_norm": 0.7332421541213989,
      "learning_rate": 0.00029259436590876696,
      "loss": 4.0715,
      "step": 50010
    },
    {
      "epoch": 0.10420833333333333,
      "grad_norm": 0.7491800785064697,
      "learning_rate": 0.0002925913062020733,
      "loss": 3.9114,
      "step": 50020
    },
    {
      "epoch": 0.10422916666666666,
      "grad_norm": 0.9135246872901917,
      "learning_rate": 0.0002925882458794416,
      "loss": 4.0655,
      "step": 50030
    },
    {
      "epoch": 0.10425,
      "grad_norm": 0.6985059380531311,
      "learning_rate": 0.0002925851849408851,
      "loss": 3.8971,
      "step": 50040
    },
    {
      "epoch": 0.10427083333333333,
      "grad_norm": 1.4761148691177368,
      "learning_rate": 0.000292582123386417,
      "loss": 4.0234,
      "step": 50050
    },
    {
      "epoch": 0.10429166666666667,
      "grad_norm": 0.664412260055542,
      "learning_rate": 0.0002925790612160507,
      "loss": 3.9561,
      "step": 50060
    },
    {
      "epoch": 0.1043125,
      "grad_norm": 0.9128052592277527,
      "learning_rate": 0.0002925759984297992,
      "loss": 4.0387,
      "step": 50070
    },
    {
      "epoch": 0.10433333333333333,
      "grad_norm": 0.9343786835670471,
      "learning_rate": 0.00029257293502767584,
      "loss": 3.8637,
      "step": 50080
    },
    {
      "epoch": 0.10435416666666666,
      "grad_norm": 0.7153036594390869,
      "learning_rate": 0.0002925698710096938,
      "loss": 3.7199,
      "step": 50090
    },
    {
      "epoch": 0.104375,
      "grad_norm": 1.027160406112671,
      "learning_rate": 0.00029256680637586643,
      "loss": 4.066,
      "step": 50100
    },
    {
      "epoch": 0.10439583333333333,
      "grad_norm": 0.8474220633506775,
      "learning_rate": 0.0002925637411262068,
      "loss": 4.0601,
      "step": 50110
    },
    {
      "epoch": 0.10441666666666667,
      "grad_norm": 0.7367342710494995,
      "learning_rate": 0.00029256067526072833,
      "loss": 4.1273,
      "step": 50120
    },
    {
      "epoch": 0.1044375,
      "grad_norm": 0.7844774127006531,
      "learning_rate": 0.0002925576087794441,
      "loss": 4.0051,
      "step": 50130
    },
    {
      "epoch": 0.10445833333333333,
      "grad_norm": 0.8256841897964478,
      "learning_rate": 0.00029255454168236746,
      "loss": 4.1477,
      "step": 50140
    },
    {
      "epoch": 0.10447916666666666,
      "grad_norm": 0.7564240097999573,
      "learning_rate": 0.00029255147396951164,
      "loss": 4.0054,
      "step": 50150
    },
    {
      "epoch": 0.1045,
      "grad_norm": 0.8072596192359924,
      "learning_rate": 0.00029254840564088986,
      "loss": 4.0328,
      "step": 50160
    },
    {
      "epoch": 0.10452083333333333,
      "grad_norm": 0.7570194602012634,
      "learning_rate": 0.00029254533669651535,
      "loss": 4.1092,
      "step": 50170
    },
    {
      "epoch": 0.10454166666666667,
      "grad_norm": 0.7939029932022095,
      "learning_rate": 0.00029254226713640145,
      "loss": 4.0607,
      "step": 50180
    },
    {
      "epoch": 0.1045625,
      "grad_norm": 0.8470191955566406,
      "learning_rate": 0.0002925391969605614,
      "loss": 3.9466,
      "step": 50190
    },
    {
      "epoch": 0.10458333333333333,
      "grad_norm": 0.8378742933273315,
      "learning_rate": 0.00029253612616900843,
      "loss": 3.8653,
      "step": 50200
    },
    {
      "epoch": 0.10460416666666666,
      "grad_norm": 0.7377639412879944,
      "learning_rate": 0.0002925330547617558,
      "loss": 3.9531,
      "step": 50210
    },
    {
      "epoch": 0.104625,
      "grad_norm": 0.7611543536186218,
      "learning_rate": 0.0002925299827388168,
      "loss": 3.9893,
      "step": 50220
    },
    {
      "epoch": 0.10464583333333333,
      "grad_norm": 0.8976886868476868,
      "learning_rate": 0.0002925269101002047,
      "loss": 3.8919,
      "step": 50230
    },
    {
      "epoch": 0.10466666666666667,
      "grad_norm": 0.7549887895584106,
      "learning_rate": 0.0002925238368459327,
      "loss": 4.0386,
      "step": 50240
    },
    {
      "epoch": 0.1046875,
      "grad_norm": 0.8677572011947632,
      "learning_rate": 0.00029252076297601423,
      "loss": 3.9659,
      "step": 50250
    },
    {
      "epoch": 0.10470833333333333,
      "grad_norm": 0.762859582901001,
      "learning_rate": 0.0002925176884904624,
      "loss": 4.075,
      "step": 50260
    },
    {
      "epoch": 0.10472916666666666,
      "grad_norm": 0.8148066997528076,
      "learning_rate": 0.00029251461338929065,
      "loss": 3.7264,
      "step": 50270
    },
    {
      "epoch": 0.10475,
      "grad_norm": 0.8349539637565613,
      "learning_rate": 0.0002925115376725121,
      "loss": 3.913,
      "step": 50280
    },
    {
      "epoch": 0.10477083333333333,
      "grad_norm": 0.7816223502159119,
      "learning_rate": 0.0002925084613401402,
      "loss": 3.8862,
      "step": 50290
    },
    {
      "epoch": 0.10479166666666667,
      "grad_norm": 0.7295699119567871,
      "learning_rate": 0.0002925053843921881,
      "loss": 4.0102,
      "step": 50300
    },
    {
      "epoch": 0.1048125,
      "grad_norm": 0.8120856881141663,
      "learning_rate": 0.0002925023068286692,
      "loss": 3.8875,
      "step": 50310
    },
    {
      "epoch": 0.10483333333333333,
      "grad_norm": 1.1395620107650757,
      "learning_rate": 0.00029249922864959664,
      "loss": 3.9359,
      "step": 50320
    },
    {
      "epoch": 0.10485416666666666,
      "grad_norm": 0.7384068369865417,
      "learning_rate": 0.0002924961498549839,
      "loss": 4.0018,
      "step": 50330
    },
    {
      "epoch": 0.104875,
      "grad_norm": 0.8635039329528809,
      "learning_rate": 0.0002924930704448442,
      "loss": 4.1305,
      "step": 50340
    },
    {
      "epoch": 0.10489583333333333,
      "grad_norm": 0.7934401035308838,
      "learning_rate": 0.0002924899904191908,
      "loss": 3.9081,
      "step": 50350
    },
    {
      "epoch": 0.10491666666666667,
      "grad_norm": 0.8167548775672913,
      "learning_rate": 0.00029248690977803704,
      "loss": 4.1142,
      "step": 50360
    },
    {
      "epoch": 0.1049375,
      "grad_norm": 0.8746498823165894,
      "learning_rate": 0.00029248382852139625,
      "loss": 4.0032,
      "step": 50370
    },
    {
      "epoch": 0.10495833333333333,
      "grad_norm": 0.7526291012763977,
      "learning_rate": 0.0002924807466492817,
      "loss": 3.9386,
      "step": 50380
    },
    {
      "epoch": 0.10497916666666667,
      "grad_norm": 0.8463457822799683,
      "learning_rate": 0.0002924776641617067,
      "loss": 3.9327,
      "step": 50390
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.7756918668746948,
      "learning_rate": 0.00029247458105868465,
      "loss": 4.0188,
      "step": 50400
    },
    {
      "epoch": 0.10502083333333333,
      "grad_norm": 0.7623472809791565,
      "learning_rate": 0.0002924714973402288,
      "loss": 3.9955,
      "step": 50410
    },
    {
      "epoch": 0.10504166666666667,
      "grad_norm": 0.8627665638923645,
      "learning_rate": 0.0002924684130063524,
      "loss": 3.7877,
      "step": 50420
    },
    {
      "epoch": 0.1050625,
      "grad_norm": 0.7579430341720581,
      "learning_rate": 0.0002924653280570689,
      "loss": 3.8942,
      "step": 50430
    },
    {
      "epoch": 0.10508333333333333,
      "grad_norm": 0.7957767844200134,
      "learning_rate": 0.0002924622424923917,
      "loss": 3.8836,
      "step": 50440
    },
    {
      "epoch": 0.10510416666666667,
      "grad_norm": 0.6570121645927429,
      "learning_rate": 0.0002924591563123338,
      "loss": 4.1169,
      "step": 50450
    },
    {
      "epoch": 0.105125,
      "grad_norm": 0.8972878456115723,
      "learning_rate": 0.0002924560695169088,
      "loss": 3.9676,
      "step": 50460
    },
    {
      "epoch": 0.10514583333333333,
      "grad_norm": 0.6778743863105774,
      "learning_rate": 0.00029245298210613,
      "loss": 4.0302,
      "step": 50470
    },
    {
      "epoch": 0.10516666666666667,
      "grad_norm": 0.7888743281364441,
      "learning_rate": 0.0002924498940800107,
      "loss": 4.1227,
      "step": 50480
    },
    {
      "epoch": 0.1051875,
      "grad_norm": 0.7683044075965881,
      "learning_rate": 0.00029244680543856423,
      "loss": 3.8516,
      "step": 50490
    },
    {
      "epoch": 0.10520833333333333,
      "grad_norm": 0.8148704171180725,
      "learning_rate": 0.00029244371618180394,
      "loss": 3.9154,
      "step": 50500
    },
    {
      "epoch": 0.10522916666666667,
      "grad_norm": 0.9741986393928528,
      "learning_rate": 0.0002924406263097432,
      "loss": 4.0475,
      "step": 50510
    },
    {
      "epoch": 0.10525,
      "grad_norm": 0.7736107707023621,
      "learning_rate": 0.0002924375358223953,
      "loss": 3.9644,
      "step": 50520
    },
    {
      "epoch": 0.10527083333333333,
      "grad_norm": 1.2221715450286865,
      "learning_rate": 0.00029243444471977365,
      "loss": 4.0309,
      "step": 50530
    },
    {
      "epoch": 0.10529166666666667,
      "grad_norm": 0.6649412512779236,
      "learning_rate": 0.00029243135300189156,
      "loss": 4.0933,
      "step": 50540
    },
    {
      "epoch": 0.1053125,
      "grad_norm": 0.7663376927375793,
      "learning_rate": 0.0002924282606687624,
      "loss": 4.0095,
      "step": 50550
    },
    {
      "epoch": 0.10533333333333333,
      "grad_norm": 0.7610189318656921,
      "learning_rate": 0.0002924251677203996,
      "loss": 3.9598,
      "step": 50560
    },
    {
      "epoch": 0.10535416666666667,
      "grad_norm": 0.9958245158195496,
      "learning_rate": 0.0002924220741568164,
      "loss": 4.2527,
      "step": 50570
    },
    {
      "epoch": 0.105375,
      "grad_norm": 0.7776246666908264,
      "learning_rate": 0.0002924189799780262,
      "loss": 3.9269,
      "step": 50580
    },
    {
      "epoch": 0.10539583333333333,
      "grad_norm": 0.8658514022827148,
      "learning_rate": 0.00029241588518404236,
      "loss": 4.0698,
      "step": 50590
    },
    {
      "epoch": 0.10541666666666667,
      "grad_norm": 0.8035275340080261,
      "learning_rate": 0.00029241278977487834,
      "loss": 3.9233,
      "step": 50600
    },
    {
      "epoch": 0.1054375,
      "grad_norm": 0.7829310297966003,
      "learning_rate": 0.0002924096937505474,
      "loss": 4.0918,
      "step": 50610
    },
    {
      "epoch": 0.10545833333333333,
      "grad_norm": 0.7781623601913452,
      "learning_rate": 0.00029240659711106295,
      "loss": 4.006,
      "step": 50620
    },
    {
      "epoch": 0.10547916666666667,
      "grad_norm": 0.9349314570426941,
      "learning_rate": 0.00029240349985643836,
      "loss": 3.9699,
      "step": 50630
    },
    {
      "epoch": 0.1055,
      "grad_norm": 0.8020880818367004,
      "learning_rate": 0.000292400401986687,
      "loss": 3.7798,
      "step": 50640
    },
    {
      "epoch": 0.10552083333333333,
      "grad_norm": 0.8185389041900635,
      "learning_rate": 0.0002923973035018223,
      "loss": 3.7593,
      "step": 50650
    },
    {
      "epoch": 0.10554166666666667,
      "grad_norm": 0.785984218120575,
      "learning_rate": 0.00029239420440185766,
      "loss": 4.0674,
      "step": 50660
    },
    {
      "epoch": 0.1055625,
      "grad_norm": 0.789100706577301,
      "learning_rate": 0.0002923911046868064,
      "loss": 3.9638,
      "step": 50670
    },
    {
      "epoch": 0.10558333333333333,
      "grad_norm": 0.8402634263038635,
      "learning_rate": 0.0002923880043566819,
      "loss": 4.0903,
      "step": 50680
    },
    {
      "epoch": 0.10560416666666667,
      "grad_norm": 1.0088058710098267,
      "learning_rate": 0.00029238490341149755,
      "loss": 3.9821,
      "step": 50690
    },
    {
      "epoch": 0.105625,
      "grad_norm": 0.834857702255249,
      "learning_rate": 0.0002923818018512668,
      "loss": 4.2185,
      "step": 50700
    },
    {
      "epoch": 0.10564583333333333,
      "grad_norm": 0.853425145149231,
      "learning_rate": 0.00029237869967600305,
      "loss": 4.0249,
      "step": 50710
    },
    {
      "epoch": 0.10566666666666667,
      "grad_norm": 0.8179558515548706,
      "learning_rate": 0.00029237559688571966,
      "loss": 4.0019,
      "step": 50720
    },
    {
      "epoch": 0.1056875,
      "grad_norm": 0.7183098196983337,
      "learning_rate": 0.0002923724934804301,
      "loss": 4.0692,
      "step": 50730
    },
    {
      "epoch": 0.10570833333333333,
      "grad_norm": 0.9169472455978394,
      "learning_rate": 0.0002923693894601476,
      "loss": 3.8953,
      "step": 50740
    },
    {
      "epoch": 0.10572916666666667,
      "grad_norm": 0.7225739359855652,
      "learning_rate": 0.0002923662848248858,
      "loss": 3.9849,
      "step": 50750
    },
    {
      "epoch": 0.10575,
      "grad_norm": 0.8414003252983093,
      "learning_rate": 0.000292363179574658,
      "loss": 3.8344,
      "step": 50760
    },
    {
      "epoch": 0.10577083333333333,
      "grad_norm": 0.7592816352844238,
      "learning_rate": 0.0002923600737094775,
      "loss": 3.98,
      "step": 50770
    },
    {
      "epoch": 0.10579166666666667,
      "grad_norm": 0.7695099711418152,
      "learning_rate": 0.000292356967229358,
      "loss": 3.9001,
      "step": 50780
    },
    {
      "epoch": 0.1058125,
      "grad_norm": 0.7274512052536011,
      "learning_rate": 0.0002923538601343126,
      "loss": 3.9954,
      "step": 50790
    },
    {
      "epoch": 0.10583333333333333,
      "grad_norm": 0.901178777217865,
      "learning_rate": 0.00029235075242435495,
      "loss": 4.0556,
      "step": 50800
    },
    {
      "epoch": 0.10585416666666667,
      "grad_norm": 0.7860174179077148,
      "learning_rate": 0.0002923476440994984,
      "loss": 4.0082,
      "step": 50810
    },
    {
      "epoch": 0.105875,
      "grad_norm": 0.7748461961746216,
      "learning_rate": 0.00029234453515975634,
      "loss": 4.0004,
      "step": 50820
    },
    {
      "epoch": 0.10589583333333333,
      "grad_norm": 0.8100540041923523,
      "learning_rate": 0.0002923414256051423,
      "loss": 4.0609,
      "step": 50830
    },
    {
      "epoch": 0.10591666666666667,
      "grad_norm": 0.8516915440559387,
      "learning_rate": 0.00029233831543566956,
      "loss": 3.9553,
      "step": 50840
    },
    {
      "epoch": 0.1059375,
      "grad_norm": 0.7434536814689636,
      "learning_rate": 0.00029233520465135165,
      "loss": 4.0271,
      "step": 50850
    },
    {
      "epoch": 0.10595833333333333,
      "grad_norm": 0.6617941856384277,
      "learning_rate": 0.00029233209325220204,
      "loss": 4.0948,
      "step": 50860
    },
    {
      "epoch": 0.10597916666666667,
      "grad_norm": 0.7185391783714294,
      "learning_rate": 0.00029232898123823407,
      "loss": 4.055,
      "step": 50870
    },
    {
      "epoch": 0.106,
      "grad_norm": 0.839154064655304,
      "learning_rate": 0.0002923258686094613,
      "loss": 4.2611,
      "step": 50880
    },
    {
      "epoch": 0.10602083333333333,
      "grad_norm": 0.7931175827980042,
      "learning_rate": 0.0002923227553658971,
      "loss": 3.9377,
      "step": 50890
    },
    {
      "epoch": 0.10604166666666667,
      "grad_norm": 0.8959558010101318,
      "learning_rate": 0.0002923196415075549,
      "loss": 3.8956,
      "step": 50900
    },
    {
      "epoch": 0.1060625,
      "grad_norm": 0.7956362962722778,
      "learning_rate": 0.0002923165270344482,
      "loss": 3.9591,
      "step": 50910
    },
    {
      "epoch": 0.10608333333333334,
      "grad_norm": 0.7994216680526733,
      "learning_rate": 0.00029231341194659044,
      "loss": 3.7879,
      "step": 50920
    },
    {
      "epoch": 0.10610416666666667,
      "grad_norm": 0.7551946640014648,
      "learning_rate": 0.00029231029624399504,
      "loss": 4.0773,
      "step": 50930
    },
    {
      "epoch": 0.106125,
      "grad_norm": 0.805530309677124,
      "learning_rate": 0.0002923071799266755,
      "loss": 3.9732,
      "step": 50940
    },
    {
      "epoch": 0.10614583333333333,
      "grad_norm": 0.7089834213256836,
      "learning_rate": 0.0002923040629946453,
      "loss": 3.9836,
      "step": 50950
    },
    {
      "epoch": 0.10616666666666667,
      "grad_norm": 0.7376680374145508,
      "learning_rate": 0.0002923009454479179,
      "loss": 3.841,
      "step": 50960
    },
    {
      "epoch": 0.1061875,
      "grad_norm": 0.8623104095458984,
      "learning_rate": 0.0002922978272865067,
      "loss": 4.1089,
      "step": 50970
    },
    {
      "epoch": 0.10620833333333334,
      "grad_norm": 0.965140700340271,
      "learning_rate": 0.0002922947085104252,
      "loss": 3.9599,
      "step": 50980
    },
    {
      "epoch": 0.10622916666666667,
      "grad_norm": 0.8694900274276733,
      "learning_rate": 0.0002922915891196869,
      "loss": 4.0509,
      "step": 50990
    },
    {
      "epoch": 0.10625,
      "grad_norm": 0.7380486726760864,
      "learning_rate": 0.00029228846911430527,
      "loss": 3.7905,
      "step": 51000
    },
    {
      "epoch": 0.10625,
      "eval_loss": 4.296773910522461,
      "eval_runtime": 11.8694,
      "eval_samples_per_second": 0.843,
      "eval_steps_per_second": 0.253,
      "step": 51000
    },
    {
      "epoch": 0.10627083333333333,
      "grad_norm": 0.8346457481384277,
      "learning_rate": 0.00029228534849429374,
      "loss": 3.862,
      "step": 51010
    },
    {
      "epoch": 0.10629166666666667,
      "grad_norm": 0.8386745452880859,
      "learning_rate": 0.0002922822272596659,
      "loss": 4.107,
      "step": 51020
    },
    {
      "epoch": 0.1063125,
      "grad_norm": 0.8432703614234924,
      "learning_rate": 0.00029227910541043504,
      "loss": 3.7825,
      "step": 51030
    },
    {
      "epoch": 0.10633333333333334,
      "grad_norm": 0.7449776530265808,
      "learning_rate": 0.0002922759829466149,
      "loss": 3.9622,
      "step": 51040
    },
    {
      "epoch": 0.10635416666666667,
      "grad_norm": 0.7446163892745972,
      "learning_rate": 0.0002922728598682187,
      "loss": 4.0294,
      "step": 51050
    },
    {
      "epoch": 0.106375,
      "grad_norm": 0.7579222917556763,
      "learning_rate": 0.0002922697361752602,
      "loss": 3.822,
      "step": 51060
    },
    {
      "epoch": 0.10639583333333333,
      "grad_norm": 0.7363486886024475,
      "learning_rate": 0.00029226661186775266,
      "loss": 4.036,
      "step": 51070
    },
    {
      "epoch": 0.10641666666666667,
      "grad_norm": 0.881227970123291,
      "learning_rate": 0.0002922634869457097,
      "loss": 3.9936,
      "step": 51080
    },
    {
      "epoch": 0.1064375,
      "grad_norm": 0.8812421560287476,
      "learning_rate": 0.0002922603614091447,
      "loss": 4.0119,
      "step": 51090
    },
    {
      "epoch": 0.10645833333333334,
      "grad_norm": 0.8263999223709106,
      "learning_rate": 0.00029225723525807136,
      "loss": 4.0147,
      "step": 51100
    },
    {
      "epoch": 0.10647916666666667,
      "grad_norm": 0.7266913056373596,
      "learning_rate": 0.00029225410849250305,
      "loss": 4.0459,
      "step": 51110
    },
    {
      "epoch": 0.1065,
      "grad_norm": 0.7062184810638428,
      "learning_rate": 0.0002922509811124533,
      "loss": 3.9404,
      "step": 51120
    },
    {
      "epoch": 0.10652083333333333,
      "grad_norm": 0.786698579788208,
      "learning_rate": 0.00029224785311793554,
      "loss": 3.9763,
      "step": 51130
    },
    {
      "epoch": 0.10654166666666667,
      "grad_norm": 0.7686131000518799,
      "learning_rate": 0.0002922447245089635,
      "loss": 4.0751,
      "step": 51140
    },
    {
      "epoch": 0.1065625,
      "grad_norm": 0.7963362336158752,
      "learning_rate": 0.00029224159528555045,
      "loss": 4.1282,
      "step": 51150
    },
    {
      "epoch": 0.10658333333333334,
      "grad_norm": 0.7746624946594238,
      "learning_rate": 0.00029223846544771,
      "loss": 4.0634,
      "step": 51160
    },
    {
      "epoch": 0.10660416666666667,
      "grad_norm": 0.7235612869262695,
      "learning_rate": 0.00029223533499545576,
      "loss": 3.9442,
      "step": 51170
    },
    {
      "epoch": 0.106625,
      "grad_norm": 0.8485565781593323,
      "learning_rate": 0.0002922322039288011,
      "loss": 4.0562,
      "step": 51180
    },
    {
      "epoch": 0.10664583333333333,
      "grad_norm": 0.7547968029975891,
      "learning_rate": 0.00029222907224775967,
      "loss": 3.9971,
      "step": 51190
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.816499650478363,
      "learning_rate": 0.000292225939952345,
      "loss": 4.0246,
      "step": 51200
    },
    {
      "epoch": 0.1066875,
      "grad_norm": 0.7282909750938416,
      "learning_rate": 0.00029222280704257044,
      "loss": 3.8919,
      "step": 51210
    },
    {
      "epoch": 0.10670833333333334,
      "grad_norm": 0.8192281723022461,
      "learning_rate": 0.0002922196735184497,
      "loss": 3.9158,
      "step": 51220
    },
    {
      "epoch": 0.10672916666666667,
      "grad_norm": 0.8846397995948792,
      "learning_rate": 0.00029221653937999627,
      "loss": 4.0009,
      "step": 51230
    },
    {
      "epoch": 0.10675,
      "grad_norm": 0.7249765992164612,
      "learning_rate": 0.0002922134046272237,
      "loss": 3.937,
      "step": 51240
    },
    {
      "epoch": 0.10677083333333333,
      "grad_norm": 0.7953372001647949,
      "learning_rate": 0.0002922102692601455,
      "loss": 4.1856,
      "step": 51250
    },
    {
      "epoch": 0.10679166666666666,
      "grad_norm": 0.8694043159484863,
      "learning_rate": 0.00029220713327877517,
      "loss": 3.8699,
      "step": 51260
    },
    {
      "epoch": 0.1068125,
      "grad_norm": 0.7265217900276184,
      "learning_rate": 0.00029220399668312643,
      "loss": 3.9448,
      "step": 51270
    },
    {
      "epoch": 0.10683333333333334,
      "grad_norm": 1.0783276557922363,
      "learning_rate": 0.00029220085947321265,
      "loss": 3.9503,
      "step": 51280
    },
    {
      "epoch": 0.10685416666666667,
      "grad_norm": 0.8365939259529114,
      "learning_rate": 0.0002921977216490474,
      "loss": 4.1027,
      "step": 51290
    },
    {
      "epoch": 0.106875,
      "grad_norm": 0.7701013684272766,
      "learning_rate": 0.00029219458321064434,
      "loss": 3.9475,
      "step": 51300
    },
    {
      "epoch": 0.10689583333333333,
      "grad_norm": 0.7184340953826904,
      "learning_rate": 0.0002921914441580169,
      "loss": 3.9289,
      "step": 51310
    },
    {
      "epoch": 0.10691666666666666,
      "grad_norm": 0.6850623488426208,
      "learning_rate": 0.00029218830449117883,
      "loss": 4.0371,
      "step": 51320
    },
    {
      "epoch": 0.1069375,
      "grad_norm": 0.8108096718788147,
      "learning_rate": 0.0002921851642101435,
      "loss": 4.0663,
      "step": 51330
    },
    {
      "epoch": 0.10695833333333334,
      "grad_norm": 0.8161534070968628,
      "learning_rate": 0.0002921820233149245,
      "loss": 4.0464,
      "step": 51340
    },
    {
      "epoch": 0.10697916666666667,
      "grad_norm": 0.7987128496170044,
      "learning_rate": 0.00029217888180553547,
      "loss": 4.03,
      "step": 51350
    },
    {
      "epoch": 0.107,
      "grad_norm": 0.8720340132713318,
      "learning_rate": 0.0002921757396819899,
      "loss": 3.9637,
      "step": 51360
    },
    {
      "epoch": 0.10702083333333333,
      "grad_norm": 0.8332940340042114,
      "learning_rate": 0.0002921725969443015,
      "loss": 3.8769,
      "step": 51370
    },
    {
      "epoch": 0.10704166666666666,
      "grad_norm": 0.8439117074012756,
      "learning_rate": 0.0002921694535924837,
      "loss": 3.8649,
      "step": 51380
    },
    {
      "epoch": 0.1070625,
      "grad_norm": 0.8776065707206726,
      "learning_rate": 0.00029216630962655016,
      "loss": 4.0344,
      "step": 51390
    },
    {
      "epoch": 0.10708333333333334,
      "grad_norm": 0.738735556602478,
      "learning_rate": 0.00029216316504651445,
      "loss": 3.8641,
      "step": 51400
    },
    {
      "epoch": 0.10710416666666667,
      "grad_norm": 0.8037091493606567,
      "learning_rate": 0.0002921600198523901,
      "loss": 3.9625,
      "step": 51410
    },
    {
      "epoch": 0.107125,
      "grad_norm": 0.7587477564811707,
      "learning_rate": 0.00029215687404419077,
      "loss": 3.7675,
      "step": 51420
    },
    {
      "epoch": 0.10714583333333333,
      "grad_norm": 0.9433364272117615,
      "learning_rate": 0.00029215372762192996,
      "loss": 4.1119,
      "step": 51430
    },
    {
      "epoch": 0.10716666666666666,
      "grad_norm": 0.7502623200416565,
      "learning_rate": 0.0002921505805856213,
      "loss": 4.1368,
      "step": 51440
    },
    {
      "epoch": 0.1071875,
      "grad_norm": 0.754521906375885,
      "learning_rate": 0.00029214743293527854,
      "loss": 4.0781,
      "step": 51450
    },
    {
      "epoch": 0.10720833333333334,
      "grad_norm": 0.7416971921920776,
      "learning_rate": 0.00029214428467091503,
      "loss": 3.9534,
      "step": 51460
    },
    {
      "epoch": 0.10722916666666667,
      "grad_norm": 0.9126066565513611,
      "learning_rate": 0.00029214113579254447,
      "loss": 3.9077,
      "step": 51470
    },
    {
      "epoch": 0.10725,
      "grad_norm": 1.542122483253479,
      "learning_rate": 0.00029213798630018046,
      "loss": 4.0877,
      "step": 51480
    },
    {
      "epoch": 0.10727083333333333,
      "grad_norm": 0.8194891214370728,
      "learning_rate": 0.00029213483619383666,
      "loss": 4.1349,
      "step": 51490
    },
    {
      "epoch": 0.10729166666666666,
      "grad_norm": 0.8701623678207397,
      "learning_rate": 0.0002921316854735266,
      "loss": 3.8439,
      "step": 51500
    },
    {
      "epoch": 0.1073125,
      "grad_norm": 0.721686601638794,
      "learning_rate": 0.00029212853413926397,
      "loss": 3.9645,
      "step": 51510
    },
    {
      "epoch": 0.10733333333333334,
      "grad_norm": 0.8494043946266174,
      "learning_rate": 0.0002921253821910623,
      "loss": 3.97,
      "step": 51520
    },
    {
      "epoch": 0.10735416666666667,
      "grad_norm": 0.8931439518928528,
      "learning_rate": 0.0002921222296289352,
      "loss": 3.9963,
      "step": 51530
    },
    {
      "epoch": 0.107375,
      "grad_norm": 0.7747337222099304,
      "learning_rate": 0.00029211907645289634,
      "loss": 3.935,
      "step": 51540
    },
    {
      "epoch": 0.10739583333333333,
      "grad_norm": 0.7565237879753113,
      "learning_rate": 0.0002921159226629593,
      "loss": 3.9925,
      "step": 51550
    },
    {
      "epoch": 0.10741666666666666,
      "grad_norm": 0.8155282139778137,
      "learning_rate": 0.00029211276825913776,
      "loss": 3.9368,
      "step": 51560
    },
    {
      "epoch": 0.1074375,
      "grad_norm": 0.6745347380638123,
      "learning_rate": 0.00029210961324144534,
      "loss": 3.7378,
      "step": 51570
    },
    {
      "epoch": 0.10745833333333334,
      "grad_norm": 0.8709880113601685,
      "learning_rate": 0.0002921064576098956,
      "loss": 4.0982,
      "step": 51580
    },
    {
      "epoch": 0.10747916666666667,
      "grad_norm": 0.9265515804290771,
      "learning_rate": 0.0002921033013645022,
      "loss": 4.0775,
      "step": 51590
    },
    {
      "epoch": 0.1075,
      "grad_norm": 0.881605863571167,
      "learning_rate": 0.00029210014450527884,
      "loss": 4.0188,
      "step": 51600
    },
    {
      "epoch": 0.10752083333333333,
      "grad_norm": 0.7834116816520691,
      "learning_rate": 0.0002920969870322391,
      "loss": 4.0769,
      "step": 51610
    },
    {
      "epoch": 0.10754166666666666,
      "grad_norm": 0.8273080587387085,
      "learning_rate": 0.0002920938289453966,
      "loss": 4.0006,
      "step": 51620
    },
    {
      "epoch": 0.1075625,
      "grad_norm": 0.6867583394050598,
      "learning_rate": 0.000292090670244765,
      "loss": 3.9926,
      "step": 51630
    },
    {
      "epoch": 0.10758333333333334,
      "grad_norm": 0.9835606217384338,
      "learning_rate": 0.00029208751093035793,
      "loss": 3.8799,
      "step": 51640
    },
    {
      "epoch": 0.10760416666666667,
      "grad_norm": 0.8329886794090271,
      "learning_rate": 0.00029208435100218903,
      "loss": 3.9406,
      "step": 51650
    },
    {
      "epoch": 0.107625,
      "grad_norm": 0.6891643404960632,
      "learning_rate": 0.0002920811904602721,
      "loss": 4.0072,
      "step": 51660
    },
    {
      "epoch": 0.10764583333333333,
      "grad_norm": 0.7854464054107666,
      "learning_rate": 0.00029207802930462056,
      "loss": 3.9541,
      "step": 51670
    },
    {
      "epoch": 0.10766666666666666,
      "grad_norm": 0.7853583693504333,
      "learning_rate": 0.0002920748675352482,
      "loss": 3.8468,
      "step": 51680
    },
    {
      "epoch": 0.1076875,
      "grad_norm": 0.7087932825088501,
      "learning_rate": 0.0002920717051521686,
      "loss": 3.9833,
      "step": 51690
    },
    {
      "epoch": 0.10770833333333334,
      "grad_norm": 0.8101626038551331,
      "learning_rate": 0.00029206854215539554,
      "loss": 4.0226,
      "step": 51700
    },
    {
      "epoch": 0.10772916666666667,
      "grad_norm": 0.8133219480514526,
      "learning_rate": 0.0002920653785449426,
      "loss": 4.0932,
      "step": 51710
    },
    {
      "epoch": 0.10775,
      "grad_norm": 0.7019925713539124,
      "learning_rate": 0.0002920622143208234,
      "loss": 4.0903,
      "step": 51720
    },
    {
      "epoch": 0.10777083333333333,
      "grad_norm": 0.9063321948051453,
      "learning_rate": 0.0002920590494830518,
      "loss": 3.9818,
      "step": 51730
    },
    {
      "epoch": 0.10779166666666666,
      "grad_norm": 1.0794398784637451,
      "learning_rate": 0.0002920558840316412,
      "loss": 3.9744,
      "step": 51740
    },
    {
      "epoch": 0.1078125,
      "grad_norm": 0.7844918966293335,
      "learning_rate": 0.00029205271796660544,
      "loss": 4.007,
      "step": 51750
    },
    {
      "epoch": 0.10783333333333334,
      "grad_norm": 0.810516357421875,
      "learning_rate": 0.0002920495512879582,
      "loss": 4.0214,
      "step": 51760
    },
    {
      "epoch": 0.10785416666666667,
      "grad_norm": 0.761742115020752,
      "learning_rate": 0.0002920463839957131,
      "loss": 4.1674,
      "step": 51770
    },
    {
      "epoch": 0.107875,
      "grad_norm": 0.9442174434661865,
      "learning_rate": 0.00029204321608988386,
      "loss": 4.0093,
      "step": 51780
    },
    {
      "epoch": 0.10789583333333333,
      "grad_norm": 0.8025702238082886,
      "learning_rate": 0.00029204004757048415,
      "loss": 4.0775,
      "step": 51790
    },
    {
      "epoch": 0.10791666666666666,
      "grad_norm": 0.8644669055938721,
      "learning_rate": 0.00029203687843752765,
      "loss": 3.9648,
      "step": 51800
    },
    {
      "epoch": 0.1079375,
      "grad_norm": 0.814372718334198,
      "learning_rate": 0.0002920337086910281,
      "loss": 4.0959,
      "step": 51810
    },
    {
      "epoch": 0.10795833333333334,
      "grad_norm": 0.9712896347045898,
      "learning_rate": 0.0002920305383309991,
      "loss": 4.1543,
      "step": 51820
    },
    {
      "epoch": 0.10797916666666667,
      "grad_norm": 0.8118899464607239,
      "learning_rate": 0.00029202736735745445,
      "loss": 4.0551,
      "step": 51830
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.9023054242134094,
      "learning_rate": 0.0002920241957704077,
      "loss": 3.9148,
      "step": 51840
    },
    {
      "epoch": 0.10802083333333333,
      "grad_norm": 0.987561821937561,
      "learning_rate": 0.0002920210235698727,
      "loss": 4.0607,
      "step": 51850
    },
    {
      "epoch": 0.10804166666666666,
      "grad_norm": 0.7615936398506165,
      "learning_rate": 0.0002920178507558631,
      "loss": 3.8562,
      "step": 51860
    },
    {
      "epoch": 0.1080625,
      "grad_norm": 0.7280365824699402,
      "learning_rate": 0.0002920146773283926,
      "loss": 4.1818,
      "step": 51870
    },
    {
      "epoch": 0.10808333333333334,
      "grad_norm": 0.7535092234611511,
      "learning_rate": 0.0002920115032874749,
      "loss": 4.0763,
      "step": 51880
    },
    {
      "epoch": 0.10810416666666667,
      "grad_norm": 0.7573708295822144,
      "learning_rate": 0.0002920083286331237,
      "loss": 4.1118,
      "step": 51890
    },
    {
      "epoch": 0.108125,
      "grad_norm": 0.9810128211975098,
      "learning_rate": 0.0002920051533653527,
      "loss": 3.9832,
      "step": 51900
    },
    {
      "epoch": 0.10814583333333333,
      "grad_norm": 0.714684247970581,
      "learning_rate": 0.00029200197748417575,
      "loss": 3.9388,
      "step": 51910
    },
    {
      "epoch": 0.10816666666666666,
      "grad_norm": 0.7415071129798889,
      "learning_rate": 0.00029199880098960637,
      "loss": 3.8826,
      "step": 51920
    },
    {
      "epoch": 0.1081875,
      "grad_norm": 1.1449800729751587,
      "learning_rate": 0.00029199562388165844,
      "loss": 4.109,
      "step": 51930
    },
    {
      "epoch": 0.10820833333333334,
      "grad_norm": 0.7511093616485596,
      "learning_rate": 0.0002919924461603455,
      "loss": 3.9502,
      "step": 51940
    },
    {
      "epoch": 0.10822916666666667,
      "grad_norm": 0.6977457404136658,
      "learning_rate": 0.00029198926782568154,
      "loss": 4.0603,
      "step": 51950
    },
    {
      "epoch": 0.10825,
      "grad_norm": 0.8111187815666199,
      "learning_rate": 0.0002919860888776801,
      "loss": 3.8996,
      "step": 51960
    },
    {
      "epoch": 0.10827083333333333,
      "grad_norm": 0.8054956793785095,
      "learning_rate": 0.00029198290931635494,
      "loss": 4.0093,
      "step": 51970
    },
    {
      "epoch": 0.10829166666666666,
      "grad_norm": 0.8818517923355103,
      "learning_rate": 0.00029197972914171987,
      "loss": 3.9685,
      "step": 51980
    },
    {
      "epoch": 0.1083125,
      "grad_norm": 0.868332028388977,
      "learning_rate": 0.0002919765483537885,
      "loss": 3.9428,
      "step": 51990
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 0.7117992639541626,
      "learning_rate": 0.00029197336695257467,
      "loss": 4.1425,
      "step": 52000
    },
    {
      "epoch": 0.10833333333333334,
      "eval_loss": 4.292825222015381,
      "eval_runtime": 11.5883,
      "eval_samples_per_second": 0.863,
      "eval_steps_per_second": 0.259,
      "step": 52000
    },
    {
      "epoch": 0.10835416666666667,
      "grad_norm": 0.9602883458137512,
      "learning_rate": 0.0002919701849380921,
      "loss": 4.1732,
      "step": 52010
    },
    {
      "epoch": 0.108375,
      "grad_norm": 1.132872462272644,
      "learning_rate": 0.00029196700231035445,
      "loss": 3.8757,
      "step": 52020
    },
    {
      "epoch": 0.10839583333333333,
      "grad_norm": 0.8030247688293457,
      "learning_rate": 0.00029196381906937565,
      "loss": 3.9705,
      "step": 52030
    },
    {
      "epoch": 0.10841666666666666,
      "grad_norm": 0.8685594797134399,
      "learning_rate": 0.00029196063521516927,
      "loss": 4.1132,
      "step": 52040
    },
    {
      "epoch": 0.1084375,
      "grad_norm": 0.7503647804260254,
      "learning_rate": 0.00029195745074774915,
      "loss": 3.9934,
      "step": 52050
    },
    {
      "epoch": 0.10845833333333334,
      "grad_norm": 0.7165424227714539,
      "learning_rate": 0.00029195426566712906,
      "loss": 4.0667,
      "step": 52060
    },
    {
      "epoch": 0.10847916666666667,
      "grad_norm": 0.7634149193763733,
      "learning_rate": 0.00029195107997332276,
      "loss": 4.0073,
      "step": 52070
    },
    {
      "epoch": 0.1085,
      "grad_norm": 0.8187643885612488,
      "learning_rate": 0.0002919478936663439,
      "loss": 4.0633,
      "step": 52080
    },
    {
      "epoch": 0.10852083333333333,
      "grad_norm": 0.8465825915336609,
      "learning_rate": 0.0002919447067462064,
      "loss": 3.9046,
      "step": 52090
    },
    {
      "epoch": 0.10854166666666666,
      "grad_norm": 0.9938410520553589,
      "learning_rate": 0.00029194151921292395,
      "loss": 4.074,
      "step": 52100
    },
    {
      "epoch": 0.1085625,
      "grad_norm": 0.8423704504966736,
      "learning_rate": 0.0002919383310665103,
      "loss": 3.9815,
      "step": 52110
    },
    {
      "epoch": 0.10858333333333334,
      "grad_norm": 0.7817022800445557,
      "learning_rate": 0.00029193514230697925,
      "loss": 4.1427,
      "step": 52120
    },
    {
      "epoch": 0.10860416666666667,
      "grad_norm": 0.8780257105827332,
      "learning_rate": 0.00029193195293434455,
      "loss": 4.0044,
      "step": 52130
    },
    {
      "epoch": 0.108625,
      "grad_norm": 0.7431384921073914,
      "learning_rate": 0.00029192876294861997,
      "loss": 3.9484,
      "step": 52140
    },
    {
      "epoch": 0.10864583333333333,
      "grad_norm": 0.7732836008071899,
      "learning_rate": 0.00029192557234981935,
      "loss": 4.063,
      "step": 52150
    },
    {
      "epoch": 0.10866666666666666,
      "grad_norm": 0.7548495531082153,
      "learning_rate": 0.00029192238113795644,
      "loss": 4.044,
      "step": 52160
    },
    {
      "epoch": 0.1086875,
      "grad_norm": 0.7877428531646729,
      "learning_rate": 0.000291919189313045,
      "loss": 4.141,
      "step": 52170
    },
    {
      "epoch": 0.10870833333333334,
      "grad_norm": 0.8103417754173279,
      "learning_rate": 0.0002919159968750988,
      "loss": 4.1789,
      "step": 52180
    },
    {
      "epoch": 0.10872916666666667,
      "grad_norm": 0.7253836989402771,
      "learning_rate": 0.0002919128038241318,
      "loss": 4.0021,
      "step": 52190
    },
    {
      "epoch": 0.10875,
      "grad_norm": 0.818221926689148,
      "learning_rate": 0.0002919096101601575,
      "loss": 3.94,
      "step": 52200
    },
    {
      "epoch": 0.10877083333333333,
      "grad_norm": 0.7055040001869202,
      "learning_rate": 0.00029190641588319,
      "loss": 4.0548,
      "step": 52210
    },
    {
      "epoch": 0.10879166666666666,
      "grad_norm": 0.8298307657241821,
      "learning_rate": 0.00029190322099324284,
      "loss": 4.1305,
      "step": 52220
    },
    {
      "epoch": 0.1088125,
      "grad_norm": 0.8079668879508972,
      "learning_rate": 0.00029190002549033,
      "loss": 3.9561,
      "step": 52230
    },
    {
      "epoch": 0.10883333333333334,
      "grad_norm": 0.9573561549186707,
      "learning_rate": 0.0002918968293744652,
      "loss": 3.8645,
      "step": 52240
    },
    {
      "epoch": 0.10885416666666667,
      "grad_norm": 0.8227382302284241,
      "learning_rate": 0.0002918936326456623,
      "loss": 3.9068,
      "step": 52250
    },
    {
      "epoch": 0.108875,
      "grad_norm": 0.8383076190948486,
      "learning_rate": 0.000291890435303935,
      "loss": 3.929,
      "step": 52260
    },
    {
      "epoch": 0.10889583333333333,
      "grad_norm": 0.8024759888648987,
      "learning_rate": 0.0002918872373492972,
      "loss": 4.0615,
      "step": 52270
    },
    {
      "epoch": 0.10891666666666666,
      "grad_norm": 0.7810993194580078,
      "learning_rate": 0.00029188403878176275,
      "loss": 3.9906,
      "step": 52280
    },
    {
      "epoch": 0.1089375,
      "grad_norm": 0.7234829068183899,
      "learning_rate": 0.0002918808396013454,
      "loss": 4.0508,
      "step": 52290
    },
    {
      "epoch": 0.10895833333333334,
      "grad_norm": 0.7852441072463989,
      "learning_rate": 0.0002918776398080589,
      "loss": 3.9925,
      "step": 52300
    },
    {
      "epoch": 0.10897916666666667,
      "grad_norm": 0.9247604012489319,
      "learning_rate": 0.00029187443940191727,
      "loss": 4.1285,
      "step": 52310
    },
    {
      "epoch": 0.109,
      "grad_norm": 0.7500501275062561,
      "learning_rate": 0.00029187123838293413,
      "loss": 4.1962,
      "step": 52320
    },
    {
      "epoch": 0.10902083333333333,
      "grad_norm": 0.8548446297645569,
      "learning_rate": 0.00029186803675112344,
      "loss": 4.002,
      "step": 52330
    },
    {
      "epoch": 0.10904166666666666,
      "grad_norm": 0.7514891028404236,
      "learning_rate": 0.000291864834506499,
      "loss": 3.878,
      "step": 52340
    },
    {
      "epoch": 0.1090625,
      "grad_norm": 0.7346019148826599,
      "learning_rate": 0.0002918616316490746,
      "loss": 3.9506,
      "step": 52350
    },
    {
      "epoch": 0.10908333333333334,
      "grad_norm": 0.8644079566001892,
      "learning_rate": 0.0002918584281788641,
      "loss": 3.9435,
      "step": 52360
    },
    {
      "epoch": 0.10910416666666667,
      "grad_norm": 0.7271287441253662,
      "learning_rate": 0.0002918552240958814,
      "loss": 3.8575,
      "step": 52370
    },
    {
      "epoch": 0.109125,
      "grad_norm": 0.9098513722419739,
      "learning_rate": 0.0002918520194001402,
      "loss": 3.9648,
      "step": 52380
    },
    {
      "epoch": 0.10914583333333333,
      "grad_norm": 0.8556364178657532,
      "learning_rate": 0.0002918488140916545,
      "loss": 4.1142,
      "step": 52390
    },
    {
      "epoch": 0.10916666666666666,
      "grad_norm": 0.8531723618507385,
      "learning_rate": 0.000291845608170438,
      "loss": 4.0164,
      "step": 52400
    },
    {
      "epoch": 0.1091875,
      "grad_norm": 0.9475483894348145,
      "learning_rate": 0.00029184240163650466,
      "loss": 4.1148,
      "step": 52410
    },
    {
      "epoch": 0.10920833333333334,
      "grad_norm": 0.8153632879257202,
      "learning_rate": 0.0002918391944898683,
      "loss": 4.1306,
      "step": 52420
    },
    {
      "epoch": 0.10922916666666667,
      "grad_norm": 0.9830898642539978,
      "learning_rate": 0.0002918359867305427,
      "loss": 3.9117,
      "step": 52430
    },
    {
      "epoch": 0.10925,
      "grad_norm": 0.7919710874557495,
      "learning_rate": 0.00029183277835854185,
      "loss": 4.1084,
      "step": 52440
    },
    {
      "epoch": 0.10927083333333333,
      "grad_norm": 1.1078754663467407,
      "learning_rate": 0.0002918295693738795,
      "loss": 4.0675,
      "step": 52450
    },
    {
      "epoch": 0.10929166666666666,
      "grad_norm": 0.8586977124214172,
      "learning_rate": 0.00029182635977656956,
      "loss": 3.8616,
      "step": 52460
    },
    {
      "epoch": 0.1093125,
      "grad_norm": 0.7405294179916382,
      "learning_rate": 0.00029182314956662593,
      "loss": 3.9091,
      "step": 52470
    },
    {
      "epoch": 0.10933333333333334,
      "grad_norm": 1.0049537420272827,
      "learning_rate": 0.0002918199387440624,
      "loss": 3.8397,
      "step": 52480
    },
    {
      "epoch": 0.10935416666666667,
      "grad_norm": 0.7389025688171387,
      "learning_rate": 0.0002918167273088928,
      "loss": 4.0645,
      "step": 52490
    },
    {
      "epoch": 0.109375,
      "grad_norm": 0.766385555267334,
      "learning_rate": 0.00029181351526113116,
      "loss": 3.9259,
      "step": 52500
    },
    {
      "epoch": 0.10939583333333333,
      "grad_norm": 0.7778509259223938,
      "learning_rate": 0.00029181030260079125,
      "loss": 4.1662,
      "step": 52510
    },
    {
      "epoch": 0.10941666666666666,
      "grad_norm": 0.8445219993591309,
      "learning_rate": 0.00029180708932788693,
      "loss": 4.0251,
      "step": 52520
    },
    {
      "epoch": 0.1094375,
      "grad_norm": 0.8038216233253479,
      "learning_rate": 0.0002918038754424322,
      "loss": 3.9978,
      "step": 52530
    },
    {
      "epoch": 0.10945833333333334,
      "grad_norm": 0.8453511595726013,
      "learning_rate": 0.00029180066094444077,
      "loss": 3.828,
      "step": 52540
    },
    {
      "epoch": 0.10947916666666667,
      "grad_norm": 0.8067003488540649,
      "learning_rate": 0.00029179744583392663,
      "loss": 3.9561,
      "step": 52550
    },
    {
      "epoch": 0.1095,
      "grad_norm": 0.7459459900856018,
      "learning_rate": 0.00029179423011090364,
      "loss": 4.1009,
      "step": 52560
    },
    {
      "epoch": 0.10952083333333333,
      "grad_norm": 0.8324541449546814,
      "learning_rate": 0.0002917910137753858,
      "loss": 3.9422,
      "step": 52570
    },
    {
      "epoch": 0.10954166666666666,
      "grad_norm": 0.832737386226654,
      "learning_rate": 0.0002917877968273868,
      "loss": 3.8588,
      "step": 52580
    },
    {
      "epoch": 0.1095625,
      "grad_norm": 0.7939635515213013,
      "learning_rate": 0.0002917845792669207,
      "loss": 3.9388,
      "step": 52590
    },
    {
      "epoch": 0.10958333333333334,
      "grad_norm": 0.7925247550010681,
      "learning_rate": 0.0002917813610940013,
      "loss": 4.0098,
      "step": 52600
    },
    {
      "epoch": 0.10960416666666667,
      "grad_norm": 0.8496633768081665,
      "learning_rate": 0.00029177814230864254,
      "loss": 4.0395,
      "step": 52610
    },
    {
      "epoch": 0.109625,
      "grad_norm": 0.8074082732200623,
      "learning_rate": 0.0002917749229108583,
      "loss": 3.9595,
      "step": 52620
    },
    {
      "epoch": 0.10964583333333333,
      "grad_norm": 0.8831207752227783,
      "learning_rate": 0.0002917717029006626,
      "loss": 3.9476,
      "step": 52630
    },
    {
      "epoch": 0.10966666666666666,
      "grad_norm": 0.7828157544136047,
      "learning_rate": 0.00029176848227806924,
      "loss": 4.0193,
      "step": 52640
    },
    {
      "epoch": 0.1096875,
      "grad_norm": 2.1978719234466553,
      "learning_rate": 0.00029176526104309207,
      "loss": 4.2943,
      "step": 52650
    },
    {
      "epoch": 0.10970833333333334,
      "grad_norm": 0.7968044877052307,
      "learning_rate": 0.00029176203919574516,
      "loss": 3.8197,
      "step": 52660
    },
    {
      "epoch": 0.10972916666666667,
      "grad_norm": 0.7645314335823059,
      "learning_rate": 0.00029175881673604233,
      "loss": 3.8248,
      "step": 52670
    },
    {
      "epoch": 0.10975,
      "grad_norm": 0.8111442923545837,
      "learning_rate": 0.00029175559366399756,
      "loss": 3.9206,
      "step": 52680
    },
    {
      "epoch": 0.10977083333333333,
      "grad_norm": 0.7780027985572815,
      "learning_rate": 0.0002917523699796247,
      "loss": 3.8892,
      "step": 52690
    },
    {
      "epoch": 0.10979166666666666,
      "grad_norm": 0.7356646060943604,
      "learning_rate": 0.00029174914568293767,
      "loss": 4.0607,
      "step": 52700
    },
    {
      "epoch": 0.1098125,
      "grad_norm": 0.8040390610694885,
      "learning_rate": 0.0002917459207739505,
      "loss": 3.9026,
      "step": 52710
    },
    {
      "epoch": 0.10983333333333334,
      "grad_norm": 0.7996958494186401,
      "learning_rate": 0.00029174269525267704,
      "loss": 3.8874,
      "step": 52720
    },
    {
      "epoch": 0.10985416666666667,
      "grad_norm": 0.7688407301902771,
      "learning_rate": 0.00029173946911913124,
      "loss": 3.9387,
      "step": 52730
    },
    {
      "epoch": 0.109875,
      "grad_norm": 0.7038112878799438,
      "learning_rate": 0.00029173624237332704,
      "loss": 3.8037,
      "step": 52740
    },
    {
      "epoch": 0.10989583333333333,
      "grad_norm": 0.805330753326416,
      "learning_rate": 0.0002917330150152784,
      "loss": 3.8332,
      "step": 52750
    },
    {
      "epoch": 0.10991666666666666,
      "grad_norm": 0.7707400918006897,
      "learning_rate": 0.0002917297870449992,
      "loss": 4.0045,
      "step": 52760
    },
    {
      "epoch": 0.1099375,
      "grad_norm": 0.7355412244796753,
      "learning_rate": 0.0002917265584625034,
      "loss": 4.0422,
      "step": 52770
    },
    {
      "epoch": 0.10995833333333334,
      "grad_norm": 0.7653030753135681,
      "learning_rate": 0.00029172332926780505,
      "loss": 3.8315,
      "step": 52780
    },
    {
      "epoch": 0.10997916666666667,
      "grad_norm": 0.7614937424659729,
      "learning_rate": 0.000291720099460918,
      "loss": 3.9342,
      "step": 52790
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7058159112930298,
      "learning_rate": 0.0002917168690418562,
      "loss": 4.0702,
      "step": 52800
    },
    {
      "epoch": 0.11002083333333333,
      "grad_norm": 0.8921005129814148,
      "learning_rate": 0.00029171363801063356,
      "loss": 3.9833,
      "step": 52810
    },
    {
      "epoch": 0.11004166666666666,
      "grad_norm": 0.7762746214866638,
      "learning_rate": 0.00029171040636726415,
      "loss": 4.0211,
      "step": 52820
    },
    {
      "epoch": 0.1100625,
      "grad_norm": 0.7757589221000671,
      "learning_rate": 0.0002917071741117619,
      "loss": 3.8361,
      "step": 52830
    },
    {
      "epoch": 0.11008333333333334,
      "grad_norm": 0.7362900972366333,
      "learning_rate": 0.0002917039412441407,
      "loss": 3.7991,
      "step": 52840
    },
    {
      "epoch": 0.11010416666666667,
      "grad_norm": 0.6952081918716431,
      "learning_rate": 0.0002917007077644146,
      "loss": 4.0634,
      "step": 52850
    },
    {
      "epoch": 0.110125,
      "grad_norm": 0.7980598211288452,
      "learning_rate": 0.0002916974736725975,
      "loss": 4.0623,
      "step": 52860
    },
    {
      "epoch": 0.11014583333333333,
      "grad_norm": 0.7988148331642151,
      "learning_rate": 0.00029169423896870344,
      "loss": 4.1201,
      "step": 52870
    },
    {
      "epoch": 0.11016666666666666,
      "grad_norm": 0.8626530766487122,
      "learning_rate": 0.00029169100365274636,
      "loss": 4.0571,
      "step": 52880
    },
    {
      "epoch": 0.1101875,
      "grad_norm": 0.7965443134307861,
      "learning_rate": 0.00029168776772474017,
      "loss": 3.8099,
      "step": 52890
    },
    {
      "epoch": 0.11020833333333334,
      "grad_norm": 0.7561006546020508,
      "learning_rate": 0.00029168453118469894,
      "loss": 4.0266,
      "step": 52900
    },
    {
      "epoch": 0.11022916666666667,
      "grad_norm": 0.8024379014968872,
      "learning_rate": 0.0002916812940326366,
      "loss": 4.0878,
      "step": 52910
    },
    {
      "epoch": 0.11025,
      "grad_norm": 0.7615507245063782,
      "learning_rate": 0.0002916780562685672,
      "loss": 3.9266,
      "step": 52920
    },
    {
      "epoch": 0.11027083333333333,
      "grad_norm": 0.9090479612350464,
      "learning_rate": 0.00029167481789250466,
      "loss": 3.9366,
      "step": 52930
    },
    {
      "epoch": 0.11029166666666666,
      "grad_norm": 0.8365195989608765,
      "learning_rate": 0.0002916715789044629,
      "loss": 3.9034,
      "step": 52940
    },
    {
      "epoch": 0.1103125,
      "grad_norm": 0.8081237077713013,
      "learning_rate": 0.00029166833930445614,
      "loss": 3.8996,
      "step": 52950
    },
    {
      "epoch": 0.11033333333333334,
      "grad_norm": 0.8502915501594543,
      "learning_rate": 0.00029166509909249813,
      "loss": 3.9922,
      "step": 52960
    },
    {
      "epoch": 0.11035416666666667,
      "grad_norm": 0.8141067028045654,
      "learning_rate": 0.000291661858268603,
      "loss": 3.9005,
      "step": 52970
    },
    {
      "epoch": 0.110375,
      "grad_norm": 0.8019058108329773,
      "learning_rate": 0.00029165861683278475,
      "loss": 3.8704,
      "step": 52980
    },
    {
      "epoch": 0.11039583333333333,
      "grad_norm": 1.0281845331192017,
      "learning_rate": 0.0002916553747850573,
      "loss": 3.919,
      "step": 52990
    },
    {
      "epoch": 0.11041666666666666,
      "grad_norm": 0.8038377165794373,
      "learning_rate": 0.0002916521321254347,
      "loss": 3.9946,
      "step": 53000
    },
    {
      "epoch": 0.11041666666666666,
      "eval_loss": 4.287143707275391,
      "eval_runtime": 9.7771,
      "eval_samples_per_second": 1.023,
      "eval_steps_per_second": 0.307,
      "step": 53000
    },
    {
      "epoch": 0.1104375,
      "grad_norm": 0.8986204266548157,
      "learning_rate": 0.0002916488888539309,
      "loss": 4.0505,
      "step": 53010
    },
    {
      "epoch": 0.11045833333333334,
      "grad_norm": 0.7640153169631958,
      "learning_rate": 0.0002916456449705601,
      "loss": 3.8295,
      "step": 53020
    },
    {
      "epoch": 0.11047916666666667,
      "grad_norm": 0.7983289957046509,
      "learning_rate": 0.00029164240047533616,
      "loss": 3.868,
      "step": 53030
    },
    {
      "epoch": 0.1105,
      "grad_norm": 0.7742973566055298,
      "learning_rate": 0.00029163915536827305,
      "loss": 3.8922,
      "step": 53040
    },
    {
      "epoch": 0.11052083333333333,
      "grad_norm": 0.8335437178611755,
      "learning_rate": 0.0002916359096493849,
      "loss": 3.9397,
      "step": 53050
    },
    {
      "epoch": 0.11054166666666666,
      "grad_norm": 0.7938936948776245,
      "learning_rate": 0.0002916326633186856,
      "loss": 4.0751,
      "step": 53060
    },
    {
      "epoch": 0.1105625,
      "grad_norm": 0.8706938624382019,
      "learning_rate": 0.00029162941637618934,
      "loss": 3.8612,
      "step": 53070
    },
    {
      "epoch": 0.11058333333333334,
      "grad_norm": 0.7677713632583618,
      "learning_rate": 0.0002916261688219101,
      "loss": 4.0338,
      "step": 53080
    },
    {
      "epoch": 0.11060416666666667,
      "grad_norm": 0.9367477297782898,
      "learning_rate": 0.0002916229206558618,
      "loss": 3.8915,
      "step": 53090
    },
    {
      "epoch": 0.110625,
      "grad_norm": 0.7873819470405579,
      "learning_rate": 0.0002916196718780585,
      "loss": 4.1746,
      "step": 53100
    },
    {
      "epoch": 0.11064583333333333,
      "grad_norm": 0.7975022196769714,
      "learning_rate": 0.00029161642248851436,
      "loss": 4.0805,
      "step": 53110
    },
    {
      "epoch": 0.11066666666666666,
      "grad_norm": 0.8965891599655151,
      "learning_rate": 0.00029161317248724327,
      "loss": 4.0682,
      "step": 53120
    },
    {
      "epoch": 0.1106875,
      "grad_norm": 0.7114343047142029,
      "learning_rate": 0.00029160992187425935,
      "loss": 4.0278,
      "step": 53130
    },
    {
      "epoch": 0.11070833333333334,
      "grad_norm": 0.7752771973609924,
      "learning_rate": 0.00029160667064957664,
      "loss": 4.0363,
      "step": 53140
    },
    {
      "epoch": 0.11072916666666667,
      "grad_norm": 0.817577064037323,
      "learning_rate": 0.0002916034188132092,
      "loss": 3.9887,
      "step": 53150
    },
    {
      "epoch": 0.11075,
      "grad_norm": 0.7602166533470154,
      "learning_rate": 0.0002916001663651709,
      "loss": 3.9578,
      "step": 53160
    },
    {
      "epoch": 0.11077083333333333,
      "grad_norm": 0.6868917346000671,
      "learning_rate": 0.0002915969133054761,
      "loss": 4.0167,
      "step": 53170
    },
    {
      "epoch": 0.11079166666666666,
      "grad_norm": 0.7333712577819824,
      "learning_rate": 0.0002915936596341386,
      "loss": 3.8314,
      "step": 53180
    },
    {
      "epoch": 0.1108125,
      "grad_norm": 0.8951585292816162,
      "learning_rate": 0.00029159040535117254,
      "loss": 3.9547,
      "step": 53190
    },
    {
      "epoch": 0.11083333333333334,
      "grad_norm": 0.7691102623939514,
      "learning_rate": 0.000291587150456592,
      "loss": 4.0171,
      "step": 53200
    },
    {
      "epoch": 0.11085416666666667,
      "grad_norm": 0.7777038812637329,
      "learning_rate": 0.00029158389495041097,
      "loss": 4.0557,
      "step": 53210
    },
    {
      "epoch": 0.110875,
      "grad_norm": 0.7678014636039734,
      "learning_rate": 0.0002915806388326436,
      "loss": 4.0594,
      "step": 53220
    },
    {
      "epoch": 0.11089583333333333,
      "grad_norm": 0.8808465600013733,
      "learning_rate": 0.00029157738210330386,
      "loss": 4.1487,
      "step": 53230
    },
    {
      "epoch": 0.11091666666666666,
      "grad_norm": 0.8025858998298645,
      "learning_rate": 0.00029157412476240593,
      "loss": 3.9933,
      "step": 53240
    },
    {
      "epoch": 0.1109375,
      "grad_norm": 0.7906595468521118,
      "learning_rate": 0.00029157086680996376,
      "loss": 3.918,
      "step": 53250
    },
    {
      "epoch": 0.11095833333333334,
      "grad_norm": 0.8262672424316406,
      "learning_rate": 0.0002915676082459915,
      "loss": 4.1917,
      "step": 53260
    },
    {
      "epoch": 0.11097916666666667,
      "grad_norm": 0.7214429974555969,
      "learning_rate": 0.00029156434907050326,
      "loss": 4.0127,
      "step": 53270
    },
    {
      "epoch": 0.111,
      "grad_norm": 0.7250967025756836,
      "learning_rate": 0.000291561089283513,
      "loss": 4.0867,
      "step": 53280
    },
    {
      "epoch": 0.11102083333333333,
      "grad_norm": 0.8093532919883728,
      "learning_rate": 0.0002915578288850349,
      "loss": 3.9426,
      "step": 53290
    },
    {
      "epoch": 0.11104166666666666,
      "grad_norm": 0.9679776430130005,
      "learning_rate": 0.000291554567875083,
      "loss": 3.9925,
      "step": 53300
    },
    {
      "epoch": 0.1110625,
      "grad_norm": 0.7204603552818298,
      "learning_rate": 0.00029155130625367143,
      "loss": 3.9257,
      "step": 53310
    },
    {
      "epoch": 0.11108333333333334,
      "grad_norm": 0.8536656498908997,
      "learning_rate": 0.0002915480440208142,
      "loss": 4.1043,
      "step": 53320
    },
    {
      "epoch": 0.11110416666666667,
      "grad_norm": 0.7618528008460999,
      "learning_rate": 0.0002915447811765255,
      "loss": 4.0696,
      "step": 53330
    },
    {
      "epoch": 0.111125,
      "grad_norm": 0.8743622303009033,
      "learning_rate": 0.0002915415177208193,
      "loss": 3.9548,
      "step": 53340
    },
    {
      "epoch": 0.11114583333333333,
      "grad_norm": 0.6830845475196838,
      "learning_rate": 0.00029153825365370984,
      "loss": 3.9555,
      "step": 53350
    },
    {
      "epoch": 0.11116666666666666,
      "grad_norm": 0.92741858959198,
      "learning_rate": 0.0002915349889752111,
      "loss": 4.0029,
      "step": 53360
    },
    {
      "epoch": 0.1111875,
      "grad_norm": 0.7706344127655029,
      "learning_rate": 0.0002915317236853373,
      "loss": 4.0708,
      "step": 53370
    },
    {
      "epoch": 0.11120833333333334,
      "grad_norm": 0.8862875699996948,
      "learning_rate": 0.00029152845778410245,
      "loss": 3.868,
      "step": 53380
    },
    {
      "epoch": 0.11122916666666667,
      "grad_norm": 0.7734929323196411,
      "learning_rate": 0.00029152519127152065,
      "loss": 4.0393,
      "step": 53390
    },
    {
      "epoch": 0.11125,
      "grad_norm": 0.8274433016777039,
      "learning_rate": 0.00029152192414760603,
      "loss": 4.0143,
      "step": 53400
    },
    {
      "epoch": 0.11127083333333333,
      "grad_norm": 0.8333505988121033,
      "learning_rate": 0.00029151865641237275,
      "loss": 3.7917,
      "step": 53410
    },
    {
      "epoch": 0.11129166666666666,
      "grad_norm": 1.049241065979004,
      "learning_rate": 0.0002915153880658349,
      "loss": 3.987,
      "step": 53420
    },
    {
      "epoch": 0.1113125,
      "grad_norm": 0.7601693868637085,
      "learning_rate": 0.00029151211910800656,
      "loss": 4.0545,
      "step": 53430
    },
    {
      "epoch": 0.11133333333333334,
      "grad_norm": 0.9181479215621948,
      "learning_rate": 0.0002915088495389019,
      "loss": 3.9335,
      "step": 53440
    },
    {
      "epoch": 0.11135416666666667,
      "grad_norm": 0.8045979142189026,
      "learning_rate": 0.000291505579358535,
      "loss": 3.8212,
      "step": 53450
    },
    {
      "epoch": 0.111375,
      "grad_norm": 0.7896431684494019,
      "learning_rate": 0.00029150230856692,
      "loss": 4.1041,
      "step": 53460
    },
    {
      "epoch": 0.11139583333333333,
      "grad_norm": 0.6560031175613403,
      "learning_rate": 0.0002914990371640711,
      "loss": 3.8303,
      "step": 53470
    },
    {
      "epoch": 0.11141666666666666,
      "grad_norm": 0.7690889835357666,
      "learning_rate": 0.00029149576515000234,
      "loss": 3.8923,
      "step": 53480
    },
    {
      "epoch": 0.1114375,
      "grad_norm": 0.7666255831718445,
      "learning_rate": 0.00029149249252472784,
      "loss": 3.9374,
      "step": 53490
    },
    {
      "epoch": 0.11145833333333334,
      "grad_norm": 0.7665466070175171,
      "learning_rate": 0.00029148921928826184,
      "loss": 4.1684,
      "step": 53500
    },
    {
      "epoch": 0.11147916666666667,
      "grad_norm": 0.7785353660583496,
      "learning_rate": 0.0002914859454406184,
      "loss": 4.0742,
      "step": 53510
    },
    {
      "epoch": 0.1115,
      "grad_norm": 0.7910484671592712,
      "learning_rate": 0.00029148267098181164,
      "loss": 4.0096,
      "step": 53520
    },
    {
      "epoch": 0.11152083333333333,
      "grad_norm": 0.7075024843215942,
      "learning_rate": 0.0002914793959118558,
      "loss": 3.9381,
      "step": 53530
    },
    {
      "epoch": 0.11154166666666666,
      "grad_norm": 0.737091064453125,
      "learning_rate": 0.00029147612023076495,
      "loss": 3.8916,
      "step": 53540
    },
    {
      "epoch": 0.1115625,
      "grad_norm": 0.7996664643287659,
      "learning_rate": 0.00029147284393855324,
      "loss": 3.8037,
      "step": 53550
    },
    {
      "epoch": 0.11158333333333334,
      "grad_norm": 0.7620794177055359,
      "learning_rate": 0.0002914695670352349,
      "loss": 4.0547,
      "step": 53560
    },
    {
      "epoch": 0.11160416666666667,
      "grad_norm": 0.9369173049926758,
      "learning_rate": 0.0002914662895208239,
      "loss": 4.0153,
      "step": 53570
    },
    {
      "epoch": 0.111625,
      "grad_norm": 0.8283045887947083,
      "learning_rate": 0.00029146301139533465,
      "loss": 3.9179,
      "step": 53580
    },
    {
      "epoch": 0.11164583333333333,
      "grad_norm": 0.8813813924789429,
      "learning_rate": 0.0002914597326587811,
      "loss": 4.0876,
      "step": 53590
    },
    {
      "epoch": 0.11166666666666666,
      "grad_norm": 0.8540322780609131,
      "learning_rate": 0.0002914564533111776,
      "loss": 3.921,
      "step": 53600
    },
    {
      "epoch": 0.1116875,
      "grad_norm": 0.8220049142837524,
      "learning_rate": 0.0002914531733525382,
      "loss": 4.0458,
      "step": 53610
    },
    {
      "epoch": 0.11170833333333334,
      "grad_norm": 0.7949165105819702,
      "learning_rate": 0.000291449892782877,
      "loss": 3.9973,
      "step": 53620
    },
    {
      "epoch": 0.11172916666666667,
      "grad_norm": 0.856960117816925,
      "learning_rate": 0.0002914466116022083,
      "loss": 3.9142,
      "step": 53630
    },
    {
      "epoch": 0.11175,
      "grad_norm": 0.8311901092529297,
      "learning_rate": 0.00029144332981054623,
      "loss": 4.0232,
      "step": 53640
    },
    {
      "epoch": 0.11177083333333333,
      "grad_norm": 0.7674480676651001,
      "learning_rate": 0.00029144004740790493,
      "loss": 4.0432,
      "step": 53650
    },
    {
      "epoch": 0.11179166666666666,
      "grad_norm": 0.8217912912368774,
      "learning_rate": 0.0002914367643942987,
      "loss": 3.8703,
      "step": 53660
    },
    {
      "epoch": 0.1118125,
      "grad_norm": 0.7695301175117493,
      "learning_rate": 0.0002914334807697416,
      "loss": 4.1283,
      "step": 53670
    },
    {
      "epoch": 0.11183333333333334,
      "grad_norm": 0.7896645665168762,
      "learning_rate": 0.0002914301965342477,
      "loss": 4.0795,
      "step": 53680
    },
    {
      "epoch": 0.11185416666666667,
      "grad_norm": 1.0392377376556396,
      "learning_rate": 0.00029142691168783147,
      "loss": 4.0667,
      "step": 53690
    },
    {
      "epoch": 0.111875,
      "grad_norm": 0.9117002487182617,
      "learning_rate": 0.000291423626230507,
      "loss": 3.966,
      "step": 53700
    },
    {
      "epoch": 0.11189583333333333,
      "grad_norm": 0.8944419026374817,
      "learning_rate": 0.00029142034016228834,
      "loss": 4.0523,
      "step": 53710
    },
    {
      "epoch": 0.11191666666666666,
      "grad_norm": 0.791966438293457,
      "learning_rate": 0.00029141705348318986,
      "loss": 4.0174,
      "step": 53720
    },
    {
      "epoch": 0.1119375,
      "grad_norm": 0.8486201167106628,
      "learning_rate": 0.00029141376619322564,
      "loss": 3.9041,
      "step": 53730
    },
    {
      "epoch": 0.11195833333333334,
      "grad_norm": 0.727866530418396,
      "learning_rate": 0.00029141047829240994,
      "loss": 4.0645,
      "step": 53740
    },
    {
      "epoch": 0.11197916666666667,
      "grad_norm": 0.7042128443717957,
      "learning_rate": 0.00029140718978075696,
      "loss": 3.9214,
      "step": 53750
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.8535209894180298,
      "learning_rate": 0.0002914039006582809,
      "loss": 3.8172,
      "step": 53760
    },
    {
      "epoch": 0.11202083333333333,
      "grad_norm": 0.8558336496353149,
      "learning_rate": 0.0002914006109249959,
      "loss": 4.0244,
      "step": 53770
    },
    {
      "epoch": 0.11204166666666666,
      "grad_norm": 0.7634351253509521,
      "learning_rate": 0.0002913973205809163,
      "loss": 4.1981,
      "step": 53780
    },
    {
      "epoch": 0.1120625,
      "grad_norm": 0.9074376821517944,
      "learning_rate": 0.0002913940296260562,
      "loss": 3.9885,
      "step": 53790
    },
    {
      "epoch": 0.11208333333333333,
      "grad_norm": 0.7365894317626953,
      "learning_rate": 0.00029139073806042987,
      "loss": 3.9825,
      "step": 53800
    },
    {
      "epoch": 0.11210416666666667,
      "grad_norm": 0.9071856141090393,
      "learning_rate": 0.00029138744588405157,
      "loss": 4.0964,
      "step": 53810
    },
    {
      "epoch": 0.112125,
      "grad_norm": 0.7501065135002136,
      "learning_rate": 0.0002913841530969354,
      "loss": 4.0113,
      "step": 53820
    },
    {
      "epoch": 0.11214583333333333,
      "grad_norm": 0.769594669342041,
      "learning_rate": 0.0002913808596990957,
      "loss": 3.921,
      "step": 53830
    },
    {
      "epoch": 0.11216666666666666,
      "grad_norm": 0.9653618335723877,
      "learning_rate": 0.00029137756569054665,
      "loss": 3.9994,
      "step": 53840
    },
    {
      "epoch": 0.1121875,
      "grad_norm": 0.8307741284370422,
      "learning_rate": 0.0002913742710713024,
      "loss": 3.9399,
      "step": 53850
    },
    {
      "epoch": 0.11220833333333333,
      "grad_norm": 0.7629021406173706,
      "learning_rate": 0.0002913709758413774,
      "loss": 4.0677,
      "step": 53860
    },
    {
      "epoch": 0.11222916666666667,
      "grad_norm": 0.8333168625831604,
      "learning_rate": 0.0002913676800007856,
      "loss": 3.8942,
      "step": 53870
    },
    {
      "epoch": 0.11225,
      "grad_norm": 0.7365798950195312,
      "learning_rate": 0.0002913643835495414,
      "loss": 3.9329,
      "step": 53880
    },
    {
      "epoch": 0.11227083333333333,
      "grad_norm": 0.8182818293571472,
      "learning_rate": 0.0002913610864876591,
      "loss": 4.1152,
      "step": 53890
    },
    {
      "epoch": 0.11229166666666666,
      "grad_norm": 0.7590382099151611,
      "learning_rate": 0.0002913577888151528,
      "loss": 4.0,
      "step": 53900
    },
    {
      "epoch": 0.1123125,
      "grad_norm": 0.7891393899917603,
      "learning_rate": 0.0002913544905320368,
      "loss": 4.1027,
      "step": 53910
    },
    {
      "epoch": 0.11233333333333333,
      "grad_norm": 0.7939102649688721,
      "learning_rate": 0.0002913511916383254,
      "loss": 3.9175,
      "step": 53920
    },
    {
      "epoch": 0.11235416666666667,
      "grad_norm": 1.2716625928878784,
      "learning_rate": 0.00029134789213403273,
      "loss": 3.7981,
      "step": 53930
    },
    {
      "epoch": 0.112375,
      "grad_norm": 0.8454559445381165,
      "learning_rate": 0.0002913445920191732,
      "loss": 4.1802,
      "step": 53940
    },
    {
      "epoch": 0.11239583333333333,
      "grad_norm": 0.8109568953514099,
      "learning_rate": 0.00029134129129376095,
      "loss": 4.1076,
      "step": 53950
    },
    {
      "epoch": 0.11241666666666666,
      "grad_norm": 0.6924893260002136,
      "learning_rate": 0.00029133798995781025,
      "loss": 3.9523,
      "step": 53960
    },
    {
      "epoch": 0.1124375,
      "grad_norm": 0.8436433672904968,
      "learning_rate": 0.0002913346880113354,
      "loss": 3.9559,
      "step": 53970
    },
    {
      "epoch": 0.11245833333333333,
      "grad_norm": 0.8140881657600403,
      "learning_rate": 0.00029133138545435065,
      "loss": 3.9539,
      "step": 53980
    },
    {
      "epoch": 0.11247916666666667,
      "grad_norm": 0.7920872569084167,
      "learning_rate": 0.00029132808228687023,
      "loss": 4.0456,
      "step": 53990
    },
    {
      "epoch": 0.1125,
      "grad_norm": 0.8136446475982666,
      "learning_rate": 0.0002913247785089084,
      "loss": 4.0914,
      "step": 54000
    },
    {
      "epoch": 0.1125,
      "eval_loss": 4.280838966369629,
      "eval_runtime": 10.6116,
      "eval_samples_per_second": 0.942,
      "eval_steps_per_second": 0.283,
      "step": 54000
    },
    {
      "epoch": 0.11252083333333333,
      "grad_norm": 0.77712482213974,
      "learning_rate": 0.00029132147412047957,
      "loss": 3.9758,
      "step": 54010
    },
    {
      "epoch": 0.11254166666666666,
      "grad_norm": 0.8757309913635254,
      "learning_rate": 0.00029131816912159785,
      "loss": 4.0426,
      "step": 54020
    },
    {
      "epoch": 0.1125625,
      "grad_norm": 0.7290351986885071,
      "learning_rate": 0.00029131486351227756,
      "loss": 3.9122,
      "step": 54030
    },
    {
      "epoch": 0.11258333333333333,
      "grad_norm": 0.7096030712127686,
      "learning_rate": 0.000291311557292533,
      "loss": 3.8814,
      "step": 54040
    },
    {
      "epoch": 0.11260416666666667,
      "grad_norm": 0.8860689401626587,
      "learning_rate": 0.0002913082504623785,
      "loss": 3.8465,
      "step": 54050
    },
    {
      "epoch": 0.112625,
      "grad_norm": 0.76201331615448,
      "learning_rate": 0.00029130494302182826,
      "loss": 3.98,
      "step": 54060
    },
    {
      "epoch": 0.11264583333333333,
      "grad_norm": 0.779542863368988,
      "learning_rate": 0.0002913016349708966,
      "loss": 4.1541,
      "step": 54070
    },
    {
      "epoch": 0.11266666666666666,
      "grad_norm": 0.985028088092804,
      "learning_rate": 0.0002912983263095978,
      "loss": 3.8634,
      "step": 54080
    },
    {
      "epoch": 0.1126875,
      "grad_norm": 0.8575774431228638,
      "learning_rate": 0.00029129501703794615,
      "loss": 3.8876,
      "step": 54090
    },
    {
      "epoch": 0.11270833333333333,
      "grad_norm": 0.7997328639030457,
      "learning_rate": 0.00029129170715595597,
      "loss": 4.0255,
      "step": 54100
    },
    {
      "epoch": 0.11272916666666667,
      "grad_norm": 0.7222681045532227,
      "learning_rate": 0.0002912883966636415,
      "loss": 4.0313,
      "step": 54110
    },
    {
      "epoch": 0.11275,
      "grad_norm": 0.8360675573348999,
      "learning_rate": 0.00029128508556101716,
      "loss": 4.2073,
      "step": 54120
    },
    {
      "epoch": 0.11277083333333333,
      "grad_norm": 0.81132972240448,
      "learning_rate": 0.00029128177384809715,
      "loss": 4.0361,
      "step": 54130
    },
    {
      "epoch": 0.11279166666666667,
      "grad_norm": 0.7303118109703064,
      "learning_rate": 0.00029127846152489573,
      "loss": 3.9028,
      "step": 54140
    },
    {
      "epoch": 0.1128125,
      "grad_norm": 0.8683115839958191,
      "learning_rate": 0.0002912751485914274,
      "loss": 3.9677,
      "step": 54150
    },
    {
      "epoch": 0.11283333333333333,
      "grad_norm": 0.8812719583511353,
      "learning_rate": 0.0002912718350477063,
      "loss": 3.996,
      "step": 54160
    },
    {
      "epoch": 0.11285416666666667,
      "grad_norm": 0.8308274745941162,
      "learning_rate": 0.0002912685208937467,
      "loss": 3.8356,
      "step": 54170
    },
    {
      "epoch": 0.112875,
      "grad_norm": 0.6979871988296509,
      "learning_rate": 0.0002912652061295631,
      "loss": 4.0132,
      "step": 54180
    },
    {
      "epoch": 0.11289583333333333,
      "grad_norm": 0.9117338061332703,
      "learning_rate": 0.0002912618907551697,
      "loss": 3.9262,
      "step": 54190
    },
    {
      "epoch": 0.11291666666666667,
      "grad_norm": 0.8472652435302734,
      "learning_rate": 0.00029125857477058087,
      "loss": 4.0324,
      "step": 54200
    },
    {
      "epoch": 0.1129375,
      "grad_norm": 0.743266224861145,
      "learning_rate": 0.0002912552581758109,
      "loss": 4.0731,
      "step": 54210
    },
    {
      "epoch": 0.11295833333333333,
      "grad_norm": 0.7494754791259766,
      "learning_rate": 0.00029125194097087416,
      "loss": 4.1534,
      "step": 54220
    },
    {
      "epoch": 0.11297916666666667,
      "grad_norm": 0.751899242401123,
      "learning_rate": 0.0002912486231557849,
      "loss": 4.0764,
      "step": 54230
    },
    {
      "epoch": 0.113,
      "grad_norm": 0.7224110960960388,
      "learning_rate": 0.0002912453047305575,
      "loss": 3.9223,
      "step": 54240
    },
    {
      "epoch": 0.11302083333333333,
      "grad_norm": 0.8038419485092163,
      "learning_rate": 0.00029124198569520636,
      "loss": 3.8798,
      "step": 54250
    },
    {
      "epoch": 0.11304166666666667,
      "grad_norm": 0.6930558681488037,
      "learning_rate": 0.00029123866604974566,
      "loss": 3.9899,
      "step": 54260
    },
    {
      "epoch": 0.1130625,
      "grad_norm": 0.7548181414604187,
      "learning_rate": 0.00029123534579418987,
      "loss": 3.8553,
      "step": 54270
    },
    {
      "epoch": 0.11308333333333333,
      "grad_norm": 0.7979262471199036,
      "learning_rate": 0.00029123202492855325,
      "loss": 4.0494,
      "step": 54280
    },
    {
      "epoch": 0.11310416666666667,
      "grad_norm": 0.7424187660217285,
      "learning_rate": 0.0002912287034528502,
      "loss": 3.9087,
      "step": 54290
    },
    {
      "epoch": 0.113125,
      "grad_norm": 0.8549516797065735,
      "learning_rate": 0.00029122538136709507,
      "loss": 3.8293,
      "step": 54300
    },
    {
      "epoch": 0.11314583333333333,
      "grad_norm": 0.717536211013794,
      "learning_rate": 0.00029122205867130224,
      "loss": 4.023,
      "step": 54310
    },
    {
      "epoch": 0.11316666666666667,
      "grad_norm": 0.8807007074356079,
      "learning_rate": 0.00029121873536548594,
      "loss": 4.0192,
      "step": 54320
    },
    {
      "epoch": 0.1131875,
      "grad_norm": 0.7513592839241028,
      "learning_rate": 0.00029121541144966063,
      "loss": 4.0564,
      "step": 54330
    },
    {
      "epoch": 0.11320833333333333,
      "grad_norm": 0.7990778088569641,
      "learning_rate": 0.00029121208692384063,
      "loss": 3.9472,
      "step": 54340
    },
    {
      "epoch": 0.11322916666666667,
      "grad_norm": 0.7603349089622498,
      "learning_rate": 0.00029120876178804036,
      "loss": 4.0012,
      "step": 54350
    },
    {
      "epoch": 0.11325,
      "grad_norm": 0.8535602688789368,
      "learning_rate": 0.00029120543604227407,
      "loss": 4.0624,
      "step": 54360
    },
    {
      "epoch": 0.11327083333333333,
      "grad_norm": 0.8001286387443542,
      "learning_rate": 0.0002912021096865562,
      "loss": 4.0139,
      "step": 54370
    },
    {
      "epoch": 0.11329166666666667,
      "grad_norm": 0.8954506516456604,
      "learning_rate": 0.00029119878272090117,
      "loss": 3.9726,
      "step": 54380
    },
    {
      "epoch": 0.1133125,
      "grad_norm": 0.7244200706481934,
      "learning_rate": 0.0002911954551453232,
      "loss": 3.853,
      "step": 54390
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 0.9759459495544434,
      "learning_rate": 0.0002911921269598368,
      "loss": 3.9457,
      "step": 54400
    },
    {
      "epoch": 0.11335416666666667,
      "grad_norm": 0.8425066471099854,
      "learning_rate": 0.0002911887981644563,
      "loss": 3.8838,
      "step": 54410
    },
    {
      "epoch": 0.113375,
      "grad_norm": 1.0385279655456543,
      "learning_rate": 0.0002911854687591961,
      "loss": 3.8266,
      "step": 54420
    },
    {
      "epoch": 0.11339583333333333,
      "grad_norm": 1.0086040496826172,
      "learning_rate": 0.0002911821387440705,
      "loss": 4.2336,
      "step": 54430
    },
    {
      "epoch": 0.11341666666666667,
      "grad_norm": 0.8561246991157532,
      "learning_rate": 0.00029117880811909395,
      "loss": 3.9645,
      "step": 54440
    },
    {
      "epoch": 0.1134375,
      "grad_norm": 0.7583532333374023,
      "learning_rate": 0.0002911754768842809,
      "loss": 3.7842,
      "step": 54450
    },
    {
      "epoch": 0.11345833333333333,
      "grad_norm": 0.7862679362297058,
      "learning_rate": 0.0002911721450396456,
      "loss": 3.9556,
      "step": 54460
    },
    {
      "epoch": 0.11347916666666667,
      "grad_norm": 0.7411077618598938,
      "learning_rate": 0.00029116881258520254,
      "loss": 4.059,
      "step": 54470
    },
    {
      "epoch": 0.1135,
      "grad_norm": 0.6947376132011414,
      "learning_rate": 0.00029116547952096614,
      "loss": 4.0333,
      "step": 54480
    },
    {
      "epoch": 0.11352083333333333,
      "grad_norm": 0.7771292328834534,
      "learning_rate": 0.0002911621458469507,
      "loss": 3.9279,
      "step": 54490
    },
    {
      "epoch": 0.11354166666666667,
      "grad_norm": 0.7524527907371521,
      "learning_rate": 0.0002911588115631706,
      "loss": 4.2295,
      "step": 54500
    },
    {
      "epoch": 0.1135625,
      "grad_norm": 1.6225998401641846,
      "learning_rate": 0.0002911554766696404,
      "loss": 4.0799,
      "step": 54510
    },
    {
      "epoch": 0.11358333333333333,
      "grad_norm": 0.9445501565933228,
      "learning_rate": 0.00029115214116637436,
      "loss": 4.0504,
      "step": 54520
    },
    {
      "epoch": 0.11360416666666667,
      "grad_norm": 0.8149837255477905,
      "learning_rate": 0.00029114880505338694,
      "loss": 3.9698,
      "step": 54530
    },
    {
      "epoch": 0.113625,
      "grad_norm": 0.7575581669807434,
      "learning_rate": 0.0002911454683306926,
      "loss": 4.2666,
      "step": 54540
    },
    {
      "epoch": 0.11364583333333333,
      "grad_norm": 0.7737521529197693,
      "learning_rate": 0.0002911421309983057,
      "loss": 3.8698,
      "step": 54550
    },
    {
      "epoch": 0.11366666666666667,
      "grad_norm": 1.0397659540176392,
      "learning_rate": 0.0002911387930562406,
      "loss": 3.9867,
      "step": 54560
    },
    {
      "epoch": 0.1136875,
      "grad_norm": 0.789445161819458,
      "learning_rate": 0.00029113545450451186,
      "loss": 4.0222,
      "step": 54570
    },
    {
      "epoch": 0.11370833333333333,
      "grad_norm": 0.9298253655433655,
      "learning_rate": 0.0002911321153431338,
      "loss": 4.2021,
      "step": 54580
    },
    {
      "epoch": 0.11372916666666667,
      "grad_norm": 1.0476429462432861,
      "learning_rate": 0.0002911287755721209,
      "loss": 4.1678,
      "step": 54590
    },
    {
      "epoch": 0.11375,
      "grad_norm": 0.8239476680755615,
      "learning_rate": 0.00029112543519148744,
      "loss": 4.0078,
      "step": 54600
    },
    {
      "epoch": 0.11377083333333333,
      "grad_norm": 0.8165156245231628,
      "learning_rate": 0.00029112209420124803,
      "loss": 3.896,
      "step": 54610
    },
    {
      "epoch": 0.11379166666666667,
      "grad_norm": 0.8070113062858582,
      "learning_rate": 0.00029111875260141705,
      "loss": 3.9147,
      "step": 54620
    },
    {
      "epoch": 0.1138125,
      "grad_norm": 0.8266675472259521,
      "learning_rate": 0.0002911154103920089,
      "loss": 4.0051,
      "step": 54630
    },
    {
      "epoch": 0.11383333333333333,
      "grad_norm": 0.8317335247993469,
      "learning_rate": 0.00029111206757303804,
      "loss": 3.9733,
      "step": 54640
    },
    {
      "epoch": 0.11385416666666667,
      "grad_norm": 0.840154767036438,
      "learning_rate": 0.00029110872414451886,
      "loss": 3.9761,
      "step": 54650
    },
    {
      "epoch": 0.113875,
      "grad_norm": 0.7286726832389832,
      "learning_rate": 0.0002911053801064659,
      "loss": 4.0047,
      "step": 54660
    },
    {
      "epoch": 0.11389583333333334,
      "grad_norm": 0.841788649559021,
      "learning_rate": 0.00029110203545889353,
      "loss": 3.9343,
      "step": 54670
    },
    {
      "epoch": 0.11391666666666667,
      "grad_norm": 0.8023160696029663,
      "learning_rate": 0.0002910986902018162,
      "loss": 4.0907,
      "step": 54680
    },
    {
      "epoch": 0.1139375,
      "grad_norm": 0.7802908420562744,
      "learning_rate": 0.0002910953443352484,
      "loss": 3.8565,
      "step": 54690
    },
    {
      "epoch": 0.11395833333333333,
      "grad_norm": 1.0106667280197144,
      "learning_rate": 0.0002910919978592046,
      "loss": 4.0557,
      "step": 54700
    },
    {
      "epoch": 0.11397916666666667,
      "grad_norm": 0.6741986274719238,
      "learning_rate": 0.0002910886507736992,
      "loss": 3.8516,
      "step": 54710
    },
    {
      "epoch": 0.114,
      "grad_norm": 0.7139117121696472,
      "learning_rate": 0.0002910853030787466,
      "loss": 4.0426,
      "step": 54720
    },
    {
      "epoch": 0.11402083333333334,
      "grad_norm": 0.7387940287590027,
      "learning_rate": 0.00029108195477436146,
      "loss": 4.1256,
      "step": 54730
    },
    {
      "epoch": 0.11404166666666667,
      "grad_norm": 0.8619028925895691,
      "learning_rate": 0.000291078605860558,
      "loss": 3.851,
      "step": 54740
    },
    {
      "epoch": 0.1140625,
      "grad_norm": 0.8429527878761292,
      "learning_rate": 0.0002910752563373509,
      "loss": 4.1251,
      "step": 54750
    },
    {
      "epoch": 0.11408333333333333,
      "grad_norm": 0.7705411314964294,
      "learning_rate": 0.00029107190620475447,
      "loss": 4.0714,
      "step": 54760
    },
    {
      "epoch": 0.11410416666666667,
      "grad_norm": 0.7936342358589172,
      "learning_rate": 0.00029106855546278326,
      "loss": 3.9697,
      "step": 54770
    },
    {
      "epoch": 0.114125,
      "grad_norm": 0.7898793816566467,
      "learning_rate": 0.0002910652041114517,
      "loss": 4.0045,
      "step": 54780
    },
    {
      "epoch": 0.11414583333333334,
      "grad_norm": 0.8115124702453613,
      "learning_rate": 0.0002910618521507744,
      "loss": 4.1036,
      "step": 54790
    },
    {
      "epoch": 0.11416666666666667,
      "grad_norm": 0.7644979953765869,
      "learning_rate": 0.00029105849958076566,
      "loss": 3.9279,
      "step": 54800
    },
    {
      "epoch": 0.1141875,
      "grad_norm": 0.7506288290023804,
      "learning_rate": 0.00029105514640144004,
      "loss": 4.0457,
      "step": 54810
    },
    {
      "epoch": 0.11420833333333333,
      "grad_norm": 0.8403288125991821,
      "learning_rate": 0.00029105179261281204,
      "loss": 3.8715,
      "step": 54820
    },
    {
      "epoch": 0.11422916666666667,
      "grad_norm": 0.8105493187904358,
      "learning_rate": 0.00029104843821489614,
      "loss": 3.9632,
      "step": 54830
    },
    {
      "epoch": 0.11425,
      "grad_norm": 0.7322739958763123,
      "learning_rate": 0.0002910450832077067,
      "loss": 4.0979,
      "step": 54840
    },
    {
      "epoch": 0.11427083333333334,
      "grad_norm": 0.8530154228210449,
      "learning_rate": 0.0002910417275912585,
      "loss": 4.0981,
      "step": 54850
    },
    {
      "epoch": 0.11429166666666667,
      "grad_norm": 0.9795765280723572,
      "learning_rate": 0.00029103837136556577,
      "loss": 4.1436,
      "step": 54860
    },
    {
      "epoch": 0.1143125,
      "grad_norm": 0.7400732636451721,
      "learning_rate": 0.0002910350145306431,
      "loss": 3.9806,
      "step": 54870
    },
    {
      "epoch": 0.11433333333333333,
      "grad_norm": 0.7170628905296326,
      "learning_rate": 0.000291031657086505,
      "loss": 4.07,
      "step": 54880
    },
    {
      "epoch": 0.11435416666666667,
      "grad_norm": 0.8993966579437256,
      "learning_rate": 0.000291028299033166,
      "loss": 4.0839,
      "step": 54890
    },
    {
      "epoch": 0.114375,
      "grad_norm": 0.8258939385414124,
      "learning_rate": 0.00029102494037064054,
      "loss": 3.7945,
      "step": 54900
    },
    {
      "epoch": 0.11439583333333334,
      "grad_norm": 0.7812408208847046,
      "learning_rate": 0.0002910215810989432,
      "loss": 3.8222,
      "step": 54910
    },
    {
      "epoch": 0.11441666666666667,
      "grad_norm": 0.7441757321357727,
      "learning_rate": 0.0002910182212180884,
      "loss": 3.9879,
      "step": 54920
    },
    {
      "epoch": 0.1144375,
      "grad_norm": 0.836484968662262,
      "learning_rate": 0.0002910148607280907,
      "loss": 4.048,
      "step": 54930
    },
    {
      "epoch": 0.11445833333333333,
      "grad_norm": 0.844278872013092,
      "learning_rate": 0.00029101149962896465,
      "loss": 4.0222,
      "step": 54940
    },
    {
      "epoch": 0.11447916666666667,
      "grad_norm": 0.7436351776123047,
      "learning_rate": 0.00029100813792072474,
      "loss": 4.1547,
      "step": 54950
    },
    {
      "epoch": 0.1145,
      "grad_norm": 0.8790718913078308,
      "learning_rate": 0.0002910047756033854,
      "loss": 3.9384,
      "step": 54960
    },
    {
      "epoch": 0.11452083333333334,
      "grad_norm": 1.0069365501403809,
      "learning_rate": 0.0002910014126769614,
      "loss": 4.1157,
      "step": 54970
    },
    {
      "epoch": 0.11454166666666667,
      "grad_norm": 0.7754048705101013,
      "learning_rate": 0.000290998049141467,
      "loss": 3.9471,
      "step": 54980
    },
    {
      "epoch": 0.1145625,
      "grad_norm": 0.7519248127937317,
      "learning_rate": 0.00029099468499691687,
      "loss": 3.9414,
      "step": 54990
    },
    {
      "epoch": 0.11458333333333333,
      "grad_norm": 0.7190216779708862,
      "learning_rate": 0.0002909913202433255,
      "loss": 3.9746,
      "step": 55000
    },
    {
      "epoch": 0.11458333333333333,
      "eval_loss": 4.282595157623291,
      "eval_runtime": 8.7917,
      "eval_samples_per_second": 1.137,
      "eval_steps_per_second": 0.341,
      "step": 55000
    },
    {
      "epoch": 0.11460416666666666,
      "grad_norm": 0.73598313331604,
      "learning_rate": 0.0002909879548807075,
      "loss": 3.798,
      "step": 55010
    },
    {
      "epoch": 0.114625,
      "grad_norm": 0.7681795954704285,
      "learning_rate": 0.00029098458890907726,
      "loss": 3.9372,
      "step": 55020
    },
    {
      "epoch": 0.11464583333333334,
      "grad_norm": 0.8460932374000549,
      "learning_rate": 0.0002909812223284494,
      "loss": 4.1843,
      "step": 55030
    },
    {
      "epoch": 0.11466666666666667,
      "grad_norm": 0.8196831345558167,
      "learning_rate": 0.0002909778551388385,
      "loss": 4.1184,
      "step": 55040
    },
    {
      "epoch": 0.1146875,
      "grad_norm": 0.6837860345840454,
      "learning_rate": 0.000290974487340259,
      "loss": 3.992,
      "step": 55050
    },
    {
      "epoch": 0.11470833333333333,
      "grad_norm": 0.843625545501709,
      "learning_rate": 0.0002909711189327256,
      "loss": 3.8545,
      "step": 55060
    },
    {
      "epoch": 0.11472916666666666,
      "grad_norm": 0.7268226146697998,
      "learning_rate": 0.0002909677499162528,
      "loss": 3.9443,
      "step": 55070
    },
    {
      "epoch": 0.11475,
      "grad_norm": 0.7199708819389343,
      "learning_rate": 0.000290964380290855,
      "loss": 4.0985,
      "step": 55080
    },
    {
      "epoch": 0.11477083333333334,
      "grad_norm": 0.7235242128372192,
      "learning_rate": 0.00029096101005654697,
      "loss": 4.0323,
      "step": 55090
    },
    {
      "epoch": 0.11479166666666667,
      "grad_norm": 0.7907050251960754,
      "learning_rate": 0.0002909576392133431,
      "loss": 3.9805,
      "step": 55100
    },
    {
      "epoch": 0.1148125,
      "grad_norm": 0.8369475603103638,
      "learning_rate": 0.0002909542677612581,
      "loss": 3.9457,
      "step": 55110
    },
    {
      "epoch": 0.11483333333333333,
      "grad_norm": 0.8142032623291016,
      "learning_rate": 0.0002909508957003064,
      "loss": 3.759,
      "step": 55120
    },
    {
      "epoch": 0.11485416666666666,
      "grad_norm": 0.9956970810890198,
      "learning_rate": 0.00029094752303050265,
      "loss": 4.0784,
      "step": 55130
    },
    {
      "epoch": 0.114875,
      "grad_norm": 0.7185103297233582,
      "learning_rate": 0.00029094414975186137,
      "loss": 3.9774,
      "step": 55140
    },
    {
      "epoch": 0.11489583333333334,
      "grad_norm": 0.7733570337295532,
      "learning_rate": 0.00029094077586439715,
      "loss": 4.0479,
      "step": 55150
    },
    {
      "epoch": 0.11491666666666667,
      "grad_norm": 0.7490519285202026,
      "learning_rate": 0.0002909374013681246,
      "loss": 3.8437,
      "step": 55160
    },
    {
      "epoch": 0.1149375,
      "grad_norm": 0.8149108290672302,
      "learning_rate": 0.00029093402626305826,
      "loss": 4.1582,
      "step": 55170
    },
    {
      "epoch": 0.11495833333333333,
      "grad_norm": 0.7319273948669434,
      "learning_rate": 0.00029093065054921265,
      "loss": 4.1906,
      "step": 55180
    },
    {
      "epoch": 0.11497916666666666,
      "grad_norm": 0.7475303411483765,
      "learning_rate": 0.0002909272742266025,
      "loss": 3.926,
      "step": 55190
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.8271916508674622,
      "learning_rate": 0.0002909238972952423,
      "loss": 3.9795,
      "step": 55200
    },
    {
      "epoch": 0.11502083333333334,
      "grad_norm": 1.2443183660507202,
      "learning_rate": 0.00029092051975514654,
      "loss": 3.9289,
      "step": 55210
    },
    {
      "epoch": 0.11504166666666667,
      "grad_norm": 0.8365421295166016,
      "learning_rate": 0.00029091714160633003,
      "loss": 3.9704,
      "step": 55220
    },
    {
      "epoch": 0.1150625,
      "grad_norm": 0.8995363116264343,
      "learning_rate": 0.0002909137628488072,
      "loss": 3.9971,
      "step": 55230
    },
    {
      "epoch": 0.11508333333333333,
      "grad_norm": 0.7884370684623718,
      "learning_rate": 0.0002909103834825927,
      "loss": 3.9981,
      "step": 55240
    },
    {
      "epoch": 0.11510416666666666,
      "grad_norm": 0.8233088850975037,
      "learning_rate": 0.0002909070035077011,
      "loss": 3.686,
      "step": 55250
    },
    {
      "epoch": 0.115125,
      "grad_norm": 0.7961454391479492,
      "learning_rate": 0.00029090362292414707,
      "loss": 3.9204,
      "step": 55260
    },
    {
      "epoch": 0.11514583333333334,
      "grad_norm": 0.7829490900039673,
      "learning_rate": 0.0002909002417319451,
      "loss": 3.9261,
      "step": 55270
    },
    {
      "epoch": 0.11516666666666667,
      "grad_norm": 0.8642953038215637,
      "learning_rate": 0.0002908968599311099,
      "loss": 4.0254,
      "step": 55280
    },
    {
      "epoch": 0.1151875,
      "grad_norm": 0.7104470133781433,
      "learning_rate": 0.00029089347752165603,
      "loss": 4.0673,
      "step": 55290
    },
    {
      "epoch": 0.11520833333333333,
      "grad_norm": 0.8956674933433533,
      "learning_rate": 0.0002908900945035981,
      "loss": 3.9517,
      "step": 55300
    },
    {
      "epoch": 0.11522916666666666,
      "grad_norm": 0.7470389008522034,
      "learning_rate": 0.00029088671087695075,
      "loss": 4.1541,
      "step": 55310
    },
    {
      "epoch": 0.11525,
      "grad_norm": 0.9496526122093201,
      "learning_rate": 0.00029088332664172856,
      "loss": 4.0236,
      "step": 55320
    },
    {
      "epoch": 0.11527083333333334,
      "grad_norm": 1.01850426197052,
      "learning_rate": 0.0002908799417979461,
      "loss": 3.9318,
      "step": 55330
    },
    {
      "epoch": 0.11529166666666667,
      "grad_norm": 0.7430797815322876,
      "learning_rate": 0.00029087655634561815,
      "loss": 3.9599,
      "step": 55340
    },
    {
      "epoch": 0.1153125,
      "grad_norm": 0.8040732741355896,
      "learning_rate": 0.00029087317028475925,
      "loss": 3.9796,
      "step": 55350
    },
    {
      "epoch": 0.11533333333333333,
      "grad_norm": 0.8098499774932861,
      "learning_rate": 0.0002908697836153839,
      "loss": 4.0783,
      "step": 55360
    },
    {
      "epoch": 0.11535416666666666,
      "grad_norm": 0.7171045541763306,
      "learning_rate": 0.00029086639633750695,
      "loss": 4.1597,
      "step": 55370
    },
    {
      "epoch": 0.115375,
      "grad_norm": 0.7111401557922363,
      "learning_rate": 0.00029086300845114287,
      "loss": 4.1104,
      "step": 55380
    },
    {
      "epoch": 0.11539583333333334,
      "grad_norm": 0.7866699695587158,
      "learning_rate": 0.0002908596199563064,
      "loss": 4.2086,
      "step": 55390
    },
    {
      "epoch": 0.11541666666666667,
      "grad_norm": 0.9305040240287781,
      "learning_rate": 0.0002908562308530121,
      "loss": 4.0552,
      "step": 55400
    },
    {
      "epoch": 0.1154375,
      "grad_norm": 0.9883685111999512,
      "learning_rate": 0.0002908528411412746,
      "loss": 4.0012,
      "step": 55410
    },
    {
      "epoch": 0.11545833333333333,
      "grad_norm": 0.740370512008667,
      "learning_rate": 0.00029084945082110867,
      "loss": 3.8837,
      "step": 55420
    },
    {
      "epoch": 0.11547916666666666,
      "grad_norm": 0.8016185760498047,
      "learning_rate": 0.0002908460598925288,
      "loss": 4.0965,
      "step": 55430
    },
    {
      "epoch": 0.1155,
      "grad_norm": 1.0470367670059204,
      "learning_rate": 0.0002908426683555497,
      "loss": 4.0223,
      "step": 55440
    },
    {
      "epoch": 0.11552083333333334,
      "grad_norm": 0.7940205335617065,
      "learning_rate": 0.00029083927621018606,
      "loss": 4.0373,
      "step": 55450
    },
    {
      "epoch": 0.11554166666666667,
      "grad_norm": 0.8199257850646973,
      "learning_rate": 0.0002908358834564525,
      "loss": 4.0781,
      "step": 55460
    },
    {
      "epoch": 0.1155625,
      "grad_norm": 0.8272666335105896,
      "learning_rate": 0.0002908324900943636,
      "loss": 4.0151,
      "step": 55470
    },
    {
      "epoch": 0.11558333333333333,
      "grad_norm": 0.8007349967956543,
      "learning_rate": 0.0002908290961239341,
      "loss": 4.1157,
      "step": 55480
    },
    {
      "epoch": 0.11560416666666666,
      "grad_norm": 0.7423064112663269,
      "learning_rate": 0.0002908257015451787,
      "loss": 3.9899,
      "step": 55490
    },
    {
      "epoch": 0.115625,
      "grad_norm": 0.807608425617218,
      "learning_rate": 0.000290822306358112,
      "loss": 4.0666,
      "step": 55500
    },
    {
      "epoch": 0.11564583333333334,
      "grad_norm": 0.7157126069068909,
      "learning_rate": 0.00029081891056274866,
      "loss": 4.1128,
      "step": 55510
    },
    {
      "epoch": 0.11566666666666667,
      "grad_norm": 0.6915614008903503,
      "learning_rate": 0.00029081551415910335,
      "loss": 4.0052,
      "step": 55520
    },
    {
      "epoch": 0.1156875,
      "grad_norm": 0.8019481897354126,
      "learning_rate": 0.0002908121171471908,
      "loss": 3.9401,
      "step": 55530
    },
    {
      "epoch": 0.11570833333333333,
      "grad_norm": 0.7448357343673706,
      "learning_rate": 0.0002908087195270257,
      "loss": 3.8767,
      "step": 55540
    },
    {
      "epoch": 0.11572916666666666,
      "grad_norm": 0.8862829804420471,
      "learning_rate": 0.0002908053212986225,
      "loss": 4.1034,
      "step": 55550
    },
    {
      "epoch": 0.11575,
      "grad_norm": 0.8475197553634644,
      "learning_rate": 0.0002908019224619962,
      "loss": 3.927,
      "step": 55560
    },
    {
      "epoch": 0.11577083333333334,
      "grad_norm": 0.7861827611923218,
      "learning_rate": 0.0002907985230171612,
      "loss": 3.9181,
      "step": 55570
    },
    {
      "epoch": 0.11579166666666667,
      "grad_norm": 0.8424199223518372,
      "learning_rate": 0.0002907951229641324,
      "loss": 4.0166,
      "step": 55580
    },
    {
      "epoch": 0.1158125,
      "grad_norm": 0.9093542098999023,
      "learning_rate": 0.0002907917223029244,
      "loss": 4.0245,
      "step": 55590
    },
    {
      "epoch": 0.11583333333333333,
      "grad_norm": 0.8418501019477844,
      "learning_rate": 0.00029078832103355184,
      "loss": 3.9185,
      "step": 55600
    },
    {
      "epoch": 0.11585416666666666,
      "grad_norm": 0.8773674368858337,
      "learning_rate": 0.0002907849191560295,
      "loss": 3.928,
      "step": 55610
    },
    {
      "epoch": 0.115875,
      "grad_norm": 0.7624064683914185,
      "learning_rate": 0.000290781516670372,
      "loss": 3.8843,
      "step": 55620
    },
    {
      "epoch": 0.11589583333333334,
      "grad_norm": 0.8128445744514465,
      "learning_rate": 0.00029077811357659415,
      "loss": 3.8105,
      "step": 55630
    },
    {
      "epoch": 0.11591666666666667,
      "grad_norm": 0.8106861114501953,
      "learning_rate": 0.0002907747098747105,
      "loss": 4.1633,
      "step": 55640
    },
    {
      "epoch": 0.1159375,
      "grad_norm": 0.9018149971961975,
      "learning_rate": 0.00029077130556473584,
      "loss": 3.9364,
      "step": 55650
    },
    {
      "epoch": 0.11595833333333333,
      "grad_norm": 0.8528909087181091,
      "learning_rate": 0.0002907679006466849,
      "loss": 3.9462,
      "step": 55660
    },
    {
      "epoch": 0.11597916666666666,
      "grad_norm": 0.8209452033042908,
      "learning_rate": 0.0002907644951205723,
      "loss": 3.7773,
      "step": 55670
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.8198520541191101,
      "learning_rate": 0.00029076108898641286,
      "loss": 4.0698,
      "step": 55680
    },
    {
      "epoch": 0.11602083333333334,
      "grad_norm": 0.8322768807411194,
      "learning_rate": 0.0002907576822442212,
      "loss": 3.8771,
      "step": 55690
    },
    {
      "epoch": 0.11604166666666667,
      "grad_norm": 0.7193964123725891,
      "learning_rate": 0.000290754274894012,
      "loss": 3.9011,
      "step": 55700
    },
    {
      "epoch": 0.1160625,
      "grad_norm": 0.8725239038467407,
      "learning_rate": 0.0002907508669358001,
      "loss": 4.0831,
      "step": 55710
    },
    {
      "epoch": 0.11608333333333333,
      "grad_norm": 0.8503686189651489,
      "learning_rate": 0.0002907474583696002,
      "loss": 3.9901,
      "step": 55720
    },
    {
      "epoch": 0.11610416666666666,
      "grad_norm": 0.9531903266906738,
      "learning_rate": 0.00029074404919542693,
      "loss": 3.9642,
      "step": 55730
    },
    {
      "epoch": 0.116125,
      "grad_norm": 0.6778217554092407,
      "learning_rate": 0.0002907406394132951,
      "loss": 4.0851,
      "step": 55740
    },
    {
      "epoch": 0.11614583333333334,
      "grad_norm": 0.7760130167007446,
      "learning_rate": 0.00029073722902321945,
      "loss": 3.9641,
      "step": 55750
    },
    {
      "epoch": 0.11616666666666667,
      "grad_norm": 0.7739828824996948,
      "learning_rate": 0.0002907338180252147,
      "loss": 4.0814,
      "step": 55760
    },
    {
      "epoch": 0.1161875,
      "grad_norm": 0.7053191065788269,
      "learning_rate": 0.00029073040641929546,
      "loss": 3.9444,
      "step": 55770
    },
    {
      "epoch": 0.11620833333333333,
      "grad_norm": 0.852531909942627,
      "learning_rate": 0.0002907269942054767,
      "loss": 3.9877,
      "step": 55780
    },
    {
      "epoch": 0.11622916666666666,
      "grad_norm": 1.0267517566680908,
      "learning_rate": 0.0002907235813837729,
      "loss": 3.8451,
      "step": 55790
    },
    {
      "epoch": 0.11625,
      "grad_norm": 0.684150755405426,
      "learning_rate": 0.000290720167954199,
      "loss": 3.9238,
      "step": 55800
    },
    {
      "epoch": 0.11627083333333334,
      "grad_norm": 0.79072505235672,
      "learning_rate": 0.00029071675391676967,
      "loss": 3.9906,
      "step": 55810
    },
    {
      "epoch": 0.11629166666666667,
      "grad_norm": 0.771257758140564,
      "learning_rate": 0.0002907133392714996,
      "loss": 3.8404,
      "step": 55820
    },
    {
      "epoch": 0.1163125,
      "grad_norm": 0.7140412330627441,
      "learning_rate": 0.00029070992401840373,
      "loss": 4.1559,
      "step": 55830
    },
    {
      "epoch": 0.11633333333333333,
      "grad_norm": 0.7020445466041565,
      "learning_rate": 0.0002907065081574966,
      "loss": 3.9605,
      "step": 55840
    },
    {
      "epoch": 0.11635416666666666,
      "grad_norm": 0.830005407333374,
      "learning_rate": 0.000290703091688793,
      "loss": 4.1671,
      "step": 55850
    },
    {
      "epoch": 0.116375,
      "grad_norm": 0.7565948963165283,
      "learning_rate": 0.00029069967461230786,
      "loss": 4.1292,
      "step": 55860
    },
    {
      "epoch": 0.11639583333333334,
      "grad_norm": 0.7385079860687256,
      "learning_rate": 0.0002906962569280557,
      "loss": 4.0766,
      "step": 55870
    },
    {
      "epoch": 0.11641666666666667,
      "grad_norm": 0.9085128307342529,
      "learning_rate": 0.0002906928386360515,
      "loss": 3.9143,
      "step": 55880
    },
    {
      "epoch": 0.1164375,
      "grad_norm": 0.7843457460403442,
      "learning_rate": 0.0002906894197363099,
      "loss": 4.0831,
      "step": 55890
    },
    {
      "epoch": 0.11645833333333333,
      "grad_norm": 0.87433922290802,
      "learning_rate": 0.00029068600022884566,
      "loss": 3.9345,
      "step": 55900
    },
    {
      "epoch": 0.11647916666666666,
      "grad_norm": 0.7391664385795593,
      "learning_rate": 0.00029068258011367363,
      "loss": 3.8752,
      "step": 55910
    },
    {
      "epoch": 0.1165,
      "grad_norm": 0.7576178312301636,
      "learning_rate": 0.0002906791593908085,
      "loss": 4.0088,
      "step": 55920
    },
    {
      "epoch": 0.11652083333333334,
      "grad_norm": 1.2139042615890503,
      "learning_rate": 0.00029067573806026514,
      "loss": 3.9768,
      "step": 55930
    },
    {
      "epoch": 0.11654166666666667,
      "grad_norm": 0.7836435437202454,
      "learning_rate": 0.00029067231612205823,
      "loss": 3.7968,
      "step": 55940
    },
    {
      "epoch": 0.1165625,
      "grad_norm": 0.9953556656837463,
      "learning_rate": 0.0002906688935762026,
      "loss": 4.075,
      "step": 55950
    },
    {
      "epoch": 0.11658333333333333,
      "grad_norm": 0.854648768901825,
      "learning_rate": 0.000290665470422713,
      "loss": 4.0641,
      "step": 55960
    },
    {
      "epoch": 0.11660416666666666,
      "grad_norm": 0.7571261525154114,
      "learning_rate": 0.00029066204666160434,
      "loss": 4.1727,
      "step": 55970
    },
    {
      "epoch": 0.116625,
      "grad_norm": 0.704644501209259,
      "learning_rate": 0.0002906586222928912,
      "loss": 3.8823,
      "step": 55980
    },
    {
      "epoch": 0.11664583333333334,
      "grad_norm": 0.7479310035705566,
      "learning_rate": 0.0002906551973165886,
      "loss": 3.8376,
      "step": 55990
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 0.720906138420105,
      "learning_rate": 0.00029065177173271116,
      "loss": 4.1812,
      "step": 56000
    },
    {
      "epoch": 0.11666666666666667,
      "eval_loss": 4.294170379638672,
      "eval_runtime": 10.1648,
      "eval_samples_per_second": 0.984,
      "eval_steps_per_second": 0.295,
      "step": 56000
    },
    {
      "epoch": 0.1166875,
      "grad_norm": 1.0072021484375,
      "learning_rate": 0.0002906483455412738,
      "loss": 3.9644,
      "step": 56010
    },
    {
      "epoch": 0.11670833333333333,
      "grad_norm": 0.7951868176460266,
      "learning_rate": 0.0002906449187422912,
      "loss": 3.9939,
      "step": 56020
    },
    {
      "epoch": 0.11672916666666666,
      "grad_norm": 0.7805221080780029,
      "learning_rate": 0.0002906414913357782,
      "loss": 3.9488,
      "step": 56030
    },
    {
      "epoch": 0.11675,
      "grad_norm": 0.8421866297721863,
      "learning_rate": 0.00029063806332174966,
      "loss": 3.9849,
      "step": 56040
    },
    {
      "epoch": 0.11677083333333334,
      "grad_norm": 0.9242716431617737,
      "learning_rate": 0.00029063463470022034,
      "loss": 3.9781,
      "step": 56050
    },
    {
      "epoch": 0.11679166666666667,
      "grad_norm": 1.015456199645996,
      "learning_rate": 0.0002906312054712051,
      "loss": 3.934,
      "step": 56060
    },
    {
      "epoch": 0.1168125,
      "grad_norm": 0.7998828887939453,
      "learning_rate": 0.00029062777563471873,
      "loss": 4.0238,
      "step": 56070
    },
    {
      "epoch": 0.11683333333333333,
      "grad_norm": 0.8360891342163086,
      "learning_rate": 0.000290624345190776,
      "loss": 3.8716,
      "step": 56080
    },
    {
      "epoch": 0.11685416666666666,
      "grad_norm": 0.8539111614227295,
      "learning_rate": 0.00029062091413939174,
      "loss": 4.0141,
      "step": 56090
    },
    {
      "epoch": 0.116875,
      "grad_norm": 0.8749781847000122,
      "learning_rate": 0.0002906174824805808,
      "loss": 4.035,
      "step": 56100
    },
    {
      "epoch": 0.11689583333333334,
      "grad_norm": 0.7206591963768005,
      "learning_rate": 0.00029061405021435803,
      "loss": 3.7986,
      "step": 56110
    },
    {
      "epoch": 0.11691666666666667,
      "grad_norm": 0.8539507389068604,
      "learning_rate": 0.0002906106173407382,
      "loss": 3.9991,
      "step": 56120
    },
    {
      "epoch": 0.1169375,
      "grad_norm": 0.7731249928474426,
      "learning_rate": 0.00029060718385973616,
      "loss": 3.8658,
      "step": 56130
    },
    {
      "epoch": 0.11695833333333333,
      "grad_norm": 0.9616889357566833,
      "learning_rate": 0.00029060374977136675,
      "loss": 4.076,
      "step": 56140
    },
    {
      "epoch": 0.11697916666666666,
      "grad_norm": 0.7676915526390076,
      "learning_rate": 0.00029060031507564484,
      "loss": 4.0837,
      "step": 56150
    },
    {
      "epoch": 0.117,
      "grad_norm": 0.730372428894043,
      "learning_rate": 0.0002905968797725852,
      "loss": 4.0699,
      "step": 56160
    },
    {
      "epoch": 0.11702083333333334,
      "grad_norm": 0.8027395606040955,
      "learning_rate": 0.00029059344386220265,
      "loss": 3.9859,
      "step": 56170
    },
    {
      "epoch": 0.11704166666666667,
      "grad_norm": 0.9086437821388245,
      "learning_rate": 0.00029059000734451206,
      "loss": 3.9054,
      "step": 56180
    },
    {
      "epoch": 0.1170625,
      "grad_norm": 0.7670403718948364,
      "learning_rate": 0.0002905865702195283,
      "loss": 3.8128,
      "step": 56190
    },
    {
      "epoch": 0.11708333333333333,
      "grad_norm": 0.7371429204940796,
      "learning_rate": 0.00029058313248726624,
      "loss": 4.0054,
      "step": 56200
    },
    {
      "epoch": 0.11710416666666666,
      "grad_norm": 0.7469834089279175,
      "learning_rate": 0.0002905796941477407,
      "loss": 3.9199,
      "step": 56210
    },
    {
      "epoch": 0.117125,
      "grad_norm": 0.8273292779922485,
      "learning_rate": 0.0002905762552009665,
      "loss": 4.0637,
      "step": 56220
    },
    {
      "epoch": 0.11714583333333334,
      "grad_norm": 0.8124821186065674,
      "learning_rate": 0.0002905728156469585,
      "loss": 4.0431,
      "step": 56230
    },
    {
      "epoch": 0.11716666666666667,
      "grad_norm": 0.7644612789154053,
      "learning_rate": 0.0002905693754857316,
      "loss": 3.9763,
      "step": 56240
    },
    {
      "epoch": 0.1171875,
      "grad_norm": 0.8196542263031006,
      "learning_rate": 0.0002905659347173007,
      "loss": 4.0209,
      "step": 56250
    },
    {
      "epoch": 0.11720833333333333,
      "grad_norm": 0.8038253784179688,
      "learning_rate": 0.0002905624933416805,
      "loss": 3.8601,
      "step": 56260
    },
    {
      "epoch": 0.11722916666666666,
      "grad_norm": 0.839231550693512,
      "learning_rate": 0.000290559051358886,
      "loss": 3.9017,
      "step": 56270
    },
    {
      "epoch": 0.11725,
      "grad_norm": 0.8437241911888123,
      "learning_rate": 0.00029055560876893203,
      "loss": 4.0724,
      "step": 56280
    },
    {
      "epoch": 0.11727083333333334,
      "grad_norm": 1.0062679052352905,
      "learning_rate": 0.00029055216557183355,
      "loss": 4.0604,
      "step": 56290
    },
    {
      "epoch": 0.11729166666666667,
      "grad_norm": 0.7756459712982178,
      "learning_rate": 0.0002905487217676053,
      "loss": 3.9563,
      "step": 56300
    },
    {
      "epoch": 0.1173125,
      "grad_norm": 0.7308062314987183,
      "learning_rate": 0.00029054527735626216,
      "loss": 4.0162,
      "step": 56310
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 0.7299001216888428,
      "learning_rate": 0.00029054183233781907,
      "loss": 3.8949,
      "step": 56320
    },
    {
      "epoch": 0.11735416666666666,
      "grad_norm": 0.6862199902534485,
      "learning_rate": 0.0002905383867122909,
      "loss": 4.1031,
      "step": 56330
    },
    {
      "epoch": 0.117375,
      "grad_norm": 0.7913153171539307,
      "learning_rate": 0.00029053494047969256,
      "loss": 4.1406,
      "step": 56340
    },
    {
      "epoch": 0.11739583333333334,
      "grad_norm": 0.7869061231613159,
      "learning_rate": 0.00029053149364003885,
      "loss": 3.9387,
      "step": 56350
    },
    {
      "epoch": 0.11741666666666667,
      "grad_norm": 0.8463881015777588,
      "learning_rate": 0.00029052804619334474,
      "loss": 3.8417,
      "step": 56360
    },
    {
      "epoch": 0.1174375,
      "grad_norm": 0.7460780739784241,
      "learning_rate": 0.00029052459813962514,
      "loss": 3.9589,
      "step": 56370
    },
    {
      "epoch": 0.11745833333333333,
      "grad_norm": 0.7711591720581055,
      "learning_rate": 0.00029052114947889483,
      "loss": 3.9987,
      "step": 56380
    },
    {
      "epoch": 0.11747916666666666,
      "grad_norm": 0.7521874308586121,
      "learning_rate": 0.0002905177002111688,
      "loss": 4.1527,
      "step": 56390
    },
    {
      "epoch": 0.1175,
      "grad_norm": 0.8013840317726135,
      "learning_rate": 0.0002905142503364619,
      "loss": 3.9288,
      "step": 56400
    },
    {
      "epoch": 0.11752083333333334,
      "grad_norm": 0.6988744735717773,
      "learning_rate": 0.00029051079985478913,
      "loss": 3.9492,
      "step": 56410
    },
    {
      "epoch": 0.11754166666666667,
      "grad_norm": 0.8298169374465942,
      "learning_rate": 0.00029050734876616527,
      "loss": 4.1224,
      "step": 56420
    },
    {
      "epoch": 0.1175625,
      "grad_norm": 0.8137542009353638,
      "learning_rate": 0.0002905038970706053,
      "loss": 3.9214,
      "step": 56430
    },
    {
      "epoch": 0.11758333333333333,
      "grad_norm": 0.8325487971305847,
      "learning_rate": 0.0002905004447681241,
      "loss": 3.9606,
      "step": 56440
    },
    {
      "epoch": 0.11760416666666666,
      "grad_norm": 0.7756044268608093,
      "learning_rate": 0.0002904969918587366,
      "loss": 3.9073,
      "step": 56450
    },
    {
      "epoch": 0.117625,
      "grad_norm": 0.7984540462493896,
      "learning_rate": 0.0002904935383424577,
      "loss": 4.0296,
      "step": 56460
    },
    {
      "epoch": 0.11764583333333334,
      "grad_norm": 0.901445209980011,
      "learning_rate": 0.0002904900842193023,
      "loss": 3.9374,
      "step": 56470
    },
    {
      "epoch": 0.11766666666666667,
      "grad_norm": 0.7483997941017151,
      "learning_rate": 0.00029048662948928536,
      "loss": 3.8815,
      "step": 56480
    },
    {
      "epoch": 0.1176875,
      "grad_norm": 0.7050619721412659,
      "learning_rate": 0.00029048317415242183,
      "loss": 3.8802,
      "step": 56490
    },
    {
      "epoch": 0.11770833333333333,
      "grad_norm": 0.7509648203849792,
      "learning_rate": 0.00029047971820872655,
      "loss": 4.0597,
      "step": 56500
    },
    {
      "epoch": 0.11772916666666666,
      "grad_norm": 0.7635084986686707,
      "learning_rate": 0.0002904762616582145,
      "loss": 4.0067,
      "step": 56510
    },
    {
      "epoch": 0.11775,
      "grad_norm": 0.768172562122345,
      "learning_rate": 0.00029047280450090064,
      "loss": 3.9561,
      "step": 56520
    },
    {
      "epoch": 0.11777083333333334,
      "grad_norm": 0.7837399244308472,
      "learning_rate": 0.0002904693467367998,
      "loss": 4.1027,
      "step": 56530
    },
    {
      "epoch": 0.11779166666666667,
      "grad_norm": 0.649170994758606,
      "learning_rate": 0.0002904658883659271,
      "loss": 3.8101,
      "step": 56540
    },
    {
      "epoch": 0.1178125,
      "grad_norm": 0.8390010595321655,
      "learning_rate": 0.00029046242938829723,
      "loss": 3.9339,
      "step": 56550
    },
    {
      "epoch": 0.11783333333333333,
      "grad_norm": 0.6965425610542297,
      "learning_rate": 0.0002904589698039253,
      "loss": 4.1883,
      "step": 56560
    },
    {
      "epoch": 0.11785416666666666,
      "grad_norm": 0.7161833047866821,
      "learning_rate": 0.0002904555096128263,
      "loss": 4.0557,
      "step": 56570
    },
    {
      "epoch": 0.117875,
      "grad_norm": 0.7771207094192505,
      "learning_rate": 0.000290452048815015,
      "loss": 3.8829,
      "step": 56580
    },
    {
      "epoch": 0.11789583333333334,
      "grad_norm": 0.8379648327827454,
      "learning_rate": 0.0002904485874105065,
      "loss": 3.794,
      "step": 56590
    },
    {
      "epoch": 0.11791666666666667,
      "grad_norm": 0.7967620491981506,
      "learning_rate": 0.0002904451253993157,
      "loss": 4.0677,
      "step": 56600
    },
    {
      "epoch": 0.1179375,
      "grad_norm": 0.708134651184082,
      "learning_rate": 0.0002904416627814575,
      "loss": 4.0732,
      "step": 56610
    },
    {
      "epoch": 0.11795833333333333,
      "grad_norm": 0.856321394443512,
      "learning_rate": 0.00029043819955694694,
      "loss": 3.9836,
      "step": 56620
    },
    {
      "epoch": 0.11797916666666666,
      "grad_norm": 0.7909742593765259,
      "learning_rate": 0.0002904347357257989,
      "loss": 4.1978,
      "step": 56630
    },
    {
      "epoch": 0.118,
      "grad_norm": 0.8919417858123779,
      "learning_rate": 0.00029043127128802846,
      "loss": 3.9525,
      "step": 56640
    },
    {
      "epoch": 0.11802083333333334,
      "grad_norm": 0.7588236331939697,
      "learning_rate": 0.00029042780624365046,
      "loss": 4.0576,
      "step": 56650
    },
    {
      "epoch": 0.11804166666666667,
      "grad_norm": 0.7503779530525208,
      "learning_rate": 0.00029042434059267994,
      "loss": 3.9877,
      "step": 56660
    },
    {
      "epoch": 0.1180625,
      "grad_norm": 0.8487511873245239,
      "learning_rate": 0.00029042087433513186,
      "loss": 4.0367,
      "step": 56670
    },
    {
      "epoch": 0.11808333333333333,
      "grad_norm": 0.8020816445350647,
      "learning_rate": 0.0002904174074710212,
      "loss": 3.9608,
      "step": 56680
    },
    {
      "epoch": 0.11810416666666666,
      "grad_norm": 0.7633774876594543,
      "learning_rate": 0.00029041394000036287,
      "loss": 3.8165,
      "step": 56690
    },
    {
      "epoch": 0.118125,
      "grad_norm": 0.7290301322937012,
      "learning_rate": 0.000290410471923172,
      "loss": 3.9237,
      "step": 56700
    },
    {
      "epoch": 0.11814583333333334,
      "grad_norm": 0.8135277628898621,
      "learning_rate": 0.0002904070032394634,
      "loss": 3.9668,
      "step": 56710
    },
    {
      "epoch": 0.11816666666666667,
      "grad_norm": 0.7767912745475769,
      "learning_rate": 0.00029040353394925206,
      "loss": 4.0933,
      "step": 56720
    },
    {
      "epoch": 0.1181875,
      "grad_norm": 0.7100511789321899,
      "learning_rate": 0.0002904000640525531,
      "loss": 3.8821,
      "step": 56730
    },
    {
      "epoch": 0.11820833333333333,
      "grad_norm": 0.7678107619285583,
      "learning_rate": 0.00029039659354938147,
      "loss": 3.9072,
      "step": 56740
    },
    {
      "epoch": 0.11822916666666666,
      "grad_norm": 0.8466576337814331,
      "learning_rate": 0.00029039312243975203,
      "loss": 3.9756,
      "step": 56750
    },
    {
      "epoch": 0.11825,
      "grad_norm": 0.849553644657135,
      "learning_rate": 0.00029038965072367996,
      "loss": 4.0272,
      "step": 56760
    },
    {
      "epoch": 0.11827083333333334,
      "grad_norm": 0.744983434677124,
      "learning_rate": 0.0002903861784011802,
      "loss": 4.0276,
      "step": 56770
    },
    {
      "epoch": 0.11829166666666667,
      "grad_norm": 0.8594872355461121,
      "learning_rate": 0.0002903827054722676,
      "loss": 4.1268,
      "step": 56780
    },
    {
      "epoch": 0.1183125,
      "grad_norm": 0.7540897727012634,
      "learning_rate": 0.00029037923193695733,
      "loss": 4.0293,
      "step": 56790
    },
    {
      "epoch": 0.11833333333333333,
      "grad_norm": 0.7658302783966064,
      "learning_rate": 0.00029037575779526436,
      "loss": 4.0225,
      "step": 56800
    },
    {
      "epoch": 0.11835416666666666,
      "grad_norm": 0.785839855670929,
      "learning_rate": 0.0002903722830472037,
      "loss": 3.9472,
      "step": 56810
    },
    {
      "epoch": 0.118375,
      "grad_norm": 0.8608853220939636,
      "learning_rate": 0.0002903688076927903,
      "loss": 3.9085,
      "step": 56820
    },
    {
      "epoch": 0.11839583333333334,
      "grad_norm": 0.7932624220848083,
      "learning_rate": 0.00029036533173203925,
      "loss": 3.8826,
      "step": 56830
    },
    {
      "epoch": 0.11841666666666667,
      "grad_norm": 0.7774642705917358,
      "learning_rate": 0.0002903618551649655,
      "loss": 3.8825,
      "step": 56840
    },
    {
      "epoch": 0.1184375,
      "grad_norm": 0.9357864260673523,
      "learning_rate": 0.0002903583779915841,
      "loss": 3.8193,
      "step": 56850
    },
    {
      "epoch": 0.11845833333333333,
      "grad_norm": 1.0105286836624146,
      "learning_rate": 0.00029035490021191005,
      "loss": 3.8532,
      "step": 56860
    },
    {
      "epoch": 0.11847916666666666,
      "grad_norm": 0.9198535084724426,
      "learning_rate": 0.0002903514218259584,
      "loss": 4.1509,
      "step": 56870
    },
    {
      "epoch": 0.1185,
      "grad_norm": 0.8107229471206665,
      "learning_rate": 0.0002903479428337442,
      "loss": 4.1258,
      "step": 56880
    },
    {
      "epoch": 0.11852083333333334,
      "grad_norm": 0.9385462999343872,
      "learning_rate": 0.0002903444632352824,
      "loss": 4.0722,
      "step": 56890
    },
    {
      "epoch": 0.11854166666666667,
      "grad_norm": 0.925900936126709,
      "learning_rate": 0.000290340983030588,
      "loss": 4.0399,
      "step": 56900
    },
    {
      "epoch": 0.1185625,
      "grad_norm": 0.7664802074432373,
      "learning_rate": 0.0002903375022196762,
      "loss": 3.9003,
      "step": 56910
    },
    {
      "epoch": 0.11858333333333333,
      "grad_norm": 0.7193266749382019,
      "learning_rate": 0.00029033402080256193,
      "loss": 4.0161,
      "step": 56920
    },
    {
      "epoch": 0.11860416666666666,
      "grad_norm": 0.9086200594902039,
      "learning_rate": 0.00029033053877926024,
      "loss": 3.9741,
      "step": 56930
    },
    {
      "epoch": 0.118625,
      "grad_norm": 0.7149487733840942,
      "learning_rate": 0.00029032705614978616,
      "loss": 3.9968,
      "step": 56940
    },
    {
      "epoch": 0.11864583333333334,
      "grad_norm": 0.8417680263519287,
      "learning_rate": 0.00029032357291415475,
      "loss": 3.9027,
      "step": 56950
    },
    {
      "epoch": 0.11866666666666667,
      "grad_norm": 0.8171008825302124,
      "learning_rate": 0.00029032008907238103,
      "loss": 3.8495,
      "step": 56960
    },
    {
      "epoch": 0.1186875,
      "grad_norm": 0.8483561873435974,
      "learning_rate": 0.0002903166046244801,
      "loss": 4.1358,
      "step": 56970
    },
    {
      "epoch": 0.11870833333333333,
      "grad_norm": 0.7300367951393127,
      "learning_rate": 0.0002903131195704669,
      "loss": 4.0694,
      "step": 56980
    },
    {
      "epoch": 0.11872916666666666,
      "grad_norm": 0.977458655834198,
      "learning_rate": 0.00029030963391035665,
      "loss": 3.9041,
      "step": 56990
    },
    {
      "epoch": 0.11875,
      "grad_norm": 0.8423096537590027,
      "learning_rate": 0.0002903061476441643,
      "loss": 4.156,
      "step": 57000
    },
    {
      "epoch": 0.11875,
      "eval_loss": 4.289418697357178,
      "eval_runtime": 9.2602,
      "eval_samples_per_second": 1.08,
      "eval_steps_per_second": 0.324,
      "step": 57000
    },
    {
      "epoch": 0.11877083333333334,
      "grad_norm": 0.8032045960426331,
      "learning_rate": 0.0002903026607719049,
      "loss": 3.8963,
      "step": 57010
    },
    {
      "epoch": 0.11879166666666667,
      "grad_norm": 0.7853243947029114,
      "learning_rate": 0.00029029917329359355,
      "loss": 3.817,
      "step": 57020
    },
    {
      "epoch": 0.1188125,
      "grad_norm": 0.8463734984397888,
      "learning_rate": 0.00029029568520924534,
      "loss": 4.1906,
      "step": 57030
    },
    {
      "epoch": 0.11883333333333333,
      "grad_norm": 0.8580271601676941,
      "learning_rate": 0.0002902921965188753,
      "loss": 3.9037,
      "step": 57040
    },
    {
      "epoch": 0.11885416666666666,
      "grad_norm": 0.8052808046340942,
      "learning_rate": 0.0002902887072224985,
      "loss": 3.9228,
      "step": 57050
    },
    {
      "epoch": 0.118875,
      "grad_norm": 0.8296950459480286,
      "learning_rate": 0.0002902852173201299,
      "loss": 3.9937,
      "step": 57060
    },
    {
      "epoch": 0.11889583333333334,
      "grad_norm": 0.8219202756881714,
      "learning_rate": 0.0002902817268117848,
      "loss": 4.0672,
      "step": 57070
    },
    {
      "epoch": 0.11891666666666667,
      "grad_norm": 0.9269209504127502,
      "learning_rate": 0.0002902782356974782,
      "loss": 3.9802,
      "step": 57080
    },
    {
      "epoch": 0.1189375,
      "grad_norm": 0.7016863822937012,
      "learning_rate": 0.0002902747439772251,
      "loss": 4.199,
      "step": 57090
    },
    {
      "epoch": 0.11895833333333333,
      "grad_norm": 0.7440541386604309,
      "learning_rate": 0.0002902712516510406,
      "loss": 3.8747,
      "step": 57100
    },
    {
      "epoch": 0.11897916666666666,
      "grad_norm": 1.014182209968567,
      "learning_rate": 0.0002902677587189398,
      "loss": 4.0557,
      "step": 57110
    },
    {
      "epoch": 0.119,
      "grad_norm": 0.7321959137916565,
      "learning_rate": 0.0002902642651809379,
      "loss": 3.9967,
      "step": 57120
    },
    {
      "epoch": 0.11902083333333334,
      "grad_norm": 0.875402569770813,
      "learning_rate": 0.00029026077103704983,
      "loss": 3.8565,
      "step": 57130
    },
    {
      "epoch": 0.11904166666666667,
      "grad_norm": 0.7200777530670166,
      "learning_rate": 0.0002902572762872908,
      "loss": 4.0269,
      "step": 57140
    },
    {
      "epoch": 0.1190625,
      "grad_norm": 0.8281102180480957,
      "learning_rate": 0.0002902537809316758,
      "loss": 3.9391,
      "step": 57150
    },
    {
      "epoch": 0.11908333333333333,
      "grad_norm": 0.9346588850021362,
      "learning_rate": 0.00029025028497022,
      "loss": 4.0313,
      "step": 57160
    },
    {
      "epoch": 0.11910416666666666,
      "grad_norm": 0.6934463381767273,
      "learning_rate": 0.0002902467884029385,
      "loss": 3.901,
      "step": 57170
    },
    {
      "epoch": 0.119125,
      "grad_norm": 0.7528210878372192,
      "learning_rate": 0.00029024329122984637,
      "loss": 3.9843,
      "step": 57180
    },
    {
      "epoch": 0.11914583333333334,
      "grad_norm": 0.7208352088928223,
      "learning_rate": 0.0002902397934509587,
      "loss": 3.9529,
      "step": 57190
    },
    {
      "epoch": 0.11916666666666667,
      "grad_norm": 0.744338870048523,
      "learning_rate": 0.0002902362950662907,
      "loss": 4.007,
      "step": 57200
    },
    {
      "epoch": 0.1191875,
      "grad_norm": 1.014168381690979,
      "learning_rate": 0.0002902327960758574,
      "loss": 3.9558,
      "step": 57210
    },
    {
      "epoch": 0.11920833333333333,
      "grad_norm": 0.7708386182785034,
      "learning_rate": 0.0002902292964796739,
      "loss": 4.001,
      "step": 57220
    },
    {
      "epoch": 0.11922916666666666,
      "grad_norm": 0.7542549967765808,
      "learning_rate": 0.00029022579627775534,
      "loss": 3.9229,
      "step": 57230
    },
    {
      "epoch": 0.11925,
      "grad_norm": 0.811883270740509,
      "learning_rate": 0.0002902222954701169,
      "loss": 3.9492,
      "step": 57240
    },
    {
      "epoch": 0.11927083333333334,
      "grad_norm": 0.8610782623291016,
      "learning_rate": 0.0002902187940567736,
      "loss": 4.0416,
      "step": 57250
    },
    {
      "epoch": 0.11929166666666667,
      "grad_norm": 0.8780964612960815,
      "learning_rate": 0.0002902152920377406,
      "loss": 3.817,
      "step": 57260
    },
    {
      "epoch": 0.1193125,
      "grad_norm": 0.7831577658653259,
      "learning_rate": 0.00029021178941303306,
      "loss": 3.9436,
      "step": 57270
    },
    {
      "epoch": 0.11933333333333333,
      "grad_norm": 0.9449195265769958,
      "learning_rate": 0.00029020828618266613,
      "loss": 3.9894,
      "step": 57280
    },
    {
      "epoch": 0.11935416666666666,
      "grad_norm": 0.7411288619041443,
      "learning_rate": 0.00029020478234665487,
      "loss": 4.1149,
      "step": 57290
    },
    {
      "epoch": 0.119375,
      "grad_norm": 1.0932413339614868,
      "learning_rate": 0.0002902012779050144,
      "loss": 3.9984,
      "step": 57300
    },
    {
      "epoch": 0.11939583333333334,
      "grad_norm": 0.7175021767616272,
      "learning_rate": 0.00029019777285775995,
      "loss": 3.9164,
      "step": 57310
    },
    {
      "epoch": 0.11941666666666667,
      "grad_norm": 0.7619694471359253,
      "learning_rate": 0.0002901942672049066,
      "loss": 3.8396,
      "step": 57320
    },
    {
      "epoch": 0.1194375,
      "grad_norm": 0.7155442833900452,
      "learning_rate": 0.0002901907609464696,
      "loss": 4.0507,
      "step": 57330
    },
    {
      "epoch": 0.11945833333333333,
      "grad_norm": 0.810901403427124,
      "learning_rate": 0.00029018725408246385,
      "loss": 4.075,
      "step": 57340
    },
    {
      "epoch": 0.11947916666666666,
      "grad_norm": 0.7877583503723145,
      "learning_rate": 0.00029018374661290476,
      "loss": 3.9334,
      "step": 57350
    },
    {
      "epoch": 0.1195,
      "grad_norm": 0.6841281652450562,
      "learning_rate": 0.0002901802385378073,
      "loss": 3.9745,
      "step": 57360
    },
    {
      "epoch": 0.11952083333333334,
      "grad_norm": 0.7194421291351318,
      "learning_rate": 0.0002901767298571868,
      "loss": 3.7963,
      "step": 57370
    },
    {
      "epoch": 0.11954166666666667,
      "grad_norm": 0.8044936656951904,
      "learning_rate": 0.00029017322057105823,
      "loss": 4.1072,
      "step": 57380
    },
    {
      "epoch": 0.1195625,
      "grad_norm": 0.6797013282775879,
      "learning_rate": 0.00029016971067943686,
      "loss": 3.8046,
      "step": 57390
    },
    {
      "epoch": 0.11958333333333333,
      "grad_norm": 0.7058988213539124,
      "learning_rate": 0.0002901662001823378,
      "loss": 3.9943,
      "step": 57400
    },
    {
      "epoch": 0.11960416666666666,
      "grad_norm": 0.7453915476799011,
      "learning_rate": 0.00029016268907977626,
      "loss": 3.8174,
      "step": 57410
    },
    {
      "epoch": 0.119625,
      "grad_norm": 0.7413231134414673,
      "learning_rate": 0.00029015917737176735,
      "loss": 3.8285,
      "step": 57420
    },
    {
      "epoch": 0.11964583333333334,
      "grad_norm": 0.963411808013916,
      "learning_rate": 0.0002901556650583263,
      "loss": 3.9649,
      "step": 57430
    },
    {
      "epoch": 0.11966666666666667,
      "grad_norm": 0.8033027052879333,
      "learning_rate": 0.00029015215213946824,
      "loss": 4.0453,
      "step": 57440
    },
    {
      "epoch": 0.1196875,
      "grad_norm": 0.7275689840316772,
      "learning_rate": 0.0002901486386152084,
      "loss": 3.9449,
      "step": 57450
    },
    {
      "epoch": 0.11970833333333333,
      "grad_norm": 0.8039407134056091,
      "learning_rate": 0.0002901451244855619,
      "loss": 4.0274,
      "step": 57460
    },
    {
      "epoch": 0.11972916666666666,
      "grad_norm": 0.7624537348747253,
      "learning_rate": 0.00029014160975054395,
      "loss": 4.0496,
      "step": 57470
    },
    {
      "epoch": 0.11975,
      "grad_norm": 0.7164099812507629,
      "learning_rate": 0.0002901380944101697,
      "loss": 4.0209,
      "step": 57480
    },
    {
      "epoch": 0.11977083333333334,
      "grad_norm": 0.8961880207061768,
      "learning_rate": 0.0002901345784644543,
      "loss": 3.8216,
      "step": 57490
    },
    {
      "epoch": 0.11979166666666667,
      "grad_norm": 0.778465211391449,
      "learning_rate": 0.000290131061913413,
      "loss": 3.9904,
      "step": 57500
    },
    {
      "epoch": 0.1198125,
      "grad_norm": 0.903177797794342,
      "learning_rate": 0.000290127544757061,
      "loss": 4.2,
      "step": 57510
    },
    {
      "epoch": 0.11983333333333333,
      "grad_norm": 0.9846578240394592,
      "learning_rate": 0.0002901240269954135,
      "loss": 3.9004,
      "step": 57520
    },
    {
      "epoch": 0.11985416666666666,
      "grad_norm": 0.7411828637123108,
      "learning_rate": 0.0002901205086284857,
      "loss": 4.029,
      "step": 57530
    },
    {
      "epoch": 0.119875,
      "grad_norm": 0.7959527373313904,
      "learning_rate": 0.00029011698965629266,
      "loss": 3.7633,
      "step": 57540
    },
    {
      "epoch": 0.11989583333333333,
      "grad_norm": 0.6706412434577942,
      "learning_rate": 0.00029011347007884975,
      "loss": 3.8831,
      "step": 57550
    },
    {
      "epoch": 0.11991666666666667,
      "grad_norm": 0.7397333383560181,
      "learning_rate": 0.0002901099498961721,
      "loss": 3.9014,
      "step": 57560
    },
    {
      "epoch": 0.1199375,
      "grad_norm": 1.347090721130371,
      "learning_rate": 0.00029010642910827494,
      "loss": 4.0941,
      "step": 57570
    },
    {
      "epoch": 0.11995833333333333,
      "grad_norm": 0.7213568687438965,
      "learning_rate": 0.00029010290771517346,
      "loss": 3.9272,
      "step": 57580
    },
    {
      "epoch": 0.11997916666666666,
      "grad_norm": 0.8501083254814148,
      "learning_rate": 0.0002900993857168829,
      "loss": 4.1726,
      "step": 57590
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7984176278114319,
      "learning_rate": 0.00029009586311341844,
      "loss": 3.9941,
      "step": 57600
    },
    {
      "epoch": 0.12002083333333333,
      "grad_norm": 0.7243282198905945,
      "learning_rate": 0.00029009233990479527,
      "loss": 3.9488,
      "step": 57610
    },
    {
      "epoch": 0.12004166666666667,
      "grad_norm": 0.7926515340805054,
      "learning_rate": 0.00029008881609102866,
      "loss": 4.0909,
      "step": 57620
    },
    {
      "epoch": 0.1200625,
      "grad_norm": 0.9915323853492737,
      "learning_rate": 0.0002900852916721338,
      "loss": 3.8911,
      "step": 57630
    },
    {
      "epoch": 0.12008333333333333,
      "grad_norm": 0.9317020773887634,
      "learning_rate": 0.000290081766648126,
      "loss": 4.1227,
      "step": 57640
    },
    {
      "epoch": 0.12010416666666666,
      "grad_norm": 0.7712224125862122,
      "learning_rate": 0.0002900782410190203,
      "loss": 4.1738,
      "step": 57650
    },
    {
      "epoch": 0.120125,
      "grad_norm": 0.78835129737854,
      "learning_rate": 0.0002900747147848321,
      "loss": 3.9921,
      "step": 57660
    },
    {
      "epoch": 0.12014583333333333,
      "grad_norm": 0.8754571080207825,
      "learning_rate": 0.0002900711879455766,
      "loss": 3.892,
      "step": 57670
    },
    {
      "epoch": 0.12016666666666667,
      "grad_norm": 0.9156897068023682,
      "learning_rate": 0.000290067660501269,
      "loss": 4.0093,
      "step": 57680
    },
    {
      "epoch": 0.1201875,
      "grad_norm": 0.7990496158599854,
      "learning_rate": 0.00029006413245192457,
      "loss": 4.1164,
      "step": 57690
    },
    {
      "epoch": 0.12020833333333333,
      "grad_norm": 0.8468999862670898,
      "learning_rate": 0.00029006060379755847,
      "loss": 4.0301,
      "step": 57700
    },
    {
      "epoch": 0.12022916666666666,
      "grad_norm": 0.8539043068885803,
      "learning_rate": 0.0002900570745381861,
      "loss": 3.8929,
      "step": 57710
    },
    {
      "epoch": 0.12025,
      "grad_norm": 0.787469744682312,
      "learning_rate": 0.00029005354467382245,
      "loss": 4.0662,
      "step": 57720
    },
    {
      "epoch": 0.12027083333333333,
      "grad_norm": 0.7025769352912903,
      "learning_rate": 0.00029005001420448305,
      "loss": 4.0443,
      "step": 57730
    },
    {
      "epoch": 0.12029166666666667,
      "grad_norm": 0.753982424736023,
      "learning_rate": 0.000290046483130183,
      "loss": 4.0932,
      "step": 57740
    },
    {
      "epoch": 0.1203125,
      "grad_norm": 0.8874134421348572,
      "learning_rate": 0.0002900429514509376,
      "loss": 3.8157,
      "step": 57750
    },
    {
      "epoch": 0.12033333333333333,
      "grad_norm": 0.6708769798278809,
      "learning_rate": 0.00029003941916676203,
      "loss": 4.0703,
      "step": 57760
    },
    {
      "epoch": 0.12035416666666666,
      "grad_norm": 0.7258111834526062,
      "learning_rate": 0.00029003588627767165,
      "loss": 4.2082,
      "step": 57770
    },
    {
      "epoch": 0.120375,
      "grad_norm": 0.8831981420516968,
      "learning_rate": 0.0002900323527836816,
      "loss": 3.9951,
      "step": 57780
    },
    {
      "epoch": 0.12039583333333333,
      "grad_norm": 0.7312948107719421,
      "learning_rate": 0.0002900288186848073,
      "loss": 3.9863,
      "step": 57790
    },
    {
      "epoch": 0.12041666666666667,
      "grad_norm": 0.8232468366622925,
      "learning_rate": 0.00029002528398106383,
      "loss": 4.0648,
      "step": 57800
    },
    {
      "epoch": 0.1204375,
      "grad_norm": 0.7484953999519348,
      "learning_rate": 0.00029002174867246664,
      "loss": 4.0159,
      "step": 57810
    },
    {
      "epoch": 0.12045833333333333,
      "grad_norm": 0.7534875869750977,
      "learning_rate": 0.00029001821275903095,
      "loss": 3.9252,
      "step": 57820
    },
    {
      "epoch": 0.12047916666666666,
      "grad_norm": 0.9110977649688721,
      "learning_rate": 0.0002900146762407719,
      "loss": 4.0248,
      "step": 57830
    },
    {
      "epoch": 0.1205,
      "grad_norm": 0.8413671255111694,
      "learning_rate": 0.0002900111391177049,
      "loss": 4.0157,
      "step": 57840
    },
    {
      "epoch": 0.12052083333333333,
      "grad_norm": 0.7987561821937561,
      "learning_rate": 0.00029000760138984526,
      "loss": 4.0693,
      "step": 57850
    },
    {
      "epoch": 0.12054166666666667,
      "grad_norm": 0.7569634318351746,
      "learning_rate": 0.0002900040630572082,
      "loss": 4.0348,
      "step": 57860
    },
    {
      "epoch": 0.1205625,
      "grad_norm": 0.8597027659416199,
      "learning_rate": 0.0002900005241198089,
      "loss": 4.0034,
      "step": 57870
    },
    {
      "epoch": 0.12058333333333333,
      "grad_norm": 0.7449933290481567,
      "learning_rate": 0.00028999698457766283,
      "loss": 4.0663,
      "step": 57880
    },
    {
      "epoch": 0.12060416666666667,
      "grad_norm": 0.7558733224868774,
      "learning_rate": 0.0002899934444307852,
      "loss": 4.0632,
      "step": 57890
    },
    {
      "epoch": 0.120625,
      "grad_norm": 0.7764396667480469,
      "learning_rate": 0.00028998990367919126,
      "loss": 3.8655,
      "step": 57900
    },
    {
      "epoch": 0.12064583333333333,
      "grad_norm": 0.7693336606025696,
      "learning_rate": 0.0002899863623228964,
      "loss": 4.0785,
      "step": 57910
    },
    {
      "epoch": 0.12066666666666667,
      "grad_norm": 0.8143793940544128,
      "learning_rate": 0.00028998282036191587,
      "loss": 3.8789,
      "step": 57920
    },
    {
      "epoch": 0.1206875,
      "grad_norm": 0.8654981255531311,
      "learning_rate": 0.00028997927779626494,
      "loss": 4.1164,
      "step": 57930
    },
    {
      "epoch": 0.12070833333333333,
      "grad_norm": 0.8259248733520508,
      "learning_rate": 0.0002899757346259589,
      "loss": 3.9703,
      "step": 57940
    },
    {
      "epoch": 0.12072916666666667,
      "grad_norm": 0.7371456027030945,
      "learning_rate": 0.00028997219085101316,
      "loss": 3.871,
      "step": 57950
    },
    {
      "epoch": 0.12075,
      "grad_norm": 0.7790418863296509,
      "learning_rate": 0.00028996864647144293,
      "loss": 3.8365,
      "step": 57960
    },
    {
      "epoch": 0.12077083333333333,
      "grad_norm": 0.7072028517723083,
      "learning_rate": 0.00028996510148726357,
      "loss": 3.9837,
      "step": 57970
    },
    {
      "epoch": 0.12079166666666667,
      "grad_norm": 0.8110467791557312,
      "learning_rate": 0.0002899615558984903,
      "loss": 4.023,
      "step": 57980
    },
    {
      "epoch": 0.1208125,
      "grad_norm": 0.9403396844863892,
      "learning_rate": 0.00028995800970513865,
      "loss": 4.0089,
      "step": 57990
    },
    {
      "epoch": 0.12083333333333333,
      "grad_norm": 0.8653222322463989,
      "learning_rate": 0.00028995446290722366,
      "loss": 3.9697,
      "step": 58000
    },
    {
      "epoch": 0.12083333333333333,
      "eval_loss": 4.308765411376953,
      "eval_runtime": 10.2855,
      "eval_samples_per_second": 0.972,
      "eval_steps_per_second": 0.292,
      "step": 58000
    },
    {
      "epoch": 0.12085416666666667,
      "grad_norm": 0.7267494797706604,
      "learning_rate": 0.00028995091550476084,
      "loss": 4.0684,
      "step": 58010
    },
    {
      "epoch": 0.120875,
      "grad_norm": 0.7623651623725891,
      "learning_rate": 0.0002899473674977655,
      "loss": 4.0218,
      "step": 58020
    },
    {
      "epoch": 0.12089583333333333,
      "grad_norm": 0.8465607166290283,
      "learning_rate": 0.00028994381888625283,
      "loss": 4.067,
      "step": 58030
    },
    {
      "epoch": 0.12091666666666667,
      "grad_norm": 0.7188336253166199,
      "learning_rate": 0.0002899402696702384,
      "loss": 3.9057,
      "step": 58040
    },
    {
      "epoch": 0.1209375,
      "grad_norm": 0.7072934508323669,
      "learning_rate": 0.0002899367198497373,
      "loss": 4.0846,
      "step": 58050
    },
    {
      "epoch": 0.12095833333333333,
      "grad_norm": 0.9341549277305603,
      "learning_rate": 0.00028993316942476494,
      "loss": 3.9086,
      "step": 58060
    },
    {
      "epoch": 0.12097916666666667,
      "grad_norm": 0.7532907724380493,
      "learning_rate": 0.0002899296183953367,
      "loss": 4.0498,
      "step": 58070
    },
    {
      "epoch": 0.121,
      "grad_norm": 0.8483770489692688,
      "learning_rate": 0.0002899260667614679,
      "loss": 3.9934,
      "step": 58080
    },
    {
      "epoch": 0.12102083333333333,
      "grad_norm": 0.8378314971923828,
      "learning_rate": 0.0002899225145231739,
      "loss": 4.025,
      "step": 58090
    },
    {
      "epoch": 0.12104166666666667,
      "grad_norm": 0.7262919545173645,
      "learning_rate": 0.00028991896168046997,
      "loss": 4.048,
      "step": 58100
    },
    {
      "epoch": 0.1210625,
      "grad_norm": 0.771669864654541,
      "learning_rate": 0.0002899154082333716,
      "loss": 4.0293,
      "step": 58110
    },
    {
      "epoch": 0.12108333333333333,
      "grad_norm": 0.7893829941749573,
      "learning_rate": 0.00028991185418189395,
      "loss": 4.0725,
      "step": 58120
    },
    {
      "epoch": 0.12110416666666667,
      "grad_norm": 0.785739004611969,
      "learning_rate": 0.0002899082995260526,
      "loss": 3.8748,
      "step": 58130
    },
    {
      "epoch": 0.121125,
      "grad_norm": 0.8535524010658264,
      "learning_rate": 0.00028990474426586265,
      "loss": 4.0582,
      "step": 58140
    },
    {
      "epoch": 0.12114583333333333,
      "grad_norm": 0.788882851600647,
      "learning_rate": 0.00028990118840133963,
      "loss": 4.1026,
      "step": 58150
    },
    {
      "epoch": 0.12116666666666667,
      "grad_norm": 0.7159596681594849,
      "learning_rate": 0.00028989763193249885,
      "loss": 4.0062,
      "step": 58160
    },
    {
      "epoch": 0.1211875,
      "grad_norm": 0.9488353729248047,
      "learning_rate": 0.00028989407485935565,
      "loss": 3.968,
      "step": 58170
    },
    {
      "epoch": 0.12120833333333333,
      "grad_norm": 0.675815224647522,
      "learning_rate": 0.00028989051718192544,
      "loss": 3.9806,
      "step": 58180
    },
    {
      "epoch": 0.12122916666666667,
      "grad_norm": 0.8615719676017761,
      "learning_rate": 0.0002898869589002236,
      "loss": 4.1105,
      "step": 58190
    },
    {
      "epoch": 0.12125,
      "grad_norm": 0.8493232131004333,
      "learning_rate": 0.0002898834000142654,
      "loss": 4.09,
      "step": 58200
    },
    {
      "epoch": 0.12127083333333333,
      "grad_norm": 0.8472740054130554,
      "learning_rate": 0.00028987984052406636,
      "loss": 4.0064,
      "step": 58210
    },
    {
      "epoch": 0.12129166666666667,
      "grad_norm": 0.7328134179115295,
      "learning_rate": 0.00028987628042964175,
      "loss": 4.1638,
      "step": 58220
    },
    {
      "epoch": 0.1213125,
      "grad_norm": 0.77391117811203,
      "learning_rate": 0.000289872719731007,
      "loss": 4.0005,
      "step": 58230
    },
    {
      "epoch": 0.12133333333333333,
      "grad_norm": 0.7503344416618347,
      "learning_rate": 0.00028986915842817737,
      "loss": 4.0578,
      "step": 58240
    },
    {
      "epoch": 0.12135416666666667,
      "grad_norm": 0.9317613840103149,
      "learning_rate": 0.00028986559652116844,
      "loss": 3.9599,
      "step": 58250
    },
    {
      "epoch": 0.121375,
      "grad_norm": 0.7134481072425842,
      "learning_rate": 0.00028986203400999545,
      "loss": 3.8976,
      "step": 58260
    },
    {
      "epoch": 0.12139583333333333,
      "grad_norm": 0.7878715991973877,
      "learning_rate": 0.00028985847089467383,
      "loss": 3.8378,
      "step": 58270
    },
    {
      "epoch": 0.12141666666666667,
      "grad_norm": 0.8619019389152527,
      "learning_rate": 0.000289854907175219,
      "loss": 3.9669,
      "step": 58280
    },
    {
      "epoch": 0.1214375,
      "grad_norm": 0.7316370010375977,
      "learning_rate": 0.0002898513428516463,
      "loss": 4.0534,
      "step": 58290
    },
    {
      "epoch": 0.12145833333333333,
      "grad_norm": 0.7693053483963013,
      "learning_rate": 0.0002898477779239712,
      "loss": 4.0788,
      "step": 58300
    },
    {
      "epoch": 0.12147916666666667,
      "grad_norm": 0.8299522995948792,
      "learning_rate": 0.000289844212392209,
      "loss": 4.0754,
      "step": 58310
    },
    {
      "epoch": 0.1215,
      "grad_norm": 0.787835419178009,
      "learning_rate": 0.00028984064625637516,
      "loss": 4.0827,
      "step": 58320
    },
    {
      "epoch": 0.12152083333333333,
      "grad_norm": 0.8573585152626038,
      "learning_rate": 0.0002898370795164851,
      "loss": 3.9649,
      "step": 58330
    },
    {
      "epoch": 0.12154166666666667,
      "grad_norm": 0.7393434643745422,
      "learning_rate": 0.00028983351217255423,
      "loss": 3.9406,
      "step": 58340
    },
    {
      "epoch": 0.1215625,
      "grad_norm": 0.9212964773178101,
      "learning_rate": 0.00028982994422459794,
      "loss": 3.9532,
      "step": 58350
    },
    {
      "epoch": 0.12158333333333333,
      "grad_norm": 0.814564049243927,
      "learning_rate": 0.0002898263756726316,
      "loss": 4.0677,
      "step": 58360
    },
    {
      "epoch": 0.12160416666666667,
      "grad_norm": 0.7601221799850464,
      "learning_rate": 0.0002898228065166707,
      "loss": 4.0358,
      "step": 58370
    },
    {
      "epoch": 0.121625,
      "grad_norm": 0.8271921277046204,
      "learning_rate": 0.0002898192367567306,
      "loss": 3.9652,
      "step": 58380
    },
    {
      "epoch": 0.12164583333333333,
      "grad_norm": 0.7480213046073914,
      "learning_rate": 0.0002898156663928268,
      "loss": 3.883,
      "step": 58390
    },
    {
      "epoch": 0.12166666666666667,
      "grad_norm": 0.7796541452407837,
      "learning_rate": 0.0002898120954249746,
      "loss": 4.002,
      "step": 58400
    },
    {
      "epoch": 0.1216875,
      "grad_norm": 0.7476634383201599,
      "learning_rate": 0.00028980852385318947,
      "loss": 4.0163,
      "step": 58410
    },
    {
      "epoch": 0.12170833333333334,
      "grad_norm": 0.967644453048706,
      "learning_rate": 0.0002898049516774869,
      "loss": 4.1618,
      "step": 58420
    },
    {
      "epoch": 0.12172916666666667,
      "grad_norm": 0.715627908706665,
      "learning_rate": 0.00028980137889788227,
      "loss": 4.0225,
      "step": 58430
    },
    {
      "epoch": 0.12175,
      "grad_norm": 0.8285053372383118,
      "learning_rate": 0.000289797805514391,
      "loss": 3.9408,
      "step": 58440
    },
    {
      "epoch": 0.12177083333333333,
      "grad_norm": 0.7864731550216675,
      "learning_rate": 0.0002897942315270285,
      "loss": 4.0156,
      "step": 58450
    },
    {
      "epoch": 0.12179166666666667,
      "grad_norm": 0.8041199445724487,
      "learning_rate": 0.0002897906569358104,
      "loss": 3.8992,
      "step": 58460
    },
    {
      "epoch": 0.1218125,
      "grad_norm": 0.7365431189537048,
      "learning_rate": 0.0002897870817407519,
      "loss": 3.8858,
      "step": 58470
    },
    {
      "epoch": 0.12183333333333334,
      "grad_norm": 0.7595269680023193,
      "learning_rate": 0.00028978350594186853,
      "loss": 3.9186,
      "step": 58480
    },
    {
      "epoch": 0.12185416666666667,
      "grad_norm": 0.7525302767753601,
      "learning_rate": 0.00028977992953917577,
      "loss": 4.0632,
      "step": 58490
    },
    {
      "epoch": 0.121875,
      "grad_norm": 0.7376665472984314,
      "learning_rate": 0.0002897763525326891,
      "loss": 4.0523,
      "step": 58500
    },
    {
      "epoch": 0.12189583333333333,
      "grad_norm": 0.7225883603096008,
      "learning_rate": 0.0002897727749224238,
      "loss": 4.0649,
      "step": 58510
    },
    {
      "epoch": 0.12191666666666667,
      "grad_norm": 0.8715702295303345,
      "learning_rate": 0.00028976919670839545,
      "loss": 4.1218,
      "step": 58520
    },
    {
      "epoch": 0.1219375,
      "grad_norm": 0.7517149448394775,
      "learning_rate": 0.00028976561789061957,
      "loss": 4.0398,
      "step": 58530
    },
    {
      "epoch": 0.12195833333333334,
      "grad_norm": 1.0276015996932983,
      "learning_rate": 0.0002897620384691115,
      "loss": 4.1966,
      "step": 58540
    },
    {
      "epoch": 0.12197916666666667,
      "grad_norm": 0.7432104349136353,
      "learning_rate": 0.00028975845844388673,
      "loss": 4.0694,
      "step": 58550
    },
    {
      "epoch": 0.122,
      "grad_norm": 0.7094054222106934,
      "learning_rate": 0.0002897548778149608,
      "loss": 4.0015,
      "step": 58560
    },
    {
      "epoch": 0.12202083333333333,
      "grad_norm": 0.7534720301628113,
      "learning_rate": 0.00028975129658234905,
      "loss": 4.0202,
      "step": 58570
    },
    {
      "epoch": 0.12204166666666667,
      "grad_norm": 0.7120024561882019,
      "learning_rate": 0.0002897477147460671,
      "loss": 3.826,
      "step": 58580
    },
    {
      "epoch": 0.1220625,
      "grad_norm": 0.765831708908081,
      "learning_rate": 0.0002897441323061302,
      "loss": 3.8102,
      "step": 58590
    },
    {
      "epoch": 0.12208333333333334,
      "grad_norm": 0.7979291081428528,
      "learning_rate": 0.0002897405492625541,
      "loss": 3.9647,
      "step": 58600
    },
    {
      "epoch": 0.12210416666666667,
      "grad_norm": 0.7936801910400391,
      "learning_rate": 0.0002897369656153541,
      "loss": 3.984,
      "step": 58610
    },
    {
      "epoch": 0.122125,
      "grad_norm": 0.7641825675964355,
      "learning_rate": 0.0002897333813645457,
      "loss": 3.9075,
      "step": 58620
    },
    {
      "epoch": 0.12214583333333333,
      "grad_norm": 0.8533358573913574,
      "learning_rate": 0.0002897297965101444,
      "loss": 3.9244,
      "step": 58630
    },
    {
      "epoch": 0.12216666666666667,
      "grad_norm": 0.9544987678527832,
      "learning_rate": 0.0002897262110521657,
      "loss": 3.9276,
      "step": 58640
    },
    {
      "epoch": 0.1221875,
      "grad_norm": 0.7423672676086426,
      "learning_rate": 0.00028972262499062513,
      "loss": 3.8874,
      "step": 58650
    },
    {
      "epoch": 0.12220833333333334,
      "grad_norm": 0.9484134316444397,
      "learning_rate": 0.000289719038325538,
      "loss": 4.0596,
      "step": 58660
    },
    {
      "epoch": 0.12222916666666667,
      "grad_norm": 0.8454275727272034,
      "learning_rate": 0.00028971545105692,
      "loss": 4.0167,
      "step": 58670
    },
    {
      "epoch": 0.12225,
      "grad_norm": 0.8040051460266113,
      "learning_rate": 0.00028971186318478657,
      "loss": 4.0405,
      "step": 58680
    },
    {
      "epoch": 0.12227083333333333,
      "grad_norm": 0.7652581334114075,
      "learning_rate": 0.00028970827470915317,
      "loss": 3.9015,
      "step": 58690
    },
    {
      "epoch": 0.12229166666666667,
      "grad_norm": 0.7617089152336121,
      "learning_rate": 0.00028970468563003533,
      "loss": 3.8535,
      "step": 58700
    },
    {
      "epoch": 0.1223125,
      "grad_norm": 0.7855530977249146,
      "learning_rate": 0.00028970109594744856,
      "loss": 3.9233,
      "step": 58710
    },
    {
      "epoch": 0.12233333333333334,
      "grad_norm": 0.7007876634597778,
      "learning_rate": 0.0002896975056614083,
      "loss": 3.974,
      "step": 58720
    },
    {
      "epoch": 0.12235416666666667,
      "grad_norm": 0.8092440366744995,
      "learning_rate": 0.0002896939147719302,
      "loss": 3.779,
      "step": 58730
    },
    {
      "epoch": 0.122375,
      "grad_norm": 0.876945436000824,
      "learning_rate": 0.00028969032327902963,
      "loss": 3.8744,
      "step": 58740
    },
    {
      "epoch": 0.12239583333333333,
      "grad_norm": 0.8161500096321106,
      "learning_rate": 0.00028968673118272216,
      "loss": 3.9168,
      "step": 58750
    },
    {
      "epoch": 0.12241666666666666,
      "grad_norm": 0.8570572137832642,
      "learning_rate": 0.00028968313848302333,
      "loss": 3.9246,
      "step": 58760
    },
    {
      "epoch": 0.1224375,
      "grad_norm": 0.7108163833618164,
      "learning_rate": 0.0002896795451799486,
      "loss": 4.0327,
      "step": 58770
    },
    {
      "epoch": 0.12245833333333334,
      "grad_norm": 0.7592309713363647,
      "learning_rate": 0.0002896759512735135,
      "loss": 4.0872,
      "step": 58780
    },
    {
      "epoch": 0.12247916666666667,
      "grad_norm": 0.8583866357803345,
      "learning_rate": 0.0002896723567637336,
      "loss": 3.8558,
      "step": 58790
    },
    {
      "epoch": 0.1225,
      "grad_norm": 0.8032364845275879,
      "learning_rate": 0.00028966876165062444,
      "loss": 3.9725,
      "step": 58800
    },
    {
      "epoch": 0.12252083333333333,
      "grad_norm": 0.759597659111023,
      "learning_rate": 0.0002896651659342015,
      "loss": 4.157,
      "step": 58810
    },
    {
      "epoch": 0.12254166666666666,
      "grad_norm": 0.9443415403366089,
      "learning_rate": 0.0002896615696144803,
      "loss": 4.0202,
      "step": 58820
    },
    {
      "epoch": 0.1225625,
      "grad_norm": 0.6591619253158569,
      "learning_rate": 0.00028965797269147643,
      "loss": 3.9996,
      "step": 58830
    },
    {
      "epoch": 0.12258333333333334,
      "grad_norm": 0.7279909253120422,
      "learning_rate": 0.00028965437516520535,
      "loss": 3.985,
      "step": 58840
    },
    {
      "epoch": 0.12260416666666667,
      "grad_norm": 0.783434271812439,
      "learning_rate": 0.0002896507770356827,
      "loss": 3.9551,
      "step": 58850
    },
    {
      "epoch": 0.122625,
      "grad_norm": 1.1516387462615967,
      "learning_rate": 0.00028964717830292394,
      "loss": 4.1768,
      "step": 58860
    },
    {
      "epoch": 0.12264583333333333,
      "grad_norm": 0.8258283734321594,
      "learning_rate": 0.00028964357896694466,
      "loss": 3.9036,
      "step": 58870
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 0.7921056151390076,
      "learning_rate": 0.00028963997902776046,
      "loss": 4.0215,
      "step": 58880
    },
    {
      "epoch": 0.1226875,
      "grad_norm": 0.7622324228286743,
      "learning_rate": 0.0002896363784853867,
      "loss": 3.9226,
      "step": 58890
    },
    {
      "epoch": 0.12270833333333334,
      "grad_norm": 0.980218231678009,
      "learning_rate": 0.00028963277733983915,
      "loss": 3.7993,
      "step": 58900
    },
    {
      "epoch": 0.12272916666666667,
      "grad_norm": 0.7496768832206726,
      "learning_rate": 0.00028962917559113323,
      "loss": 4.0895,
      "step": 58910
    },
    {
      "epoch": 0.12275,
      "grad_norm": 0.7021639347076416,
      "learning_rate": 0.00028962557323928455,
      "loss": 3.9113,
      "step": 58920
    },
    {
      "epoch": 0.12277083333333333,
      "grad_norm": 0.7668494582176208,
      "learning_rate": 0.0002896219702843086,
      "loss": 3.979,
      "step": 58930
    },
    {
      "epoch": 0.12279166666666666,
      "grad_norm": 0.7994961142539978,
      "learning_rate": 0.0002896183667262211,
      "loss": 3.9905,
      "step": 58940
    },
    {
      "epoch": 0.1228125,
      "grad_norm": 0.8457812666893005,
      "learning_rate": 0.0002896147625650375,
      "loss": 3.9484,
      "step": 58950
    },
    {
      "epoch": 0.12283333333333334,
      "grad_norm": 0.8466345071792603,
      "learning_rate": 0.0002896111578007734,
      "loss": 4.0251,
      "step": 58960
    },
    {
      "epoch": 0.12285416666666667,
      "grad_norm": 0.6990904211997986,
      "learning_rate": 0.0002896075524334443,
      "loss": 3.8724,
      "step": 58970
    },
    {
      "epoch": 0.122875,
      "grad_norm": 0.6941803693771362,
      "learning_rate": 0.00028960394646306584,
      "loss": 4.1091,
      "step": 58980
    },
    {
      "epoch": 0.12289583333333333,
      "grad_norm": 0.7710018754005432,
      "learning_rate": 0.00028960033988965363,
      "loss": 4.0476,
      "step": 58990
    },
    {
      "epoch": 0.12291666666666666,
      "grad_norm": 0.7830733060836792,
      "learning_rate": 0.0002895967327132232,
      "loss": 3.8969,
      "step": 59000
    },
    {
      "epoch": 0.12291666666666666,
      "eval_loss": 4.304332733154297,
      "eval_runtime": 10.2297,
      "eval_samples_per_second": 0.978,
      "eval_steps_per_second": 0.293,
      "step": 59000
    },
    {
      "epoch": 0.1229375,
      "grad_norm": 0.7076270580291748,
      "learning_rate": 0.00028959312493379014,
      "loss": 4.0692,
      "step": 59010
    },
    {
      "epoch": 0.12295833333333334,
      "grad_norm": 0.8446481227874756,
      "learning_rate": 0.00028958951655137,
      "loss": 4.0925,
      "step": 59020
    },
    {
      "epoch": 0.12297916666666667,
      "grad_norm": 0.7308094501495361,
      "learning_rate": 0.00028958590756597845,
      "loss": 4.0036,
      "step": 59030
    },
    {
      "epoch": 0.123,
      "grad_norm": 0.8042703866958618,
      "learning_rate": 0.00028958229797763105,
      "loss": 3.6909,
      "step": 59040
    },
    {
      "epoch": 0.12302083333333333,
      "grad_norm": 0.8013021945953369,
      "learning_rate": 0.0002895786877863433,
      "loss": 4.0733,
      "step": 59050
    },
    {
      "epoch": 0.12304166666666666,
      "grad_norm": 0.882853090763092,
      "learning_rate": 0.0002895750769921309,
      "loss": 3.9522,
      "step": 59060
    },
    {
      "epoch": 0.1230625,
      "grad_norm": 0.7177476286888123,
      "learning_rate": 0.00028957146559500946,
      "loss": 3.9204,
      "step": 59070
    },
    {
      "epoch": 0.12308333333333334,
      "grad_norm": 0.8178974986076355,
      "learning_rate": 0.0002895678535949945,
      "loss": 3.9289,
      "step": 59080
    },
    {
      "epoch": 0.12310416666666667,
      "grad_norm": 0.7250188589096069,
      "learning_rate": 0.0002895642409921016,
      "loss": 3.9496,
      "step": 59090
    },
    {
      "epoch": 0.123125,
      "grad_norm": 0.8501078486442566,
      "learning_rate": 0.0002895606277863465,
      "loss": 3.8838,
      "step": 59100
    },
    {
      "epoch": 0.12314583333333333,
      "grad_norm": 0.7384798526763916,
      "learning_rate": 0.0002895570139777447,
      "loss": 3.9022,
      "step": 59110
    },
    {
      "epoch": 0.12316666666666666,
      "grad_norm": 0.88756263256073,
      "learning_rate": 0.00028955339956631185,
      "loss": 3.8496,
      "step": 59120
    },
    {
      "epoch": 0.1231875,
      "grad_norm": 1.0091770887374878,
      "learning_rate": 0.00028954978455206356,
      "loss": 4.1302,
      "step": 59130
    },
    {
      "epoch": 0.12320833333333334,
      "grad_norm": 0.8608778715133667,
      "learning_rate": 0.0002895461689350154,
      "loss": 3.743,
      "step": 59140
    },
    {
      "epoch": 0.12322916666666667,
      "grad_norm": 0.8289542198181152,
      "learning_rate": 0.0002895425527151831,
      "loss": 4.0942,
      "step": 59150
    },
    {
      "epoch": 0.12325,
      "grad_norm": 0.7657513618469238,
      "learning_rate": 0.0002895389358925822,
      "loss": 4.0394,
      "step": 59160
    },
    {
      "epoch": 0.12327083333333333,
      "grad_norm": 0.7718591094017029,
      "learning_rate": 0.00028953531846722823,
      "loss": 3.9805,
      "step": 59170
    },
    {
      "epoch": 0.12329166666666666,
      "grad_norm": 0.7843058705329895,
      "learning_rate": 0.000289531700439137,
      "loss": 4.0017,
      "step": 59180
    },
    {
      "epoch": 0.1233125,
      "grad_norm": 0.722235381603241,
      "learning_rate": 0.00028952808180832405,
      "loss": 4.0231,
      "step": 59190
    },
    {
      "epoch": 0.12333333333333334,
      "grad_norm": 0.7318554520606995,
      "learning_rate": 0.00028952446257480495,
      "loss": 3.8719,
      "step": 59200
    },
    {
      "epoch": 0.12335416666666667,
      "grad_norm": 0.8016271591186523,
      "learning_rate": 0.00028952084273859547,
      "loss": 3.9178,
      "step": 59210
    },
    {
      "epoch": 0.123375,
      "grad_norm": 0.6923083662986755,
      "learning_rate": 0.0002895172222997111,
      "loss": 4.0387,
      "step": 59220
    },
    {
      "epoch": 0.12339583333333333,
      "grad_norm": 0.8460187911987305,
      "learning_rate": 0.0002895136012581677,
      "loss": 3.8641,
      "step": 59230
    },
    {
      "epoch": 0.12341666666666666,
      "grad_norm": 0.827653706073761,
      "learning_rate": 0.0002895099796139806,
      "loss": 3.9304,
      "step": 59240
    },
    {
      "epoch": 0.1234375,
      "grad_norm": 0.7599294185638428,
      "learning_rate": 0.0002895063573671657,
      "loss": 3.9112,
      "step": 59250
    },
    {
      "epoch": 0.12345833333333334,
      "grad_norm": 0.8326315879821777,
      "learning_rate": 0.00028950273451773854,
      "loss": 3.9248,
      "step": 59260
    },
    {
      "epoch": 0.12347916666666667,
      "grad_norm": 0.7965421080589294,
      "learning_rate": 0.0002894991110657148,
      "loss": 4.043,
      "step": 59270
    },
    {
      "epoch": 0.1235,
      "grad_norm": 0.7838216423988342,
      "learning_rate": 0.0002894954870111101,
      "loss": 3.9917,
      "step": 59280
    },
    {
      "epoch": 0.12352083333333333,
      "grad_norm": 0.8560947179794312,
      "learning_rate": 0.0002894918623539401,
      "loss": 3.9958,
      "step": 59290
    },
    {
      "epoch": 0.12354166666666666,
      "grad_norm": 0.752515435218811,
      "learning_rate": 0.0002894882370942205,
      "loss": 3.9621,
      "step": 59300
    },
    {
      "epoch": 0.1235625,
      "grad_norm": 0.7699630856513977,
      "learning_rate": 0.00028948461123196696,
      "loss": 3.9706,
      "step": 59310
    },
    {
      "epoch": 0.12358333333333334,
      "grad_norm": 0.8114316463470459,
      "learning_rate": 0.00028948098476719504,
      "loss": 3.7403,
      "step": 59320
    },
    {
      "epoch": 0.12360416666666667,
      "grad_norm": 0.8304722309112549,
      "learning_rate": 0.00028947735769992047,
      "loss": 3.8562,
      "step": 59330
    },
    {
      "epoch": 0.123625,
      "grad_norm": 0.9070820212364197,
      "learning_rate": 0.00028947373003015894,
      "loss": 4.0504,
      "step": 59340
    },
    {
      "epoch": 0.12364583333333333,
      "grad_norm": 0.8178778290748596,
      "learning_rate": 0.00028947010175792615,
      "loss": 3.8595,
      "step": 59350
    },
    {
      "epoch": 0.12366666666666666,
      "grad_norm": 0.8801862597465515,
      "learning_rate": 0.00028946647288323766,
      "loss": 4.0523,
      "step": 59360
    },
    {
      "epoch": 0.1236875,
      "grad_norm": 0.7515727281570435,
      "learning_rate": 0.00028946284340610926,
      "loss": 3.9741,
      "step": 59370
    },
    {
      "epoch": 0.12370833333333334,
      "grad_norm": 0.8889833092689514,
      "learning_rate": 0.0002894592133265566,
      "loss": 4.0485,
      "step": 59380
    },
    {
      "epoch": 0.12372916666666667,
      "grad_norm": 0.7986170649528503,
      "learning_rate": 0.00028945558264459526,
      "loss": 4.0041,
      "step": 59390
    },
    {
      "epoch": 0.12375,
      "grad_norm": 0.6885119080543518,
      "learning_rate": 0.00028945195136024105,
      "loss": 4.1543,
      "step": 59400
    },
    {
      "epoch": 0.12377083333333333,
      "grad_norm": 0.7544699311256409,
      "learning_rate": 0.00028944831947350964,
      "loss": 3.8942,
      "step": 59410
    },
    {
      "epoch": 0.12379166666666666,
      "grad_norm": 0.68788081407547,
      "learning_rate": 0.00028944468698441665,
      "loss": 3.9739,
      "step": 59420
    },
    {
      "epoch": 0.1238125,
      "grad_norm": 0.793062150478363,
      "learning_rate": 0.00028944105389297784,
      "loss": 4.0173,
      "step": 59430
    },
    {
      "epoch": 0.12383333333333334,
      "grad_norm": 0.8922891616821289,
      "learning_rate": 0.0002894374201992088,
      "loss": 4.0076,
      "step": 59440
    },
    {
      "epoch": 0.12385416666666667,
      "grad_norm": 0.7462336421012878,
      "learning_rate": 0.00028943378590312537,
      "loss": 3.9521,
      "step": 59450
    },
    {
      "epoch": 0.123875,
      "grad_norm": 0.7774155139923096,
      "learning_rate": 0.00028943015100474313,
      "loss": 3.9795,
      "step": 59460
    },
    {
      "epoch": 0.12389583333333333,
      "grad_norm": 0.7516297101974487,
      "learning_rate": 0.00028942651550407786,
      "loss": 3.8604,
      "step": 59470
    },
    {
      "epoch": 0.12391666666666666,
      "grad_norm": 0.8640037178993225,
      "learning_rate": 0.00028942287940114523,
      "loss": 3.9169,
      "step": 59480
    },
    {
      "epoch": 0.1239375,
      "grad_norm": 0.7642115950584412,
      "learning_rate": 0.00028941924269596095,
      "loss": 3.9779,
      "step": 59490
    },
    {
      "epoch": 0.12395833333333334,
      "grad_norm": 0.7764779925346375,
      "learning_rate": 0.0002894156053885407,
      "loss": 4.0872,
      "step": 59500
    },
    {
      "epoch": 0.12397916666666667,
      "grad_norm": 0.7637394070625305,
      "learning_rate": 0.00028941196747890027,
      "loss": 4.0266,
      "step": 59510
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.7165989279747009,
      "learning_rate": 0.00028940832896705526,
      "loss": 3.781,
      "step": 59520
    },
    {
      "epoch": 0.12402083333333333,
      "grad_norm": 0.7679190039634705,
      "learning_rate": 0.0002894046898530215,
      "loss": 3.9127,
      "step": 59530
    },
    {
      "epoch": 0.12404166666666666,
      "grad_norm": 0.721459150314331,
      "learning_rate": 0.0002894010501368146,
      "loss": 4.1222,
      "step": 59540
    },
    {
      "epoch": 0.1240625,
      "grad_norm": 0.6908599734306335,
      "learning_rate": 0.0002893974098184504,
      "loss": 4.0136,
      "step": 59550
    },
    {
      "epoch": 0.12408333333333334,
      "grad_norm": 0.9111027121543884,
      "learning_rate": 0.00028939376889794454,
      "loss": 3.9047,
      "step": 59560
    },
    {
      "epoch": 0.12410416666666667,
      "grad_norm": 0.9988145232200623,
      "learning_rate": 0.0002893901273753128,
      "loss": 3.8511,
      "step": 59570
    },
    {
      "epoch": 0.124125,
      "grad_norm": 0.786493182182312,
      "learning_rate": 0.00028938648525057083,
      "loss": 4.0198,
      "step": 59580
    },
    {
      "epoch": 0.12414583333333333,
      "grad_norm": 0.7718296647071838,
      "learning_rate": 0.00028938284252373446,
      "loss": 3.9319,
      "step": 59590
    },
    {
      "epoch": 0.12416666666666666,
      "grad_norm": 0.9785196185112,
      "learning_rate": 0.0002893791991948194,
      "loss": 3.912,
      "step": 59600
    },
    {
      "epoch": 0.1241875,
      "grad_norm": 0.7442240715026855,
      "learning_rate": 0.00028937555526384134,
      "loss": 3.9557,
      "step": 59610
    },
    {
      "epoch": 0.12420833333333334,
      "grad_norm": 1.0854867696762085,
      "learning_rate": 0.00028937191073081603,
      "loss": 3.9608,
      "step": 59620
    },
    {
      "epoch": 0.12422916666666667,
      "grad_norm": 0.8008106350898743,
      "learning_rate": 0.00028936826559575933,
      "loss": 4.0406,
      "step": 59630
    },
    {
      "epoch": 0.12425,
      "grad_norm": 0.9046019911766052,
      "learning_rate": 0.0002893646198586868,
      "loss": 4.0392,
      "step": 59640
    },
    {
      "epoch": 0.12427083333333333,
      "grad_norm": 0.7624402046203613,
      "learning_rate": 0.00028936097351961427,
      "loss": 3.9331,
      "step": 59650
    },
    {
      "epoch": 0.12429166666666666,
      "grad_norm": 0.8597812056541443,
      "learning_rate": 0.0002893573265785575,
      "loss": 3.9659,
      "step": 59660
    },
    {
      "epoch": 0.1243125,
      "grad_norm": 0.79534512758255,
      "learning_rate": 0.0002893536790355323,
      "loss": 3.7714,
      "step": 59670
    },
    {
      "epoch": 0.12433333333333334,
      "grad_norm": 0.7513994574546814,
      "learning_rate": 0.00028935003089055434,
      "loss": 3.9124,
      "step": 59680
    },
    {
      "epoch": 0.12435416666666667,
      "grad_norm": 0.7537775635719299,
      "learning_rate": 0.0002893463821436394,
      "loss": 4.1181,
      "step": 59690
    },
    {
      "epoch": 0.124375,
      "grad_norm": 0.7551184296607971,
      "learning_rate": 0.0002893427327948032,
      "loss": 4.1258,
      "step": 59700
    },
    {
      "epoch": 0.12439583333333333,
      "grad_norm": 0.8327275514602661,
      "learning_rate": 0.00028933908284406164,
      "loss": 3.8397,
      "step": 59710
    },
    {
      "epoch": 0.12441666666666666,
      "grad_norm": 0.7604628205299377,
      "learning_rate": 0.0002893354322914303,
      "loss": 4.1624,
      "step": 59720
    },
    {
      "epoch": 0.1244375,
      "grad_norm": 0.7264744639396667,
      "learning_rate": 0.0002893317811369251,
      "loss": 4.0278,
      "step": 59730
    },
    {
      "epoch": 0.12445833333333334,
      "grad_norm": 0.7267156839370728,
      "learning_rate": 0.00028932812938056176,
      "loss": 4.0574,
      "step": 59740
    },
    {
      "epoch": 0.12447916666666667,
      "grad_norm": 0.8236510753631592,
      "learning_rate": 0.000289324477022356,
      "loss": 4.1556,
      "step": 59750
    },
    {
      "epoch": 0.1245,
      "grad_norm": 0.7506306171417236,
      "learning_rate": 0.0002893208240623237,
      "loss": 4.0089,
      "step": 59760
    },
    {
      "epoch": 0.12452083333333333,
      "grad_norm": 0.7727932929992676,
      "learning_rate": 0.0002893171705004806,
      "loss": 3.8381,
      "step": 59770
    },
    {
      "epoch": 0.12454166666666666,
      "grad_norm": 0.7874816656112671,
      "learning_rate": 0.00028931351633684245,
      "loss": 3.915,
      "step": 59780
    },
    {
      "epoch": 0.1245625,
      "grad_norm": 0.8008192181587219,
      "learning_rate": 0.000289309861571425,
      "loss": 3.9919,
      "step": 59790
    },
    {
      "epoch": 0.12458333333333334,
      "grad_norm": 0.7953455448150635,
      "learning_rate": 0.00028930620620424413,
      "loss": 3.9738,
      "step": 59800
    },
    {
      "epoch": 0.12460416666666667,
      "grad_norm": 0.8026627898216248,
      "learning_rate": 0.0002893025502353156,
      "loss": 3.9472,
      "step": 59810
    },
    {
      "epoch": 0.124625,
      "grad_norm": 0.8483697175979614,
      "learning_rate": 0.0002892988936646552,
      "loss": 4.0382,
      "step": 59820
    },
    {
      "epoch": 0.12464583333333333,
      "grad_norm": 0.9190303683280945,
      "learning_rate": 0.00028929523649227874,
      "loss": 4.0747,
      "step": 59830
    },
    {
      "epoch": 0.12466666666666666,
      "grad_norm": 0.7481479644775391,
      "learning_rate": 0.00028929157871820195,
      "loss": 4.0001,
      "step": 59840
    },
    {
      "epoch": 0.1246875,
      "grad_norm": 0.8457802534103394,
      "learning_rate": 0.0002892879203424407,
      "loss": 3.9026,
      "step": 59850
    },
    {
      "epoch": 0.12470833333333334,
      "grad_norm": 0.8258662819862366,
      "learning_rate": 0.00028928426136501075,
      "loss": 3.9642,
      "step": 59860
    },
    {
      "epoch": 0.12472916666666667,
      "grad_norm": 0.8082558512687683,
      "learning_rate": 0.0002892806017859279,
      "loss": 3.9333,
      "step": 59870
    },
    {
      "epoch": 0.12475,
      "grad_norm": 0.738173246383667,
      "learning_rate": 0.00028927694160520807,
      "loss": 3.9039,
      "step": 59880
    },
    {
      "epoch": 0.12477083333333333,
      "grad_norm": 0.708177387714386,
      "learning_rate": 0.0002892732808228669,
      "loss": 4.0146,
      "step": 59890
    },
    {
      "epoch": 0.12479166666666666,
      "grad_norm": 0.8138661980628967,
      "learning_rate": 0.00028926961943892033,
      "loss": 4.0054,
      "step": 59900
    },
    {
      "epoch": 0.1248125,
      "grad_norm": 0.756485104560852,
      "learning_rate": 0.0002892659574533841,
      "loss": 4.0088,
      "step": 59910
    },
    {
      "epoch": 0.12483333333333334,
      "grad_norm": 0.8877274394035339,
      "learning_rate": 0.000289262294866274,
      "loss": 3.9209,
      "step": 59920
    },
    {
      "epoch": 0.12485416666666667,
      "grad_norm": 0.8121849894523621,
      "learning_rate": 0.00028925863167760603,
      "loss": 3.9011,
      "step": 59930
    },
    {
      "epoch": 0.124875,
      "grad_norm": 0.7649674415588379,
      "learning_rate": 0.00028925496788739585,
      "loss": 3.943,
      "step": 59940
    },
    {
      "epoch": 0.12489583333333333,
      "grad_norm": 0.7809200882911682,
      "learning_rate": 0.0002892513034956593,
      "loss": 3.8926,
      "step": 59950
    },
    {
      "epoch": 0.12491666666666666,
      "grad_norm": 0.7339300513267517,
      "learning_rate": 0.00028924763850241226,
      "loss": 3.9329,
      "step": 59960
    },
    {
      "epoch": 0.1249375,
      "grad_norm": 0.7218712568283081,
      "learning_rate": 0.00028924397290767056,
      "loss": 3.9588,
      "step": 59970
    },
    {
      "epoch": 0.12495833333333334,
      "grad_norm": 0.7451568841934204,
      "learning_rate": 0.00028924030671145,
      "loss": 4.0311,
      "step": 59980
    },
    {
      "epoch": 0.12497916666666667,
      "grad_norm": 0.686890184879303,
      "learning_rate": 0.0002892366399137664,
      "loss": 4.1959,
      "step": 59990
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.7072442770004272,
      "learning_rate": 0.00028923297251463566,
      "loss": 3.9393,
      "step": 60000
    },
    {
      "epoch": 0.125,
      "eval_loss": 4.28720760345459,
      "eval_runtime": 9.0117,
      "eval_samples_per_second": 1.11,
      "eval_steps_per_second": 0.333,
      "step": 60000
    },
    {
      "epoch": 0.12502083333333333,
      "grad_norm": 0.7938657999038696,
      "learning_rate": 0.0002892293045140736,
      "loss": 4.0312,
      "step": 60010
    },
    {
      "epoch": 0.12504166666666666,
      "grad_norm": 0.8946004509925842,
      "learning_rate": 0.00028922563591209604,
      "loss": 3.8607,
      "step": 60020
    },
    {
      "epoch": 0.1250625,
      "grad_norm": 0.7370315790176392,
      "learning_rate": 0.00028922196670871887,
      "loss": 3.902,
      "step": 60030
    },
    {
      "epoch": 0.12508333333333332,
      "grad_norm": 0.8435665369033813,
      "learning_rate": 0.00028921829690395785,
      "loss": 3.9777,
      "step": 60040
    },
    {
      "epoch": 0.12510416666666666,
      "grad_norm": 0.6935549378395081,
      "learning_rate": 0.0002892146264978289,
      "loss": 4.0133,
      "step": 60050
    },
    {
      "epoch": 0.125125,
      "grad_norm": 0.8371921181678772,
      "learning_rate": 0.0002892109554903479,
      "loss": 3.9291,
      "step": 60060
    },
    {
      "epoch": 0.12514583333333335,
      "grad_norm": 0.7603539228439331,
      "learning_rate": 0.0002892072838815307,
      "loss": 3.8231,
      "step": 60070
    },
    {
      "epoch": 0.12516666666666668,
      "grad_norm": 0.8785008788108826,
      "learning_rate": 0.0002892036116713931,
      "loss": 3.9849,
      "step": 60080
    },
    {
      "epoch": 0.1251875,
      "grad_norm": 0.8890485167503357,
      "learning_rate": 0.000289199938859951,
      "loss": 3.8977,
      "step": 60090
    },
    {
      "epoch": 0.12520833333333334,
      "grad_norm": 0.8059565424919128,
      "learning_rate": 0.0002891962654472203,
      "loss": 4.0073,
      "step": 60100
    },
    {
      "epoch": 0.12522916666666667,
      "grad_norm": 1.1788880825042725,
      "learning_rate": 0.00028919259143321676,
      "loss": 4.0699,
      "step": 60110
    },
    {
      "epoch": 0.12525,
      "grad_norm": 0.674269437789917,
      "learning_rate": 0.00028918891681795636,
      "loss": 3.936,
      "step": 60120
    },
    {
      "epoch": 0.12527083333333333,
      "grad_norm": 0.7835066914558411,
      "learning_rate": 0.00028918524160145495,
      "loss": 4.1285,
      "step": 60130
    },
    {
      "epoch": 0.12529166666666666,
      "grad_norm": 0.8505450487136841,
      "learning_rate": 0.00028918156578372836,
      "loss": 3.9707,
      "step": 60140
    },
    {
      "epoch": 0.1253125,
      "grad_norm": 0.7157944440841675,
      "learning_rate": 0.0002891778893647925,
      "loss": 4.0334,
      "step": 60150
    },
    {
      "epoch": 0.12533333333333332,
      "grad_norm": 0.9668766856193542,
      "learning_rate": 0.0002891742123446633,
      "loss": 3.9565,
      "step": 60160
    },
    {
      "epoch": 0.12535416666666666,
      "grad_norm": 0.8028192520141602,
      "learning_rate": 0.0002891705347233565,
      "loss": 4.0438,
      "step": 60170
    },
    {
      "epoch": 0.125375,
      "grad_norm": 0.6840729117393494,
      "learning_rate": 0.00028916685650088816,
      "loss": 3.8411,
      "step": 60180
    },
    {
      "epoch": 0.12539583333333335,
      "grad_norm": 0.791264533996582,
      "learning_rate": 0.00028916317767727404,
      "loss": 4.0413,
      "step": 60190
    },
    {
      "epoch": 0.12541666666666668,
      "grad_norm": 0.7025873064994812,
      "learning_rate": 0.0002891594982525301,
      "loss": 4.0147,
      "step": 60200
    },
    {
      "epoch": 0.1254375,
      "grad_norm": 0.886669397354126,
      "learning_rate": 0.0002891558182266722,
      "loss": 4.0577,
      "step": 60210
    },
    {
      "epoch": 0.12545833333333334,
      "grad_norm": 0.8872464299201965,
      "learning_rate": 0.0002891521375997163,
      "loss": 3.9073,
      "step": 60220
    },
    {
      "epoch": 0.12547916666666667,
      "grad_norm": 0.8161237835884094,
      "learning_rate": 0.00028914845637167816,
      "loss": 4.1724,
      "step": 60230
    },
    {
      "epoch": 0.1255,
      "grad_norm": 0.7949292659759521,
      "learning_rate": 0.0002891447745425738,
      "loss": 3.8022,
      "step": 60240
    },
    {
      "epoch": 0.12552083333333333,
      "grad_norm": 0.8857943415641785,
      "learning_rate": 0.00028914109211241907,
      "loss": 3.9048,
      "step": 60250
    },
    {
      "epoch": 0.12554166666666666,
      "grad_norm": 0.7364353537559509,
      "learning_rate": 0.00028913740908122996,
      "loss": 3.9839,
      "step": 60260
    },
    {
      "epoch": 0.1255625,
      "grad_norm": 0.933562695980072,
      "learning_rate": 0.00028913372544902226,
      "loss": 3.8054,
      "step": 60270
    },
    {
      "epoch": 0.12558333333333332,
      "grad_norm": 0.8075403571128845,
      "learning_rate": 0.000289130041215812,
      "loss": 4.0915,
      "step": 60280
    },
    {
      "epoch": 0.12560416666666666,
      "grad_norm": 0.7791281938552856,
      "learning_rate": 0.000289126356381615,
      "loss": 4.1305,
      "step": 60290
    },
    {
      "epoch": 0.125625,
      "grad_norm": 0.9419851899147034,
      "learning_rate": 0.00028912267094644717,
      "loss": 3.8728,
      "step": 60300
    },
    {
      "epoch": 0.12564583333333335,
      "grad_norm": 0.8592372536659241,
      "learning_rate": 0.0002891189849103245,
      "loss": 4.0526,
      "step": 60310
    },
    {
      "epoch": 0.12566666666666668,
      "grad_norm": 0.7462857961654663,
      "learning_rate": 0.00028911529827326286,
      "loss": 4.0598,
      "step": 60320
    },
    {
      "epoch": 0.1256875,
      "grad_norm": 0.8161598443984985,
      "learning_rate": 0.00028911161103527825,
      "loss": 4.0764,
      "step": 60330
    },
    {
      "epoch": 0.12570833333333334,
      "grad_norm": 0.7606133222579956,
      "learning_rate": 0.0002891079231963865,
      "loss": 3.9356,
      "step": 60340
    },
    {
      "epoch": 0.12572916666666667,
      "grad_norm": 0.8097771406173706,
      "learning_rate": 0.00028910423475660363,
      "loss": 3.9205,
      "step": 60350
    },
    {
      "epoch": 0.12575,
      "grad_norm": 0.8620128035545349,
      "learning_rate": 0.00028910054571594545,
      "loss": 4.1485,
      "step": 60360
    },
    {
      "epoch": 0.12577083333333333,
      "grad_norm": 0.6869148015975952,
      "learning_rate": 0.000289096856074428,
      "loss": 4.0486,
      "step": 60370
    },
    {
      "epoch": 0.12579166666666666,
      "grad_norm": 0.8374132513999939,
      "learning_rate": 0.0002890931658320673,
      "loss": 4.206,
      "step": 60380
    },
    {
      "epoch": 0.1258125,
      "grad_norm": 0.8259112238883972,
      "learning_rate": 0.0002890894749888791,
      "loss": 3.9356,
      "step": 60390
    },
    {
      "epoch": 0.12583333333333332,
      "grad_norm": 0.7517826557159424,
      "learning_rate": 0.00028908578354487933,
      "loss": 3.9405,
      "step": 60400
    },
    {
      "epoch": 0.12585416666666666,
      "grad_norm": 0.7363294363021851,
      "learning_rate": 0.0002890820915000841,
      "loss": 4.0188,
      "step": 60410
    },
    {
      "epoch": 0.125875,
      "grad_norm": 0.807552695274353,
      "learning_rate": 0.00028907839885450933,
      "loss": 3.8898,
      "step": 60420
    },
    {
      "epoch": 0.12589583333333335,
      "grad_norm": 0.7601284384727478,
      "learning_rate": 0.0002890747056081709,
      "loss": 4.1817,
      "step": 60430
    },
    {
      "epoch": 0.12591666666666668,
      "grad_norm": 0.704624354839325,
      "learning_rate": 0.00028907101176108485,
      "loss": 3.7147,
      "step": 60440
    },
    {
      "epoch": 0.1259375,
      "grad_norm": 0.802403450012207,
      "learning_rate": 0.000289067317313267,
      "loss": 4.0138,
      "step": 60450
    },
    {
      "epoch": 0.12595833333333334,
      "grad_norm": 0.8417935967445374,
      "learning_rate": 0.0002890636222647334,
      "loss": 3.9062,
      "step": 60460
    },
    {
      "epoch": 0.12597916666666667,
      "grad_norm": 0.8078790903091431,
      "learning_rate": 0.00028905992661549997,
      "loss": 4.2054,
      "step": 60470
    },
    {
      "epoch": 0.126,
      "grad_norm": 0.7516436576843262,
      "learning_rate": 0.0002890562303655827,
      "loss": 4.0041,
      "step": 60480
    },
    {
      "epoch": 0.12602083333333333,
      "grad_norm": 0.7557108998298645,
      "learning_rate": 0.0002890525335149976,
      "loss": 4.1824,
      "step": 60490
    },
    {
      "epoch": 0.12604166666666666,
      "grad_norm": 0.7858701348304749,
      "learning_rate": 0.00028904883606376057,
      "loss": 4.1519,
      "step": 60500
    },
    {
      "epoch": 0.1260625,
      "grad_norm": 1.0312234163284302,
      "learning_rate": 0.00028904513801188765,
      "loss": 3.9145,
      "step": 60510
    },
    {
      "epoch": 0.12608333333333333,
      "grad_norm": 0.7540333867073059,
      "learning_rate": 0.00028904143935939476,
      "loss": 3.9719,
      "step": 60520
    },
    {
      "epoch": 0.12610416666666666,
      "grad_norm": 0.7975886464118958,
      "learning_rate": 0.0002890377401062979,
      "loss": 3.9563,
      "step": 60530
    },
    {
      "epoch": 0.126125,
      "grad_norm": 0.9473792314529419,
      "learning_rate": 0.000289034040252613,
      "loss": 3.938,
      "step": 60540
    },
    {
      "epoch": 0.12614583333333335,
      "grad_norm": 0.860109269618988,
      "learning_rate": 0.0002890303397983561,
      "loss": 4.1183,
      "step": 60550
    },
    {
      "epoch": 0.12616666666666668,
      "grad_norm": 0.7677061557769775,
      "learning_rate": 0.0002890266387435431,
      "loss": 3.9338,
      "step": 60560
    },
    {
      "epoch": 0.1261875,
      "grad_norm": 0.7373406887054443,
      "learning_rate": 0.0002890229370881901,
      "loss": 4.0212,
      "step": 60570
    },
    {
      "epoch": 0.12620833333333334,
      "grad_norm": 0.8216800093650818,
      "learning_rate": 0.00028901923483231305,
      "loss": 3.8123,
      "step": 60580
    },
    {
      "epoch": 0.12622916666666667,
      "grad_norm": 1.002684473991394,
      "learning_rate": 0.00028901553197592793,
      "loss": 3.9867,
      "step": 60590
    },
    {
      "epoch": 0.12625,
      "grad_norm": 0.9084351658821106,
      "learning_rate": 0.00028901182851905077,
      "loss": 3.977,
      "step": 60600
    },
    {
      "epoch": 0.12627083333333333,
      "grad_norm": 0.8241257667541504,
      "learning_rate": 0.0002890081244616975,
      "loss": 3.8968,
      "step": 60610
    },
    {
      "epoch": 0.12629166666666666,
      "grad_norm": 0.874335527420044,
      "learning_rate": 0.00028900441980388413,
      "loss": 3.7263,
      "step": 60620
    },
    {
      "epoch": 0.1263125,
      "grad_norm": 0.826405942440033,
      "learning_rate": 0.00028900071454562675,
      "loss": 4.0882,
      "step": 60630
    },
    {
      "epoch": 0.12633333333333333,
      "grad_norm": 0.7330197095870972,
      "learning_rate": 0.0002889970086869413,
      "loss": 4.0003,
      "step": 60640
    },
    {
      "epoch": 0.12635416666666666,
      "grad_norm": 0.7969862222671509,
      "learning_rate": 0.0002889933022278437,
      "loss": 4.0476,
      "step": 60650
    },
    {
      "epoch": 0.126375,
      "grad_norm": 0.8110573291778564,
      "learning_rate": 0.0002889895951683501,
      "loss": 3.9893,
      "step": 60660
    },
    {
      "epoch": 0.12639583333333335,
      "grad_norm": 0.8254937529563904,
      "learning_rate": 0.0002889858875084765,
      "loss": 3.8509,
      "step": 60670
    },
    {
      "epoch": 0.12641666666666668,
      "grad_norm": 0.6985463500022888,
      "learning_rate": 0.00028898217924823883,
      "loss": 3.8031,
      "step": 60680
    },
    {
      "epoch": 0.1264375,
      "grad_norm": 0.7574479579925537,
      "learning_rate": 0.0002889784703876532,
      "loss": 4.0823,
      "step": 60690
    },
    {
      "epoch": 0.12645833333333334,
      "grad_norm": 0.7724580764770508,
      "learning_rate": 0.0002889747609267356,
      "loss": 4.0063,
      "step": 60700
    },
    {
      "epoch": 0.12647916666666667,
      "grad_norm": 0.7890344262123108,
      "learning_rate": 0.00028897105086550203,
      "loss": 3.9134,
      "step": 60710
    },
    {
      "epoch": 0.1265,
      "grad_norm": 0.7539457678794861,
      "learning_rate": 0.0002889673402039685,
      "loss": 3.9517,
      "step": 60720
    },
    {
      "epoch": 0.12652083333333333,
      "grad_norm": 0.8730541467666626,
      "learning_rate": 0.0002889636289421511,
      "loss": 3.7703,
      "step": 60730
    },
    {
      "epoch": 0.12654166666666666,
      "grad_norm": 0.7584896683692932,
      "learning_rate": 0.0002889599170800658,
      "loss": 3.9123,
      "step": 60740
    },
    {
      "epoch": 0.1265625,
      "grad_norm": 0.8171037435531616,
      "learning_rate": 0.0002889562046177287,
      "loss": 4.0883,
      "step": 60750
    },
    {
      "epoch": 0.12658333333333333,
      "grad_norm": 0.7055708169937134,
      "learning_rate": 0.0002889524915551557,
      "loss": 4.1388,
      "step": 60760
    },
    {
      "epoch": 0.12660416666666666,
      "grad_norm": 0.7542836666107178,
      "learning_rate": 0.000288948777892363,
      "loss": 4.1123,
      "step": 60770
    },
    {
      "epoch": 0.126625,
      "grad_norm": 0.9140307903289795,
      "learning_rate": 0.0002889450636293667,
      "loss": 4.0347,
      "step": 60780
    },
    {
      "epoch": 0.12664583333333335,
      "grad_norm": 0.6957630515098572,
      "learning_rate": 0.00028894134876618257,
      "loss": 3.7942,
      "step": 60790
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 0.8609126210212708,
      "learning_rate": 0.00028893763330282686,
      "loss": 3.9557,
      "step": 60800
    },
    {
      "epoch": 0.1266875,
      "grad_norm": 0.8003653883934021,
      "learning_rate": 0.00028893391723931554,
      "loss": 3.9745,
      "step": 60810
    },
    {
      "epoch": 0.12670833333333334,
      "grad_norm": 0.8086019158363342,
      "learning_rate": 0.00028893020057566476,
      "loss": 3.9764,
      "step": 60820
    },
    {
      "epoch": 0.12672916666666667,
      "grad_norm": 1.2051727771759033,
      "learning_rate": 0.0002889264833118904,
      "loss": 3.9296,
      "step": 60830
    },
    {
      "epoch": 0.12675,
      "grad_norm": 0.8857113718986511,
      "learning_rate": 0.00028892276544800874,
      "loss": 4.0676,
      "step": 60840
    },
    {
      "epoch": 0.12677083333333333,
      "grad_norm": 0.9673714637756348,
      "learning_rate": 0.00028891904698403564,
      "loss": 3.8101,
      "step": 60850
    },
    {
      "epoch": 0.12679166666666666,
      "grad_norm": 0.6959283351898193,
      "learning_rate": 0.0002889153279199873,
      "loss": 3.919,
      "step": 60860
    },
    {
      "epoch": 0.1268125,
      "grad_norm": 0.8324857354164124,
      "learning_rate": 0.0002889116082558797,
      "loss": 3.9988,
      "step": 60870
    },
    {
      "epoch": 0.12683333333333333,
      "grad_norm": 0.7852594256401062,
      "learning_rate": 0.0002889078879917289,
      "loss": 3.9497,
      "step": 60880
    },
    {
      "epoch": 0.12685416666666666,
      "grad_norm": 0.7781233787536621,
      "learning_rate": 0.0002889041671275511,
      "loss": 4.0122,
      "step": 60890
    },
    {
      "epoch": 0.126875,
      "grad_norm": 0.8362337946891785,
      "learning_rate": 0.0002889004456633622,
      "loss": 3.9008,
      "step": 60900
    },
    {
      "epoch": 0.12689583333333335,
      "grad_norm": 0.8719832897186279,
      "learning_rate": 0.00028889672359917837,
      "loss": 4.002,
      "step": 60910
    },
    {
      "epoch": 0.12691666666666668,
      "grad_norm": 0.9351271390914917,
      "learning_rate": 0.0002888930009350157,
      "loss": 4.0169,
      "step": 60920
    },
    {
      "epoch": 0.1269375,
      "grad_norm": 0.903186559677124,
      "learning_rate": 0.0002888892776708902,
      "loss": 3.9846,
      "step": 60930
    },
    {
      "epoch": 0.12695833333333334,
      "grad_norm": 0.7567930817604065,
      "learning_rate": 0.000288885553806818,
      "loss": 4.1078,
      "step": 60940
    },
    {
      "epoch": 0.12697916666666667,
      "grad_norm": 0.8457116484642029,
      "learning_rate": 0.00028888182934281524,
      "loss": 3.9232,
      "step": 60950
    },
    {
      "epoch": 0.127,
      "grad_norm": 0.7832955718040466,
      "learning_rate": 0.0002888781042788979,
      "loss": 3.9155,
      "step": 60960
    },
    {
      "epoch": 0.12702083333333333,
      "grad_norm": 0.8154991269111633,
      "learning_rate": 0.00028887437861508216,
      "loss": 3.952,
      "step": 60970
    },
    {
      "epoch": 0.12704166666666666,
      "grad_norm": 0.6976743340492249,
      "learning_rate": 0.00028887065235138406,
      "loss": 3.7856,
      "step": 60980
    },
    {
      "epoch": 0.1270625,
      "grad_norm": 0.9455711245536804,
      "learning_rate": 0.00028886692548781966,
      "loss": 3.8777,
      "step": 60990
    },
    {
      "epoch": 0.12708333333333333,
      "grad_norm": 0.763398289680481,
      "learning_rate": 0.00028886319802440524,
      "loss": 3.7209,
      "step": 61000
    },
    {
      "epoch": 0.12708333333333333,
      "eval_loss": 4.287923812866211,
      "eval_runtime": 9.1484,
      "eval_samples_per_second": 1.093,
      "eval_steps_per_second": 0.328,
      "step": 61000
    },
    {
      "epoch": 0.12710416666666666,
      "grad_norm": 1.1051127910614014,
      "learning_rate": 0.00028885946996115667,
      "loss": 4.0904,
      "step": 61010
    },
    {
      "epoch": 0.127125,
      "grad_norm": 0.9172490239143372,
      "learning_rate": 0.00028885574129809016,
      "loss": 3.8315,
      "step": 61020
    },
    {
      "epoch": 0.12714583333333335,
      "grad_norm": 0.7655858993530273,
      "learning_rate": 0.0002888520120352218,
      "loss": 3.9134,
      "step": 61030
    },
    {
      "epoch": 0.12716666666666668,
      "grad_norm": 0.8090442419052124,
      "learning_rate": 0.0002888482821725677,
      "loss": 3.8689,
      "step": 61040
    },
    {
      "epoch": 0.1271875,
      "grad_norm": 0.9529104828834534,
      "learning_rate": 0.00028884455171014406,
      "loss": 3.8465,
      "step": 61050
    },
    {
      "epoch": 0.12720833333333334,
      "grad_norm": 0.8737719058990479,
      "learning_rate": 0.00028884082064796685,
      "loss": 4.0562,
      "step": 61060
    },
    {
      "epoch": 0.12722916666666667,
      "grad_norm": 0.7594736218452454,
      "learning_rate": 0.00028883708898605226,
      "loss": 3.9399,
      "step": 61070
    },
    {
      "epoch": 0.12725,
      "grad_norm": 0.8324337005615234,
      "learning_rate": 0.00028883335672441645,
      "loss": 3.7896,
      "step": 61080
    },
    {
      "epoch": 0.12727083333333333,
      "grad_norm": 0.8630604147911072,
      "learning_rate": 0.0002888296238630754,
      "loss": 3.7303,
      "step": 61090
    },
    {
      "epoch": 0.12729166666666666,
      "grad_norm": 0.8114852905273438,
      "learning_rate": 0.0002888258904020454,
      "loss": 3.7024,
      "step": 61100
    },
    {
      "epoch": 0.1273125,
      "grad_norm": 0.8312705755233765,
      "learning_rate": 0.0002888221563413425,
      "loss": 4.0739,
      "step": 61110
    },
    {
      "epoch": 0.12733333333333333,
      "grad_norm": 0.7749174237251282,
      "learning_rate": 0.0002888184216809828,
      "loss": 3.8756,
      "step": 61120
    },
    {
      "epoch": 0.12735416666666666,
      "grad_norm": 0.7750731706619263,
      "learning_rate": 0.0002888146864209825,
      "loss": 3.8073,
      "step": 61130
    },
    {
      "epoch": 0.127375,
      "grad_norm": 0.7352844476699829,
      "learning_rate": 0.0002888109505613577,
      "loss": 3.8894,
      "step": 61140
    },
    {
      "epoch": 0.12739583333333335,
      "grad_norm": 0.7904594540596008,
      "learning_rate": 0.00028880721410212446,
      "loss": 3.9235,
      "step": 61150
    },
    {
      "epoch": 0.12741666666666668,
      "grad_norm": 0.7542045712471008,
      "learning_rate": 0.0002888034770432991,
      "loss": 3.741,
      "step": 61160
    },
    {
      "epoch": 0.1274375,
      "grad_norm": 1.505204200744629,
      "learning_rate": 0.00028879973938489767,
      "loss": 3.9496,
      "step": 61170
    },
    {
      "epoch": 0.12745833333333334,
      "grad_norm": 0.8246521949768066,
      "learning_rate": 0.0002887960011269362,
      "loss": 3.9049,
      "step": 61180
    },
    {
      "epoch": 0.12747916666666667,
      "grad_norm": 0.7489678859710693,
      "learning_rate": 0.000288792262269431,
      "loss": 3.8862,
      "step": 61190
    },
    {
      "epoch": 0.1275,
      "grad_norm": 0.9692955613136292,
      "learning_rate": 0.0002887885228123982,
      "loss": 4.2078,
      "step": 61200
    },
    {
      "epoch": 0.12752083333333333,
      "grad_norm": 0.7524981498718262,
      "learning_rate": 0.0002887847827558539,
      "loss": 3.9221,
      "step": 61210
    },
    {
      "epoch": 0.12754166666666666,
      "grad_norm": 0.7256855964660645,
      "learning_rate": 0.00028878104209981425,
      "loss": 3.9371,
      "step": 61220
    },
    {
      "epoch": 0.1275625,
      "grad_norm": 0.7405052781105042,
      "learning_rate": 0.00028877730084429543,
      "loss": 3.7976,
      "step": 61230
    },
    {
      "epoch": 0.12758333333333333,
      "grad_norm": 0.686054527759552,
      "learning_rate": 0.0002887735589893136,
      "loss": 3.9823,
      "step": 61240
    },
    {
      "epoch": 0.12760416666666666,
      "grad_norm": 0.8101739883422852,
      "learning_rate": 0.000288769816534885,
      "loss": 3.8436,
      "step": 61250
    },
    {
      "epoch": 0.127625,
      "grad_norm": 0.8506412506103516,
      "learning_rate": 0.0002887660734810256,
      "loss": 3.6383,
      "step": 61260
    },
    {
      "epoch": 0.12764583333333332,
      "grad_norm": 0.759671151638031,
      "learning_rate": 0.0002887623298277518,
      "loss": 4.1777,
      "step": 61270
    },
    {
      "epoch": 0.12766666666666668,
      "grad_norm": 0.7864165902137756,
      "learning_rate": 0.00028875858557507954,
      "loss": 3.9138,
      "step": 61280
    },
    {
      "epoch": 0.1276875,
      "grad_norm": 0.8545771241188049,
      "learning_rate": 0.0002887548407230252,
      "loss": 3.9701,
      "step": 61290
    },
    {
      "epoch": 0.12770833333333334,
      "grad_norm": 0.8817317485809326,
      "learning_rate": 0.0002887510952716049,
      "loss": 4.1159,
      "step": 61300
    },
    {
      "epoch": 0.12772916666666667,
      "grad_norm": 0.8003915548324585,
      "learning_rate": 0.00028874734922083476,
      "loss": 3.9552,
      "step": 61310
    },
    {
      "epoch": 0.12775,
      "grad_norm": 0.8924831748008728,
      "learning_rate": 0.00028874360257073094,
      "loss": 3.8781,
      "step": 61320
    },
    {
      "epoch": 0.12777083333333333,
      "grad_norm": 0.7434861063957214,
      "learning_rate": 0.0002887398553213097,
      "loss": 3.9836,
      "step": 61330
    },
    {
      "epoch": 0.12779166666666666,
      "grad_norm": 0.9810456037521362,
      "learning_rate": 0.00028873610747258725,
      "loss": 3.9439,
      "step": 61340
    },
    {
      "epoch": 0.1278125,
      "grad_norm": 0.891255795955658,
      "learning_rate": 0.0002887323590245797,
      "loss": 4.0191,
      "step": 61350
    },
    {
      "epoch": 0.12783333333333333,
      "grad_norm": 0.8339742422103882,
      "learning_rate": 0.0002887286099773033,
      "loss": 4.0626,
      "step": 61360
    },
    {
      "epoch": 0.12785416666666666,
      "grad_norm": 0.7439171075820923,
      "learning_rate": 0.00028872486033077415,
      "loss": 3.8287,
      "step": 61370
    },
    {
      "epoch": 0.127875,
      "grad_norm": 0.7904273867607117,
      "learning_rate": 0.0002887211100850086,
      "loss": 4.0135,
      "step": 61380
    },
    {
      "epoch": 0.12789583333333332,
      "grad_norm": 0.7425794005393982,
      "learning_rate": 0.0002887173592400227,
      "loss": 3.9209,
      "step": 61390
    },
    {
      "epoch": 0.12791666666666668,
      "grad_norm": 0.7106251120567322,
      "learning_rate": 0.0002887136077958327,
      "loss": 4.1245,
      "step": 61400
    },
    {
      "epoch": 0.1279375,
      "grad_norm": 0.9474292397499084,
      "learning_rate": 0.0002887098557524549,
      "loss": 4.0796,
      "step": 61410
    },
    {
      "epoch": 0.12795833333333334,
      "grad_norm": 0.7221065759658813,
      "learning_rate": 0.00028870610310990534,
      "loss": 3.9997,
      "step": 61420
    },
    {
      "epoch": 0.12797916666666667,
      "grad_norm": 0.9385656118392944,
      "learning_rate": 0.0002887023498682004,
      "loss": 3.9463,
      "step": 61430
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.7779279947280884,
      "learning_rate": 0.00028869859602735615,
      "loss": 3.8312,
      "step": 61440
    },
    {
      "epoch": 0.12802083333333333,
      "grad_norm": 0.7909709215164185,
      "learning_rate": 0.0002886948415873889,
      "loss": 3.9831,
      "step": 61450
    },
    {
      "epoch": 0.12804166666666666,
      "grad_norm": 0.9989987015724182,
      "learning_rate": 0.0002886910865483148,
      "loss": 3.9094,
      "step": 61460
    },
    {
      "epoch": 0.1280625,
      "grad_norm": 0.7156909704208374,
      "learning_rate": 0.0002886873309101502,
      "loss": 3.9008,
      "step": 61470
    },
    {
      "epoch": 0.12808333333333333,
      "grad_norm": 0.8344561457633972,
      "learning_rate": 0.0002886835746729111,
      "loss": 3.868,
      "step": 61480
    },
    {
      "epoch": 0.12810416666666666,
      "grad_norm": 1.0914440155029297,
      "learning_rate": 0.00028867981783661393,
      "loss": 3.7861,
      "step": 61490
    },
    {
      "epoch": 0.128125,
      "grad_norm": 0.8887757658958435,
      "learning_rate": 0.0002886760604012748,
      "loss": 3.9473,
      "step": 61500
    },
    {
      "epoch": 0.12814583333333332,
      "grad_norm": 0.7789912819862366,
      "learning_rate": 0.00028867230236690996,
      "loss": 3.9543,
      "step": 61510
    },
    {
      "epoch": 0.12816666666666668,
      "grad_norm": 0.7727817296981812,
      "learning_rate": 0.00028866854373353574,
      "loss": 3.8115,
      "step": 61520
    },
    {
      "epoch": 0.1281875,
      "grad_norm": 0.8751269578933716,
      "learning_rate": 0.00028866478450116824,
      "loss": 3.9353,
      "step": 61530
    },
    {
      "epoch": 0.12820833333333334,
      "grad_norm": 0.7210761904716492,
      "learning_rate": 0.0002886610246698238,
      "loss": 3.9399,
      "step": 61540
    },
    {
      "epoch": 0.12822916666666667,
      "grad_norm": 0.8175551891326904,
      "learning_rate": 0.00028865726423951856,
      "loss": 4.0759,
      "step": 61550
    },
    {
      "epoch": 0.12825,
      "grad_norm": 0.8469225764274597,
      "learning_rate": 0.00028865350321026885,
      "loss": 4.0774,
      "step": 61560
    },
    {
      "epoch": 0.12827083333333333,
      "grad_norm": 0.7504050135612488,
      "learning_rate": 0.0002886497415820909,
      "loss": 3.866,
      "step": 61570
    },
    {
      "epoch": 0.12829166666666666,
      "grad_norm": 0.8660836815834045,
      "learning_rate": 0.00028864597935500093,
      "loss": 3.9971,
      "step": 61580
    },
    {
      "epoch": 0.1283125,
      "grad_norm": 0.856931209564209,
      "learning_rate": 0.00028864221652901524,
      "loss": 4.0553,
      "step": 61590
    },
    {
      "epoch": 0.12833333333333333,
      "grad_norm": 0.8365288376808167,
      "learning_rate": 0.0002886384531041501,
      "loss": 3.9554,
      "step": 61600
    },
    {
      "epoch": 0.12835416666666666,
      "grad_norm": 1.439513087272644,
      "learning_rate": 0.00028863468908042164,
      "loss": 3.916,
      "step": 61610
    },
    {
      "epoch": 0.128375,
      "grad_norm": 0.6183876395225525,
      "learning_rate": 0.0002886309244578462,
      "loss": 3.8461,
      "step": 61620
    },
    {
      "epoch": 0.12839583333333332,
      "grad_norm": 0.8674808740615845,
      "learning_rate": 0.00028862715923644,
      "loss": 4.0145,
      "step": 61630
    },
    {
      "epoch": 0.12841666666666668,
      "grad_norm": 0.8447003364562988,
      "learning_rate": 0.0002886233934162195,
      "loss": 3.9562,
      "step": 61640
    },
    {
      "epoch": 0.1284375,
      "grad_norm": 0.7390338182449341,
      "learning_rate": 0.00028861962699720063,
      "loss": 3.9345,
      "step": 61650
    },
    {
      "epoch": 0.12845833333333334,
      "grad_norm": 0.720236599445343,
      "learning_rate": 0.00028861585997939996,
      "loss": 3.9654,
      "step": 61660
    },
    {
      "epoch": 0.12847916666666667,
      "grad_norm": 0.8288233280181885,
      "learning_rate": 0.00028861209236283363,
      "loss": 3.9892,
      "step": 61670
    },
    {
      "epoch": 0.1285,
      "grad_norm": 0.8046872615814209,
      "learning_rate": 0.0002886083241475179,
      "loss": 3.9683,
      "step": 61680
    },
    {
      "epoch": 0.12852083333333333,
      "grad_norm": 0.7820006608963013,
      "learning_rate": 0.0002886045553334691,
      "loss": 4.0049,
      "step": 61690
    },
    {
      "epoch": 0.12854166666666667,
      "grad_norm": 0.8209354281425476,
      "learning_rate": 0.00028860078592070343,
      "loss": 3.8926,
      "step": 61700
    },
    {
      "epoch": 0.1285625,
      "grad_norm": 0.7795466780662537,
      "learning_rate": 0.0002885970159092373,
      "loss": 4.0254,
      "step": 61710
    },
    {
      "epoch": 0.12858333333333333,
      "grad_norm": 0.7272736430168152,
      "learning_rate": 0.00028859324529908684,
      "loss": 3.8052,
      "step": 61720
    },
    {
      "epoch": 0.12860416666666666,
      "grad_norm": 0.7354869842529297,
      "learning_rate": 0.00028858947409026846,
      "loss": 4.0771,
      "step": 61730
    },
    {
      "epoch": 0.128625,
      "grad_norm": 0.8998373746871948,
      "learning_rate": 0.00028858570228279843,
      "loss": 4.0844,
      "step": 61740
    },
    {
      "epoch": 0.12864583333333332,
      "grad_norm": 0.8348240852355957,
      "learning_rate": 0.000288581929876693,
      "loss": 3.915,
      "step": 61750
    },
    {
      "epoch": 0.12866666666666668,
      "grad_norm": 0.8414510488510132,
      "learning_rate": 0.0002885781568719685,
      "loss": 3.8531,
      "step": 61760
    },
    {
      "epoch": 0.1286875,
      "grad_norm": 0.9240438342094421,
      "learning_rate": 0.0002885743832686412,
      "loss": 4.0675,
      "step": 61770
    },
    {
      "epoch": 0.12870833333333334,
      "grad_norm": 0.8169786334037781,
      "learning_rate": 0.00028857060906672743,
      "loss": 3.9115,
      "step": 61780
    },
    {
      "epoch": 0.12872916666666667,
      "grad_norm": 0.7972378730773926,
      "learning_rate": 0.0002885668342662434,
      "loss": 3.9547,
      "step": 61790
    },
    {
      "epoch": 0.12875,
      "grad_norm": 0.8230486512184143,
      "learning_rate": 0.00028856305886720563,
      "loss": 3.7731,
      "step": 61800
    },
    {
      "epoch": 0.12877083333333333,
      "grad_norm": 0.7521092891693115,
      "learning_rate": 0.0002885592828696302,
      "loss": 3.975,
      "step": 61810
    },
    {
      "epoch": 0.12879166666666667,
      "grad_norm": 0.7670422792434692,
      "learning_rate": 0.0002885555062735336,
      "loss": 3.9101,
      "step": 61820
    },
    {
      "epoch": 0.1288125,
      "grad_norm": 0.755452036857605,
      "learning_rate": 0.00028855172907893195,
      "loss": 3.8589,
      "step": 61830
    },
    {
      "epoch": 0.12883333333333333,
      "grad_norm": 0.7307620644569397,
      "learning_rate": 0.0002885479512858417,
      "loss": 3.9326,
      "step": 61840
    },
    {
      "epoch": 0.12885416666666666,
      "grad_norm": 0.8128100037574768,
      "learning_rate": 0.0002885441728942792,
      "loss": 3.9678,
      "step": 61850
    },
    {
      "epoch": 0.128875,
      "grad_norm": 0.8031503558158875,
      "learning_rate": 0.00028854039390426066,
      "loss": 4.2222,
      "step": 61860
    },
    {
      "epoch": 0.12889583333333332,
      "grad_norm": 0.8833644986152649,
      "learning_rate": 0.0002885366143158025,
      "loss": 3.7372,
      "step": 61870
    },
    {
      "epoch": 0.12891666666666668,
      "grad_norm": 0.7371838688850403,
      "learning_rate": 0.00028853283412892097,
      "loss": 3.8859,
      "step": 61880
    },
    {
      "epoch": 0.1289375,
      "grad_norm": 0.7790558934211731,
      "learning_rate": 0.0002885290533436324,
      "loss": 3.8017,
      "step": 61890
    },
    {
      "epoch": 0.12895833333333334,
      "grad_norm": 0.7189053297042847,
      "learning_rate": 0.00028852527195995323,
      "loss": 3.7933,
      "step": 61900
    },
    {
      "epoch": 0.12897916666666667,
      "grad_norm": 0.7481531500816345,
      "learning_rate": 0.00028852148997789964,
      "loss": 4.0027,
      "step": 61910
    },
    {
      "epoch": 0.129,
      "grad_norm": 1.0475349426269531,
      "learning_rate": 0.0002885177073974881,
      "loss": 3.812,
      "step": 61920
    },
    {
      "epoch": 0.12902083333333333,
      "grad_norm": 0.7519072890281677,
      "learning_rate": 0.00028851392421873486,
      "loss": 3.7879,
      "step": 61930
    },
    {
      "epoch": 0.12904166666666667,
      "grad_norm": 0.7583466172218323,
      "learning_rate": 0.0002885101404416563,
      "loss": 3.9607,
      "step": 61940
    },
    {
      "epoch": 0.1290625,
      "grad_norm": 0.8214551210403442,
      "learning_rate": 0.00028850635606626876,
      "loss": 3.8604,
      "step": 61950
    },
    {
      "epoch": 0.12908333333333333,
      "grad_norm": 0.8293380737304688,
      "learning_rate": 0.00028850257109258863,
      "loss": 3.7936,
      "step": 61960
    },
    {
      "epoch": 0.12910416666666666,
      "grad_norm": 0.747519314289093,
      "learning_rate": 0.00028849878552063214,
      "loss": 4.0327,
      "step": 61970
    },
    {
      "epoch": 0.129125,
      "grad_norm": 0.6921125054359436,
      "learning_rate": 0.00028849499935041577,
      "loss": 4.0007,
      "step": 61980
    },
    {
      "epoch": 0.12914583333333332,
      "grad_norm": 0.7067583203315735,
      "learning_rate": 0.0002884912125819558,
      "loss": 3.7857,
      "step": 61990
    },
    {
      "epoch": 0.12916666666666668,
      "grad_norm": 0.8964739441871643,
      "learning_rate": 0.0002884874252152686,
      "loss": 4.0016,
      "step": 62000
    },
    {
      "epoch": 0.12916666666666668,
      "eval_loss": 4.282916069030762,
      "eval_runtime": 9.4751,
      "eval_samples_per_second": 1.055,
      "eval_steps_per_second": 0.317,
      "step": 62000
    },
    {
      "epoch": 0.1291875,
      "grad_norm": 0.8778706789016724,
      "learning_rate": 0.0002884836372503706,
      "loss": 3.8133,
      "step": 62010
    },
    {
      "epoch": 0.12920833333333334,
      "grad_norm": 0.8790547251701355,
      "learning_rate": 0.0002884798486872781,
      "loss": 3.9288,
      "step": 62020
    },
    {
      "epoch": 0.12922916666666667,
      "grad_norm": 0.81348717212677,
      "learning_rate": 0.0002884760595260074,
      "loss": 3.9689,
      "step": 62030
    },
    {
      "epoch": 0.12925,
      "grad_norm": 0.8112940192222595,
      "learning_rate": 0.00028847226976657503,
      "loss": 4.0328,
      "step": 62040
    },
    {
      "epoch": 0.12927083333333333,
      "grad_norm": 0.7730276584625244,
      "learning_rate": 0.00028846847940899715,
      "loss": 3.9279,
      "step": 62050
    },
    {
      "epoch": 0.12929166666666667,
      "grad_norm": 0.8250357508659363,
      "learning_rate": 0.0002884646884532903,
      "loss": 4.0867,
      "step": 62060
    },
    {
      "epoch": 0.1293125,
      "grad_norm": 0.7722291946411133,
      "learning_rate": 0.0002884608968994708,
      "loss": 4.0469,
      "step": 62070
    },
    {
      "epoch": 0.12933333333333333,
      "grad_norm": 0.8789347410202026,
      "learning_rate": 0.0002884571047475551,
      "loss": 3.7915,
      "step": 62080
    },
    {
      "epoch": 0.12935416666666666,
      "grad_norm": 0.762897253036499,
      "learning_rate": 0.0002884533119975594,
      "loss": 3.9942,
      "step": 62090
    },
    {
      "epoch": 0.129375,
      "grad_norm": 0.6990190744400024,
      "learning_rate": 0.0002884495186495003,
      "loss": 4.072,
      "step": 62100
    },
    {
      "epoch": 0.12939583333333332,
      "grad_norm": 0.8516274094581604,
      "learning_rate": 0.000288445724703394,
      "loss": 3.9351,
      "step": 62110
    },
    {
      "epoch": 0.12941666666666668,
      "grad_norm": 0.7349749803543091,
      "learning_rate": 0.000288441930159257,
      "loss": 3.9751,
      "step": 62120
    },
    {
      "epoch": 0.1294375,
      "grad_norm": 0.9388835430145264,
      "learning_rate": 0.00028843813501710564,
      "loss": 3.913,
      "step": 62130
    },
    {
      "epoch": 0.12945833333333334,
      "grad_norm": 1.1529096364974976,
      "learning_rate": 0.00028843433927695637,
      "loss": 4.0162,
      "step": 62140
    },
    {
      "epoch": 0.12947916666666667,
      "grad_norm": 0.766724169254303,
      "learning_rate": 0.0002884305429388255,
      "loss": 4.043,
      "step": 62150
    },
    {
      "epoch": 0.1295,
      "grad_norm": 0.7542417049407959,
      "learning_rate": 0.0002884267460027295,
      "loss": 3.9485,
      "step": 62160
    },
    {
      "epoch": 0.12952083333333334,
      "grad_norm": 0.7561097145080566,
      "learning_rate": 0.0002884229484686848,
      "loss": 4.0722,
      "step": 62170
    },
    {
      "epoch": 0.12954166666666667,
      "grad_norm": 0.7412230968475342,
      "learning_rate": 0.0002884191503367077,
      "loss": 3.8825,
      "step": 62180
    },
    {
      "epoch": 0.1295625,
      "grad_norm": 0.8826307654380798,
      "learning_rate": 0.00028841535160681466,
      "loss": 3.7563,
      "step": 62190
    },
    {
      "epoch": 0.12958333333333333,
      "grad_norm": 0.7745897173881531,
      "learning_rate": 0.00028841155227902213,
      "loss": 3.9435,
      "step": 62200
    },
    {
      "epoch": 0.12960416666666666,
      "grad_norm": 0.8530787825584412,
      "learning_rate": 0.00028840775235334647,
      "loss": 3.9197,
      "step": 62210
    },
    {
      "epoch": 0.129625,
      "grad_norm": 0.8751004934310913,
      "learning_rate": 0.0002884039518298041,
      "loss": 3.9708,
      "step": 62220
    },
    {
      "epoch": 0.12964583333333332,
      "grad_norm": 0.7532909512519836,
      "learning_rate": 0.0002884001507084114,
      "loss": 3.9259,
      "step": 62230
    },
    {
      "epoch": 0.12966666666666668,
      "grad_norm": 0.777474582195282,
      "learning_rate": 0.0002883963489891849,
      "loss": 4.0629,
      "step": 62240
    },
    {
      "epoch": 0.1296875,
      "grad_norm": 0.7681462168693542,
      "learning_rate": 0.00028839254667214093,
      "loss": 3.9594,
      "step": 62250
    },
    {
      "epoch": 0.12970833333333334,
      "grad_norm": 0.8607701659202576,
      "learning_rate": 0.0002883887437572959,
      "loss": 3.87,
      "step": 62260
    },
    {
      "epoch": 0.12972916666666667,
      "grad_norm": 0.7959384322166443,
      "learning_rate": 0.00028838494024466634,
      "loss": 3.8236,
      "step": 62270
    },
    {
      "epoch": 0.12975,
      "grad_norm": 0.7842118740081787,
      "learning_rate": 0.00028838113613426856,
      "loss": 3.8721,
      "step": 62280
    },
    {
      "epoch": 0.12977083333333334,
      "grad_norm": 0.8481996655464172,
      "learning_rate": 0.00028837733142611906,
      "loss": 3.876,
      "step": 62290
    },
    {
      "epoch": 0.12979166666666667,
      "grad_norm": 0.644661009311676,
      "learning_rate": 0.00028837352612023426,
      "loss": 4.1,
      "step": 62300
    },
    {
      "epoch": 0.1298125,
      "grad_norm": 0.6943362355232239,
      "learning_rate": 0.00028836972021663065,
      "loss": 3.8507,
      "step": 62310
    },
    {
      "epoch": 0.12983333333333333,
      "grad_norm": 0.9008045792579651,
      "learning_rate": 0.00028836591371532455,
      "loss": 3.9651,
      "step": 62320
    },
    {
      "epoch": 0.12985416666666666,
      "grad_norm": 0.8662897348403931,
      "learning_rate": 0.0002883621066163325,
      "loss": 3.9578,
      "step": 62330
    },
    {
      "epoch": 0.129875,
      "grad_norm": 0.6796295046806335,
      "learning_rate": 0.0002883582989196709,
      "loss": 3.7961,
      "step": 62340
    },
    {
      "epoch": 0.12989583333333332,
      "grad_norm": 0.8483021259307861,
      "learning_rate": 0.00028835449062535626,
      "loss": 4.0146,
      "step": 62350
    },
    {
      "epoch": 0.12991666666666668,
      "grad_norm": 0.7612788081169128,
      "learning_rate": 0.00028835068173340496,
      "loss": 4.0132,
      "step": 62360
    },
    {
      "epoch": 0.1299375,
      "grad_norm": 0.7979394793510437,
      "learning_rate": 0.00028834687224383346,
      "loss": 4.1323,
      "step": 62370
    },
    {
      "epoch": 0.12995833333333334,
      "grad_norm": 0.747512698173523,
      "learning_rate": 0.0002883430621566582,
      "loss": 3.9521,
      "step": 62380
    },
    {
      "epoch": 0.12997916666666667,
      "grad_norm": 0.745611846446991,
      "learning_rate": 0.00028833925147189575,
      "loss": 4.0121,
      "step": 62390
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8437901735305786,
      "learning_rate": 0.0002883354401895625,
      "loss": 3.8619,
      "step": 62400
    },
    {
      "epoch": 0.13002083333333334,
      "grad_norm": 0.7550732493400574,
      "learning_rate": 0.0002883316283096748,
      "loss": 4.0032,
      "step": 62410
    },
    {
      "epoch": 0.13004166666666667,
      "grad_norm": 0.6952962279319763,
      "learning_rate": 0.0002883278158322493,
      "loss": 4.0829,
      "step": 62420
    },
    {
      "epoch": 0.1300625,
      "grad_norm": 0.9602487683296204,
      "learning_rate": 0.00028832400275730243,
      "loss": 3.7688,
      "step": 62430
    },
    {
      "epoch": 0.13008333333333333,
      "grad_norm": 0.7338064908981323,
      "learning_rate": 0.00028832018908485054,
      "loss": 3.9326,
      "step": 62440
    },
    {
      "epoch": 0.13010416666666666,
      "grad_norm": 0.7466751933097839,
      "learning_rate": 0.0002883163748149102,
      "loss": 3.9024,
      "step": 62450
    },
    {
      "epoch": 0.130125,
      "grad_norm": 0.8457353115081787,
      "learning_rate": 0.0002883125599474979,
      "loss": 3.9558,
      "step": 62460
    },
    {
      "epoch": 0.13014583333333332,
      "grad_norm": 0.7291315197944641,
      "learning_rate": 0.00028830874448263004,
      "loss": 4.1688,
      "step": 62470
    },
    {
      "epoch": 0.13016666666666668,
      "grad_norm": 0.8003969788551331,
      "learning_rate": 0.00028830492842032323,
      "loss": 4.0223,
      "step": 62480
    },
    {
      "epoch": 0.1301875,
      "grad_norm": 0.7150354385375977,
      "learning_rate": 0.00028830111176059376,
      "loss": 4.0752,
      "step": 62490
    },
    {
      "epoch": 0.13020833333333334,
      "grad_norm": 0.8575347065925598,
      "learning_rate": 0.0002882972945034583,
      "loss": 4.0096,
      "step": 62500
    },
    {
      "epoch": 0.13022916666666667,
      "grad_norm": 0.7220453023910522,
      "learning_rate": 0.00028829347664893333,
      "loss": 3.9603,
      "step": 62510
    },
    {
      "epoch": 0.13025,
      "grad_norm": 0.7439674139022827,
      "learning_rate": 0.0002882896581970352,
      "loss": 3.8226,
      "step": 62520
    },
    {
      "epoch": 0.13027083333333334,
      "grad_norm": 0.7427364587783813,
      "learning_rate": 0.0002882858391477805,
      "loss": 3.9544,
      "step": 62530
    },
    {
      "epoch": 0.13029166666666667,
      "grad_norm": 0.7531145811080933,
      "learning_rate": 0.00028828201950118566,
      "loss": 4.0111,
      "step": 62540
    },
    {
      "epoch": 0.1303125,
      "grad_norm": 0.8771909475326538,
      "learning_rate": 0.00028827819925726736,
      "loss": 4.1387,
      "step": 62550
    },
    {
      "epoch": 0.13033333333333333,
      "grad_norm": 0.8386698961257935,
      "learning_rate": 0.00028827437841604187,
      "loss": 3.8572,
      "step": 62560
    },
    {
      "epoch": 0.13035416666666666,
      "grad_norm": 0.7357126474380493,
      "learning_rate": 0.0002882705569775258,
      "loss": 3.9202,
      "step": 62570
    },
    {
      "epoch": 0.130375,
      "grad_norm": 0.7566779255867004,
      "learning_rate": 0.0002882667349417357,
      "loss": 3.9184,
      "step": 62580
    },
    {
      "epoch": 0.13039583333333332,
      "grad_norm": 0.7480756640434265,
      "learning_rate": 0.000288262912308688,
      "loss": 3.9738,
      "step": 62590
    },
    {
      "epoch": 0.13041666666666665,
      "grad_norm": 0.783254086971283,
      "learning_rate": 0.0002882590890783993,
      "loss": 3.9409,
      "step": 62600
    },
    {
      "epoch": 0.1304375,
      "grad_norm": 0.6510620713233948,
      "learning_rate": 0.00028825526525088605,
      "loss": 3.7599,
      "step": 62610
    },
    {
      "epoch": 0.13045833333333334,
      "grad_norm": 0.6974460482597351,
      "learning_rate": 0.0002882514408261647,
      "loss": 3.923,
      "step": 62620
    },
    {
      "epoch": 0.13047916666666667,
      "grad_norm": 0.9266209006309509,
      "learning_rate": 0.00028824761580425193,
      "loss": 4.0832,
      "step": 62630
    },
    {
      "epoch": 0.1305,
      "grad_norm": 1.0732451677322388,
      "learning_rate": 0.00028824379018516414,
      "loss": 4.0513,
      "step": 62640
    },
    {
      "epoch": 0.13052083333333334,
      "grad_norm": 0.7637964487075806,
      "learning_rate": 0.0002882399639689179,
      "loss": 3.8234,
      "step": 62650
    },
    {
      "epoch": 0.13054166666666667,
      "grad_norm": 0.834932804107666,
      "learning_rate": 0.00028823613715552975,
      "loss": 3.9691,
      "step": 62660
    },
    {
      "epoch": 0.1305625,
      "grad_norm": 0.8033998012542725,
      "learning_rate": 0.00028823230974501623,
      "loss": 4.0272,
      "step": 62670
    },
    {
      "epoch": 0.13058333333333333,
      "grad_norm": 0.7463205456733704,
      "learning_rate": 0.0002882284817373938,
      "loss": 4.0271,
      "step": 62680
    },
    {
      "epoch": 0.13060416666666666,
      "grad_norm": 0.740690290927887,
      "learning_rate": 0.0002882246531326791,
      "loss": 3.993,
      "step": 62690
    },
    {
      "epoch": 0.130625,
      "grad_norm": 1.2170240879058838,
      "learning_rate": 0.0002882208239308886,
      "loss": 4.0438,
      "step": 62700
    },
    {
      "epoch": 0.13064583333333332,
      "grad_norm": 0.7671335935592651,
      "learning_rate": 0.0002882169941320388,
      "loss": 3.9059,
      "step": 62710
    },
    {
      "epoch": 0.13066666666666665,
      "grad_norm": 0.8209800720214844,
      "learning_rate": 0.0002882131637361463,
      "loss": 4.0732,
      "step": 62720
    },
    {
      "epoch": 0.1306875,
      "grad_norm": 0.8136182427406311,
      "learning_rate": 0.00028820933274322766,
      "loss": 3.8672,
      "step": 62730
    },
    {
      "epoch": 0.13070833333333334,
      "grad_norm": 0.6845099925994873,
      "learning_rate": 0.00028820550115329945,
      "loss": 4.0427,
      "step": 62740
    },
    {
      "epoch": 0.13072916666666667,
      "grad_norm": 0.9123971462249756,
      "learning_rate": 0.0002882016689663781,
      "loss": 4.0335,
      "step": 62750
    },
    {
      "epoch": 0.13075,
      "grad_norm": 0.7392938137054443,
      "learning_rate": 0.0002881978361824803,
      "loss": 3.7903,
      "step": 62760
    },
    {
      "epoch": 0.13077083333333334,
      "grad_norm": 0.7548374533653259,
      "learning_rate": 0.00028819400280162257,
      "loss": 4.0549,
      "step": 62770
    },
    {
      "epoch": 0.13079166666666667,
      "grad_norm": 0.728378415107727,
      "learning_rate": 0.0002881901688238214,
      "loss": 4.0489,
      "step": 62780
    },
    {
      "epoch": 0.1308125,
      "grad_norm": 0.7955945730209351,
      "learning_rate": 0.0002881863342490934,
      "loss": 3.9147,
      "step": 62790
    },
    {
      "epoch": 0.13083333333333333,
      "grad_norm": 0.8530564904212952,
      "learning_rate": 0.0002881824990774552,
      "loss": 4.134,
      "step": 62800
    },
    {
      "epoch": 0.13085416666666666,
      "grad_norm": 0.7143916487693787,
      "learning_rate": 0.00028817866330892324,
      "loss": 4.0408,
      "step": 62810
    },
    {
      "epoch": 0.130875,
      "grad_norm": 0.7051281332969666,
      "learning_rate": 0.0002881748269435142,
      "loss": 4.13,
      "step": 62820
    },
    {
      "epoch": 0.13089583333333332,
      "grad_norm": 0.7118076682090759,
      "learning_rate": 0.0002881709899812445,
      "loss": 4.0596,
      "step": 62830
    },
    {
      "epoch": 0.13091666666666665,
      "grad_norm": 0.7802773118019104,
      "learning_rate": 0.0002881671524221309,
      "loss": 3.9129,
      "step": 62840
    },
    {
      "epoch": 0.1309375,
      "grad_norm": 1.1310057640075684,
      "learning_rate": 0.00028816331426618987,
      "loss": 3.8743,
      "step": 62850
    },
    {
      "epoch": 0.13095833333333334,
      "grad_norm": 0.8013532161712646,
      "learning_rate": 0.000288159475513438,
      "loss": 3.9545,
      "step": 62860
    },
    {
      "epoch": 0.13097916666666667,
      "grad_norm": 0.7863612771034241,
      "learning_rate": 0.00028815563616389186,
      "loss": 3.9803,
      "step": 62870
    },
    {
      "epoch": 0.131,
      "grad_norm": 0.8206605315208435,
      "learning_rate": 0.0002881517962175681,
      "loss": 3.843,
      "step": 62880
    },
    {
      "epoch": 0.13102083333333334,
      "grad_norm": 0.9248420596122742,
      "learning_rate": 0.0002881479556744833,
      "loss": 4.1139,
      "step": 62890
    },
    {
      "epoch": 0.13104166666666667,
      "grad_norm": 0.7481743693351746,
      "learning_rate": 0.00028814411453465395,
      "loss": 3.8994,
      "step": 62900
    },
    {
      "epoch": 0.1310625,
      "grad_norm": 0.7378188967704773,
      "learning_rate": 0.0002881402727980967,
      "loss": 3.9656,
      "step": 62910
    },
    {
      "epoch": 0.13108333333333333,
      "grad_norm": 0.7494726777076721,
      "learning_rate": 0.00028813643046482826,
      "loss": 4.0484,
      "step": 62920
    },
    {
      "epoch": 0.13110416666666666,
      "grad_norm": 0.8632800579071045,
      "learning_rate": 0.00028813258753486497,
      "loss": 3.8325,
      "step": 62930
    },
    {
      "epoch": 0.131125,
      "grad_norm": 0.7811598777770996,
      "learning_rate": 0.0002881287440082237,
      "loss": 3.9632,
      "step": 62940
    },
    {
      "epoch": 0.13114583333333332,
      "grad_norm": 0.7434283494949341,
      "learning_rate": 0.0002881248998849209,
      "loss": 3.871,
      "step": 62950
    },
    {
      "epoch": 0.13116666666666665,
      "grad_norm": 0.9088473320007324,
      "learning_rate": 0.00028812105516497314,
      "loss": 4.0597,
      "step": 62960
    },
    {
      "epoch": 0.1311875,
      "grad_norm": 0.7751245498657227,
      "learning_rate": 0.00028811720984839713,
      "loss": 4.0558,
      "step": 62970
    },
    {
      "epoch": 0.13120833333333334,
      "grad_norm": 0.8244699239730835,
      "learning_rate": 0.0002881133639352095,
      "loss": 3.9305,
      "step": 62980
    },
    {
      "epoch": 0.13122916666666667,
      "grad_norm": 0.8873583674430847,
      "learning_rate": 0.0002881095174254267,
      "loss": 4.0892,
      "step": 62990
    },
    {
      "epoch": 0.13125,
      "grad_norm": 0.7441539764404297,
      "learning_rate": 0.00028810567031906553,
      "loss": 3.9925,
      "step": 63000
    },
    {
      "epoch": 0.13125,
      "eval_loss": 4.299635410308838,
      "eval_runtime": 12.1901,
      "eval_samples_per_second": 0.82,
      "eval_steps_per_second": 0.246,
      "step": 63000
    },
    {
      "epoch": 0.13127083333333334,
      "grad_norm": 0.7507321238517761,
      "learning_rate": 0.0002881018226161425,
      "loss": 3.8987,
      "step": 63010
    },
    {
      "epoch": 0.13129166666666667,
      "grad_norm": 0.8207835555076599,
      "learning_rate": 0.0002880979743166743,
      "loss": 3.8795,
      "step": 63020
    },
    {
      "epoch": 0.1313125,
      "grad_norm": 0.7502248287200928,
      "learning_rate": 0.00028809412542067745,
      "loss": 4.2668,
      "step": 63030
    },
    {
      "epoch": 0.13133333333333333,
      "grad_norm": 0.8643938302993774,
      "learning_rate": 0.0002880902759281687,
      "loss": 3.9422,
      "step": 63040
    },
    {
      "epoch": 0.13135416666666666,
      "grad_norm": 0.8056674599647522,
      "learning_rate": 0.0002880864258391646,
      "loss": 4.0412,
      "step": 63050
    },
    {
      "epoch": 0.131375,
      "grad_norm": 0.6892151236534119,
      "learning_rate": 0.0002880825751536818,
      "loss": 4.0951,
      "step": 63060
    },
    {
      "epoch": 0.13139583333333332,
      "grad_norm": 0.7482025027275085,
      "learning_rate": 0.0002880787238717369,
      "loss": 3.9598,
      "step": 63070
    },
    {
      "epoch": 0.13141666666666665,
      "grad_norm": 0.9250709414482117,
      "learning_rate": 0.0002880748719933466,
      "loss": 4.0086,
      "step": 63080
    },
    {
      "epoch": 0.1314375,
      "grad_norm": 0.7416247129440308,
      "learning_rate": 0.0002880710195185275,
      "loss": 3.9801,
      "step": 63090
    },
    {
      "epoch": 0.13145833333333334,
      "grad_norm": 0.7072294354438782,
      "learning_rate": 0.0002880671664472962,
      "loss": 3.9088,
      "step": 63100
    },
    {
      "epoch": 0.13147916666666667,
      "grad_norm": 0.9196757674217224,
      "learning_rate": 0.0002880633127796695,
      "loss": 3.9873,
      "step": 63110
    },
    {
      "epoch": 0.1315,
      "grad_norm": 0.8081299662590027,
      "learning_rate": 0.0002880594585156639,
      "loss": 3.827,
      "step": 63120
    },
    {
      "epoch": 0.13152083333333334,
      "grad_norm": 0.848120927810669,
      "learning_rate": 0.000288055603655296,
      "loss": 3.9054,
      "step": 63130
    },
    {
      "epoch": 0.13154166666666667,
      "grad_norm": 0.7348611950874329,
      "learning_rate": 0.0002880517481985826,
      "loss": 4.0324,
      "step": 63140
    },
    {
      "epoch": 0.1315625,
      "grad_norm": 0.8911242485046387,
      "learning_rate": 0.0002880478921455403,
      "loss": 4.0886,
      "step": 63150
    },
    {
      "epoch": 0.13158333333333333,
      "grad_norm": 0.6909054517745972,
      "learning_rate": 0.00028804403549618574,
      "loss": 3.9788,
      "step": 63160
    },
    {
      "epoch": 0.13160416666666666,
      "grad_norm": 0.6859028339385986,
      "learning_rate": 0.00028804017825053563,
      "loss": 3.9725,
      "step": 63170
    },
    {
      "epoch": 0.131625,
      "grad_norm": 0.8251357078552246,
      "learning_rate": 0.0002880363204086065,
      "loss": 4.0571,
      "step": 63180
    },
    {
      "epoch": 0.13164583333333332,
      "grad_norm": 0.8115269541740417,
      "learning_rate": 0.0002880324619704152,
      "loss": 3.8919,
      "step": 63190
    },
    {
      "epoch": 0.13166666666666665,
      "grad_norm": 1.0634918212890625,
      "learning_rate": 0.00028802860293597823,
      "loss": 3.9447,
      "step": 63200
    },
    {
      "epoch": 0.1316875,
      "grad_norm": 0.7599939107894897,
      "learning_rate": 0.0002880247433053124,
      "loss": 4.1629,
      "step": 63210
    },
    {
      "epoch": 0.13170833333333334,
      "grad_norm": 0.9843525290489197,
      "learning_rate": 0.0002880208830784342,
      "loss": 4.0152,
      "step": 63220
    },
    {
      "epoch": 0.13172916666666667,
      "grad_norm": 0.7430915832519531,
      "learning_rate": 0.00028801702225536054,
      "loss": 3.8951,
      "step": 63230
    },
    {
      "epoch": 0.13175,
      "grad_norm": 0.7486289739608765,
      "learning_rate": 0.00028801316083610794,
      "loss": 3.9758,
      "step": 63240
    },
    {
      "epoch": 0.13177083333333334,
      "grad_norm": 0.692726731300354,
      "learning_rate": 0.00028800929882069306,
      "loss": 3.9843,
      "step": 63250
    },
    {
      "epoch": 0.13179166666666667,
      "grad_norm": 0.794449508190155,
      "learning_rate": 0.0002880054362091327,
      "loss": 4.0592,
      "step": 63260
    },
    {
      "epoch": 0.1318125,
      "grad_norm": 0.8368471264839172,
      "learning_rate": 0.00028800157300144346,
      "loss": 4.2132,
      "step": 63270
    },
    {
      "epoch": 0.13183333333333333,
      "grad_norm": 0.9229752421379089,
      "learning_rate": 0.00028799770919764203,
      "loss": 4.0264,
      "step": 63280
    },
    {
      "epoch": 0.13185416666666666,
      "grad_norm": 0.754412055015564,
      "learning_rate": 0.00028799384479774516,
      "loss": 3.9276,
      "step": 63290
    },
    {
      "epoch": 0.131875,
      "grad_norm": 0.7216253280639648,
      "learning_rate": 0.0002879899798017695,
      "loss": 3.9071,
      "step": 63300
    },
    {
      "epoch": 0.13189583333333332,
      "grad_norm": 0.7412343621253967,
      "learning_rate": 0.0002879861142097317,
      "loss": 3.9966,
      "step": 63310
    },
    {
      "epoch": 0.13191666666666665,
      "grad_norm": 0.7936533093452454,
      "learning_rate": 0.0002879822480216485,
      "loss": 3.9159,
      "step": 63320
    },
    {
      "epoch": 0.1319375,
      "grad_norm": 0.7791702747344971,
      "learning_rate": 0.00028797838123753664,
      "loss": 4.0723,
      "step": 63330
    },
    {
      "epoch": 0.13195833333333334,
      "grad_norm": 0.832996666431427,
      "learning_rate": 0.0002879745138574128,
      "loss": 4.0689,
      "step": 63340
    },
    {
      "epoch": 0.13197916666666668,
      "grad_norm": 0.7833579182624817,
      "learning_rate": 0.0002879706458812937,
      "loss": 4.0066,
      "step": 63350
    },
    {
      "epoch": 0.132,
      "grad_norm": 0.8657096028327942,
      "learning_rate": 0.000287966777309196,
      "loss": 4.0955,
      "step": 63360
    },
    {
      "epoch": 0.13202083333333334,
      "grad_norm": 0.7680641412734985,
      "learning_rate": 0.00028796290814113635,
      "loss": 3.918,
      "step": 63370
    },
    {
      "epoch": 0.13204166666666667,
      "grad_norm": 0.8366602063179016,
      "learning_rate": 0.0002879590383771316,
      "loss": 4.0532,
      "step": 63380
    },
    {
      "epoch": 0.1320625,
      "grad_norm": 0.8713975548744202,
      "learning_rate": 0.0002879551680171984,
      "loss": 3.9457,
      "step": 63390
    },
    {
      "epoch": 0.13208333333333333,
      "grad_norm": 0.7919896841049194,
      "learning_rate": 0.00028795129706135354,
      "loss": 3.8972,
      "step": 63400
    },
    {
      "epoch": 0.13210416666666666,
      "grad_norm": 0.8356661796569824,
      "learning_rate": 0.00028794742550961364,
      "loss": 3.8886,
      "step": 63410
    },
    {
      "epoch": 0.132125,
      "grad_norm": 0.7996866106987,
      "learning_rate": 0.00028794355336199547,
      "loss": 3.897,
      "step": 63420
    },
    {
      "epoch": 0.13214583333333332,
      "grad_norm": 1.0527307987213135,
      "learning_rate": 0.0002879396806185158,
      "loss": 3.9848,
      "step": 63430
    },
    {
      "epoch": 0.13216666666666665,
      "grad_norm": 0.8036921620368958,
      "learning_rate": 0.0002879358072791912,
      "loss": 3.8884,
      "step": 63440
    },
    {
      "epoch": 0.1321875,
      "grad_norm": 0.974702000617981,
      "learning_rate": 0.0002879319333440386,
      "loss": 4.0009,
      "step": 63450
    },
    {
      "epoch": 0.13220833333333334,
      "grad_norm": 0.7566272020339966,
      "learning_rate": 0.00028792805881307465,
      "loss": 4.051,
      "step": 63460
    },
    {
      "epoch": 0.13222916666666668,
      "grad_norm": 0.7824696898460388,
      "learning_rate": 0.000287924183686316,
      "loss": 3.9255,
      "step": 63470
    },
    {
      "epoch": 0.13225,
      "grad_norm": 0.9124252796173096,
      "learning_rate": 0.0002879203079637795,
      "loss": 4.013,
      "step": 63480
    },
    {
      "epoch": 0.13227083333333334,
      "grad_norm": 0.7775617837905884,
      "learning_rate": 0.00028791643164548193,
      "loss": 3.888,
      "step": 63490
    },
    {
      "epoch": 0.13229166666666667,
      "grad_norm": 0.7518961429595947,
      "learning_rate": 0.0002879125547314399,
      "loss": 3.7827,
      "step": 63500
    },
    {
      "epoch": 0.1323125,
      "grad_norm": 0.9457390904426575,
      "learning_rate": 0.00028790867722167026,
      "loss": 4.0229,
      "step": 63510
    },
    {
      "epoch": 0.13233333333333333,
      "grad_norm": 0.8072744011878967,
      "learning_rate": 0.0002879047991161897,
      "loss": 3.9434,
      "step": 63520
    },
    {
      "epoch": 0.13235416666666666,
      "grad_norm": 0.9495784044265747,
      "learning_rate": 0.000287900920415015,
      "loss": 3.87,
      "step": 63530
    },
    {
      "epoch": 0.132375,
      "grad_norm": 0.7524573802947998,
      "learning_rate": 0.0002878970411181629,
      "loss": 4.0238,
      "step": 63540
    },
    {
      "epoch": 0.13239583333333332,
      "grad_norm": 0.8163084387779236,
      "learning_rate": 0.0002878931612256502,
      "loss": 3.7865,
      "step": 63550
    },
    {
      "epoch": 0.13241666666666665,
      "grad_norm": 0.8464440703392029,
      "learning_rate": 0.0002878892807374936,
      "loss": 3.9083,
      "step": 63560
    },
    {
      "epoch": 0.1324375,
      "grad_norm": 0.8992184400558472,
      "learning_rate": 0.00028788539965370985,
      "loss": 3.9998,
      "step": 63570
    },
    {
      "epoch": 0.13245833333333334,
      "grad_norm": 0.7533801198005676,
      "learning_rate": 0.0002878815179743158,
      "loss": 4.1624,
      "step": 63580
    },
    {
      "epoch": 0.13247916666666668,
      "grad_norm": 0.7173408269882202,
      "learning_rate": 0.00028787763569932816,
      "loss": 3.9357,
      "step": 63590
    },
    {
      "epoch": 0.1325,
      "grad_norm": 1.085715889930725,
      "learning_rate": 0.00028787375282876375,
      "loss": 4.0159,
      "step": 63600
    },
    {
      "epoch": 0.13252083333333334,
      "grad_norm": 0.7759045362472534,
      "learning_rate": 0.00028786986936263923,
      "loss": 3.7582,
      "step": 63610
    },
    {
      "epoch": 0.13254166666666667,
      "grad_norm": 0.7972061634063721,
      "learning_rate": 0.0002878659853009715,
      "loss": 3.7281,
      "step": 63620
    },
    {
      "epoch": 0.1325625,
      "grad_norm": 0.7560607194900513,
      "learning_rate": 0.0002878621006437772,
      "loss": 4.0303,
      "step": 63630
    },
    {
      "epoch": 0.13258333333333333,
      "grad_norm": 0.787109911441803,
      "learning_rate": 0.0002878582153910733,
      "loss": 3.8756,
      "step": 63640
    },
    {
      "epoch": 0.13260416666666666,
      "grad_norm": 0.6959081888198853,
      "learning_rate": 0.0002878543295428765,
      "loss": 4.0483,
      "step": 63650
    },
    {
      "epoch": 0.132625,
      "grad_norm": 0.9095045328140259,
      "learning_rate": 0.00028785044309920346,
      "loss": 4.0645,
      "step": 63660
    },
    {
      "epoch": 0.13264583333333332,
      "grad_norm": 0.746985912322998,
      "learning_rate": 0.00028784655606007106,
      "loss": 3.9311,
      "step": 63670
    },
    {
      "epoch": 0.13266666666666665,
      "grad_norm": 0.7584629058837891,
      "learning_rate": 0.0002878426684254962,
      "loss": 3.9455,
      "step": 63680
    },
    {
      "epoch": 0.1326875,
      "grad_norm": 0.7956358790397644,
      "learning_rate": 0.0002878387801954955,
      "loss": 3.7763,
      "step": 63690
    },
    {
      "epoch": 0.13270833333333334,
      "grad_norm": 0.7757930755615234,
      "learning_rate": 0.00028783489137008587,
      "loss": 4.0849,
      "step": 63700
    },
    {
      "epoch": 0.13272916666666668,
      "grad_norm": 0.7097927331924438,
      "learning_rate": 0.00028783100194928405,
      "loss": 4.011,
      "step": 63710
    },
    {
      "epoch": 0.13275,
      "grad_norm": 0.7733318209648132,
      "learning_rate": 0.0002878271119331068,
      "loss": 3.938,
      "step": 63720
    },
    {
      "epoch": 0.13277083333333334,
      "grad_norm": 0.8528494834899902,
      "learning_rate": 0.0002878232213215711,
      "loss": 3.7822,
      "step": 63730
    },
    {
      "epoch": 0.13279166666666667,
      "grad_norm": 0.8102899789810181,
      "learning_rate": 0.00028781933011469353,
      "loss": 4.2791,
      "step": 63740
    },
    {
      "epoch": 0.1328125,
      "grad_norm": 0.833845317363739,
      "learning_rate": 0.00028781543831249114,
      "loss": 3.9113,
      "step": 63750
    },
    {
      "epoch": 0.13283333333333333,
      "grad_norm": 0.7765309810638428,
      "learning_rate": 0.0002878115459149805,
      "loss": 3.8415,
      "step": 63760
    },
    {
      "epoch": 0.13285416666666666,
      "grad_norm": 0.8012934327125549,
      "learning_rate": 0.00028780765292217857,
      "loss": 4.0308,
      "step": 63770
    },
    {
      "epoch": 0.132875,
      "grad_norm": 0.9136009216308594,
      "learning_rate": 0.0002878037593341021,
      "loss": 4.0315,
      "step": 63780
    },
    {
      "epoch": 0.13289583333333332,
      "grad_norm": 0.7849080562591553,
      "learning_rate": 0.00028779986515076796,
      "loss": 3.9886,
      "step": 63790
    },
    {
      "epoch": 0.13291666666666666,
      "grad_norm": 0.7386612296104431,
      "learning_rate": 0.0002877959703721929,
      "loss": 3.7774,
      "step": 63800
    },
    {
      "epoch": 0.1329375,
      "grad_norm": 0.8106445670127869,
      "learning_rate": 0.0002877920749983938,
      "loss": 4.0935,
      "step": 63810
    },
    {
      "epoch": 0.13295833333333335,
      "grad_norm": 0.9517417550086975,
      "learning_rate": 0.00028778817902938754,
      "loss": 3.8728,
      "step": 63820
    },
    {
      "epoch": 0.13297916666666668,
      "grad_norm": 0.8233712911605835,
      "learning_rate": 0.00028778428246519085,
      "loss": 4.0447,
      "step": 63830
    },
    {
      "epoch": 0.133,
      "grad_norm": 0.8694912195205688,
      "learning_rate": 0.00028778038530582063,
      "loss": 4.1755,
      "step": 63840
    },
    {
      "epoch": 0.13302083333333334,
      "grad_norm": 0.8753427267074585,
      "learning_rate": 0.0002877764875512936,
      "loss": 3.8714,
      "step": 63850
    },
    {
      "epoch": 0.13304166666666667,
      "grad_norm": 0.8436046242713928,
      "learning_rate": 0.0002877725892016268,
      "loss": 3.8371,
      "step": 63860
    },
    {
      "epoch": 0.1330625,
      "grad_norm": 0.8479264378547668,
      "learning_rate": 0.00028776869025683686,
      "loss": 3.9006,
      "step": 63870
    },
    {
      "epoch": 0.13308333333333333,
      "grad_norm": 0.734691321849823,
      "learning_rate": 0.00028776479071694074,
      "loss": 3.8596,
      "step": 63880
    },
    {
      "epoch": 0.13310416666666666,
      "grad_norm": 0.7245784401893616,
      "learning_rate": 0.00028776089058195526,
      "loss": 3.9782,
      "step": 63890
    },
    {
      "epoch": 0.133125,
      "grad_norm": 0.8638946413993835,
      "learning_rate": 0.00028775698985189724,
      "loss": 3.9058,
      "step": 63900
    },
    {
      "epoch": 0.13314583333333332,
      "grad_norm": 1.0023601055145264,
      "learning_rate": 0.0002877530885267836,
      "loss": 3.9295,
      "step": 63910
    },
    {
      "epoch": 0.13316666666666666,
      "grad_norm": 0.8663880825042725,
      "learning_rate": 0.00028774918660663104,
      "loss": 3.7934,
      "step": 63920
    },
    {
      "epoch": 0.1331875,
      "grad_norm": 0.8692013621330261,
      "learning_rate": 0.00028774528409145663,
      "loss": 3.8468,
      "step": 63930
    },
    {
      "epoch": 0.13320833333333335,
      "grad_norm": 0.8036627769470215,
      "learning_rate": 0.00028774138098127707,
      "loss": 4.0856,
      "step": 63940
    },
    {
      "epoch": 0.13322916666666668,
      "grad_norm": 0.8842105865478516,
      "learning_rate": 0.0002877374772761093,
      "loss": 3.9576,
      "step": 63950
    },
    {
      "epoch": 0.13325,
      "grad_norm": 0.7062469124794006,
      "learning_rate": 0.0002877335729759701,
      "loss": 3.9933,
      "step": 63960
    },
    {
      "epoch": 0.13327083333333334,
      "grad_norm": 0.7921723127365112,
      "learning_rate": 0.0002877296680808764,
      "loss": 3.7534,
      "step": 63970
    },
    {
      "epoch": 0.13329166666666667,
      "grad_norm": 0.7186169624328613,
      "learning_rate": 0.00028772576259084503,
      "loss": 3.9798,
      "step": 63980
    },
    {
      "epoch": 0.1333125,
      "grad_norm": 0.8491309881210327,
      "learning_rate": 0.0002877218565058929,
      "loss": 4.0104,
      "step": 63990
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.7929764986038208,
      "learning_rate": 0.0002877179498260369,
      "loss": 3.966,
      "step": 64000
    },
    {
      "epoch": 0.13333333333333333,
      "eval_loss": 4.283611297607422,
      "eval_runtime": 10.4844,
      "eval_samples_per_second": 0.954,
      "eval_steps_per_second": 0.286,
      "step": 64000
    },
    {
      "epoch": 0.13335416666666666,
      "grad_norm": 0.8524074554443359,
      "learning_rate": 0.0002877140425512938,
      "loss": 4.0084,
      "step": 64010
    },
    {
      "epoch": 0.133375,
      "grad_norm": 0.7757831811904907,
      "learning_rate": 0.0002877101346816806,
      "loss": 3.9578,
      "step": 64020
    },
    {
      "epoch": 0.13339583333333332,
      "grad_norm": 0.7558451294898987,
      "learning_rate": 0.0002877062262172141,
      "loss": 3.9074,
      "step": 64030
    },
    {
      "epoch": 0.13341666666666666,
      "grad_norm": 0.7895762920379639,
      "learning_rate": 0.00028770231715791124,
      "loss": 4.1213,
      "step": 64040
    },
    {
      "epoch": 0.1334375,
      "grad_norm": 0.9421509504318237,
      "learning_rate": 0.0002876984075037889,
      "loss": 3.8427,
      "step": 64050
    },
    {
      "epoch": 0.13345833333333335,
      "grad_norm": 0.877099335193634,
      "learning_rate": 0.0002876944972548638,
      "loss": 3.8763,
      "step": 64060
    },
    {
      "epoch": 0.13347916666666668,
      "grad_norm": 0.774849534034729,
      "learning_rate": 0.00028769058641115315,
      "loss": 4.0344,
      "step": 64070
    },
    {
      "epoch": 0.1335,
      "grad_norm": 0.7340850830078125,
      "learning_rate": 0.0002876866749726736,
      "loss": 3.9634,
      "step": 64080
    },
    {
      "epoch": 0.13352083333333334,
      "grad_norm": 0.8784515261650085,
      "learning_rate": 0.0002876827629394421,
      "loss": 4.066,
      "step": 64090
    },
    {
      "epoch": 0.13354166666666667,
      "grad_norm": 0.7806510329246521,
      "learning_rate": 0.00028767885031147556,
      "loss": 4.1499,
      "step": 64100
    },
    {
      "epoch": 0.1335625,
      "grad_norm": 0.8111420273780823,
      "learning_rate": 0.0002876749370887909,
      "loss": 3.9546,
      "step": 64110
    },
    {
      "epoch": 0.13358333333333333,
      "grad_norm": 0.7310206890106201,
      "learning_rate": 0.000287671023271405,
      "loss": 4.044,
      "step": 64120
    },
    {
      "epoch": 0.13360416666666666,
      "grad_norm": 0.7263129353523254,
      "learning_rate": 0.0002876671088593348,
      "loss": 3.9149,
      "step": 64130
    },
    {
      "epoch": 0.133625,
      "grad_norm": 0.7650883793830872,
      "learning_rate": 0.00028766319385259713,
      "loss": 4.0736,
      "step": 64140
    },
    {
      "epoch": 0.13364583333333332,
      "grad_norm": 0.654585599899292,
      "learning_rate": 0.000287659278251209,
      "loss": 3.9479,
      "step": 64150
    },
    {
      "epoch": 0.13366666666666666,
      "grad_norm": 0.7454494833946228,
      "learning_rate": 0.00028765536205518726,
      "loss": 3.9117,
      "step": 64160
    },
    {
      "epoch": 0.1336875,
      "grad_norm": 0.7817630767822266,
      "learning_rate": 0.00028765144526454885,
      "loss": 3.8748,
      "step": 64170
    },
    {
      "epoch": 0.13370833333333335,
      "grad_norm": 0.7823349237442017,
      "learning_rate": 0.00028764752787931066,
      "loss": 3.9524,
      "step": 64180
    },
    {
      "epoch": 0.13372916666666668,
      "grad_norm": 0.7817695736885071,
      "learning_rate": 0.00028764360989948966,
      "loss": 4.0786,
      "step": 64190
    },
    {
      "epoch": 0.13375,
      "grad_norm": 0.8429250717163086,
      "learning_rate": 0.00028763969132510276,
      "loss": 4.0664,
      "step": 64200
    },
    {
      "epoch": 0.13377083333333334,
      "grad_norm": 0.7479737997055054,
      "learning_rate": 0.00028763577215616687,
      "loss": 3.9719,
      "step": 64210
    },
    {
      "epoch": 0.13379166666666667,
      "grad_norm": 0.7489782571792603,
      "learning_rate": 0.00028763185239269885,
      "loss": 3.8603,
      "step": 64220
    },
    {
      "epoch": 0.1338125,
      "grad_norm": 0.7412326335906982,
      "learning_rate": 0.0002876279320347158,
      "loss": 3.881,
      "step": 64230
    },
    {
      "epoch": 0.13383333333333333,
      "grad_norm": 0.7301384210586548,
      "learning_rate": 0.0002876240110822345,
      "loss": 3.9955,
      "step": 64240
    },
    {
      "epoch": 0.13385416666666666,
      "grad_norm": 0.9357399940490723,
      "learning_rate": 0.000287620089535272,
      "loss": 3.606,
      "step": 64250
    },
    {
      "epoch": 0.133875,
      "grad_norm": 0.7204338908195496,
      "learning_rate": 0.0002876161673938452,
      "loss": 3.9144,
      "step": 64260
    },
    {
      "epoch": 0.13389583333333333,
      "grad_norm": 0.7620922327041626,
      "learning_rate": 0.00028761224465797094,
      "loss": 3.9955,
      "step": 64270
    },
    {
      "epoch": 0.13391666666666666,
      "grad_norm": 0.7850940823554993,
      "learning_rate": 0.0002876083213276663,
      "loss": 3.9677,
      "step": 64280
    },
    {
      "epoch": 0.1339375,
      "grad_norm": 0.844295084476471,
      "learning_rate": 0.0002876043974029482,
      "loss": 3.8566,
      "step": 64290
    },
    {
      "epoch": 0.13395833333333335,
      "grad_norm": 0.7199763655662537,
      "learning_rate": 0.00028760047288383354,
      "loss": 3.9979,
      "step": 64300
    },
    {
      "epoch": 0.13397916666666668,
      "grad_norm": 0.7989261150360107,
      "learning_rate": 0.00028759654777033933,
      "loss": 3.9517,
      "step": 64310
    },
    {
      "epoch": 0.134,
      "grad_norm": 0.8251125812530518,
      "learning_rate": 0.0002875926220624825,
      "loss": 4.0783,
      "step": 64320
    },
    {
      "epoch": 0.13402083333333334,
      "grad_norm": 0.7119641900062561,
      "learning_rate": 0.00028758869576028,
      "loss": 4.0871,
      "step": 64330
    },
    {
      "epoch": 0.13404166666666667,
      "grad_norm": 0.8363273739814758,
      "learning_rate": 0.0002875847688637488,
      "loss": 3.8923,
      "step": 64340
    },
    {
      "epoch": 0.1340625,
      "grad_norm": 1.1368399858474731,
      "learning_rate": 0.0002875808413729058,
      "loss": 4.0604,
      "step": 64350
    },
    {
      "epoch": 0.13408333333333333,
      "grad_norm": 0.8615038990974426,
      "learning_rate": 0.00028757691328776806,
      "loss": 3.8282,
      "step": 64360
    },
    {
      "epoch": 0.13410416666666666,
      "grad_norm": 0.7559849619865417,
      "learning_rate": 0.0002875729846083525,
      "loss": 3.858,
      "step": 64370
    },
    {
      "epoch": 0.134125,
      "grad_norm": 0.7788131237030029,
      "learning_rate": 0.00028756905533467613,
      "loss": 3.8132,
      "step": 64380
    },
    {
      "epoch": 0.13414583333333333,
      "grad_norm": 0.9932048916816711,
      "learning_rate": 0.0002875651254667559,
      "loss": 3.9469,
      "step": 64390
    },
    {
      "epoch": 0.13416666666666666,
      "grad_norm": 1.3449825048446655,
      "learning_rate": 0.0002875611950046088,
      "loss": 3.9473,
      "step": 64400
    },
    {
      "epoch": 0.1341875,
      "grad_norm": 0.6532223224639893,
      "learning_rate": 0.00028755726394825174,
      "loss": 3.866,
      "step": 64410
    },
    {
      "epoch": 0.13420833333333335,
      "grad_norm": 0.7533696889877319,
      "learning_rate": 0.00028755333229770174,
      "loss": 3.8402,
      "step": 64420
    },
    {
      "epoch": 0.13422916666666668,
      "grad_norm": 0.8253911137580872,
      "learning_rate": 0.00028754940005297583,
      "loss": 3.8173,
      "step": 64430
    },
    {
      "epoch": 0.13425,
      "grad_norm": 0.8294810652732849,
      "learning_rate": 0.00028754546721409093,
      "loss": 3.9266,
      "step": 64440
    },
    {
      "epoch": 0.13427083333333334,
      "grad_norm": 0.713112473487854,
      "learning_rate": 0.0002875415337810641,
      "loss": 4.0174,
      "step": 64450
    },
    {
      "epoch": 0.13429166666666667,
      "grad_norm": 0.7563521862030029,
      "learning_rate": 0.00028753759975391226,
      "loss": 3.8377,
      "step": 64460
    },
    {
      "epoch": 0.1343125,
      "grad_norm": 0.8616205453872681,
      "learning_rate": 0.0002875336651326524,
      "loss": 3.8602,
      "step": 64470
    },
    {
      "epoch": 0.13433333333333333,
      "grad_norm": 0.7441871166229248,
      "learning_rate": 0.0002875297299173016,
      "loss": 3.8276,
      "step": 64480
    },
    {
      "epoch": 0.13435416666666666,
      "grad_norm": 0.8510188460350037,
      "learning_rate": 0.0002875257941078768,
      "loss": 3.9761,
      "step": 64490
    },
    {
      "epoch": 0.134375,
      "grad_norm": 0.8003024458885193,
      "learning_rate": 0.0002875218577043949,
      "loss": 4.2189,
      "step": 64500
    },
    {
      "epoch": 0.13439583333333333,
      "grad_norm": 0.873536229133606,
      "learning_rate": 0.00028751792070687315,
      "loss": 3.7914,
      "step": 64510
    },
    {
      "epoch": 0.13441666666666666,
      "grad_norm": 0.8054498434066772,
      "learning_rate": 0.00028751398311532833,
      "loss": 3.9121,
      "step": 64520
    },
    {
      "epoch": 0.1344375,
      "grad_norm": 0.7320621013641357,
      "learning_rate": 0.0002875100449297776,
      "loss": 4.0502,
      "step": 64530
    },
    {
      "epoch": 0.13445833333333335,
      "grad_norm": 0.7328641414642334,
      "learning_rate": 0.00028750610615023783,
      "loss": 4.0566,
      "step": 64540
    },
    {
      "epoch": 0.13447916666666668,
      "grad_norm": 0.9228671789169312,
      "learning_rate": 0.00028750216677672614,
      "loss": 4.1551,
      "step": 64550
    },
    {
      "epoch": 0.1345,
      "grad_norm": 1.2704331874847412,
      "learning_rate": 0.00028749822680925954,
      "loss": 4.1689,
      "step": 64560
    },
    {
      "epoch": 0.13452083333333334,
      "grad_norm": 0.9475177526473999,
      "learning_rate": 0.000287494286247855,
      "loss": 3.9883,
      "step": 64570
    },
    {
      "epoch": 0.13454166666666667,
      "grad_norm": 0.7184128761291504,
      "learning_rate": 0.0002874903450925296,
      "loss": 4.0521,
      "step": 64580
    },
    {
      "epoch": 0.1345625,
      "grad_norm": 0.8102483153343201,
      "learning_rate": 0.0002874864033433003,
      "loss": 4.0656,
      "step": 64590
    },
    {
      "epoch": 0.13458333333333333,
      "grad_norm": 0.7767441272735596,
      "learning_rate": 0.0002874824610001842,
      "loss": 4.1491,
      "step": 64600
    },
    {
      "epoch": 0.13460416666666666,
      "grad_norm": 0.7404881119728088,
      "learning_rate": 0.00028747851806319827,
      "loss": 4.0197,
      "step": 64610
    },
    {
      "epoch": 0.134625,
      "grad_norm": 0.9094785451889038,
      "learning_rate": 0.00028747457453235953,
      "loss": 3.8922,
      "step": 64620
    },
    {
      "epoch": 0.13464583333333333,
      "grad_norm": 0.7543533444404602,
      "learning_rate": 0.00028747063040768505,
      "loss": 3.9384,
      "step": 64630
    },
    {
      "epoch": 0.13466666666666666,
      "grad_norm": 0.8408339619636536,
      "learning_rate": 0.0002874666856891919,
      "loss": 4.1373,
      "step": 64640
    },
    {
      "epoch": 0.1346875,
      "grad_norm": 0.7669873237609863,
      "learning_rate": 0.00028746274037689704,
      "loss": 3.8682,
      "step": 64650
    },
    {
      "epoch": 0.13470833333333335,
      "grad_norm": 0.7371418476104736,
      "learning_rate": 0.00028745879447081757,
      "loss": 4.0197,
      "step": 64660
    },
    {
      "epoch": 0.13472916666666668,
      "grad_norm": 0.934221625328064,
      "learning_rate": 0.0002874548479709705,
      "loss": 3.7489,
      "step": 64670
    },
    {
      "epoch": 0.13475,
      "grad_norm": 0.7340819835662842,
      "learning_rate": 0.00028745090087737294,
      "loss": 3.9932,
      "step": 64680
    },
    {
      "epoch": 0.13477083333333334,
      "grad_norm": 0.8123356699943542,
      "learning_rate": 0.00028744695319004183,
      "loss": 3.9741,
      "step": 64690
    },
    {
      "epoch": 0.13479166666666667,
      "grad_norm": 0.8786877393722534,
      "learning_rate": 0.00028744300490899435,
      "loss": 3.8896,
      "step": 64700
    },
    {
      "epoch": 0.1348125,
      "grad_norm": 0.9325731992721558,
      "learning_rate": 0.00028743905603424746,
      "loss": 3.9605,
      "step": 64710
    },
    {
      "epoch": 0.13483333333333333,
      "grad_norm": 0.7665776014328003,
      "learning_rate": 0.00028743510656581824,
      "loss": 3.9601,
      "step": 64720
    },
    {
      "epoch": 0.13485416666666666,
      "grad_norm": 0.7228529453277588,
      "learning_rate": 0.00028743115650372376,
      "loss": 3.9223,
      "step": 64730
    },
    {
      "epoch": 0.134875,
      "grad_norm": 0.7234880924224854,
      "learning_rate": 0.0002874272058479811,
      "loss": 4.1654,
      "step": 64740
    },
    {
      "epoch": 0.13489583333333333,
      "grad_norm": 0.8839651942253113,
      "learning_rate": 0.0002874232545986073,
      "loss": 4.1489,
      "step": 64750
    },
    {
      "epoch": 0.13491666666666666,
      "grad_norm": 0.8160261511802673,
      "learning_rate": 0.0002874193027556195,
      "loss": 4.029,
      "step": 64760
    },
    {
      "epoch": 0.1349375,
      "grad_norm": 0.6733654737472534,
      "learning_rate": 0.0002874153503190346,
      "loss": 3.8903,
      "step": 64770
    },
    {
      "epoch": 0.13495833333333335,
      "grad_norm": 0.7644349932670593,
      "learning_rate": 0.00028741139728886983,
      "loss": 3.9853,
      "step": 64780
    },
    {
      "epoch": 0.13497916666666668,
      "grad_norm": 0.7276139259338379,
      "learning_rate": 0.0002874074436651422,
      "loss": 4.0622,
      "step": 64790
    },
    {
      "epoch": 0.135,
      "grad_norm": 0.7839577198028564,
      "learning_rate": 0.00028740348944786883,
      "loss": 4.0359,
      "step": 64800
    },
    {
      "epoch": 0.13502083333333334,
      "grad_norm": 0.7763628959655762,
      "learning_rate": 0.0002873995346370668,
      "loss": 3.9303,
      "step": 64810
    },
    {
      "epoch": 0.13504166666666667,
      "grad_norm": 0.700670599937439,
      "learning_rate": 0.0002873955792327531,
      "loss": 4.1579,
      "step": 64820
    },
    {
      "epoch": 0.1350625,
      "grad_norm": 0.8376744389533997,
      "learning_rate": 0.0002873916232349449,
      "loss": 3.8593,
      "step": 64830
    },
    {
      "epoch": 0.13508333333333333,
      "grad_norm": 0.7327127456665039,
      "learning_rate": 0.0002873876666436593,
      "loss": 4.0669,
      "step": 64840
    },
    {
      "epoch": 0.13510416666666666,
      "grad_norm": 0.8301616907119751,
      "learning_rate": 0.0002873837094589133,
      "loss": 3.9105,
      "step": 64850
    },
    {
      "epoch": 0.135125,
      "grad_norm": 1.02854585647583,
      "learning_rate": 0.0002873797516807241,
      "loss": 4.0777,
      "step": 64860
    },
    {
      "epoch": 0.13514583333333333,
      "grad_norm": 0.8989710211753845,
      "learning_rate": 0.00028737579330910876,
      "loss": 4.1353,
      "step": 64870
    },
    {
      "epoch": 0.13516666666666666,
      "grad_norm": 0.693149209022522,
      "learning_rate": 0.0002873718343440844,
      "loss": 4.0146,
      "step": 64880
    },
    {
      "epoch": 0.1351875,
      "grad_norm": 0.7931642532348633,
      "learning_rate": 0.000287367874785668,
      "loss": 3.9828,
      "step": 64890
    },
    {
      "epoch": 0.13520833333333335,
      "grad_norm": 0.7196096777915955,
      "learning_rate": 0.00028736391463387683,
      "loss": 3.8226,
      "step": 64900
    },
    {
      "epoch": 0.13522916666666668,
      "grad_norm": 0.9476368427276611,
      "learning_rate": 0.0002873599538887279,
      "loss": 3.7723,
      "step": 64910
    },
    {
      "epoch": 0.13525,
      "grad_norm": 0.7710063457489014,
      "learning_rate": 0.00028735599255023833,
      "loss": 4.0941,
      "step": 64920
    },
    {
      "epoch": 0.13527083333333334,
      "grad_norm": 0.9134628176689148,
      "learning_rate": 0.0002873520306184252,
      "loss": 4.0182,
      "step": 64930
    },
    {
      "epoch": 0.13529166666666667,
      "grad_norm": 0.8409550189971924,
      "learning_rate": 0.0002873480680933058,
      "loss": 3.8634,
      "step": 64940
    },
    {
      "epoch": 0.1353125,
      "grad_norm": 0.8538219332695007,
      "learning_rate": 0.00028734410497489697,
      "loss": 4.0777,
      "step": 64950
    },
    {
      "epoch": 0.13533333333333333,
      "grad_norm": 0.8457117676734924,
      "learning_rate": 0.00028734014126321605,
      "loss": 3.8193,
      "step": 64960
    },
    {
      "epoch": 0.13535416666666666,
      "grad_norm": 0.7340303063392639,
      "learning_rate": 0.00028733617695828,
      "loss": 3.9134,
      "step": 64970
    },
    {
      "epoch": 0.135375,
      "grad_norm": 0.761151134967804,
      "learning_rate": 0.00028733221206010613,
      "loss": 4.0224,
      "step": 64980
    },
    {
      "epoch": 0.13539583333333333,
      "grad_norm": 1.1450016498565674,
      "learning_rate": 0.0002873282465687114,
      "loss": 4.0665,
      "step": 64990
    },
    {
      "epoch": 0.13541666666666666,
      "grad_norm": 0.7096083760261536,
      "learning_rate": 0.0002873242804841131,
      "loss": 4.162,
      "step": 65000
    },
    {
      "epoch": 0.13541666666666666,
      "eval_loss": 4.270015716552734,
      "eval_runtime": 9.216,
      "eval_samples_per_second": 1.085,
      "eval_steps_per_second": 0.326,
      "step": 65000
    },
    {
      "epoch": 0.1354375,
      "grad_norm": 0.7915689945220947,
      "learning_rate": 0.0002873203138063282,
      "loss": 3.8182,
      "step": 65010
    },
    {
      "epoch": 0.13545833333333332,
      "grad_norm": 0.8541768789291382,
      "learning_rate": 0.0002873163465353738,
      "loss": 3.917,
      "step": 65020
    },
    {
      "epoch": 0.13547916666666668,
      "grad_norm": 1.2734990119934082,
      "learning_rate": 0.00028731237867126727,
      "loss": 4.0912,
      "step": 65030
    },
    {
      "epoch": 0.1355,
      "grad_norm": 0.7125342488288879,
      "learning_rate": 0.00028730841021402557,
      "loss": 4.0899,
      "step": 65040
    },
    {
      "epoch": 0.13552083333333334,
      "grad_norm": 0.8634536266326904,
      "learning_rate": 0.0002873044411636659,
      "loss": 4.0344,
      "step": 65050
    },
    {
      "epoch": 0.13554166666666667,
      "grad_norm": 0.8109236359596252,
      "learning_rate": 0.00028730047152020536,
      "loss": 4.0332,
      "step": 65060
    },
    {
      "epoch": 0.1355625,
      "grad_norm": 0.7831248641014099,
      "learning_rate": 0.00028729650128366116,
      "loss": 3.7846,
      "step": 65070
    },
    {
      "epoch": 0.13558333333333333,
      "grad_norm": 0.7490153908729553,
      "learning_rate": 0.0002872925304540504,
      "loss": 4.0979,
      "step": 65080
    },
    {
      "epoch": 0.13560416666666666,
      "grad_norm": 0.7342486381530762,
      "learning_rate": 0.00028728855903139026,
      "loss": 3.9611,
      "step": 65090
    },
    {
      "epoch": 0.135625,
      "grad_norm": 1.0337474346160889,
      "learning_rate": 0.00028728458701569794,
      "loss": 3.7365,
      "step": 65100
    },
    {
      "epoch": 0.13564583333333333,
      "grad_norm": 0.889200747013092,
      "learning_rate": 0.00028728061440699045,
      "loss": 4.0339,
      "step": 65110
    },
    {
      "epoch": 0.13566666666666666,
      "grad_norm": 0.9836903214454651,
      "learning_rate": 0.0002872766412052851,
      "loss": 3.9845,
      "step": 65120
    },
    {
      "epoch": 0.1356875,
      "grad_norm": 0.7733109593391418,
      "learning_rate": 0.000287272667410599,
      "loss": 3.9591,
      "step": 65130
    },
    {
      "epoch": 0.13570833333333332,
      "grad_norm": 0.8711004853248596,
      "learning_rate": 0.0002872686930229493,
      "loss": 4.1617,
      "step": 65140
    },
    {
      "epoch": 0.13572916666666668,
      "grad_norm": 0.7676413655281067,
      "learning_rate": 0.0002872647180423532,
      "loss": 3.9984,
      "step": 65150
    },
    {
      "epoch": 0.13575,
      "grad_norm": 0.7358406782150269,
      "learning_rate": 0.0002872607424688278,
      "loss": 3.8362,
      "step": 65160
    },
    {
      "epoch": 0.13577083333333334,
      "grad_norm": 0.9238478541374207,
      "learning_rate": 0.00028725676630239036,
      "loss": 4.0912,
      "step": 65170
    },
    {
      "epoch": 0.13579166666666667,
      "grad_norm": 0.7800845503807068,
      "learning_rate": 0.00028725278954305804,
      "loss": 3.9674,
      "step": 65180
    },
    {
      "epoch": 0.1358125,
      "grad_norm": 0.7559322714805603,
      "learning_rate": 0.0002872488121908479,
      "loss": 4.006,
      "step": 65190
    },
    {
      "epoch": 0.13583333333333333,
      "grad_norm": 0.8165303468704224,
      "learning_rate": 0.00028724483424577736,
      "loss": 3.9804,
      "step": 65200
    },
    {
      "epoch": 0.13585416666666666,
      "grad_norm": 0.9611272215843201,
      "learning_rate": 0.0002872408557078634,
      "loss": 3.8324,
      "step": 65210
    },
    {
      "epoch": 0.135875,
      "grad_norm": 0.8529415130615234,
      "learning_rate": 0.00028723687657712324,
      "loss": 3.8041,
      "step": 65220
    },
    {
      "epoch": 0.13589583333333333,
      "grad_norm": 1.044836401939392,
      "learning_rate": 0.00028723289685357416,
      "loss": 3.9292,
      "step": 65230
    },
    {
      "epoch": 0.13591666666666666,
      "grad_norm": 0.7357377409934998,
      "learning_rate": 0.0002872289165372332,
      "loss": 3.922,
      "step": 65240
    },
    {
      "epoch": 0.1359375,
      "grad_norm": 0.778701901435852,
      "learning_rate": 0.0002872249356281177,
      "loss": 3.9804,
      "step": 65250
    },
    {
      "epoch": 0.13595833333333332,
      "grad_norm": 0.7653890252113342,
      "learning_rate": 0.0002872209541262448,
      "loss": 3.8818,
      "step": 65260
    },
    {
      "epoch": 0.13597916666666668,
      "grad_norm": 0.8069215416908264,
      "learning_rate": 0.0002872169720316317,
      "loss": 3.994,
      "step": 65270
    },
    {
      "epoch": 0.136,
      "grad_norm": 0.7315927743911743,
      "learning_rate": 0.0002872129893442956,
      "loss": 3.8108,
      "step": 65280
    },
    {
      "epoch": 0.13602083333333334,
      "grad_norm": 0.9079833626747131,
      "learning_rate": 0.0002872090060642536,
      "loss": 4.0035,
      "step": 65290
    },
    {
      "epoch": 0.13604166666666667,
      "grad_norm": 0.8693148493766785,
      "learning_rate": 0.00028720502219152305,
      "loss": 3.8689,
      "step": 65300
    },
    {
      "epoch": 0.1360625,
      "grad_norm": 0.8738946318626404,
      "learning_rate": 0.00028720103772612117,
      "loss": 3.9539,
      "step": 65310
    },
    {
      "epoch": 0.13608333333333333,
      "grad_norm": 0.8064956068992615,
      "learning_rate": 0.00028719705266806505,
      "loss": 4.0215,
      "step": 65320
    },
    {
      "epoch": 0.13610416666666666,
      "grad_norm": 0.7105675339698792,
      "learning_rate": 0.000287193067017372,
      "loss": 4.1154,
      "step": 65330
    },
    {
      "epoch": 0.136125,
      "grad_norm": 0.8013262152671814,
      "learning_rate": 0.00028718908077405924,
      "loss": 3.8123,
      "step": 65340
    },
    {
      "epoch": 0.13614583333333333,
      "grad_norm": 1.2218613624572754,
      "learning_rate": 0.0002871850939381439,
      "loss": 3.9452,
      "step": 65350
    },
    {
      "epoch": 0.13616666666666666,
      "grad_norm": 0.9417993426322937,
      "learning_rate": 0.0002871811065096433,
      "loss": 3.8226,
      "step": 65360
    },
    {
      "epoch": 0.1361875,
      "grad_norm": 1.3034276962280273,
      "learning_rate": 0.0002871771184885746,
      "loss": 3.6707,
      "step": 65370
    },
    {
      "epoch": 0.13620833333333332,
      "grad_norm": 0.8150424957275391,
      "learning_rate": 0.000287173129874955,
      "loss": 3.7573,
      "step": 65380
    },
    {
      "epoch": 0.13622916666666668,
      "grad_norm": 0.7253665328025818,
      "learning_rate": 0.00028716914066880184,
      "loss": 3.8997,
      "step": 65390
    },
    {
      "epoch": 0.13625,
      "grad_norm": 1.119425892829895,
      "learning_rate": 0.0002871651508701323,
      "loss": 4.0051,
      "step": 65400
    },
    {
      "epoch": 0.13627083333333334,
      "grad_norm": 0.7178698182106018,
      "learning_rate": 0.00028716116047896353,
      "loss": 4.184,
      "step": 65410
    },
    {
      "epoch": 0.13629166666666667,
      "grad_norm": 0.7137079238891602,
      "learning_rate": 0.0002871571694953129,
      "loss": 3.8225,
      "step": 65420
    },
    {
      "epoch": 0.1363125,
      "grad_norm": 0.9255494475364685,
      "learning_rate": 0.0002871531779191975,
      "loss": 4.0078,
      "step": 65430
    },
    {
      "epoch": 0.13633333333333333,
      "grad_norm": 0.7485969662666321,
      "learning_rate": 0.00028714918575063476,
      "loss": 3.9384,
      "step": 65440
    },
    {
      "epoch": 0.13635416666666667,
      "grad_norm": 0.9804455041885376,
      "learning_rate": 0.0002871451929896418,
      "loss": 4.055,
      "step": 65450
    },
    {
      "epoch": 0.136375,
      "grad_norm": 0.9150384664535522,
      "learning_rate": 0.00028714119963623585,
      "loss": 3.8845,
      "step": 65460
    },
    {
      "epoch": 0.13639583333333333,
      "grad_norm": 0.8464775681495667,
      "learning_rate": 0.0002871372056904343,
      "loss": 3.9178,
      "step": 65470
    },
    {
      "epoch": 0.13641666666666666,
      "grad_norm": 0.7964507341384888,
      "learning_rate": 0.0002871332111522542,
      "loss": 3.9835,
      "step": 65480
    },
    {
      "epoch": 0.1364375,
      "grad_norm": 0.7888517379760742,
      "learning_rate": 0.00028712921602171295,
      "loss": 3.9112,
      "step": 65490
    },
    {
      "epoch": 0.13645833333333332,
      "grad_norm": 0.7494146823883057,
      "learning_rate": 0.00028712522029882774,
      "loss": 4.015,
      "step": 65500
    },
    {
      "epoch": 0.13647916666666668,
      "grad_norm": 0.8611884117126465,
      "learning_rate": 0.00028712122398361593,
      "loss": 4.0493,
      "step": 65510
    },
    {
      "epoch": 0.1365,
      "grad_norm": 0.8028864860534668,
      "learning_rate": 0.0002871172270760946,
      "loss": 4.0986,
      "step": 65520
    },
    {
      "epoch": 0.13652083333333334,
      "grad_norm": 0.6981949210166931,
      "learning_rate": 0.0002871132295762812,
      "loss": 4.0149,
      "step": 65530
    },
    {
      "epoch": 0.13654166666666667,
      "grad_norm": 0.9052545428276062,
      "learning_rate": 0.00028710923148419294,
      "loss": 4.1545,
      "step": 65540
    },
    {
      "epoch": 0.1365625,
      "grad_norm": 0.8394050598144531,
      "learning_rate": 0.000287105232799847,
      "loss": 3.8832,
      "step": 65550
    },
    {
      "epoch": 0.13658333333333333,
      "grad_norm": 0.7084269523620605,
      "learning_rate": 0.0002871012335232608,
      "loss": 3.9726,
      "step": 65560
    },
    {
      "epoch": 0.13660416666666667,
      "grad_norm": 0.872664749622345,
      "learning_rate": 0.00028709723365445147,
      "loss": 3.9799,
      "step": 65570
    },
    {
      "epoch": 0.136625,
      "grad_norm": 0.7112998962402344,
      "learning_rate": 0.0002870932331934364,
      "loss": 4.0741,
      "step": 65580
    },
    {
      "epoch": 0.13664583333333333,
      "grad_norm": 0.7052416801452637,
      "learning_rate": 0.0002870892321402328,
      "loss": 3.9478,
      "step": 65590
    },
    {
      "epoch": 0.13666666666666666,
      "grad_norm": 0.7768219113349915,
      "learning_rate": 0.000287085230494858,
      "loss": 3.8606,
      "step": 65600
    },
    {
      "epoch": 0.1366875,
      "grad_norm": 0.7721940279006958,
      "learning_rate": 0.00028708122825732923,
      "loss": 3.889,
      "step": 65610
    },
    {
      "epoch": 0.13670833333333332,
      "grad_norm": 0.7931677103042603,
      "learning_rate": 0.00028707722542766384,
      "loss": 3.8851,
      "step": 65620
    },
    {
      "epoch": 0.13672916666666668,
      "grad_norm": 0.8016607761383057,
      "learning_rate": 0.0002870732220058791,
      "loss": 3.946,
      "step": 65630
    },
    {
      "epoch": 0.13675,
      "grad_norm": 0.8310295343399048,
      "learning_rate": 0.00028706921799199234,
      "loss": 3.8892,
      "step": 65640
    },
    {
      "epoch": 0.13677083333333334,
      "grad_norm": 0.7296850681304932,
      "learning_rate": 0.00028706521338602074,
      "loss": 3.9353,
      "step": 65650
    },
    {
      "epoch": 0.13679166666666667,
      "grad_norm": 0.7558501958847046,
      "learning_rate": 0.00028706120818798174,
      "loss": 3.7684,
      "step": 65660
    },
    {
      "epoch": 0.1368125,
      "grad_norm": 0.7843570113182068,
      "learning_rate": 0.0002870572023978925,
      "loss": 4.003,
      "step": 65670
    },
    {
      "epoch": 0.13683333333333333,
      "grad_norm": 0.8324593901634216,
      "learning_rate": 0.00028705319601577046,
      "loss": 3.7992,
      "step": 65680
    },
    {
      "epoch": 0.13685416666666667,
      "grad_norm": 0.8596004247665405,
      "learning_rate": 0.0002870491890416328,
      "loss": 3.9707,
      "step": 65690
    },
    {
      "epoch": 0.136875,
      "grad_norm": 0.769801139831543,
      "learning_rate": 0.00028704518147549694,
      "loss": 3.9967,
      "step": 65700
    },
    {
      "epoch": 0.13689583333333333,
      "grad_norm": 0.7398144602775574,
      "learning_rate": 0.0002870411733173802,
      "loss": 3.8826,
      "step": 65710
    },
    {
      "epoch": 0.13691666666666666,
      "grad_norm": 0.7475129961967468,
      "learning_rate": 0.00028703716456729975,
      "loss": 3.9846,
      "step": 65720
    },
    {
      "epoch": 0.1369375,
      "grad_norm": 0.8137556314468384,
      "learning_rate": 0.00028703315522527297,
      "loss": 3.766,
      "step": 65730
    },
    {
      "epoch": 0.13695833333333332,
      "grad_norm": 0.868998646736145,
      "learning_rate": 0.00028702914529131723,
      "loss": 3.9603,
      "step": 65740
    },
    {
      "epoch": 0.13697916666666668,
      "grad_norm": 0.8844988346099854,
      "learning_rate": 0.00028702513476544983,
      "loss": 3.8723,
      "step": 65750
    },
    {
      "epoch": 0.137,
      "grad_norm": 0.770193338394165,
      "learning_rate": 0.0002870211236476881,
      "loss": 4.0065,
      "step": 65760
    },
    {
      "epoch": 0.13702083333333334,
      "grad_norm": 0.743553102016449,
      "learning_rate": 0.00028701711193804936,
      "loss": 4.2644,
      "step": 65770
    },
    {
      "epoch": 0.13704166666666667,
      "grad_norm": 0.7592821717262268,
      "learning_rate": 0.0002870130996365509,
      "loss": 3.8594,
      "step": 65780
    },
    {
      "epoch": 0.1370625,
      "grad_norm": 0.8209540843963623,
      "learning_rate": 0.0002870090867432101,
      "loss": 3.95,
      "step": 65790
    },
    {
      "epoch": 0.13708333333333333,
      "grad_norm": 0.7818352580070496,
      "learning_rate": 0.0002870050732580443,
      "loss": 3.9313,
      "step": 65800
    },
    {
      "epoch": 0.13710416666666667,
      "grad_norm": 0.7777538299560547,
      "learning_rate": 0.0002870010591810708,
      "loss": 4.1911,
      "step": 65810
    },
    {
      "epoch": 0.137125,
      "grad_norm": 0.9045796394348145,
      "learning_rate": 0.0002869970445123069,
      "loss": 4.0692,
      "step": 65820
    },
    {
      "epoch": 0.13714583333333333,
      "grad_norm": 0.7993079423904419,
      "learning_rate": 0.00028699302925177004,
      "loss": 4.048,
      "step": 65830
    },
    {
      "epoch": 0.13716666666666666,
      "grad_norm": 2.634913206100464,
      "learning_rate": 0.0002869890133994775,
      "loss": 3.9703,
      "step": 65840
    },
    {
      "epoch": 0.1371875,
      "grad_norm": 0.807085394859314,
      "learning_rate": 0.0002869849969554467,
      "loss": 4.0553,
      "step": 65850
    },
    {
      "epoch": 0.13720833333333332,
      "grad_norm": 1.083817958831787,
      "learning_rate": 0.00028698097991969486,
      "loss": 4.025,
      "step": 65860
    },
    {
      "epoch": 0.13722916666666668,
      "grad_norm": 0.7468310594558716,
      "learning_rate": 0.0002869769622922395,
      "loss": 4.0082,
      "step": 65870
    },
    {
      "epoch": 0.13725,
      "grad_norm": 0.990460216999054,
      "learning_rate": 0.0002869729440730978,
      "loss": 3.8593,
      "step": 65880
    },
    {
      "epoch": 0.13727083333333334,
      "grad_norm": 0.8732584118843079,
      "learning_rate": 0.0002869689252622872,
      "loss": 4.0827,
      "step": 65890
    },
    {
      "epoch": 0.13729166666666667,
      "grad_norm": 0.7800723314285278,
      "learning_rate": 0.0002869649058598251,
      "loss": 4.1737,
      "step": 65900
    },
    {
      "epoch": 0.1373125,
      "grad_norm": 0.916387677192688,
      "learning_rate": 0.00028696088586572876,
      "loss": 3.9019,
      "step": 65910
    },
    {
      "epoch": 0.13733333333333334,
      "grad_norm": 0.7495294809341431,
      "learning_rate": 0.0002869568652800157,
      "loss": 4.0042,
      "step": 65920
    },
    {
      "epoch": 0.13735416666666667,
      "grad_norm": 0.7494322657585144,
      "learning_rate": 0.00028695284410270314,
      "loss": 3.778,
      "step": 65930
    },
    {
      "epoch": 0.137375,
      "grad_norm": 0.708899736404419,
      "learning_rate": 0.0002869488223338085,
      "loss": 3.7854,
      "step": 65940
    },
    {
      "epoch": 0.13739583333333333,
      "grad_norm": 0.8492857217788696,
      "learning_rate": 0.0002869447999733492,
      "loss": 4.0197,
      "step": 65950
    },
    {
      "epoch": 0.13741666666666666,
      "grad_norm": 0.7774770855903625,
      "learning_rate": 0.0002869407770213425,
      "loss": 3.9175,
      "step": 65960
    },
    {
      "epoch": 0.1374375,
      "grad_norm": 0.8904722332954407,
      "learning_rate": 0.00028693675347780587,
      "loss": 3.8871,
      "step": 65970
    },
    {
      "epoch": 0.13745833333333332,
      "grad_norm": 0.8568634390830994,
      "learning_rate": 0.0002869327293427567,
      "loss": 3.8772,
      "step": 65980
    },
    {
      "epoch": 0.13747916666666668,
      "grad_norm": 0.8707426190376282,
      "learning_rate": 0.0002869287046162123,
      "loss": 3.7674,
      "step": 65990
    },
    {
      "epoch": 0.1375,
      "grad_norm": 0.8670472502708435,
      "learning_rate": 0.00028692467929819016,
      "loss": 4.1639,
      "step": 66000
    },
    {
      "epoch": 0.1375,
      "eval_loss": 4.280795097351074,
      "eval_runtime": 10.0378,
      "eval_samples_per_second": 0.996,
      "eval_steps_per_second": 0.299,
      "step": 66000
    },
    {
      "epoch": 0.13752083333333334,
      "grad_norm": 0.740135669708252,
      "learning_rate": 0.00028692065338870753,
      "loss": 3.8462,
      "step": 66010
    },
    {
      "epoch": 0.13754166666666667,
      "grad_norm": 0.9340844750404358,
      "learning_rate": 0.00028691662688778193,
      "loss": 3.9741,
      "step": 66020
    },
    {
      "epoch": 0.1375625,
      "grad_norm": 0.7554949522018433,
      "learning_rate": 0.00028691259979543067,
      "loss": 4.1069,
      "step": 66030
    },
    {
      "epoch": 0.13758333333333334,
      "grad_norm": 0.7845373749732971,
      "learning_rate": 0.0002869085721116712,
      "loss": 3.7915,
      "step": 66040
    },
    {
      "epoch": 0.13760416666666667,
      "grad_norm": 1.071006417274475,
      "learning_rate": 0.00028690454383652084,
      "loss": 4.021,
      "step": 66050
    },
    {
      "epoch": 0.137625,
      "grad_norm": 0.8170678019523621,
      "learning_rate": 0.00028690051496999707,
      "loss": 3.8861,
      "step": 66060
    },
    {
      "epoch": 0.13764583333333333,
      "grad_norm": 0.9291921257972717,
      "learning_rate": 0.00028689648551211724,
      "loss": 3.9739,
      "step": 66070
    },
    {
      "epoch": 0.13766666666666666,
      "grad_norm": 0.7531381249427795,
      "learning_rate": 0.0002868924554628988,
      "loss": 3.9176,
      "step": 66080
    },
    {
      "epoch": 0.1376875,
      "grad_norm": 0.7596206068992615,
      "learning_rate": 0.00028688842482235916,
      "loss": 4.0523,
      "step": 66090
    },
    {
      "epoch": 0.13770833333333332,
      "grad_norm": 0.7787721753120422,
      "learning_rate": 0.0002868843935905157,
      "loss": 4.0548,
      "step": 66100
    },
    {
      "epoch": 0.13772916666666668,
      "grad_norm": 0.7916592359542847,
      "learning_rate": 0.0002868803617673858,
      "loss": 4.0309,
      "step": 66110
    },
    {
      "epoch": 0.13775,
      "grad_norm": 0.8433559536933899,
      "learning_rate": 0.0002868763293529869,
      "loss": 4.1242,
      "step": 66120
    },
    {
      "epoch": 0.13777083333333334,
      "grad_norm": 0.7746022343635559,
      "learning_rate": 0.00028687229634733656,
      "loss": 3.8951,
      "step": 66130
    },
    {
      "epoch": 0.13779166666666667,
      "grad_norm": 0.7962788343429565,
      "learning_rate": 0.000286868262750452,
      "loss": 4.0907,
      "step": 66140
    },
    {
      "epoch": 0.1378125,
      "grad_norm": 0.7643312811851501,
      "learning_rate": 0.00028686422856235075,
      "loss": 3.9383,
      "step": 66150
    },
    {
      "epoch": 0.13783333333333334,
      "grad_norm": 0.8939483165740967,
      "learning_rate": 0.00028686019378305015,
      "loss": 3.812,
      "step": 66160
    },
    {
      "epoch": 0.13785416666666667,
      "grad_norm": 0.6806573271751404,
      "learning_rate": 0.0002868561584125677,
      "loss": 3.9889,
      "step": 66170
    },
    {
      "epoch": 0.137875,
      "grad_norm": 0.7723097801208496,
      "learning_rate": 0.00028685212245092086,
      "loss": 3.9836,
      "step": 66180
    },
    {
      "epoch": 0.13789583333333333,
      "grad_norm": 0.8020229935646057,
      "learning_rate": 0.00028684808589812697,
      "loss": 3.9696,
      "step": 66190
    },
    {
      "epoch": 0.13791666666666666,
      "grad_norm": 0.7712486982345581,
      "learning_rate": 0.0002868440487542036,
      "loss": 3.8379,
      "step": 66200
    },
    {
      "epoch": 0.1379375,
      "grad_norm": 0.8245943188667297,
      "learning_rate": 0.000286840011019168,
      "loss": 4.1566,
      "step": 66210
    },
    {
      "epoch": 0.13795833333333332,
      "grad_norm": 0.8406330347061157,
      "learning_rate": 0.00028683597269303776,
      "loss": 3.9494,
      "step": 66220
    },
    {
      "epoch": 0.13797916666666668,
      "grad_norm": 0.7398877143859863,
      "learning_rate": 0.0002868319337758303,
      "loss": 4.2635,
      "step": 66230
    },
    {
      "epoch": 0.138,
      "grad_norm": 0.7273675203323364,
      "learning_rate": 0.0002868278942675631,
      "loss": 3.8957,
      "step": 66240
    },
    {
      "epoch": 0.13802083333333334,
      "grad_norm": 0.8393301367759705,
      "learning_rate": 0.00028682385416825345,
      "loss": 3.8792,
      "step": 66250
    },
    {
      "epoch": 0.13804166666666667,
      "grad_norm": 0.9525238871574402,
      "learning_rate": 0.00028681981347791893,
      "loss": 3.8784,
      "step": 66260
    },
    {
      "epoch": 0.1380625,
      "grad_norm": 1.0002228021621704,
      "learning_rate": 0.000286815772196577,
      "loss": 4.0425,
      "step": 66270
    },
    {
      "epoch": 0.13808333333333334,
      "grad_norm": 0.7807588577270508,
      "learning_rate": 0.00028681173032424513,
      "loss": 4.1447,
      "step": 66280
    },
    {
      "epoch": 0.13810416666666667,
      "grad_norm": 0.7657002806663513,
      "learning_rate": 0.00028680768786094066,
      "loss": 3.9529,
      "step": 66290
    },
    {
      "epoch": 0.138125,
      "grad_norm": 0.7748212218284607,
      "learning_rate": 0.00028680364480668116,
      "loss": 3.9714,
      "step": 66300
    },
    {
      "epoch": 0.13814583333333333,
      "grad_norm": 0.8226855993270874,
      "learning_rate": 0.0002867996011614841,
      "loss": 3.9952,
      "step": 66310
    },
    {
      "epoch": 0.13816666666666666,
      "grad_norm": 0.6432904601097107,
      "learning_rate": 0.00028679555692536683,
      "loss": 4.0371,
      "step": 66320
    },
    {
      "epoch": 0.1381875,
      "grad_norm": 0.8896268606185913,
      "learning_rate": 0.00028679151209834696,
      "loss": 4.043,
      "step": 66330
    },
    {
      "epoch": 0.13820833333333332,
      "grad_norm": 0.801670253276825,
      "learning_rate": 0.0002867874666804419,
      "loss": 3.9039,
      "step": 66340
    },
    {
      "epoch": 0.13822916666666665,
      "grad_norm": 0.755953311920166,
      "learning_rate": 0.00028678342067166914,
      "loss": 4.2403,
      "step": 66350
    },
    {
      "epoch": 0.13825,
      "grad_norm": 0.8296604752540588,
      "learning_rate": 0.0002867793740720461,
      "loss": 4.0175,
      "step": 66360
    },
    {
      "epoch": 0.13827083333333334,
      "grad_norm": 0.8860189318656921,
      "learning_rate": 0.00028677532688159034,
      "loss": 3.9633,
      "step": 66370
    },
    {
      "epoch": 0.13829166666666667,
      "grad_norm": 0.8846216201782227,
      "learning_rate": 0.0002867712791003193,
      "loss": 3.7753,
      "step": 66380
    },
    {
      "epoch": 0.1383125,
      "grad_norm": 0.725294828414917,
      "learning_rate": 0.00028676723072825047,
      "loss": 3.847,
      "step": 66390
    },
    {
      "epoch": 0.13833333333333334,
      "grad_norm": 0.7203556299209595,
      "learning_rate": 0.0002867631817654014,
      "loss": 4.0929,
      "step": 66400
    },
    {
      "epoch": 0.13835416666666667,
      "grad_norm": 0.7871002554893494,
      "learning_rate": 0.0002867591322117894,
      "loss": 4.002,
      "step": 66410
    },
    {
      "epoch": 0.138375,
      "grad_norm": 0.8023578524589539,
      "learning_rate": 0.0002867550820674322,
      "loss": 3.9665,
      "step": 66420
    },
    {
      "epoch": 0.13839583333333333,
      "grad_norm": 0.9391366243362427,
      "learning_rate": 0.0002867510313323471,
      "loss": 4.0523,
      "step": 66430
    },
    {
      "epoch": 0.13841666666666666,
      "grad_norm": 0.7334455251693726,
      "learning_rate": 0.0002867469800065517,
      "loss": 4.2115,
      "step": 66440
    },
    {
      "epoch": 0.1384375,
      "grad_norm": 0.7620160579681396,
      "learning_rate": 0.00028674292809006345,
      "loss": 3.893,
      "step": 66450
    },
    {
      "epoch": 0.13845833333333332,
      "grad_norm": 0.7667372822761536,
      "learning_rate": 0.0002867388755828999,
      "loss": 3.733,
      "step": 66460
    },
    {
      "epoch": 0.13847916666666665,
      "grad_norm": 1.0828499794006348,
      "learning_rate": 0.00028673482248507855,
      "loss": 3.9695,
      "step": 66470
    },
    {
      "epoch": 0.1385,
      "grad_norm": 0.7990016937255859,
      "learning_rate": 0.0002867307687966169,
      "loss": 3.956,
      "step": 66480
    },
    {
      "epoch": 0.13852083333333334,
      "grad_norm": 0.7766852974891663,
      "learning_rate": 0.00028672671451753233,
      "loss": 4.0184,
      "step": 66490
    },
    {
      "epoch": 0.13854166666666667,
      "grad_norm": 0.7112399935722351,
      "learning_rate": 0.0002867226596478426,
      "loss": 4.004,
      "step": 66500
    },
    {
      "epoch": 0.1385625,
      "grad_norm": 0.8018895983695984,
      "learning_rate": 0.0002867186041875651,
      "loss": 3.8946,
      "step": 66510
    },
    {
      "epoch": 0.13858333333333334,
      "grad_norm": 0.9305739998817444,
      "learning_rate": 0.00028671454813671726,
      "loss": 4.2356,
      "step": 66520
    },
    {
      "epoch": 0.13860416666666667,
      "grad_norm": 0.7580352425575256,
      "learning_rate": 0.00028671049149531675,
      "loss": 3.9579,
      "step": 66530
    },
    {
      "epoch": 0.138625,
      "grad_norm": 0.7714937329292297,
      "learning_rate": 0.000286706434263381,
      "loss": 3.9876,
      "step": 66540
    },
    {
      "epoch": 0.13864583333333333,
      "grad_norm": 0.8185648918151855,
      "learning_rate": 0.0002867023764409276,
      "loss": 4.0402,
      "step": 66550
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 0.8889954686164856,
      "learning_rate": 0.00028669831802797407,
      "loss": 4.1126,
      "step": 66560
    },
    {
      "epoch": 0.1386875,
      "grad_norm": 0.882784366607666,
      "learning_rate": 0.00028669425902453787,
      "loss": 3.7506,
      "step": 66570
    },
    {
      "epoch": 0.13870833333333332,
      "grad_norm": 0.8317544460296631,
      "learning_rate": 0.0002866901994306366,
      "loss": 3.8671,
      "step": 66580
    },
    {
      "epoch": 0.13872916666666665,
      "grad_norm": 0.7309566140174866,
      "learning_rate": 0.0002866861392462877,
      "loss": 3.9634,
      "step": 66590
    },
    {
      "epoch": 0.13875,
      "grad_norm": 0.8411346077919006,
      "learning_rate": 0.0002866820784715088,
      "loss": 3.9735,
      "step": 66600
    },
    {
      "epoch": 0.13877083333333334,
      "grad_norm": 0.7378370761871338,
      "learning_rate": 0.0002866780171063175,
      "loss": 3.9803,
      "step": 66610
    },
    {
      "epoch": 0.13879166666666667,
      "grad_norm": 0.7075258493423462,
      "learning_rate": 0.0002866739551507312,
      "loss": 4.0165,
      "step": 66620
    },
    {
      "epoch": 0.1388125,
      "grad_norm": 0.8132305145263672,
      "learning_rate": 0.0002866698926047676,
      "loss": 3.8272,
      "step": 66630
    },
    {
      "epoch": 0.13883333333333334,
      "grad_norm": 0.8023970723152161,
      "learning_rate": 0.0002866658294684441,
      "loss": 3.9566,
      "step": 66640
    },
    {
      "epoch": 0.13885416666666667,
      "grad_norm": 0.7620745301246643,
      "learning_rate": 0.0002866617657417783,
      "loss": 3.9641,
      "step": 66650
    },
    {
      "epoch": 0.138875,
      "grad_norm": 0.8282944560050964,
      "learning_rate": 0.00028665770142478783,
      "loss": 4.0796,
      "step": 66660
    },
    {
      "epoch": 0.13889583333333333,
      "grad_norm": 0.689987063407898,
      "learning_rate": 0.00028665363651749013,
      "loss": 3.9885,
      "step": 66670
    },
    {
      "epoch": 0.13891666666666666,
      "grad_norm": 0.8217405676841736,
      "learning_rate": 0.0002866495710199028,
      "loss": 3.9427,
      "step": 66680
    },
    {
      "epoch": 0.1389375,
      "grad_norm": 0.7840771079063416,
      "learning_rate": 0.0002866455049320434,
      "loss": 4.0037,
      "step": 66690
    },
    {
      "epoch": 0.13895833333333332,
      "grad_norm": 0.8600865006446838,
      "learning_rate": 0.00028664143825392953,
      "loss": 3.7886,
      "step": 66700
    },
    {
      "epoch": 0.13897916666666665,
      "grad_norm": 0.7443968057632446,
      "learning_rate": 0.00028663737098557875,
      "loss": 3.962,
      "step": 66710
    },
    {
      "epoch": 0.139,
      "grad_norm": 0.9079613089561462,
      "learning_rate": 0.00028663330312700863,
      "loss": 3.8281,
      "step": 66720
    },
    {
      "epoch": 0.13902083333333334,
      "grad_norm": 0.7392581105232239,
      "learning_rate": 0.0002866292346782367,
      "loss": 3.957,
      "step": 66730
    },
    {
      "epoch": 0.13904166666666667,
      "grad_norm": 0.8310708403587341,
      "learning_rate": 0.00028662516563928055,
      "loss": 4.0316,
      "step": 66740
    },
    {
      "epoch": 0.1390625,
      "grad_norm": 0.8175225257873535,
      "learning_rate": 0.00028662109601015776,
      "loss": 3.8698,
      "step": 66750
    },
    {
      "epoch": 0.13908333333333334,
      "grad_norm": 0.7781490087509155,
      "learning_rate": 0.00028661702579088594,
      "loss": 3.6807,
      "step": 66760
    },
    {
      "epoch": 0.13910416666666667,
      "grad_norm": 0.7586997151374817,
      "learning_rate": 0.0002866129549814826,
      "loss": 3.9592,
      "step": 66770
    },
    {
      "epoch": 0.139125,
      "grad_norm": 0.832291841506958,
      "learning_rate": 0.0002866088835819654,
      "loss": 3.9807,
      "step": 66780
    },
    {
      "epoch": 0.13914583333333333,
      "grad_norm": 0.719735324382782,
      "learning_rate": 0.0002866048115923519,
      "loss": 3.9444,
      "step": 66790
    },
    {
      "epoch": 0.13916666666666666,
      "grad_norm": 0.7619137763977051,
      "learning_rate": 0.0002866007390126597,
      "loss": 3.9132,
      "step": 66800
    },
    {
      "epoch": 0.1391875,
      "grad_norm": 0.9500381350517273,
      "learning_rate": 0.00028659666584290633,
      "loss": 3.913,
      "step": 66810
    },
    {
      "epoch": 0.13920833333333332,
      "grad_norm": 0.8629404902458191,
      "learning_rate": 0.0002865925920831095,
      "loss": 4.0357,
      "step": 66820
    },
    {
      "epoch": 0.13922916666666665,
      "grad_norm": 0.7602584362030029,
      "learning_rate": 0.0002865885177332867,
      "loss": 4.101,
      "step": 66830
    },
    {
      "epoch": 0.13925,
      "grad_norm": 0.6978729367256165,
      "learning_rate": 0.00028658444279345554,
      "loss": 4.0849,
      "step": 66840
    },
    {
      "epoch": 0.13927083333333334,
      "grad_norm": 0.7115938067436218,
      "learning_rate": 0.0002865803672636337,
      "loss": 3.9577,
      "step": 66850
    },
    {
      "epoch": 0.13929166666666667,
      "grad_norm": 0.9050566554069519,
      "learning_rate": 0.00028657629114383867,
      "loss": 3.7679,
      "step": 66860
    },
    {
      "epoch": 0.1393125,
      "grad_norm": 1.0012133121490479,
      "learning_rate": 0.0002865722144340882,
      "loss": 3.891,
      "step": 66870
    },
    {
      "epoch": 0.13933333333333334,
      "grad_norm": 0.7658916115760803,
      "learning_rate": 0.00028656813713439977,
      "loss": 3.8708,
      "step": 66880
    },
    {
      "epoch": 0.13935416666666667,
      "grad_norm": 0.7346609234809875,
      "learning_rate": 0.0002865640592447911,
      "loss": 4.0782,
      "step": 66890
    },
    {
      "epoch": 0.139375,
      "grad_norm": 1.2897148132324219,
      "learning_rate": 0.00028655998076527973,
      "loss": 3.8769,
      "step": 66900
    },
    {
      "epoch": 0.13939583333333333,
      "grad_norm": 0.8564690947532654,
      "learning_rate": 0.00028655590169588324,
      "loss": 3.8499,
      "step": 66910
    },
    {
      "epoch": 0.13941666666666666,
      "grad_norm": 0.7858598828315735,
      "learning_rate": 0.00028655182203661935,
      "loss": 4.0368,
      "step": 66920
    },
    {
      "epoch": 0.1394375,
      "grad_norm": 0.7081370949745178,
      "learning_rate": 0.00028654774178750567,
      "loss": 3.8307,
      "step": 66930
    },
    {
      "epoch": 0.13945833333333332,
      "grad_norm": 0.9028245210647583,
      "learning_rate": 0.0002865436609485597,
      "loss": 3.9862,
      "step": 66940
    },
    {
      "epoch": 0.13947916666666665,
      "grad_norm": 0.7501576542854309,
      "learning_rate": 0.00028653957951979927,
      "loss": 4.0422,
      "step": 66950
    },
    {
      "epoch": 0.1395,
      "grad_norm": 0.751736044883728,
      "learning_rate": 0.00028653549750124184,
      "loss": 4.0201,
      "step": 66960
    },
    {
      "epoch": 0.13952083333333334,
      "grad_norm": 0.7579165697097778,
      "learning_rate": 0.0002865314148929051,
      "loss": 4.2246,
      "step": 66970
    },
    {
      "epoch": 0.13954166666666667,
      "grad_norm": 0.8148170709609985,
      "learning_rate": 0.00028652733169480673,
      "loss": 4.1324,
      "step": 66980
    },
    {
      "epoch": 0.1395625,
      "grad_norm": 0.7061417102813721,
      "learning_rate": 0.0002865232479069643,
      "loss": 4.0256,
      "step": 66990
    },
    {
      "epoch": 0.13958333333333334,
      "grad_norm": 0.7910216450691223,
      "learning_rate": 0.00028651916352939554,
      "loss": 4.003,
      "step": 67000
    },
    {
      "epoch": 0.13958333333333334,
      "eval_loss": 4.276420593261719,
      "eval_runtime": 10.2531,
      "eval_samples_per_second": 0.975,
      "eval_steps_per_second": 0.293,
      "step": 67000
    },
    {
      "epoch": 0.13960416666666667,
      "grad_norm": 0.9156991839408875,
      "learning_rate": 0.00028651507856211796,
      "loss": 3.9639,
      "step": 67010
    },
    {
      "epoch": 0.139625,
      "grad_norm": 0.7979676723480225,
      "learning_rate": 0.0002865109930051493,
      "loss": 3.9102,
      "step": 67020
    },
    {
      "epoch": 0.13964583333333333,
      "grad_norm": 0.7167903184890747,
      "learning_rate": 0.0002865069068585072,
      "loss": 4.1039,
      "step": 67030
    },
    {
      "epoch": 0.13966666666666666,
      "grad_norm": 0.9077431559562683,
      "learning_rate": 0.0002865028201222093,
      "loss": 4.0158,
      "step": 67040
    },
    {
      "epoch": 0.1396875,
      "grad_norm": 0.697561502456665,
      "learning_rate": 0.0002864987327962732,
      "loss": 3.9194,
      "step": 67050
    },
    {
      "epoch": 0.13970833333333332,
      "grad_norm": 0.7293820381164551,
      "learning_rate": 0.00028649464488071663,
      "loss": 3.9485,
      "step": 67060
    },
    {
      "epoch": 0.13972916666666665,
      "grad_norm": 0.7158096432685852,
      "learning_rate": 0.0002864905563755572,
      "loss": 4.1011,
      "step": 67070
    },
    {
      "epoch": 0.13975,
      "grad_norm": 0.7435108423233032,
      "learning_rate": 0.00028648646728081264,
      "loss": 4.0432,
      "step": 67080
    },
    {
      "epoch": 0.13977083333333334,
      "grad_norm": 0.8101531863212585,
      "learning_rate": 0.0002864823775965005,
      "loss": 4.0,
      "step": 67090
    },
    {
      "epoch": 0.13979166666666668,
      "grad_norm": 0.7339980006217957,
      "learning_rate": 0.0002864782873226386,
      "loss": 4.1664,
      "step": 67100
    },
    {
      "epoch": 0.1398125,
      "grad_norm": 0.737366259098053,
      "learning_rate": 0.0002864741964592445,
      "loss": 3.7327,
      "step": 67110
    },
    {
      "epoch": 0.13983333333333334,
      "grad_norm": 0.9386153221130371,
      "learning_rate": 0.00028647010500633586,
      "loss": 3.8721,
      "step": 67120
    },
    {
      "epoch": 0.13985416666666667,
      "grad_norm": 0.8770789504051208,
      "learning_rate": 0.0002864660129639304,
      "loss": 4.0339,
      "step": 67130
    },
    {
      "epoch": 0.139875,
      "grad_norm": 0.764401376247406,
      "learning_rate": 0.00028646192033204577,
      "loss": 3.929,
      "step": 67140
    },
    {
      "epoch": 0.13989583333333333,
      "grad_norm": 0.7835575342178345,
      "learning_rate": 0.0002864578271106997,
      "loss": 4.0543,
      "step": 67150
    },
    {
      "epoch": 0.13991666666666666,
      "grad_norm": 0.7477178573608398,
      "learning_rate": 0.00028645373329990977,
      "loss": 4.0098,
      "step": 67160
    },
    {
      "epoch": 0.1399375,
      "grad_norm": 0.7605560421943665,
      "learning_rate": 0.00028644963889969376,
      "loss": 3.9761,
      "step": 67170
    },
    {
      "epoch": 0.13995833333333332,
      "grad_norm": 0.821408212184906,
      "learning_rate": 0.0002864455439100693,
      "loss": 3.9771,
      "step": 67180
    },
    {
      "epoch": 0.13997916666666665,
      "grad_norm": 0.8547506332397461,
      "learning_rate": 0.0002864414483310541,
      "loss": 4.1226,
      "step": 67190
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7052234411239624,
      "learning_rate": 0.0002864373521626659,
      "loss": 4.3073,
      "step": 67200
    },
    {
      "epoch": 0.14002083333333334,
      "grad_norm": 0.757892906665802,
      "learning_rate": 0.0002864332554049223,
      "loss": 4.2282,
      "step": 67210
    },
    {
      "epoch": 0.14004166666666668,
      "grad_norm": 0.8175687193870544,
      "learning_rate": 0.000286429158057841,
      "loss": 4.1726,
      "step": 67220
    },
    {
      "epoch": 0.1400625,
      "grad_norm": 0.8422300219535828,
      "learning_rate": 0.0002864250601214398,
      "loss": 3.9396,
      "step": 67230
    },
    {
      "epoch": 0.14008333333333334,
      "grad_norm": 0.733242392539978,
      "learning_rate": 0.0002864209615957363,
      "loss": 4.056,
      "step": 67240
    },
    {
      "epoch": 0.14010416666666667,
      "grad_norm": 0.688207745552063,
      "learning_rate": 0.00028641686248074834,
      "loss": 4.055,
      "step": 67250
    },
    {
      "epoch": 0.140125,
      "grad_norm": 0.8442126512527466,
      "learning_rate": 0.00028641276277649344,
      "loss": 4.0531,
      "step": 67260
    },
    {
      "epoch": 0.14014583333333333,
      "grad_norm": 0.8507494926452637,
      "learning_rate": 0.0002864086624829894,
      "loss": 4.0052,
      "step": 67270
    },
    {
      "epoch": 0.14016666666666666,
      "grad_norm": 0.7374512553215027,
      "learning_rate": 0.000286404561600254,
      "loss": 3.9533,
      "step": 67280
    },
    {
      "epoch": 0.1401875,
      "grad_norm": 0.8030338287353516,
      "learning_rate": 0.0002864004601283048,
      "loss": 3.8822,
      "step": 67290
    },
    {
      "epoch": 0.14020833333333332,
      "grad_norm": 0.781160295009613,
      "learning_rate": 0.00028639635806715965,
      "loss": 3.9163,
      "step": 67300
    },
    {
      "epoch": 0.14022916666666665,
      "grad_norm": 0.7141364812850952,
      "learning_rate": 0.00028639225541683623,
      "loss": 3.9323,
      "step": 67310
    },
    {
      "epoch": 0.14025,
      "grad_norm": 0.8599461913108826,
      "learning_rate": 0.00028638815217735226,
      "loss": 4.0808,
      "step": 67320
    },
    {
      "epoch": 0.14027083333333334,
      "grad_norm": 0.7610298991203308,
      "learning_rate": 0.0002863840483487254,
      "loss": 3.8495,
      "step": 67330
    },
    {
      "epoch": 0.14029166666666668,
      "grad_norm": 0.8625538349151611,
      "learning_rate": 0.0002863799439309735,
      "loss": 4.0453,
      "step": 67340
    },
    {
      "epoch": 0.1403125,
      "grad_norm": 0.8232345581054688,
      "learning_rate": 0.0002863758389241142,
      "loss": 3.9452,
      "step": 67350
    },
    {
      "epoch": 0.14033333333333334,
      "grad_norm": 0.8120365738868713,
      "learning_rate": 0.0002863717333281653,
      "loss": 4.0147,
      "step": 67360
    },
    {
      "epoch": 0.14035416666666667,
      "grad_norm": 0.8351393342018127,
      "learning_rate": 0.00028636762714314443,
      "loss": 4.0277,
      "step": 67370
    },
    {
      "epoch": 0.140375,
      "grad_norm": 0.7913128137588501,
      "learning_rate": 0.0002863635203690694,
      "loss": 4.1899,
      "step": 67380
    },
    {
      "epoch": 0.14039583333333333,
      "grad_norm": 0.9136815667152405,
      "learning_rate": 0.00028635941300595797,
      "loss": 3.9516,
      "step": 67390
    },
    {
      "epoch": 0.14041666666666666,
      "grad_norm": 0.7650099396705627,
      "learning_rate": 0.0002863553050538278,
      "loss": 3.9319,
      "step": 67400
    },
    {
      "epoch": 0.1404375,
      "grad_norm": 0.9565250873565674,
      "learning_rate": 0.00028635119651269675,
      "loss": 3.7928,
      "step": 67410
    },
    {
      "epoch": 0.14045833333333332,
      "grad_norm": 0.8208547830581665,
      "learning_rate": 0.00028634708738258245,
      "loss": 4.1785,
      "step": 67420
    },
    {
      "epoch": 0.14047916666666665,
      "grad_norm": 0.8738393187522888,
      "learning_rate": 0.0002863429776635027,
      "loss": 4.1467,
      "step": 67430
    },
    {
      "epoch": 0.1405,
      "grad_norm": 0.8750103116035461,
      "learning_rate": 0.00028633886735547533,
      "loss": 3.9183,
      "step": 67440
    },
    {
      "epoch": 0.14052083333333334,
      "grad_norm": 0.7483782172203064,
      "learning_rate": 0.0002863347564585179,
      "loss": 3.8365,
      "step": 67450
    },
    {
      "epoch": 0.14054166666666668,
      "grad_norm": 0.6976781487464905,
      "learning_rate": 0.0002863306449726484,
      "loss": 4.101,
      "step": 67460
    },
    {
      "epoch": 0.1405625,
      "grad_norm": 0.8085796236991882,
      "learning_rate": 0.0002863265328978844,
      "loss": 3.9653,
      "step": 67470
    },
    {
      "epoch": 0.14058333333333334,
      "grad_norm": 1.0199956893920898,
      "learning_rate": 0.00028632242023424377,
      "loss": 4.0001,
      "step": 67480
    },
    {
      "epoch": 0.14060416666666667,
      "grad_norm": 0.8205024003982544,
      "learning_rate": 0.0002863183069817442,
      "loss": 4.074,
      "step": 67490
    },
    {
      "epoch": 0.140625,
      "grad_norm": 0.7775112986564636,
      "learning_rate": 0.0002863141931404036,
      "loss": 3.8565,
      "step": 67500
    },
    {
      "epoch": 0.14064583333333333,
      "grad_norm": 0.8740219473838806,
      "learning_rate": 0.00028631007871023957,
      "loss": 3.734,
      "step": 67510
    },
    {
      "epoch": 0.14066666666666666,
      "grad_norm": 0.8270694017410278,
      "learning_rate": 0.00028630596369126995,
      "loss": 3.875,
      "step": 67520
    },
    {
      "epoch": 0.1406875,
      "grad_norm": 0.7835750579833984,
      "learning_rate": 0.0002863018480835126,
      "loss": 3.9083,
      "step": 67530
    },
    {
      "epoch": 0.14070833333333332,
      "grad_norm": 0.6668506860733032,
      "learning_rate": 0.0002862977318869851,
      "loss": 3.7652,
      "step": 67540
    },
    {
      "epoch": 0.14072916666666666,
      "grad_norm": 0.6979983448982239,
      "learning_rate": 0.0002862936151017055,
      "loss": 4.2391,
      "step": 67550
    },
    {
      "epoch": 0.14075,
      "grad_norm": 0.7491747736930847,
      "learning_rate": 0.00028628949772769127,
      "loss": 4.0635,
      "step": 67560
    },
    {
      "epoch": 0.14077083333333335,
      "grad_norm": 0.6643783450126648,
      "learning_rate": 0.0002862853797649605,
      "loss": 4.049,
      "step": 67570
    },
    {
      "epoch": 0.14079166666666668,
      "grad_norm": 0.9443399906158447,
      "learning_rate": 0.0002862812612135307,
      "loss": 3.7484,
      "step": 67580
    },
    {
      "epoch": 0.1408125,
      "grad_norm": 0.8297256231307983,
      "learning_rate": 0.0002862771420734199,
      "loss": 3.9352,
      "step": 67590
    },
    {
      "epoch": 0.14083333333333334,
      "grad_norm": 0.6943755745887756,
      "learning_rate": 0.0002862730223446457,
      "loss": 4.0403,
      "step": 67600
    },
    {
      "epoch": 0.14085416666666667,
      "grad_norm": 0.8211439251899719,
      "learning_rate": 0.00028626890202722603,
      "loss": 4.0425,
      "step": 67610
    },
    {
      "epoch": 0.140875,
      "grad_norm": 0.7740168571472168,
      "learning_rate": 0.00028626478112117864,
      "loss": 4.0039,
      "step": 67620
    },
    {
      "epoch": 0.14089583333333333,
      "grad_norm": 0.7538868188858032,
      "learning_rate": 0.00028626065962652136,
      "loss": 3.9336,
      "step": 67630
    },
    {
      "epoch": 0.14091666666666666,
      "grad_norm": 0.8363707065582275,
      "learning_rate": 0.00028625653754327197,
      "loss": 3.8547,
      "step": 67640
    },
    {
      "epoch": 0.1409375,
      "grad_norm": 0.7309132218360901,
      "learning_rate": 0.00028625241487144825,
      "loss": 4.1285,
      "step": 67650
    },
    {
      "epoch": 0.14095833333333332,
      "grad_norm": 0.7842198610305786,
      "learning_rate": 0.000286248291611068,
      "loss": 4.0555,
      "step": 67660
    },
    {
      "epoch": 0.14097916666666666,
      "grad_norm": 0.8510138392448425,
      "learning_rate": 0.00028624416776214907,
      "loss": 3.804,
      "step": 67670
    },
    {
      "epoch": 0.141,
      "grad_norm": 0.7988179326057434,
      "learning_rate": 0.0002862400433247093,
      "loss": 4.1998,
      "step": 67680
    },
    {
      "epoch": 0.14102083333333335,
      "grad_norm": 0.8140338659286499,
      "learning_rate": 0.00028623591829876643,
      "loss": 4.0173,
      "step": 67690
    },
    {
      "epoch": 0.14104166666666668,
      "grad_norm": 0.7124209403991699,
      "learning_rate": 0.0002862317926843384,
      "loss": 3.8901,
      "step": 67700
    },
    {
      "epoch": 0.1410625,
      "grad_norm": 0.7556617856025696,
      "learning_rate": 0.00028622766648144285,
      "loss": 4.1091,
      "step": 67710
    },
    {
      "epoch": 0.14108333333333334,
      "grad_norm": 0.7983152270317078,
      "learning_rate": 0.00028622353969009773,
      "loss": 3.8423,
      "step": 67720
    },
    {
      "epoch": 0.14110416666666667,
      "grad_norm": 0.8871049880981445,
      "learning_rate": 0.00028621941231032086,
      "loss": 3.855,
      "step": 67730
    },
    {
      "epoch": 0.141125,
      "grad_norm": 0.7759780287742615,
      "learning_rate": 0.00028621528434213,
      "loss": 3.997,
      "step": 67740
    },
    {
      "epoch": 0.14114583333333333,
      "grad_norm": 0.753017008304596,
      "learning_rate": 0.00028621115578554313,
      "loss": 4.0343,
      "step": 67750
    },
    {
      "epoch": 0.14116666666666666,
      "grad_norm": 0.7977811694145203,
      "learning_rate": 0.0002862070266405779,
      "loss": 3.884,
      "step": 67760
    },
    {
      "epoch": 0.1411875,
      "grad_norm": 0.6948860883712769,
      "learning_rate": 0.0002862028969072523,
      "loss": 4.0462,
      "step": 67770
    },
    {
      "epoch": 0.14120833333333332,
      "grad_norm": 0.925207257270813,
      "learning_rate": 0.000286198766585584,
      "loss": 4.0486,
      "step": 67780
    },
    {
      "epoch": 0.14122916666666666,
      "grad_norm": 0.9186550378799438,
      "learning_rate": 0.00028619463567559103,
      "loss": 3.9416,
      "step": 67790
    },
    {
      "epoch": 0.14125,
      "grad_norm": 0.8622272610664368,
      "learning_rate": 0.0002861905041772911,
      "loss": 3.9462,
      "step": 67800
    },
    {
      "epoch": 0.14127083333333335,
      "grad_norm": 0.6530129313468933,
      "learning_rate": 0.00028618637209070207,
      "loss": 4.085,
      "step": 67810
    },
    {
      "epoch": 0.14129166666666668,
      "grad_norm": 0.7675093412399292,
      "learning_rate": 0.00028618223941584187,
      "loss": 4.0921,
      "step": 67820
    },
    {
      "epoch": 0.1413125,
      "grad_norm": 0.7854140996932983,
      "learning_rate": 0.0002861781061527283,
      "loss": 4.1592,
      "step": 67830
    },
    {
      "epoch": 0.14133333333333334,
      "grad_norm": 0.7828556895256042,
      "learning_rate": 0.0002861739723013792,
      "loss": 4.011,
      "step": 67840
    },
    {
      "epoch": 0.14135416666666667,
      "grad_norm": 0.7644075155258179,
      "learning_rate": 0.00028616983786181245,
      "loss": 4.0299,
      "step": 67850
    },
    {
      "epoch": 0.141375,
      "grad_norm": 0.8139627575874329,
      "learning_rate": 0.0002861657028340459,
      "loss": 4.001,
      "step": 67860
    },
    {
      "epoch": 0.14139583333333333,
      "grad_norm": 0.7982949614524841,
      "learning_rate": 0.0002861615672180974,
      "loss": 3.9721,
      "step": 67870
    },
    {
      "epoch": 0.14141666666666666,
      "grad_norm": 0.792457103729248,
      "learning_rate": 0.0002861574310139848,
      "loss": 3.9748,
      "step": 67880
    },
    {
      "epoch": 0.1414375,
      "grad_norm": 0.7915335893630981,
      "learning_rate": 0.000286153294221726,
      "loss": 4.172,
      "step": 67890
    },
    {
      "epoch": 0.14145833333333332,
      "grad_norm": 0.7654396891593933,
      "learning_rate": 0.00028614915684133894,
      "loss": 4.0046,
      "step": 67900
    },
    {
      "epoch": 0.14147916666666666,
      "grad_norm": 0.8173422813415527,
      "learning_rate": 0.00028614501887284135,
      "loss": 4.0218,
      "step": 67910
    },
    {
      "epoch": 0.1415,
      "grad_norm": 0.7302141785621643,
      "learning_rate": 0.00028614088031625115,
      "loss": 3.9187,
      "step": 67920
    },
    {
      "epoch": 0.14152083333333335,
      "grad_norm": 0.7753027081489563,
      "learning_rate": 0.0002861367411715862,
      "loss": 3.9306,
      "step": 67930
    },
    {
      "epoch": 0.14154166666666668,
      "grad_norm": 0.7701120376586914,
      "learning_rate": 0.0002861326014388645,
      "loss": 3.8931,
      "step": 67940
    },
    {
      "epoch": 0.1415625,
      "grad_norm": 0.8398255109786987,
      "learning_rate": 0.00028612846111810385,
      "loss": 3.9586,
      "step": 67950
    },
    {
      "epoch": 0.14158333333333334,
      "grad_norm": 0.7803829908370972,
      "learning_rate": 0.0002861243202093221,
      "loss": 4.0788,
      "step": 67960
    },
    {
      "epoch": 0.14160416666666667,
      "grad_norm": 0.8801718354225159,
      "learning_rate": 0.0002861201787125372,
      "loss": 3.9231,
      "step": 67970
    },
    {
      "epoch": 0.141625,
      "grad_norm": 0.7943689823150635,
      "learning_rate": 0.00028611603662776695,
      "loss": 4.0173,
      "step": 67980
    },
    {
      "epoch": 0.14164583333333333,
      "grad_norm": 0.7450417280197144,
      "learning_rate": 0.00028611189395502933,
      "loss": 3.9647,
      "step": 67990
    },
    {
      "epoch": 0.14166666666666666,
      "grad_norm": 0.6568418145179749,
      "learning_rate": 0.0002861077506943422,
      "loss": 3.9027,
      "step": 68000
    },
    {
      "epoch": 0.14166666666666666,
      "eval_loss": 4.286848545074463,
      "eval_runtime": 9.2215,
      "eval_samples_per_second": 1.084,
      "eval_steps_per_second": 0.325,
      "step": 68000
    },
    {
      "epoch": 0.1416875,
      "grad_norm": 0.7643829584121704,
      "learning_rate": 0.0002861036068457235,
      "loss": 4.0662,
      "step": 68010
    },
    {
      "epoch": 0.14170833333333333,
      "grad_norm": 0.8547444939613342,
      "learning_rate": 0.000286099462409191,
      "loss": 3.9766,
      "step": 68020
    },
    {
      "epoch": 0.14172916666666666,
      "grad_norm": 0.7716964483261108,
      "learning_rate": 0.00028609531738476283,
      "loss": 3.9988,
      "step": 68030
    },
    {
      "epoch": 0.14175,
      "grad_norm": 1.3800851106643677,
      "learning_rate": 0.00028609117177245665,
      "loss": 3.8436,
      "step": 68040
    },
    {
      "epoch": 0.14177083333333335,
      "grad_norm": 0.7249186635017395,
      "learning_rate": 0.0002860870255722905,
      "loss": 3.9899,
      "step": 68050
    },
    {
      "epoch": 0.14179166666666668,
      "grad_norm": 0.8138715624809265,
      "learning_rate": 0.00028608287878428227,
      "loss": 3.9322,
      "step": 68060
    },
    {
      "epoch": 0.1418125,
      "grad_norm": 0.813245415687561,
      "learning_rate": 0.0002860787314084499,
      "loss": 3.9035,
      "step": 68070
    },
    {
      "epoch": 0.14183333333333334,
      "grad_norm": 0.8059067726135254,
      "learning_rate": 0.0002860745834448112,
      "loss": 4.0111,
      "step": 68080
    },
    {
      "epoch": 0.14185416666666667,
      "grad_norm": 0.7531965374946594,
      "learning_rate": 0.00028607043489338425,
      "loss": 3.9871,
      "step": 68090
    },
    {
      "epoch": 0.141875,
      "grad_norm": 0.7514706254005432,
      "learning_rate": 0.00028606628575418683,
      "loss": 3.9158,
      "step": 68100
    },
    {
      "epoch": 0.14189583333333333,
      "grad_norm": 0.8034390211105347,
      "learning_rate": 0.0002860621360272369,
      "loss": 3.7255,
      "step": 68110
    },
    {
      "epoch": 0.14191666666666666,
      "grad_norm": 0.7740110754966736,
      "learning_rate": 0.0002860579857125525,
      "loss": 3.998,
      "step": 68120
    },
    {
      "epoch": 0.1419375,
      "grad_norm": 0.9132469892501831,
      "learning_rate": 0.0002860538348101513,
      "loss": 4.0898,
      "step": 68130
    },
    {
      "epoch": 0.14195833333333333,
      "grad_norm": 0.8638371825218201,
      "learning_rate": 0.0002860496833200515,
      "loss": 3.9487,
      "step": 68140
    },
    {
      "epoch": 0.14197916666666666,
      "grad_norm": 0.7923216223716736,
      "learning_rate": 0.0002860455312422709,
      "loss": 3.9976,
      "step": 68150
    },
    {
      "epoch": 0.142,
      "grad_norm": 0.764724612236023,
      "learning_rate": 0.00028604137857682745,
      "loss": 3.9946,
      "step": 68160
    },
    {
      "epoch": 0.14202083333333335,
      "grad_norm": 0.6943413019180298,
      "learning_rate": 0.0002860372253237391,
      "loss": 4.0631,
      "step": 68170
    },
    {
      "epoch": 0.14204166666666668,
      "grad_norm": 0.7473767995834351,
      "learning_rate": 0.00028603307148302375,
      "loss": 3.9916,
      "step": 68180
    },
    {
      "epoch": 0.1420625,
      "grad_norm": 0.7849889993667603,
      "learning_rate": 0.0002860289170546994,
      "loss": 3.9912,
      "step": 68190
    },
    {
      "epoch": 0.14208333333333334,
      "grad_norm": 0.9748041033744812,
      "learning_rate": 0.000286024762038784,
      "loss": 3.9122,
      "step": 68200
    },
    {
      "epoch": 0.14210416666666667,
      "grad_norm": 0.908832311630249,
      "learning_rate": 0.00028602060643529543,
      "loss": 3.8981,
      "step": 68210
    },
    {
      "epoch": 0.142125,
      "grad_norm": 0.7090237736701965,
      "learning_rate": 0.0002860164502442517,
      "loss": 3.8567,
      "step": 68220
    },
    {
      "epoch": 0.14214583333333333,
      "grad_norm": 0.8290879726409912,
      "learning_rate": 0.00028601229346567075,
      "loss": 4.0328,
      "step": 68230
    },
    {
      "epoch": 0.14216666666666666,
      "grad_norm": 0.7229495048522949,
      "learning_rate": 0.0002860081360995705,
      "loss": 3.9705,
      "step": 68240
    },
    {
      "epoch": 0.1421875,
      "grad_norm": 0.8187728524208069,
      "learning_rate": 0.00028600397814596896,
      "loss": 4.0034,
      "step": 68250
    },
    {
      "epoch": 0.14220833333333333,
      "grad_norm": 0.8531426787376404,
      "learning_rate": 0.00028599981960488407,
      "loss": 3.9797,
      "step": 68260
    },
    {
      "epoch": 0.14222916666666666,
      "grad_norm": 0.8050381541252136,
      "learning_rate": 0.00028599566047633377,
      "loss": 4.1167,
      "step": 68270
    },
    {
      "epoch": 0.14225,
      "grad_norm": 0.7954885959625244,
      "learning_rate": 0.00028599150076033606,
      "loss": 4.061,
      "step": 68280
    },
    {
      "epoch": 0.14227083333333335,
      "grad_norm": 0.7434096336364746,
      "learning_rate": 0.0002859873404569089,
      "loss": 3.9838,
      "step": 68290
    },
    {
      "epoch": 0.14229166666666668,
      "grad_norm": 0.7522338628768921,
      "learning_rate": 0.0002859831795660703,
      "loss": 3.9981,
      "step": 68300
    },
    {
      "epoch": 0.1423125,
      "grad_norm": 0.8243728280067444,
      "learning_rate": 0.0002859790180878381,
      "loss": 3.9135,
      "step": 68310
    },
    {
      "epoch": 0.14233333333333334,
      "grad_norm": 0.7268194556236267,
      "learning_rate": 0.00028597485602223046,
      "loss": 4.0035,
      "step": 68320
    },
    {
      "epoch": 0.14235416666666667,
      "grad_norm": 0.8003144264221191,
      "learning_rate": 0.0002859706933692652,
      "loss": 3.8899,
      "step": 68330
    },
    {
      "epoch": 0.142375,
      "grad_norm": 1.0348068475723267,
      "learning_rate": 0.00028596653012896034,
      "loss": 3.8792,
      "step": 68340
    },
    {
      "epoch": 0.14239583333333333,
      "grad_norm": 0.7865002751350403,
      "learning_rate": 0.00028596236630133395,
      "loss": 3.9494,
      "step": 68350
    },
    {
      "epoch": 0.14241666666666666,
      "grad_norm": 0.8334981203079224,
      "learning_rate": 0.0002859582018864039,
      "loss": 3.8546,
      "step": 68360
    },
    {
      "epoch": 0.1424375,
      "grad_norm": 0.7282049059867859,
      "learning_rate": 0.0002859540368841883,
      "loss": 4.064,
      "step": 68370
    },
    {
      "epoch": 0.14245833333333333,
      "grad_norm": 0.7172561883926392,
      "learning_rate": 0.00028594987129470503,
      "loss": 3.8566,
      "step": 68380
    },
    {
      "epoch": 0.14247916666666666,
      "grad_norm": 0.7230831980705261,
      "learning_rate": 0.00028594570511797216,
      "loss": 3.8113,
      "step": 68390
    },
    {
      "epoch": 0.1425,
      "grad_norm": 0.6746689081192017,
      "learning_rate": 0.00028594153835400765,
      "loss": 3.8732,
      "step": 68400
    },
    {
      "epoch": 0.14252083333333335,
      "grad_norm": 0.7172960638999939,
      "learning_rate": 0.0002859373710028295,
      "loss": 4.043,
      "step": 68410
    },
    {
      "epoch": 0.14254166666666668,
      "grad_norm": 0.66281658411026,
      "learning_rate": 0.0002859332030644557,
      "loss": 3.9268,
      "step": 68420
    },
    {
      "epoch": 0.1425625,
      "grad_norm": 0.754166305065155,
      "learning_rate": 0.00028592903453890427,
      "loss": 4.0261,
      "step": 68430
    },
    {
      "epoch": 0.14258333333333334,
      "grad_norm": 0.8262802958488464,
      "learning_rate": 0.00028592486542619323,
      "loss": 3.8987,
      "step": 68440
    },
    {
      "epoch": 0.14260416666666667,
      "grad_norm": 0.8017993569374084,
      "learning_rate": 0.0002859206957263406,
      "loss": 3.9276,
      "step": 68450
    },
    {
      "epoch": 0.142625,
      "grad_norm": 0.8600105047225952,
      "learning_rate": 0.0002859165254393643,
      "loss": 4.0053,
      "step": 68460
    },
    {
      "epoch": 0.14264583333333333,
      "grad_norm": 0.7667782306671143,
      "learning_rate": 0.00028591235456528244,
      "loss": 3.7532,
      "step": 68470
    },
    {
      "epoch": 0.14266666666666666,
      "grad_norm": 0.8554555177688599,
      "learning_rate": 0.000285908183104113,
      "loss": 3.9408,
      "step": 68480
    },
    {
      "epoch": 0.1426875,
      "grad_norm": 0.8535481095314026,
      "learning_rate": 0.00028590401105587406,
      "loss": 3.9527,
      "step": 68490
    },
    {
      "epoch": 0.14270833333333333,
      "grad_norm": 0.876471996307373,
      "learning_rate": 0.0002858998384205835,
      "loss": 3.8801,
      "step": 68500
    },
    {
      "epoch": 0.14272916666666666,
      "grad_norm": 0.9083638191223145,
      "learning_rate": 0.00028589566519825947,
      "loss": 3.8746,
      "step": 68510
    },
    {
      "epoch": 0.14275,
      "grad_norm": 0.6900635361671448,
      "learning_rate": 0.00028589149138892,
      "loss": 4.0078,
      "step": 68520
    },
    {
      "epoch": 0.14277083333333335,
      "grad_norm": 0.7093167901039124,
      "learning_rate": 0.000285887316992583,
      "loss": 3.8431,
      "step": 68530
    },
    {
      "epoch": 0.14279166666666668,
      "grad_norm": 0.7775229811668396,
      "learning_rate": 0.0002858831420092666,
      "loss": 3.8998,
      "step": 68540
    },
    {
      "epoch": 0.1428125,
      "grad_norm": 0.7805194854736328,
      "learning_rate": 0.00028587896643898883,
      "loss": 3.8318,
      "step": 68550
    },
    {
      "epoch": 0.14283333333333334,
      "grad_norm": 0.8315593004226685,
      "learning_rate": 0.00028587479028176774,
      "loss": 3.8961,
      "step": 68560
    },
    {
      "epoch": 0.14285416666666667,
      "grad_norm": 0.784963071346283,
      "learning_rate": 0.0002858706135376213,
      "loss": 4.1217,
      "step": 68570
    },
    {
      "epoch": 0.142875,
      "grad_norm": 0.7537537813186646,
      "learning_rate": 0.0002858664362065676,
      "loss": 3.9514,
      "step": 68580
    },
    {
      "epoch": 0.14289583333333333,
      "grad_norm": 0.834528923034668,
      "learning_rate": 0.00028586225828862465,
      "loss": 3.8817,
      "step": 68590
    },
    {
      "epoch": 0.14291666666666666,
      "grad_norm": 0.8019347786903381,
      "learning_rate": 0.0002858580797838105,
      "loss": 3.787,
      "step": 68600
    },
    {
      "epoch": 0.1429375,
      "grad_norm": 0.8701620101928711,
      "learning_rate": 0.0002858539006921433,
      "loss": 3.9976,
      "step": 68610
    },
    {
      "epoch": 0.14295833333333333,
      "grad_norm": 0.7548373937606812,
      "learning_rate": 0.000285849721013641,
      "loss": 4.1532,
      "step": 68620
    },
    {
      "epoch": 0.14297916666666666,
      "grad_norm": 0.8507885932922363,
      "learning_rate": 0.0002858455407483217,
      "loss": 3.8716,
      "step": 68630
    },
    {
      "epoch": 0.143,
      "grad_norm": 0.8160971999168396,
      "learning_rate": 0.0002858413598962034,
      "loss": 3.8161,
      "step": 68640
    },
    {
      "epoch": 0.14302083333333335,
      "grad_norm": 0.8048255443572998,
      "learning_rate": 0.00028583717845730416,
      "loss": 4.2902,
      "step": 68650
    },
    {
      "epoch": 0.14304166666666668,
      "grad_norm": 0.7886331081390381,
      "learning_rate": 0.0002858329964316421,
      "loss": 4.045,
      "step": 68660
    },
    {
      "epoch": 0.1430625,
      "grad_norm": 0.9302475452423096,
      "learning_rate": 0.00028582881381923527,
      "loss": 4.0035,
      "step": 68670
    },
    {
      "epoch": 0.14308333333333334,
      "grad_norm": 0.8202977180480957,
      "learning_rate": 0.00028582463062010177,
      "loss": 3.9093,
      "step": 68680
    },
    {
      "epoch": 0.14310416666666667,
      "grad_norm": 0.9660162329673767,
      "learning_rate": 0.0002858204468342596,
      "loss": 4.1651,
      "step": 68690
    },
    {
      "epoch": 0.143125,
      "grad_norm": 0.7714551687240601,
      "learning_rate": 0.0002858162624617268,
      "loss": 3.9611,
      "step": 68700
    },
    {
      "epoch": 0.14314583333333333,
      "grad_norm": 0.7755201458930969,
      "learning_rate": 0.0002858120775025216,
      "loss": 4.0893,
      "step": 68710
    },
    {
      "epoch": 0.14316666666666666,
      "grad_norm": 0.7933080792427063,
      "learning_rate": 0.0002858078919566619,
      "loss": 4.0676,
      "step": 68720
    },
    {
      "epoch": 0.1431875,
      "grad_norm": 0.7870540022850037,
      "learning_rate": 0.00028580370582416593,
      "loss": 3.7976,
      "step": 68730
    },
    {
      "epoch": 0.14320833333333333,
      "grad_norm": 0.8516893982887268,
      "learning_rate": 0.0002857995191050517,
      "loss": 3.8384,
      "step": 68740
    },
    {
      "epoch": 0.14322916666666666,
      "grad_norm": 0.7151204347610474,
      "learning_rate": 0.0002857953317993373,
      "loss": 3.828,
      "step": 68750
    },
    {
      "epoch": 0.14325,
      "grad_norm": 0.8456266522407532,
      "learning_rate": 0.00028579114390704077,
      "loss": 3.986,
      "step": 68760
    },
    {
      "epoch": 0.14327083333333332,
      "grad_norm": 0.900972843170166,
      "learning_rate": 0.00028578695542818026,
      "loss": 3.9533,
      "step": 68770
    },
    {
      "epoch": 0.14329166666666668,
      "grad_norm": 0.8504452705383301,
      "learning_rate": 0.0002857827663627739,
      "loss": 3.822,
      "step": 68780
    },
    {
      "epoch": 0.1433125,
      "grad_norm": 0.6918832659721375,
      "learning_rate": 0.0002857785767108397,
      "loss": 3.8271,
      "step": 68790
    },
    {
      "epoch": 0.14333333333333334,
      "grad_norm": 0.9858295917510986,
      "learning_rate": 0.0002857743864723958,
      "loss": 3.9341,
      "step": 68800
    },
    {
      "epoch": 0.14335416666666667,
      "grad_norm": 0.700001060962677,
      "learning_rate": 0.00028577019564746033,
      "loss": 3.7585,
      "step": 68810
    },
    {
      "epoch": 0.143375,
      "grad_norm": 1.1042606830596924,
      "learning_rate": 0.0002857660042360513,
      "loss": 3.9792,
      "step": 68820
    },
    {
      "epoch": 0.14339583333333333,
      "grad_norm": 0.7815753817558289,
      "learning_rate": 0.00028576181223818686,
      "loss": 3.8902,
      "step": 68830
    },
    {
      "epoch": 0.14341666666666666,
      "grad_norm": 0.7372857332229614,
      "learning_rate": 0.0002857576196538852,
      "loss": 4.0935,
      "step": 68840
    },
    {
      "epoch": 0.1434375,
      "grad_norm": 0.8020527362823486,
      "learning_rate": 0.0002857534264831643,
      "loss": 3.7934,
      "step": 68850
    },
    {
      "epoch": 0.14345833333333333,
      "grad_norm": 0.8075910806655884,
      "learning_rate": 0.0002857492327260424,
      "loss": 3.952,
      "step": 68860
    },
    {
      "epoch": 0.14347916666666666,
      "grad_norm": 0.8080703616142273,
      "learning_rate": 0.00028574503838253745,
      "loss": 4.0199,
      "step": 68870
    },
    {
      "epoch": 0.1435,
      "grad_norm": 0.8201339244842529,
      "learning_rate": 0.0002857408434526677,
      "loss": 3.9655,
      "step": 68880
    },
    {
      "epoch": 0.14352083333333332,
      "grad_norm": 0.8126558065414429,
      "learning_rate": 0.00028573664793645127,
      "loss": 3.8574,
      "step": 68890
    },
    {
      "epoch": 0.14354166666666668,
      "grad_norm": 0.8648584485054016,
      "learning_rate": 0.00028573245183390625,
      "loss": 4.0367,
      "step": 68900
    },
    {
      "epoch": 0.1435625,
      "grad_norm": 0.834685742855072,
      "learning_rate": 0.00028572825514505077,
      "loss": 4.1916,
      "step": 68910
    },
    {
      "epoch": 0.14358333333333334,
      "grad_norm": 0.6882045269012451,
      "learning_rate": 0.00028572405786990294,
      "loss": 3.8745,
      "step": 68920
    },
    {
      "epoch": 0.14360416666666667,
      "grad_norm": 0.8061152100563049,
      "learning_rate": 0.00028571986000848086,
      "loss": 3.8862,
      "step": 68930
    },
    {
      "epoch": 0.143625,
      "grad_norm": 0.6766529679298401,
      "learning_rate": 0.00028571566156080275,
      "loss": 4.0163,
      "step": 68940
    },
    {
      "epoch": 0.14364583333333333,
      "grad_norm": 0.842812716960907,
      "learning_rate": 0.0002857114625268867,
      "loss": 4.0042,
      "step": 68950
    },
    {
      "epoch": 0.14366666666666666,
      "grad_norm": 0.781862199306488,
      "learning_rate": 0.00028570726290675085,
      "loss": 4.1165,
      "step": 68960
    },
    {
      "epoch": 0.1436875,
      "grad_norm": 0.7969842553138733,
      "learning_rate": 0.0002857030627004133,
      "loss": 3.9389,
      "step": 68970
    },
    {
      "epoch": 0.14370833333333333,
      "grad_norm": 0.79613196849823,
      "learning_rate": 0.00028569886190789225,
      "loss": 3.9496,
      "step": 68980
    },
    {
      "epoch": 0.14372916666666666,
      "grad_norm": 0.777702808380127,
      "learning_rate": 0.0002856946605292059,
      "loss": 4.0914,
      "step": 68990
    },
    {
      "epoch": 0.14375,
      "grad_norm": 0.7720385789871216,
      "learning_rate": 0.00028569045856437225,
      "loss": 4.0008,
      "step": 69000
    },
    {
      "epoch": 0.14375,
      "eval_loss": 4.274445533752441,
      "eval_runtime": 9.362,
      "eval_samples_per_second": 1.068,
      "eval_steps_per_second": 0.32,
      "step": 69000
    },
    {
      "epoch": 0.14377083333333332,
      "grad_norm": 0.7591381669044495,
      "learning_rate": 0.00028568625601340953,
      "loss": 3.8535,
      "step": 69010
    },
    {
      "epoch": 0.14379166666666668,
      "grad_norm": 0.925487756729126,
      "learning_rate": 0.00028568205287633595,
      "loss": 4.1256,
      "step": 69020
    },
    {
      "epoch": 0.1438125,
      "grad_norm": 0.8254444003105164,
      "learning_rate": 0.00028567784915316957,
      "loss": 4.0451,
      "step": 69030
    },
    {
      "epoch": 0.14383333333333334,
      "grad_norm": 0.7031874656677246,
      "learning_rate": 0.00028567364484392854,
      "loss": 3.9958,
      "step": 69040
    },
    {
      "epoch": 0.14385416666666667,
      "grad_norm": 0.7742382884025574,
      "learning_rate": 0.0002856694399486312,
      "loss": 4.0983,
      "step": 69050
    },
    {
      "epoch": 0.143875,
      "grad_norm": 1.091235876083374,
      "learning_rate": 0.00028566523446729546,
      "loss": 3.9992,
      "step": 69060
    },
    {
      "epoch": 0.14389583333333333,
      "grad_norm": 0.7113263607025146,
      "learning_rate": 0.0002856610283999396,
      "loss": 4.0939,
      "step": 69070
    },
    {
      "epoch": 0.14391666666666666,
      "grad_norm": 0.7767949104309082,
      "learning_rate": 0.00028565682174658193,
      "loss": 3.8885,
      "step": 69080
    },
    {
      "epoch": 0.1439375,
      "grad_norm": 0.7369946837425232,
      "learning_rate": 0.00028565261450724035,
      "loss": 3.9517,
      "step": 69090
    },
    {
      "epoch": 0.14395833333333333,
      "grad_norm": 0.7156903147697449,
      "learning_rate": 0.00028564840668193325,
      "loss": 4.0029,
      "step": 69100
    },
    {
      "epoch": 0.14397916666666666,
      "grad_norm": 0.7362608313560486,
      "learning_rate": 0.0002856441982706787,
      "loss": 4.0133,
      "step": 69110
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.7841430306434631,
      "learning_rate": 0.00028563998927349485,
      "loss": 4.0488,
      "step": 69120
    },
    {
      "epoch": 0.14402083333333332,
      "grad_norm": 0.7672437429428101,
      "learning_rate": 0.00028563577969040004,
      "loss": 4.1256,
      "step": 69130
    },
    {
      "epoch": 0.14404166666666668,
      "grad_norm": 0.779388427734375,
      "learning_rate": 0.00028563156952141224,
      "loss": 3.9985,
      "step": 69140
    },
    {
      "epoch": 0.1440625,
      "grad_norm": 0.9371891617774963,
      "learning_rate": 0.0002856273587665499,
      "loss": 3.9048,
      "step": 69150
    },
    {
      "epoch": 0.14408333333333334,
      "grad_norm": 0.8399186134338379,
      "learning_rate": 0.0002856231474258309,
      "loss": 3.9454,
      "step": 69160
    },
    {
      "epoch": 0.14410416666666667,
      "grad_norm": 0.8997818827629089,
      "learning_rate": 0.00028561893549927366,
      "loss": 4.1008,
      "step": 69170
    },
    {
      "epoch": 0.144125,
      "grad_norm": 0.8138940930366516,
      "learning_rate": 0.00028561472298689627,
      "loss": 3.9223,
      "step": 69180
    },
    {
      "epoch": 0.14414583333333333,
      "grad_norm": 0.8672645092010498,
      "learning_rate": 0.000285610509888717,
      "loss": 4.0631,
      "step": 69190
    },
    {
      "epoch": 0.14416666666666667,
      "grad_norm": 0.7649490833282471,
      "learning_rate": 0.00028560629620475396,
      "loss": 3.9558,
      "step": 69200
    },
    {
      "epoch": 0.1441875,
      "grad_norm": 0.8688150644302368,
      "learning_rate": 0.0002856020819350254,
      "loss": 4.0186,
      "step": 69210
    },
    {
      "epoch": 0.14420833333333333,
      "grad_norm": 0.8281129598617554,
      "learning_rate": 0.00028559786707954955,
      "loss": 3.8218,
      "step": 69220
    },
    {
      "epoch": 0.14422916666666666,
      "grad_norm": 0.7590388059616089,
      "learning_rate": 0.0002855936516383446,
      "loss": 3.9423,
      "step": 69230
    },
    {
      "epoch": 0.14425,
      "grad_norm": 0.9959970116615295,
      "learning_rate": 0.0002855894356114287,
      "loss": 3.9673,
      "step": 69240
    },
    {
      "epoch": 0.14427083333333332,
      "grad_norm": 0.7323176860809326,
      "learning_rate": 0.00028558521899882015,
      "loss": 3.798,
      "step": 69250
    },
    {
      "epoch": 0.14429166666666668,
      "grad_norm": 0.8124967813491821,
      "learning_rate": 0.00028558100180053707,
      "loss": 3.9536,
      "step": 69260
    },
    {
      "epoch": 0.1443125,
      "grad_norm": 0.759676456451416,
      "learning_rate": 0.0002855767840165978,
      "loss": 3.9722,
      "step": 69270
    },
    {
      "epoch": 0.14433333333333334,
      "grad_norm": 0.7552157640457153,
      "learning_rate": 0.00028557256564702043,
      "loss": 4.0163,
      "step": 69280
    },
    {
      "epoch": 0.14435416666666667,
      "grad_norm": 0.8493736982345581,
      "learning_rate": 0.0002855683466918233,
      "loss": 3.784,
      "step": 69290
    },
    {
      "epoch": 0.144375,
      "grad_norm": 0.8520525097846985,
      "learning_rate": 0.0002855641271510245,
      "loss": 4.0873,
      "step": 69300
    },
    {
      "epoch": 0.14439583333333333,
      "grad_norm": 0.7280745506286621,
      "learning_rate": 0.00028555990702464236,
      "loss": 4.0469,
      "step": 69310
    },
    {
      "epoch": 0.14441666666666667,
      "grad_norm": 0.7128655910491943,
      "learning_rate": 0.0002855556863126951,
      "loss": 3.8393,
      "step": 69320
    },
    {
      "epoch": 0.1444375,
      "grad_norm": 0.7885478138923645,
      "learning_rate": 0.00028555146501520087,
      "loss": 3.9821,
      "step": 69330
    },
    {
      "epoch": 0.14445833333333333,
      "grad_norm": 0.72111576795578,
      "learning_rate": 0.00028554724313217806,
      "loss": 3.8723,
      "step": 69340
    },
    {
      "epoch": 0.14447916666666666,
      "grad_norm": 0.7697587609291077,
      "learning_rate": 0.0002855430206636447,
      "loss": 3.9614,
      "step": 69350
    },
    {
      "epoch": 0.1445,
      "grad_norm": 0.7524446845054626,
      "learning_rate": 0.00028553879760961925,
      "loss": 3.8673,
      "step": 69360
    },
    {
      "epoch": 0.14452083333333332,
      "grad_norm": 0.7479594349861145,
      "learning_rate": 0.0002855345739701198,
      "loss": 4.046,
      "step": 69370
    },
    {
      "epoch": 0.14454166666666668,
      "grad_norm": 0.780967652797699,
      "learning_rate": 0.0002855303497451646,
      "loss": 3.9597,
      "step": 69380
    },
    {
      "epoch": 0.1445625,
      "grad_norm": 0.747592568397522,
      "learning_rate": 0.00028552612493477203,
      "loss": 4.0796,
      "step": 69390
    },
    {
      "epoch": 0.14458333333333334,
      "grad_norm": 0.7526564598083496,
      "learning_rate": 0.00028552189953896014,
      "loss": 3.866,
      "step": 69400
    },
    {
      "epoch": 0.14460416666666667,
      "grad_norm": 0.7952519655227661,
      "learning_rate": 0.00028551767355774733,
      "loss": 3.9725,
      "step": 69410
    },
    {
      "epoch": 0.144625,
      "grad_norm": 0.8723101019859314,
      "learning_rate": 0.00028551344699115187,
      "loss": 4.0408,
      "step": 69420
    },
    {
      "epoch": 0.14464583333333333,
      "grad_norm": 0.8834154605865479,
      "learning_rate": 0.00028550921983919186,
      "loss": 4.0793,
      "step": 69430
    },
    {
      "epoch": 0.14466666666666667,
      "grad_norm": 0.7354750037193298,
      "learning_rate": 0.00028550499210188573,
      "loss": 4.097,
      "step": 69440
    },
    {
      "epoch": 0.1446875,
      "grad_norm": 0.7732417583465576,
      "learning_rate": 0.0002855007637792517,
      "loss": 3.9854,
      "step": 69450
    },
    {
      "epoch": 0.14470833333333333,
      "grad_norm": 0.8417448401451111,
      "learning_rate": 0.00028549653487130794,
      "loss": 4.184,
      "step": 69460
    },
    {
      "epoch": 0.14472916666666666,
      "grad_norm": 0.7990826964378357,
      "learning_rate": 0.0002854923053780728,
      "loss": 3.9705,
      "step": 69470
    },
    {
      "epoch": 0.14475,
      "grad_norm": 0.8470094203948975,
      "learning_rate": 0.00028548807529956446,
      "loss": 4.0412,
      "step": 69480
    },
    {
      "epoch": 0.14477083333333332,
      "grad_norm": 0.6993789672851562,
      "learning_rate": 0.00028548384463580135,
      "loss": 3.8536,
      "step": 69490
    },
    {
      "epoch": 0.14479166666666668,
      "grad_norm": 0.7714810967445374,
      "learning_rate": 0.00028547961338680163,
      "loss": 4.0203,
      "step": 69500
    },
    {
      "epoch": 0.1448125,
      "grad_norm": 0.7773483991622925,
      "learning_rate": 0.0002854753815525837,
      "loss": 3.9607,
      "step": 69510
    },
    {
      "epoch": 0.14483333333333334,
      "grad_norm": 0.8836985230445862,
      "learning_rate": 0.00028547114913316565,
      "loss": 4.0185,
      "step": 69520
    },
    {
      "epoch": 0.14485416666666667,
      "grad_norm": 0.8349967002868652,
      "learning_rate": 0.00028546691612856587,
      "loss": 4.0824,
      "step": 69530
    },
    {
      "epoch": 0.144875,
      "grad_norm": 0.9021446108818054,
      "learning_rate": 0.0002854626825388026,
      "loss": 3.9734,
      "step": 69540
    },
    {
      "epoch": 0.14489583333333333,
      "grad_norm": 0.7487984299659729,
      "learning_rate": 0.00028545844836389423,
      "loss": 3.8739,
      "step": 69550
    },
    {
      "epoch": 0.14491666666666667,
      "grad_norm": 0.6895053386688232,
      "learning_rate": 0.0002854542136038589,
      "loss": 3.9481,
      "step": 69560
    },
    {
      "epoch": 0.1449375,
      "grad_norm": 0.7913296818733215,
      "learning_rate": 0.0002854499782587151,
      "loss": 4.1279,
      "step": 69570
    },
    {
      "epoch": 0.14495833333333333,
      "grad_norm": 0.8175643682479858,
      "learning_rate": 0.0002854457423284809,
      "loss": 4.0045,
      "step": 69580
    },
    {
      "epoch": 0.14497916666666666,
      "grad_norm": 0.6936560273170471,
      "learning_rate": 0.00028544150581317476,
      "loss": 4.0167,
      "step": 69590
    },
    {
      "epoch": 0.145,
      "grad_norm": 0.8884903192520142,
      "learning_rate": 0.00028543726871281495,
      "loss": 3.904,
      "step": 69600
    },
    {
      "epoch": 0.14502083333333332,
      "grad_norm": 0.9533629417419434,
      "learning_rate": 0.0002854330310274197,
      "loss": 4.0589,
      "step": 69610
    },
    {
      "epoch": 0.14504166666666668,
      "grad_norm": 0.866701602935791,
      "learning_rate": 0.0002854287927570074,
      "loss": 3.9737,
      "step": 69620
    },
    {
      "epoch": 0.1450625,
      "grad_norm": 0.7778636813163757,
      "learning_rate": 0.00028542455390159624,
      "loss": 4.0214,
      "step": 69630
    },
    {
      "epoch": 0.14508333333333334,
      "grad_norm": 0.7379801869392395,
      "learning_rate": 0.00028542031446120473,
      "loss": 3.8982,
      "step": 69640
    },
    {
      "epoch": 0.14510416666666667,
      "grad_norm": 0.7211340665817261,
      "learning_rate": 0.00028541607443585096,
      "loss": 4.0802,
      "step": 69650
    },
    {
      "epoch": 0.145125,
      "grad_norm": 0.7276806831359863,
      "learning_rate": 0.0002854118338255534,
      "loss": 3.9115,
      "step": 69660
    },
    {
      "epoch": 0.14514583333333334,
      "grad_norm": 0.940612256526947,
      "learning_rate": 0.00028540759263033033,
      "loss": 4.0724,
      "step": 69670
    },
    {
      "epoch": 0.14516666666666667,
      "grad_norm": 0.7032187581062317,
      "learning_rate": 0.0002854033508502,
      "loss": 4.0115,
      "step": 69680
    },
    {
      "epoch": 0.1451875,
      "grad_norm": 0.8130035400390625,
      "learning_rate": 0.0002853991084851809,
      "loss": 3.6953,
      "step": 69690
    },
    {
      "epoch": 0.14520833333333333,
      "grad_norm": 0.8653534650802612,
      "learning_rate": 0.0002853948655352912,
      "loss": 3.8345,
      "step": 69700
    },
    {
      "epoch": 0.14522916666666666,
      "grad_norm": 0.7863739728927612,
      "learning_rate": 0.0002853906220005492,
      "loss": 3.9347,
      "step": 69710
    },
    {
      "epoch": 0.14525,
      "grad_norm": 1.1530100107192993,
      "learning_rate": 0.00028538637788097336,
      "loss": 4.1363,
      "step": 69720
    },
    {
      "epoch": 0.14527083333333332,
      "grad_norm": 0.9772533178329468,
      "learning_rate": 0.00028538213317658194,
      "loss": 3.8436,
      "step": 69730
    },
    {
      "epoch": 0.14529166666666668,
      "grad_norm": 0.7064031958580017,
      "learning_rate": 0.00028537788788739334,
      "loss": 4.0474,
      "step": 69740
    },
    {
      "epoch": 0.1453125,
      "grad_norm": 0.7282333970069885,
      "learning_rate": 0.00028537364201342583,
      "loss": 4.07,
      "step": 69750
    },
    {
      "epoch": 0.14533333333333334,
      "grad_norm": 0.8107814788818359,
      "learning_rate": 0.0002853693955546977,
      "loss": 3.9046,
      "step": 69760
    },
    {
      "epoch": 0.14535416666666667,
      "grad_norm": 0.7895594835281372,
      "learning_rate": 0.00028536514851122745,
      "loss": 4.0831,
      "step": 69770
    },
    {
      "epoch": 0.145375,
      "grad_norm": 0.7873914837837219,
      "learning_rate": 0.00028536090088303334,
      "loss": 3.9198,
      "step": 69780
    },
    {
      "epoch": 0.14539583333333334,
      "grad_norm": 0.6662315130233765,
      "learning_rate": 0.0002853566526701337,
      "loss": 3.9052,
      "step": 69790
    },
    {
      "epoch": 0.14541666666666667,
      "grad_norm": 0.8563457727432251,
      "learning_rate": 0.0002853524038725469,
      "loss": 4.0553,
      "step": 69800
    },
    {
      "epoch": 0.1454375,
      "grad_norm": 0.8611662983894348,
      "learning_rate": 0.00028534815449029127,
      "loss": 4.0215,
      "step": 69810
    },
    {
      "epoch": 0.14545833333333333,
      "grad_norm": 0.9152176976203918,
      "learning_rate": 0.0002853439045233852,
      "loss": 3.8795,
      "step": 69820
    },
    {
      "epoch": 0.14547916666666666,
      "grad_norm": 0.7586793899536133,
      "learning_rate": 0.000285339653971847,
      "loss": 4.0224,
      "step": 69830
    },
    {
      "epoch": 0.1455,
      "grad_norm": 0.9405799508094788,
      "learning_rate": 0.0002853354028356951,
      "loss": 4.056,
      "step": 69840
    },
    {
      "epoch": 0.14552083333333332,
      "grad_norm": 0.7564637660980225,
      "learning_rate": 0.0002853311511149478,
      "loss": 3.9918,
      "step": 69850
    },
    {
      "epoch": 0.14554166666666668,
      "grad_norm": 1.2695329189300537,
      "learning_rate": 0.00028532689880962354,
      "loss": 4.1415,
      "step": 69860
    },
    {
      "epoch": 0.1455625,
      "grad_norm": 0.8357451558113098,
      "learning_rate": 0.0002853226459197406,
      "loss": 4.0769,
      "step": 69870
    },
    {
      "epoch": 0.14558333333333334,
      "grad_norm": 0.7771034240722656,
      "learning_rate": 0.0002853183924453175,
      "loss": 3.9863,
      "step": 69880
    },
    {
      "epoch": 0.14560416666666667,
      "grad_norm": 0.7269699573516846,
      "learning_rate": 0.0002853141383863724,
      "loss": 4.0775,
      "step": 69890
    },
    {
      "epoch": 0.145625,
      "grad_norm": 0.9239238500595093,
      "learning_rate": 0.0002853098837429238,
      "loss": 3.9019,
      "step": 69900
    },
    {
      "epoch": 0.14564583333333334,
      "grad_norm": 0.7467719912528992,
      "learning_rate": 0.0002853056285149901,
      "loss": 4.0634,
      "step": 69910
    },
    {
      "epoch": 0.14566666666666667,
      "grad_norm": 0.7349724173545837,
      "learning_rate": 0.0002853013727025896,
      "loss": 4.0585,
      "step": 69920
    },
    {
      "epoch": 0.1456875,
      "grad_norm": 0.7949094772338867,
      "learning_rate": 0.00028529711630574076,
      "loss": 4.0161,
      "step": 69930
    },
    {
      "epoch": 0.14570833333333333,
      "grad_norm": 0.8780704736709595,
      "learning_rate": 0.0002852928593244619,
      "loss": 3.9273,
      "step": 69940
    },
    {
      "epoch": 0.14572916666666666,
      "grad_norm": 0.8510060906410217,
      "learning_rate": 0.00028528860175877147,
      "loss": 4.1394,
      "step": 69950
    },
    {
      "epoch": 0.14575,
      "grad_norm": 0.9196462631225586,
      "learning_rate": 0.0002852843436086878,
      "loss": 4.1695,
      "step": 69960
    },
    {
      "epoch": 0.14577083333333332,
      "grad_norm": 0.768364429473877,
      "learning_rate": 0.0002852800848742293,
      "loss": 3.8931,
      "step": 69970
    },
    {
      "epoch": 0.14579166666666668,
      "grad_norm": 1.015350341796875,
      "learning_rate": 0.00028527582555541443,
      "loss": 4.0062,
      "step": 69980
    },
    {
      "epoch": 0.1458125,
      "grad_norm": 0.8176626563072205,
      "learning_rate": 0.0002852715656522615,
      "loss": 3.7749,
      "step": 69990
    },
    {
      "epoch": 0.14583333333333334,
      "grad_norm": 0.7892084121704102,
      "learning_rate": 0.000285267305164789,
      "loss": 3.9711,
      "step": 70000
    },
    {
      "epoch": 0.14583333333333334,
      "eval_loss": 4.26912784576416,
      "eval_runtime": 10.4699,
      "eval_samples_per_second": 0.955,
      "eval_steps_per_second": 0.287,
      "step": 70000
    },
    {
      "epoch": 0.14585416666666667,
      "grad_norm": 0.7435898184776306,
      "learning_rate": 0.0002852630440930153,
      "loss": 4.0758,
      "step": 70010
    },
    {
      "epoch": 0.145875,
      "grad_norm": 0.8915320634841919,
      "learning_rate": 0.0002852587824369587,
      "loss": 4.1133,
      "step": 70020
    },
    {
      "epoch": 0.14589583333333334,
      "grad_norm": 0.819879412651062,
      "learning_rate": 0.00028525452019663775,
      "loss": 4.0017,
      "step": 70030
    },
    {
      "epoch": 0.14591666666666667,
      "grad_norm": 0.6889786720275879,
      "learning_rate": 0.0002852502573720708,
      "loss": 3.8728,
      "step": 70040
    },
    {
      "epoch": 0.1459375,
      "grad_norm": 0.8237648010253906,
      "learning_rate": 0.00028524599396327627,
      "loss": 3.9102,
      "step": 70050
    },
    {
      "epoch": 0.14595833333333333,
      "grad_norm": 0.7609225511550903,
      "learning_rate": 0.0002852417299702726,
      "loss": 3.9541,
      "step": 70060
    },
    {
      "epoch": 0.14597916666666666,
      "grad_norm": 0.7691889405250549,
      "learning_rate": 0.00028523746539307817,
      "loss": 4.0239,
      "step": 70070
    },
    {
      "epoch": 0.146,
      "grad_norm": 0.7535788416862488,
      "learning_rate": 0.00028523320023171144,
      "loss": 3.6465,
      "step": 70080
    },
    {
      "epoch": 0.14602083333333332,
      "grad_norm": 0.7788543105125427,
      "learning_rate": 0.0002852289344861908,
      "loss": 4.1644,
      "step": 70090
    },
    {
      "epoch": 0.14604166666666665,
      "grad_norm": 0.7398819327354431,
      "learning_rate": 0.00028522466815653465,
      "loss": 4.025,
      "step": 70100
    },
    {
      "epoch": 0.1460625,
      "grad_norm": 0.8079652190208435,
      "learning_rate": 0.00028522040124276155,
      "loss": 3.8058,
      "step": 70110
    },
    {
      "epoch": 0.14608333333333334,
      "grad_norm": 0.7243205308914185,
      "learning_rate": 0.00028521613374488976,
      "loss": 4.1071,
      "step": 70120
    },
    {
      "epoch": 0.14610416666666667,
      "grad_norm": 0.9580764770507812,
      "learning_rate": 0.0002852118656629378,
      "loss": 4.0586,
      "step": 70130
    },
    {
      "epoch": 0.146125,
      "grad_norm": 0.9179203510284424,
      "learning_rate": 0.00028520759699692417,
      "loss": 3.9349,
      "step": 70140
    },
    {
      "epoch": 0.14614583333333334,
      "grad_norm": 0.8001128435134888,
      "learning_rate": 0.00028520332774686723,
      "loss": 4.0479,
      "step": 70150
    },
    {
      "epoch": 0.14616666666666667,
      "grad_norm": 0.886451780796051,
      "learning_rate": 0.0002851990579127854,
      "loss": 3.7592,
      "step": 70160
    },
    {
      "epoch": 0.1461875,
      "grad_norm": 0.7593209743499756,
      "learning_rate": 0.0002851947874946971,
      "loss": 3.9764,
      "step": 70170
    },
    {
      "epoch": 0.14620833333333333,
      "grad_norm": 0.7566787004470825,
      "learning_rate": 0.0002851905164926209,
      "loss": 3.9242,
      "step": 70180
    },
    {
      "epoch": 0.14622916666666666,
      "grad_norm": 0.8463684916496277,
      "learning_rate": 0.00028518624490657515,
      "loss": 3.9248,
      "step": 70190
    },
    {
      "epoch": 0.14625,
      "grad_norm": 0.8358814716339111,
      "learning_rate": 0.00028518197273657837,
      "loss": 3.8401,
      "step": 70200
    },
    {
      "epoch": 0.14627083333333332,
      "grad_norm": 0.856998085975647,
      "learning_rate": 0.00028517769998264895,
      "loss": 3.7421,
      "step": 70210
    },
    {
      "epoch": 0.14629166666666665,
      "grad_norm": 0.7047795653343201,
      "learning_rate": 0.00028517342664480537,
      "loss": 3.8694,
      "step": 70220
    },
    {
      "epoch": 0.1463125,
      "grad_norm": 0.8201743960380554,
      "learning_rate": 0.0002851691527230661,
      "loss": 3.9812,
      "step": 70230
    },
    {
      "epoch": 0.14633333333333334,
      "grad_norm": 0.7604708671569824,
      "learning_rate": 0.0002851648782174496,
      "loss": 4.0802,
      "step": 70240
    },
    {
      "epoch": 0.14635416666666667,
      "grad_norm": 0.8410369753837585,
      "learning_rate": 0.0002851606031279743,
      "loss": 3.9369,
      "step": 70250
    },
    {
      "epoch": 0.146375,
      "grad_norm": 0.7235720753669739,
      "learning_rate": 0.00028515632745465877,
      "loss": 3.9319,
      "step": 70260
    },
    {
      "epoch": 0.14639583333333334,
      "grad_norm": 0.6920164227485657,
      "learning_rate": 0.0002851520511975213,
      "loss": 3.9149,
      "step": 70270
    },
    {
      "epoch": 0.14641666666666667,
      "grad_norm": 0.7080636024475098,
      "learning_rate": 0.00028514777435658057,
      "loss": 4.1572,
      "step": 70280
    },
    {
      "epoch": 0.1464375,
      "grad_norm": 0.7709580659866333,
      "learning_rate": 0.0002851434969318549,
      "loss": 3.9161,
      "step": 70290
    },
    {
      "epoch": 0.14645833333333333,
      "grad_norm": 0.7972705960273743,
      "learning_rate": 0.0002851392189233628,
      "loss": 4.0601,
      "step": 70300
    },
    {
      "epoch": 0.14647916666666666,
      "grad_norm": 0.7233147621154785,
      "learning_rate": 0.0002851349403311228,
      "loss": 4.0458,
      "step": 70310
    },
    {
      "epoch": 0.1465,
      "grad_norm": 0.9602296352386475,
      "learning_rate": 0.00028513066115515333,
      "loss": 4.0154,
      "step": 70320
    },
    {
      "epoch": 0.14652083333333332,
      "grad_norm": 0.8137286901473999,
      "learning_rate": 0.00028512638139547284,
      "loss": 3.98,
      "step": 70330
    },
    {
      "epoch": 0.14654166666666665,
      "grad_norm": 0.8879191279411316,
      "learning_rate": 0.00028512210105209997,
      "loss": 4.0604,
      "step": 70340
    },
    {
      "epoch": 0.1465625,
      "grad_norm": 0.8675897121429443,
      "learning_rate": 0.00028511782012505303,
      "loss": 3.9614,
      "step": 70350
    },
    {
      "epoch": 0.14658333333333334,
      "grad_norm": 0.7635958194732666,
      "learning_rate": 0.00028511353861435064,
      "loss": 3.9918,
      "step": 70360
    },
    {
      "epoch": 0.14660416666666667,
      "grad_norm": 0.8240454792976379,
      "learning_rate": 0.0002851092565200112,
      "loss": 4.0146,
      "step": 70370
    },
    {
      "epoch": 0.146625,
      "grad_norm": 0.7570258975028992,
      "learning_rate": 0.0002851049738420533,
      "loss": 4.109,
      "step": 70380
    },
    {
      "epoch": 0.14664583333333334,
      "grad_norm": 0.7569277882575989,
      "learning_rate": 0.00028510069058049534,
      "loss": 3.9234,
      "step": 70390
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 0.836298942565918,
      "learning_rate": 0.00028509640673535594,
      "loss": 3.9572,
      "step": 70400
    },
    {
      "epoch": 0.1466875,
      "grad_norm": 0.7335907220840454,
      "learning_rate": 0.00028509212230665344,
      "loss": 3.9976,
      "step": 70410
    },
    {
      "epoch": 0.14670833333333333,
      "grad_norm": 0.837879478931427,
      "learning_rate": 0.00028508783729440655,
      "loss": 4.0464,
      "step": 70420
    },
    {
      "epoch": 0.14672916666666666,
      "grad_norm": 0.761587381362915,
      "learning_rate": 0.0002850835516986336,
      "loss": 3.906,
      "step": 70430
    },
    {
      "epoch": 0.14675,
      "grad_norm": 0.8922468423843384,
      "learning_rate": 0.0002850792655193532,
      "loss": 4.1039,
      "step": 70440
    },
    {
      "epoch": 0.14677083333333332,
      "grad_norm": 0.7889083623886108,
      "learning_rate": 0.0002850749787565838,
      "loss": 4.025,
      "step": 70450
    },
    {
      "epoch": 0.14679166666666665,
      "grad_norm": 0.8785921931266785,
      "learning_rate": 0.0002850706914103441,
      "loss": 3.8719,
      "step": 70460
    },
    {
      "epoch": 0.1468125,
      "grad_norm": 0.8289032578468323,
      "learning_rate": 0.00028506640348065237,
      "loss": 3.8434,
      "step": 70470
    },
    {
      "epoch": 0.14683333333333334,
      "grad_norm": 0.6950792670249939,
      "learning_rate": 0.0002850621149675272,
      "loss": 3.9272,
      "step": 70480
    },
    {
      "epoch": 0.14685416666666667,
      "grad_norm": 1.0378618240356445,
      "learning_rate": 0.0002850578258709872,
      "loss": 3.8932,
      "step": 70490
    },
    {
      "epoch": 0.146875,
      "grad_norm": 0.7387932538986206,
      "learning_rate": 0.0002850535361910509,
      "loss": 4.0066,
      "step": 70500
    },
    {
      "epoch": 0.14689583333333334,
      "grad_norm": 0.9211015701293945,
      "learning_rate": 0.0002850492459277367,
      "loss": 3.8786,
      "step": 70510
    },
    {
      "epoch": 0.14691666666666667,
      "grad_norm": 0.780335545539856,
      "learning_rate": 0.00028504495508106326,
      "loss": 3.9988,
      "step": 70520
    },
    {
      "epoch": 0.1469375,
      "grad_norm": 0.7700327038764954,
      "learning_rate": 0.00028504066365104907,
      "loss": 3.8681,
      "step": 70530
    },
    {
      "epoch": 0.14695833333333333,
      "grad_norm": 0.7493449449539185,
      "learning_rate": 0.00028503637163771264,
      "loss": 3.9319,
      "step": 70540
    },
    {
      "epoch": 0.14697916666666666,
      "grad_norm": 0.9285547137260437,
      "learning_rate": 0.0002850320790410726,
      "loss": 4.1259,
      "step": 70550
    },
    {
      "epoch": 0.147,
      "grad_norm": 0.7321125864982605,
      "learning_rate": 0.00028502778586114735,
      "loss": 4.0552,
      "step": 70560
    },
    {
      "epoch": 0.14702083333333332,
      "grad_norm": 0.860734224319458,
      "learning_rate": 0.0002850234920979555,
      "loss": 3.9526,
      "step": 70570
    },
    {
      "epoch": 0.14704166666666665,
      "grad_norm": 0.911291241645813,
      "learning_rate": 0.0002850191977515157,
      "loss": 3.8496,
      "step": 70580
    },
    {
      "epoch": 0.1470625,
      "grad_norm": 0.7311672568321228,
      "learning_rate": 0.00028501490282184635,
      "loss": 4.0824,
      "step": 70590
    },
    {
      "epoch": 0.14708333333333334,
      "grad_norm": 0.7769649624824524,
      "learning_rate": 0.00028501060730896607,
      "loss": 4.1192,
      "step": 70600
    },
    {
      "epoch": 0.14710416666666667,
      "grad_norm": 0.6574681401252747,
      "learning_rate": 0.0002850063112128934,
      "loss": 4.0061,
      "step": 70610
    },
    {
      "epoch": 0.147125,
      "grad_norm": 0.7548052072525024,
      "learning_rate": 0.00028500201453364693,
      "loss": 3.8955,
      "step": 70620
    },
    {
      "epoch": 0.14714583333333334,
      "grad_norm": 0.7816272377967834,
      "learning_rate": 0.00028499771727124516,
      "loss": 3.8382,
      "step": 70630
    },
    {
      "epoch": 0.14716666666666667,
      "grad_norm": 0.9138084053993225,
      "learning_rate": 0.00028499341942570677,
      "loss": 4.0052,
      "step": 70640
    },
    {
      "epoch": 0.1471875,
      "grad_norm": 0.7758882641792297,
      "learning_rate": 0.00028498912099705014,
      "loss": 3.8247,
      "step": 70650
    },
    {
      "epoch": 0.14720833333333333,
      "grad_norm": 0.7486403584480286,
      "learning_rate": 0.00028498482198529397,
      "loss": 4.0722,
      "step": 70660
    },
    {
      "epoch": 0.14722916666666666,
      "grad_norm": 0.9078393578529358,
      "learning_rate": 0.00028498052239045685,
      "loss": 4.1625,
      "step": 70670
    },
    {
      "epoch": 0.14725,
      "grad_norm": 0.7558035254478455,
      "learning_rate": 0.0002849762222125572,
      "loss": 3.8941,
      "step": 70680
    },
    {
      "epoch": 0.14727083333333332,
      "grad_norm": 0.7405322790145874,
      "learning_rate": 0.00028497192145161376,
      "loss": 4.1048,
      "step": 70690
    },
    {
      "epoch": 0.14729166666666665,
      "grad_norm": 0.7279923558235168,
      "learning_rate": 0.0002849676201076451,
      "loss": 3.9966,
      "step": 70700
    },
    {
      "epoch": 0.1473125,
      "grad_norm": 1.0375614166259766,
      "learning_rate": 0.00028496331818066964,
      "loss": 3.7154,
      "step": 70710
    },
    {
      "epoch": 0.14733333333333334,
      "grad_norm": 0.8000854849815369,
      "learning_rate": 0.00028495901567070615,
      "loss": 3.8953,
      "step": 70720
    },
    {
      "epoch": 0.14735416666666667,
      "grad_norm": 0.7650704979896545,
      "learning_rate": 0.0002849547125777731,
      "loss": 4.0827,
      "step": 70730
    },
    {
      "epoch": 0.147375,
      "grad_norm": 0.7293088436126709,
      "learning_rate": 0.00028495040890188914,
      "loss": 4.0645,
      "step": 70740
    },
    {
      "epoch": 0.14739583333333334,
      "grad_norm": 0.8080040216445923,
      "learning_rate": 0.00028494610464307275,
      "loss": 3.9648,
      "step": 70750
    },
    {
      "epoch": 0.14741666666666667,
      "grad_norm": 0.7630507946014404,
      "learning_rate": 0.00028494179980134265,
      "loss": 4.1478,
      "step": 70760
    },
    {
      "epoch": 0.1474375,
      "grad_norm": 0.8327875733375549,
      "learning_rate": 0.00028493749437671743,
      "loss": 3.92,
      "step": 70770
    },
    {
      "epoch": 0.14745833333333333,
      "grad_norm": 0.7751945853233337,
      "learning_rate": 0.0002849331883692156,
      "loss": 3.8638,
      "step": 70780
    },
    {
      "epoch": 0.14747916666666666,
      "grad_norm": 0.8261473178863525,
      "learning_rate": 0.0002849288817788558,
      "loss": 3.9871,
      "step": 70790
    },
    {
      "epoch": 0.1475,
      "grad_norm": 0.7510938048362732,
      "learning_rate": 0.00028492457460565666,
      "loss": 4.1507,
      "step": 70800
    },
    {
      "epoch": 0.14752083333333332,
      "grad_norm": 0.7204061150550842,
      "learning_rate": 0.00028492026684963676,
      "loss": 3.8249,
      "step": 70810
    },
    {
      "epoch": 0.14754166666666665,
      "grad_norm": 0.8568095564842224,
      "learning_rate": 0.0002849159585108147,
      "loss": 4.0815,
      "step": 70820
    },
    {
      "epoch": 0.1475625,
      "grad_norm": 0.6975789070129395,
      "learning_rate": 0.00028491164958920913,
      "loss": 3.8742,
      "step": 70830
    },
    {
      "epoch": 0.14758333333333334,
      "grad_norm": 0.7814606428146362,
      "learning_rate": 0.00028490734008483864,
      "loss": 3.9741,
      "step": 70840
    },
    {
      "epoch": 0.14760416666666668,
      "grad_norm": 0.6680817008018494,
      "learning_rate": 0.00028490302999772184,
      "loss": 3.7527,
      "step": 70850
    },
    {
      "epoch": 0.147625,
      "grad_norm": 0.7374251484870911,
      "learning_rate": 0.0002848987193278773,
      "loss": 3.9141,
      "step": 70860
    },
    {
      "epoch": 0.14764583333333334,
      "grad_norm": 0.7649693489074707,
      "learning_rate": 0.00028489440807532375,
      "loss": 3.9403,
      "step": 70870
    },
    {
      "epoch": 0.14766666666666667,
      "grad_norm": 0.7564494013786316,
      "learning_rate": 0.0002848900962400797,
      "loss": 3.9429,
      "step": 70880
    },
    {
      "epoch": 0.1476875,
      "grad_norm": 0.793039083480835,
      "learning_rate": 0.0002848857838221638,
      "loss": 3.977,
      "step": 70890
    },
    {
      "epoch": 0.14770833333333333,
      "grad_norm": 0.9813269376754761,
      "learning_rate": 0.0002848814708215948,
      "loss": 4.0172,
      "step": 70900
    },
    {
      "epoch": 0.14772916666666666,
      "grad_norm": 0.757882833480835,
      "learning_rate": 0.0002848771572383912,
      "loss": 3.7661,
      "step": 70910
    },
    {
      "epoch": 0.14775,
      "grad_norm": 0.7030050754547119,
      "learning_rate": 0.00028487284307257164,
      "loss": 3.9025,
      "step": 70920
    },
    {
      "epoch": 0.14777083333333332,
      "grad_norm": 0.7204713821411133,
      "learning_rate": 0.0002848685283241548,
      "loss": 3.963,
      "step": 70930
    },
    {
      "epoch": 0.14779166666666665,
      "grad_norm": 1.171222448348999,
      "learning_rate": 0.0002848642129931593,
      "loss": 3.9744,
      "step": 70940
    },
    {
      "epoch": 0.1478125,
      "grad_norm": 0.6897326111793518,
      "learning_rate": 0.0002848598970796038,
      "loss": 4.0045,
      "step": 70950
    },
    {
      "epoch": 0.14783333333333334,
      "grad_norm": 0.7398867011070251,
      "learning_rate": 0.0002848555805835069,
      "loss": 3.7481,
      "step": 70960
    },
    {
      "epoch": 0.14785416666666668,
      "grad_norm": 0.7656953930854797,
      "learning_rate": 0.0002848512635048873,
      "loss": 3.8326,
      "step": 70970
    },
    {
      "epoch": 0.147875,
      "grad_norm": 0.8426531553268433,
      "learning_rate": 0.0002848469458437636,
      "loss": 4.1601,
      "step": 70980
    },
    {
      "epoch": 0.14789583333333334,
      "grad_norm": 0.7725698947906494,
      "learning_rate": 0.0002848426276001545,
      "loss": 3.9413,
      "step": 70990
    },
    {
      "epoch": 0.14791666666666667,
      "grad_norm": 0.7696405053138733,
      "learning_rate": 0.00028483830877407856,
      "loss": 4.0112,
      "step": 71000
    },
    {
      "epoch": 0.14791666666666667,
      "eval_loss": 4.284165382385254,
      "eval_runtime": 9.1084,
      "eval_samples_per_second": 1.098,
      "eval_steps_per_second": 0.329,
      "step": 71000
    },
    {
      "epoch": 0.1479375,
      "grad_norm": 0.7905187010765076,
      "learning_rate": 0.00028483398936555456,
      "loss": 3.9901,
      "step": 71010
    },
    {
      "epoch": 0.14795833333333333,
      "grad_norm": 0.8021465539932251,
      "learning_rate": 0.00028482966937460106,
      "loss": 4.0941,
      "step": 71020
    },
    {
      "epoch": 0.14797916666666666,
      "grad_norm": 0.7418262362480164,
      "learning_rate": 0.00028482534880123675,
      "loss": 3.9853,
      "step": 71030
    },
    {
      "epoch": 0.148,
      "grad_norm": 0.7624172568321228,
      "learning_rate": 0.00028482102764548035,
      "loss": 3.8035,
      "step": 71040
    },
    {
      "epoch": 0.14802083333333332,
      "grad_norm": 0.8580581545829773,
      "learning_rate": 0.00028481670590735044,
      "loss": 3.8673,
      "step": 71050
    },
    {
      "epoch": 0.14804166666666665,
      "grad_norm": 0.7686579823493958,
      "learning_rate": 0.00028481238358686573,
      "loss": 4.0046,
      "step": 71060
    },
    {
      "epoch": 0.1480625,
      "grad_norm": 0.7011567950248718,
      "learning_rate": 0.00028480806068404487,
      "loss": 3.9806,
      "step": 71070
    },
    {
      "epoch": 0.14808333333333334,
      "grad_norm": 0.779774010181427,
      "learning_rate": 0.0002848037371989066,
      "loss": 3.9366,
      "step": 71080
    },
    {
      "epoch": 0.14810416666666668,
      "grad_norm": 0.7824998497962952,
      "learning_rate": 0.0002847994131314695,
      "loss": 3.9259,
      "step": 71090
    },
    {
      "epoch": 0.148125,
      "grad_norm": 0.7422212958335876,
      "learning_rate": 0.0002847950884817523,
      "loss": 3.9097,
      "step": 71100
    },
    {
      "epoch": 0.14814583333333334,
      "grad_norm": 0.6770913600921631,
      "learning_rate": 0.0002847907632497737,
      "loss": 4.1077,
      "step": 71110
    },
    {
      "epoch": 0.14816666666666667,
      "grad_norm": 0.7348718643188477,
      "learning_rate": 0.00028478643743555233,
      "loss": 4.0255,
      "step": 71120
    },
    {
      "epoch": 0.1481875,
      "grad_norm": 0.9059455394744873,
      "learning_rate": 0.0002847821110391069,
      "loss": 3.72,
      "step": 71130
    },
    {
      "epoch": 0.14820833333333333,
      "grad_norm": 0.7659428119659424,
      "learning_rate": 0.0002847777840604561,
      "loss": 4.1059,
      "step": 71140
    },
    {
      "epoch": 0.14822916666666666,
      "grad_norm": 0.7198939919471741,
      "learning_rate": 0.00028477345649961864,
      "loss": 4.0336,
      "step": 71150
    },
    {
      "epoch": 0.14825,
      "grad_norm": 0.7605399489402771,
      "learning_rate": 0.0002847691283566132,
      "loss": 3.975,
      "step": 71160
    },
    {
      "epoch": 0.14827083333333332,
      "grad_norm": 0.8730732202529907,
      "learning_rate": 0.00028476479963145845,
      "loss": 4.0358,
      "step": 71170
    },
    {
      "epoch": 0.14829166666666665,
      "grad_norm": 0.7102091312408447,
      "learning_rate": 0.0002847604703241731,
      "loss": 3.9719,
      "step": 71180
    },
    {
      "epoch": 0.1483125,
      "grad_norm": 0.8173009753227234,
      "learning_rate": 0.0002847561404347759,
      "loss": 4.1131,
      "step": 71190
    },
    {
      "epoch": 0.14833333333333334,
      "grad_norm": 0.7617464065551758,
      "learning_rate": 0.0002847518099632855,
      "loss": 4.002,
      "step": 71200
    },
    {
      "epoch": 0.14835416666666668,
      "grad_norm": 0.7886496782302856,
      "learning_rate": 0.0002847474789097206,
      "loss": 4.0719,
      "step": 71210
    },
    {
      "epoch": 0.148375,
      "grad_norm": 0.7785465717315674,
      "learning_rate": 0.00028474314727409993,
      "loss": 3.9436,
      "step": 71220
    },
    {
      "epoch": 0.14839583333333334,
      "grad_norm": 0.8125216960906982,
      "learning_rate": 0.0002847388150564422,
      "loss": 3.9755,
      "step": 71230
    },
    {
      "epoch": 0.14841666666666667,
      "grad_norm": 0.7480450868606567,
      "learning_rate": 0.0002847344822567661,
      "loss": 3.907,
      "step": 71240
    },
    {
      "epoch": 0.1484375,
      "grad_norm": 0.7671841979026794,
      "learning_rate": 0.0002847301488750904,
      "loss": 4.052,
      "step": 71250
    },
    {
      "epoch": 0.14845833333333333,
      "grad_norm": 0.9425755143165588,
      "learning_rate": 0.0002847258149114338,
      "loss": 4.0931,
      "step": 71260
    },
    {
      "epoch": 0.14847916666666666,
      "grad_norm": 0.7930712699890137,
      "learning_rate": 0.000284721480365815,
      "loss": 3.9558,
      "step": 71270
    },
    {
      "epoch": 0.1485,
      "grad_norm": 0.8144110441207886,
      "learning_rate": 0.0002847171452382527,
      "loss": 3.8485,
      "step": 71280
    },
    {
      "epoch": 0.14852083333333332,
      "grad_norm": 1.0648144483566284,
      "learning_rate": 0.0002847128095287657,
      "loss": 4.0264,
      "step": 71290
    },
    {
      "epoch": 0.14854166666666666,
      "grad_norm": 0.8163142800331116,
      "learning_rate": 0.00028470847323737263,
      "loss": 3.8487,
      "step": 71300
    },
    {
      "epoch": 0.1485625,
      "grad_norm": 0.7700211405754089,
      "learning_rate": 0.0002847041363640923,
      "loss": 4.0265,
      "step": 71310
    },
    {
      "epoch": 0.14858333333333335,
      "grad_norm": 1.1434084177017212,
      "learning_rate": 0.00028469979890894347,
      "loss": 3.9967,
      "step": 71320
    },
    {
      "epoch": 0.14860416666666668,
      "grad_norm": 0.8698025941848755,
      "learning_rate": 0.0002846954608719448,
      "loss": 4.0618,
      "step": 71330
    },
    {
      "epoch": 0.148625,
      "grad_norm": 0.8047134876251221,
      "learning_rate": 0.000284691122253115,
      "loss": 3.9848,
      "step": 71340
    },
    {
      "epoch": 0.14864583333333334,
      "grad_norm": 0.7494893074035645,
      "learning_rate": 0.0002846867830524729,
      "loss": 3.9671,
      "step": 71350
    },
    {
      "epoch": 0.14866666666666667,
      "grad_norm": 0.8174264430999756,
      "learning_rate": 0.00028468244327003724,
      "loss": 4.0091,
      "step": 71360
    },
    {
      "epoch": 0.1486875,
      "grad_norm": 0.7800838351249695,
      "learning_rate": 0.0002846781029058267,
      "loss": 3.9655,
      "step": 71370
    },
    {
      "epoch": 0.14870833333333333,
      "grad_norm": 0.7907758355140686,
      "learning_rate": 0.0002846737619598601,
      "loss": 3.9742,
      "step": 71380
    },
    {
      "epoch": 0.14872916666666666,
      "grad_norm": 0.8528965711593628,
      "learning_rate": 0.00028466942043215614,
      "loss": 3.9647,
      "step": 71390
    },
    {
      "epoch": 0.14875,
      "grad_norm": 0.9358994960784912,
      "learning_rate": 0.0002846650783227336,
      "loss": 3.8695,
      "step": 71400
    },
    {
      "epoch": 0.14877083333333332,
      "grad_norm": 0.8777825236320496,
      "learning_rate": 0.0002846607356316112,
      "loss": 3.9801,
      "step": 71410
    },
    {
      "epoch": 0.14879166666666666,
      "grad_norm": 0.8991490006446838,
      "learning_rate": 0.0002846563923588077,
      "loss": 3.9912,
      "step": 71420
    },
    {
      "epoch": 0.1488125,
      "grad_norm": 0.7709356546401978,
      "learning_rate": 0.00028465204850434197,
      "loss": 4.0917,
      "step": 71430
    },
    {
      "epoch": 0.14883333333333335,
      "grad_norm": 0.7932181358337402,
      "learning_rate": 0.0002846477040682326,
      "loss": 3.9192,
      "step": 71440
    },
    {
      "epoch": 0.14885416666666668,
      "grad_norm": 0.740972638130188,
      "learning_rate": 0.0002846433590504985,
      "loss": 3.8576,
      "step": 71450
    },
    {
      "epoch": 0.148875,
      "grad_norm": 0.7025546431541443,
      "learning_rate": 0.00028463901345115837,
      "loss": 3.8922,
      "step": 71460
    },
    {
      "epoch": 0.14889583333333334,
      "grad_norm": 0.7704331874847412,
      "learning_rate": 0.000284634667270231,
      "loss": 4.0307,
      "step": 71470
    },
    {
      "epoch": 0.14891666666666667,
      "grad_norm": 1.0900804996490479,
      "learning_rate": 0.00028463032050773517,
      "loss": 3.9595,
      "step": 71480
    },
    {
      "epoch": 0.1489375,
      "grad_norm": 0.8697716593742371,
      "learning_rate": 0.0002846259731636896,
      "loss": 3.9997,
      "step": 71490
    },
    {
      "epoch": 0.14895833333333333,
      "grad_norm": 0.8139185309410095,
      "learning_rate": 0.00028462162523811317,
      "loss": 3.9287,
      "step": 71500
    },
    {
      "epoch": 0.14897916666666666,
      "grad_norm": 0.9552225470542908,
      "learning_rate": 0.00028461727673102457,
      "loss": 4.0279,
      "step": 71510
    },
    {
      "epoch": 0.149,
      "grad_norm": 0.7749955654144287,
      "learning_rate": 0.00028461292764244263,
      "loss": 4.0088,
      "step": 71520
    },
    {
      "epoch": 0.14902083333333332,
      "grad_norm": 0.7781401872634888,
      "learning_rate": 0.00028460857797238615,
      "loss": 3.8408,
      "step": 71530
    },
    {
      "epoch": 0.14904166666666666,
      "grad_norm": 0.7465201020240784,
      "learning_rate": 0.00028460422772087383,
      "loss": 3.9059,
      "step": 71540
    },
    {
      "epoch": 0.1490625,
      "grad_norm": 0.710066020488739,
      "learning_rate": 0.0002845998768879246,
      "loss": 3.9026,
      "step": 71550
    },
    {
      "epoch": 0.14908333333333335,
      "grad_norm": 0.7229118347167969,
      "learning_rate": 0.00028459552547355715,
      "loss": 3.9192,
      "step": 71560
    },
    {
      "epoch": 0.14910416666666668,
      "grad_norm": 1.1155638694763184,
      "learning_rate": 0.0002845911734777903,
      "loss": 3.7946,
      "step": 71570
    },
    {
      "epoch": 0.149125,
      "grad_norm": 0.8917801380157471,
      "learning_rate": 0.0002845868209006429,
      "loss": 4.0234,
      "step": 71580
    },
    {
      "epoch": 0.14914583333333334,
      "grad_norm": 0.94773930311203,
      "learning_rate": 0.0002845824677421336,
      "loss": 3.7823,
      "step": 71590
    },
    {
      "epoch": 0.14916666666666667,
      "grad_norm": 0.8116409778594971,
      "learning_rate": 0.0002845781140022814,
      "loss": 3.8846,
      "step": 71600
    },
    {
      "epoch": 0.1491875,
      "grad_norm": 0.7623091340065002,
      "learning_rate": 0.000284573759681105,
      "loss": 3.9585,
      "step": 71610
    },
    {
      "epoch": 0.14920833333333333,
      "grad_norm": 0.8278562426567078,
      "learning_rate": 0.0002845694047786232,
      "loss": 4.0079,
      "step": 71620
    },
    {
      "epoch": 0.14922916666666666,
      "grad_norm": 0.9009554386138916,
      "learning_rate": 0.0002845650492948549,
      "loss": 3.9093,
      "step": 71630
    },
    {
      "epoch": 0.14925,
      "grad_norm": 0.7580499053001404,
      "learning_rate": 0.0002845606932298188,
      "loss": 4.0763,
      "step": 71640
    },
    {
      "epoch": 0.14927083333333332,
      "grad_norm": 0.8750494718551636,
      "learning_rate": 0.0002845563365835338,
      "loss": 4.0393,
      "step": 71650
    },
    {
      "epoch": 0.14929166666666666,
      "grad_norm": 0.7408109903335571,
      "learning_rate": 0.0002845519793560186,
      "loss": 3.9725,
      "step": 71660
    },
    {
      "epoch": 0.1493125,
      "grad_norm": 0.8094432950019836,
      "learning_rate": 0.0002845476215472922,
      "loss": 3.8375,
      "step": 71670
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 0.7717129588127136,
      "learning_rate": 0.00028454326315737334,
      "loss": 4.0632,
      "step": 71680
    },
    {
      "epoch": 0.14935416666666668,
      "grad_norm": 0.7702759504318237,
      "learning_rate": 0.00028453890418628084,
      "loss": 4.0045,
      "step": 71690
    },
    {
      "epoch": 0.149375,
      "grad_norm": 0.8685171604156494,
      "learning_rate": 0.0002845345446340334,
      "loss": 3.8928,
      "step": 71700
    },
    {
      "epoch": 0.14939583333333334,
      "grad_norm": 0.9150027632713318,
      "learning_rate": 0.0002845301845006501,
      "loss": 3.9233,
      "step": 71710
    },
    {
      "epoch": 0.14941666666666667,
      "grad_norm": 0.7720416784286499,
      "learning_rate": 0.0002845258237861497,
      "loss": 3.8108,
      "step": 71720
    },
    {
      "epoch": 0.1494375,
      "grad_norm": 0.9362589120864868,
      "learning_rate": 0.0002845214624905509,
      "loss": 3.9277,
      "step": 71730
    },
    {
      "epoch": 0.14945833333333333,
      "grad_norm": 0.8128464818000793,
      "learning_rate": 0.0002845171006138726,
      "loss": 4.1033,
      "step": 71740
    },
    {
      "epoch": 0.14947916666666666,
      "grad_norm": 0.752554178237915,
      "learning_rate": 0.00028451273815613377,
      "loss": 3.8588,
      "step": 71750
    },
    {
      "epoch": 0.1495,
      "grad_norm": 0.8801952600479126,
      "learning_rate": 0.0002845083751173531,
      "loss": 3.9596,
      "step": 71760
    },
    {
      "epoch": 0.14952083333333333,
      "grad_norm": 0.8071030974388123,
      "learning_rate": 0.0002845040114975495,
      "loss": 3.9856,
      "step": 71770
    },
    {
      "epoch": 0.14954166666666666,
      "grad_norm": 0.7862836122512817,
      "learning_rate": 0.0002844996472967418,
      "loss": 3.9644,
      "step": 71780
    },
    {
      "epoch": 0.1495625,
      "grad_norm": 0.7857822775840759,
      "learning_rate": 0.00028449528251494883,
      "loss": 4.0167,
      "step": 71790
    },
    {
      "epoch": 0.14958333333333335,
      "grad_norm": 0.7912495732307434,
      "learning_rate": 0.00028449091715218957,
      "loss": 3.8651,
      "step": 71800
    },
    {
      "epoch": 0.14960416666666668,
      "grad_norm": 0.7305403351783752,
      "learning_rate": 0.0002844865512084827,
      "loss": 3.9962,
      "step": 71810
    },
    {
      "epoch": 0.149625,
      "grad_norm": 0.7999270558357239,
      "learning_rate": 0.00028448218468384717,
      "loss": 3.9629,
      "step": 71820
    },
    {
      "epoch": 0.14964583333333334,
      "grad_norm": 0.8545464873313904,
      "learning_rate": 0.0002844778175783019,
      "loss": 3.8118,
      "step": 71830
    },
    {
      "epoch": 0.14966666666666667,
      "grad_norm": 0.8261105418205261,
      "learning_rate": 0.0002844734498918656,
      "loss": 3.868,
      "step": 71840
    },
    {
      "epoch": 0.1496875,
      "grad_norm": 0.7680333852767944,
      "learning_rate": 0.0002844690816245573,
      "loss": 3.9965,
      "step": 71850
    },
    {
      "epoch": 0.14970833333333333,
      "grad_norm": 0.886259913444519,
      "learning_rate": 0.00028446471277639575,
      "loss": 3.9505,
      "step": 71860
    },
    {
      "epoch": 0.14972916666666666,
      "grad_norm": 0.7556746006011963,
      "learning_rate": 0.0002844603433473999,
      "loss": 3.9307,
      "step": 71870
    },
    {
      "epoch": 0.14975,
      "grad_norm": 0.7038658261299133,
      "learning_rate": 0.0002844559733375885,
      "loss": 3.9779,
      "step": 71880
    },
    {
      "epoch": 0.14977083333333333,
      "grad_norm": 0.7639734745025635,
      "learning_rate": 0.0002844516027469806,
      "loss": 3.9773,
      "step": 71890
    },
    {
      "epoch": 0.14979166666666666,
      "grad_norm": 0.7529335021972656,
      "learning_rate": 0.000284447231575595,
      "loss": 4.0046,
      "step": 71900
    },
    {
      "epoch": 0.1498125,
      "grad_norm": 0.9344610571861267,
      "learning_rate": 0.00028444285982345054,
      "loss": 3.9518,
      "step": 71910
    },
    {
      "epoch": 0.14983333333333335,
      "grad_norm": 0.7351492643356323,
      "learning_rate": 0.0002844384874905662,
      "loss": 4.0872,
      "step": 71920
    },
    {
      "epoch": 0.14985416666666668,
      "grad_norm": 0.7677125930786133,
      "learning_rate": 0.0002844341145769608,
      "loss": 3.9007,
      "step": 71930
    },
    {
      "epoch": 0.149875,
      "grad_norm": 0.693696916103363,
      "learning_rate": 0.00028442974108265314,
      "loss": 4.008,
      "step": 71940
    },
    {
      "epoch": 0.14989583333333334,
      "grad_norm": 0.7964749336242676,
      "learning_rate": 0.00028442536700766226,
      "loss": 3.8951,
      "step": 71950
    },
    {
      "epoch": 0.14991666666666667,
      "grad_norm": 0.8002138137817383,
      "learning_rate": 0.00028442099235200706,
      "loss": 4.0999,
      "step": 71960
    },
    {
      "epoch": 0.1499375,
      "grad_norm": 0.9176610112190247,
      "learning_rate": 0.0002844166171157063,
      "loss": 3.9667,
      "step": 71970
    },
    {
      "epoch": 0.14995833333333333,
      "grad_norm": 0.7362682819366455,
      "learning_rate": 0.00028441224129877897,
      "loss": 3.9581,
      "step": 71980
    },
    {
      "epoch": 0.14997916666666666,
      "grad_norm": 0.7761439085006714,
      "learning_rate": 0.000284407864901244,
      "loss": 3.9336,
      "step": 71990
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7397243976593018,
      "learning_rate": 0.0002844034879231203,
      "loss": 4.0251,
      "step": 72000
    },
    {
      "epoch": 0.15,
      "eval_loss": 4.295764923095703,
      "eval_runtime": 9.5639,
      "eval_samples_per_second": 1.046,
      "eval_steps_per_second": 0.314,
      "step": 72000
    },
    {
      "epoch": 0.15002083333333333,
      "grad_norm": 0.8388078808784485,
      "learning_rate": 0.0002843991103644267,
      "loss": 4.0227,
      "step": 72010
    },
    {
      "epoch": 0.15004166666666666,
      "grad_norm": 0.9408968091011047,
      "learning_rate": 0.00028439473222518206,
      "loss": 3.9341,
      "step": 72020
    },
    {
      "epoch": 0.1500625,
      "grad_norm": 0.7338883280754089,
      "learning_rate": 0.00028439035350540543,
      "loss": 3.8319,
      "step": 72030
    },
    {
      "epoch": 0.15008333333333335,
      "grad_norm": 0.7317513823509216,
      "learning_rate": 0.00028438597420511573,
      "loss": 3.9728,
      "step": 72040
    },
    {
      "epoch": 0.15010416666666668,
      "grad_norm": 0.828517735004425,
      "learning_rate": 0.0002843815943243317,
      "loss": 3.762,
      "step": 72050
    },
    {
      "epoch": 0.150125,
      "grad_norm": 1.0389846563339233,
      "learning_rate": 0.0002843772138630725,
      "loss": 3.8084,
      "step": 72060
    },
    {
      "epoch": 0.15014583333333334,
      "grad_norm": 0.6843791007995605,
      "learning_rate": 0.0002843728328213568,
      "loss": 4.0249,
      "step": 72070
    },
    {
      "epoch": 0.15016666666666667,
      "grad_norm": 0.8441025018692017,
      "learning_rate": 0.00028436845119920377,
      "loss": 4.0895,
      "step": 72080
    },
    {
      "epoch": 0.1501875,
      "grad_norm": 0.718093752861023,
      "learning_rate": 0.00028436406899663214,
      "loss": 4.1182,
      "step": 72090
    },
    {
      "epoch": 0.15020833333333333,
      "grad_norm": 0.735041081905365,
      "learning_rate": 0.0002843596862136609,
      "loss": 4.0152,
      "step": 72100
    },
    {
      "epoch": 0.15022916666666666,
      "grad_norm": 0.7616361379623413,
      "learning_rate": 0.00028435530285030904,
      "loss": 3.9742,
      "step": 72110
    },
    {
      "epoch": 0.15025,
      "grad_norm": 0.766974925994873,
      "learning_rate": 0.00028435091890659545,
      "loss": 3.9273,
      "step": 72120
    },
    {
      "epoch": 0.15027083333333333,
      "grad_norm": 1.0119668245315552,
      "learning_rate": 0.0002843465343825391,
      "loss": 3.8686,
      "step": 72130
    },
    {
      "epoch": 0.15029166666666666,
      "grad_norm": 0.7462304830551147,
      "learning_rate": 0.0002843421492781588,
      "loss": 4.1103,
      "step": 72140
    },
    {
      "epoch": 0.1503125,
      "grad_norm": 0.7401243448257446,
      "learning_rate": 0.0002843377635934737,
      "loss": 3.8154,
      "step": 72150
    },
    {
      "epoch": 0.15033333333333335,
      "grad_norm": 0.8520476818084717,
      "learning_rate": 0.00028433337732850254,
      "loss": 4.0405,
      "step": 72160
    },
    {
      "epoch": 0.15035416666666668,
      "grad_norm": 0.8213244080543518,
      "learning_rate": 0.00028432899048326445,
      "loss": 3.8169,
      "step": 72170
    },
    {
      "epoch": 0.150375,
      "grad_norm": 0.8177028894424438,
      "learning_rate": 0.0002843246030577782,
      "loss": 4.1099,
      "step": 72180
    },
    {
      "epoch": 0.15039583333333334,
      "grad_norm": 0.7936242818832397,
      "learning_rate": 0.000284320215052063,
      "loss": 3.9734,
      "step": 72190
    },
    {
      "epoch": 0.15041666666666667,
      "grad_norm": 0.8216565847396851,
      "learning_rate": 0.0002843158264661375,
      "loss": 4.0511,
      "step": 72200
    },
    {
      "epoch": 0.1504375,
      "grad_norm": 0.697338879108429,
      "learning_rate": 0.00028431143730002083,
      "loss": 3.9714,
      "step": 72210
    },
    {
      "epoch": 0.15045833333333333,
      "grad_norm": 0.9458749294281006,
      "learning_rate": 0.0002843070475537319,
      "loss": 3.8303,
      "step": 72220
    },
    {
      "epoch": 0.15047916666666666,
      "grad_norm": 0.7465956211090088,
      "learning_rate": 0.0002843026572272897,
      "loss": 3.9151,
      "step": 72230
    },
    {
      "epoch": 0.1505,
      "grad_norm": 0.8416056632995605,
      "learning_rate": 0.0002842982663207132,
      "loss": 3.9581,
      "step": 72240
    },
    {
      "epoch": 0.15052083333333333,
      "grad_norm": 0.8168357014656067,
      "learning_rate": 0.0002842938748340213,
      "loss": 3.9749,
      "step": 72250
    },
    {
      "epoch": 0.15054166666666666,
      "grad_norm": 0.8974773287773132,
      "learning_rate": 0.000284289482767233,
      "loss": 3.9778,
      "step": 72260
    },
    {
      "epoch": 0.1505625,
      "grad_norm": 0.7147213220596313,
      "learning_rate": 0.0002842850901203674,
      "loss": 4.0194,
      "step": 72270
    },
    {
      "epoch": 0.15058333333333335,
      "grad_norm": 0.8465138673782349,
      "learning_rate": 0.00028428069689344327,
      "loss": 4.0292,
      "step": 72280
    },
    {
      "epoch": 0.15060416666666668,
      "grad_norm": 0.8558012843132019,
      "learning_rate": 0.0002842763030864797,
      "loss": 3.936,
      "step": 72290
    },
    {
      "epoch": 0.150625,
      "grad_norm": 0.983116626739502,
      "learning_rate": 0.0002842719086994957,
      "loss": 4.0686,
      "step": 72300
    },
    {
      "epoch": 0.15064583333333334,
      "grad_norm": 0.7522895932197571,
      "learning_rate": 0.00028426751373251014,
      "loss": 4.0658,
      "step": 72310
    },
    {
      "epoch": 0.15066666666666667,
      "grad_norm": 0.7169217467308044,
      "learning_rate": 0.0002842631181855421,
      "loss": 4.1575,
      "step": 72320
    },
    {
      "epoch": 0.1506875,
      "grad_norm": 0.7256879806518555,
      "learning_rate": 0.0002842587220586105,
      "loss": 4.0786,
      "step": 72330
    },
    {
      "epoch": 0.15070833333333333,
      "grad_norm": 0.7191252708435059,
      "learning_rate": 0.00028425432535173444,
      "loss": 3.9841,
      "step": 72340
    },
    {
      "epoch": 0.15072916666666666,
      "grad_norm": 0.7323718070983887,
      "learning_rate": 0.0002842499280649328,
      "loss": 4.068,
      "step": 72350
    },
    {
      "epoch": 0.15075,
      "grad_norm": 0.7600184082984924,
      "learning_rate": 0.00028424553019822454,
      "loss": 3.9458,
      "step": 72360
    },
    {
      "epoch": 0.15077083333333333,
      "grad_norm": 0.8027377724647522,
      "learning_rate": 0.00028424113175162883,
      "loss": 4.0308,
      "step": 72370
    },
    {
      "epoch": 0.15079166666666666,
      "grad_norm": 0.8312699794769287,
      "learning_rate": 0.0002842367327251645,
      "loss": 4.0085,
      "step": 72380
    },
    {
      "epoch": 0.1508125,
      "grad_norm": 0.7182160019874573,
      "learning_rate": 0.0002842323331188507,
      "loss": 3.9754,
      "step": 72390
    },
    {
      "epoch": 0.15083333333333335,
      "grad_norm": 0.7611488699913025,
      "learning_rate": 0.00028422793293270625,
      "loss": 4.0225,
      "step": 72400
    },
    {
      "epoch": 0.15085416666666668,
      "grad_norm": 0.7022058367729187,
      "learning_rate": 0.0002842235321667503,
      "loss": 3.9381,
      "step": 72410
    },
    {
      "epoch": 0.150875,
      "grad_norm": 0.7718464136123657,
      "learning_rate": 0.0002842191308210018,
      "loss": 4.0963,
      "step": 72420
    },
    {
      "epoch": 0.15089583333333334,
      "grad_norm": 0.9441313743591309,
      "learning_rate": 0.00028421472889547986,
      "loss": 3.956,
      "step": 72430
    },
    {
      "epoch": 0.15091666666666667,
      "grad_norm": 0.942916214466095,
      "learning_rate": 0.00028421032639020335,
      "loss": 3.9402,
      "step": 72440
    },
    {
      "epoch": 0.1509375,
      "grad_norm": 1.022138237953186,
      "learning_rate": 0.0002842059233051914,
      "loss": 4.0063,
      "step": 72450
    },
    {
      "epoch": 0.15095833333333333,
      "grad_norm": 0.8479210734367371,
      "learning_rate": 0.0002842015196404629,
      "loss": 3.9831,
      "step": 72460
    },
    {
      "epoch": 0.15097916666666666,
      "grad_norm": 1.0297539234161377,
      "learning_rate": 0.00028419711539603705,
      "loss": 4.0513,
      "step": 72470
    },
    {
      "epoch": 0.151,
      "grad_norm": 0.9022752642631531,
      "learning_rate": 0.00028419271057193273,
      "loss": 4.1092,
      "step": 72480
    },
    {
      "epoch": 0.15102083333333333,
      "grad_norm": 1.5635342597961426,
      "learning_rate": 0.00028418830516816905,
      "loss": 3.8363,
      "step": 72490
    },
    {
      "epoch": 0.15104166666666666,
      "grad_norm": 0.9071887731552124,
      "learning_rate": 0.000284183899184765,
      "loss": 3.9169,
      "step": 72500
    },
    {
      "epoch": 0.1510625,
      "grad_norm": 0.7524942755699158,
      "learning_rate": 0.0002841794926217396,
      "loss": 4.0659,
      "step": 72510
    },
    {
      "epoch": 0.15108333333333332,
      "grad_norm": 0.8225988149642944,
      "learning_rate": 0.00028417508547911186,
      "loss": 4.0076,
      "step": 72520
    },
    {
      "epoch": 0.15110416666666668,
      "grad_norm": 0.955308735370636,
      "learning_rate": 0.00028417067775690093,
      "loss": 4.0221,
      "step": 72530
    },
    {
      "epoch": 0.151125,
      "grad_norm": 0.8638079762458801,
      "learning_rate": 0.0002841662694551258,
      "loss": 4.1908,
      "step": 72540
    },
    {
      "epoch": 0.15114583333333334,
      "grad_norm": 0.815079391002655,
      "learning_rate": 0.0002841618605738054,
      "loss": 3.952,
      "step": 72550
    },
    {
      "epoch": 0.15116666666666667,
      "grad_norm": 0.7443315386772156,
      "learning_rate": 0.00028415745111295894,
      "loss": 3.8732,
      "step": 72560
    },
    {
      "epoch": 0.1511875,
      "grad_norm": 0.7739659547805786,
      "learning_rate": 0.0002841530410726054,
      "loss": 4.062,
      "step": 72570
    },
    {
      "epoch": 0.15120833333333333,
      "grad_norm": 0.7999347448348999,
      "learning_rate": 0.0002841486304527638,
      "loss": 4.2184,
      "step": 72580
    },
    {
      "epoch": 0.15122916666666666,
      "grad_norm": 0.8120511174201965,
      "learning_rate": 0.0002841442192534532,
      "loss": 3.885,
      "step": 72590
    },
    {
      "epoch": 0.15125,
      "grad_norm": 0.7557273507118225,
      "learning_rate": 0.00028413980747469267,
      "loss": 3.9144,
      "step": 72600
    },
    {
      "epoch": 0.15127083333333333,
      "grad_norm": 0.7908822894096375,
      "learning_rate": 0.0002841353951165013,
      "loss": 3.8818,
      "step": 72610
    },
    {
      "epoch": 0.15129166666666666,
      "grad_norm": 0.7700543999671936,
      "learning_rate": 0.00028413098217889806,
      "loss": 4.0513,
      "step": 72620
    },
    {
      "epoch": 0.1513125,
      "grad_norm": 0.8138931393623352,
      "learning_rate": 0.0002841265686619021,
      "loss": 3.9867,
      "step": 72630
    },
    {
      "epoch": 0.15133333333333332,
      "grad_norm": 0.7181718945503235,
      "learning_rate": 0.00028412215456553245,
      "loss": 4.0142,
      "step": 72640
    },
    {
      "epoch": 0.15135416666666668,
      "grad_norm": 0.8626682758331299,
      "learning_rate": 0.00028411773988980824,
      "loss": 4.0082,
      "step": 72650
    },
    {
      "epoch": 0.151375,
      "grad_norm": 0.7466697692871094,
      "learning_rate": 0.00028411332463474845,
      "loss": 4.0678,
      "step": 72660
    },
    {
      "epoch": 0.15139583333333334,
      "grad_norm": 0.8079784512519836,
      "learning_rate": 0.0002841089088003721,
      "loss": 3.9889,
      "step": 72670
    },
    {
      "epoch": 0.15141666666666667,
      "grad_norm": 0.7213324904441833,
      "learning_rate": 0.00028410449238669845,
      "loss": 3.9646,
      "step": 72680
    },
    {
      "epoch": 0.1514375,
      "grad_norm": 0.7599303722381592,
      "learning_rate": 0.00028410007539374644,
      "loss": 4.1372,
      "step": 72690
    },
    {
      "epoch": 0.15145833333333333,
      "grad_norm": 0.7314761877059937,
      "learning_rate": 0.0002840956578215352,
      "loss": 4.177,
      "step": 72700
    },
    {
      "epoch": 0.15147916666666666,
      "grad_norm": 0.9583154320716858,
      "learning_rate": 0.0002840912396700838,
      "loss": 4.1015,
      "step": 72710
    },
    {
      "epoch": 0.1515,
      "grad_norm": 0.8020080327987671,
      "learning_rate": 0.0002840868209394113,
      "loss": 4.0157,
      "step": 72720
    },
    {
      "epoch": 0.15152083333333333,
      "grad_norm": 0.7528849244117737,
      "learning_rate": 0.0002840824016295368,
      "loss": 3.9454,
      "step": 72730
    },
    {
      "epoch": 0.15154166666666666,
      "grad_norm": 0.9540367722511292,
      "learning_rate": 0.0002840779817404794,
      "loss": 3.8685,
      "step": 72740
    },
    {
      "epoch": 0.1515625,
      "grad_norm": 0.8045822978019714,
      "learning_rate": 0.00028407356127225825,
      "loss": 4.0676,
      "step": 72750
    },
    {
      "epoch": 0.15158333333333332,
      "grad_norm": 0.709798276424408,
      "learning_rate": 0.0002840691402248923,
      "loss": 4.0525,
      "step": 72760
    },
    {
      "epoch": 0.15160416666666668,
      "grad_norm": 0.905811607837677,
      "learning_rate": 0.00028406471859840083,
      "loss": 4.1315,
      "step": 72770
    },
    {
      "epoch": 0.151625,
      "grad_norm": 0.7818454504013062,
      "learning_rate": 0.00028406029639280276,
      "loss": 3.9897,
      "step": 72780
    },
    {
      "epoch": 0.15164583333333334,
      "grad_norm": 0.7797512412071228,
      "learning_rate": 0.0002840558736081173,
      "loss": 4.0339,
      "step": 72790
    },
    {
      "epoch": 0.15166666666666667,
      "grad_norm": 0.9299226999282837,
      "learning_rate": 0.00028405145024436356,
      "loss": 3.8646,
      "step": 72800
    },
    {
      "epoch": 0.1516875,
      "grad_norm": 0.8420463800430298,
      "learning_rate": 0.00028404702630156054,
      "loss": 4.0367,
      "step": 72810
    },
    {
      "epoch": 0.15170833333333333,
      "grad_norm": 0.8580852746963501,
      "learning_rate": 0.0002840426017797275,
      "loss": 3.9131,
      "step": 72820
    },
    {
      "epoch": 0.15172916666666666,
      "grad_norm": 0.7600605487823486,
      "learning_rate": 0.00028403817667888346,
      "loss": 3.9144,
      "step": 72830
    },
    {
      "epoch": 0.15175,
      "grad_norm": 0.9438735246658325,
      "learning_rate": 0.0002840337509990475,
      "loss": 4.0707,
      "step": 72840
    },
    {
      "epoch": 0.15177083333333333,
      "grad_norm": 0.7981035709381104,
      "learning_rate": 0.0002840293247402388,
      "loss": 3.9633,
      "step": 72850
    },
    {
      "epoch": 0.15179166666666666,
      "grad_norm": 0.7321599125862122,
      "learning_rate": 0.0002840248979024765,
      "loss": 4.0976,
      "step": 72860
    },
    {
      "epoch": 0.1518125,
      "grad_norm": 0.743794858455658,
      "learning_rate": 0.00028402047048577974,
      "loss": 3.9909,
      "step": 72870
    },
    {
      "epoch": 0.15183333333333332,
      "grad_norm": 0.7463403940200806,
      "learning_rate": 0.0002840160424901676,
      "loss": 3.9713,
      "step": 72880
    },
    {
      "epoch": 0.15185416666666668,
      "grad_norm": 0.7467679977416992,
      "learning_rate": 0.00028401161391565906,
      "loss": 3.9249,
      "step": 72890
    },
    {
      "epoch": 0.151875,
      "grad_norm": 0.7973138093948364,
      "learning_rate": 0.00028400718476227353,
      "loss": 4.0584,
      "step": 72900
    },
    {
      "epoch": 0.15189583333333334,
      "grad_norm": 0.6751752495765686,
      "learning_rate": 0.00028400275503003,
      "loss": 3.9658,
      "step": 72910
    },
    {
      "epoch": 0.15191666666666667,
      "grad_norm": 0.7750449180603027,
      "learning_rate": 0.0002839983247189475,
      "loss": 4.0311,
      "step": 72920
    },
    {
      "epoch": 0.1519375,
      "grad_norm": 0.8871482610702515,
      "learning_rate": 0.00028399389382904535,
      "loss": 3.9979,
      "step": 72930
    },
    {
      "epoch": 0.15195833333333333,
      "grad_norm": 0.7578150629997253,
      "learning_rate": 0.0002839894623603426,
      "loss": 3.9,
      "step": 72940
    },
    {
      "epoch": 0.15197916666666667,
      "grad_norm": 0.7444786429405212,
      "learning_rate": 0.00028398503031285845,
      "loss": 4.0309,
      "step": 72950
    },
    {
      "epoch": 0.152,
      "grad_norm": 0.7813825011253357,
      "learning_rate": 0.00028398059768661204,
      "loss": 4.0679,
      "step": 72960
    },
    {
      "epoch": 0.15202083333333333,
      "grad_norm": 0.7288935780525208,
      "learning_rate": 0.00028397616448162235,
      "loss": 4.0372,
      "step": 72970
    },
    {
      "epoch": 0.15204166666666666,
      "grad_norm": 0.765454113483429,
      "learning_rate": 0.00028397173069790875,
      "loss": 3.9429,
      "step": 72980
    },
    {
      "epoch": 0.1520625,
      "grad_norm": 0.8828328847885132,
      "learning_rate": 0.00028396729633549026,
      "loss": 4.0985,
      "step": 72990
    },
    {
      "epoch": 0.15208333333333332,
      "grad_norm": 0.8802688717842102,
      "learning_rate": 0.0002839628613943861,
      "loss": 3.9756,
      "step": 73000
    },
    {
      "epoch": 0.15208333333333332,
      "eval_loss": 4.289035797119141,
      "eval_runtime": 9.6587,
      "eval_samples_per_second": 1.035,
      "eval_steps_per_second": 0.311,
      "step": 73000
    },
    {
      "epoch": 0.15210416666666668,
      "grad_norm": 0.7039880156517029,
      "learning_rate": 0.0002839584258746154,
      "loss": 3.9436,
      "step": 73010
    },
    {
      "epoch": 0.152125,
      "grad_norm": 0.772083580493927,
      "learning_rate": 0.00028395398977619735,
      "loss": 3.9297,
      "step": 73020
    },
    {
      "epoch": 0.15214583333333334,
      "grad_norm": 0.9898645281791687,
      "learning_rate": 0.0002839495530991511,
      "loss": 4.1193,
      "step": 73030
    },
    {
      "epoch": 0.15216666666666667,
      "grad_norm": 0.768926203250885,
      "learning_rate": 0.0002839451158434958,
      "loss": 4.0435,
      "step": 73040
    },
    {
      "epoch": 0.1521875,
      "grad_norm": 0.7805061340332031,
      "learning_rate": 0.00028394067800925057,
      "loss": 3.8929,
      "step": 73050
    },
    {
      "epoch": 0.15220833333333333,
      "grad_norm": 0.7719686627388,
      "learning_rate": 0.0002839362395964346,
      "loss": 3.7854,
      "step": 73060
    },
    {
      "epoch": 0.15222916666666667,
      "grad_norm": 0.8028059005737305,
      "learning_rate": 0.0002839318006050672,
      "loss": 3.9693,
      "step": 73070
    },
    {
      "epoch": 0.15225,
      "grad_norm": 0.8585761189460754,
      "learning_rate": 0.0002839273610351674,
      "loss": 3.9051,
      "step": 73080
    },
    {
      "epoch": 0.15227083333333333,
      "grad_norm": 0.7626745104789734,
      "learning_rate": 0.00028392292088675437,
      "loss": 3.9207,
      "step": 73090
    },
    {
      "epoch": 0.15229166666666666,
      "grad_norm": 0.7298381924629211,
      "learning_rate": 0.0002839184801598473,
      "loss": 4.0438,
      "step": 73100
    },
    {
      "epoch": 0.1523125,
      "grad_norm": 0.8463944792747498,
      "learning_rate": 0.0002839140388544655,
      "loss": 3.9336,
      "step": 73110
    },
    {
      "epoch": 0.15233333333333332,
      "grad_norm": 0.7844811081886292,
      "learning_rate": 0.000283909596970628,
      "loss": 3.9378,
      "step": 73120
    },
    {
      "epoch": 0.15235416666666668,
      "grad_norm": 0.8684730529785156,
      "learning_rate": 0.000283905154508354,
      "loss": 3.6447,
      "step": 73130
    },
    {
      "epoch": 0.152375,
      "grad_norm": 0.7893691658973694,
      "learning_rate": 0.0002839007114676628,
      "loss": 3.9233,
      "step": 73140
    },
    {
      "epoch": 0.15239583333333334,
      "grad_norm": 0.7345757484436035,
      "learning_rate": 0.00028389626784857357,
      "loss": 3.8923,
      "step": 73150
    },
    {
      "epoch": 0.15241666666666667,
      "grad_norm": 0.9433168172836304,
      "learning_rate": 0.0002838918236511054,
      "loss": 4.068,
      "step": 73160
    },
    {
      "epoch": 0.1524375,
      "grad_norm": 0.8687768578529358,
      "learning_rate": 0.00028388737887527753,
      "loss": 4.1145,
      "step": 73170
    },
    {
      "epoch": 0.15245833333333333,
      "grad_norm": 0.8037504553794861,
      "learning_rate": 0.00028388293352110927,
      "loss": 3.8816,
      "step": 73180
    },
    {
      "epoch": 0.15247916666666667,
      "grad_norm": 0.8040510416030884,
      "learning_rate": 0.0002838784875886196,
      "loss": 4.0265,
      "step": 73190
    },
    {
      "epoch": 0.1525,
      "grad_norm": 0.8467494249343872,
      "learning_rate": 0.000283874041077828,
      "loss": 3.9374,
      "step": 73200
    },
    {
      "epoch": 0.15252083333333333,
      "grad_norm": 0.7648420929908752,
      "learning_rate": 0.0002838695939887535,
      "loss": 3.9582,
      "step": 73210
    },
    {
      "epoch": 0.15254166666666666,
      "grad_norm": 0.7715051770210266,
      "learning_rate": 0.0002838651463214152,
      "loss": 4.0835,
      "step": 73220
    },
    {
      "epoch": 0.1525625,
      "grad_norm": 0.7688460350036621,
      "learning_rate": 0.00028386069807583264,
      "loss": 4.0062,
      "step": 73230
    },
    {
      "epoch": 0.15258333333333332,
      "grad_norm": 0.7146083116531372,
      "learning_rate": 0.00028385624925202476,
      "loss": 4.0293,
      "step": 73240
    },
    {
      "epoch": 0.15260416666666668,
      "grad_norm": 0.7722119092941284,
      "learning_rate": 0.0002838517998500108,
      "loss": 3.9419,
      "step": 73250
    },
    {
      "epoch": 0.152625,
      "grad_norm": 0.7356873154640198,
      "learning_rate": 0.0002838473498698102,
      "loss": 4.12,
      "step": 73260
    },
    {
      "epoch": 0.15264583333333334,
      "grad_norm": 0.7520571351051331,
      "learning_rate": 0.00028384289931144196,
      "loss": 3.9967,
      "step": 73270
    },
    {
      "epoch": 0.15266666666666667,
      "grad_norm": 0.6952807903289795,
      "learning_rate": 0.00028383844817492536,
      "loss": 4.2289,
      "step": 73280
    },
    {
      "epoch": 0.1526875,
      "grad_norm": 0.8427094221115112,
      "learning_rate": 0.0002838339964602797,
      "loss": 3.9082,
      "step": 73290
    },
    {
      "epoch": 0.15270833333333333,
      "grad_norm": 0.827663242816925,
      "learning_rate": 0.00028382954416752407,
      "loss": 4.0389,
      "step": 73300
    },
    {
      "epoch": 0.15272916666666667,
      "grad_norm": 0.9176377654075623,
      "learning_rate": 0.0002838250912966778,
      "loss": 4.1204,
      "step": 73310
    },
    {
      "epoch": 0.15275,
      "grad_norm": 0.8079107403755188,
      "learning_rate": 0.00028382063784776013,
      "loss": 4.0683,
      "step": 73320
    },
    {
      "epoch": 0.15277083333333333,
      "grad_norm": 0.7335153222084045,
      "learning_rate": 0.00028381618382079024,
      "loss": 4.0067,
      "step": 73330
    },
    {
      "epoch": 0.15279166666666666,
      "grad_norm": 0.7644971013069153,
      "learning_rate": 0.00028381172921578744,
      "loss": 3.9507,
      "step": 73340
    },
    {
      "epoch": 0.1528125,
      "grad_norm": 0.8006301522254944,
      "learning_rate": 0.00028380727403277094,
      "loss": 3.9322,
      "step": 73350
    },
    {
      "epoch": 0.15283333333333332,
      "grad_norm": 0.7938095927238464,
      "learning_rate": 0.00028380281827175997,
      "loss": 4.041,
      "step": 73360
    },
    {
      "epoch": 0.15285416666666668,
      "grad_norm": 0.8033451437950134,
      "learning_rate": 0.00028379836193277377,
      "loss": 3.88,
      "step": 73370
    },
    {
      "epoch": 0.152875,
      "grad_norm": 0.7751308083534241,
      "learning_rate": 0.00028379390501583166,
      "loss": 4.0363,
      "step": 73380
    },
    {
      "epoch": 0.15289583333333334,
      "grad_norm": 0.7850701212882996,
      "learning_rate": 0.0002837894475209528,
      "loss": 4.0163,
      "step": 73390
    },
    {
      "epoch": 0.15291666666666667,
      "grad_norm": 0.7530560493469238,
      "learning_rate": 0.00028378498944815647,
      "loss": 3.9799,
      "step": 73400
    },
    {
      "epoch": 0.1529375,
      "grad_norm": 0.8355073928833008,
      "learning_rate": 0.00028378053079746194,
      "loss": 4.0634,
      "step": 73410
    },
    {
      "epoch": 0.15295833333333334,
      "grad_norm": 0.7835350036621094,
      "learning_rate": 0.00028377607156888847,
      "loss": 4.095,
      "step": 73420
    },
    {
      "epoch": 0.15297916666666667,
      "grad_norm": 0.7210692167282104,
      "learning_rate": 0.0002837716117624554,
      "loss": 3.8746,
      "step": 73430
    },
    {
      "epoch": 0.153,
      "grad_norm": 0.8039471507072449,
      "learning_rate": 0.00028376715137818184,
      "loss": 3.9442,
      "step": 73440
    },
    {
      "epoch": 0.15302083333333333,
      "grad_norm": 0.7650304436683655,
      "learning_rate": 0.00028376269041608716,
      "loss": 4.0332,
      "step": 73450
    },
    {
      "epoch": 0.15304166666666666,
      "grad_norm": 0.7592710852622986,
      "learning_rate": 0.00028375822887619057,
      "loss": 3.9801,
      "step": 73460
    },
    {
      "epoch": 0.1530625,
      "grad_norm": 0.8189033269882202,
      "learning_rate": 0.0002837537667585114,
      "loss": 4.2142,
      "step": 73470
    },
    {
      "epoch": 0.15308333333333332,
      "grad_norm": 0.7113751173019409,
      "learning_rate": 0.00028374930406306896,
      "loss": 4.0691,
      "step": 73480
    },
    {
      "epoch": 0.15310416666666668,
      "grad_norm": 0.7578450441360474,
      "learning_rate": 0.0002837448407898824,
      "loss": 3.9702,
      "step": 73490
    },
    {
      "epoch": 0.153125,
      "grad_norm": 0.7560532093048096,
      "learning_rate": 0.0002837403769389711,
      "loss": 3.9826,
      "step": 73500
    },
    {
      "epoch": 0.15314583333333334,
      "grad_norm": 0.8160309791564941,
      "learning_rate": 0.00028373591251035425,
      "loss": 4.1464,
      "step": 73510
    },
    {
      "epoch": 0.15316666666666667,
      "grad_norm": 0.7979289293289185,
      "learning_rate": 0.00028373144750405124,
      "loss": 4.2059,
      "step": 73520
    },
    {
      "epoch": 0.1531875,
      "grad_norm": 1.3935414552688599,
      "learning_rate": 0.0002837269819200813,
      "loss": 3.9896,
      "step": 73530
    },
    {
      "epoch": 0.15320833333333334,
      "grad_norm": 0.7592385411262512,
      "learning_rate": 0.00028372251575846375,
      "loss": 3.8376,
      "step": 73540
    },
    {
      "epoch": 0.15322916666666667,
      "grad_norm": 0.9285362362861633,
      "learning_rate": 0.00028371804901921785,
      "loss": 4.0821,
      "step": 73550
    },
    {
      "epoch": 0.15325,
      "grad_norm": 0.8936423063278198,
      "learning_rate": 0.0002837135817023629,
      "loss": 3.8755,
      "step": 73560
    },
    {
      "epoch": 0.15327083333333333,
      "grad_norm": 0.7954498529434204,
      "learning_rate": 0.0002837091138079182,
      "loss": 3.8762,
      "step": 73570
    },
    {
      "epoch": 0.15329166666666666,
      "grad_norm": 0.8194359540939331,
      "learning_rate": 0.0002837046453359031,
      "loss": 3.857,
      "step": 73580
    },
    {
      "epoch": 0.1533125,
      "grad_norm": 0.8303548097610474,
      "learning_rate": 0.00028370017628633683,
      "loss": 3.9694,
      "step": 73590
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 0.7597904205322266,
      "learning_rate": 0.0002836957066592387,
      "loss": 3.8603,
      "step": 73600
    },
    {
      "epoch": 0.15335416666666668,
      "grad_norm": 0.7998079061508179,
      "learning_rate": 0.00028369123645462805,
      "loss": 4.0151,
      "step": 73610
    },
    {
      "epoch": 0.153375,
      "grad_norm": 0.7875493764877319,
      "learning_rate": 0.0002836867656725242,
      "loss": 4.031,
      "step": 73620
    },
    {
      "epoch": 0.15339583333333334,
      "grad_norm": 0.7740491032600403,
      "learning_rate": 0.0002836822943129464,
      "loss": 3.9649,
      "step": 73630
    },
    {
      "epoch": 0.15341666666666667,
      "grad_norm": 0.8287675380706787,
      "learning_rate": 0.00028367782237591403,
      "loss": 3.9921,
      "step": 73640
    },
    {
      "epoch": 0.1534375,
      "grad_norm": 0.8252224326133728,
      "learning_rate": 0.00028367334986144637,
      "loss": 3.8955,
      "step": 73650
    },
    {
      "epoch": 0.15345833333333334,
      "grad_norm": 0.8693181276321411,
      "learning_rate": 0.00028366887676956276,
      "loss": 4.1401,
      "step": 73660
    },
    {
      "epoch": 0.15347916666666667,
      "grad_norm": 0.8157568573951721,
      "learning_rate": 0.00028366440310028247,
      "loss": 3.9597,
      "step": 73670
    },
    {
      "epoch": 0.1535,
      "grad_norm": 0.822344183921814,
      "learning_rate": 0.00028365992885362495,
      "loss": 3.9391,
      "step": 73680
    },
    {
      "epoch": 0.15352083333333333,
      "grad_norm": 0.9049589037895203,
      "learning_rate": 0.0002836554540296094,
      "loss": 3.9783,
      "step": 73690
    },
    {
      "epoch": 0.15354166666666666,
      "grad_norm": 0.7346199750900269,
      "learning_rate": 0.00028365097862825513,
      "loss": 3.8874,
      "step": 73700
    },
    {
      "epoch": 0.1535625,
      "grad_norm": 0.8062243461608887,
      "learning_rate": 0.00028364650264958165,
      "loss": 4.1499,
      "step": 73710
    },
    {
      "epoch": 0.15358333333333332,
      "grad_norm": 0.7193365693092346,
      "learning_rate": 0.0002836420260936081,
      "loss": 4.0235,
      "step": 73720
    },
    {
      "epoch": 0.15360416666666668,
      "grad_norm": 0.787533164024353,
      "learning_rate": 0.00028363754896035395,
      "loss": 3.983,
      "step": 73730
    },
    {
      "epoch": 0.153625,
      "grad_norm": 0.8192620873451233,
      "learning_rate": 0.0002836330712498384,
      "loss": 4.0264,
      "step": 73740
    },
    {
      "epoch": 0.15364583333333334,
      "grad_norm": 0.709965705871582,
      "learning_rate": 0.00028362859296208093,
      "loss": 4.0014,
      "step": 73750
    },
    {
      "epoch": 0.15366666666666667,
      "grad_norm": 0.6903032660484314,
      "learning_rate": 0.00028362411409710086,
      "loss": 4.1528,
      "step": 73760
    },
    {
      "epoch": 0.1536875,
      "grad_norm": 0.8671177625656128,
      "learning_rate": 0.00028361963465491747,
      "loss": 3.7804,
      "step": 73770
    },
    {
      "epoch": 0.15370833333333334,
      "grad_norm": 0.7458586692810059,
      "learning_rate": 0.00028361515463555016,
      "loss": 4.028,
      "step": 73780
    },
    {
      "epoch": 0.15372916666666667,
      "grad_norm": 0.7680201530456543,
      "learning_rate": 0.0002836106740390183,
      "loss": 4.161,
      "step": 73790
    },
    {
      "epoch": 0.15375,
      "grad_norm": 0.8758038282394409,
      "learning_rate": 0.0002836061928653412,
      "loss": 3.9732,
      "step": 73800
    },
    {
      "epoch": 0.15377083333333333,
      "grad_norm": 0.7092270255088806,
      "learning_rate": 0.00028360171111453816,
      "loss": 3.9179,
      "step": 73810
    },
    {
      "epoch": 0.15379166666666666,
      "grad_norm": 0.7810970544815063,
      "learning_rate": 0.0002835972287866287,
      "loss": 4.0487,
      "step": 73820
    },
    {
      "epoch": 0.1538125,
      "grad_norm": 0.7219531536102295,
      "learning_rate": 0.00028359274588163206,
      "loss": 4.0425,
      "step": 73830
    },
    {
      "epoch": 0.15383333333333332,
      "grad_norm": 0.6883900165557861,
      "learning_rate": 0.00028358826239956766,
      "loss": 3.9364,
      "step": 73840
    },
    {
      "epoch": 0.15385416666666665,
      "grad_norm": 0.6988272070884705,
      "learning_rate": 0.0002835837783404548,
      "loss": 3.9364,
      "step": 73850
    },
    {
      "epoch": 0.153875,
      "grad_norm": 0.6967785954475403,
      "learning_rate": 0.00028357929370431294,
      "loss": 4.1574,
      "step": 73860
    },
    {
      "epoch": 0.15389583333333334,
      "grad_norm": 0.832975447177887,
      "learning_rate": 0.0002835748084911614,
      "loss": 3.9732,
      "step": 73870
    },
    {
      "epoch": 0.15391666666666667,
      "grad_norm": 0.8089030981063843,
      "learning_rate": 0.0002835703227010196,
      "loss": 4.0968,
      "step": 73880
    },
    {
      "epoch": 0.1539375,
      "grad_norm": 0.7326657772064209,
      "learning_rate": 0.00028356583633390675,
      "loss": 4.0256,
      "step": 73890
    },
    {
      "epoch": 0.15395833333333334,
      "grad_norm": 0.6976575255393982,
      "learning_rate": 0.00028356134938984246,
      "loss": 4.1072,
      "step": 73900
    },
    {
      "epoch": 0.15397916666666667,
      "grad_norm": 0.8250044584274292,
      "learning_rate": 0.00028355686186884595,
      "loss": 4.1239,
      "step": 73910
    },
    {
      "epoch": 0.154,
      "grad_norm": 0.8209596872329712,
      "learning_rate": 0.0002835523737709367,
      "loss": 3.9264,
      "step": 73920
    },
    {
      "epoch": 0.15402083333333333,
      "grad_norm": 0.7477697730064392,
      "learning_rate": 0.000283547885096134,
      "loss": 3.9181,
      "step": 73930
    },
    {
      "epoch": 0.15404166666666666,
      "grad_norm": 0.708919107913971,
      "learning_rate": 0.0002835433958444574,
      "loss": 3.8325,
      "step": 73940
    },
    {
      "epoch": 0.1540625,
      "grad_norm": 0.8785334229469299,
      "learning_rate": 0.00028353890601592614,
      "loss": 3.9662,
      "step": 73950
    },
    {
      "epoch": 0.15408333333333332,
      "grad_norm": 0.7577531933784485,
      "learning_rate": 0.00028353441561055964,
      "loss": 3.7741,
      "step": 73960
    },
    {
      "epoch": 0.15410416666666665,
      "grad_norm": 0.7160803079605103,
      "learning_rate": 0.00028352992462837736,
      "loss": 3.947,
      "step": 73970
    },
    {
      "epoch": 0.154125,
      "grad_norm": 0.7292088270187378,
      "learning_rate": 0.0002835254330693986,
      "loss": 4.0908,
      "step": 73980
    },
    {
      "epoch": 0.15414583333333334,
      "grad_norm": 0.671909749507904,
      "learning_rate": 0.0002835209409336429,
      "loss": 4.0251,
      "step": 73990
    },
    {
      "epoch": 0.15416666666666667,
      "grad_norm": 0.6892721652984619,
      "learning_rate": 0.0002835164482211295,
      "loss": 4.0327,
      "step": 74000
    },
    {
      "epoch": 0.15416666666666667,
      "eval_loss": 4.283780574798584,
      "eval_runtime": 10.0265,
      "eval_samples_per_second": 0.997,
      "eval_steps_per_second": 0.299,
      "step": 74000
    },
    {
      "epoch": 0.1541875,
      "grad_norm": 0.7777121067047119,
      "learning_rate": 0.00028351195493187795,
      "loss": 3.895,
      "step": 74010
    },
    {
      "epoch": 0.15420833333333334,
      "grad_norm": 0.733920693397522,
      "learning_rate": 0.00028350746106590763,
      "loss": 4.0647,
      "step": 74020
    },
    {
      "epoch": 0.15422916666666667,
      "grad_norm": 0.6507008671760559,
      "learning_rate": 0.00028350296662323787,
      "loss": 3.8509,
      "step": 74030
    },
    {
      "epoch": 0.15425,
      "grad_norm": 0.833376944065094,
      "learning_rate": 0.0002834984716038882,
      "loss": 4.0186,
      "step": 74040
    },
    {
      "epoch": 0.15427083333333333,
      "grad_norm": 0.8900867104530334,
      "learning_rate": 0.00028349397600787793,
      "loss": 4.1141,
      "step": 74050
    },
    {
      "epoch": 0.15429166666666666,
      "grad_norm": 0.7419366836547852,
      "learning_rate": 0.0002834894798352265,
      "loss": 4.0453,
      "step": 74060
    },
    {
      "epoch": 0.1543125,
      "grad_norm": 0.6885731220245361,
      "learning_rate": 0.0002834849830859534,
      "loss": 4.1278,
      "step": 74070
    },
    {
      "epoch": 0.15433333333333332,
      "grad_norm": 0.9258619546890259,
      "learning_rate": 0.000283480485760078,
      "loss": 3.8765,
      "step": 74080
    },
    {
      "epoch": 0.15435416666666665,
      "grad_norm": 0.7779691219329834,
      "learning_rate": 0.00028347598785761975,
      "loss": 4.0027,
      "step": 74090
    },
    {
      "epoch": 0.154375,
      "grad_norm": 0.8266304135322571,
      "learning_rate": 0.000283471489378598,
      "loss": 3.8708,
      "step": 74100
    },
    {
      "epoch": 0.15439583333333334,
      "grad_norm": 0.7437942028045654,
      "learning_rate": 0.0002834669903230323,
      "loss": 3.6922,
      "step": 74110
    },
    {
      "epoch": 0.15441666666666667,
      "grad_norm": 0.7675392031669617,
      "learning_rate": 0.00028346249069094204,
      "loss": 4.0626,
      "step": 74120
    },
    {
      "epoch": 0.1544375,
      "grad_norm": 0.7813106775283813,
      "learning_rate": 0.0002834579904823467,
      "loss": 4.1491,
      "step": 74130
    },
    {
      "epoch": 0.15445833333333334,
      "grad_norm": 0.7985984086990356,
      "learning_rate": 0.00028345348969726556,
      "loss": 4.0049,
      "step": 74140
    },
    {
      "epoch": 0.15447916666666667,
      "grad_norm": 0.7868517637252808,
      "learning_rate": 0.00028344898833571817,
      "loss": 4.0591,
      "step": 74150
    },
    {
      "epoch": 0.1545,
      "grad_norm": 0.798766553401947,
      "learning_rate": 0.000283444486397724,
      "loss": 3.9644,
      "step": 74160
    },
    {
      "epoch": 0.15452083333333333,
      "grad_norm": 0.7904515862464905,
      "learning_rate": 0.0002834399838833025,
      "loss": 4.0561,
      "step": 74170
    },
    {
      "epoch": 0.15454166666666666,
      "grad_norm": 0.8406566977500916,
      "learning_rate": 0.00028343548079247307,
      "loss": 3.8442,
      "step": 74180
    },
    {
      "epoch": 0.1545625,
      "grad_norm": 0.8060728311538696,
      "learning_rate": 0.0002834309771252552,
      "loss": 3.849,
      "step": 74190
    },
    {
      "epoch": 0.15458333333333332,
      "grad_norm": 0.741301953792572,
      "learning_rate": 0.0002834264728816683,
      "loss": 4.0383,
      "step": 74200
    },
    {
      "epoch": 0.15460416666666665,
      "grad_norm": 0.6978849172592163,
      "learning_rate": 0.00028342196806173186,
      "loss": 3.8633,
      "step": 74210
    },
    {
      "epoch": 0.154625,
      "grad_norm": 0.861434280872345,
      "learning_rate": 0.00028341746266546535,
      "loss": 4.0145,
      "step": 74220
    },
    {
      "epoch": 0.15464583333333334,
      "grad_norm": 0.6940504312515259,
      "learning_rate": 0.0002834129566928882,
      "loss": 4.129,
      "step": 74230
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 0.7726131081581116,
      "learning_rate": 0.00028340845014401985,
      "loss": 3.9589,
      "step": 74240
    },
    {
      "epoch": 0.1546875,
      "grad_norm": 0.7230958342552185,
      "learning_rate": 0.00028340394301887983,
      "loss": 3.9849,
      "step": 74250
    },
    {
      "epoch": 0.15470833333333334,
      "grad_norm": 0.839603841304779,
      "learning_rate": 0.0002833994353174876,
      "loss": 3.9395,
      "step": 74260
    },
    {
      "epoch": 0.15472916666666667,
      "grad_norm": 0.852306067943573,
      "learning_rate": 0.0002833949270398626,
      "loss": 3.8796,
      "step": 74270
    },
    {
      "epoch": 0.15475,
      "grad_norm": 0.7826898097991943,
      "learning_rate": 0.0002833904181860243,
      "loss": 3.9891,
      "step": 74280
    },
    {
      "epoch": 0.15477083333333333,
      "grad_norm": 0.7693696022033691,
      "learning_rate": 0.00028338590875599215,
      "loss": 4.034,
      "step": 74290
    },
    {
      "epoch": 0.15479166666666666,
      "grad_norm": 1.066893458366394,
      "learning_rate": 0.0002833813987497857,
      "loss": 4.0199,
      "step": 74300
    },
    {
      "epoch": 0.1548125,
      "grad_norm": 0.8082525134086609,
      "learning_rate": 0.00028337688816742443,
      "loss": 4.0038,
      "step": 74310
    },
    {
      "epoch": 0.15483333333333332,
      "grad_norm": 0.7809162735939026,
      "learning_rate": 0.0002833723770089278,
      "loss": 3.8246,
      "step": 74320
    },
    {
      "epoch": 0.15485416666666665,
      "grad_norm": 0.7808398008346558,
      "learning_rate": 0.00028336786527431533,
      "loss": 3.7959,
      "step": 74330
    },
    {
      "epoch": 0.154875,
      "grad_norm": 0.764299750328064,
      "learning_rate": 0.00028336335296360644,
      "loss": 3.9448,
      "step": 74340
    },
    {
      "epoch": 0.15489583333333334,
      "grad_norm": 0.9053197503089905,
      "learning_rate": 0.00028335884007682065,
      "loss": 3.8515,
      "step": 74350
    },
    {
      "epoch": 0.15491666666666667,
      "grad_norm": 0.7905935645103455,
      "learning_rate": 0.00028335432661397744,
      "loss": 3.8667,
      "step": 74360
    },
    {
      "epoch": 0.1549375,
      "grad_norm": 0.7395516633987427,
      "learning_rate": 0.00028334981257509636,
      "loss": 4.0472,
      "step": 74370
    },
    {
      "epoch": 0.15495833333333334,
      "grad_norm": 0.7712090015411377,
      "learning_rate": 0.00028334529796019683,
      "loss": 3.9215,
      "step": 74380
    },
    {
      "epoch": 0.15497916666666667,
      "grad_norm": 0.7608568668365479,
      "learning_rate": 0.0002833407827692984,
      "loss": 3.9064,
      "step": 74390
    },
    {
      "epoch": 0.155,
      "grad_norm": 0.8871476054191589,
      "learning_rate": 0.0002833362670024206,
      "loss": 3.8726,
      "step": 74400
    },
    {
      "epoch": 0.15502083333333333,
      "grad_norm": 0.8368592262268066,
      "learning_rate": 0.0002833317506595829,
      "loss": 3.8461,
      "step": 74410
    },
    {
      "epoch": 0.15504166666666666,
      "grad_norm": 0.9319838285446167,
      "learning_rate": 0.00028332723374080475,
      "loss": 3.9123,
      "step": 74420
    },
    {
      "epoch": 0.1550625,
      "grad_norm": 0.8985961079597473,
      "learning_rate": 0.0002833227162461058,
      "loss": 3.9965,
      "step": 74430
    },
    {
      "epoch": 0.15508333333333332,
      "grad_norm": 0.7412881255149841,
      "learning_rate": 0.0002833181981755055,
      "loss": 4.1284,
      "step": 74440
    },
    {
      "epoch": 0.15510416666666665,
      "grad_norm": 0.8004097938537598,
      "learning_rate": 0.00028331367952902326,
      "loss": 3.9482,
      "step": 74450
    },
    {
      "epoch": 0.155125,
      "grad_norm": 0.7659456133842468,
      "learning_rate": 0.0002833091603066788,
      "loss": 3.7329,
      "step": 74460
    },
    {
      "epoch": 0.15514583333333334,
      "grad_norm": 0.9894313216209412,
      "learning_rate": 0.00028330464050849147,
      "loss": 4.0193,
      "step": 74470
    },
    {
      "epoch": 0.15516666666666667,
      "grad_norm": 0.7359451651573181,
      "learning_rate": 0.00028330012013448087,
      "loss": 4.1081,
      "step": 74480
    },
    {
      "epoch": 0.1551875,
      "grad_norm": 0.9135481715202332,
      "learning_rate": 0.00028329559918466654,
      "loss": 3.8511,
      "step": 74490
    },
    {
      "epoch": 0.15520833333333334,
      "grad_norm": 0.8564267158508301,
      "learning_rate": 0.00028329107765906795,
      "loss": 3.7711,
      "step": 74500
    },
    {
      "epoch": 0.15522916666666667,
      "grad_norm": 0.7380326390266418,
      "learning_rate": 0.0002832865555577047,
      "loss": 4.1417,
      "step": 74510
    },
    {
      "epoch": 0.15525,
      "grad_norm": 0.7813717126846313,
      "learning_rate": 0.00028328203288059624,
      "loss": 4.0239,
      "step": 74520
    },
    {
      "epoch": 0.15527083333333333,
      "grad_norm": 0.8706365823745728,
      "learning_rate": 0.0002832775096277622,
      "loss": 3.968,
      "step": 74530
    },
    {
      "epoch": 0.15529166666666666,
      "grad_norm": 0.9258253574371338,
      "learning_rate": 0.00028327298579922203,
      "loss": 3.881,
      "step": 74540
    },
    {
      "epoch": 0.1553125,
      "grad_norm": 0.7382897138595581,
      "learning_rate": 0.00028326846139499533,
      "loss": 3.8864,
      "step": 74550
    },
    {
      "epoch": 0.15533333333333332,
      "grad_norm": 0.7979393005371094,
      "learning_rate": 0.00028326393641510167,
      "loss": 3.9732,
      "step": 74560
    },
    {
      "epoch": 0.15535416666666665,
      "grad_norm": 0.7758294343948364,
      "learning_rate": 0.0002832594108595605,
      "loss": 3.9235,
      "step": 74570
    },
    {
      "epoch": 0.155375,
      "grad_norm": 0.8742675185203552,
      "learning_rate": 0.00028325488472839144,
      "loss": 3.8543,
      "step": 74580
    },
    {
      "epoch": 0.15539583333333334,
      "grad_norm": 0.8914968967437744,
      "learning_rate": 0.00028325035802161406,
      "loss": 4.0674,
      "step": 74590
    },
    {
      "epoch": 0.15541666666666668,
      "grad_norm": 0.726053774356842,
      "learning_rate": 0.00028324583073924785,
      "loss": 4.0089,
      "step": 74600
    },
    {
      "epoch": 0.1554375,
      "grad_norm": 0.7506197094917297,
      "learning_rate": 0.0002832413028813124,
      "loss": 4.052,
      "step": 74610
    },
    {
      "epoch": 0.15545833333333334,
      "grad_norm": 0.8418910503387451,
      "learning_rate": 0.00028323677444782723,
      "loss": 4.0174,
      "step": 74620
    },
    {
      "epoch": 0.15547916666666667,
      "grad_norm": 0.7669274806976318,
      "learning_rate": 0.000283232245438812,
      "loss": 3.9461,
      "step": 74630
    },
    {
      "epoch": 0.1555,
      "grad_norm": 0.9000797867774963,
      "learning_rate": 0.0002832277158542861,
      "loss": 4.0901,
      "step": 74640
    },
    {
      "epoch": 0.15552083333333333,
      "grad_norm": 0.8246632814407349,
      "learning_rate": 0.0002832231856942693,
      "loss": 3.9433,
      "step": 74650
    },
    {
      "epoch": 0.15554166666666666,
      "grad_norm": 0.7363452911376953,
      "learning_rate": 0.000283218654958781,
      "loss": 4.0827,
      "step": 74660
    },
    {
      "epoch": 0.1555625,
      "grad_norm": 0.883378267288208,
      "learning_rate": 0.0002832141236478409,
      "loss": 4.0913,
      "step": 74670
    },
    {
      "epoch": 0.15558333333333332,
      "grad_norm": 0.7422046661376953,
      "learning_rate": 0.0002832095917614685,
      "loss": 3.9332,
      "step": 74680
    },
    {
      "epoch": 0.15560416666666665,
      "grad_norm": 0.7264895439147949,
      "learning_rate": 0.0002832050592996834,
      "loss": 3.9544,
      "step": 74690
    },
    {
      "epoch": 0.155625,
      "grad_norm": 0.8372377157211304,
      "learning_rate": 0.00028320052626250514,
      "loss": 3.9209,
      "step": 74700
    },
    {
      "epoch": 0.15564583333333334,
      "grad_norm": 0.7496258020401001,
      "learning_rate": 0.00028319599264995337,
      "loss": 4.0893,
      "step": 74710
    },
    {
      "epoch": 0.15566666666666668,
      "grad_norm": 0.7789977788925171,
      "learning_rate": 0.0002831914584620476,
      "loss": 3.8135,
      "step": 74720
    },
    {
      "epoch": 0.1556875,
      "grad_norm": 0.8583061695098877,
      "learning_rate": 0.00028318692369880743,
      "loss": 4.1,
      "step": 74730
    },
    {
      "epoch": 0.15570833333333334,
      "grad_norm": 0.8171669244766235,
      "learning_rate": 0.0002831823883602525,
      "loss": 3.9395,
      "step": 74740
    },
    {
      "epoch": 0.15572916666666667,
      "grad_norm": 0.7158638834953308,
      "learning_rate": 0.0002831778524464024,
      "loss": 3.9229,
      "step": 74750
    },
    {
      "epoch": 0.15575,
      "grad_norm": 0.9157170653343201,
      "learning_rate": 0.0002831733159572767,
      "loss": 3.9164,
      "step": 74760
    },
    {
      "epoch": 0.15577083333333333,
      "grad_norm": 0.7919090390205383,
      "learning_rate": 0.00028316877889289493,
      "loss": 3.8648,
      "step": 74770
    },
    {
      "epoch": 0.15579166666666666,
      "grad_norm": 0.7721575498580933,
      "learning_rate": 0.00028316424125327677,
      "loss": 3.8953,
      "step": 74780
    },
    {
      "epoch": 0.1558125,
      "grad_norm": 0.759651243686676,
      "learning_rate": 0.00028315970303844176,
      "loss": 4.0241,
      "step": 74790
    },
    {
      "epoch": 0.15583333333333332,
      "grad_norm": 0.7491286993026733,
      "learning_rate": 0.00028315516424840963,
      "loss": 3.9421,
      "step": 74800
    },
    {
      "epoch": 0.15585416666666665,
      "grad_norm": 0.7453456521034241,
      "learning_rate": 0.00028315062488319984,
      "loss": 3.9273,
      "step": 74810
    },
    {
      "epoch": 0.155875,
      "grad_norm": 0.6912851333618164,
      "learning_rate": 0.000283146084942832,
      "loss": 3.9494,
      "step": 74820
    },
    {
      "epoch": 0.15589583333333334,
      "grad_norm": 0.9785271883010864,
      "learning_rate": 0.00028314154442732586,
      "loss": 3.7434,
      "step": 74830
    },
    {
      "epoch": 0.15591666666666668,
      "grad_norm": 0.7941310405731201,
      "learning_rate": 0.0002831370033367009,
      "loss": 3.8623,
      "step": 74840
    },
    {
      "epoch": 0.1559375,
      "grad_norm": 0.8088726997375488,
      "learning_rate": 0.00028313246167097685,
      "loss": 3.8937,
      "step": 74850
    },
    {
      "epoch": 0.15595833333333334,
      "grad_norm": 0.7639140486717224,
      "learning_rate": 0.0002831279194301732,
      "loss": 3.9745,
      "step": 74860
    },
    {
      "epoch": 0.15597916666666667,
      "grad_norm": 0.8269873857498169,
      "learning_rate": 0.00028312337661430965,
      "loss": 4.0387,
      "step": 74870
    },
    {
      "epoch": 0.156,
      "grad_norm": 0.7784593105316162,
      "learning_rate": 0.0002831188332234058,
      "loss": 4.2092,
      "step": 74880
    },
    {
      "epoch": 0.15602083333333333,
      "grad_norm": 0.7027403712272644,
      "learning_rate": 0.00028311428925748136,
      "loss": 3.8101,
      "step": 74890
    },
    {
      "epoch": 0.15604166666666666,
      "grad_norm": 0.6909337639808655,
      "learning_rate": 0.00028310974471655576,
      "loss": 4.0768,
      "step": 74900
    },
    {
      "epoch": 0.1560625,
      "grad_norm": 0.7203516960144043,
      "learning_rate": 0.0002831051996006488,
      "loss": 3.9196,
      "step": 74910
    },
    {
      "epoch": 0.15608333333333332,
      "grad_norm": 0.7892189621925354,
      "learning_rate": 0.0002831006539097801,
      "loss": 3.9966,
      "step": 74920
    },
    {
      "epoch": 0.15610416666666665,
      "grad_norm": 0.7794607877731323,
      "learning_rate": 0.0002830961076439692,
      "loss": 3.8825,
      "step": 74930
    },
    {
      "epoch": 0.156125,
      "grad_norm": 0.801398515701294,
      "learning_rate": 0.00028309156080323584,
      "loss": 4.1467,
      "step": 74940
    },
    {
      "epoch": 0.15614583333333334,
      "grad_norm": 0.899466872215271,
      "learning_rate": 0.00028308701338759963,
      "loss": 4.0464,
      "step": 74950
    },
    {
      "epoch": 0.15616666666666668,
      "grad_norm": 0.8653557300567627,
      "learning_rate": 0.0002830824653970802,
      "loss": 4.194,
      "step": 74960
    },
    {
      "epoch": 0.1561875,
      "grad_norm": 0.7732663750648499,
      "learning_rate": 0.00028307791683169716,
      "loss": 4.0648,
      "step": 74970
    },
    {
      "epoch": 0.15620833333333334,
      "grad_norm": 0.7247009873390198,
      "learning_rate": 0.0002830733676914702,
      "loss": 3.8168,
      "step": 74980
    },
    {
      "epoch": 0.15622916666666667,
      "grad_norm": 0.8430490493774414,
      "learning_rate": 0.000283068817976419,
      "loss": 4.0307,
      "step": 74990
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.9032727479934692,
      "learning_rate": 0.00028306426768656315,
      "loss": 4.0919,
      "step": 75000
    },
    {
      "epoch": 0.15625,
      "eval_loss": 4.294827461242676,
      "eval_runtime": 10.3173,
      "eval_samples_per_second": 0.969,
      "eval_steps_per_second": 0.291,
      "step": 75000
    },
    {
      "epoch": 0.15627083333333333,
      "grad_norm": 0.7757003307342529,
      "learning_rate": 0.00028305971682192235,
      "loss": 4.1201,
      "step": 75010
    },
    {
      "epoch": 0.15629166666666666,
      "grad_norm": 0.7746261358261108,
      "learning_rate": 0.0002830551653825162,
      "loss": 3.9816,
      "step": 75020
    },
    {
      "epoch": 0.1563125,
      "grad_norm": 0.9182020425796509,
      "learning_rate": 0.0002830506133683645,
      "loss": 4.0319,
      "step": 75030
    },
    {
      "epoch": 0.15633333333333332,
      "grad_norm": 0.7626779675483704,
      "learning_rate": 0.0002830460607794867,
      "loss": 4.0332,
      "step": 75040
    },
    {
      "epoch": 0.15635416666666666,
      "grad_norm": 0.7736157178878784,
      "learning_rate": 0.00028304150761590264,
      "loss": 3.831,
      "step": 75050
    },
    {
      "epoch": 0.156375,
      "grad_norm": 0.8082687258720398,
      "learning_rate": 0.00028303695387763196,
      "loss": 3.9608,
      "step": 75060
    },
    {
      "epoch": 0.15639583333333335,
      "grad_norm": 0.7461254000663757,
      "learning_rate": 0.0002830323995646943,
      "loss": 3.9867,
      "step": 75070
    },
    {
      "epoch": 0.15641666666666668,
      "grad_norm": 0.931937038898468,
      "learning_rate": 0.0002830278446771092,
      "loss": 3.9162,
      "step": 75080
    },
    {
      "epoch": 0.1564375,
      "grad_norm": 0.7474852204322815,
      "learning_rate": 0.0002830232892148966,
      "loss": 3.9125,
      "step": 75090
    },
    {
      "epoch": 0.15645833333333334,
      "grad_norm": 0.9105162620544434,
      "learning_rate": 0.000283018733178076,
      "loss": 3.9957,
      "step": 75100
    },
    {
      "epoch": 0.15647916666666667,
      "grad_norm": 0.9142236113548279,
      "learning_rate": 0.0002830141765666671,
      "loss": 4.0368,
      "step": 75110
    },
    {
      "epoch": 0.1565,
      "grad_norm": 0.7089110612869263,
      "learning_rate": 0.00028300961938068967,
      "loss": 3.8386,
      "step": 75120
    },
    {
      "epoch": 0.15652083333333333,
      "grad_norm": 0.7883853912353516,
      "learning_rate": 0.0002830050616201633,
      "loss": 4.0413,
      "step": 75130
    },
    {
      "epoch": 0.15654166666666666,
      "grad_norm": 0.7496956586837769,
      "learning_rate": 0.0002830005032851077,
      "loss": 3.9571,
      "step": 75140
    },
    {
      "epoch": 0.1565625,
      "grad_norm": 0.8716757297515869,
      "learning_rate": 0.0002829959443755426,
      "loss": 4.1665,
      "step": 75150
    },
    {
      "epoch": 0.15658333333333332,
      "grad_norm": 0.8706633448600769,
      "learning_rate": 0.0002829913848914876,
      "loss": 3.8684,
      "step": 75160
    },
    {
      "epoch": 0.15660416666666666,
      "grad_norm": 0.7000560164451599,
      "learning_rate": 0.0002829868248329625,
      "loss": 4.0183,
      "step": 75170
    },
    {
      "epoch": 0.156625,
      "grad_norm": 0.743086576461792,
      "learning_rate": 0.000282982264199987,
      "loss": 3.9112,
      "step": 75180
    },
    {
      "epoch": 0.15664583333333335,
      "grad_norm": 0.8093251585960388,
      "learning_rate": 0.0002829777029925807,
      "loss": 3.8349,
      "step": 75190
    },
    {
      "epoch": 0.15666666666666668,
      "grad_norm": 0.7323092222213745,
      "learning_rate": 0.0002829731412107634,
      "loss": 3.8805,
      "step": 75200
    },
    {
      "epoch": 0.1566875,
      "grad_norm": 0.884686291217804,
      "learning_rate": 0.0002829685788545547,
      "loss": 4.1359,
      "step": 75210
    },
    {
      "epoch": 0.15670833333333334,
      "grad_norm": 0.7528038620948792,
      "learning_rate": 0.0002829640159239744,
      "loss": 4.0419,
      "step": 75220
    },
    {
      "epoch": 0.15672916666666667,
      "grad_norm": 0.8092496395111084,
      "learning_rate": 0.0002829594524190422,
      "loss": 3.9373,
      "step": 75230
    },
    {
      "epoch": 0.15675,
      "grad_norm": 0.7876416444778442,
      "learning_rate": 0.0002829548883397778,
      "loss": 4.1648,
      "step": 75240
    },
    {
      "epoch": 0.15677083333333333,
      "grad_norm": 0.7210633158683777,
      "learning_rate": 0.0002829503236862009,
      "loss": 3.8416,
      "step": 75250
    },
    {
      "epoch": 0.15679166666666666,
      "grad_norm": 0.7232616543769836,
      "learning_rate": 0.00028294575845833124,
      "loss": 4.0833,
      "step": 75260
    },
    {
      "epoch": 0.1568125,
      "grad_norm": 0.7114320397377014,
      "learning_rate": 0.0002829411926561885,
      "loss": 3.8361,
      "step": 75270
    },
    {
      "epoch": 0.15683333333333332,
      "grad_norm": 0.7165527939796448,
      "learning_rate": 0.0002829366262797925,
      "loss": 3.832,
      "step": 75280
    },
    {
      "epoch": 0.15685416666666666,
      "grad_norm": 0.7345494627952576,
      "learning_rate": 0.0002829320593291628,
      "loss": 4.1464,
      "step": 75290
    },
    {
      "epoch": 0.156875,
      "grad_norm": 0.9463992714881897,
      "learning_rate": 0.00028292749180431926,
      "loss": 3.9632,
      "step": 75300
    },
    {
      "epoch": 0.15689583333333335,
      "grad_norm": 0.759655237197876,
      "learning_rate": 0.00028292292370528155,
      "loss": 4.0121,
      "step": 75310
    },
    {
      "epoch": 0.15691666666666668,
      "grad_norm": 0.7070793509483337,
      "learning_rate": 0.00028291835503206945,
      "loss": 3.8624,
      "step": 75320
    },
    {
      "epoch": 0.1569375,
      "grad_norm": 0.7248652577400208,
      "learning_rate": 0.00028291378578470264,
      "loss": 3.9107,
      "step": 75330
    },
    {
      "epoch": 0.15695833333333334,
      "grad_norm": 0.7431178092956543,
      "learning_rate": 0.00028290921596320096,
      "loss": 4.0116,
      "step": 75340
    },
    {
      "epoch": 0.15697916666666667,
      "grad_norm": 0.7796943187713623,
      "learning_rate": 0.000282904645567584,
      "loss": 3.925,
      "step": 75350
    },
    {
      "epoch": 0.157,
      "grad_norm": 0.7473316788673401,
      "learning_rate": 0.0002829000745978716,
      "loss": 3.9615,
      "step": 75360
    },
    {
      "epoch": 0.15702083333333333,
      "grad_norm": 0.8708781003952026,
      "learning_rate": 0.0002828955030540835,
      "loss": 4.0168,
      "step": 75370
    },
    {
      "epoch": 0.15704166666666666,
      "grad_norm": 0.7890445590019226,
      "learning_rate": 0.00028289093093623944,
      "loss": 3.8572,
      "step": 75380
    },
    {
      "epoch": 0.1570625,
      "grad_norm": 0.7362475991249084,
      "learning_rate": 0.00028288635824435913,
      "loss": 4.1805,
      "step": 75390
    },
    {
      "epoch": 0.15708333333333332,
      "grad_norm": 0.8462713956832886,
      "learning_rate": 0.00028288178497846235,
      "loss": 3.9365,
      "step": 75400
    },
    {
      "epoch": 0.15710416666666666,
      "grad_norm": 0.8394783139228821,
      "learning_rate": 0.0002828772111385689,
      "loss": 3.9892,
      "step": 75410
    },
    {
      "epoch": 0.157125,
      "grad_norm": 0.8036385774612427,
      "learning_rate": 0.00028287263672469845,
      "loss": 3.8587,
      "step": 75420
    },
    {
      "epoch": 0.15714583333333335,
      "grad_norm": 0.7561196088790894,
      "learning_rate": 0.0002828680617368708,
      "loss": 3.9055,
      "step": 75430
    },
    {
      "epoch": 0.15716666666666668,
      "grad_norm": 0.7310805320739746,
      "learning_rate": 0.0002828634861751057,
      "loss": 4.1096,
      "step": 75440
    },
    {
      "epoch": 0.1571875,
      "grad_norm": 0.8661282658576965,
      "learning_rate": 0.000282858910039423,
      "loss": 4.0184,
      "step": 75450
    },
    {
      "epoch": 0.15720833333333334,
      "grad_norm": 0.732476532459259,
      "learning_rate": 0.0002828543333298424,
      "loss": 3.892,
      "step": 75460
    },
    {
      "epoch": 0.15722916666666667,
      "grad_norm": 0.8299885988235474,
      "learning_rate": 0.0002828497560463836,
      "loss": 4.0139,
      "step": 75470
    },
    {
      "epoch": 0.15725,
      "grad_norm": 0.7175517082214355,
      "learning_rate": 0.00028284517818906647,
      "loss": 3.9803,
      "step": 75480
    },
    {
      "epoch": 0.15727083333333333,
      "grad_norm": 0.7774081230163574,
      "learning_rate": 0.00028284059975791073,
      "loss": 3.923,
      "step": 75490
    },
    {
      "epoch": 0.15729166666666666,
      "grad_norm": 0.7744555473327637,
      "learning_rate": 0.0002828360207529362,
      "loss": 3.987,
      "step": 75500
    },
    {
      "epoch": 0.1573125,
      "grad_norm": 0.8110352754592896,
      "learning_rate": 0.0002828314411741627,
      "loss": 4.0954,
      "step": 75510
    },
    {
      "epoch": 0.15733333333333333,
      "grad_norm": 0.7841536998748779,
      "learning_rate": 0.0002828268610216099,
      "loss": 4.0763,
      "step": 75520
    },
    {
      "epoch": 0.15735416666666666,
      "grad_norm": 0.7307306528091431,
      "learning_rate": 0.00028282228029529756,
      "loss": 4.0889,
      "step": 75530
    },
    {
      "epoch": 0.157375,
      "grad_norm": 0.7668660283088684,
      "learning_rate": 0.0002828176989952457,
      "loss": 3.8062,
      "step": 75540
    },
    {
      "epoch": 0.15739583333333335,
      "grad_norm": 1.111364483833313,
      "learning_rate": 0.0002828131171214738,
      "loss": 4.0511,
      "step": 75550
    },
    {
      "epoch": 0.15741666666666668,
      "grad_norm": 0.9632977843284607,
      "learning_rate": 0.0002828085346740019,
      "loss": 4.1244,
      "step": 75560
    },
    {
      "epoch": 0.1574375,
      "grad_norm": 0.7989946603775024,
      "learning_rate": 0.00028280395165284966,
      "loss": 3.9036,
      "step": 75570
    },
    {
      "epoch": 0.15745833333333334,
      "grad_norm": 0.863825261592865,
      "learning_rate": 0.00028279936805803693,
      "loss": 3.9993,
      "step": 75580
    },
    {
      "epoch": 0.15747916666666667,
      "grad_norm": 0.6984753012657166,
      "learning_rate": 0.00028279478388958346,
      "loss": 4.0045,
      "step": 75590
    },
    {
      "epoch": 0.1575,
      "grad_norm": 0.6629810333251953,
      "learning_rate": 0.00028279019914750913,
      "loss": 4.0051,
      "step": 75600
    },
    {
      "epoch": 0.15752083333333333,
      "grad_norm": 0.8555633425712585,
      "learning_rate": 0.00028278561383183375,
      "loss": 3.8364,
      "step": 75610
    },
    {
      "epoch": 0.15754166666666666,
      "grad_norm": 0.8599917888641357,
      "learning_rate": 0.000282781027942577,
      "loss": 3.9253,
      "step": 75620
    },
    {
      "epoch": 0.1575625,
      "grad_norm": 0.6819707155227661,
      "learning_rate": 0.0002827764414797588,
      "loss": 3.9887,
      "step": 75630
    },
    {
      "epoch": 0.15758333333333333,
      "grad_norm": 0.7660525441169739,
      "learning_rate": 0.0002827718544433989,
      "loss": 3.9117,
      "step": 75640
    },
    {
      "epoch": 0.15760416666666666,
      "grad_norm": 0.7988559603691101,
      "learning_rate": 0.0002827672668335172,
      "loss": 4.1743,
      "step": 75650
    },
    {
      "epoch": 0.157625,
      "grad_norm": 0.7464930415153503,
      "learning_rate": 0.0002827626786501334,
      "loss": 3.9746,
      "step": 75660
    },
    {
      "epoch": 0.15764583333333335,
      "grad_norm": 0.7660095691680908,
      "learning_rate": 0.00028275808989326745,
      "loss": 4.0881,
      "step": 75670
    },
    {
      "epoch": 0.15766666666666668,
      "grad_norm": 0.754641592502594,
      "learning_rate": 0.00028275350056293903,
      "loss": 3.9551,
      "step": 75680
    },
    {
      "epoch": 0.1576875,
      "grad_norm": 0.8997551202774048,
      "learning_rate": 0.00028274891065916807,
      "loss": 3.9043,
      "step": 75690
    },
    {
      "epoch": 0.15770833333333334,
      "grad_norm": 0.707555890083313,
      "learning_rate": 0.00028274432018197433,
      "loss": 3.9313,
      "step": 75700
    },
    {
      "epoch": 0.15772916666666667,
      "grad_norm": 0.6391733884811401,
      "learning_rate": 0.0002827397291313777,
      "loss": 4.0724,
      "step": 75710
    },
    {
      "epoch": 0.15775,
      "grad_norm": 0.7472472190856934,
      "learning_rate": 0.000282735137507398,
      "loss": 4.0522,
      "step": 75720
    },
    {
      "epoch": 0.15777083333333333,
      "grad_norm": 0.8960394859313965,
      "learning_rate": 0.000282730545310055,
      "loss": 3.9112,
      "step": 75730
    },
    {
      "epoch": 0.15779166666666666,
      "grad_norm": 0.7747138142585754,
      "learning_rate": 0.0002827259525393686,
      "loss": 4.1642,
      "step": 75740
    },
    {
      "epoch": 0.1578125,
      "grad_norm": 0.9636256098747253,
      "learning_rate": 0.0002827213591953586,
      "loss": 3.8899,
      "step": 75750
    },
    {
      "epoch": 0.15783333333333333,
      "grad_norm": 0.739754855632782,
      "learning_rate": 0.0002827167652780449,
      "loss": 3.9994,
      "step": 75760
    },
    {
      "epoch": 0.15785416666666666,
      "grad_norm": 0.7010102868080139,
      "learning_rate": 0.0002827121707874473,
      "loss": 3.9364,
      "step": 75770
    },
    {
      "epoch": 0.157875,
      "grad_norm": 0.717714250087738,
      "learning_rate": 0.00028270757572358566,
      "loss": 3.8546,
      "step": 75780
    },
    {
      "epoch": 0.15789583333333335,
      "grad_norm": 0.8208504915237427,
      "learning_rate": 0.0002827029800864798,
      "loss": 3.9711,
      "step": 75790
    },
    {
      "epoch": 0.15791666666666668,
      "grad_norm": 0.7008508443832397,
      "learning_rate": 0.00028269838387614963,
      "loss": 3.9697,
      "step": 75800
    },
    {
      "epoch": 0.1579375,
      "grad_norm": 0.8128792643547058,
      "learning_rate": 0.0002826937870926149,
      "loss": 4.0092,
      "step": 75810
    },
    {
      "epoch": 0.15795833333333334,
      "grad_norm": 0.7969948053359985,
      "learning_rate": 0.0002826891897358956,
      "loss": 4.0281,
      "step": 75820
    },
    {
      "epoch": 0.15797916666666667,
      "grad_norm": 0.8015409111976624,
      "learning_rate": 0.0002826845918060115,
      "loss": 4.0891,
      "step": 75830
    },
    {
      "epoch": 0.158,
      "grad_norm": 0.8711457848548889,
      "learning_rate": 0.0002826799933029825,
      "loss": 3.9759,
      "step": 75840
    },
    {
      "epoch": 0.15802083333333333,
      "grad_norm": 0.7980551719665527,
      "learning_rate": 0.00028267539422682845,
      "loss": 4.0469,
      "step": 75850
    },
    {
      "epoch": 0.15804166666666666,
      "grad_norm": 0.8307015299797058,
      "learning_rate": 0.00028267079457756916,
      "loss": 4.1748,
      "step": 75860
    },
    {
      "epoch": 0.1580625,
      "grad_norm": 0.7450071573257446,
      "learning_rate": 0.00028266619435522456,
      "loss": 3.8955,
      "step": 75870
    },
    {
      "epoch": 0.15808333333333333,
      "grad_norm": 0.8116423487663269,
      "learning_rate": 0.00028266159355981455,
      "loss": 4.0846,
      "step": 75880
    },
    {
      "epoch": 0.15810416666666666,
      "grad_norm": 0.7603946328163147,
      "learning_rate": 0.00028265699219135897,
      "loss": 3.9982,
      "step": 75890
    },
    {
      "epoch": 0.158125,
      "grad_norm": 1.1051918268203735,
      "learning_rate": 0.00028265239024987765,
      "loss": 3.8064,
      "step": 75900
    },
    {
      "epoch": 0.15814583333333335,
      "grad_norm": 0.8650094270706177,
      "learning_rate": 0.00028264778773539055,
      "loss": 3.8878,
      "step": 75910
    },
    {
      "epoch": 0.15816666666666668,
      "grad_norm": 0.6954330801963806,
      "learning_rate": 0.0002826431846479175,
      "loss": 3.9075,
      "step": 75920
    },
    {
      "epoch": 0.1581875,
      "grad_norm": 0.7248063087463379,
      "learning_rate": 0.0002826385809874784,
      "loss": 4.0262,
      "step": 75930
    },
    {
      "epoch": 0.15820833333333334,
      "grad_norm": 0.7589444518089294,
      "learning_rate": 0.0002826339767540931,
      "loss": 3.9346,
      "step": 75940
    },
    {
      "epoch": 0.15822916666666667,
      "grad_norm": 0.8581456542015076,
      "learning_rate": 0.0002826293719477816,
      "loss": 3.8324,
      "step": 75950
    },
    {
      "epoch": 0.15825,
      "grad_norm": 0.8212421536445618,
      "learning_rate": 0.00028262476656856365,
      "loss": 3.9996,
      "step": 75960
    },
    {
      "epoch": 0.15827083333333333,
      "grad_norm": 0.7714158892631531,
      "learning_rate": 0.00028262016061645923,
      "loss": 3.9726,
      "step": 75970
    },
    {
      "epoch": 0.15829166666666666,
      "grad_norm": 0.8194051384925842,
      "learning_rate": 0.0002826155540914882,
      "loss": 3.8854,
      "step": 75980
    },
    {
      "epoch": 0.1583125,
      "grad_norm": 0.7520144581794739,
      "learning_rate": 0.0002826109469936704,
      "loss": 3.9951,
      "step": 75990
    },
    {
      "epoch": 0.15833333333333333,
      "grad_norm": 0.7012163400650024,
      "learning_rate": 0.0002826063393230259,
      "loss": 3.9199,
      "step": 76000
    },
    {
      "epoch": 0.15833333333333333,
      "eval_loss": 4.272346496582031,
      "eval_runtime": 10.0944,
      "eval_samples_per_second": 0.991,
      "eval_steps_per_second": 0.297,
      "step": 76000
    },
    {
      "epoch": 0.15835416666666666,
      "grad_norm": 0.7953590750694275,
      "learning_rate": 0.00028260173107957454,
      "loss": 3.9434,
      "step": 76010
    },
    {
      "epoch": 0.158375,
      "grad_norm": 0.7307195663452148,
      "learning_rate": 0.00028259712226333606,
      "loss": 4.0165,
      "step": 76020
    },
    {
      "epoch": 0.15839583333333335,
      "grad_norm": 0.6790753602981567,
      "learning_rate": 0.0002825925128743306,
      "loss": 3.9749,
      "step": 76030
    },
    {
      "epoch": 0.15841666666666668,
      "grad_norm": 0.810470700263977,
      "learning_rate": 0.0002825879029125779,
      "loss": 3.861,
      "step": 76040
    },
    {
      "epoch": 0.1584375,
      "grad_norm": 0.7752151489257812,
      "learning_rate": 0.00028258329237809796,
      "loss": 3.8787,
      "step": 76050
    },
    {
      "epoch": 0.15845833333333334,
      "grad_norm": 0.7679166793823242,
      "learning_rate": 0.0002825786812709107,
      "loss": 3.9744,
      "step": 76060
    },
    {
      "epoch": 0.15847916666666667,
      "grad_norm": 0.71307373046875,
      "learning_rate": 0.000282574069591036,
      "loss": 4.014,
      "step": 76070
    },
    {
      "epoch": 0.1585,
      "grad_norm": 1.0094187259674072,
      "learning_rate": 0.0002825694573384938,
      "loss": 4.1499,
      "step": 76080
    },
    {
      "epoch": 0.15852083333333333,
      "grad_norm": 0.8448809385299683,
      "learning_rate": 0.00028256484451330403,
      "loss": 3.8072,
      "step": 76090
    },
    {
      "epoch": 0.15854166666666666,
      "grad_norm": 0.7933937311172485,
      "learning_rate": 0.00028256023111548656,
      "loss": 3.8486,
      "step": 76100
    },
    {
      "epoch": 0.1585625,
      "grad_norm": 0.9107272028923035,
      "learning_rate": 0.0002825556171450614,
      "loss": 4.1473,
      "step": 76110
    },
    {
      "epoch": 0.15858333333333333,
      "grad_norm": 0.7458012104034424,
      "learning_rate": 0.00028255100260204843,
      "loss": 3.9965,
      "step": 76120
    },
    {
      "epoch": 0.15860416666666666,
      "grad_norm": 0.9108791351318359,
      "learning_rate": 0.0002825463874864676,
      "loss": 4.1176,
      "step": 76130
    },
    {
      "epoch": 0.158625,
      "grad_norm": 0.7635220885276794,
      "learning_rate": 0.0002825417717983388,
      "loss": 3.8508,
      "step": 76140
    },
    {
      "epoch": 0.15864583333333335,
      "grad_norm": 0.7483041286468506,
      "learning_rate": 0.0002825371555376821,
      "loss": 3.8851,
      "step": 76150
    },
    {
      "epoch": 0.15866666666666668,
      "grad_norm": 0.7423616051673889,
      "learning_rate": 0.0002825325387045173,
      "loss": 4.0143,
      "step": 76160
    },
    {
      "epoch": 0.1586875,
      "grad_norm": 0.734764814376831,
      "learning_rate": 0.0002825279212988644,
      "loss": 3.9756,
      "step": 76170
    },
    {
      "epoch": 0.15870833333333334,
      "grad_norm": 0.6881306767463684,
      "learning_rate": 0.0002825233033207433,
      "loss": 3.8625,
      "step": 76180
    },
    {
      "epoch": 0.15872916666666667,
      "grad_norm": 0.7634227871894836,
      "learning_rate": 0.00028251868477017404,
      "loss": 4.0287,
      "step": 76190
    },
    {
      "epoch": 0.15875,
      "grad_norm": 0.9399139881134033,
      "learning_rate": 0.0002825140656471765,
      "loss": 4.0365,
      "step": 76200
    },
    {
      "epoch": 0.15877083333333333,
      "grad_norm": 0.7672933340072632,
      "learning_rate": 0.0002825094459517706,
      "loss": 3.8002,
      "step": 76210
    },
    {
      "epoch": 0.15879166666666666,
      "grad_norm": 0.8738235831260681,
      "learning_rate": 0.00028250482568397637,
      "loss": 3.9399,
      "step": 76220
    },
    {
      "epoch": 0.1588125,
      "grad_norm": 0.8719350099563599,
      "learning_rate": 0.0002825002048438138,
      "loss": 4.0996,
      "step": 76230
    },
    {
      "epoch": 0.15883333333333333,
      "grad_norm": 0.9176362156867981,
      "learning_rate": 0.00028249558343130274,
      "loss": 3.9686,
      "step": 76240
    },
    {
      "epoch": 0.15885416666666666,
      "grad_norm": 0.7847700715065002,
      "learning_rate": 0.00028249096144646323,
      "loss": 3.9953,
      "step": 76250
    },
    {
      "epoch": 0.158875,
      "grad_norm": 0.851382851600647,
      "learning_rate": 0.0002824863388893152,
      "loss": 3.9484,
      "step": 76260
    },
    {
      "epoch": 0.15889583333333332,
      "grad_norm": 0.9926491975784302,
      "learning_rate": 0.0002824817157598786,
      "loss": 3.9231,
      "step": 76270
    },
    {
      "epoch": 0.15891666666666668,
      "grad_norm": 0.7713356614112854,
      "learning_rate": 0.0002824770920581735,
      "loss": 3.9503,
      "step": 76280
    },
    {
      "epoch": 0.1589375,
      "grad_norm": 0.7865144610404968,
      "learning_rate": 0.00028247246778421975,
      "loss": 4.0258,
      "step": 76290
    },
    {
      "epoch": 0.15895833333333334,
      "grad_norm": 0.7672379016876221,
      "learning_rate": 0.00028246784293803736,
      "loss": 3.9187,
      "step": 76300
    },
    {
      "epoch": 0.15897916666666667,
      "grad_norm": 0.7569628953933716,
      "learning_rate": 0.00028246321751964633,
      "loss": 4.1577,
      "step": 76310
    },
    {
      "epoch": 0.159,
      "grad_norm": 0.8109440207481384,
      "learning_rate": 0.00028245859152906664,
      "loss": 3.9639,
      "step": 76320
    },
    {
      "epoch": 0.15902083333333333,
      "grad_norm": 0.7655479907989502,
      "learning_rate": 0.0002824539649663183,
      "loss": 4.0783,
      "step": 76330
    },
    {
      "epoch": 0.15904166666666666,
      "grad_norm": 0.7938690185546875,
      "learning_rate": 0.0002824493378314212,
      "loss": 4.0984,
      "step": 76340
    },
    {
      "epoch": 0.1590625,
      "grad_norm": 0.8598443865776062,
      "learning_rate": 0.0002824447101243954,
      "loss": 3.9626,
      "step": 76350
    },
    {
      "epoch": 0.15908333333333333,
      "grad_norm": 0.757732093334198,
      "learning_rate": 0.0002824400818452609,
      "loss": 4.1777,
      "step": 76360
    },
    {
      "epoch": 0.15910416666666666,
      "grad_norm": 0.7349156737327576,
      "learning_rate": 0.00028243545299403767,
      "loss": 3.7897,
      "step": 76370
    },
    {
      "epoch": 0.159125,
      "grad_norm": 0.7714874744415283,
      "learning_rate": 0.0002824308235707457,
      "loss": 3.9498,
      "step": 76380
    },
    {
      "epoch": 0.15914583333333332,
      "grad_norm": 0.8085525631904602,
      "learning_rate": 0.000282426193575405,
      "loss": 3.8451,
      "step": 76390
    },
    {
      "epoch": 0.15916666666666668,
      "grad_norm": 0.6810000538825989,
      "learning_rate": 0.0002824215630080356,
      "loss": 4.0197,
      "step": 76400
    },
    {
      "epoch": 0.1591875,
      "grad_norm": 0.8029125332832336,
      "learning_rate": 0.0002824169318686574,
      "loss": 4.1265,
      "step": 76410
    },
    {
      "epoch": 0.15920833333333334,
      "grad_norm": 0.7993583679199219,
      "learning_rate": 0.00028241230015729047,
      "loss": 3.9688,
      "step": 76420
    },
    {
      "epoch": 0.15922916666666667,
      "grad_norm": 0.8246841430664062,
      "learning_rate": 0.00028240766787395485,
      "loss": 4.0704,
      "step": 76430
    },
    {
      "epoch": 0.15925,
      "grad_norm": 1.060900330543518,
      "learning_rate": 0.0002824030350186705,
      "loss": 4.1199,
      "step": 76440
    },
    {
      "epoch": 0.15927083333333333,
      "grad_norm": 0.8627856969833374,
      "learning_rate": 0.0002823984015914574,
      "loss": 3.9793,
      "step": 76450
    },
    {
      "epoch": 0.15929166666666666,
      "grad_norm": 0.7318389415740967,
      "learning_rate": 0.0002823937675923357,
      "loss": 3.8164,
      "step": 76460
    },
    {
      "epoch": 0.1593125,
      "grad_norm": 1.0034836530685425,
      "learning_rate": 0.00028238913302132526,
      "loss": 3.9914,
      "step": 76470
    },
    {
      "epoch": 0.15933333333333333,
      "grad_norm": 0.9493329524993896,
      "learning_rate": 0.0002823844978784462,
      "loss": 4.0402,
      "step": 76480
    },
    {
      "epoch": 0.15935416666666666,
      "grad_norm": 0.9153264760971069,
      "learning_rate": 0.0002823798621637185,
      "loss": 4.0026,
      "step": 76490
    },
    {
      "epoch": 0.159375,
      "grad_norm": 0.7304118871688843,
      "learning_rate": 0.0002823752258771622,
      "loss": 3.9285,
      "step": 76500
    },
    {
      "epoch": 0.15939583333333332,
      "grad_norm": 0.6958821415901184,
      "learning_rate": 0.00028237058901879733,
      "loss": 3.8933,
      "step": 76510
    },
    {
      "epoch": 0.15941666666666668,
      "grad_norm": 0.84634929895401,
      "learning_rate": 0.0002823659515886439,
      "loss": 3.9329,
      "step": 76520
    },
    {
      "epoch": 0.1594375,
      "grad_norm": 0.7458611726760864,
      "learning_rate": 0.0002823613135867219,
      "loss": 4.0467,
      "step": 76530
    },
    {
      "epoch": 0.15945833333333334,
      "grad_norm": 0.9980223774909973,
      "learning_rate": 0.0002823566750130515,
      "loss": 3.9446,
      "step": 76540
    },
    {
      "epoch": 0.15947916666666667,
      "grad_norm": 0.770721435546875,
      "learning_rate": 0.00028235203586765263,
      "loss": 3.8964,
      "step": 76550
    },
    {
      "epoch": 0.1595,
      "grad_norm": 0.7319120764732361,
      "learning_rate": 0.0002823473961505454,
      "loss": 3.8982,
      "step": 76560
    },
    {
      "epoch": 0.15952083333333333,
      "grad_norm": 0.7265445590019226,
      "learning_rate": 0.00028234275586174975,
      "loss": 3.9067,
      "step": 76570
    },
    {
      "epoch": 0.15954166666666666,
      "grad_norm": 0.7723459005355835,
      "learning_rate": 0.00028233811500128576,
      "loss": 4.0191,
      "step": 76580
    },
    {
      "epoch": 0.1595625,
      "grad_norm": 0.792067289352417,
      "learning_rate": 0.0002823334735691736,
      "loss": 3.8823,
      "step": 76590
    },
    {
      "epoch": 0.15958333333333333,
      "grad_norm": 1.020997405052185,
      "learning_rate": 0.0002823288315654331,
      "loss": 4.0901,
      "step": 76600
    },
    {
      "epoch": 0.15960416666666666,
      "grad_norm": 0.7044355869293213,
      "learning_rate": 0.0002823241889900844,
      "loss": 3.9314,
      "step": 76610
    },
    {
      "epoch": 0.159625,
      "grad_norm": 0.7365557551383972,
      "learning_rate": 0.00028231954584314765,
      "loss": 3.9013,
      "step": 76620
    },
    {
      "epoch": 0.15964583333333332,
      "grad_norm": 0.8813196420669556,
      "learning_rate": 0.00028231490212464287,
      "loss": 3.8871,
      "step": 76630
    },
    {
      "epoch": 0.15966666666666668,
      "grad_norm": 0.8245474100112915,
      "learning_rate": 0.0002823102578345901,
      "loss": 4.1159,
      "step": 76640
    },
    {
      "epoch": 0.1596875,
      "grad_norm": 0.7396581172943115,
      "learning_rate": 0.0002823056129730093,
      "loss": 3.9981,
      "step": 76650
    },
    {
      "epoch": 0.15970833333333334,
      "grad_norm": 0.7071628570556641,
      "learning_rate": 0.00028230096753992066,
      "loss": 3.9196,
      "step": 76660
    },
    {
      "epoch": 0.15972916666666667,
      "grad_norm": 0.7886711359024048,
      "learning_rate": 0.00028229632153534416,
      "loss": 3.8484,
      "step": 76670
    },
    {
      "epoch": 0.15975,
      "grad_norm": 0.7425145506858826,
      "learning_rate": 0.0002822916749593,
      "loss": 4.0454,
      "step": 76680
    },
    {
      "epoch": 0.15977083333333333,
      "grad_norm": 0.8378704786300659,
      "learning_rate": 0.0002822870278118082,
      "loss": 3.9837,
      "step": 76690
    },
    {
      "epoch": 0.15979166666666667,
      "grad_norm": 0.8082764744758606,
      "learning_rate": 0.0002822823800928887,
      "loss": 4.0394,
      "step": 76700
    },
    {
      "epoch": 0.1598125,
      "grad_norm": 0.7006628513336182,
      "learning_rate": 0.0002822777318025617,
      "loss": 3.8999,
      "step": 76710
    },
    {
      "epoch": 0.15983333333333333,
      "grad_norm": 0.7836378216743469,
      "learning_rate": 0.00028227308294084726,
      "loss": 3.8537,
      "step": 76720
    },
    {
      "epoch": 0.15985416666666666,
      "grad_norm": 0.7611981630325317,
      "learning_rate": 0.0002822684335077655,
      "loss": 3.9553,
      "step": 76730
    },
    {
      "epoch": 0.159875,
      "grad_norm": 0.8038240075111389,
      "learning_rate": 0.0002822637835033364,
      "loss": 3.8048,
      "step": 76740
    },
    {
      "epoch": 0.15989583333333332,
      "grad_norm": 0.6807552576065063,
      "learning_rate": 0.0002822591329275802,
      "loss": 4.0335,
      "step": 76750
    },
    {
      "epoch": 0.15991666666666668,
      "grad_norm": 0.9691339731216431,
      "learning_rate": 0.00028225448178051686,
      "loss": 3.9505,
      "step": 76760
    },
    {
      "epoch": 0.1599375,
      "grad_norm": 0.7016648650169373,
      "learning_rate": 0.00028224983006216645,
      "loss": 3.8443,
      "step": 76770
    },
    {
      "epoch": 0.15995833333333334,
      "grad_norm": 0.7145435810089111,
      "learning_rate": 0.00028224517777254916,
      "loss": 3.8608,
      "step": 76780
    },
    {
      "epoch": 0.15997916666666667,
      "grad_norm": 0.9416621923446655,
      "learning_rate": 0.00028224052491168504,
      "loss": 3.9035,
      "step": 76790
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7591504454612732,
      "learning_rate": 0.00028223587147959426,
      "loss": 3.8585,
      "step": 76800
    },
    {
      "epoch": 0.16002083333333333,
      "grad_norm": 0.711595356464386,
      "learning_rate": 0.00028223121747629677,
      "loss": 3.9054,
      "step": 76810
    },
    {
      "epoch": 0.16004166666666667,
      "grad_norm": 0.9354443550109863,
      "learning_rate": 0.0002822265629018128,
      "loss": 4.204,
      "step": 76820
    },
    {
      "epoch": 0.1600625,
      "grad_norm": 0.8565996885299683,
      "learning_rate": 0.00028222190775616243,
      "loss": 3.923,
      "step": 76830
    },
    {
      "epoch": 0.16008333333333333,
      "grad_norm": 0.7267017960548401,
      "learning_rate": 0.00028221725203936575,
      "loss": 4.0982,
      "step": 76840
    },
    {
      "epoch": 0.16010416666666666,
      "grad_norm": 0.7077228426933289,
      "learning_rate": 0.00028221259575144286,
      "loss": 3.9528,
      "step": 76850
    },
    {
      "epoch": 0.160125,
      "grad_norm": 0.82989102602005,
      "learning_rate": 0.0002822079388924139,
      "loss": 3.991,
      "step": 76860
    },
    {
      "epoch": 0.16014583333333332,
      "grad_norm": 0.863614559173584,
      "learning_rate": 0.00028220328146229897,
      "loss": 3.7618,
      "step": 76870
    },
    {
      "epoch": 0.16016666666666668,
      "grad_norm": 0.8223214745521545,
      "learning_rate": 0.0002821986234611182,
      "loss": 3.8776,
      "step": 76880
    },
    {
      "epoch": 0.1601875,
      "grad_norm": 0.784129798412323,
      "learning_rate": 0.0002821939648888917,
      "loss": 3.961,
      "step": 76890
    },
    {
      "epoch": 0.16020833333333334,
      "grad_norm": 0.9202289581298828,
      "learning_rate": 0.0002821893057456396,
      "loss": 4.0354,
      "step": 76900
    },
    {
      "epoch": 0.16022916666666667,
      "grad_norm": 0.8466525077819824,
      "learning_rate": 0.00028218464603138203,
      "loss": 3.8609,
      "step": 76910
    },
    {
      "epoch": 0.16025,
      "grad_norm": 0.7251555323600769,
      "learning_rate": 0.0002821799857461391,
      "loss": 3.8541,
      "step": 76920
    },
    {
      "epoch": 0.16027083333333333,
      "grad_norm": 0.8714814782142639,
      "learning_rate": 0.00028217532488993095,
      "loss": 3.9944,
      "step": 76930
    },
    {
      "epoch": 0.16029166666666667,
      "grad_norm": 0.8698439598083496,
      "learning_rate": 0.0002821706634627777,
      "loss": 3.8205,
      "step": 76940
    },
    {
      "epoch": 0.1603125,
      "grad_norm": 0.7079991698265076,
      "learning_rate": 0.00028216600146469955,
      "loss": 4.0399,
      "step": 76950
    },
    {
      "epoch": 0.16033333333333333,
      "grad_norm": 0.8054331541061401,
      "learning_rate": 0.00028216133889571657,
      "loss": 3.9445,
      "step": 76960
    },
    {
      "epoch": 0.16035416666666666,
      "grad_norm": 0.9675517678260803,
      "learning_rate": 0.0002821566757558489,
      "loss": 3.9687,
      "step": 76970
    },
    {
      "epoch": 0.160375,
      "grad_norm": 0.9152339100837708,
      "learning_rate": 0.00028215201204511667,
      "loss": 3.9525,
      "step": 76980
    },
    {
      "epoch": 0.16039583333333332,
      "grad_norm": 0.8617864847183228,
      "learning_rate": 0.00028214734776354014,
      "loss": 3.9535,
      "step": 76990
    },
    {
      "epoch": 0.16041666666666668,
      "grad_norm": 0.7914890646934509,
      "learning_rate": 0.00028214268291113935,
      "loss": 3.9125,
      "step": 77000
    },
    {
      "epoch": 0.16041666666666668,
      "eval_loss": 4.286554336547852,
      "eval_runtime": 9.1004,
      "eval_samples_per_second": 1.099,
      "eval_steps_per_second": 0.33,
      "step": 77000
    },
    {
      "epoch": 0.1604375,
      "grad_norm": 0.7892403602600098,
      "learning_rate": 0.0002821380174879344,
      "loss": 3.8947,
      "step": 77010
    },
    {
      "epoch": 0.16045833333333334,
      "grad_norm": 0.734053373336792,
      "learning_rate": 0.0002821333514939456,
      "loss": 3.7525,
      "step": 77020
    },
    {
      "epoch": 0.16047916666666667,
      "grad_norm": 0.9047618508338928,
      "learning_rate": 0.00028212868492919304,
      "loss": 4.0585,
      "step": 77030
    },
    {
      "epoch": 0.1605,
      "grad_norm": 0.8187105655670166,
      "learning_rate": 0.0002821240177936968,
      "loss": 3.8896,
      "step": 77040
    },
    {
      "epoch": 0.16052083333333333,
      "grad_norm": 0.764279842376709,
      "learning_rate": 0.00028211935008747713,
      "loss": 3.9885,
      "step": 77050
    },
    {
      "epoch": 0.16054166666666667,
      "grad_norm": 0.8400261402130127,
      "learning_rate": 0.00028211468181055417,
      "loss": 4.0983,
      "step": 77060
    },
    {
      "epoch": 0.1605625,
      "grad_norm": 0.8541538715362549,
      "learning_rate": 0.00028211001296294806,
      "loss": 3.8116,
      "step": 77070
    },
    {
      "epoch": 0.16058333333333333,
      "grad_norm": 0.7912912368774414,
      "learning_rate": 0.000282105343544679,
      "loss": 3.937,
      "step": 77080
    },
    {
      "epoch": 0.16060416666666666,
      "grad_norm": 0.8191346526145935,
      "learning_rate": 0.0002821006735557671,
      "loss": 4.0099,
      "step": 77090
    },
    {
      "epoch": 0.160625,
      "grad_norm": 0.6960261464118958,
      "learning_rate": 0.0002820960029962327,
      "loss": 3.8428,
      "step": 77100
    },
    {
      "epoch": 0.16064583333333332,
      "grad_norm": 0.8192920088768005,
      "learning_rate": 0.00028209133186609574,
      "loss": 3.8466,
      "step": 77110
    },
    {
      "epoch": 0.16066666666666668,
      "grad_norm": 0.7489382028579712,
      "learning_rate": 0.00028208666016537654,
      "loss": 4.1436,
      "step": 77120
    },
    {
      "epoch": 0.1606875,
      "grad_norm": 0.8770329356193542,
      "learning_rate": 0.00028208198789409525,
      "loss": 3.9381,
      "step": 77130
    },
    {
      "epoch": 0.16070833333333334,
      "grad_norm": 0.7646051645278931,
      "learning_rate": 0.0002820773150522721,
      "loss": 3.8024,
      "step": 77140
    },
    {
      "epoch": 0.16072916666666667,
      "grad_norm": 0.8767563700675964,
      "learning_rate": 0.00028207264163992714,
      "loss": 4.1352,
      "step": 77150
    },
    {
      "epoch": 0.16075,
      "grad_norm": 0.7900148630142212,
      "learning_rate": 0.0002820679676570807,
      "loss": 3.6969,
      "step": 77160
    },
    {
      "epoch": 0.16077083333333334,
      "grad_norm": 0.6644408106803894,
      "learning_rate": 0.0002820632931037529,
      "loss": 4.0676,
      "step": 77170
    },
    {
      "epoch": 0.16079166666666667,
      "grad_norm": 0.9282814264297485,
      "learning_rate": 0.000282058617979964,
      "loss": 4.0554,
      "step": 77180
    },
    {
      "epoch": 0.1608125,
      "grad_norm": 0.6623526215553284,
      "learning_rate": 0.0002820539422857341,
      "loss": 4.1582,
      "step": 77190
    },
    {
      "epoch": 0.16083333333333333,
      "grad_norm": 0.7399011850357056,
      "learning_rate": 0.00028204926602108345,
      "loss": 4.1355,
      "step": 77200
    },
    {
      "epoch": 0.16085416666666666,
      "grad_norm": 0.7266656756401062,
      "learning_rate": 0.0002820445891860322,
      "loss": 3.9737,
      "step": 77210
    },
    {
      "epoch": 0.160875,
      "grad_norm": 0.9031581282615662,
      "learning_rate": 0.00028203991178060066,
      "loss": 3.8918,
      "step": 77220
    },
    {
      "epoch": 0.16089583333333332,
      "grad_norm": 0.9557989239692688,
      "learning_rate": 0.0002820352338048089,
      "loss": 3.8668,
      "step": 77230
    },
    {
      "epoch": 0.16091666666666668,
      "grad_norm": 0.8384221792221069,
      "learning_rate": 0.0002820305552586772,
      "loss": 3.9748,
      "step": 77240
    },
    {
      "epoch": 0.1609375,
      "grad_norm": 0.8813395500183105,
      "learning_rate": 0.0002820258761422258,
      "loss": 3.9288,
      "step": 77250
    },
    {
      "epoch": 0.16095833333333334,
      "grad_norm": 0.672451376914978,
      "learning_rate": 0.00028202119645547486,
      "loss": 3.9323,
      "step": 77260
    },
    {
      "epoch": 0.16097916666666667,
      "grad_norm": 0.7794919013977051,
      "learning_rate": 0.0002820165161984446,
      "loss": 3.9331,
      "step": 77270
    },
    {
      "epoch": 0.161,
      "grad_norm": 0.8153266906738281,
      "learning_rate": 0.00028201183537115526,
      "loss": 3.8777,
      "step": 77280
    },
    {
      "epoch": 0.16102083333333334,
      "grad_norm": 0.7694487571716309,
      "learning_rate": 0.00028200715397362706,
      "loss": 4.0199,
      "step": 77290
    },
    {
      "epoch": 0.16104166666666667,
      "grad_norm": 0.8496760129928589,
      "learning_rate": 0.0002820024720058802,
      "loss": 4.0325,
      "step": 77300
    },
    {
      "epoch": 0.1610625,
      "grad_norm": 0.8208592534065247,
      "learning_rate": 0.0002819977894679349,
      "loss": 3.9597,
      "step": 77310
    },
    {
      "epoch": 0.16108333333333333,
      "grad_norm": 0.7540953755378723,
      "learning_rate": 0.0002819931063598114,
      "loss": 3.8749,
      "step": 77320
    },
    {
      "epoch": 0.16110416666666666,
      "grad_norm": 0.7308695316314697,
      "learning_rate": 0.0002819884226815299,
      "loss": 3.969,
      "step": 77330
    },
    {
      "epoch": 0.161125,
      "grad_norm": 0.7791615724563599,
      "learning_rate": 0.0002819837384331107,
      "loss": 3.8187,
      "step": 77340
    },
    {
      "epoch": 0.16114583333333332,
      "grad_norm": 0.8104141354560852,
      "learning_rate": 0.00028197905361457395,
      "loss": 3.8937,
      "step": 77350
    },
    {
      "epoch": 0.16116666666666668,
      "grad_norm": 0.886809766292572,
      "learning_rate": 0.00028197436822593997,
      "loss": 4.0958,
      "step": 77360
    },
    {
      "epoch": 0.1611875,
      "grad_norm": 0.7157000303268433,
      "learning_rate": 0.00028196968226722896,
      "loss": 4.1509,
      "step": 77370
    },
    {
      "epoch": 0.16120833333333334,
      "grad_norm": 0.7488293051719666,
      "learning_rate": 0.00028196499573846114,
      "loss": 4.0335,
      "step": 77380
    },
    {
      "epoch": 0.16122916666666667,
      "grad_norm": 0.8180192112922668,
      "learning_rate": 0.00028196030863965674,
      "loss": 3.9454,
      "step": 77390
    },
    {
      "epoch": 0.16125,
      "grad_norm": 0.7691861987113953,
      "learning_rate": 0.0002819556209708361,
      "loss": 3.8645,
      "step": 77400
    },
    {
      "epoch": 0.16127083333333334,
      "grad_norm": 0.8262279629707336,
      "learning_rate": 0.0002819509327320194,
      "loss": 3.867,
      "step": 77410
    },
    {
      "epoch": 0.16129166666666667,
      "grad_norm": 0.6430023312568665,
      "learning_rate": 0.0002819462439232269,
      "loss": 4.0146,
      "step": 77420
    },
    {
      "epoch": 0.1613125,
      "grad_norm": 0.8910223841667175,
      "learning_rate": 0.0002819415545444788,
      "loss": 3.9812,
      "step": 77430
    },
    {
      "epoch": 0.16133333333333333,
      "grad_norm": 0.8111413717269897,
      "learning_rate": 0.00028193686459579545,
      "loss": 3.9185,
      "step": 77440
    },
    {
      "epoch": 0.16135416666666666,
      "grad_norm": 0.9452483057975769,
      "learning_rate": 0.0002819321740771971,
      "loss": 3.8944,
      "step": 77450
    },
    {
      "epoch": 0.161375,
      "grad_norm": 0.7182883024215698,
      "learning_rate": 0.0002819274829887039,
      "loss": 4.0136,
      "step": 77460
    },
    {
      "epoch": 0.16139583333333332,
      "grad_norm": 0.797468364238739,
      "learning_rate": 0.00028192279133033626,
      "loss": 4.1404,
      "step": 77470
    },
    {
      "epoch": 0.16141666666666668,
      "grad_norm": 0.7380503416061401,
      "learning_rate": 0.0002819180991021144,
      "loss": 3.9204,
      "step": 77480
    },
    {
      "epoch": 0.1614375,
      "grad_norm": 0.7636228799819946,
      "learning_rate": 0.0002819134063040585,
      "loss": 3.8477,
      "step": 77490
    },
    {
      "epoch": 0.16145833333333334,
      "grad_norm": 0.8906237483024597,
      "learning_rate": 0.00028190871293618896,
      "loss": 4.0253,
      "step": 77500
    },
    {
      "epoch": 0.16147916666666667,
      "grad_norm": 0.7980161309242249,
      "learning_rate": 0.00028190401899852593,
      "loss": 3.8547,
      "step": 77510
    },
    {
      "epoch": 0.1615,
      "grad_norm": 0.8454574942588806,
      "learning_rate": 0.0002818993244910898,
      "loss": 3.9795,
      "step": 77520
    },
    {
      "epoch": 0.16152083333333334,
      "grad_norm": 0.730657696723938,
      "learning_rate": 0.0002818946294139008,
      "loss": 3.972,
      "step": 77530
    },
    {
      "epoch": 0.16154166666666667,
      "grad_norm": 0.8677017688751221,
      "learning_rate": 0.00028188993376697917,
      "loss": 3.7749,
      "step": 77540
    },
    {
      "epoch": 0.1615625,
      "grad_norm": 0.6724606156349182,
      "learning_rate": 0.0002818852375503453,
      "loss": 3.8625,
      "step": 77550
    },
    {
      "epoch": 0.16158333333333333,
      "grad_norm": 0.7731778621673584,
      "learning_rate": 0.0002818805407640193,
      "loss": 4.029,
      "step": 77560
    },
    {
      "epoch": 0.16160416666666666,
      "grad_norm": 1.7634775638580322,
      "learning_rate": 0.00028187584340802165,
      "loss": 4.0182,
      "step": 77570
    },
    {
      "epoch": 0.161625,
      "grad_norm": 0.7673264741897583,
      "learning_rate": 0.0002818711454823725,
      "loss": 4.1467,
      "step": 77580
    },
    {
      "epoch": 0.16164583333333332,
      "grad_norm": 0.7856615781784058,
      "learning_rate": 0.0002818664469870923,
      "loss": 4.0113,
      "step": 77590
    },
    {
      "epoch": 0.16166666666666665,
      "grad_norm": 0.8648219704627991,
      "learning_rate": 0.00028186174792220117,
      "loss": 3.8751,
      "step": 77600
    },
    {
      "epoch": 0.1616875,
      "grad_norm": 0.9800983667373657,
      "learning_rate": 0.00028185704828771947,
      "loss": 3.8381,
      "step": 77610
    },
    {
      "epoch": 0.16170833333333334,
      "grad_norm": 0.7651121616363525,
      "learning_rate": 0.00028185234808366755,
      "loss": 3.935,
      "step": 77620
    },
    {
      "epoch": 0.16172916666666667,
      "grad_norm": 0.7131847739219666,
      "learning_rate": 0.00028184764731006563,
      "loss": 4.004,
      "step": 77630
    },
    {
      "epoch": 0.16175,
      "grad_norm": 0.7412257194519043,
      "learning_rate": 0.0002818429459669341,
      "loss": 4.1018,
      "step": 77640
    },
    {
      "epoch": 0.16177083333333334,
      "grad_norm": 0.8267483115196228,
      "learning_rate": 0.00028183824405429323,
      "loss": 4.1076,
      "step": 77650
    },
    {
      "epoch": 0.16179166666666667,
      "grad_norm": 0.7998443245887756,
      "learning_rate": 0.00028183354157216336,
      "loss": 3.9117,
      "step": 77660
    },
    {
      "epoch": 0.1618125,
      "grad_norm": 0.7442651391029358,
      "learning_rate": 0.0002818288385205647,
      "loss": 3.9858,
      "step": 77670
    },
    {
      "epoch": 0.16183333333333333,
      "grad_norm": 0.7578204274177551,
      "learning_rate": 0.0002818241348995177,
      "loss": 3.8649,
      "step": 77680
    },
    {
      "epoch": 0.16185416666666666,
      "grad_norm": 0.8133706450462341,
      "learning_rate": 0.0002818194307090426,
      "loss": 4.0649,
      "step": 77690
    },
    {
      "epoch": 0.161875,
      "grad_norm": 0.8488492965698242,
      "learning_rate": 0.00028181472594915975,
      "loss": 3.9993,
      "step": 77700
    },
    {
      "epoch": 0.16189583333333332,
      "grad_norm": 0.7341908812522888,
      "learning_rate": 0.00028181002061988944,
      "loss": 3.7736,
      "step": 77710
    },
    {
      "epoch": 0.16191666666666665,
      "grad_norm": 0.7555025815963745,
      "learning_rate": 0.00028180531472125203,
      "loss": 4.1005,
      "step": 77720
    },
    {
      "epoch": 0.1619375,
      "grad_norm": 0.767153799533844,
      "learning_rate": 0.0002818006082532678,
      "loss": 3.9736,
      "step": 77730
    },
    {
      "epoch": 0.16195833333333334,
      "grad_norm": 1.1169534921646118,
      "learning_rate": 0.00028179590121595716,
      "loss": 3.9937,
      "step": 77740
    },
    {
      "epoch": 0.16197916666666667,
      "grad_norm": 0.7159667611122131,
      "learning_rate": 0.00028179119360934035,
      "loss": 4.0599,
      "step": 77750
    },
    {
      "epoch": 0.162,
      "grad_norm": 0.8237123489379883,
      "learning_rate": 0.0002817864854334377,
      "loss": 3.9879,
      "step": 77760
    },
    {
      "epoch": 0.16202083333333334,
      "grad_norm": 1.3349041938781738,
      "learning_rate": 0.00028178177668826973,
      "loss": 4.0342,
      "step": 77770
    },
    {
      "epoch": 0.16204166666666667,
      "grad_norm": 0.7448614239692688,
      "learning_rate": 0.0002817770673738566,
      "loss": 3.9247,
      "step": 77780
    },
    {
      "epoch": 0.1620625,
      "grad_norm": 0.7991165518760681,
      "learning_rate": 0.00028177235749021865,
      "loss": 3.9533,
      "step": 77790
    },
    {
      "epoch": 0.16208333333333333,
      "grad_norm": 0.9273947477340698,
      "learning_rate": 0.0002817676470373763,
      "loss": 3.93,
      "step": 77800
    },
    {
      "epoch": 0.16210416666666666,
      "grad_norm": 0.8635169863700867,
      "learning_rate": 0.0002817629360153499,
      "loss": 3.9622,
      "step": 77810
    },
    {
      "epoch": 0.162125,
      "grad_norm": 0.6890774965286255,
      "learning_rate": 0.00028175822442415977,
      "loss": 3.9941,
      "step": 77820
    },
    {
      "epoch": 0.16214583333333332,
      "grad_norm": 0.7350051403045654,
      "learning_rate": 0.00028175351226382623,
      "loss": 3.9935,
      "step": 77830
    },
    {
      "epoch": 0.16216666666666665,
      "grad_norm": 0.7805533409118652,
      "learning_rate": 0.00028174879953436966,
      "loss": 3.979,
      "step": 77840
    },
    {
      "epoch": 0.1621875,
      "grad_norm": 0.8718862533569336,
      "learning_rate": 0.0002817440862358105,
      "loss": 3.8394,
      "step": 77850
    },
    {
      "epoch": 0.16220833333333334,
      "grad_norm": 0.6990556120872498,
      "learning_rate": 0.00028173937236816894,
      "loss": 3.9407,
      "step": 77860
    },
    {
      "epoch": 0.16222916666666667,
      "grad_norm": 0.760137677192688,
      "learning_rate": 0.0002817346579314655,
      "loss": 3.9406,
      "step": 77870
    },
    {
      "epoch": 0.16225,
      "grad_norm": 0.7366822957992554,
      "learning_rate": 0.0002817299429257205,
      "loss": 3.9827,
      "step": 77880
    },
    {
      "epoch": 0.16227083333333334,
      "grad_norm": 0.8118230104446411,
      "learning_rate": 0.00028172522735095423,
      "loss": 4.0764,
      "step": 77890
    },
    {
      "epoch": 0.16229166666666667,
      "grad_norm": 0.8695641160011292,
      "learning_rate": 0.00028172051120718716,
      "loss": 3.9189,
      "step": 77900
    },
    {
      "epoch": 0.1623125,
      "grad_norm": 0.8390635848045349,
      "learning_rate": 0.0002817157944944396,
      "loss": 4.0012,
      "step": 77910
    },
    {
      "epoch": 0.16233333333333333,
      "grad_norm": 0.7313005924224854,
      "learning_rate": 0.00028171107721273195,
      "loss": 4.0439,
      "step": 77920
    },
    {
      "epoch": 0.16235416666666666,
      "grad_norm": 0.8917751908302307,
      "learning_rate": 0.0002817063593620846,
      "loss": 4.03,
      "step": 77930
    },
    {
      "epoch": 0.162375,
      "grad_norm": 0.7846434116363525,
      "learning_rate": 0.00028170164094251784,
      "loss": 3.9948,
      "step": 77940
    },
    {
      "epoch": 0.16239583333333332,
      "grad_norm": 0.7751554846763611,
      "learning_rate": 0.00028169692195405217,
      "loss": 4.0489,
      "step": 77950
    },
    {
      "epoch": 0.16241666666666665,
      "grad_norm": 0.7526265382766724,
      "learning_rate": 0.00028169220239670795,
      "loss": 3.8384,
      "step": 77960
    },
    {
      "epoch": 0.1624375,
      "grad_norm": 0.9873279929161072,
      "learning_rate": 0.0002816874822705055,
      "loss": 4.0048,
      "step": 77970
    },
    {
      "epoch": 0.16245833333333334,
      "grad_norm": 0.8661308288574219,
      "learning_rate": 0.0002816827615754653,
      "loss": 3.9992,
      "step": 77980
    },
    {
      "epoch": 0.16247916666666667,
      "grad_norm": 0.7955375909805298,
      "learning_rate": 0.0002816780403116076,
      "loss": 3.7947,
      "step": 77990
    },
    {
      "epoch": 0.1625,
      "grad_norm": 0.7976799607276917,
      "learning_rate": 0.00028167331847895303,
      "loss": 3.7808,
      "step": 78000
    },
    {
      "epoch": 0.1625,
      "eval_loss": 4.262619495391846,
      "eval_runtime": 11.6365,
      "eval_samples_per_second": 0.859,
      "eval_steps_per_second": 0.258,
      "step": 78000
    },
    {
      "epoch": 0.16252083333333334,
      "grad_norm": 0.7579058408737183,
      "learning_rate": 0.0002816685960775217,
      "loss": 3.9662,
      "step": 78010
    },
    {
      "epoch": 0.16254166666666667,
      "grad_norm": 0.7158679962158203,
      "learning_rate": 0.00028166387310733424,
      "loss": 3.9153,
      "step": 78020
    },
    {
      "epoch": 0.1625625,
      "grad_norm": 0.7831252813339233,
      "learning_rate": 0.00028165914956841096,
      "loss": 3.9714,
      "step": 78030
    },
    {
      "epoch": 0.16258333333333333,
      "grad_norm": 0.8030210137367249,
      "learning_rate": 0.0002816544254607723,
      "loss": 4.0806,
      "step": 78040
    },
    {
      "epoch": 0.16260416666666666,
      "grad_norm": 0.7371701002120972,
      "learning_rate": 0.00028164970078443854,
      "loss": 3.8811,
      "step": 78050
    },
    {
      "epoch": 0.162625,
      "grad_norm": 0.7931488156318665,
      "learning_rate": 0.00028164497553943027,
      "loss": 4.0098,
      "step": 78060
    },
    {
      "epoch": 0.16264583333333332,
      "grad_norm": 1.0503406524658203,
      "learning_rate": 0.00028164024972576773,
      "loss": 3.9831,
      "step": 78070
    },
    {
      "epoch": 0.16266666666666665,
      "grad_norm": 0.8392672538757324,
      "learning_rate": 0.0002816355233434715,
      "loss": 3.8326,
      "step": 78080
    },
    {
      "epoch": 0.1626875,
      "grad_norm": 0.6595149040222168,
      "learning_rate": 0.00028163079639256187,
      "loss": 4.1154,
      "step": 78090
    },
    {
      "epoch": 0.16270833333333334,
      "grad_norm": 1.0223652124404907,
      "learning_rate": 0.0002816260688730593,
      "loss": 3.9909,
      "step": 78100
    },
    {
      "epoch": 0.16272916666666667,
      "grad_norm": 0.8171764016151428,
      "learning_rate": 0.00028162134078498424,
      "loss": 4.0057,
      "step": 78110
    },
    {
      "epoch": 0.16275,
      "grad_norm": 0.8894515037536621,
      "learning_rate": 0.00028161661212835706,
      "loss": 3.9079,
      "step": 78120
    },
    {
      "epoch": 0.16277083333333334,
      "grad_norm": 0.7435217499732971,
      "learning_rate": 0.0002816118829031982,
      "loss": 3.8378,
      "step": 78130
    },
    {
      "epoch": 0.16279166666666667,
      "grad_norm": 0.8137401342391968,
      "learning_rate": 0.00028160715310952816,
      "loss": 3.8413,
      "step": 78140
    },
    {
      "epoch": 0.1628125,
      "grad_norm": 0.8337034583091736,
      "learning_rate": 0.00028160242274736727,
      "loss": 4.0542,
      "step": 78150
    },
    {
      "epoch": 0.16283333333333333,
      "grad_norm": 0.8717995285987854,
      "learning_rate": 0.000281597691816736,
      "loss": 3.9369,
      "step": 78160
    },
    {
      "epoch": 0.16285416666666666,
      "grad_norm": 0.7795739769935608,
      "learning_rate": 0.0002815929603176548,
      "loss": 3.9666,
      "step": 78170
    },
    {
      "epoch": 0.162875,
      "grad_norm": 0.7289012670516968,
      "learning_rate": 0.0002815882282501441,
      "loss": 3.8687,
      "step": 78180
    },
    {
      "epoch": 0.16289583333333332,
      "grad_norm": 0.7760468125343323,
      "learning_rate": 0.0002815834956142244,
      "loss": 3.9681,
      "step": 78190
    },
    {
      "epoch": 0.16291666666666665,
      "grad_norm": 0.8668152093887329,
      "learning_rate": 0.000281578762409916,
      "loss": 3.9822,
      "step": 78200
    },
    {
      "epoch": 0.1629375,
      "grad_norm": 0.7797251343727112,
      "learning_rate": 0.0002815740286372395,
      "loss": 3.9824,
      "step": 78210
    },
    {
      "epoch": 0.16295833333333334,
      "grad_norm": 0.6885705590248108,
      "learning_rate": 0.0002815692942962152,
      "loss": 3.84,
      "step": 78220
    },
    {
      "epoch": 0.16297916666666667,
      "grad_norm": 1.1185550689697266,
      "learning_rate": 0.00028156455938686364,
      "loss": 3.907,
      "step": 78230
    },
    {
      "epoch": 0.163,
      "grad_norm": 0.7284876108169556,
      "learning_rate": 0.0002815598239092053,
      "loss": 3.9425,
      "step": 78240
    },
    {
      "epoch": 0.16302083333333334,
      "grad_norm": 0.6862362027168274,
      "learning_rate": 0.00028155508786326057,
      "loss": 3.9263,
      "step": 78250
    },
    {
      "epoch": 0.16304166666666667,
      "grad_norm": 0.7383018136024475,
      "learning_rate": 0.00028155035124904996,
      "loss": 3.9824,
      "step": 78260
    },
    {
      "epoch": 0.1630625,
      "grad_norm": 0.8319690823554993,
      "learning_rate": 0.00028154561406659387,
      "loss": 4.0939,
      "step": 78270
    },
    {
      "epoch": 0.16308333333333333,
      "grad_norm": 0.7824859619140625,
      "learning_rate": 0.00028154087631591284,
      "loss": 4.1139,
      "step": 78280
    },
    {
      "epoch": 0.16310416666666666,
      "grad_norm": 0.7834299802780151,
      "learning_rate": 0.00028153613799702725,
      "loss": 3.9378,
      "step": 78290
    },
    {
      "epoch": 0.163125,
      "grad_norm": 0.7087684273719788,
      "learning_rate": 0.00028153139910995766,
      "loss": 3.9882,
      "step": 78300
    },
    {
      "epoch": 0.16314583333333332,
      "grad_norm": 0.8483211994171143,
      "learning_rate": 0.0002815266596547244,
      "loss": 3.8009,
      "step": 78310
    },
    {
      "epoch": 0.16316666666666665,
      "grad_norm": 0.8948817253112793,
      "learning_rate": 0.0002815219196313481,
      "loss": 3.9416,
      "step": 78320
    },
    {
      "epoch": 0.1631875,
      "grad_norm": 0.7180911898612976,
      "learning_rate": 0.00028151717903984914,
      "loss": 3.919,
      "step": 78330
    },
    {
      "epoch": 0.16320833333333334,
      "grad_norm": 0.8306449055671692,
      "learning_rate": 0.000281512437880248,
      "loss": 4.0358,
      "step": 78340
    },
    {
      "epoch": 0.16322916666666668,
      "grad_norm": 0.7555968761444092,
      "learning_rate": 0.00028150769615256524,
      "loss": 3.916,
      "step": 78350
    },
    {
      "epoch": 0.16325,
      "grad_norm": 0.7461714148521423,
      "learning_rate": 0.00028150295385682126,
      "loss": 4.011,
      "step": 78360
    },
    {
      "epoch": 0.16327083333333334,
      "grad_norm": 0.8704186081886292,
      "learning_rate": 0.0002814982109930366,
      "loss": 3.9772,
      "step": 78370
    },
    {
      "epoch": 0.16329166666666667,
      "grad_norm": 0.8055309653282166,
      "learning_rate": 0.0002814934675612317,
      "loss": 3.8095,
      "step": 78380
    },
    {
      "epoch": 0.1633125,
      "grad_norm": 0.8662627339363098,
      "learning_rate": 0.00028148872356142707,
      "loss": 3.9857,
      "step": 78390
    },
    {
      "epoch": 0.16333333333333333,
      "grad_norm": 0.8140546083450317,
      "learning_rate": 0.00028148397899364317,
      "loss": 3.792,
      "step": 78400
    },
    {
      "epoch": 0.16335416666666666,
      "grad_norm": 0.6865202188491821,
      "learning_rate": 0.0002814792338579006,
      "loss": 3.9134,
      "step": 78410
    },
    {
      "epoch": 0.163375,
      "grad_norm": 0.7429100275039673,
      "learning_rate": 0.0002814744881542198,
      "loss": 4.079,
      "step": 78420
    },
    {
      "epoch": 0.16339583333333332,
      "grad_norm": 0.7780461311340332,
      "learning_rate": 0.00028146974188262116,
      "loss": 3.8791,
      "step": 78430
    },
    {
      "epoch": 0.16341666666666665,
      "grad_norm": 0.7875534296035767,
      "learning_rate": 0.00028146499504312525,
      "loss": 3.9419,
      "step": 78440
    },
    {
      "epoch": 0.1634375,
      "grad_norm": 1.051367998123169,
      "learning_rate": 0.00028146024763575265,
      "loss": 3.8882,
      "step": 78450
    },
    {
      "epoch": 0.16345833333333334,
      "grad_norm": 0.7486383318901062,
      "learning_rate": 0.00028145549966052385,
      "loss": 3.9927,
      "step": 78460
    },
    {
      "epoch": 0.16347916666666668,
      "grad_norm": 0.778175950050354,
      "learning_rate": 0.0002814507511174593,
      "loss": 3.7165,
      "step": 78470
    },
    {
      "epoch": 0.1635,
      "grad_norm": 0.7930928468704224,
      "learning_rate": 0.0002814460020065795,
      "loss": 3.9428,
      "step": 78480
    },
    {
      "epoch": 0.16352083333333334,
      "grad_norm": 0.8237566947937012,
      "learning_rate": 0.00028144125232790505,
      "loss": 3.934,
      "step": 78490
    },
    {
      "epoch": 0.16354166666666667,
      "grad_norm": 0.9469968676567078,
      "learning_rate": 0.0002814365020814564,
      "loss": 4.0879,
      "step": 78500
    },
    {
      "epoch": 0.1635625,
      "grad_norm": 0.797243595123291,
      "learning_rate": 0.0002814317512672541,
      "loss": 3.9702,
      "step": 78510
    },
    {
      "epoch": 0.16358333333333333,
      "grad_norm": 0.7317516207695007,
      "learning_rate": 0.0002814269998853186,
      "loss": 3.9352,
      "step": 78520
    },
    {
      "epoch": 0.16360416666666666,
      "grad_norm": 0.8259995579719543,
      "learning_rate": 0.00028142224793567056,
      "loss": 3.8832,
      "step": 78530
    },
    {
      "epoch": 0.163625,
      "grad_norm": 0.8196825981140137,
      "learning_rate": 0.0002814174954183304,
      "loss": 3.9699,
      "step": 78540
    },
    {
      "epoch": 0.16364583333333332,
      "grad_norm": 0.7598574757575989,
      "learning_rate": 0.0002814127423333187,
      "loss": 4.1293,
      "step": 78550
    },
    {
      "epoch": 0.16366666666666665,
      "grad_norm": 0.759049654006958,
      "learning_rate": 0.00028140798868065596,
      "loss": 4.0397,
      "step": 78560
    },
    {
      "epoch": 0.1636875,
      "grad_norm": 0.710602879524231,
      "learning_rate": 0.0002814032344603627,
      "loss": 3.7885,
      "step": 78570
    },
    {
      "epoch": 0.16370833333333334,
      "grad_norm": 0.74116051197052,
      "learning_rate": 0.00028139847967245945,
      "loss": 3.9658,
      "step": 78580
    },
    {
      "epoch": 0.16372916666666668,
      "grad_norm": 0.7533986568450928,
      "learning_rate": 0.00028139372431696687,
      "loss": 3.8657,
      "step": 78590
    },
    {
      "epoch": 0.16375,
      "grad_norm": 1.1377589702606201,
      "learning_rate": 0.00028138896839390536,
      "loss": 3.9384,
      "step": 78600
    },
    {
      "epoch": 0.16377083333333334,
      "grad_norm": 0.6965270042419434,
      "learning_rate": 0.0002813842119032955,
      "loss": 4.0344,
      "step": 78610
    },
    {
      "epoch": 0.16379166666666667,
      "grad_norm": 0.7911800146102905,
      "learning_rate": 0.00028137945484515785,
      "loss": 3.8957,
      "step": 78620
    },
    {
      "epoch": 0.1638125,
      "grad_norm": 0.8753644227981567,
      "learning_rate": 0.00028137469721951295,
      "loss": 3.9026,
      "step": 78630
    },
    {
      "epoch": 0.16383333333333333,
      "grad_norm": 0.639029860496521,
      "learning_rate": 0.0002813699390263814,
      "loss": 4.1008,
      "step": 78640
    },
    {
      "epoch": 0.16385416666666666,
      "grad_norm": 0.8278228044509888,
      "learning_rate": 0.0002813651802657837,
      "loss": 3.8747,
      "step": 78650
    },
    {
      "epoch": 0.163875,
      "grad_norm": 0.7701707482337952,
      "learning_rate": 0.0002813604209377404,
      "loss": 4.0514,
      "step": 78660
    },
    {
      "epoch": 0.16389583333333332,
      "grad_norm": 0.7326090931892395,
      "learning_rate": 0.00028135566104227214,
      "loss": 3.9016,
      "step": 78670
    },
    {
      "epoch": 0.16391666666666665,
      "grad_norm": 0.7848449945449829,
      "learning_rate": 0.00028135090057939934,
      "loss": 4.0841,
      "step": 78680
    },
    {
      "epoch": 0.1639375,
      "grad_norm": 0.9120119214057922,
      "learning_rate": 0.00028134613954914267,
      "loss": 3.7416,
      "step": 78690
    },
    {
      "epoch": 0.16395833333333334,
      "grad_norm": 0.7111124992370605,
      "learning_rate": 0.0002813413779515227,
      "loss": 3.9341,
      "step": 78700
    },
    {
      "epoch": 0.16397916666666668,
      "grad_norm": 0.7646217942237854,
      "learning_rate": 0.0002813366157865599,
      "loss": 4.0073,
      "step": 78710
    },
    {
      "epoch": 0.164,
      "grad_norm": 0.9693976640701294,
      "learning_rate": 0.00028133185305427496,
      "loss": 4.006,
      "step": 78720
    },
    {
      "epoch": 0.16402083333333334,
      "grad_norm": 0.7938714623451233,
      "learning_rate": 0.0002813270897546884,
      "loss": 3.8783,
      "step": 78730
    },
    {
      "epoch": 0.16404166666666667,
      "grad_norm": 0.7984306216239929,
      "learning_rate": 0.00028132232588782077,
      "loss": 3.7759,
      "step": 78740
    },
    {
      "epoch": 0.1640625,
      "grad_norm": 0.8953321576118469,
      "learning_rate": 0.0002813175614536927,
      "loss": 4.0683,
      "step": 78750
    },
    {
      "epoch": 0.16408333333333333,
      "grad_norm": 0.6818082928657532,
      "learning_rate": 0.0002813127964523247,
      "loss": 3.9356,
      "step": 78760
    },
    {
      "epoch": 0.16410416666666666,
      "grad_norm": 0.8062520027160645,
      "learning_rate": 0.0002813080308837374,
      "loss": 3.9032,
      "step": 78770
    },
    {
      "epoch": 0.164125,
      "grad_norm": 0.7801048755645752,
      "learning_rate": 0.0002813032647479514,
      "loss": 4.067,
      "step": 78780
    },
    {
      "epoch": 0.16414583333333332,
      "grad_norm": 0.8505407571792603,
      "learning_rate": 0.0002812984980449873,
      "loss": 3.9753,
      "step": 78790
    },
    {
      "epoch": 0.16416666666666666,
      "grad_norm": 0.7905470132827759,
      "learning_rate": 0.0002812937307748656,
      "loss": 4.0678,
      "step": 78800
    },
    {
      "epoch": 0.1641875,
      "grad_norm": 0.6858739256858826,
      "learning_rate": 0.000281288962937607,
      "loss": 3.8236,
      "step": 78810
    },
    {
      "epoch": 0.16420833333333335,
      "grad_norm": 0.7694026827812195,
      "learning_rate": 0.00028128419453323205,
      "loss": 4.0352,
      "step": 78820
    },
    {
      "epoch": 0.16422916666666668,
      "grad_norm": 0.7331535816192627,
      "learning_rate": 0.00028127942556176134,
      "loss": 4.0846,
      "step": 78830
    },
    {
      "epoch": 0.16425,
      "grad_norm": 0.7223294973373413,
      "learning_rate": 0.00028127465602321544,
      "loss": 3.9307,
      "step": 78840
    },
    {
      "epoch": 0.16427083333333334,
      "grad_norm": 0.7279050946235657,
      "learning_rate": 0.000281269885917615,
      "loss": 4.1205,
      "step": 78850
    },
    {
      "epoch": 0.16429166666666667,
      "grad_norm": 0.6930234432220459,
      "learning_rate": 0.00028126511524498066,
      "loss": 4.0908,
      "step": 78860
    },
    {
      "epoch": 0.1643125,
      "grad_norm": 0.8562779426574707,
      "learning_rate": 0.00028126034400533293,
      "loss": 3.9442,
      "step": 78870
    },
    {
      "epoch": 0.16433333333333333,
      "grad_norm": 0.9261311292648315,
      "learning_rate": 0.0002812555721986925,
      "loss": 4.1227,
      "step": 78880
    },
    {
      "epoch": 0.16435416666666666,
      "grad_norm": 0.7066105008125305,
      "learning_rate": 0.00028125079982507995,
      "loss": 4.1251,
      "step": 78890
    },
    {
      "epoch": 0.164375,
      "grad_norm": 0.825730562210083,
      "learning_rate": 0.00028124602688451585,
      "loss": 3.8554,
      "step": 78900
    },
    {
      "epoch": 0.16439583333333332,
      "grad_norm": 0.6633230447769165,
      "learning_rate": 0.0002812412533770209,
      "loss": 3.9867,
      "step": 78910
    },
    {
      "epoch": 0.16441666666666666,
      "grad_norm": 0.726375937461853,
      "learning_rate": 0.0002812364793026157,
      "loss": 3.7262,
      "step": 78920
    },
    {
      "epoch": 0.1644375,
      "grad_norm": 0.8670837879180908,
      "learning_rate": 0.00028123170466132084,
      "loss": 4.0819,
      "step": 78930
    },
    {
      "epoch": 0.16445833333333335,
      "grad_norm": 0.7781756520271301,
      "learning_rate": 0.00028122692945315694,
      "loss": 3.9881,
      "step": 78940
    },
    {
      "epoch": 0.16447916666666668,
      "grad_norm": 0.7366481423377991,
      "learning_rate": 0.00028122215367814467,
      "loss": 3.9541,
      "step": 78950
    },
    {
      "epoch": 0.1645,
      "grad_norm": 0.7142907381057739,
      "learning_rate": 0.0002812173773363047,
      "loss": 3.9786,
      "step": 78960
    },
    {
      "epoch": 0.16452083333333334,
      "grad_norm": 0.7798681855201721,
      "learning_rate": 0.0002812126004276575,
      "loss": 3.7906,
      "step": 78970
    },
    {
      "epoch": 0.16454166666666667,
      "grad_norm": 0.7758227586746216,
      "learning_rate": 0.00028120782295222384,
      "loss": 3.8771,
      "step": 78980
    },
    {
      "epoch": 0.1645625,
      "grad_norm": 0.79195636510849,
      "learning_rate": 0.0002812030449100243,
      "loss": 3.8738,
      "step": 78990
    },
    {
      "epoch": 0.16458333333333333,
      "grad_norm": 0.836733877658844,
      "learning_rate": 0.0002811982663010796,
      "loss": 3.9531,
      "step": 79000
    },
    {
      "epoch": 0.16458333333333333,
      "eval_loss": 4.274040699005127,
      "eval_runtime": 10.5566,
      "eval_samples_per_second": 0.947,
      "eval_steps_per_second": 0.284,
      "step": 79000
    },
    {
      "epoch": 0.16460416666666666,
      "grad_norm": 0.7327297329902649,
      "learning_rate": 0.00028119348712541027,
      "loss": 4.0301,
      "step": 79010
    },
    {
      "epoch": 0.164625,
      "grad_norm": 0.7065144777297974,
      "learning_rate": 0.000281188707383037,
      "loss": 4.0149,
      "step": 79020
    },
    {
      "epoch": 0.16464583333333332,
      "grad_norm": 0.7505620718002319,
      "learning_rate": 0.00028118392707398047,
      "loss": 4.2055,
      "step": 79030
    },
    {
      "epoch": 0.16466666666666666,
      "grad_norm": 0.7665283679962158,
      "learning_rate": 0.0002811791461982613,
      "loss": 4.085,
      "step": 79040
    },
    {
      "epoch": 0.1646875,
      "grad_norm": 0.7255980968475342,
      "learning_rate": 0.0002811743647559001,
      "loss": 3.9971,
      "step": 79050
    },
    {
      "epoch": 0.16470833333333335,
      "grad_norm": 0.7955706119537354,
      "learning_rate": 0.0002811695827469176,
      "loss": 4.0807,
      "step": 79060
    },
    {
      "epoch": 0.16472916666666668,
      "grad_norm": 0.6661986112594604,
      "learning_rate": 0.00028116480017133445,
      "loss": 4.0839,
      "step": 79070
    },
    {
      "epoch": 0.16475,
      "grad_norm": 0.7678513526916504,
      "learning_rate": 0.0002811600170291713,
      "loss": 4.0343,
      "step": 79080
    },
    {
      "epoch": 0.16477083333333334,
      "grad_norm": 0.7826816439628601,
      "learning_rate": 0.00028115523332044874,
      "loss": 4.0307,
      "step": 79090
    },
    {
      "epoch": 0.16479166666666667,
      "grad_norm": 0.7666749954223633,
      "learning_rate": 0.0002811504490451875,
      "loss": 3.8973,
      "step": 79100
    },
    {
      "epoch": 0.1648125,
      "grad_norm": 0.7267382740974426,
      "learning_rate": 0.0002811456642034082,
      "loss": 4.0905,
      "step": 79110
    },
    {
      "epoch": 0.16483333333333333,
      "grad_norm": 0.7018510699272156,
      "learning_rate": 0.0002811408787951316,
      "loss": 4.3171,
      "step": 79120
    },
    {
      "epoch": 0.16485416666666666,
      "grad_norm": 0.8804318308830261,
      "learning_rate": 0.00028113609282037826,
      "loss": 3.9313,
      "step": 79130
    },
    {
      "epoch": 0.164875,
      "grad_norm": 0.7506440281867981,
      "learning_rate": 0.0002811313062791689,
      "loss": 3.8905,
      "step": 79140
    },
    {
      "epoch": 0.16489583333333332,
      "grad_norm": 0.7500459551811218,
      "learning_rate": 0.00028112651917152427,
      "loss": 3.985,
      "step": 79150
    },
    {
      "epoch": 0.16491666666666666,
      "grad_norm": 0.8562813997268677,
      "learning_rate": 0.00028112173149746493,
      "loss": 3.8087,
      "step": 79160
    },
    {
      "epoch": 0.1649375,
      "grad_norm": 0.7789769768714905,
      "learning_rate": 0.0002811169432570116,
      "loss": 3.8242,
      "step": 79170
    },
    {
      "epoch": 0.16495833333333335,
      "grad_norm": 0.7035313844680786,
      "learning_rate": 0.00028111215445018504,
      "loss": 4.0342,
      "step": 79180
    },
    {
      "epoch": 0.16497916666666668,
      "grad_norm": 0.7942529916763306,
      "learning_rate": 0.0002811073650770058,
      "loss": 3.8708,
      "step": 79190
    },
    {
      "epoch": 0.165,
      "grad_norm": 0.697306215763092,
      "learning_rate": 0.0002811025751374947,
      "loss": 4.047,
      "step": 79200
    },
    {
      "epoch": 0.16502083333333334,
      "grad_norm": 0.8313982486724854,
      "learning_rate": 0.00028109778463167236,
      "loss": 3.9808,
      "step": 79210
    },
    {
      "epoch": 0.16504166666666667,
      "grad_norm": 0.799018383026123,
      "learning_rate": 0.0002810929935595594,
      "loss": 3.9431,
      "step": 79220
    },
    {
      "epoch": 0.1650625,
      "grad_norm": 0.8817393779754639,
      "learning_rate": 0.0002810882019211767,
      "loss": 3.943,
      "step": 79230
    },
    {
      "epoch": 0.16508333333333333,
      "grad_norm": 0.7654802203178406,
      "learning_rate": 0.00028108340971654477,
      "loss": 4.0624,
      "step": 79240
    },
    {
      "epoch": 0.16510416666666666,
      "grad_norm": 0.7417361736297607,
      "learning_rate": 0.00028107861694568446,
      "loss": 4.0455,
      "step": 79250
    },
    {
      "epoch": 0.165125,
      "grad_norm": 0.7481659650802612,
      "learning_rate": 0.0002810738236086164,
      "loss": 3.9971,
      "step": 79260
    },
    {
      "epoch": 0.16514583333333333,
      "grad_norm": 0.6726270318031311,
      "learning_rate": 0.0002810690297053613,
      "loss": 4.1322,
      "step": 79270
    },
    {
      "epoch": 0.16516666666666666,
      "grad_norm": 0.734876275062561,
      "learning_rate": 0.00028106423523593986,
      "loss": 3.9241,
      "step": 79280
    },
    {
      "epoch": 0.1651875,
      "grad_norm": 0.7638274431228638,
      "learning_rate": 0.0002810594402003728,
      "loss": 4.192,
      "step": 79290
    },
    {
      "epoch": 0.16520833333333335,
      "grad_norm": 0.8016508221626282,
      "learning_rate": 0.00028105464459868084,
      "loss": 4.1062,
      "step": 79300
    },
    {
      "epoch": 0.16522916666666668,
      "grad_norm": 0.9594808220863342,
      "learning_rate": 0.0002810498484308847,
      "loss": 3.9626,
      "step": 79310
    },
    {
      "epoch": 0.16525,
      "grad_norm": 0.7960378527641296,
      "learning_rate": 0.00028104505169700513,
      "loss": 3.8336,
      "step": 79320
    },
    {
      "epoch": 0.16527083333333334,
      "grad_norm": 0.7224286794662476,
      "learning_rate": 0.00028104025439706275,
      "loss": 3.8021,
      "step": 79330
    },
    {
      "epoch": 0.16529166666666667,
      "grad_norm": 0.7468209862709045,
      "learning_rate": 0.0002810354565310783,
      "loss": 3.9629,
      "step": 79340
    },
    {
      "epoch": 0.1653125,
      "grad_norm": 0.7305186986923218,
      "learning_rate": 0.0002810306580990726,
      "loss": 3.9092,
      "step": 79350
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 0.9614372253417969,
      "learning_rate": 0.00028102585910106634,
      "loss": 3.95,
      "step": 79360
    },
    {
      "epoch": 0.16535416666666666,
      "grad_norm": 1.5901360511779785,
      "learning_rate": 0.0002810210595370802,
      "loss": 4.1231,
      "step": 79370
    },
    {
      "epoch": 0.165375,
      "grad_norm": 0.7954540848731995,
      "learning_rate": 0.00028101625940713497,
      "loss": 4.2821,
      "step": 79380
    },
    {
      "epoch": 0.16539583333333333,
      "grad_norm": 0.7796814441680908,
      "learning_rate": 0.00028101145871125134,
      "loss": 4.0236,
      "step": 79390
    },
    {
      "epoch": 0.16541666666666666,
      "grad_norm": 0.7338184714317322,
      "learning_rate": 0.00028100665744945006,
      "loss": 3.9432,
      "step": 79400
    },
    {
      "epoch": 0.1654375,
      "grad_norm": 0.7124261260032654,
      "learning_rate": 0.0002810018556217519,
      "loss": 3.8748,
      "step": 79410
    },
    {
      "epoch": 0.16545833333333335,
      "grad_norm": 0.8054860234260559,
      "learning_rate": 0.00028099705322817757,
      "loss": 3.8258,
      "step": 79420
    },
    {
      "epoch": 0.16547916666666668,
      "grad_norm": 0.7687973380088806,
      "learning_rate": 0.0002809922502687478,
      "loss": 4.0275,
      "step": 79430
    },
    {
      "epoch": 0.1655,
      "grad_norm": 0.7981812357902527,
      "learning_rate": 0.00028098744674348336,
      "loss": 4.0861,
      "step": 79440
    },
    {
      "epoch": 0.16552083333333334,
      "grad_norm": 0.6536878943443298,
      "learning_rate": 0.000280982642652405,
      "loss": 3.8323,
      "step": 79450
    },
    {
      "epoch": 0.16554166666666667,
      "grad_norm": 0.7830265164375305,
      "learning_rate": 0.00028097783799553355,
      "loss": 3.8333,
      "step": 79460
    },
    {
      "epoch": 0.1655625,
      "grad_norm": 0.7079572081565857,
      "learning_rate": 0.0002809730327728896,
      "loss": 4.0455,
      "step": 79470
    },
    {
      "epoch": 0.16558333333333333,
      "grad_norm": 0.7992717027664185,
      "learning_rate": 0.000280968226984494,
      "loss": 3.968,
      "step": 79480
    },
    {
      "epoch": 0.16560416666666666,
      "grad_norm": 0.8496853709220886,
      "learning_rate": 0.0002809634206303675,
      "loss": 3.8516,
      "step": 79490
    },
    {
      "epoch": 0.165625,
      "grad_norm": 0.9133227467536926,
      "learning_rate": 0.0002809586137105309,
      "loss": 3.9876,
      "step": 79500
    },
    {
      "epoch": 0.16564583333333333,
      "grad_norm": 0.7644991278648376,
      "learning_rate": 0.0002809538062250049,
      "loss": 4.1199,
      "step": 79510
    },
    {
      "epoch": 0.16566666666666666,
      "grad_norm": 0.7046902775764465,
      "learning_rate": 0.0002809489981738103,
      "loss": 3.983,
      "step": 79520
    },
    {
      "epoch": 0.1656875,
      "grad_norm": 0.8305380344390869,
      "learning_rate": 0.00028094418955696787,
      "loss": 3.8723,
      "step": 79530
    },
    {
      "epoch": 0.16570833333333335,
      "grad_norm": 0.7289179563522339,
      "learning_rate": 0.00028093938037449835,
      "loss": 4.0626,
      "step": 79540
    },
    {
      "epoch": 0.16572916666666668,
      "grad_norm": 0.7896987199783325,
      "learning_rate": 0.0002809345706264225,
      "loss": 3.9664,
      "step": 79550
    },
    {
      "epoch": 0.16575,
      "grad_norm": 0.8748692870140076,
      "learning_rate": 0.00028092976031276123,
      "loss": 3.8873,
      "step": 79560
    },
    {
      "epoch": 0.16577083333333334,
      "grad_norm": 0.763181209564209,
      "learning_rate": 0.00028092494943353515,
      "loss": 4.1144,
      "step": 79570
    },
    {
      "epoch": 0.16579166666666667,
      "grad_norm": 0.7084277868270874,
      "learning_rate": 0.0002809201379887651,
      "loss": 3.9035,
      "step": 79580
    },
    {
      "epoch": 0.1658125,
      "grad_norm": 0.7882450819015503,
      "learning_rate": 0.00028091532597847193,
      "loss": 4.0627,
      "step": 79590
    },
    {
      "epoch": 0.16583333333333333,
      "grad_norm": 0.7391655445098877,
      "learning_rate": 0.0002809105134026763,
      "loss": 3.9874,
      "step": 79600
    },
    {
      "epoch": 0.16585416666666666,
      "grad_norm": 0.6247223615646362,
      "learning_rate": 0.00028090570026139913,
      "loss": 3.8176,
      "step": 79610
    },
    {
      "epoch": 0.165875,
      "grad_norm": 0.7402728796005249,
      "learning_rate": 0.00028090088655466117,
      "loss": 3.9619,
      "step": 79620
    },
    {
      "epoch": 0.16589583333333333,
      "grad_norm": 0.7551479935646057,
      "learning_rate": 0.0002808960722824831,
      "loss": 3.979,
      "step": 79630
    },
    {
      "epoch": 0.16591666666666666,
      "grad_norm": 0.8004513382911682,
      "learning_rate": 0.0002808912574448859,
      "loss": 3.9965,
      "step": 79640
    },
    {
      "epoch": 0.1659375,
      "grad_norm": 0.7752111554145813,
      "learning_rate": 0.00028088644204189023,
      "loss": 4.0278,
      "step": 79650
    },
    {
      "epoch": 0.16595833333333335,
      "grad_norm": 0.6938941478729248,
      "learning_rate": 0.000280881626073517,
      "loss": 4.0134,
      "step": 79660
    },
    {
      "epoch": 0.16597916666666668,
      "grad_norm": 0.7550760507583618,
      "learning_rate": 0.0002808768095397869,
      "loss": 3.9678,
      "step": 79670
    },
    {
      "epoch": 0.166,
      "grad_norm": 0.7024582624435425,
      "learning_rate": 0.0002808719924407208,
      "loss": 4.1876,
      "step": 79680
    },
    {
      "epoch": 0.16602083333333334,
      "grad_norm": 0.7355544567108154,
      "learning_rate": 0.00028086717477633947,
      "loss": 3.8906,
      "step": 79690
    },
    {
      "epoch": 0.16604166666666667,
      "grad_norm": 0.7261409759521484,
      "learning_rate": 0.00028086235654666377,
      "loss": 3.8891,
      "step": 79700
    },
    {
      "epoch": 0.1660625,
      "grad_norm": 0.7331125736236572,
      "learning_rate": 0.0002808575377517145,
      "loss": 3.8622,
      "step": 79710
    },
    {
      "epoch": 0.16608333333333333,
      "grad_norm": 0.6785262823104858,
      "learning_rate": 0.00028085271839151246,
      "loss": 3.8791,
      "step": 79720
    },
    {
      "epoch": 0.16610416666666666,
      "grad_norm": 0.7882601022720337,
      "learning_rate": 0.0002808478984660785,
      "loss": 3.9126,
      "step": 79730
    },
    {
      "epoch": 0.166125,
      "grad_norm": 0.8628820180892944,
      "learning_rate": 0.0002808430779754333,
      "loss": 3.8392,
      "step": 79740
    },
    {
      "epoch": 0.16614583333333333,
      "grad_norm": 0.7681230306625366,
      "learning_rate": 0.00028083825691959784,
      "loss": 4.0293,
      "step": 79750
    },
    {
      "epoch": 0.16616666666666666,
      "grad_norm": 0.7893106937408447,
      "learning_rate": 0.000280833435298593,
      "loss": 3.9894,
      "step": 79760
    },
    {
      "epoch": 0.1661875,
      "grad_norm": 1.605272650718689,
      "learning_rate": 0.0002808286131124394,
      "loss": 3.9703,
      "step": 79770
    },
    {
      "epoch": 0.16620833333333335,
      "grad_norm": 0.8590608835220337,
      "learning_rate": 0.000280823790361158,
      "loss": 3.9137,
      "step": 79780
    },
    {
      "epoch": 0.16622916666666668,
      "grad_norm": 0.7291718125343323,
      "learning_rate": 0.00028081896704476963,
      "loss": 3.972,
      "step": 79790
    },
    {
      "epoch": 0.16625,
      "grad_norm": 0.7869355082511902,
      "learning_rate": 0.00028081414316329513,
      "loss": 4.0359,
      "step": 79800
    },
    {
      "epoch": 0.16627083333333334,
      "grad_norm": 0.8046999573707581,
      "learning_rate": 0.00028080931871675527,
      "loss": 4.0786,
      "step": 79810
    },
    {
      "epoch": 0.16629166666666667,
      "grad_norm": 0.7285691499710083,
      "learning_rate": 0.00028080449370517093,
      "loss": 4.1393,
      "step": 79820
    },
    {
      "epoch": 0.1663125,
      "grad_norm": 0.8584742546081543,
      "learning_rate": 0.000280799668128563,
      "loss": 4.04,
      "step": 79830
    },
    {
      "epoch": 0.16633333333333333,
      "grad_norm": 0.7154002785682678,
      "learning_rate": 0.0002807948419869522,
      "loss": 3.9499,
      "step": 79840
    },
    {
      "epoch": 0.16635416666666666,
      "grad_norm": 0.7684343457221985,
      "learning_rate": 0.0002807900152803595,
      "loss": 3.9646,
      "step": 79850
    },
    {
      "epoch": 0.166375,
      "grad_norm": 0.7506988644599915,
      "learning_rate": 0.00028078518800880566,
      "loss": 3.9211,
      "step": 79860
    },
    {
      "epoch": 0.16639583333333333,
      "grad_norm": 0.7584805488586426,
      "learning_rate": 0.0002807803601723116,
      "loss": 4.0662,
      "step": 79870
    },
    {
      "epoch": 0.16641666666666666,
      "grad_norm": 0.8655499219894409,
      "learning_rate": 0.0002807755317708982,
      "loss": 3.8505,
      "step": 79880
    },
    {
      "epoch": 0.1664375,
      "grad_norm": 0.7434529662132263,
      "learning_rate": 0.00028077070280458624,
      "loss": 4.0159,
      "step": 79890
    },
    {
      "epoch": 0.16645833333333335,
      "grad_norm": 0.9914050698280334,
      "learning_rate": 0.0002807658732733966,
      "loss": 4.0689,
      "step": 79900
    },
    {
      "epoch": 0.16647916666666668,
      "grad_norm": 0.8440589904785156,
      "learning_rate": 0.00028076104317735013,
      "loss": 3.9918,
      "step": 79910
    },
    {
      "epoch": 0.1665,
      "grad_norm": 0.7226964235305786,
      "learning_rate": 0.0002807562125164677,
      "loss": 3.9756,
      "step": 79920
    },
    {
      "epoch": 0.16652083333333334,
      "grad_norm": 0.8264700174331665,
      "learning_rate": 0.00028075138129077026,
      "loss": 3.7759,
      "step": 79930
    },
    {
      "epoch": 0.16654166666666667,
      "grad_norm": 0.7220835089683533,
      "learning_rate": 0.00028074654950027857,
      "loss": 3.9762,
      "step": 79940
    },
    {
      "epoch": 0.1665625,
      "grad_norm": 0.7459014058113098,
      "learning_rate": 0.0002807417171450135,
      "loss": 3.7879,
      "step": 79950
    },
    {
      "epoch": 0.16658333333333333,
      "grad_norm": 0.8057001829147339,
      "learning_rate": 0.000280736884224996,
      "loss": 3.936,
      "step": 79960
    },
    {
      "epoch": 0.16660416666666666,
      "grad_norm": 0.7922872304916382,
      "learning_rate": 0.0002807320507402469,
      "loss": 3.9335,
      "step": 79970
    },
    {
      "epoch": 0.166625,
      "grad_norm": 0.8780884146690369,
      "learning_rate": 0.00028072721669078715,
      "loss": 3.9507,
      "step": 79980
    },
    {
      "epoch": 0.16664583333333333,
      "grad_norm": 0.8475663065910339,
      "learning_rate": 0.0002807223820766375,
      "loss": 3.7474,
      "step": 79990
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 1.1149990558624268,
      "learning_rate": 0.0002807175468978189,
      "loss": 3.8218,
      "step": 80000
    },
    {
      "epoch": 0.16666666666666666,
      "eval_loss": 4.279177665710449,
      "eval_runtime": 13.5557,
      "eval_samples_per_second": 0.738,
      "eval_steps_per_second": 0.221,
      "step": 80000
    },
    {
      "epoch": 0.1666875,
      "grad_norm": 0.8452630639076233,
      "learning_rate": 0.0002807127111543523,
      "loss": 3.9662,
      "step": 80010
    },
    {
      "epoch": 0.16670833333333332,
      "grad_norm": 0.8235986828804016,
      "learning_rate": 0.0002807078748462584,
      "loss": 3.7763,
      "step": 80020
    },
    {
      "epoch": 0.16672916666666668,
      "grad_norm": 1.0518958568572998,
      "learning_rate": 0.0002807030379735583,
      "loss": 3.9067,
      "step": 80030
    },
    {
      "epoch": 0.16675,
      "grad_norm": 0.9278172254562378,
      "learning_rate": 0.0002806982005362728,
      "loss": 3.7963,
      "step": 80040
    },
    {
      "epoch": 0.16677083333333334,
      "grad_norm": 0.7798091173171997,
      "learning_rate": 0.0002806933625344229,
      "loss": 4.0174,
      "step": 80050
    },
    {
      "epoch": 0.16679166666666667,
      "grad_norm": 0.8742340207099915,
      "learning_rate": 0.0002806885239680293,
      "loss": 3.9202,
      "step": 80060
    },
    {
      "epoch": 0.1668125,
      "grad_norm": 0.9284462928771973,
      "learning_rate": 0.000280683684837113,
      "loss": 3.7859,
      "step": 80070
    },
    {
      "epoch": 0.16683333333333333,
      "grad_norm": 0.8931137323379517,
      "learning_rate": 0.000280678845141695,
      "loss": 3.7204,
      "step": 80080
    },
    {
      "epoch": 0.16685416666666666,
      "grad_norm": 0.7700774073600769,
      "learning_rate": 0.00028067400488179605,
      "loss": 4.0482,
      "step": 80090
    },
    {
      "epoch": 0.166875,
      "grad_norm": 0.7893162965774536,
      "learning_rate": 0.0002806691640574371,
      "loss": 3.8758,
      "step": 80100
    },
    {
      "epoch": 0.16689583333333333,
      "grad_norm": 0.8157781958580017,
      "learning_rate": 0.0002806643226686391,
      "loss": 4.164,
      "step": 80110
    },
    {
      "epoch": 0.16691666666666666,
      "grad_norm": 0.7681192755699158,
      "learning_rate": 0.000280659480715423,
      "loss": 3.8519,
      "step": 80120
    },
    {
      "epoch": 0.1669375,
      "grad_norm": 0.8873482942581177,
      "learning_rate": 0.0002806546381978096,
      "loss": 4.0934,
      "step": 80130
    },
    {
      "epoch": 0.16695833333333332,
      "grad_norm": 0.8485541939735413,
      "learning_rate": 0.00028064979511581987,
      "loss": 3.8956,
      "step": 80140
    },
    {
      "epoch": 0.16697916666666668,
      "grad_norm": 0.8873647451400757,
      "learning_rate": 0.0002806449514694748,
      "loss": 4.0133,
      "step": 80150
    },
    {
      "epoch": 0.167,
      "grad_norm": 1.0057164430618286,
      "learning_rate": 0.00028064010725879524,
      "loss": 3.923,
      "step": 80160
    },
    {
      "epoch": 0.16702083333333334,
      "grad_norm": 0.6553002595901489,
      "learning_rate": 0.0002806352624838021,
      "loss": 4.0175,
      "step": 80170
    },
    {
      "epoch": 0.16704166666666667,
      "grad_norm": 0.811758279800415,
      "learning_rate": 0.0002806304171445164,
      "loss": 3.8816,
      "step": 80180
    },
    {
      "epoch": 0.1670625,
      "grad_norm": 0.7502511143684387,
      "learning_rate": 0.0002806255712409589,
      "loss": 3.997,
      "step": 80190
    },
    {
      "epoch": 0.16708333333333333,
      "grad_norm": 0.7627707719802856,
      "learning_rate": 0.0002806207247731507,
      "loss": 4.0348,
      "step": 80200
    },
    {
      "epoch": 0.16710416666666666,
      "grad_norm": 0.7465724349021912,
      "learning_rate": 0.00028061587774111266,
      "loss": 3.9098,
      "step": 80210
    },
    {
      "epoch": 0.167125,
      "grad_norm": 0.733873724937439,
      "learning_rate": 0.0002806110301448657,
      "loss": 3.9728,
      "step": 80220
    },
    {
      "epoch": 0.16714583333333333,
      "grad_norm": 0.8118357062339783,
      "learning_rate": 0.00028060618198443086,
      "loss": 3.8905,
      "step": 80230
    },
    {
      "epoch": 0.16716666666666666,
      "grad_norm": 0.6868577003479004,
      "learning_rate": 0.00028060133325982897,
      "loss": 3.9723,
      "step": 80240
    },
    {
      "epoch": 0.1671875,
      "grad_norm": 0.9205425381660461,
      "learning_rate": 0.000280596483971081,
      "loss": 4.0445,
      "step": 80250
    },
    {
      "epoch": 0.16720833333333332,
      "grad_norm": 0.8666914701461792,
      "learning_rate": 0.000280591634118208,
      "loss": 3.9385,
      "step": 80260
    },
    {
      "epoch": 0.16722916666666668,
      "grad_norm": 0.7166321873664856,
      "learning_rate": 0.00028058678370123074,
      "loss": 3.6853,
      "step": 80270
    },
    {
      "epoch": 0.16725,
      "grad_norm": 0.9137424230575562,
      "learning_rate": 0.00028058193272017027,
      "loss": 3.9477,
      "step": 80280
    },
    {
      "epoch": 0.16727083333333334,
      "grad_norm": 0.7676709294319153,
      "learning_rate": 0.0002805770811750476,
      "loss": 4.1922,
      "step": 80290
    },
    {
      "epoch": 0.16729166666666667,
      "grad_norm": 0.7563128471374512,
      "learning_rate": 0.00028057222906588354,
      "loss": 3.933,
      "step": 80300
    },
    {
      "epoch": 0.1673125,
      "grad_norm": 0.9271994233131409,
      "learning_rate": 0.0002805673763926992,
      "loss": 3.9907,
      "step": 80310
    },
    {
      "epoch": 0.16733333333333333,
      "grad_norm": 0.7976372241973877,
      "learning_rate": 0.0002805625231555154,
      "loss": 3.9676,
      "step": 80320
    },
    {
      "epoch": 0.16735416666666666,
      "grad_norm": 0.901520848274231,
      "learning_rate": 0.00028055766935435327,
      "loss": 3.8295,
      "step": 80330
    },
    {
      "epoch": 0.167375,
      "grad_norm": 0.7262623310089111,
      "learning_rate": 0.00028055281498923364,
      "loss": 3.8379,
      "step": 80340
    },
    {
      "epoch": 0.16739583333333333,
      "grad_norm": 0.9015292525291443,
      "learning_rate": 0.00028054796006017754,
      "loss": 3.8567,
      "step": 80350
    },
    {
      "epoch": 0.16741666666666666,
      "grad_norm": 0.7392222285270691,
      "learning_rate": 0.00028054310456720593,
      "loss": 4.064,
      "step": 80360
    },
    {
      "epoch": 0.1674375,
      "grad_norm": 0.9553157687187195,
      "learning_rate": 0.0002805382485103398,
      "loss": 3.9364,
      "step": 80370
    },
    {
      "epoch": 0.16745833333333332,
      "grad_norm": 0.712239146232605,
      "learning_rate": 0.00028053339188960005,
      "loss": 4.0212,
      "step": 80380
    },
    {
      "epoch": 0.16747916666666668,
      "grad_norm": 0.761043131351471,
      "learning_rate": 0.00028052853470500775,
      "loss": 3.9499,
      "step": 80390
    },
    {
      "epoch": 0.1675,
      "grad_norm": 0.8301210403442383,
      "learning_rate": 0.00028052367695658386,
      "loss": 3.9665,
      "step": 80400
    },
    {
      "epoch": 0.16752083333333334,
      "grad_norm": 0.9389559030532837,
      "learning_rate": 0.0002805188186443493,
      "loss": 3.9139,
      "step": 80410
    },
    {
      "epoch": 0.16754166666666667,
      "grad_norm": 0.7564241290092468,
      "learning_rate": 0.0002805139597683252,
      "loss": 4.0067,
      "step": 80420
    },
    {
      "epoch": 0.1675625,
      "grad_norm": 0.6750020980834961,
      "learning_rate": 0.00028050910032853234,
      "loss": 3.921,
      "step": 80430
    },
    {
      "epoch": 0.16758333333333333,
      "grad_norm": 0.7333940863609314,
      "learning_rate": 0.0002805042403249919,
      "loss": 3.8761,
      "step": 80440
    },
    {
      "epoch": 0.16760416666666667,
      "grad_norm": 0.7410913705825806,
      "learning_rate": 0.0002804993797577248,
      "loss": 3.865,
      "step": 80450
    },
    {
      "epoch": 0.167625,
      "grad_norm": 0.7607890963554382,
      "learning_rate": 0.000280494518626752,
      "loss": 3.9806,
      "step": 80460
    },
    {
      "epoch": 0.16764583333333333,
      "grad_norm": 0.7862135171890259,
      "learning_rate": 0.00028048965693209453,
      "loss": 3.9377,
      "step": 80470
    },
    {
      "epoch": 0.16766666666666666,
      "grad_norm": 0.8229547142982483,
      "learning_rate": 0.0002804847946737734,
      "loss": 3.9907,
      "step": 80480
    },
    {
      "epoch": 0.1676875,
      "grad_norm": 0.8241860866546631,
      "learning_rate": 0.0002804799318518096,
      "loss": 3.8821,
      "step": 80490
    },
    {
      "epoch": 0.16770833333333332,
      "grad_norm": 0.843778133392334,
      "learning_rate": 0.0002804750684662242,
      "loss": 3.89,
      "step": 80500
    },
    {
      "epoch": 0.16772916666666668,
      "grad_norm": 0.7160305976867676,
      "learning_rate": 0.0002804702045170381,
      "loss": 4.1016,
      "step": 80510
    },
    {
      "epoch": 0.16775,
      "grad_norm": 0.7118239402770996,
      "learning_rate": 0.0002804653400042724,
      "loss": 3.9687,
      "step": 80520
    },
    {
      "epoch": 0.16777083333333334,
      "grad_norm": 0.7526283860206604,
      "learning_rate": 0.00028046047492794805,
      "loss": 4.0954,
      "step": 80530
    },
    {
      "epoch": 0.16779166666666667,
      "grad_norm": 0.7911638021469116,
      "learning_rate": 0.00028045560928808606,
      "loss": 3.9884,
      "step": 80540
    },
    {
      "epoch": 0.1678125,
      "grad_norm": 0.7980467677116394,
      "learning_rate": 0.0002804507430847075,
      "loss": 3.8179,
      "step": 80550
    },
    {
      "epoch": 0.16783333333333333,
      "grad_norm": 0.7775265574455261,
      "learning_rate": 0.00028044587631783334,
      "loss": 3.9125,
      "step": 80560
    },
    {
      "epoch": 0.16785416666666667,
      "grad_norm": 0.6612196564674377,
      "learning_rate": 0.0002804410089874846,
      "loss": 3.9613,
      "step": 80570
    },
    {
      "epoch": 0.167875,
      "grad_norm": 0.7300620675086975,
      "learning_rate": 0.00028043614109368243,
      "loss": 3.9923,
      "step": 80580
    },
    {
      "epoch": 0.16789583333333333,
      "grad_norm": 0.7935642004013062,
      "learning_rate": 0.00028043127263644775,
      "loss": 4.0617,
      "step": 80590
    },
    {
      "epoch": 0.16791666666666666,
      "grad_norm": 0.8007091879844666,
      "learning_rate": 0.00028042640361580155,
      "loss": 3.8146,
      "step": 80600
    },
    {
      "epoch": 0.1679375,
      "grad_norm": 0.7504349946975708,
      "learning_rate": 0.0002804215340317649,
      "loss": 3.8772,
      "step": 80610
    },
    {
      "epoch": 0.16795833333333332,
      "grad_norm": 0.6971269845962524,
      "learning_rate": 0.00028041666388435886,
      "loss": 3.8208,
      "step": 80620
    },
    {
      "epoch": 0.16797916666666668,
      "grad_norm": 0.7043132185935974,
      "learning_rate": 0.0002804117931736045,
      "loss": 3.8472,
      "step": 80630
    },
    {
      "epoch": 0.168,
      "grad_norm": 0.8482775688171387,
      "learning_rate": 0.0002804069218995228,
      "loss": 3.8935,
      "step": 80640
    },
    {
      "epoch": 0.16802083333333334,
      "grad_norm": 0.7840139269828796,
      "learning_rate": 0.0002804020500621348,
      "loss": 3.888,
      "step": 80650
    },
    {
      "epoch": 0.16804166666666667,
      "grad_norm": 0.7546809911727905,
      "learning_rate": 0.00028039717766146154,
      "loss": 3.8702,
      "step": 80660
    },
    {
      "epoch": 0.1680625,
      "grad_norm": 0.8147913813591003,
      "learning_rate": 0.00028039230469752407,
      "loss": 4.02,
      "step": 80670
    },
    {
      "epoch": 0.16808333333333333,
      "grad_norm": 0.8539531230926514,
      "learning_rate": 0.00028038743117034357,
      "loss": 3.943,
      "step": 80680
    },
    {
      "epoch": 0.16810416666666667,
      "grad_norm": 0.8945760726928711,
      "learning_rate": 0.00028038255707994085,
      "loss": 4.0914,
      "step": 80690
    },
    {
      "epoch": 0.168125,
      "grad_norm": 0.8220838904380798,
      "learning_rate": 0.0002803776824263372,
      "loss": 3.9033,
      "step": 80700
    },
    {
      "epoch": 0.16814583333333333,
      "grad_norm": 0.6471647024154663,
      "learning_rate": 0.00028037280720955346,
      "loss": 3.7948,
      "step": 80710
    },
    {
      "epoch": 0.16816666666666666,
      "grad_norm": 0.9927796125411987,
      "learning_rate": 0.00028036793142961086,
      "loss": 3.9242,
      "step": 80720
    },
    {
      "epoch": 0.1681875,
      "grad_norm": 0.7403928637504578,
      "learning_rate": 0.0002803630550865304,
      "loss": 3.9476,
      "step": 80730
    },
    {
      "epoch": 0.16820833333333332,
      "grad_norm": 1.2569527626037598,
      "learning_rate": 0.00028035817818033315,
      "loss": 4.079,
      "step": 80740
    },
    {
      "epoch": 0.16822916666666668,
      "grad_norm": 0.7572879195213318,
      "learning_rate": 0.0002803533007110401,
      "loss": 3.9825,
      "step": 80750
    },
    {
      "epoch": 0.16825,
      "grad_norm": 0.84687739610672,
      "learning_rate": 0.0002803484226786725,
      "loss": 4.0196,
      "step": 80760
    },
    {
      "epoch": 0.16827083333333334,
      "grad_norm": 0.764293372631073,
      "learning_rate": 0.0002803435440832512,
      "loss": 3.83,
      "step": 80770
    },
    {
      "epoch": 0.16829166666666667,
      "grad_norm": 0.8155115246772766,
      "learning_rate": 0.0002803386649247975,
      "loss": 4.1501,
      "step": 80780
    },
    {
      "epoch": 0.1683125,
      "grad_norm": 0.9214715957641602,
      "learning_rate": 0.0002803337852033323,
      "loss": 3.9874,
      "step": 80790
    },
    {
      "epoch": 0.16833333333333333,
      "grad_norm": 0.806868314743042,
      "learning_rate": 0.0002803289049188767,
      "loss": 4.077,
      "step": 80800
    },
    {
      "epoch": 0.16835416666666667,
      "grad_norm": 0.8796967267990112,
      "learning_rate": 0.00028032402407145184,
      "loss": 4.1104,
      "step": 80810
    },
    {
      "epoch": 0.168375,
      "grad_norm": 0.789475679397583,
      "learning_rate": 0.00028031914266107876,
      "loss": 4.1166,
      "step": 80820
    },
    {
      "epoch": 0.16839583333333333,
      "grad_norm": 0.6871716976165771,
      "learning_rate": 0.00028031426068777864,
      "loss": 4.0947,
      "step": 80830
    },
    {
      "epoch": 0.16841666666666666,
      "grad_norm": 0.7051374912261963,
      "learning_rate": 0.00028030937815157246,
      "loss": 3.9045,
      "step": 80840
    },
    {
      "epoch": 0.1684375,
      "grad_norm": 0.809330403804779,
      "learning_rate": 0.0002803044950524813,
      "loss": 3.9822,
      "step": 80850
    },
    {
      "epoch": 0.16845833333333332,
      "grad_norm": 0.9692503213882446,
      "learning_rate": 0.0002802996113905264,
      "loss": 3.9517,
      "step": 80860
    },
    {
      "epoch": 0.16847916666666668,
      "grad_norm": 0.8738134503364563,
      "learning_rate": 0.00028029472716572867,
      "loss": 3.7231,
      "step": 80870
    },
    {
      "epoch": 0.1685,
      "grad_norm": 0.7911787033081055,
      "learning_rate": 0.0002802898423781093,
      "loss": 3.6726,
      "step": 80880
    },
    {
      "epoch": 0.16852083333333334,
      "grad_norm": 0.7951427698135376,
      "learning_rate": 0.0002802849570276894,
      "loss": 4.0394,
      "step": 80890
    },
    {
      "epoch": 0.16854166666666667,
      "grad_norm": 0.810341477394104,
      "learning_rate": 0.0002802800711144901,
      "loss": 3.7436,
      "step": 80900
    },
    {
      "epoch": 0.1685625,
      "grad_norm": 0.9517556428909302,
      "learning_rate": 0.0002802751846385324,
      "loss": 3.8068,
      "step": 80910
    },
    {
      "epoch": 0.16858333333333334,
      "grad_norm": 0.8446322083473206,
      "learning_rate": 0.00028027029759983746,
      "loss": 3.9325,
      "step": 80920
    },
    {
      "epoch": 0.16860416666666667,
      "grad_norm": 0.7706509232521057,
      "learning_rate": 0.00028026540999842646,
      "loss": 3.9307,
      "step": 80930
    },
    {
      "epoch": 0.168625,
      "grad_norm": 0.8258076310157776,
      "learning_rate": 0.0002802605218343204,
      "loss": 4.0252,
      "step": 80940
    },
    {
      "epoch": 0.16864583333333333,
      "grad_norm": 0.87649005651474,
      "learning_rate": 0.0002802556331075405,
      "loss": 3.9053,
      "step": 80950
    },
    {
      "epoch": 0.16866666666666666,
      "grad_norm": 0.8166248798370361,
      "learning_rate": 0.00028025074381810776,
      "loss": 3.9387,
      "step": 80960
    },
    {
      "epoch": 0.1686875,
      "grad_norm": 0.710884153842926,
      "learning_rate": 0.0002802458539660434,
      "loss": 3.8249,
      "step": 80970
    },
    {
      "epoch": 0.16870833333333332,
      "grad_norm": 0.7656628489494324,
      "learning_rate": 0.00028024096355136854,
      "loss": 3.9008,
      "step": 80980
    },
    {
      "epoch": 0.16872916666666668,
      "grad_norm": 0.8113968968391418,
      "learning_rate": 0.0002802360725741042,
      "loss": 3.8273,
      "step": 80990
    },
    {
      "epoch": 0.16875,
      "grad_norm": 0.7586864829063416,
      "learning_rate": 0.0002802311810342716,
      "loss": 3.9225,
      "step": 81000
    },
    {
      "epoch": 0.16875,
      "eval_loss": 4.2763352394104,
      "eval_runtime": 10.2697,
      "eval_samples_per_second": 0.974,
      "eval_steps_per_second": 0.292,
      "step": 81000
    },
    {
      "epoch": 0.16877083333333334,
      "grad_norm": 0.9365801215171814,
      "learning_rate": 0.0002802262889318918,
      "loss": 4.0601,
      "step": 81010
    },
    {
      "epoch": 0.16879166666666667,
      "grad_norm": 0.8260058760643005,
      "learning_rate": 0.00028022139626698606,
      "loss": 3.9112,
      "step": 81020
    },
    {
      "epoch": 0.1688125,
      "grad_norm": 0.8280866146087646,
      "learning_rate": 0.00028021650303957545,
      "loss": 4.0152,
      "step": 81030
    },
    {
      "epoch": 0.16883333333333334,
      "grad_norm": 1.4335800409317017,
      "learning_rate": 0.000280211609249681,
      "loss": 3.9492,
      "step": 81040
    },
    {
      "epoch": 0.16885416666666667,
      "grad_norm": 0.7633799314498901,
      "learning_rate": 0.000280206714897324,
      "loss": 3.8855,
      "step": 81050
    },
    {
      "epoch": 0.168875,
      "grad_norm": 0.6972874402999878,
      "learning_rate": 0.0002802018199825255,
      "loss": 3.8978,
      "step": 81060
    },
    {
      "epoch": 0.16889583333333333,
      "grad_norm": 0.7478734850883484,
      "learning_rate": 0.0002801969245053067,
      "loss": 3.8746,
      "step": 81070
    },
    {
      "epoch": 0.16891666666666666,
      "grad_norm": 0.8007070422172546,
      "learning_rate": 0.0002801920284656887,
      "loss": 3.9347,
      "step": 81080
    },
    {
      "epoch": 0.1689375,
      "grad_norm": 0.7030515670776367,
      "learning_rate": 0.0002801871318636927,
      "loss": 3.8915,
      "step": 81090
    },
    {
      "epoch": 0.16895833333333332,
      "grad_norm": 0.7649484872817993,
      "learning_rate": 0.0002801822346993398,
      "loss": 4.0601,
      "step": 81100
    },
    {
      "epoch": 0.16897916666666668,
      "grad_norm": 0.8628623485565186,
      "learning_rate": 0.00028017733697265117,
      "loss": 3.9757,
      "step": 81110
    },
    {
      "epoch": 0.169,
      "grad_norm": 0.8294559717178345,
      "learning_rate": 0.000280172438683648,
      "loss": 3.8758,
      "step": 81120
    },
    {
      "epoch": 0.16902083333333334,
      "grad_norm": 0.8107723593711853,
      "learning_rate": 0.0002801675398323514,
      "loss": 3.7453,
      "step": 81130
    },
    {
      "epoch": 0.16904166666666667,
      "grad_norm": 0.795534074306488,
      "learning_rate": 0.0002801626404187826,
      "loss": 4.1106,
      "step": 81140
    },
    {
      "epoch": 0.1690625,
      "grad_norm": 0.7420551776885986,
      "learning_rate": 0.0002801577404429626,
      "loss": 4.0992,
      "step": 81150
    },
    {
      "epoch": 0.16908333333333334,
      "grad_norm": 0.8054308891296387,
      "learning_rate": 0.0002801528399049128,
      "loss": 4.01,
      "step": 81160
    },
    {
      "epoch": 0.16910416666666667,
      "grad_norm": 0.8937034010887146,
      "learning_rate": 0.0002801479388046542,
      "loss": 3.9965,
      "step": 81170
    },
    {
      "epoch": 0.169125,
      "grad_norm": 0.7872990965843201,
      "learning_rate": 0.00028014303714220804,
      "loss": 3.9223,
      "step": 81180
    },
    {
      "epoch": 0.16914583333333333,
      "grad_norm": 0.731533944606781,
      "learning_rate": 0.00028013813491759547,
      "loss": 3.929,
      "step": 81190
    },
    {
      "epoch": 0.16916666666666666,
      "grad_norm": 0.7908456921577454,
      "learning_rate": 0.0002801332321308376,
      "loss": 3.8914,
      "step": 81200
    },
    {
      "epoch": 0.1691875,
      "grad_norm": 0.7911894917488098,
      "learning_rate": 0.00028012832878195575,
      "loss": 4.056,
      "step": 81210
    },
    {
      "epoch": 0.16920833333333332,
      "grad_norm": 0.770489513874054,
      "learning_rate": 0.000280123424870971,
      "loss": 3.8683,
      "step": 81220
    },
    {
      "epoch": 0.16922916666666668,
      "grad_norm": 0.7589853405952454,
      "learning_rate": 0.0002801185203979046,
      "loss": 3.8689,
      "step": 81230
    },
    {
      "epoch": 0.16925,
      "grad_norm": 0.8417106866836548,
      "learning_rate": 0.0002801136153627777,
      "loss": 3.9292,
      "step": 81240
    },
    {
      "epoch": 0.16927083333333334,
      "grad_norm": 0.7086093425750732,
      "learning_rate": 0.0002801087097656114,
      "loss": 4.0074,
      "step": 81250
    },
    {
      "epoch": 0.16929166666666667,
      "grad_norm": 0.7774686217308044,
      "learning_rate": 0.00028010380360642703,
      "loss": 3.9733,
      "step": 81260
    },
    {
      "epoch": 0.1693125,
      "grad_norm": 0.8424275517463684,
      "learning_rate": 0.0002800988968852457,
      "loss": 3.9729,
      "step": 81270
    },
    {
      "epoch": 0.16933333333333334,
      "grad_norm": 0.7502890825271606,
      "learning_rate": 0.0002800939896020887,
      "loss": 3.8806,
      "step": 81280
    },
    {
      "epoch": 0.16935416666666667,
      "grad_norm": 0.8206419944763184,
      "learning_rate": 0.0002800890817569771,
      "loss": 4.0774,
      "step": 81290
    },
    {
      "epoch": 0.169375,
      "grad_norm": 0.8923568725585938,
      "learning_rate": 0.00028008417334993217,
      "loss": 3.8803,
      "step": 81300
    },
    {
      "epoch": 0.16939583333333333,
      "grad_norm": 0.7966017723083496,
      "learning_rate": 0.0002800792643809751,
      "loss": 3.9408,
      "step": 81310
    },
    {
      "epoch": 0.16941666666666666,
      "grad_norm": 0.8400110006332397,
      "learning_rate": 0.0002800743548501271,
      "loss": 4.0116,
      "step": 81320
    },
    {
      "epoch": 0.1694375,
      "grad_norm": 0.9517616033554077,
      "learning_rate": 0.00028006944475740943,
      "loss": 3.9417,
      "step": 81330
    },
    {
      "epoch": 0.16945833333333332,
      "grad_norm": 0.8916136026382446,
      "learning_rate": 0.0002800645341028432,
      "loss": 3.9859,
      "step": 81340
    },
    {
      "epoch": 0.16947916666666665,
      "grad_norm": 0.8174871802330017,
      "learning_rate": 0.0002800596228864496,
      "loss": 3.9851,
      "step": 81350
    },
    {
      "epoch": 0.1695,
      "grad_norm": 0.8414157032966614,
      "learning_rate": 0.00028005471110825,
      "loss": 4.0557,
      "step": 81360
    },
    {
      "epoch": 0.16952083333333334,
      "grad_norm": 0.8971309065818787,
      "learning_rate": 0.00028004979876826544,
      "loss": 3.8875,
      "step": 81370
    },
    {
      "epoch": 0.16954166666666667,
      "grad_norm": 0.7312085628509521,
      "learning_rate": 0.00028004488586651737,
      "loss": 3.9962,
      "step": 81380
    },
    {
      "epoch": 0.1695625,
      "grad_norm": 0.7814056277275085,
      "learning_rate": 0.00028003997240302675,
      "loss": 4.0662,
      "step": 81390
    },
    {
      "epoch": 0.16958333333333334,
      "grad_norm": 0.7489016652107239,
      "learning_rate": 0.00028003505837781494,
      "loss": 4.0411,
      "step": 81400
    },
    {
      "epoch": 0.16960416666666667,
      "grad_norm": 0.7263377904891968,
      "learning_rate": 0.00028003014379090314,
      "loss": 3.6851,
      "step": 81410
    },
    {
      "epoch": 0.169625,
      "grad_norm": 0.7704399824142456,
      "learning_rate": 0.00028002522864231265,
      "loss": 4.059,
      "step": 81420
    },
    {
      "epoch": 0.16964583333333333,
      "grad_norm": 0.8734249472618103,
      "learning_rate": 0.00028002031293206456,
      "loss": 3.9703,
      "step": 81430
    },
    {
      "epoch": 0.16966666666666666,
      "grad_norm": 0.8154728412628174,
      "learning_rate": 0.00028001539666018023,
      "loss": 3.912,
      "step": 81440
    },
    {
      "epoch": 0.1696875,
      "grad_norm": 0.7092462778091431,
      "learning_rate": 0.00028001047982668085,
      "loss": 4.0379,
      "step": 81450
    },
    {
      "epoch": 0.16970833333333332,
      "grad_norm": 0.7194523215293884,
      "learning_rate": 0.00028000556243158763,
      "loss": 3.9872,
      "step": 81460
    },
    {
      "epoch": 0.16972916666666665,
      "grad_norm": 0.7849944829940796,
      "learning_rate": 0.00028000064447492186,
      "loss": 3.8286,
      "step": 81470
    },
    {
      "epoch": 0.16975,
      "grad_norm": 0.9588846564292908,
      "learning_rate": 0.0002799957259567048,
      "loss": 4.0981,
      "step": 81480
    },
    {
      "epoch": 0.16977083333333334,
      "grad_norm": 0.8593902587890625,
      "learning_rate": 0.00027999080687695764,
      "loss": 3.9407,
      "step": 81490
    },
    {
      "epoch": 0.16979166666666667,
      "grad_norm": 0.7419275641441345,
      "learning_rate": 0.00027998588723570164,
      "loss": 3.9196,
      "step": 81500
    },
    {
      "epoch": 0.1698125,
      "grad_norm": 0.7268814444541931,
      "learning_rate": 0.00027998096703295804,
      "loss": 3.8543,
      "step": 81510
    },
    {
      "epoch": 0.16983333333333334,
      "grad_norm": 0.8479039072990417,
      "learning_rate": 0.00027997604626874814,
      "loss": 3.8584,
      "step": 81520
    },
    {
      "epoch": 0.16985416666666667,
      "grad_norm": 0.7454650402069092,
      "learning_rate": 0.00027997112494309315,
      "loss": 3.8629,
      "step": 81530
    },
    {
      "epoch": 0.169875,
      "grad_norm": 0.7754976749420166,
      "learning_rate": 0.00027996620305601437,
      "loss": 3.9413,
      "step": 81540
    },
    {
      "epoch": 0.16989583333333333,
      "grad_norm": 0.7925341129302979,
      "learning_rate": 0.000279961280607533,
      "loss": 3.9988,
      "step": 81550
    },
    {
      "epoch": 0.16991666666666666,
      "grad_norm": 0.6735754013061523,
      "learning_rate": 0.0002799563575976704,
      "loss": 3.6264,
      "step": 81560
    },
    {
      "epoch": 0.1699375,
      "grad_norm": 0.7044580578804016,
      "learning_rate": 0.00027995143402644767,
      "loss": 3.8438,
      "step": 81570
    },
    {
      "epoch": 0.16995833333333332,
      "grad_norm": 0.7400422096252441,
      "learning_rate": 0.0002799465098938863,
      "loss": 3.7251,
      "step": 81580
    },
    {
      "epoch": 0.16997916666666665,
      "grad_norm": 0.6878264546394348,
      "learning_rate": 0.00027994158520000734,
      "loss": 3.9619,
      "step": 81590
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8356401324272156,
      "learning_rate": 0.00027993665994483223,
      "loss": 4.0376,
      "step": 81600
    },
    {
      "epoch": 0.17002083333333334,
      "grad_norm": 0.747235119342804,
      "learning_rate": 0.00027993173412838214,
      "loss": 3.7897,
      "step": 81610
    },
    {
      "epoch": 0.17004166666666667,
      "grad_norm": 0.7572356462478638,
      "learning_rate": 0.0002799268077506784,
      "loss": 3.9198,
      "step": 81620
    },
    {
      "epoch": 0.1700625,
      "grad_norm": 0.8312356472015381,
      "learning_rate": 0.0002799218808117423,
      "loss": 3.8251,
      "step": 81630
    },
    {
      "epoch": 0.17008333333333334,
      "grad_norm": 0.7768791913986206,
      "learning_rate": 0.00027991695331159515,
      "loss": 4.0483,
      "step": 81640
    },
    {
      "epoch": 0.17010416666666667,
      "grad_norm": 0.7399845719337463,
      "learning_rate": 0.0002799120252502581,
      "loss": 3.8332,
      "step": 81650
    },
    {
      "epoch": 0.170125,
      "grad_norm": 0.8403314352035522,
      "learning_rate": 0.0002799070966277526,
      "loss": 3.7749,
      "step": 81660
    },
    {
      "epoch": 0.17014583333333333,
      "grad_norm": 0.8226832151412964,
      "learning_rate": 0.00027990216744409977,
      "loss": 3.8442,
      "step": 81670
    },
    {
      "epoch": 0.17016666666666666,
      "grad_norm": 0.8040117025375366,
      "learning_rate": 0.0002798972376993211,
      "loss": 3.857,
      "step": 81680
    },
    {
      "epoch": 0.1701875,
      "grad_norm": 0.7344703674316406,
      "learning_rate": 0.0002798923073934377,
      "loss": 3.8561,
      "step": 81690
    },
    {
      "epoch": 0.17020833333333332,
      "grad_norm": 0.7911918759346008,
      "learning_rate": 0.00027988737652647096,
      "loss": 3.7935,
      "step": 81700
    },
    {
      "epoch": 0.17022916666666665,
      "grad_norm": 0.9366786479949951,
      "learning_rate": 0.0002798824450984422,
      "loss": 3.921,
      "step": 81710
    },
    {
      "epoch": 0.17025,
      "grad_norm": 0.7270379662513733,
      "learning_rate": 0.0002798775131093727,
      "loss": 3.9251,
      "step": 81720
    },
    {
      "epoch": 0.17027083333333334,
      "grad_norm": 0.8347195386886597,
      "learning_rate": 0.0002798725805592837,
      "loss": 3.9917,
      "step": 81730
    },
    {
      "epoch": 0.17029166666666667,
      "grad_norm": 0.9000596404075623,
      "learning_rate": 0.00027986764744819656,
      "loss": 3.9198,
      "step": 81740
    },
    {
      "epoch": 0.1703125,
      "grad_norm": 0.8652284741401672,
      "learning_rate": 0.0002798627137761326,
      "loss": 3.9431,
      "step": 81750
    },
    {
      "epoch": 0.17033333333333334,
      "grad_norm": 0.8584786057472229,
      "learning_rate": 0.00027985777954311317,
      "loss": 4.0206,
      "step": 81760
    },
    {
      "epoch": 0.17035416666666667,
      "grad_norm": 0.7957494854927063,
      "learning_rate": 0.0002798528447491595,
      "loss": 3.8217,
      "step": 81770
    },
    {
      "epoch": 0.170375,
      "grad_norm": 0.7840234041213989,
      "learning_rate": 0.0002798479093942929,
      "loss": 3.8107,
      "step": 81780
    },
    {
      "epoch": 0.17039583333333333,
      "grad_norm": 0.753703773021698,
      "learning_rate": 0.00027984297347853474,
      "loss": 3.979,
      "step": 81790
    },
    {
      "epoch": 0.17041666666666666,
      "grad_norm": 0.7476680874824524,
      "learning_rate": 0.0002798380370019064,
      "loss": 3.9949,
      "step": 81800
    },
    {
      "epoch": 0.1704375,
      "grad_norm": 0.76930832862854,
      "learning_rate": 0.0002798330999644291,
      "loss": 3.8382,
      "step": 81810
    },
    {
      "epoch": 0.17045833333333332,
      "grad_norm": 0.8193716406822205,
      "learning_rate": 0.0002798281623661241,
      "loss": 4.0202,
      "step": 81820
    },
    {
      "epoch": 0.17047916666666665,
      "grad_norm": 0.8611440062522888,
      "learning_rate": 0.000279823224207013,
      "loss": 3.949,
      "step": 81830
    },
    {
      "epoch": 0.1705,
      "grad_norm": 0.7474245429039001,
      "learning_rate": 0.00027981828548711684,
      "loss": 3.8777,
      "step": 81840
    },
    {
      "epoch": 0.17052083333333334,
      "grad_norm": 0.9600389003753662,
      "learning_rate": 0.0002798133462064571,
      "loss": 3.8844,
      "step": 81850
    },
    {
      "epoch": 0.17054166666666667,
      "grad_norm": 0.8112174868583679,
      "learning_rate": 0.0002798084063650551,
      "loss": 4.0268,
      "step": 81860
    },
    {
      "epoch": 0.1705625,
      "grad_norm": 0.8159454464912415,
      "learning_rate": 0.0002798034659629321,
      "loss": 4.1248,
      "step": 81870
    },
    {
      "epoch": 0.17058333333333334,
      "grad_norm": 0.7615405321121216,
      "learning_rate": 0.0002797985250001096,
      "loss": 3.8783,
      "step": 81880
    },
    {
      "epoch": 0.17060416666666667,
      "grad_norm": 0.7259865999221802,
      "learning_rate": 0.0002797935834766088,
      "loss": 3.9543,
      "step": 81890
    },
    {
      "epoch": 0.170625,
      "grad_norm": 0.8303022980690002,
      "learning_rate": 0.00027978864139245114,
      "loss": 3.7657,
      "step": 81900
    },
    {
      "epoch": 0.17064583333333333,
      "grad_norm": 0.8027812242507935,
      "learning_rate": 0.0002797836987476579,
      "loss": 3.6884,
      "step": 81910
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 0.7016518712043762,
      "learning_rate": 0.0002797787555422504,
      "loss": 3.9281,
      "step": 81920
    },
    {
      "epoch": 0.1706875,
      "grad_norm": 0.8657918572425842,
      "learning_rate": 0.0002797738117762501,
      "loss": 3.9241,
      "step": 81930
    },
    {
      "epoch": 0.17070833333333332,
      "grad_norm": 0.9392837882041931,
      "learning_rate": 0.00027976886744967834,
      "loss": 3.8857,
      "step": 81940
    },
    {
      "epoch": 0.17072916666666665,
      "grad_norm": 0.8146774172782898,
      "learning_rate": 0.0002797639225625564,
      "loss": 4.0934,
      "step": 81950
    },
    {
      "epoch": 0.17075,
      "grad_norm": 0.8431332111358643,
      "learning_rate": 0.00027975897711490566,
      "loss": 3.8374,
      "step": 81960
    },
    {
      "epoch": 0.17077083333333334,
      "grad_norm": 1.1008341312408447,
      "learning_rate": 0.0002797540311067475,
      "loss": 3.8019,
      "step": 81970
    },
    {
      "epoch": 0.17079166666666667,
      "grad_norm": 0.830689013004303,
      "learning_rate": 0.00027974908453810333,
      "loss": 4.0135,
      "step": 81980
    },
    {
      "epoch": 0.1708125,
      "grad_norm": 0.7396224141120911,
      "learning_rate": 0.0002797441374089944,
      "loss": 3.9514,
      "step": 81990
    },
    {
      "epoch": 0.17083333333333334,
      "grad_norm": 0.8435444831848145,
      "learning_rate": 0.00027973918971944224,
      "loss": 3.9183,
      "step": 82000
    },
    {
      "epoch": 0.17083333333333334,
      "eval_loss": 4.26815128326416,
      "eval_runtime": 10.2732,
      "eval_samples_per_second": 0.973,
      "eval_steps_per_second": 0.292,
      "step": 82000
    },
    {
      "epoch": 0.17085416666666667,
      "grad_norm": 0.8723925352096558,
      "learning_rate": 0.0002797342414694681,
      "loss": 3.7764,
      "step": 82010
    },
    {
      "epoch": 0.170875,
      "grad_norm": 0.7729418277740479,
      "learning_rate": 0.00027972929265909335,
      "loss": 3.9798,
      "step": 82020
    },
    {
      "epoch": 0.17089583333333333,
      "grad_norm": 0.8588160872459412,
      "learning_rate": 0.0002797243432883394,
      "loss": 3.9554,
      "step": 82030
    },
    {
      "epoch": 0.17091666666666666,
      "grad_norm": 0.9018920660018921,
      "learning_rate": 0.00027971939335722765,
      "loss": 3.9377,
      "step": 82040
    },
    {
      "epoch": 0.1709375,
      "grad_norm": 0.7072643637657166,
      "learning_rate": 0.0002797144428657795,
      "loss": 3.9855,
      "step": 82050
    },
    {
      "epoch": 0.17095833333333332,
      "grad_norm": 0.749917209148407,
      "learning_rate": 0.0002797094918140163,
      "loss": 4.0305,
      "step": 82060
    },
    {
      "epoch": 0.17097916666666665,
      "grad_norm": 0.8828359842300415,
      "learning_rate": 0.0002797045402019594,
      "loss": 3.9135,
      "step": 82070
    },
    {
      "epoch": 0.171,
      "grad_norm": 0.7662261128425598,
      "learning_rate": 0.00027969958802963026,
      "loss": 4.0648,
      "step": 82080
    },
    {
      "epoch": 0.17102083333333334,
      "grad_norm": 0.703414797782898,
      "learning_rate": 0.0002796946352970503,
      "loss": 3.957,
      "step": 82090
    },
    {
      "epoch": 0.17104166666666668,
      "grad_norm": 0.9364521503448486,
      "learning_rate": 0.00027968968200424075,
      "loss": 3.7102,
      "step": 82100
    },
    {
      "epoch": 0.1710625,
      "grad_norm": 0.7424483895301819,
      "learning_rate": 0.0002796847281512231,
      "loss": 3.8925,
      "step": 82110
    },
    {
      "epoch": 0.17108333333333334,
      "grad_norm": 0.7583352327346802,
      "learning_rate": 0.0002796797737380188,
      "loss": 3.9531,
      "step": 82120
    },
    {
      "epoch": 0.17110416666666667,
      "grad_norm": 0.7863916754722595,
      "learning_rate": 0.0002796748187646493,
      "loss": 3.9408,
      "step": 82130
    },
    {
      "epoch": 0.171125,
      "grad_norm": 0.7670108675956726,
      "learning_rate": 0.00027966986323113574,
      "loss": 4.0234,
      "step": 82140
    },
    {
      "epoch": 0.17114583333333333,
      "grad_norm": 0.7925761342048645,
      "learning_rate": 0.00027966490713749977,
      "loss": 3.9344,
      "step": 82150
    },
    {
      "epoch": 0.17116666666666666,
      "grad_norm": 0.764907717704773,
      "learning_rate": 0.0002796599504837628,
      "loss": 3.7791,
      "step": 82160
    },
    {
      "epoch": 0.1711875,
      "grad_norm": 0.7642652988433838,
      "learning_rate": 0.00027965499326994606,
      "loss": 3.8308,
      "step": 82170
    },
    {
      "epoch": 0.17120833333333332,
      "grad_norm": 0.7129635214805603,
      "learning_rate": 0.0002796500354960711,
      "loss": 3.9067,
      "step": 82180
    },
    {
      "epoch": 0.17122916666666665,
      "grad_norm": 0.9131090044975281,
      "learning_rate": 0.00027964507716215934,
      "loss": 3.9552,
      "step": 82190
    },
    {
      "epoch": 0.17125,
      "grad_norm": 0.705577552318573,
      "learning_rate": 0.0002796401182682321,
      "loss": 3.9065,
      "step": 82200
    },
    {
      "epoch": 0.17127083333333334,
      "grad_norm": 0.7409008145332336,
      "learning_rate": 0.0002796351588143109,
      "loss": 3.8939,
      "step": 82210
    },
    {
      "epoch": 0.17129166666666668,
      "grad_norm": 0.7977017164230347,
      "learning_rate": 0.00027963019880041716,
      "loss": 3.8995,
      "step": 82220
    },
    {
      "epoch": 0.1713125,
      "grad_norm": 0.6938869953155518,
      "learning_rate": 0.00027962523822657224,
      "loss": 4.0384,
      "step": 82230
    },
    {
      "epoch": 0.17133333333333334,
      "grad_norm": 0.7133720517158508,
      "learning_rate": 0.0002796202770927976,
      "loss": 3.8602,
      "step": 82240
    },
    {
      "epoch": 0.17135416666666667,
      "grad_norm": 0.83607017993927,
      "learning_rate": 0.0002796153153991147,
      "loss": 3.9322,
      "step": 82250
    },
    {
      "epoch": 0.171375,
      "grad_norm": 0.9939205050468445,
      "learning_rate": 0.0002796103531455449,
      "loss": 4.0756,
      "step": 82260
    },
    {
      "epoch": 0.17139583333333333,
      "grad_norm": 0.7288772463798523,
      "learning_rate": 0.00027960539033210967,
      "loss": 3.8335,
      "step": 82270
    },
    {
      "epoch": 0.17141666666666666,
      "grad_norm": 0.7894585728645325,
      "learning_rate": 0.0002796004269588305,
      "loss": 3.8929,
      "step": 82280
    },
    {
      "epoch": 0.1714375,
      "grad_norm": 0.8381339907646179,
      "learning_rate": 0.00027959546302572876,
      "loss": 4.0059,
      "step": 82290
    },
    {
      "epoch": 0.17145833333333332,
      "grad_norm": 0.7478272914886475,
      "learning_rate": 0.0002795904985328259,
      "loss": 4.1365,
      "step": 82300
    },
    {
      "epoch": 0.17147916666666665,
      "grad_norm": 0.7611980438232422,
      "learning_rate": 0.0002795855334801434,
      "loss": 3.9234,
      "step": 82310
    },
    {
      "epoch": 0.1715,
      "grad_norm": 0.7398145198822021,
      "learning_rate": 0.0002795805678677027,
      "loss": 3.9236,
      "step": 82320
    },
    {
      "epoch": 0.17152083333333334,
      "grad_norm": 0.8846268653869629,
      "learning_rate": 0.0002795756016955252,
      "loss": 3.7493,
      "step": 82330
    },
    {
      "epoch": 0.17154166666666668,
      "grad_norm": 0.7877893447875977,
      "learning_rate": 0.00027957063496363244,
      "loss": 3.9624,
      "step": 82340
    },
    {
      "epoch": 0.1715625,
      "grad_norm": 0.7485454082489014,
      "learning_rate": 0.00027956566767204586,
      "loss": 3.8892,
      "step": 82350
    },
    {
      "epoch": 0.17158333333333334,
      "grad_norm": 0.9533061981201172,
      "learning_rate": 0.00027956069982078676,
      "loss": 3.8027,
      "step": 82360
    },
    {
      "epoch": 0.17160416666666667,
      "grad_norm": 0.7603659629821777,
      "learning_rate": 0.00027955573140987685,
      "loss": 3.8284,
      "step": 82370
    },
    {
      "epoch": 0.171625,
      "grad_norm": 0.724149763584137,
      "learning_rate": 0.00027955076243933735,
      "loss": 3.8199,
      "step": 82380
    },
    {
      "epoch": 0.17164583333333333,
      "grad_norm": 0.773857831954956,
      "learning_rate": 0.0002795457929091899,
      "loss": 4.1184,
      "step": 82390
    },
    {
      "epoch": 0.17166666666666666,
      "grad_norm": 0.9327843189239502,
      "learning_rate": 0.00027954082281945585,
      "loss": 3.9101,
      "step": 82400
    },
    {
      "epoch": 0.1716875,
      "grad_norm": 0.7958089113235474,
      "learning_rate": 0.0002795358521701568,
      "loss": 3.7669,
      "step": 82410
    },
    {
      "epoch": 0.17170833333333332,
      "grad_norm": 0.9422511458396912,
      "learning_rate": 0.00027953088096131415,
      "loss": 3.8839,
      "step": 82420
    },
    {
      "epoch": 0.17172916666666665,
      "grad_norm": 0.775775134563446,
      "learning_rate": 0.00027952590919294926,
      "loss": 4.0133,
      "step": 82430
    },
    {
      "epoch": 0.17175,
      "grad_norm": 0.8461121320724487,
      "learning_rate": 0.0002795209368650838,
      "loss": 3.9321,
      "step": 82440
    },
    {
      "epoch": 0.17177083333333334,
      "grad_norm": 0.7532004714012146,
      "learning_rate": 0.0002795159639777391,
      "loss": 3.807,
      "step": 82450
    },
    {
      "epoch": 0.17179166666666668,
      "grad_norm": 0.7881927490234375,
      "learning_rate": 0.0002795109905309367,
      "loss": 3.8442,
      "step": 82460
    },
    {
      "epoch": 0.1718125,
      "grad_norm": 0.8583217859268188,
      "learning_rate": 0.00027950601652469817,
      "loss": 3.9713,
      "step": 82470
    },
    {
      "epoch": 0.17183333333333334,
      "grad_norm": 0.915955126285553,
      "learning_rate": 0.00027950104195904483,
      "loss": 4.1005,
      "step": 82480
    },
    {
      "epoch": 0.17185416666666667,
      "grad_norm": 0.75468909740448,
      "learning_rate": 0.00027949606683399825,
      "loss": 3.8659,
      "step": 82490
    },
    {
      "epoch": 0.171875,
      "grad_norm": 0.793210506439209,
      "learning_rate": 0.00027949109114958,
      "loss": 3.8902,
      "step": 82500
    },
    {
      "epoch": 0.17189583333333333,
      "grad_norm": 0.8105276226997375,
      "learning_rate": 0.0002794861149058114,
      "loss": 4.0892,
      "step": 82510
    },
    {
      "epoch": 0.17191666666666666,
      "grad_norm": 0.8544229865074158,
      "learning_rate": 0.0002794811381027141,
      "loss": 3.9561,
      "step": 82520
    },
    {
      "epoch": 0.1719375,
      "grad_norm": 0.747715413570404,
      "learning_rate": 0.0002794761607403095,
      "loss": 3.7651,
      "step": 82530
    },
    {
      "epoch": 0.17195833333333332,
      "grad_norm": 0.8120355606079102,
      "learning_rate": 0.0002794711828186192,
      "loss": 4.0433,
      "step": 82540
    },
    {
      "epoch": 0.17197916666666666,
      "grad_norm": 0.7175119519233704,
      "learning_rate": 0.00027946620433766454,
      "loss": 4.1538,
      "step": 82550
    },
    {
      "epoch": 0.172,
      "grad_norm": 0.8877245783805847,
      "learning_rate": 0.00027946122529746715,
      "loss": 3.8631,
      "step": 82560
    },
    {
      "epoch": 0.17202083333333335,
      "grad_norm": 0.7743420004844666,
      "learning_rate": 0.0002794562456980486,
      "loss": 3.9706,
      "step": 82570
    },
    {
      "epoch": 0.17204166666666668,
      "grad_norm": 0.835727870464325,
      "learning_rate": 0.0002794512655394302,
      "loss": 3.7865,
      "step": 82580
    },
    {
      "epoch": 0.1720625,
      "grad_norm": 0.7515754699707031,
      "learning_rate": 0.0002794462848216336,
      "loss": 3.8611,
      "step": 82590
    },
    {
      "epoch": 0.17208333333333334,
      "grad_norm": 0.6909577250480652,
      "learning_rate": 0.0002794413035446803,
      "loss": 3.8673,
      "step": 82600
    },
    {
      "epoch": 0.17210416666666667,
      "grad_norm": 0.91279536485672,
      "learning_rate": 0.0002794363217085918,
      "loss": 3.8781,
      "step": 82610
    },
    {
      "epoch": 0.172125,
      "grad_norm": 0.7650876045227051,
      "learning_rate": 0.00027943133931338963,
      "loss": 3.9332,
      "step": 82620
    },
    {
      "epoch": 0.17214583333333333,
      "grad_norm": 0.8592379093170166,
      "learning_rate": 0.0002794263563590953,
      "loss": 3.8654,
      "step": 82630
    },
    {
      "epoch": 0.17216666666666666,
      "grad_norm": 0.7955253720283508,
      "learning_rate": 0.0002794213728457304,
      "loss": 4.1012,
      "step": 82640
    },
    {
      "epoch": 0.1721875,
      "grad_norm": 0.7046810388565063,
      "learning_rate": 0.0002794163887733163,
      "loss": 3.9431,
      "step": 82650
    },
    {
      "epoch": 0.17220833333333332,
      "grad_norm": 0.7281967997550964,
      "learning_rate": 0.00027941140414187467,
      "loss": 4.0753,
      "step": 82660
    },
    {
      "epoch": 0.17222916666666666,
      "grad_norm": 0.694696843624115,
      "learning_rate": 0.00027940641895142705,
      "loss": 3.9286,
      "step": 82670
    },
    {
      "epoch": 0.17225,
      "grad_norm": 0.7811099290847778,
      "learning_rate": 0.00027940143320199487,
      "loss": 3.8833,
      "step": 82680
    },
    {
      "epoch": 0.17227083333333335,
      "grad_norm": 0.7503398656845093,
      "learning_rate": 0.00027939644689359966,
      "loss": 3.8663,
      "step": 82690
    },
    {
      "epoch": 0.17229166666666668,
      "grad_norm": 0.706331729888916,
      "learning_rate": 0.00027939146002626316,
      "loss": 3.8451,
      "step": 82700
    },
    {
      "epoch": 0.1723125,
      "grad_norm": 0.7729867100715637,
      "learning_rate": 0.00027938647260000667,
      "loss": 3.8102,
      "step": 82710
    },
    {
      "epoch": 0.17233333333333334,
      "grad_norm": 1.0609384775161743,
      "learning_rate": 0.0002793814846148518,
      "loss": 3.8313,
      "step": 82720
    },
    {
      "epoch": 0.17235416666666667,
      "grad_norm": 0.8088382482528687,
      "learning_rate": 0.00027937649607082023,
      "loss": 3.8395,
      "step": 82730
    },
    {
      "epoch": 0.172375,
      "grad_norm": 0.8328053951263428,
      "learning_rate": 0.00027937150696793334,
      "loss": 4.2109,
      "step": 82740
    },
    {
      "epoch": 0.17239583333333333,
      "grad_norm": 0.8300962448120117,
      "learning_rate": 0.0002793665173062128,
      "loss": 3.9447,
      "step": 82750
    },
    {
      "epoch": 0.17241666666666666,
      "grad_norm": 0.7691106796264648,
      "learning_rate": 0.0002793615270856801,
      "loss": 3.8908,
      "step": 82760
    },
    {
      "epoch": 0.1724375,
      "grad_norm": 0.7667624950408936,
      "learning_rate": 0.0002793565363063568,
      "loss": 4.0487,
      "step": 82770
    },
    {
      "epoch": 0.17245833333333332,
      "grad_norm": 0.9151173830032349,
      "learning_rate": 0.0002793515449682644,
      "loss": 3.9439,
      "step": 82780
    },
    {
      "epoch": 0.17247916666666666,
      "grad_norm": 0.7841822504997253,
      "learning_rate": 0.00027934655307142463,
      "loss": 3.9952,
      "step": 82790
    },
    {
      "epoch": 0.1725,
      "grad_norm": 0.837735116481781,
      "learning_rate": 0.0002793415606158589,
      "loss": 3.9066,
      "step": 82800
    },
    {
      "epoch": 0.17252083333333335,
      "grad_norm": 0.8930957913398743,
      "learning_rate": 0.0002793365676015888,
      "loss": 3.9237,
      "step": 82810
    },
    {
      "epoch": 0.17254166666666668,
      "grad_norm": 0.9070920348167419,
      "learning_rate": 0.00027933157402863594,
      "loss": 3.882,
      "step": 82820
    },
    {
      "epoch": 0.1725625,
      "grad_norm": 0.8518992066383362,
      "learning_rate": 0.0002793265798970219,
      "loss": 3.7784,
      "step": 82830
    },
    {
      "epoch": 0.17258333333333334,
      "grad_norm": 0.7043384313583374,
      "learning_rate": 0.00027932158520676826,
      "loss": 3.9598,
      "step": 82840
    },
    {
      "epoch": 0.17260416666666667,
      "grad_norm": 0.6790194511413574,
      "learning_rate": 0.00027931658995789644,
      "loss": 4.0165,
      "step": 82850
    },
    {
      "epoch": 0.172625,
      "grad_norm": 0.761138916015625,
      "learning_rate": 0.00027931159415042826,
      "loss": 4.0759,
      "step": 82860
    },
    {
      "epoch": 0.17264583333333333,
      "grad_norm": 0.7683952450752258,
      "learning_rate": 0.00027930659778438514,
      "loss": 3.9473,
      "step": 82870
    },
    {
      "epoch": 0.17266666666666666,
      "grad_norm": 0.7209596633911133,
      "learning_rate": 0.00027930160085978866,
      "loss": 4.0018,
      "step": 82880
    },
    {
      "epoch": 0.1726875,
      "grad_norm": 0.7475635409355164,
      "learning_rate": 0.0002792966033766605,
      "loss": 3.8332,
      "step": 82890
    },
    {
      "epoch": 0.17270833333333332,
      "grad_norm": 0.7854220867156982,
      "learning_rate": 0.00027929160533502216,
      "loss": 3.9524,
      "step": 82900
    },
    {
      "epoch": 0.17272916666666666,
      "grad_norm": 0.692072868347168,
      "learning_rate": 0.00027928660673489524,
      "loss": 3.8658,
      "step": 82910
    },
    {
      "epoch": 0.17275,
      "grad_norm": 0.7875910997390747,
      "learning_rate": 0.00027928160757630143,
      "loss": 3.6999,
      "step": 82920
    },
    {
      "epoch": 0.17277083333333335,
      "grad_norm": 0.7357484698295593,
      "learning_rate": 0.0002792766078592622,
      "loss": 3.9245,
      "step": 82930
    },
    {
      "epoch": 0.17279166666666668,
      "grad_norm": 1.0390961170196533,
      "learning_rate": 0.0002792716075837991,
      "loss": 3.9285,
      "step": 82940
    },
    {
      "epoch": 0.1728125,
      "grad_norm": 0.7477717995643616,
      "learning_rate": 0.000279266606749934,
      "loss": 3.8242,
      "step": 82950
    },
    {
      "epoch": 0.17283333333333334,
      "grad_norm": 1.090368390083313,
      "learning_rate": 0.00027926160535768823,
      "loss": 3.9609,
      "step": 82960
    },
    {
      "epoch": 0.17285416666666667,
      "grad_norm": 0.8361069560050964,
      "learning_rate": 0.00027925660340708355,
      "loss": 3.9787,
      "step": 82970
    },
    {
      "epoch": 0.172875,
      "grad_norm": 0.8020942807197571,
      "learning_rate": 0.00027925160089814147,
      "loss": 3.9363,
      "step": 82980
    },
    {
      "epoch": 0.17289583333333333,
      "grad_norm": 0.8105101585388184,
      "learning_rate": 0.00027924659783088357,
      "loss": 3.9739,
      "step": 82990
    },
    {
      "epoch": 0.17291666666666666,
      "grad_norm": 0.882025420665741,
      "learning_rate": 0.0002792415942053316,
      "loss": 3.9687,
      "step": 83000
    },
    {
      "epoch": 0.17291666666666666,
      "eval_loss": 4.272902488708496,
      "eval_runtime": 9.5537,
      "eval_samples_per_second": 1.047,
      "eval_steps_per_second": 0.314,
      "step": 83000
    },
    {
      "epoch": 0.1729375,
      "grad_norm": 0.8533254265785217,
      "learning_rate": 0.0002792365900215071,
      "loss": 3.9896,
      "step": 83010
    },
    {
      "epoch": 0.17295833333333333,
      "grad_norm": 0.7569591999053955,
      "learning_rate": 0.00027923158527943165,
      "loss": 3.8812,
      "step": 83020
    },
    {
      "epoch": 0.17297916666666666,
      "grad_norm": 0.8822370171546936,
      "learning_rate": 0.00027922657997912694,
      "loss": 3.9943,
      "step": 83030
    },
    {
      "epoch": 0.173,
      "grad_norm": 0.8018847703933716,
      "learning_rate": 0.0002792215741206145,
      "loss": 3.8851,
      "step": 83040
    },
    {
      "epoch": 0.17302083333333335,
      "grad_norm": 0.7244037389755249,
      "learning_rate": 0.0002792165677039161,
      "loss": 3.8483,
      "step": 83050
    },
    {
      "epoch": 0.17304166666666668,
      "grad_norm": 0.8080905079841614,
      "learning_rate": 0.0002792115607290532,
      "loss": 3.9106,
      "step": 83060
    },
    {
      "epoch": 0.1730625,
      "grad_norm": 0.7445307374000549,
      "learning_rate": 0.00027920655319604756,
      "loss": 4.0644,
      "step": 83070
    },
    {
      "epoch": 0.17308333333333334,
      "grad_norm": 0.8013049960136414,
      "learning_rate": 0.00027920154510492075,
      "loss": 3.8509,
      "step": 83080
    },
    {
      "epoch": 0.17310416666666667,
      "grad_norm": 0.94022136926651,
      "learning_rate": 0.0002791965364556944,
      "loss": 3.721,
      "step": 83090
    },
    {
      "epoch": 0.173125,
      "grad_norm": 0.7792418599128723,
      "learning_rate": 0.0002791915272483901,
      "loss": 3.9518,
      "step": 83100
    },
    {
      "epoch": 0.17314583333333333,
      "grad_norm": 0.9220630526542664,
      "learning_rate": 0.0002791865174830295,
      "loss": 3.9117,
      "step": 83110
    },
    {
      "epoch": 0.17316666666666666,
      "grad_norm": 0.7423521280288696,
      "learning_rate": 0.0002791815071596344,
      "loss": 3.945,
      "step": 83120
    },
    {
      "epoch": 0.1731875,
      "grad_norm": 0.8135824203491211,
      "learning_rate": 0.0002791764962782263,
      "loss": 3.9741,
      "step": 83130
    },
    {
      "epoch": 0.17320833333333333,
      "grad_norm": 0.7727681994438171,
      "learning_rate": 0.00027917148483882684,
      "loss": 3.9885,
      "step": 83140
    },
    {
      "epoch": 0.17322916666666666,
      "grad_norm": 0.7588158845901489,
      "learning_rate": 0.0002791664728414577,
      "loss": 3.9875,
      "step": 83150
    },
    {
      "epoch": 0.17325,
      "grad_norm": 0.7090577483177185,
      "learning_rate": 0.0002791614602861405,
      "loss": 3.8236,
      "step": 83160
    },
    {
      "epoch": 0.17327083333333335,
      "grad_norm": 0.8372524380683899,
      "learning_rate": 0.00027915644717289693,
      "loss": 4.0665,
      "step": 83170
    },
    {
      "epoch": 0.17329166666666668,
      "grad_norm": 0.8240408301353455,
      "learning_rate": 0.00027915143350174866,
      "loss": 4.1229,
      "step": 83180
    },
    {
      "epoch": 0.1733125,
      "grad_norm": 0.9586848020553589,
      "learning_rate": 0.0002791464192727173,
      "loss": 3.8209,
      "step": 83190
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 0.7382382750511169,
      "learning_rate": 0.00027914140448582456,
      "loss": 3.7402,
      "step": 83200
    },
    {
      "epoch": 0.17335416666666667,
      "grad_norm": 0.7101136445999146,
      "learning_rate": 0.00027913638914109205,
      "loss": 3.8666,
      "step": 83210
    },
    {
      "epoch": 0.173375,
      "grad_norm": 1.1487118005752563,
      "learning_rate": 0.0002791313732385414,
      "loss": 3.8669,
      "step": 83220
    },
    {
      "epoch": 0.17339583333333333,
      "grad_norm": 0.8260146975517273,
      "learning_rate": 0.0002791263567781944,
      "loss": 3.9754,
      "step": 83230
    },
    {
      "epoch": 0.17341666666666666,
      "grad_norm": 0.8953239917755127,
      "learning_rate": 0.00027912133976007263,
      "loss": 3.7477,
      "step": 83240
    },
    {
      "epoch": 0.1734375,
      "grad_norm": 0.8289538621902466,
      "learning_rate": 0.00027911632218419777,
      "loss": 3.9531,
      "step": 83250
    },
    {
      "epoch": 0.17345833333333333,
      "grad_norm": 0.7979103326797485,
      "learning_rate": 0.0002791113040505915,
      "loss": 3.765,
      "step": 83260
    },
    {
      "epoch": 0.17347916666666666,
      "grad_norm": 0.717477023601532,
      "learning_rate": 0.00027910628535927554,
      "loss": 4.0737,
      "step": 83270
    },
    {
      "epoch": 0.1735,
      "grad_norm": 0.9137436747550964,
      "learning_rate": 0.0002791012661102715,
      "loss": 3.937,
      "step": 83280
    },
    {
      "epoch": 0.17352083333333335,
      "grad_norm": 0.7149949669837952,
      "learning_rate": 0.0002790962463036011,
      "loss": 3.7489,
      "step": 83290
    },
    {
      "epoch": 0.17354166666666668,
      "grad_norm": 0.8130715489387512,
      "learning_rate": 0.000279091225939286,
      "loss": 4.0589,
      "step": 83300
    },
    {
      "epoch": 0.1735625,
      "grad_norm": 0.7162622213363647,
      "learning_rate": 0.00027908620501734794,
      "loss": 3.8716,
      "step": 83310
    },
    {
      "epoch": 0.17358333333333334,
      "grad_norm": 0.7668971419334412,
      "learning_rate": 0.0002790811835378086,
      "loss": 3.7252,
      "step": 83320
    },
    {
      "epoch": 0.17360416666666667,
      "grad_norm": 0.8151586651802063,
      "learning_rate": 0.00027907616150068957,
      "loss": 3.9827,
      "step": 83330
    },
    {
      "epoch": 0.173625,
      "grad_norm": 0.7293826341629028,
      "learning_rate": 0.0002790711389060126,
      "loss": 3.8151,
      "step": 83340
    },
    {
      "epoch": 0.17364583333333333,
      "grad_norm": 0.7464020252227783,
      "learning_rate": 0.00027906611575379946,
      "loss": 3.9739,
      "step": 83350
    },
    {
      "epoch": 0.17366666666666666,
      "grad_norm": 0.843887209892273,
      "learning_rate": 0.00027906109204407174,
      "loss": 3.9953,
      "step": 83360
    },
    {
      "epoch": 0.1736875,
      "grad_norm": 0.7944560050964355,
      "learning_rate": 0.0002790560677768512,
      "loss": 3.9836,
      "step": 83370
    },
    {
      "epoch": 0.17370833333333333,
      "grad_norm": 0.8276804089546204,
      "learning_rate": 0.00027905104295215957,
      "loss": 4.032,
      "step": 83380
    },
    {
      "epoch": 0.17372916666666666,
      "grad_norm": 0.7507016658782959,
      "learning_rate": 0.0002790460175700185,
      "loss": 3.8706,
      "step": 83390
    },
    {
      "epoch": 0.17375,
      "grad_norm": 0.8533852100372314,
      "learning_rate": 0.00027904099163044967,
      "loss": 3.9115,
      "step": 83400
    },
    {
      "epoch": 0.17377083333333335,
      "grad_norm": 0.7546963691711426,
      "learning_rate": 0.00027903596513347484,
      "loss": 3.7678,
      "step": 83410
    },
    {
      "epoch": 0.17379166666666668,
      "grad_norm": 0.7139222621917725,
      "learning_rate": 0.0002790309380791158,
      "loss": 3.7841,
      "step": 83420
    },
    {
      "epoch": 0.1738125,
      "grad_norm": 0.9563751816749573,
      "learning_rate": 0.0002790259104673941,
      "loss": 3.9172,
      "step": 83430
    },
    {
      "epoch": 0.17383333333333334,
      "grad_norm": 0.7217628359794617,
      "learning_rate": 0.00027902088229833156,
      "loss": 3.8092,
      "step": 83440
    },
    {
      "epoch": 0.17385416666666667,
      "grad_norm": 0.7462176084518433,
      "learning_rate": 0.00027901585357194985,
      "loss": 4.0672,
      "step": 83450
    },
    {
      "epoch": 0.173875,
      "grad_norm": 0.7656264305114746,
      "learning_rate": 0.0002790108242882708,
      "loss": 3.9212,
      "step": 83460
    },
    {
      "epoch": 0.17389583333333333,
      "grad_norm": 0.8661513328552246,
      "learning_rate": 0.000279005794447316,
      "loss": 3.805,
      "step": 83470
    },
    {
      "epoch": 0.17391666666666666,
      "grad_norm": 1.272226095199585,
      "learning_rate": 0.0002790007640491072,
      "loss": 3.8231,
      "step": 83480
    },
    {
      "epoch": 0.1739375,
      "grad_norm": 0.743241012096405,
      "learning_rate": 0.0002789957330936662,
      "loss": 3.825,
      "step": 83490
    },
    {
      "epoch": 0.17395833333333333,
      "grad_norm": 0.7819918394088745,
      "learning_rate": 0.0002789907015810147,
      "loss": 3.9584,
      "step": 83500
    },
    {
      "epoch": 0.17397916666666666,
      "grad_norm": 0.7459301352500916,
      "learning_rate": 0.0002789856695111744,
      "loss": 3.9387,
      "step": 83510
    },
    {
      "epoch": 0.174,
      "grad_norm": 0.8506456613540649,
      "learning_rate": 0.0002789806368841671,
      "loss": 4.1381,
      "step": 83520
    },
    {
      "epoch": 0.17402083333333335,
      "grad_norm": 0.7319548726081848,
      "learning_rate": 0.0002789756037000145,
      "loss": 3.8308,
      "step": 83530
    },
    {
      "epoch": 0.17404166666666668,
      "grad_norm": 0.7397971153259277,
      "learning_rate": 0.0002789705699587384,
      "loss": 3.761,
      "step": 83540
    },
    {
      "epoch": 0.1740625,
      "grad_norm": 0.9753512144088745,
      "learning_rate": 0.00027896553566036036,
      "loss": 3.9403,
      "step": 83550
    },
    {
      "epoch": 0.17408333333333334,
      "grad_norm": 1.173198938369751,
      "learning_rate": 0.0002789605008049023,
      "loss": 3.9649,
      "step": 83560
    },
    {
      "epoch": 0.17410416666666667,
      "grad_norm": 0.7332453727722168,
      "learning_rate": 0.000278955465392386,
      "loss": 4.0967,
      "step": 83570
    },
    {
      "epoch": 0.174125,
      "grad_norm": 0.7541020512580872,
      "learning_rate": 0.00027895042942283304,
      "loss": 3.6973,
      "step": 83580
    },
    {
      "epoch": 0.17414583333333333,
      "grad_norm": 0.8193091154098511,
      "learning_rate": 0.0002789453928962653,
      "loss": 3.8671,
      "step": 83590
    },
    {
      "epoch": 0.17416666666666666,
      "grad_norm": 0.8626209497451782,
      "learning_rate": 0.0002789403558127045,
      "loss": 3.8905,
      "step": 83600
    },
    {
      "epoch": 0.1741875,
      "grad_norm": 0.7703706622123718,
      "learning_rate": 0.00027893531817217243,
      "loss": 3.9341,
      "step": 83610
    },
    {
      "epoch": 0.17420833333333333,
      "grad_norm": 0.7932949662208557,
      "learning_rate": 0.0002789302799746907,
      "loss": 3.895,
      "step": 83620
    },
    {
      "epoch": 0.17422916666666666,
      "grad_norm": 0.7442330718040466,
      "learning_rate": 0.00027892524122028134,
      "loss": 3.8809,
      "step": 83630
    },
    {
      "epoch": 0.17425,
      "grad_norm": 0.7691386938095093,
      "learning_rate": 0.00027892020190896594,
      "loss": 3.8624,
      "step": 83640
    },
    {
      "epoch": 0.17427083333333335,
      "grad_norm": 0.7295940518379211,
      "learning_rate": 0.00027891516204076624,
      "loss": 3.7934,
      "step": 83650
    },
    {
      "epoch": 0.17429166666666668,
      "grad_norm": 0.7997854351997375,
      "learning_rate": 0.0002789101216157041,
      "loss": 4.009,
      "step": 83660
    },
    {
      "epoch": 0.1743125,
      "grad_norm": 0.876325249671936,
      "learning_rate": 0.00027890508063380126,
      "loss": 3.8933,
      "step": 83670
    },
    {
      "epoch": 0.17433333333333334,
      "grad_norm": 0.763355553150177,
      "learning_rate": 0.0002789000390950795,
      "loss": 3.931,
      "step": 83680
    },
    {
      "epoch": 0.17435416666666667,
      "grad_norm": 0.7472951412200928,
      "learning_rate": 0.0002788949969995606,
      "loss": 3.906,
      "step": 83690
    },
    {
      "epoch": 0.174375,
      "grad_norm": 0.806398868560791,
      "learning_rate": 0.0002788899543472663,
      "loss": 3.963,
      "step": 83700
    },
    {
      "epoch": 0.17439583333333333,
      "grad_norm": 0.7695059776306152,
      "learning_rate": 0.00027888491113821844,
      "loss": 3.8885,
      "step": 83710
    },
    {
      "epoch": 0.17441666666666666,
      "grad_norm": 0.7828018665313721,
      "learning_rate": 0.00027887986737243884,
      "loss": 3.9112,
      "step": 83720
    },
    {
      "epoch": 0.1744375,
      "grad_norm": 0.7775977253913879,
      "learning_rate": 0.00027887482304994913,
      "loss": 3.8477,
      "step": 83730
    },
    {
      "epoch": 0.17445833333333333,
      "grad_norm": 0.7511841058731079,
      "learning_rate": 0.00027886977817077126,
      "loss": 3.8066,
      "step": 83740
    },
    {
      "epoch": 0.17447916666666666,
      "grad_norm": 0.7984781861305237,
      "learning_rate": 0.0002788647327349269,
      "loss": 3.7472,
      "step": 83750
    },
    {
      "epoch": 0.1745,
      "grad_norm": 0.8926426768302917,
      "learning_rate": 0.00027885968674243794,
      "loss": 3.9356,
      "step": 83760
    },
    {
      "epoch": 0.17452083333333332,
      "grad_norm": 0.8819180130958557,
      "learning_rate": 0.0002788546401933262,
      "loss": 4.0745,
      "step": 83770
    },
    {
      "epoch": 0.17454166666666668,
      "grad_norm": 0.9382777214050293,
      "learning_rate": 0.0002788495930876133,
      "loss": 3.9779,
      "step": 83780
    },
    {
      "epoch": 0.1745625,
      "grad_norm": 0.8852372169494629,
      "learning_rate": 0.0002788445454253212,
      "loss": 3.9087,
      "step": 83790
    },
    {
      "epoch": 0.17458333333333334,
      "grad_norm": 0.7182701230049133,
      "learning_rate": 0.0002788394972064717,
      "loss": 3.9228,
      "step": 83800
    },
    {
      "epoch": 0.17460416666666667,
      "grad_norm": 0.7979435920715332,
      "learning_rate": 0.00027883444843108653,
      "loss": 3.8826,
      "step": 83810
    },
    {
      "epoch": 0.174625,
      "grad_norm": 0.7061285376548767,
      "learning_rate": 0.0002788293990991876,
      "loss": 4.1161,
      "step": 83820
    },
    {
      "epoch": 0.17464583333333333,
      "grad_norm": 0.7648921012878418,
      "learning_rate": 0.0002788243492107966,
      "loss": 3.8746,
      "step": 83830
    },
    {
      "epoch": 0.17466666666666666,
      "grad_norm": 0.754672110080719,
      "learning_rate": 0.0002788192987659354,
      "loss": 3.9068,
      "step": 83840
    },
    {
      "epoch": 0.1746875,
      "grad_norm": 0.8157461881637573,
      "learning_rate": 0.0002788142477646259,
      "loss": 3.9034,
      "step": 83850
    },
    {
      "epoch": 0.17470833333333333,
      "grad_norm": 0.6922156810760498,
      "learning_rate": 0.00027880919620688974,
      "loss": 3.8681,
      "step": 83860
    },
    {
      "epoch": 0.17472916666666666,
      "grad_norm": 0.8411691188812256,
      "learning_rate": 0.00027880414409274886,
      "loss": 3.9617,
      "step": 83870
    },
    {
      "epoch": 0.17475,
      "grad_norm": 0.7250730991363525,
      "learning_rate": 0.0002787990914222251,
      "loss": 3.8205,
      "step": 83880
    },
    {
      "epoch": 0.17477083333333332,
      "grad_norm": 0.7176262140274048,
      "learning_rate": 0.00027879403819534024,
      "loss": 3.7384,
      "step": 83890
    },
    {
      "epoch": 0.17479166666666668,
      "grad_norm": 0.6656303405761719,
      "learning_rate": 0.00027878898441211603,
      "loss": 3.8525,
      "step": 83900
    },
    {
      "epoch": 0.1748125,
      "grad_norm": 0.741327702999115,
      "learning_rate": 0.0002787839300725745,
      "loss": 3.8273,
      "step": 83910
    },
    {
      "epoch": 0.17483333333333334,
      "grad_norm": 0.7376288175582886,
      "learning_rate": 0.0002787788751767373,
      "loss": 3.9463,
      "step": 83920
    },
    {
      "epoch": 0.17485416666666667,
      "grad_norm": 0.8020192384719849,
      "learning_rate": 0.0002787738197246264,
      "loss": 4.0615,
      "step": 83930
    },
    {
      "epoch": 0.174875,
      "grad_norm": 0.9142674803733826,
      "learning_rate": 0.00027876876371626355,
      "loss": 3.9606,
      "step": 83940
    },
    {
      "epoch": 0.17489583333333333,
      "grad_norm": 0.7641014456748962,
      "learning_rate": 0.00027876370715167057,
      "loss": 3.8937,
      "step": 83950
    },
    {
      "epoch": 0.17491666666666666,
      "grad_norm": 0.71683669090271,
      "learning_rate": 0.00027875865003086934,
      "loss": 3.9109,
      "step": 83960
    },
    {
      "epoch": 0.1749375,
      "grad_norm": 0.8592399954795837,
      "learning_rate": 0.00027875359235388173,
      "loss": 3.8684,
      "step": 83970
    },
    {
      "epoch": 0.17495833333333333,
      "grad_norm": 0.7832514047622681,
      "learning_rate": 0.0002787485341207296,
      "loss": 3.7666,
      "step": 83980
    },
    {
      "epoch": 0.17497916666666666,
      "grad_norm": 0.7657424807548523,
      "learning_rate": 0.0002787434753314347,
      "loss": 3.9255,
      "step": 83990
    },
    {
      "epoch": 0.175,
      "grad_norm": 0.6919958591461182,
      "learning_rate": 0.000278738415986019,
      "loss": 3.8568,
      "step": 84000
    },
    {
      "epoch": 0.175,
      "eval_loss": 4.264814853668213,
      "eval_runtime": 8.8907,
      "eval_samples_per_second": 1.125,
      "eval_steps_per_second": 0.337,
      "step": 84000
    },
    {
      "epoch": 0.17502083333333332,
      "grad_norm": 0.8901668787002563,
      "learning_rate": 0.0002787333560845043,
      "loss": 3.9178,
      "step": 84010
    },
    {
      "epoch": 0.17504166666666668,
      "grad_norm": 0.7753601670265198,
      "learning_rate": 0.00027872829562691244,
      "loss": 3.8885,
      "step": 84020
    },
    {
      "epoch": 0.1750625,
      "grad_norm": 0.7284010052680969,
      "learning_rate": 0.00027872323461326527,
      "loss": 3.9211,
      "step": 84030
    },
    {
      "epoch": 0.17508333333333334,
      "grad_norm": 0.7247377038002014,
      "learning_rate": 0.0002787181730435847,
      "loss": 3.9538,
      "step": 84040
    },
    {
      "epoch": 0.17510416666666667,
      "grad_norm": 1.0306096076965332,
      "learning_rate": 0.0002787131109178926,
      "loss": 3.8296,
      "step": 84050
    },
    {
      "epoch": 0.175125,
      "grad_norm": 0.8511313199996948,
      "learning_rate": 0.0002787080482362108,
      "loss": 3.827,
      "step": 84060
    },
    {
      "epoch": 0.17514583333333333,
      "grad_norm": 0.6872686743736267,
      "learning_rate": 0.0002787029849985611,
      "loss": 3.823,
      "step": 84070
    },
    {
      "epoch": 0.17516666666666666,
      "grad_norm": 0.8001198172569275,
      "learning_rate": 0.00027869792120496556,
      "loss": 3.9955,
      "step": 84080
    },
    {
      "epoch": 0.1751875,
      "grad_norm": 0.8212463855743408,
      "learning_rate": 0.00027869285685544584,
      "loss": 3.9432,
      "step": 84090
    },
    {
      "epoch": 0.17520833333333333,
      "grad_norm": 0.7340368032455444,
      "learning_rate": 0.000278687791950024,
      "loss": 3.97,
      "step": 84100
    },
    {
      "epoch": 0.17522916666666666,
      "grad_norm": 0.807033121585846,
      "learning_rate": 0.00027868272648872187,
      "loss": 3.8939,
      "step": 84110
    },
    {
      "epoch": 0.17525,
      "grad_norm": 0.9282466769218445,
      "learning_rate": 0.0002786776604715612,
      "loss": 3.984,
      "step": 84120
    },
    {
      "epoch": 0.17527083333333332,
      "grad_norm": 0.776353657245636,
      "learning_rate": 0.000278672593898564,
      "loss": 3.9141,
      "step": 84130
    },
    {
      "epoch": 0.17529166666666668,
      "grad_norm": 0.7287374138832092,
      "learning_rate": 0.00027866752676975213,
      "loss": 3.8703,
      "step": 84140
    },
    {
      "epoch": 0.1753125,
      "grad_norm": 0.7384030818939209,
      "learning_rate": 0.0002786624590851475,
      "loss": 3.8893,
      "step": 84150
    },
    {
      "epoch": 0.17533333333333334,
      "grad_norm": 0.8223645687103271,
      "learning_rate": 0.00027865739084477194,
      "loss": 3.6945,
      "step": 84160
    },
    {
      "epoch": 0.17535416666666667,
      "grad_norm": 0.8372085690498352,
      "learning_rate": 0.0002786523220486474,
      "loss": 3.8871,
      "step": 84170
    },
    {
      "epoch": 0.175375,
      "grad_norm": 0.8531904220581055,
      "learning_rate": 0.00027864725269679576,
      "loss": 3.9975,
      "step": 84180
    },
    {
      "epoch": 0.17539583333333333,
      "grad_norm": 0.7307296395301819,
      "learning_rate": 0.0002786421827892389,
      "loss": 3.9482,
      "step": 84190
    },
    {
      "epoch": 0.17541666666666667,
      "grad_norm": 0.7485204339027405,
      "learning_rate": 0.0002786371123259987,
      "loss": 3.8679,
      "step": 84200
    },
    {
      "epoch": 0.1754375,
      "grad_norm": 0.7368801236152649,
      "learning_rate": 0.00027863204130709713,
      "loss": 3.8844,
      "step": 84210
    },
    {
      "epoch": 0.17545833333333333,
      "grad_norm": 0.7550124526023865,
      "learning_rate": 0.00027862696973255605,
      "loss": 4.0683,
      "step": 84220
    },
    {
      "epoch": 0.17547916666666666,
      "grad_norm": 0.9082387685775757,
      "learning_rate": 0.00027862189760239736,
      "loss": 4.0058,
      "step": 84230
    },
    {
      "epoch": 0.1755,
      "grad_norm": 0.8255568742752075,
      "learning_rate": 0.000278616824916643,
      "loss": 4.0584,
      "step": 84240
    },
    {
      "epoch": 0.17552083333333332,
      "grad_norm": 0.7568209171295166,
      "learning_rate": 0.0002786117516753149,
      "loss": 3.8265,
      "step": 84250
    },
    {
      "epoch": 0.17554166666666668,
      "grad_norm": 0.70294588804245,
      "learning_rate": 0.0002786066778784349,
      "loss": 3.938,
      "step": 84260
    },
    {
      "epoch": 0.1755625,
      "grad_norm": 0.7837700843811035,
      "learning_rate": 0.00027860160352602496,
      "loss": 3.8897,
      "step": 84270
    },
    {
      "epoch": 0.17558333333333334,
      "grad_norm": 0.768639087677002,
      "learning_rate": 0.00027859652861810696,
      "loss": 3.9101,
      "step": 84280
    },
    {
      "epoch": 0.17560416666666667,
      "grad_norm": 0.706296443939209,
      "learning_rate": 0.0002785914531547029,
      "loss": 4.0257,
      "step": 84290
    },
    {
      "epoch": 0.175625,
      "grad_norm": 0.6341419816017151,
      "learning_rate": 0.00027858637713583465,
      "loss": 3.9011,
      "step": 84300
    },
    {
      "epoch": 0.17564583333333333,
      "grad_norm": 0.7969459295272827,
      "learning_rate": 0.0002785813005615242,
      "loss": 3.9285,
      "step": 84310
    },
    {
      "epoch": 0.17566666666666667,
      "grad_norm": 0.7704258561134338,
      "learning_rate": 0.00027857622343179335,
      "loss": 3.9489,
      "step": 84320
    },
    {
      "epoch": 0.1756875,
      "grad_norm": 0.7691376209259033,
      "learning_rate": 0.00027857114574666417,
      "loss": 3.9469,
      "step": 84330
    },
    {
      "epoch": 0.17570833333333333,
      "grad_norm": 0.8196581602096558,
      "learning_rate": 0.0002785660675061585,
      "loss": 4.0143,
      "step": 84340
    },
    {
      "epoch": 0.17572916666666666,
      "grad_norm": 0.7274945974349976,
      "learning_rate": 0.00027856098871029833,
      "loss": 3.8897,
      "step": 84350
    },
    {
      "epoch": 0.17575,
      "grad_norm": 0.8923137187957764,
      "learning_rate": 0.00027855590935910553,
      "loss": 4.0407,
      "step": 84360
    },
    {
      "epoch": 0.17577083333333332,
      "grad_norm": 0.8398615121841431,
      "learning_rate": 0.00027855082945260216,
      "loss": 3.7819,
      "step": 84370
    },
    {
      "epoch": 0.17579166666666668,
      "grad_norm": 0.740421712398529,
      "learning_rate": 0.00027854574899081,
      "loss": 3.8742,
      "step": 84380
    },
    {
      "epoch": 0.1758125,
      "grad_norm": 0.8344475030899048,
      "learning_rate": 0.00027854066797375115,
      "loss": 4.0188,
      "step": 84390
    },
    {
      "epoch": 0.17583333333333334,
      "grad_norm": 0.6929113268852234,
      "learning_rate": 0.0002785355864014475,
      "loss": 3.8484,
      "step": 84400
    },
    {
      "epoch": 0.17585416666666667,
      "grad_norm": 0.7731239199638367,
      "learning_rate": 0.00027853050427392094,
      "loss": 3.903,
      "step": 84410
    },
    {
      "epoch": 0.175875,
      "grad_norm": 0.7715256214141846,
      "learning_rate": 0.00027852542159119355,
      "loss": 3.7636,
      "step": 84420
    },
    {
      "epoch": 0.17589583333333333,
      "grad_norm": 0.7231314778327942,
      "learning_rate": 0.00027852033835328716,
      "loss": 3.8185,
      "step": 84430
    },
    {
      "epoch": 0.17591666666666667,
      "grad_norm": 0.8167307376861572,
      "learning_rate": 0.0002785152545602238,
      "loss": 3.9658,
      "step": 84440
    },
    {
      "epoch": 0.1759375,
      "grad_norm": 0.8277047872543335,
      "learning_rate": 0.0002785101702120254,
      "loss": 3.8558,
      "step": 84450
    },
    {
      "epoch": 0.17595833333333333,
      "grad_norm": 0.8618035912513733,
      "learning_rate": 0.00027850508530871394,
      "loss": 3.8981,
      "step": 84460
    },
    {
      "epoch": 0.17597916666666666,
      "grad_norm": 0.717369556427002,
      "learning_rate": 0.00027849999985031135,
      "loss": 3.8997,
      "step": 84470
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.7896784543991089,
      "learning_rate": 0.00027849491383683965,
      "loss": 3.9028,
      "step": 84480
    },
    {
      "epoch": 0.17602083333333332,
      "grad_norm": 0.8415800929069519,
      "learning_rate": 0.0002784898272683208,
      "loss": 3.9736,
      "step": 84490
    },
    {
      "epoch": 0.17604166666666668,
      "grad_norm": 0.8310298919677734,
      "learning_rate": 0.00027848474014477675,
      "loss": 3.7949,
      "step": 84500
    },
    {
      "epoch": 0.1760625,
      "grad_norm": 0.9235999584197998,
      "learning_rate": 0.00027847965246622947,
      "loss": 3.8432,
      "step": 84510
    },
    {
      "epoch": 0.17608333333333334,
      "grad_norm": 0.8253383040428162,
      "learning_rate": 0.00027847456423270094,
      "loss": 3.7867,
      "step": 84520
    },
    {
      "epoch": 0.17610416666666667,
      "grad_norm": 0.7661988735198975,
      "learning_rate": 0.0002784694754442131,
      "loss": 3.6832,
      "step": 84530
    },
    {
      "epoch": 0.176125,
      "grad_norm": 0.7327288389205933,
      "learning_rate": 0.0002784643861007881,
      "loss": 4.0185,
      "step": 84540
    },
    {
      "epoch": 0.17614583333333333,
      "grad_norm": 0.8049317598342896,
      "learning_rate": 0.0002784592962024477,
      "loss": 3.9106,
      "step": 84550
    },
    {
      "epoch": 0.17616666666666667,
      "grad_norm": 0.7769505977630615,
      "learning_rate": 0.000278454205749214,
      "loss": 3.8083,
      "step": 84560
    },
    {
      "epoch": 0.1761875,
      "grad_norm": 0.848537027835846,
      "learning_rate": 0.00027844911474110903,
      "loss": 3.8794,
      "step": 84570
    },
    {
      "epoch": 0.17620833333333333,
      "grad_norm": 0.9577915072441101,
      "learning_rate": 0.0002784440231781547,
      "loss": 3.7767,
      "step": 84580
    },
    {
      "epoch": 0.17622916666666666,
      "grad_norm": 0.8277558088302612,
      "learning_rate": 0.00027843893106037305,
      "loss": 3.8523,
      "step": 84590
    },
    {
      "epoch": 0.17625,
      "grad_norm": 0.9064648151397705,
      "learning_rate": 0.00027843383838778603,
      "loss": 3.8125,
      "step": 84600
    },
    {
      "epoch": 0.17627083333333332,
      "grad_norm": 0.7582958340644836,
      "learning_rate": 0.00027842874516041563,
      "loss": 4.0807,
      "step": 84610
    },
    {
      "epoch": 0.17629166666666668,
      "grad_norm": 0.6202499866485596,
      "learning_rate": 0.00027842365137828397,
      "loss": 3.9925,
      "step": 84620
    },
    {
      "epoch": 0.1763125,
      "grad_norm": 0.8294300436973572,
      "learning_rate": 0.0002784185570414129,
      "loss": 4.0316,
      "step": 84630
    },
    {
      "epoch": 0.17633333333333334,
      "grad_norm": 0.7661452293395996,
      "learning_rate": 0.0002784134621498245,
      "loss": 3.928,
      "step": 84640
    },
    {
      "epoch": 0.17635416666666667,
      "grad_norm": 0.9225952625274658,
      "learning_rate": 0.0002784083667035408,
      "loss": 3.7466,
      "step": 84650
    },
    {
      "epoch": 0.176375,
      "grad_norm": 0.8584547638893127,
      "learning_rate": 0.0002784032707025838,
      "loss": 4.0949,
      "step": 84660
    },
    {
      "epoch": 0.17639583333333334,
      "grad_norm": 0.6964746713638306,
      "learning_rate": 0.0002783981741469755,
      "loss": 4.0062,
      "step": 84670
    },
    {
      "epoch": 0.17641666666666667,
      "grad_norm": 0.8194291591644287,
      "learning_rate": 0.00027839307703673787,
      "loss": 3.912,
      "step": 84680
    },
    {
      "epoch": 0.1764375,
      "grad_norm": 0.6447473168373108,
      "learning_rate": 0.000278387979371893,
      "loss": 3.7769,
      "step": 84690
    },
    {
      "epoch": 0.17645833333333333,
      "grad_norm": 0.8188226819038391,
      "learning_rate": 0.0002783828811524628,
      "loss": 3.8529,
      "step": 84700
    },
    {
      "epoch": 0.17647916666666666,
      "grad_norm": 0.7701348662376404,
      "learning_rate": 0.0002783777823784695,
      "loss": 3.7937,
      "step": 84710
    },
    {
      "epoch": 0.1765,
      "grad_norm": 0.7389251589775085,
      "learning_rate": 0.0002783726830499349,
      "loss": 3.8626,
      "step": 84720
    },
    {
      "epoch": 0.17652083333333332,
      "grad_norm": 0.7238682508468628,
      "learning_rate": 0.00027836758316688117,
      "loss": 4.1363,
      "step": 84730
    },
    {
      "epoch": 0.17654166666666668,
      "grad_norm": 0.7437998652458191,
      "learning_rate": 0.0002783624827293303,
      "loss": 3.8801,
      "step": 84740
    },
    {
      "epoch": 0.1765625,
      "grad_norm": 0.7351630926132202,
      "learning_rate": 0.0002783573817373042,
      "loss": 3.8832,
      "step": 84750
    },
    {
      "epoch": 0.17658333333333334,
      "grad_norm": 0.7549439072608948,
      "learning_rate": 0.0002783522801908252,
      "loss": 3.9316,
      "step": 84760
    },
    {
      "epoch": 0.17660416666666667,
      "grad_norm": 0.8210441470146179,
      "learning_rate": 0.000278347178089915,
      "loss": 3.9767,
      "step": 84770
    },
    {
      "epoch": 0.176625,
      "grad_norm": 0.7545561790466309,
      "learning_rate": 0.0002783420754345959,
      "loss": 3.9057,
      "step": 84780
    },
    {
      "epoch": 0.17664583333333334,
      "grad_norm": 0.7018294930458069,
      "learning_rate": 0.0002783369722248898,
      "loss": 3.8982,
      "step": 84790
    },
    {
      "epoch": 0.17666666666666667,
      "grad_norm": 0.7414410710334778,
      "learning_rate": 0.00027833186846081876,
      "loss": 3.8117,
      "step": 84800
    },
    {
      "epoch": 0.1766875,
      "grad_norm": 0.8761700391769409,
      "learning_rate": 0.00027832676414240486,
      "loss": 3.7411,
      "step": 84810
    },
    {
      "epoch": 0.17670833333333333,
      "grad_norm": 0.6783495545387268,
      "learning_rate": 0.0002783216592696701,
      "loss": 3.9546,
      "step": 84820
    },
    {
      "epoch": 0.17672916666666666,
      "grad_norm": 0.7869935631752014,
      "learning_rate": 0.0002783165538426366,
      "loss": 3.9386,
      "step": 84830
    },
    {
      "epoch": 0.17675,
      "grad_norm": 0.7963854670524597,
      "learning_rate": 0.0002783114478613264,
      "loss": 3.9319,
      "step": 84840
    },
    {
      "epoch": 0.17677083333333332,
      "grad_norm": 0.8568111062049866,
      "learning_rate": 0.0002783063413257615,
      "loss": 3.9164,
      "step": 84850
    },
    {
      "epoch": 0.17679166666666668,
      "grad_norm": 0.8278138041496277,
      "learning_rate": 0.000278301234235964,
      "loss": 3.9649,
      "step": 84860
    },
    {
      "epoch": 0.1768125,
      "grad_norm": 0.8124381899833679,
      "learning_rate": 0.0002782961265919559,
      "loss": 3.9824,
      "step": 84870
    },
    {
      "epoch": 0.17683333333333334,
      "grad_norm": 0.8014158010482788,
      "learning_rate": 0.0002782910183937594,
      "loss": 3.9643,
      "step": 84880
    },
    {
      "epoch": 0.17685416666666667,
      "grad_norm": 0.779434323310852,
      "learning_rate": 0.00027828590964139646,
      "loss": 3.9617,
      "step": 84890
    },
    {
      "epoch": 0.176875,
      "grad_norm": 0.8767693638801575,
      "learning_rate": 0.0002782808003348892,
      "loss": 3.8822,
      "step": 84900
    },
    {
      "epoch": 0.17689583333333334,
      "grad_norm": 0.7560848593711853,
      "learning_rate": 0.0002782756904742596,
      "loss": 3.7424,
      "step": 84910
    },
    {
      "epoch": 0.17691666666666667,
      "grad_norm": 0.825802743434906,
      "learning_rate": 0.0002782705800595298,
      "loss": 4.0187,
      "step": 84920
    },
    {
      "epoch": 0.1769375,
      "grad_norm": 1.1611425876617432,
      "learning_rate": 0.00027826546909072187,
      "loss": 3.684,
      "step": 84930
    },
    {
      "epoch": 0.17695833333333333,
      "grad_norm": 0.7577826380729675,
      "learning_rate": 0.0002782603575678579,
      "loss": 3.9734,
      "step": 84940
    },
    {
      "epoch": 0.17697916666666666,
      "grad_norm": 0.7903863787651062,
      "learning_rate": 0.00027825524549095996,
      "loss": 3.7422,
      "step": 84950
    },
    {
      "epoch": 0.177,
      "grad_norm": 0.7231795787811279,
      "learning_rate": 0.0002782501328600501,
      "loss": 3.8684,
      "step": 84960
    },
    {
      "epoch": 0.17702083333333332,
      "grad_norm": 0.7165958881378174,
      "learning_rate": 0.00027824501967515044,
      "loss": 3.8542,
      "step": 84970
    },
    {
      "epoch": 0.17704166666666668,
      "grad_norm": 0.8805063366889954,
      "learning_rate": 0.0002782399059362831,
      "loss": 4.0852,
      "step": 84980
    },
    {
      "epoch": 0.1770625,
      "grad_norm": 0.9535393714904785,
      "learning_rate": 0.0002782347916434701,
      "loss": 3.8245,
      "step": 84990
    },
    {
      "epoch": 0.17708333333333334,
      "grad_norm": 0.6483847498893738,
      "learning_rate": 0.0002782296767967335,
      "loss": 4.0333,
      "step": 85000
    },
    {
      "epoch": 0.17708333333333334,
      "eval_loss": 4.270883083343506,
      "eval_runtime": 10.2903,
      "eval_samples_per_second": 0.972,
      "eval_steps_per_second": 0.292,
      "step": 85000
    },
    {
      "epoch": 0.17710416666666667,
      "grad_norm": 0.68458491563797,
      "learning_rate": 0.00027822456139609556,
      "loss": 3.7919,
      "step": 85010
    },
    {
      "epoch": 0.177125,
      "grad_norm": 0.7985631227493286,
      "learning_rate": 0.00027821944544157817,
      "loss": 4.0258,
      "step": 85020
    },
    {
      "epoch": 0.17714583333333334,
      "grad_norm": 0.7664515376091003,
      "learning_rate": 0.00027821432893320364,
      "loss": 3.9391,
      "step": 85030
    },
    {
      "epoch": 0.17716666666666667,
      "grad_norm": 0.8336789011955261,
      "learning_rate": 0.00027820921187099386,
      "loss": 3.8307,
      "step": 85040
    },
    {
      "epoch": 0.1771875,
      "grad_norm": 0.8124071359634399,
      "learning_rate": 0.000278204094254971,
      "loss": 3.8803,
      "step": 85050
    },
    {
      "epoch": 0.17720833333333333,
      "grad_norm": 0.8979480862617493,
      "learning_rate": 0.0002781989760851573,
      "loss": 3.8354,
      "step": 85060
    },
    {
      "epoch": 0.17722916666666666,
      "grad_norm": 0.773404598236084,
      "learning_rate": 0.00027819385736157473,
      "loss": 3.882,
      "step": 85070
    },
    {
      "epoch": 0.17725,
      "grad_norm": 0.8584886789321899,
      "learning_rate": 0.00027818873808424543,
      "loss": 3.8124,
      "step": 85080
    },
    {
      "epoch": 0.17727083333333332,
      "grad_norm": 0.7295774817466736,
      "learning_rate": 0.0002781836182531916,
      "loss": 3.7988,
      "step": 85090
    },
    {
      "epoch": 0.17729166666666665,
      "grad_norm": 0.7434903383255005,
      "learning_rate": 0.0002781784978684352,
      "loss": 3.8588,
      "step": 85100
    },
    {
      "epoch": 0.1773125,
      "grad_norm": 0.756166398525238,
      "learning_rate": 0.00027817337692999844,
      "loss": 4.0116,
      "step": 85110
    },
    {
      "epoch": 0.17733333333333334,
      "grad_norm": 0.7727351188659668,
      "learning_rate": 0.0002781682554379034,
      "loss": 3.8945,
      "step": 85120
    },
    {
      "epoch": 0.17735416666666667,
      "grad_norm": 1.001320719718933,
      "learning_rate": 0.00027816313339217225,
      "loss": 3.9001,
      "step": 85130
    },
    {
      "epoch": 0.177375,
      "grad_norm": 0.6802487969398499,
      "learning_rate": 0.0002781580107928271,
      "loss": 4.0778,
      "step": 85140
    },
    {
      "epoch": 0.17739583333333334,
      "grad_norm": 0.8479102849960327,
      "learning_rate": 0.0002781528876398901,
      "loss": 3.7289,
      "step": 85150
    },
    {
      "epoch": 0.17741666666666667,
      "grad_norm": 0.7498804926872253,
      "learning_rate": 0.0002781477639333833,
      "loss": 4.0002,
      "step": 85160
    },
    {
      "epoch": 0.1774375,
      "grad_norm": 0.7579991817474365,
      "learning_rate": 0.0002781426396733289,
      "loss": 3.8885,
      "step": 85170
    },
    {
      "epoch": 0.17745833333333333,
      "grad_norm": 2.7374372482299805,
      "learning_rate": 0.00027813751485974904,
      "loss": 4.0101,
      "step": 85180
    },
    {
      "epoch": 0.17747916666666666,
      "grad_norm": 0.6861532926559448,
      "learning_rate": 0.00027813238949266577,
      "loss": 3.776,
      "step": 85190
    },
    {
      "epoch": 0.1775,
      "grad_norm": 0.7910853028297424,
      "learning_rate": 0.0002781272635721014,
      "loss": 4.1329,
      "step": 85200
    },
    {
      "epoch": 0.17752083333333332,
      "grad_norm": 0.695736825466156,
      "learning_rate": 0.0002781221370980779,
      "loss": 3.7898,
      "step": 85210
    },
    {
      "epoch": 0.17754166666666665,
      "grad_norm": 0.7923392057418823,
      "learning_rate": 0.0002781170100706175,
      "loss": 3.8419,
      "step": 85220
    },
    {
      "epoch": 0.1775625,
      "grad_norm": 0.7961102724075317,
      "learning_rate": 0.0002781118824897423,
      "loss": 3.8805,
      "step": 85230
    },
    {
      "epoch": 0.17758333333333334,
      "grad_norm": 0.7338016629219055,
      "learning_rate": 0.00027810675435547454,
      "loss": 4.1231,
      "step": 85240
    },
    {
      "epoch": 0.17760416666666667,
      "grad_norm": 0.723019003868103,
      "learning_rate": 0.0002781016256678362,
      "loss": 3.6793,
      "step": 85250
    },
    {
      "epoch": 0.177625,
      "grad_norm": 0.737377405166626,
      "learning_rate": 0.00027809649642684963,
      "loss": 4.0939,
      "step": 85260
    },
    {
      "epoch": 0.17764583333333334,
      "grad_norm": 0.7326564788818359,
      "learning_rate": 0.00027809136663253694,
      "loss": 3.811,
      "step": 85270
    },
    {
      "epoch": 0.17766666666666667,
      "grad_norm": 0.8616056442260742,
      "learning_rate": 0.00027808623628492016,
      "loss": 3.9611,
      "step": 85280
    },
    {
      "epoch": 0.1776875,
      "grad_norm": 0.7072295546531677,
      "learning_rate": 0.00027808110538402156,
      "loss": 3.9105,
      "step": 85290
    },
    {
      "epoch": 0.17770833333333333,
      "grad_norm": 0.7990497946739197,
      "learning_rate": 0.0002780759739298633,
      "loss": 3.8518,
      "step": 85300
    },
    {
      "epoch": 0.17772916666666666,
      "grad_norm": 0.8465691208839417,
      "learning_rate": 0.00027807084192246756,
      "loss": 3.8166,
      "step": 85310
    },
    {
      "epoch": 0.17775,
      "grad_norm": 0.8017556667327881,
      "learning_rate": 0.0002780657093618564,
      "loss": 3.8697,
      "step": 85320
    },
    {
      "epoch": 0.17777083333333332,
      "grad_norm": 0.7984086871147156,
      "learning_rate": 0.00027806057624805216,
      "loss": 3.9159,
      "step": 85330
    },
    {
      "epoch": 0.17779166666666665,
      "grad_norm": 0.8751817345619202,
      "learning_rate": 0.0002780554425810768,
      "loss": 4.0004,
      "step": 85340
    },
    {
      "epoch": 0.1778125,
      "grad_norm": 0.7382178902626038,
      "learning_rate": 0.0002780503083609527,
      "loss": 3.8486,
      "step": 85350
    },
    {
      "epoch": 0.17783333333333334,
      "grad_norm": 0.8024728298187256,
      "learning_rate": 0.000278045173587702,
      "loss": 4.0176,
      "step": 85360
    },
    {
      "epoch": 0.17785416666666667,
      "grad_norm": 1.0524216890335083,
      "learning_rate": 0.00027804003826134674,
      "loss": 3.8536,
      "step": 85370
    },
    {
      "epoch": 0.177875,
      "grad_norm": 0.7176036834716797,
      "learning_rate": 0.00027803490238190924,
      "loss": 3.8711,
      "step": 85380
    },
    {
      "epoch": 0.17789583333333334,
      "grad_norm": 0.8119319081306458,
      "learning_rate": 0.0002780297659494116,
      "loss": 3.9395,
      "step": 85390
    },
    {
      "epoch": 0.17791666666666667,
      "grad_norm": 0.9334378242492676,
      "learning_rate": 0.0002780246289638761,
      "loss": 3.7965,
      "step": 85400
    },
    {
      "epoch": 0.1779375,
      "grad_norm": 0.6776244640350342,
      "learning_rate": 0.0002780194914253248,
      "loss": 3.9576,
      "step": 85410
    },
    {
      "epoch": 0.17795833333333333,
      "grad_norm": 0.8493268489837646,
      "learning_rate": 0.0002780143533337801,
      "loss": 3.9624,
      "step": 85420
    },
    {
      "epoch": 0.17797916666666666,
      "grad_norm": 0.725996732711792,
      "learning_rate": 0.00027800921468926394,
      "loss": 3.8757,
      "step": 85430
    },
    {
      "epoch": 0.178,
      "grad_norm": 0.8265067934989929,
      "learning_rate": 0.00027800407549179873,
      "loss": 3.7489,
      "step": 85440
    },
    {
      "epoch": 0.17802083333333332,
      "grad_norm": 0.6908148527145386,
      "learning_rate": 0.0002779989357414065,
      "loss": 3.9662,
      "step": 85450
    },
    {
      "epoch": 0.17804166666666665,
      "grad_norm": 0.6956504583358765,
      "learning_rate": 0.0002779937954381096,
      "loss": 4.0488,
      "step": 85460
    },
    {
      "epoch": 0.1780625,
      "grad_norm": 0.8716495037078857,
      "learning_rate": 0.00027798865458193017,
      "loss": 3.9096,
      "step": 85470
    },
    {
      "epoch": 0.17808333333333334,
      "grad_norm": 0.8833160996437073,
      "learning_rate": 0.0002779835131728904,
      "loss": 3.8721,
      "step": 85480
    },
    {
      "epoch": 0.17810416666666667,
      "grad_norm": 0.7686583995819092,
      "learning_rate": 0.00027797837121101246,
      "loss": 3.9348,
      "step": 85490
    },
    {
      "epoch": 0.178125,
      "grad_norm": 0.9064064621925354,
      "learning_rate": 0.00027797322869631865,
      "loss": 4.0901,
      "step": 85500
    },
    {
      "epoch": 0.17814583333333334,
      "grad_norm": 0.9460353255271912,
      "learning_rate": 0.0002779680856288312,
      "loss": 4.2058,
      "step": 85510
    },
    {
      "epoch": 0.17816666666666667,
      "grad_norm": 0.764068067073822,
      "learning_rate": 0.0002779629420085722,
      "loss": 4.0236,
      "step": 85520
    },
    {
      "epoch": 0.1781875,
      "grad_norm": 0.8106610178947449,
      "learning_rate": 0.00027795779783556395,
      "loss": 3.8341,
      "step": 85530
    },
    {
      "epoch": 0.17820833333333333,
      "grad_norm": 0.7293939590454102,
      "learning_rate": 0.0002779526531098287,
      "loss": 3.9046,
      "step": 85540
    },
    {
      "epoch": 0.17822916666666666,
      "grad_norm": 0.8225104808807373,
      "learning_rate": 0.0002779475078313886,
      "loss": 3.9554,
      "step": 85550
    },
    {
      "epoch": 0.17825,
      "grad_norm": 0.7941524386405945,
      "learning_rate": 0.00027794236200026596,
      "loss": 4.0257,
      "step": 85560
    },
    {
      "epoch": 0.17827083333333332,
      "grad_norm": 0.7747449278831482,
      "learning_rate": 0.0002779372156164829,
      "loss": 3.9171,
      "step": 85570
    },
    {
      "epoch": 0.17829166666666665,
      "grad_norm": 0.8291200399398804,
      "learning_rate": 0.00027793206868006174,
      "loss": 3.9162,
      "step": 85580
    },
    {
      "epoch": 0.1783125,
      "grad_norm": 0.7966523170471191,
      "learning_rate": 0.00027792692119102473,
      "loss": 3.8511,
      "step": 85590
    },
    {
      "epoch": 0.17833333333333334,
      "grad_norm": 0.7935148477554321,
      "learning_rate": 0.00027792177314939394,
      "loss": 3.7484,
      "step": 85600
    },
    {
      "epoch": 0.17835416666666667,
      "grad_norm": 0.8843932151794434,
      "learning_rate": 0.0002779166245551918,
      "loss": 3.8398,
      "step": 85610
    },
    {
      "epoch": 0.178375,
      "grad_norm": 0.7689972519874573,
      "learning_rate": 0.0002779114754084405,
      "loss": 3.708,
      "step": 85620
    },
    {
      "epoch": 0.17839583333333334,
      "grad_norm": 0.7964766025543213,
      "learning_rate": 0.00027790632570916224,
      "loss": 4.0611,
      "step": 85630
    },
    {
      "epoch": 0.17841666666666667,
      "grad_norm": 1.0746008157730103,
      "learning_rate": 0.00027790117545737925,
      "loss": 3.905,
      "step": 85640
    },
    {
      "epoch": 0.1784375,
      "grad_norm": 1.1286265850067139,
      "learning_rate": 0.0002778960246531138,
      "loss": 3.9659,
      "step": 85650
    },
    {
      "epoch": 0.17845833333333333,
      "grad_norm": 0.6854866743087769,
      "learning_rate": 0.0002778908732963882,
      "loss": 3.9406,
      "step": 85660
    },
    {
      "epoch": 0.17847916666666666,
      "grad_norm": 0.7812469601631165,
      "learning_rate": 0.0002778857213872246,
      "loss": 3.9744,
      "step": 85670
    },
    {
      "epoch": 0.1785,
      "grad_norm": 0.9480813145637512,
      "learning_rate": 0.00027788056892564535,
      "loss": 3.8453,
      "step": 85680
    },
    {
      "epoch": 0.17852083333333332,
      "grad_norm": 0.7138664126396179,
      "learning_rate": 0.00027787541591167263,
      "loss": 3.8467,
      "step": 85690
    },
    {
      "epoch": 0.17854166666666665,
      "grad_norm": 0.7617980241775513,
      "learning_rate": 0.0002778702623453287,
      "loss": 3.7987,
      "step": 85700
    },
    {
      "epoch": 0.1785625,
      "grad_norm": 0.7998310923576355,
      "learning_rate": 0.0002778651082266359,
      "loss": 3.9373,
      "step": 85710
    },
    {
      "epoch": 0.17858333333333334,
      "grad_norm": 0.7830936908721924,
      "learning_rate": 0.00027785995355561645,
      "loss": 3.9655,
      "step": 85720
    },
    {
      "epoch": 0.17860416666666667,
      "grad_norm": 0.7035660743713379,
      "learning_rate": 0.0002778547983322926,
      "loss": 3.9824,
      "step": 85730
    },
    {
      "epoch": 0.178625,
      "grad_norm": 0.8720551133155823,
      "learning_rate": 0.0002778496425566866,
      "loss": 3.9131,
      "step": 85740
    },
    {
      "epoch": 0.17864583333333334,
      "grad_norm": 0.7178636193275452,
      "learning_rate": 0.0002778444862288208,
      "loss": 4.0619,
      "step": 85750
    },
    {
      "epoch": 0.17866666666666667,
      "grad_norm": 0.7582423090934753,
      "learning_rate": 0.0002778393293487174,
      "loss": 3.8318,
      "step": 85760
    },
    {
      "epoch": 0.1786875,
      "grad_norm": 0.769227921962738,
      "learning_rate": 0.0002778341719163987,
      "loss": 4.0159,
      "step": 85770
    },
    {
      "epoch": 0.17870833333333333,
      "grad_norm": 0.9777992367744446,
      "learning_rate": 0.000277829013931887,
      "loss": 3.9242,
      "step": 85780
    },
    {
      "epoch": 0.17872916666666666,
      "grad_norm": 0.7764589190483093,
      "learning_rate": 0.0002778238553952045,
      "loss": 3.8122,
      "step": 85790
    },
    {
      "epoch": 0.17875,
      "grad_norm": 0.791358232498169,
      "learning_rate": 0.00027781869630637355,
      "loss": 3.9199,
      "step": 85800
    },
    {
      "epoch": 0.17877083333333332,
      "grad_norm": 0.7822316288948059,
      "learning_rate": 0.0002778135366654165,
      "loss": 3.9028,
      "step": 85810
    },
    {
      "epoch": 0.17879166666666665,
      "grad_norm": 1.1834917068481445,
      "learning_rate": 0.0002778083764723555,
      "loss": 3.9403,
      "step": 85820
    },
    {
      "epoch": 0.1788125,
      "grad_norm": 0.7282077670097351,
      "learning_rate": 0.0002778032157272129,
      "loss": 3.8087,
      "step": 85830
    },
    {
      "epoch": 0.17883333333333334,
      "grad_norm": 0.9118136763572693,
      "learning_rate": 0.00027779805443001106,
      "loss": 3.8075,
      "step": 85840
    },
    {
      "epoch": 0.17885416666666668,
      "grad_norm": 0.7563148140907288,
      "learning_rate": 0.0002777928925807721,
      "loss": 3.8556,
      "step": 85850
    },
    {
      "epoch": 0.178875,
      "grad_norm": 0.7563636898994446,
      "learning_rate": 0.0002777877301795185,
      "loss": 3.923,
      "step": 85860
    },
    {
      "epoch": 0.17889583333333334,
      "grad_norm": 0.7616491317749023,
      "learning_rate": 0.00027778256722627253,
      "loss": 3.8456,
      "step": 85870
    },
    {
      "epoch": 0.17891666666666667,
      "grad_norm": 0.8798685669898987,
      "learning_rate": 0.0002777774037210564,
      "loss": 3.9007,
      "step": 85880
    },
    {
      "epoch": 0.1789375,
      "grad_norm": 0.8210008144378662,
      "learning_rate": 0.00027777223966389243,
      "loss": 3.9216,
      "step": 85890
    },
    {
      "epoch": 0.17895833333333333,
      "grad_norm": 0.8116207718849182,
      "learning_rate": 0.00027776707505480303,
      "loss": 3.9912,
      "step": 85900
    },
    {
      "epoch": 0.17897916666666666,
      "grad_norm": 0.7470940947532654,
      "learning_rate": 0.0002777619098938104,
      "loss": 4.1416,
      "step": 85910
    },
    {
      "epoch": 0.179,
      "grad_norm": 0.7884159088134766,
      "learning_rate": 0.00027775674418093686,
      "loss": 4.0423,
      "step": 85920
    },
    {
      "epoch": 0.17902083333333332,
      "grad_norm": 0.8260074853897095,
      "learning_rate": 0.0002777515779162048,
      "loss": 4.0291,
      "step": 85930
    },
    {
      "epoch": 0.17904166666666665,
      "grad_norm": 0.8841700553894043,
      "learning_rate": 0.0002777464110996365,
      "loss": 3.9149,
      "step": 85940
    },
    {
      "epoch": 0.1790625,
      "grad_norm": 0.7573043704032898,
      "learning_rate": 0.0002777412437312542,
      "loss": 4.0028,
      "step": 85950
    },
    {
      "epoch": 0.17908333333333334,
      "grad_norm": 0.830887496471405,
      "learning_rate": 0.0002777360758110804,
      "loss": 3.8941,
      "step": 85960
    },
    {
      "epoch": 0.17910416666666668,
      "grad_norm": 0.7752341628074646,
      "learning_rate": 0.00027773090733913727,
      "loss": 4.1286,
      "step": 85970
    },
    {
      "epoch": 0.179125,
      "grad_norm": 0.7582080960273743,
      "learning_rate": 0.0002777257383154471,
      "loss": 3.9649,
      "step": 85980
    },
    {
      "epoch": 0.17914583333333334,
      "grad_norm": 0.8516180515289307,
      "learning_rate": 0.0002777205687400324,
      "loss": 3.9943,
      "step": 85990
    },
    {
      "epoch": 0.17916666666666667,
      "grad_norm": 0.8340393900871277,
      "learning_rate": 0.00027771539861291535,
      "loss": 4.0159,
      "step": 86000
    },
    {
      "epoch": 0.17916666666666667,
      "eval_loss": 4.264447212219238,
      "eval_runtime": 9.9618,
      "eval_samples_per_second": 1.004,
      "eval_steps_per_second": 0.301,
      "step": 86000
    },
    {
      "epoch": 0.1791875,
      "grad_norm": 0.8380820155143738,
      "learning_rate": 0.0002777102279341183,
      "loss": 3.995,
      "step": 86010
    },
    {
      "epoch": 0.17920833333333333,
      "grad_norm": 0.8911182284355164,
      "learning_rate": 0.0002777050567036637,
      "loss": 3.9424,
      "step": 86020
    },
    {
      "epoch": 0.17922916666666666,
      "grad_norm": 0.7268779277801514,
      "learning_rate": 0.0002776998849215738,
      "loss": 3.8526,
      "step": 86030
    },
    {
      "epoch": 0.17925,
      "grad_norm": 0.8340833783149719,
      "learning_rate": 0.00027769471258787086,
      "loss": 3.9032,
      "step": 86040
    },
    {
      "epoch": 0.17927083333333332,
      "grad_norm": 0.6930897831916809,
      "learning_rate": 0.0002776895397025774,
      "loss": 4.0474,
      "step": 86050
    },
    {
      "epoch": 0.17929166666666665,
      "grad_norm": 0.762506365776062,
      "learning_rate": 0.0002776843662657156,
      "loss": 4.1076,
      "step": 86060
    },
    {
      "epoch": 0.1793125,
      "grad_norm": 0.8332167863845825,
      "learning_rate": 0.0002776791922773079,
      "loss": 3.944,
      "step": 86070
    },
    {
      "epoch": 0.17933333333333334,
      "grad_norm": 0.7995395064353943,
      "learning_rate": 0.0002776740177373766,
      "loss": 4.0739,
      "step": 86080
    },
    {
      "epoch": 0.17935416666666668,
      "grad_norm": 0.8047800064086914,
      "learning_rate": 0.00027766884264594414,
      "loss": 3.9314,
      "step": 86090
    },
    {
      "epoch": 0.179375,
      "grad_norm": 0.8498236536979675,
      "learning_rate": 0.0002776636670030328,
      "loss": 3.9711,
      "step": 86100
    },
    {
      "epoch": 0.17939583333333334,
      "grad_norm": 0.9017711877822876,
      "learning_rate": 0.00027765849080866494,
      "loss": 3.934,
      "step": 86110
    },
    {
      "epoch": 0.17941666666666667,
      "grad_norm": 0.8342052698135376,
      "learning_rate": 0.0002776533140628629,
      "loss": 4.1656,
      "step": 86120
    },
    {
      "epoch": 0.1794375,
      "grad_norm": 0.6985674500465393,
      "learning_rate": 0.0002776481367656491,
      "loss": 4.0342,
      "step": 86130
    },
    {
      "epoch": 0.17945833333333333,
      "grad_norm": 0.747012734413147,
      "learning_rate": 0.0002776429589170459,
      "loss": 4.0234,
      "step": 86140
    },
    {
      "epoch": 0.17947916666666666,
      "grad_norm": 0.722866952419281,
      "learning_rate": 0.0002776377805170756,
      "loss": 4.0712,
      "step": 86150
    },
    {
      "epoch": 0.1795,
      "grad_norm": 0.8306101560592651,
      "learning_rate": 0.0002776326015657607,
      "loss": 3.9106,
      "step": 86160
    },
    {
      "epoch": 0.17952083333333332,
      "grad_norm": 0.8258914947509766,
      "learning_rate": 0.00027762742206312335,
      "loss": 3.6867,
      "step": 86170
    },
    {
      "epoch": 0.17954166666666665,
      "grad_norm": 1.0408835411071777,
      "learning_rate": 0.0002776222420091861,
      "loss": 3.7529,
      "step": 86180
    },
    {
      "epoch": 0.1795625,
      "grad_norm": 0.9408711194992065,
      "learning_rate": 0.00027761706140397134,
      "loss": 3.884,
      "step": 86190
    },
    {
      "epoch": 0.17958333333333334,
      "grad_norm": 0.7155725955963135,
      "learning_rate": 0.00027761188024750134,
      "loss": 3.9833,
      "step": 86200
    },
    {
      "epoch": 0.17960416666666668,
      "grad_norm": 0.6851444244384766,
      "learning_rate": 0.0002776066985397985,
      "loss": 3.9916,
      "step": 86210
    },
    {
      "epoch": 0.179625,
      "grad_norm": 0.7510812282562256,
      "learning_rate": 0.00027760151628088527,
      "loss": 4.1098,
      "step": 86220
    },
    {
      "epoch": 0.17964583333333334,
      "grad_norm": 0.6606239080429077,
      "learning_rate": 0.000277596333470784,
      "loss": 3.8789,
      "step": 86230
    },
    {
      "epoch": 0.17966666666666667,
      "grad_norm": 0.7594720125198364,
      "learning_rate": 0.0002775911501095171,
      "loss": 3.9436,
      "step": 86240
    },
    {
      "epoch": 0.1796875,
      "grad_norm": 0.7470260262489319,
      "learning_rate": 0.0002775859661971069,
      "loss": 3.9608,
      "step": 86250
    },
    {
      "epoch": 0.17970833333333333,
      "grad_norm": 0.6869453191757202,
      "learning_rate": 0.00027758078173357586,
      "loss": 3.7846,
      "step": 86260
    },
    {
      "epoch": 0.17972916666666666,
      "grad_norm": 0.7238935828208923,
      "learning_rate": 0.0002775755967189463,
      "loss": 3.8762,
      "step": 86270
    },
    {
      "epoch": 0.17975,
      "grad_norm": 0.7277963757514954,
      "learning_rate": 0.0002775704111532407,
      "loss": 3.8483,
      "step": 86280
    },
    {
      "epoch": 0.17977083333333332,
      "grad_norm": 0.8137463927268982,
      "learning_rate": 0.0002775652250364814,
      "loss": 3.7965,
      "step": 86290
    },
    {
      "epoch": 0.17979166666666666,
      "grad_norm": 1.6932507753372192,
      "learning_rate": 0.0002775600383686908,
      "loss": 4.0959,
      "step": 86300
    },
    {
      "epoch": 0.1798125,
      "grad_norm": 0.7890238761901855,
      "learning_rate": 0.00027755485114989135,
      "loss": 4.0385,
      "step": 86310
    },
    {
      "epoch": 0.17983333333333335,
      "grad_norm": 0.816183865070343,
      "learning_rate": 0.00027754966338010544,
      "loss": 3.8311,
      "step": 86320
    },
    {
      "epoch": 0.17985416666666668,
      "grad_norm": 0.7907628417015076,
      "learning_rate": 0.00027754447505935547,
      "loss": 3.9034,
      "step": 86330
    },
    {
      "epoch": 0.179875,
      "grad_norm": 0.777371346950531,
      "learning_rate": 0.00027753928618766383,
      "loss": 4.0199,
      "step": 86340
    },
    {
      "epoch": 0.17989583333333334,
      "grad_norm": 0.7191076278686523,
      "learning_rate": 0.00027753409676505296,
      "loss": 3.7942,
      "step": 86350
    },
    {
      "epoch": 0.17991666666666667,
      "grad_norm": 0.7545293569564819,
      "learning_rate": 0.0002775289067915453,
      "loss": 3.8098,
      "step": 86360
    },
    {
      "epoch": 0.1799375,
      "grad_norm": 0.7242503762245178,
      "learning_rate": 0.0002775237162671632,
      "loss": 4.0995,
      "step": 86370
    },
    {
      "epoch": 0.17995833333333333,
      "grad_norm": 0.8849745988845825,
      "learning_rate": 0.0002775185251919292,
      "loss": 3.7909,
      "step": 86380
    },
    {
      "epoch": 0.17997916666666666,
      "grad_norm": 0.773890495300293,
      "learning_rate": 0.00027751333356586553,
      "loss": 3.9931,
      "step": 86390
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7033124566078186,
      "learning_rate": 0.00027750814138899485,
      "loss": 3.8301,
      "step": 86400
    },
    {
      "epoch": 0.18002083333333332,
      "grad_norm": 0.8426800966262817,
      "learning_rate": 0.0002775029486613394,
      "loss": 4.0528,
      "step": 86410
    },
    {
      "epoch": 0.18004166666666666,
      "grad_norm": 0.6433781981468201,
      "learning_rate": 0.00027749775538292166,
      "loss": 4.0897,
      "step": 86420
    },
    {
      "epoch": 0.1800625,
      "grad_norm": 0.7904895544052124,
      "learning_rate": 0.00027749256155376416,
      "loss": 4.0513,
      "step": 86430
    },
    {
      "epoch": 0.18008333333333335,
      "grad_norm": 0.7739648222923279,
      "learning_rate": 0.00027748736717388926,
      "loss": 3.8679,
      "step": 86440
    },
    {
      "epoch": 0.18010416666666668,
      "grad_norm": 0.8046252727508545,
      "learning_rate": 0.00027748217224331934,
      "loss": 3.8913,
      "step": 86450
    },
    {
      "epoch": 0.180125,
      "grad_norm": 0.8813231587409973,
      "learning_rate": 0.0002774769767620769,
      "loss": 3.9458,
      "step": 86460
    },
    {
      "epoch": 0.18014583333333334,
      "grad_norm": 0.8923408389091492,
      "learning_rate": 0.0002774717807301844,
      "loss": 3.9908,
      "step": 86470
    },
    {
      "epoch": 0.18016666666666667,
      "grad_norm": 0.7435433864593506,
      "learning_rate": 0.0002774665841476643,
      "loss": 3.9282,
      "step": 86480
    },
    {
      "epoch": 0.1801875,
      "grad_norm": 0.8172239661216736,
      "learning_rate": 0.0002774613870145389,
      "loss": 3.9326,
      "step": 86490
    },
    {
      "epoch": 0.18020833333333333,
      "grad_norm": 0.8387504816055298,
      "learning_rate": 0.00027745618933083083,
      "loss": 4.1198,
      "step": 86500
    },
    {
      "epoch": 0.18022916666666666,
      "grad_norm": 0.7369555830955505,
      "learning_rate": 0.0002774509910965625,
      "loss": 3.9962,
      "step": 86510
    },
    {
      "epoch": 0.18025,
      "grad_norm": 0.8199030160903931,
      "learning_rate": 0.0002774457923117563,
      "loss": 3.9088,
      "step": 86520
    },
    {
      "epoch": 0.18027083333333332,
      "grad_norm": 0.7658722400665283,
      "learning_rate": 0.0002774405929764348,
      "loss": 4.0988,
      "step": 86530
    },
    {
      "epoch": 0.18029166666666666,
      "grad_norm": 0.8912103176116943,
      "learning_rate": 0.0002774353930906203,
      "loss": 3.9545,
      "step": 86540
    },
    {
      "epoch": 0.1803125,
      "grad_norm": 1.0174684524536133,
      "learning_rate": 0.00027743019265433536,
      "loss": 4.081,
      "step": 86550
    },
    {
      "epoch": 0.18033333333333335,
      "grad_norm": 0.7594966292381287,
      "learning_rate": 0.0002774249916676024,
      "loss": 4.0002,
      "step": 86560
    },
    {
      "epoch": 0.18035416666666668,
      "grad_norm": 0.7672754526138306,
      "learning_rate": 0.0002774197901304439,
      "loss": 3.964,
      "step": 86570
    },
    {
      "epoch": 0.180375,
      "grad_norm": 0.7904402017593384,
      "learning_rate": 0.0002774145880428824,
      "loss": 3.9128,
      "step": 86580
    },
    {
      "epoch": 0.18039583333333334,
      "grad_norm": 0.7765664458274841,
      "learning_rate": 0.00027740938540494033,
      "loss": 3.9941,
      "step": 86590
    },
    {
      "epoch": 0.18041666666666667,
      "grad_norm": 0.9382291436195374,
      "learning_rate": 0.00027740418221664014,
      "loss": 3.8465,
      "step": 86600
    },
    {
      "epoch": 0.1804375,
      "grad_norm": 0.8034531474113464,
      "learning_rate": 0.0002773989784780043,
      "loss": 4.0178,
      "step": 86610
    },
    {
      "epoch": 0.18045833333333333,
      "grad_norm": 0.6991348266601562,
      "learning_rate": 0.0002773937741890553,
      "loss": 4.1076,
      "step": 86620
    },
    {
      "epoch": 0.18047916666666666,
      "grad_norm": 0.9755804538726807,
      "learning_rate": 0.0002773885693498156,
      "loss": 3.9626,
      "step": 86630
    },
    {
      "epoch": 0.1805,
      "grad_norm": 0.8245457410812378,
      "learning_rate": 0.0002773833639603077,
      "loss": 4.1058,
      "step": 86640
    },
    {
      "epoch": 0.18052083333333332,
      "grad_norm": 0.7956671118736267,
      "learning_rate": 0.0002773781580205541,
      "loss": 3.8751,
      "step": 86650
    },
    {
      "epoch": 0.18054166666666666,
      "grad_norm": 0.7401562929153442,
      "learning_rate": 0.0002773729515305773,
      "loss": 4.1363,
      "step": 86660
    },
    {
      "epoch": 0.1805625,
      "grad_norm": 0.8218671679496765,
      "learning_rate": 0.00027736774449039976,
      "loss": 3.9871,
      "step": 86670
    },
    {
      "epoch": 0.18058333333333335,
      "grad_norm": 1.231929063796997,
      "learning_rate": 0.000277362536900044,
      "loss": 3.911,
      "step": 86680
    },
    {
      "epoch": 0.18060416666666668,
      "grad_norm": 0.7898419499397278,
      "learning_rate": 0.00027735732875953245,
      "loss": 4.0308,
      "step": 86690
    },
    {
      "epoch": 0.180625,
      "grad_norm": 0.7568915486335754,
      "learning_rate": 0.00027735212006888764,
      "loss": 3.8096,
      "step": 86700
    },
    {
      "epoch": 0.18064583333333334,
      "grad_norm": 0.89715975522995,
      "learning_rate": 0.0002773469108281321,
      "loss": 4.0099,
      "step": 86710
    },
    {
      "epoch": 0.18066666666666667,
      "grad_norm": 0.7076801061630249,
      "learning_rate": 0.00027734170103728835,
      "loss": 3.9542,
      "step": 86720
    },
    {
      "epoch": 0.1806875,
      "grad_norm": 0.8222557306289673,
      "learning_rate": 0.0002773364906963788,
      "loss": 3.9606,
      "step": 86730
    },
    {
      "epoch": 0.18070833333333333,
      "grad_norm": 0.817769467830658,
      "learning_rate": 0.000277331279805426,
      "loss": 3.8925,
      "step": 86740
    },
    {
      "epoch": 0.18072916666666666,
      "grad_norm": 0.7369047999382019,
      "learning_rate": 0.0002773260683644526,
      "loss": 3.9034,
      "step": 86750
    },
    {
      "epoch": 0.18075,
      "grad_norm": 0.6927917003631592,
      "learning_rate": 0.00027732085637348087,
      "loss": 4.1525,
      "step": 86760
    },
    {
      "epoch": 0.18077083333333333,
      "grad_norm": 0.7115907073020935,
      "learning_rate": 0.00027731564383253344,
      "loss": 3.8929,
      "step": 86770
    },
    {
      "epoch": 0.18079166666666666,
      "grad_norm": 0.9259523153305054,
      "learning_rate": 0.00027731043074163286,
      "loss": 3.7335,
      "step": 86780
    },
    {
      "epoch": 0.1808125,
      "grad_norm": 0.7273411154747009,
      "learning_rate": 0.0002773052171008016,
      "loss": 3.9717,
      "step": 86790
    },
    {
      "epoch": 0.18083333333333335,
      "grad_norm": 0.9670501947402954,
      "learning_rate": 0.0002773000029100622,
      "loss": 4.0591,
      "step": 86800
    },
    {
      "epoch": 0.18085416666666668,
      "grad_norm": 0.8025546073913574,
      "learning_rate": 0.0002772947881694372,
      "loss": 4.101,
      "step": 86810
    },
    {
      "epoch": 0.180875,
      "grad_norm": 0.8050698637962341,
      "learning_rate": 0.00027728957287894904,
      "loss": 3.9529,
      "step": 86820
    },
    {
      "epoch": 0.18089583333333334,
      "grad_norm": 0.7396500706672668,
      "learning_rate": 0.0002772843570386204,
      "loss": 3.9786,
      "step": 86830
    },
    {
      "epoch": 0.18091666666666667,
      "grad_norm": 0.6902603507041931,
      "learning_rate": 0.0002772791406484736,
      "loss": 4.0195,
      "step": 86840
    },
    {
      "epoch": 0.1809375,
      "grad_norm": 0.916330099105835,
      "learning_rate": 0.00027727392370853135,
      "loss": 4.1401,
      "step": 86850
    },
    {
      "epoch": 0.18095833333333333,
      "grad_norm": 1.0736193656921387,
      "learning_rate": 0.0002772687062188162,
      "loss": 3.8621,
      "step": 86860
    },
    {
      "epoch": 0.18097916666666666,
      "grad_norm": 0.7355148196220398,
      "learning_rate": 0.0002772634881793505,
      "loss": 3.9006,
      "step": 86870
    },
    {
      "epoch": 0.181,
      "grad_norm": 0.7642204165458679,
      "learning_rate": 0.00027725826959015695,
      "loss": 3.907,
      "step": 86880
    },
    {
      "epoch": 0.18102083333333333,
      "grad_norm": 0.838309109210968,
      "learning_rate": 0.00027725305045125806,
      "loss": 3.8492,
      "step": 86890
    },
    {
      "epoch": 0.18104166666666666,
      "grad_norm": 0.722305953502655,
      "learning_rate": 0.00027724783076267637,
      "loss": 3.8561,
      "step": 86900
    },
    {
      "epoch": 0.1810625,
      "grad_norm": 0.9098578691482544,
      "learning_rate": 0.00027724261052443437,
      "loss": 3.8183,
      "step": 86910
    },
    {
      "epoch": 0.18108333333333335,
      "grad_norm": 0.8164868950843811,
      "learning_rate": 0.0002772373897365547,
      "loss": 3.9282,
      "step": 86920
    },
    {
      "epoch": 0.18110416666666668,
      "grad_norm": 0.8785514831542969,
      "learning_rate": 0.00027723216839905987,
      "loss": 3.9323,
      "step": 86930
    },
    {
      "epoch": 0.181125,
      "grad_norm": 0.771049976348877,
      "learning_rate": 0.0002772269465119724,
      "loss": 4.0143,
      "step": 86940
    },
    {
      "epoch": 0.18114583333333334,
      "grad_norm": 0.8689170479774475,
      "learning_rate": 0.0002772217240753149,
      "loss": 3.8116,
      "step": 86950
    },
    {
      "epoch": 0.18116666666666667,
      "grad_norm": 0.9025158882141113,
      "learning_rate": 0.00027721650108911,
      "loss": 4.1129,
      "step": 86960
    },
    {
      "epoch": 0.1811875,
      "grad_norm": 0.8414560556411743,
      "learning_rate": 0.00027721127755338005,
      "loss": 3.9371,
      "step": 86970
    },
    {
      "epoch": 0.18120833333333333,
      "grad_norm": 0.8141510486602783,
      "learning_rate": 0.00027720605346814777,
      "loss": 4.0294,
      "step": 86980
    },
    {
      "epoch": 0.18122916666666666,
      "grad_norm": 0.754301905632019,
      "learning_rate": 0.0002772008288334357,
      "loss": 3.8286,
      "step": 86990
    },
    {
      "epoch": 0.18125,
      "grad_norm": 0.8273358941078186,
      "learning_rate": 0.0002771956036492664,
      "loss": 3.9802,
      "step": 87000
    },
    {
      "epoch": 0.18125,
      "eval_loss": 4.2762131690979,
      "eval_runtime": 9.7389,
      "eval_samples_per_second": 1.027,
      "eval_steps_per_second": 0.308,
      "step": 87000
    },
    {
      "epoch": 0.18127083333333333,
      "grad_norm": 0.7829307913780212,
      "learning_rate": 0.00027719037791566244,
      "loss": 3.8727,
      "step": 87010
    },
    {
      "epoch": 0.18129166666666666,
      "grad_norm": 0.717750608921051,
      "learning_rate": 0.0002771851516326464,
      "loss": 3.9016,
      "step": 87020
    },
    {
      "epoch": 0.1813125,
      "grad_norm": 0.7441225647926331,
      "learning_rate": 0.0002771799248002408,
      "loss": 3.9129,
      "step": 87030
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 0.7568635940551758,
      "learning_rate": 0.0002771746974184683,
      "loss": 4.0888,
      "step": 87040
    },
    {
      "epoch": 0.18135416666666668,
      "grad_norm": 0.8313568830490112,
      "learning_rate": 0.00027716946948735146,
      "loss": 4.0228,
      "step": 87050
    },
    {
      "epoch": 0.181375,
      "grad_norm": 0.8301163911819458,
      "learning_rate": 0.0002771642410069128,
      "loss": 3.788,
      "step": 87060
    },
    {
      "epoch": 0.18139583333333334,
      "grad_norm": 0.8366144299507141,
      "learning_rate": 0.000277159011977175,
      "loss": 3.8964,
      "step": 87070
    },
    {
      "epoch": 0.18141666666666667,
      "grad_norm": 0.8715069890022278,
      "learning_rate": 0.0002771537823981606,
      "loss": 4.0961,
      "step": 87080
    },
    {
      "epoch": 0.1814375,
      "grad_norm": 0.8349758982658386,
      "learning_rate": 0.0002771485522698922,
      "loss": 4.0396,
      "step": 87090
    },
    {
      "epoch": 0.18145833333333333,
      "grad_norm": 0.971042275428772,
      "learning_rate": 0.00027714332159239235,
      "loss": 4.0946,
      "step": 87100
    },
    {
      "epoch": 0.18147916666666666,
      "grad_norm": 0.8309457302093506,
      "learning_rate": 0.0002771380903656837,
      "loss": 3.8551,
      "step": 87110
    },
    {
      "epoch": 0.1815,
      "grad_norm": 0.7502473592758179,
      "learning_rate": 0.00027713285858978887,
      "loss": 3.9482,
      "step": 87120
    },
    {
      "epoch": 0.18152083333333333,
      "grad_norm": 0.7540673017501831,
      "learning_rate": 0.0002771276262647303,
      "loss": 3.8731,
      "step": 87130
    },
    {
      "epoch": 0.18154166666666666,
      "grad_norm": 0.8102383017539978,
      "learning_rate": 0.0002771223933905308,
      "loss": 3.8357,
      "step": 87140
    },
    {
      "epoch": 0.1815625,
      "grad_norm": 0.7553289532661438,
      "learning_rate": 0.0002771171599672128,
      "loss": 3.8382,
      "step": 87150
    },
    {
      "epoch": 0.18158333333333335,
      "grad_norm": 0.7286981344223022,
      "learning_rate": 0.00027711192599479904,
      "loss": 3.9077,
      "step": 87160
    },
    {
      "epoch": 0.18160416666666668,
      "grad_norm": 0.8576011657714844,
      "learning_rate": 0.0002771066914733121,
      "loss": 3.7951,
      "step": 87170
    },
    {
      "epoch": 0.181625,
      "grad_norm": 0.7307623028755188,
      "learning_rate": 0.0002771014564027745,
      "loss": 3.9714,
      "step": 87180
    },
    {
      "epoch": 0.18164583333333334,
      "grad_norm": 0.7565385699272156,
      "learning_rate": 0.00027709622078320894,
      "loss": 4.0664,
      "step": 87190
    },
    {
      "epoch": 0.18166666666666667,
      "grad_norm": 0.8211855292320251,
      "learning_rate": 0.00027709098461463805,
      "loss": 3.9163,
      "step": 87200
    },
    {
      "epoch": 0.1816875,
      "grad_norm": 0.8056821823120117,
      "learning_rate": 0.00027708574789708437,
      "loss": 4.0279,
      "step": 87210
    },
    {
      "epoch": 0.18170833333333333,
      "grad_norm": 0.8908872604370117,
      "learning_rate": 0.0002770805106305706,
      "loss": 3.8655,
      "step": 87220
    },
    {
      "epoch": 0.18172916666666666,
      "grad_norm": 0.836047887802124,
      "learning_rate": 0.0002770752728151193,
      "loss": 3.8783,
      "step": 87230
    },
    {
      "epoch": 0.18175,
      "grad_norm": 0.6923906207084656,
      "learning_rate": 0.0002770700344507531,
      "loss": 3.9411,
      "step": 87240
    },
    {
      "epoch": 0.18177083333333333,
      "grad_norm": 0.7421125769615173,
      "learning_rate": 0.0002770647955374947,
      "loss": 3.8956,
      "step": 87250
    },
    {
      "epoch": 0.18179166666666666,
      "grad_norm": 0.7003380656242371,
      "learning_rate": 0.00027705955607536665,
      "loss": 3.7415,
      "step": 87260
    },
    {
      "epoch": 0.1818125,
      "grad_norm": 0.733111560344696,
      "learning_rate": 0.0002770543160643916,
      "loss": 3.8,
      "step": 87270
    },
    {
      "epoch": 0.18183333333333335,
      "grad_norm": 0.81344074010849,
      "learning_rate": 0.0002770490755045922,
      "loss": 4.0517,
      "step": 87280
    },
    {
      "epoch": 0.18185416666666668,
      "grad_norm": 0.736926794052124,
      "learning_rate": 0.0002770438343959911,
      "loss": 3.9058,
      "step": 87290
    },
    {
      "epoch": 0.181875,
      "grad_norm": 0.8664732575416565,
      "learning_rate": 0.000277038592738611,
      "loss": 4.0394,
      "step": 87300
    },
    {
      "epoch": 0.18189583333333334,
      "grad_norm": 0.8464640378952026,
      "learning_rate": 0.0002770333505324743,
      "loss": 4.0282,
      "step": 87310
    },
    {
      "epoch": 0.18191666666666667,
      "grad_norm": 0.750221312046051,
      "learning_rate": 0.0002770281077776039,
      "loss": 4.0073,
      "step": 87320
    },
    {
      "epoch": 0.1819375,
      "grad_norm": 0.8822414875030518,
      "learning_rate": 0.00027702286447402235,
      "loss": 3.8761,
      "step": 87330
    },
    {
      "epoch": 0.18195833333333333,
      "grad_norm": 0.8932996392250061,
      "learning_rate": 0.0002770176206217523,
      "loss": 3.8584,
      "step": 87340
    },
    {
      "epoch": 0.18197916666666666,
      "grad_norm": 0.7007710933685303,
      "learning_rate": 0.0002770123762208164,
      "loss": 4.0211,
      "step": 87350
    },
    {
      "epoch": 0.182,
      "grad_norm": 0.7878519892692566,
      "learning_rate": 0.00027700713127123733,
      "loss": 4.0379,
      "step": 87360
    },
    {
      "epoch": 0.18202083333333333,
      "grad_norm": 0.8292218446731567,
      "learning_rate": 0.0002770018857730377,
      "loss": 4.0106,
      "step": 87370
    },
    {
      "epoch": 0.18204166666666666,
      "grad_norm": 0.8177099227905273,
      "learning_rate": 0.0002769966397262402,
      "loss": 4.0429,
      "step": 87380
    },
    {
      "epoch": 0.1820625,
      "grad_norm": 0.7227445244789124,
      "learning_rate": 0.0002769913931308675,
      "loss": 3.979,
      "step": 87390
    },
    {
      "epoch": 0.18208333333333335,
      "grad_norm": 0.8037196397781372,
      "learning_rate": 0.00027698614598694227,
      "loss": 4.142,
      "step": 87400
    },
    {
      "epoch": 0.18210416666666668,
      "grad_norm": 0.8336159586906433,
      "learning_rate": 0.0002769808982944871,
      "loss": 4.0123,
      "step": 87410
    },
    {
      "epoch": 0.182125,
      "grad_norm": 0.8700069189071655,
      "learning_rate": 0.00027697565005352473,
      "loss": 3.9346,
      "step": 87420
    },
    {
      "epoch": 0.18214583333333334,
      "grad_norm": 0.7583079934120178,
      "learning_rate": 0.0002769704012640778,
      "loss": 3.9338,
      "step": 87430
    },
    {
      "epoch": 0.18216666666666667,
      "grad_norm": 0.7131475806236267,
      "learning_rate": 0.0002769651519261691,
      "loss": 3.8463,
      "step": 87440
    },
    {
      "epoch": 0.1821875,
      "grad_norm": 0.7094453573226929,
      "learning_rate": 0.00027695990203982105,
      "loss": 3.905,
      "step": 87450
    },
    {
      "epoch": 0.18220833333333333,
      "grad_norm": 0.8984208703041077,
      "learning_rate": 0.0002769546516050566,
      "loss": 3.9301,
      "step": 87460
    },
    {
      "epoch": 0.18222916666666666,
      "grad_norm": 0.9187492728233337,
      "learning_rate": 0.0002769494006218982,
      "loss": 3.9991,
      "step": 87470
    },
    {
      "epoch": 0.18225,
      "grad_norm": 0.785453736782074,
      "learning_rate": 0.0002769441490903687,
      "loss": 3.9285,
      "step": 87480
    },
    {
      "epoch": 0.18227083333333333,
      "grad_norm": 0.7565127015113831,
      "learning_rate": 0.00027693889701049074,
      "loss": 3.8673,
      "step": 87490
    },
    {
      "epoch": 0.18229166666666666,
      "grad_norm": 0.7924365401268005,
      "learning_rate": 0.00027693364438228694,
      "loss": 3.8782,
      "step": 87500
    },
    {
      "epoch": 0.1823125,
      "grad_norm": 0.8229979872703552,
      "learning_rate": 0.00027692839120578,
      "loss": 3.7964,
      "step": 87510
    },
    {
      "epoch": 0.18233333333333332,
      "grad_norm": 0.7013866305351257,
      "learning_rate": 0.0002769231374809928,
      "loss": 3.703,
      "step": 87520
    },
    {
      "epoch": 0.18235416666666668,
      "grad_norm": 0.7846365571022034,
      "learning_rate": 0.00027691788320794775,
      "loss": 4.0488,
      "step": 87530
    },
    {
      "epoch": 0.182375,
      "grad_norm": 0.7673659920692444,
      "learning_rate": 0.0002769126283866677,
      "loss": 3.9344,
      "step": 87540
    },
    {
      "epoch": 0.18239583333333334,
      "grad_norm": 0.8162211775779724,
      "learning_rate": 0.0002769073730171754,
      "loss": 3.763,
      "step": 87550
    },
    {
      "epoch": 0.18241666666666667,
      "grad_norm": 0.6888481378555298,
      "learning_rate": 0.00027690211709949344,
      "loss": 3.8642,
      "step": 87560
    },
    {
      "epoch": 0.1824375,
      "grad_norm": 0.7766658663749695,
      "learning_rate": 0.0002768968606336446,
      "loss": 3.7084,
      "step": 87570
    },
    {
      "epoch": 0.18245833333333333,
      "grad_norm": 0.9030970335006714,
      "learning_rate": 0.0002768916036196515,
      "loss": 3.9177,
      "step": 87580
    },
    {
      "epoch": 0.18247916666666666,
      "grad_norm": 0.76337730884552,
      "learning_rate": 0.0002768863460575369,
      "loss": 3.9446,
      "step": 87590
    },
    {
      "epoch": 0.1825,
      "grad_norm": 0.797347366809845,
      "learning_rate": 0.00027688108794732356,
      "loss": 3.8734,
      "step": 87600
    },
    {
      "epoch": 0.18252083333333333,
      "grad_norm": 0.7519146203994751,
      "learning_rate": 0.00027687582928903414,
      "loss": 3.8493,
      "step": 87610
    },
    {
      "epoch": 0.18254166666666666,
      "grad_norm": 0.7263171076774597,
      "learning_rate": 0.0002768705700826913,
      "loss": 4.0843,
      "step": 87620
    },
    {
      "epoch": 0.1825625,
      "grad_norm": 0.854971170425415,
      "learning_rate": 0.0002768653103283179,
      "loss": 3.9364,
      "step": 87630
    },
    {
      "epoch": 0.18258333333333332,
      "grad_norm": 0.7594761252403259,
      "learning_rate": 0.00027686005002593644,
      "loss": 3.9043,
      "step": 87640
    },
    {
      "epoch": 0.18260416666666668,
      "grad_norm": 0.7557277679443359,
      "learning_rate": 0.00027685478917556993,
      "loss": 3.7167,
      "step": 87650
    },
    {
      "epoch": 0.182625,
      "grad_norm": 0.836554229259491,
      "learning_rate": 0.0002768495277772408,
      "loss": 3.8935,
      "step": 87660
    },
    {
      "epoch": 0.18264583333333334,
      "grad_norm": 0.8543583750724792,
      "learning_rate": 0.00027684426583097203,
      "loss": 3.9999,
      "step": 87670
    },
    {
      "epoch": 0.18266666666666667,
      "grad_norm": 0.7264884114265442,
      "learning_rate": 0.0002768390033367862,
      "loss": 3.9784,
      "step": 87680
    },
    {
      "epoch": 0.1826875,
      "grad_norm": 0.829288899898529,
      "learning_rate": 0.0002768337402947061,
      "loss": 3.9155,
      "step": 87690
    },
    {
      "epoch": 0.18270833333333333,
      "grad_norm": 0.8200216293334961,
      "learning_rate": 0.00027682847670475446,
      "loss": 3.9929,
      "step": 87700
    },
    {
      "epoch": 0.18272916666666666,
      "grad_norm": 0.7360736727714539,
      "learning_rate": 0.000276823212566954,
      "loss": 3.956,
      "step": 87710
    },
    {
      "epoch": 0.18275,
      "grad_norm": 0.7371709942817688,
      "learning_rate": 0.0002768179478813274,
      "loss": 3.9111,
      "step": 87720
    },
    {
      "epoch": 0.18277083333333333,
      "grad_norm": 0.7644110321998596,
      "learning_rate": 0.0002768126826478975,
      "loss": 3.9201,
      "step": 87730
    },
    {
      "epoch": 0.18279166666666666,
      "grad_norm": 0.7633153200149536,
      "learning_rate": 0.000276807416866687,
      "loss": 3.8998,
      "step": 87740
    },
    {
      "epoch": 0.1828125,
      "grad_norm": 1.025044560432434,
      "learning_rate": 0.0002768021505377187,
      "loss": 3.9701,
      "step": 87750
    },
    {
      "epoch": 0.18283333333333332,
      "grad_norm": 0.7863289713859558,
      "learning_rate": 0.0002767968836610153,
      "loss": 4.1157,
      "step": 87760
    },
    {
      "epoch": 0.18285416666666668,
      "grad_norm": 0.7808500528335571,
      "learning_rate": 0.0002767916162365995,
      "loss": 4.0034,
      "step": 87770
    },
    {
      "epoch": 0.182875,
      "grad_norm": 0.6739521622657776,
      "learning_rate": 0.00027678634826449407,
      "loss": 3.9762,
      "step": 87780
    },
    {
      "epoch": 0.18289583333333334,
      "grad_norm": 1.1730210781097412,
      "learning_rate": 0.0002767810797447219,
      "loss": 3.8859,
      "step": 87790
    },
    {
      "epoch": 0.18291666666666667,
      "grad_norm": 0.8041358590126038,
      "learning_rate": 0.0002767758106773056,
      "loss": 4.1744,
      "step": 87800
    },
    {
      "epoch": 0.1829375,
      "grad_norm": 0.8782163262367249,
      "learning_rate": 0.000276770541062268,
      "loss": 4.0348,
      "step": 87810
    },
    {
      "epoch": 0.18295833333333333,
      "grad_norm": 0.8994797468185425,
      "learning_rate": 0.00027676527089963177,
      "loss": 4.018,
      "step": 87820
    },
    {
      "epoch": 0.18297916666666666,
      "grad_norm": 0.7245046496391296,
      "learning_rate": 0.0002767600001894198,
      "loss": 3.8823,
      "step": 87830
    },
    {
      "epoch": 0.183,
      "grad_norm": 0.7504734396934509,
      "learning_rate": 0.0002767547289316548,
      "loss": 3.8876,
      "step": 87840
    },
    {
      "epoch": 0.18302083333333333,
      "grad_norm": 0.8326441049575806,
      "learning_rate": 0.00027674945712635957,
      "loss": 3.8836,
      "step": 87850
    },
    {
      "epoch": 0.18304166666666666,
      "grad_norm": 0.6638035178184509,
      "learning_rate": 0.0002767441847735568,
      "loss": 3.7964,
      "step": 87860
    },
    {
      "epoch": 0.1830625,
      "grad_norm": 0.8729750514030457,
      "learning_rate": 0.00027673891187326944,
      "loss": 4.0322,
      "step": 87870
    },
    {
      "epoch": 0.18308333333333332,
      "grad_norm": 0.8071134686470032,
      "learning_rate": 0.00027673363842552,
      "loss": 3.9481,
      "step": 87880
    },
    {
      "epoch": 0.18310416666666668,
      "grad_norm": 0.8748875856399536,
      "learning_rate": 0.0002767283644303315,
      "loss": 3.9024,
      "step": 87890
    },
    {
      "epoch": 0.183125,
      "grad_norm": 0.7890925407409668,
      "learning_rate": 0.0002767230898877266,
      "loss": 4.045,
      "step": 87900
    },
    {
      "epoch": 0.18314583333333334,
      "grad_norm": 0.7785685658454895,
      "learning_rate": 0.0002767178147977281,
      "loss": 3.9871,
      "step": 87910
    },
    {
      "epoch": 0.18316666666666667,
      "grad_norm": 0.9221833348274231,
      "learning_rate": 0.0002767125391603588,
      "loss": 3.9511,
      "step": 87920
    },
    {
      "epoch": 0.1831875,
      "grad_norm": 0.8880302309989929,
      "learning_rate": 0.00027670726297564154,
      "loss": 4.0629,
      "step": 87930
    },
    {
      "epoch": 0.18320833333333333,
      "grad_norm": 0.7509293556213379,
      "learning_rate": 0.00027670198624359896,
      "loss": 4.0799,
      "step": 87940
    },
    {
      "epoch": 0.18322916666666667,
      "grad_norm": 0.8642449975013733,
      "learning_rate": 0.000276696708964254,
      "loss": 4.0747,
      "step": 87950
    },
    {
      "epoch": 0.18325,
      "grad_norm": 0.8820912837982178,
      "learning_rate": 0.0002766914311376294,
      "loss": 4.0732,
      "step": 87960
    },
    {
      "epoch": 0.18327083333333333,
      "grad_norm": 0.92373126745224,
      "learning_rate": 0.00027668615276374805,
      "loss": 3.9147,
      "step": 87970
    },
    {
      "epoch": 0.18329166666666666,
      "grad_norm": 0.8607349991798401,
      "learning_rate": 0.00027668087384263255,
      "loss": 3.9928,
      "step": 87980
    },
    {
      "epoch": 0.1833125,
      "grad_norm": 0.7504574060440063,
      "learning_rate": 0.0002766755943743059,
      "loss": 4.0613,
      "step": 87990
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 0.8695613145828247,
      "learning_rate": 0.00027667031435879075,
      "loss": 3.9888,
      "step": 88000
    },
    {
      "epoch": 0.18333333333333332,
      "eval_loss": 4.29074239730835,
      "eval_runtime": 9.5409,
      "eval_samples_per_second": 1.048,
      "eval_steps_per_second": 0.314,
      "step": 88000
    },
    {
      "epoch": 0.18335416666666668,
      "grad_norm": 0.7890095710754395,
      "learning_rate": 0.00027666503379611,
      "loss": 3.78,
      "step": 88010
    },
    {
      "epoch": 0.183375,
      "grad_norm": 0.7826977372169495,
      "learning_rate": 0.0002766597526862865,
      "loss": 3.9982,
      "step": 88020
    },
    {
      "epoch": 0.18339583333333334,
      "grad_norm": 0.7879928350448608,
      "learning_rate": 0.00027665447102934296,
      "loss": 3.9673,
      "step": 88030
    },
    {
      "epoch": 0.18341666666666667,
      "grad_norm": 0.7032837867736816,
      "learning_rate": 0.00027664918882530225,
      "loss": 3.8704,
      "step": 88040
    },
    {
      "epoch": 0.1834375,
      "grad_norm": 0.7922263741493225,
      "learning_rate": 0.00027664390607418717,
      "loss": 3.9802,
      "step": 88050
    },
    {
      "epoch": 0.18345833333333333,
      "grad_norm": 0.7143397927284241,
      "learning_rate": 0.00027663862277602054,
      "loss": 3.9475,
      "step": 88060
    },
    {
      "epoch": 0.18347916666666667,
      "grad_norm": 0.7781085968017578,
      "learning_rate": 0.00027663333893082517,
      "loss": 4.0553,
      "step": 88070
    },
    {
      "epoch": 0.1835,
      "grad_norm": 0.8027164936065674,
      "learning_rate": 0.00027662805453862395,
      "loss": 3.8228,
      "step": 88080
    },
    {
      "epoch": 0.18352083333333333,
      "grad_norm": 0.897082507610321,
      "learning_rate": 0.0002766227695994396,
      "loss": 4.0345,
      "step": 88090
    },
    {
      "epoch": 0.18354166666666666,
      "grad_norm": 0.7642663717269897,
      "learning_rate": 0.0002766174841132951,
      "loss": 3.9021,
      "step": 88100
    },
    {
      "epoch": 0.1835625,
      "grad_norm": 0.8067945241928101,
      "learning_rate": 0.00027661219808021307,
      "loss": 3.9437,
      "step": 88110
    },
    {
      "epoch": 0.18358333333333332,
      "grad_norm": 0.7370964288711548,
      "learning_rate": 0.0002766069115002165,
      "loss": 3.9584,
      "step": 88120
    },
    {
      "epoch": 0.18360416666666668,
      "grad_norm": 0.7243981957435608,
      "learning_rate": 0.0002766016243733282,
      "loss": 3.8296,
      "step": 88130
    },
    {
      "epoch": 0.183625,
      "grad_norm": 0.7076358795166016,
      "learning_rate": 0.000276596336699571,
      "loss": 3.953,
      "step": 88140
    },
    {
      "epoch": 0.18364583333333334,
      "grad_norm": 0.8295220136642456,
      "learning_rate": 0.0002765910484789677,
      "loss": 3.8637,
      "step": 88150
    },
    {
      "epoch": 0.18366666666666667,
      "grad_norm": 0.7509817481040955,
      "learning_rate": 0.0002765857597115412,
      "loss": 4.0541,
      "step": 88160
    },
    {
      "epoch": 0.1836875,
      "grad_norm": 0.8788045048713684,
      "learning_rate": 0.0002765804703973144,
      "loss": 3.9488,
      "step": 88170
    },
    {
      "epoch": 0.18370833333333333,
      "grad_norm": 0.8003854751586914,
      "learning_rate": 0.00027657518053630996,
      "loss": 4.0549,
      "step": 88180
    },
    {
      "epoch": 0.18372916666666667,
      "grad_norm": 0.827948272228241,
      "learning_rate": 0.0002765698901285509,
      "loss": 3.9404,
      "step": 88190
    },
    {
      "epoch": 0.18375,
      "grad_norm": 0.7165871858596802,
      "learning_rate": 0.00027656459917406,
      "loss": 3.856,
      "step": 88200
    },
    {
      "epoch": 0.18377083333333333,
      "grad_norm": 0.8522375226020813,
      "learning_rate": 0.0002765593076728601,
      "loss": 4.084,
      "step": 88210
    },
    {
      "epoch": 0.18379166666666666,
      "grad_norm": 0.7691645622253418,
      "learning_rate": 0.00027655401562497417,
      "loss": 4.0144,
      "step": 88220
    },
    {
      "epoch": 0.1838125,
      "grad_norm": 0.723880410194397,
      "learning_rate": 0.0002765487230304249,
      "loss": 3.7982,
      "step": 88230
    },
    {
      "epoch": 0.18383333333333332,
      "grad_norm": 0.7315043210983276,
      "learning_rate": 0.00027654342988923524,
      "loss": 3.9605,
      "step": 88240
    },
    {
      "epoch": 0.18385416666666668,
      "grad_norm": 0.8680640459060669,
      "learning_rate": 0.0002765381362014282,
      "loss": 3.9021,
      "step": 88250
    },
    {
      "epoch": 0.183875,
      "grad_norm": 0.9071645140647888,
      "learning_rate": 0.00027653284196702633,
      "loss": 3.8715,
      "step": 88260
    },
    {
      "epoch": 0.18389583333333334,
      "grad_norm": 0.7919116616249084,
      "learning_rate": 0.0002765275471860527,
      "loss": 3.8815,
      "step": 88270
    },
    {
      "epoch": 0.18391666666666667,
      "grad_norm": 0.8136408925056458,
      "learning_rate": 0.0002765222518585302,
      "loss": 3.8861,
      "step": 88280
    },
    {
      "epoch": 0.1839375,
      "grad_norm": 0.8737508058547974,
      "learning_rate": 0.0002765169559844816,
      "loss": 3.8579,
      "step": 88290
    },
    {
      "epoch": 0.18395833333333333,
      "grad_norm": 0.7423958778381348,
      "learning_rate": 0.00027651165956392985,
      "loss": 4.0493,
      "step": 88300
    },
    {
      "epoch": 0.18397916666666667,
      "grad_norm": 0.793302595615387,
      "learning_rate": 0.0002765063625968978,
      "loss": 4.0295,
      "step": 88310
    },
    {
      "epoch": 0.184,
      "grad_norm": 0.7486281991004944,
      "learning_rate": 0.00027650106508340835,
      "loss": 3.8815,
      "step": 88320
    },
    {
      "epoch": 0.18402083333333333,
      "grad_norm": 0.8140532374382019,
      "learning_rate": 0.00027649576702348436,
      "loss": 3.9092,
      "step": 88330
    },
    {
      "epoch": 0.18404166666666666,
      "grad_norm": 0.8728615045547485,
      "learning_rate": 0.0002764904684171487,
      "loss": 4.0579,
      "step": 88340
    },
    {
      "epoch": 0.1840625,
      "grad_norm": 0.7310709357261658,
      "learning_rate": 0.00027648516926442434,
      "loss": 3.7804,
      "step": 88350
    },
    {
      "epoch": 0.18408333333333332,
      "grad_norm": 0.7199096083641052,
      "learning_rate": 0.0002764798695653341,
      "loss": 4.119,
      "step": 88360
    },
    {
      "epoch": 0.18410416666666668,
      "grad_norm": 0.7274208664894104,
      "learning_rate": 0.00027647456931990087,
      "loss": 3.9022,
      "step": 88370
    },
    {
      "epoch": 0.184125,
      "grad_norm": 0.7428338527679443,
      "learning_rate": 0.00027646926852814763,
      "loss": 3.9269,
      "step": 88380
    },
    {
      "epoch": 0.18414583333333334,
      "grad_norm": 0.8210427165031433,
      "learning_rate": 0.0002764639671900971,
      "loss": 3.9589,
      "step": 88390
    },
    {
      "epoch": 0.18416666666666667,
      "grad_norm": 0.7799885272979736,
      "learning_rate": 0.0002764586653057724,
      "loss": 3.9239,
      "step": 88400
    },
    {
      "epoch": 0.1841875,
      "grad_norm": 0.8810585141181946,
      "learning_rate": 0.0002764533628751962,
      "loss": 4.088,
      "step": 88410
    },
    {
      "epoch": 0.18420833333333334,
      "grad_norm": 0.7676212787628174,
      "learning_rate": 0.00027644805989839163,
      "loss": 3.8941,
      "step": 88420
    },
    {
      "epoch": 0.18422916666666667,
      "grad_norm": 0.6871315836906433,
      "learning_rate": 0.00027644275637538144,
      "loss": 4.0138,
      "step": 88430
    },
    {
      "epoch": 0.18425,
      "grad_norm": 0.7277504205703735,
      "learning_rate": 0.00027643745230618863,
      "loss": 3.9849,
      "step": 88440
    },
    {
      "epoch": 0.18427083333333333,
      "grad_norm": 0.7299270629882812,
      "learning_rate": 0.00027643214769083603,
      "loss": 3.9388,
      "step": 88450
    },
    {
      "epoch": 0.18429166666666666,
      "grad_norm": 0.6751368045806885,
      "learning_rate": 0.00027642684252934666,
      "loss": 3.9853,
      "step": 88460
    },
    {
      "epoch": 0.1843125,
      "grad_norm": 0.7517796158790588,
      "learning_rate": 0.0002764215368217433,
      "loss": 4.0856,
      "step": 88470
    },
    {
      "epoch": 0.18433333333333332,
      "grad_norm": 0.7871310114860535,
      "learning_rate": 0.000276416230568049,
      "loss": 3.9931,
      "step": 88480
    },
    {
      "epoch": 0.18435416666666668,
      "grad_norm": 0.8664315342903137,
      "learning_rate": 0.0002764109237682866,
      "loss": 3.943,
      "step": 88490
    },
    {
      "epoch": 0.184375,
      "grad_norm": 0.8582894206047058,
      "learning_rate": 0.000276405616422479,
      "loss": 4.153,
      "step": 88500
    },
    {
      "epoch": 0.18439583333333334,
      "grad_norm": 0.7225536108016968,
      "learning_rate": 0.0002764003085306492,
      "loss": 3.8939,
      "step": 88510
    },
    {
      "epoch": 0.18441666666666667,
      "grad_norm": 0.721159040927887,
      "learning_rate": 0.00027639500009282015,
      "loss": 3.7858,
      "step": 88520
    },
    {
      "epoch": 0.1844375,
      "grad_norm": 0.8943138122558594,
      "learning_rate": 0.00027638969110901473,
      "loss": 3.8634,
      "step": 88530
    },
    {
      "epoch": 0.18445833333333334,
      "grad_norm": 0.7939661741256714,
      "learning_rate": 0.0002763843815792558,
      "loss": 3.8654,
      "step": 88540
    },
    {
      "epoch": 0.18447916666666667,
      "grad_norm": 0.7544674873352051,
      "learning_rate": 0.0002763790715035664,
      "loss": 3.8772,
      "step": 88550
    },
    {
      "epoch": 0.1845,
      "grad_norm": 0.748901903629303,
      "learning_rate": 0.0002763737608819694,
      "loss": 3.9768,
      "step": 88560
    },
    {
      "epoch": 0.18452083333333333,
      "grad_norm": 0.7297369241714478,
      "learning_rate": 0.0002763684497144879,
      "loss": 4.1252,
      "step": 88570
    },
    {
      "epoch": 0.18454166666666666,
      "grad_norm": 0.6932283043861389,
      "learning_rate": 0.0002763631380011446,
      "loss": 3.9537,
      "step": 88580
    },
    {
      "epoch": 0.1845625,
      "grad_norm": 0.805833101272583,
      "learning_rate": 0.0002763578257419626,
      "loss": 3.8452,
      "step": 88590
    },
    {
      "epoch": 0.18458333333333332,
      "grad_norm": 0.7612653374671936,
      "learning_rate": 0.0002763525129369648,
      "loss": 3.8933,
      "step": 88600
    },
    {
      "epoch": 0.18460416666666668,
      "grad_norm": 0.7577599883079529,
      "learning_rate": 0.00027634719958617417,
      "loss": 3.9752,
      "step": 88610
    },
    {
      "epoch": 0.184625,
      "grad_norm": 0.6952414512634277,
      "learning_rate": 0.00027634188568961365,
      "loss": 4.0679,
      "step": 88620
    },
    {
      "epoch": 0.18464583333333334,
      "grad_norm": 0.9316269755363464,
      "learning_rate": 0.0002763365712473062,
      "loss": 3.9413,
      "step": 88630
    },
    {
      "epoch": 0.18466666666666667,
      "grad_norm": 0.6981588006019592,
      "learning_rate": 0.0002763312562592747,
      "loss": 3.937,
      "step": 88640
    },
    {
      "epoch": 0.1846875,
      "grad_norm": 0.7068548202514648,
      "learning_rate": 0.0002763259407255423,
      "loss": 3.8029,
      "step": 88650
    },
    {
      "epoch": 0.18470833333333334,
      "grad_norm": 0.7920008897781372,
      "learning_rate": 0.00027632062464613173,
      "loss": 4.1221,
      "step": 88660
    },
    {
      "epoch": 0.18472916666666667,
      "grad_norm": 1.3808574676513672,
      "learning_rate": 0.00027631530802106613,
      "loss": 3.9122,
      "step": 88670
    },
    {
      "epoch": 0.18475,
      "grad_norm": 0.852178156375885,
      "learning_rate": 0.00027630999085036836,
      "loss": 4.0765,
      "step": 88680
    },
    {
      "epoch": 0.18477083333333333,
      "grad_norm": 0.8481760025024414,
      "learning_rate": 0.00027630467313406146,
      "loss": 3.9964,
      "step": 88690
    },
    {
      "epoch": 0.18479166666666666,
      "grad_norm": 0.7423007488250732,
      "learning_rate": 0.00027629935487216836,
      "loss": 3.732,
      "step": 88700
    },
    {
      "epoch": 0.1848125,
      "grad_norm": 0.785493016242981,
      "learning_rate": 0.000276294036064712,
      "loss": 4.0228,
      "step": 88710
    },
    {
      "epoch": 0.18483333333333332,
      "grad_norm": 0.8060574531555176,
      "learning_rate": 0.00027628871671171544,
      "loss": 4.0448,
      "step": 88720
    },
    {
      "epoch": 0.18485416666666668,
      "grad_norm": 2.909912347793579,
      "learning_rate": 0.0002762833968132016,
      "loss": 4.023,
      "step": 88730
    },
    {
      "epoch": 0.184875,
      "grad_norm": 0.7693156599998474,
      "learning_rate": 0.00027627807636919344,
      "loss": 3.9898,
      "step": 88740
    },
    {
      "epoch": 0.18489583333333334,
      "grad_norm": 0.7227055430412292,
      "learning_rate": 0.000276272755379714,
      "loss": 3.8248,
      "step": 88750
    },
    {
      "epoch": 0.18491666666666667,
      "grad_norm": 0.7221776843070984,
      "learning_rate": 0.00027626743384478623,
      "loss": 4.0202,
      "step": 88760
    },
    {
      "epoch": 0.1849375,
      "grad_norm": 0.710896909236908,
      "learning_rate": 0.00027626211176443315,
      "loss": 3.9443,
      "step": 88770
    },
    {
      "epoch": 0.18495833333333334,
      "grad_norm": 0.6673493981361389,
      "learning_rate": 0.0002762567891386777,
      "loss": 4.0255,
      "step": 88780
    },
    {
      "epoch": 0.18497916666666667,
      "grad_norm": 0.8053713440895081,
      "learning_rate": 0.0002762514659675429,
      "loss": 3.9367,
      "step": 88790
    },
    {
      "epoch": 0.185,
      "grad_norm": 0.6909416317939758,
      "learning_rate": 0.00027624614225105177,
      "loss": 3.9277,
      "step": 88800
    },
    {
      "epoch": 0.18502083333333333,
      "grad_norm": 0.8633298873901367,
      "learning_rate": 0.00027624081798922727,
      "loss": 3.9217,
      "step": 88810
    },
    {
      "epoch": 0.18504166666666666,
      "grad_norm": 0.7115922570228577,
      "learning_rate": 0.00027623549318209233,
      "loss": 3.9014,
      "step": 88820
    },
    {
      "epoch": 0.1850625,
      "grad_norm": 0.7920133471488953,
      "learning_rate": 0.0002762301678296701,
      "loss": 3.9994,
      "step": 88830
    },
    {
      "epoch": 0.18508333333333332,
      "grad_norm": 0.6990574598312378,
      "learning_rate": 0.00027622484193198354,
      "loss": 3.9916,
      "step": 88840
    },
    {
      "epoch": 0.18510416666666665,
      "grad_norm": 0.851533055305481,
      "learning_rate": 0.00027621951548905554,
      "loss": 4.0342,
      "step": 88850
    },
    {
      "epoch": 0.185125,
      "grad_norm": 0.6753920316696167,
      "learning_rate": 0.0002762141885009092,
      "loss": 4.0132,
      "step": 88860
    },
    {
      "epoch": 0.18514583333333334,
      "grad_norm": 0.8283059597015381,
      "learning_rate": 0.00027620886096756765,
      "loss": 3.8397,
      "step": 88870
    },
    {
      "epoch": 0.18516666666666667,
      "grad_norm": 0.7125903964042664,
      "learning_rate": 0.00027620353288905367,
      "loss": 4.1474,
      "step": 88880
    },
    {
      "epoch": 0.1851875,
      "grad_norm": 1.0602282285690308,
      "learning_rate": 0.00027619820426539037,
      "loss": 4.045,
      "step": 88890
    },
    {
      "epoch": 0.18520833333333334,
      "grad_norm": 0.7853630781173706,
      "learning_rate": 0.00027619287509660084,
      "loss": 4.0366,
      "step": 88900
    },
    {
      "epoch": 0.18522916666666667,
      "grad_norm": 0.7283516526222229,
      "learning_rate": 0.000276187545382708,
      "loss": 3.9581,
      "step": 88910
    },
    {
      "epoch": 0.18525,
      "grad_norm": 0.7134384512901306,
      "learning_rate": 0.000276182215123735,
      "loss": 4.0543,
      "step": 88920
    },
    {
      "epoch": 0.18527083333333333,
      "grad_norm": 0.7980267405509949,
      "learning_rate": 0.00027617688431970464,
      "loss": 3.8665,
      "step": 88930
    },
    {
      "epoch": 0.18529166666666666,
      "grad_norm": 0.9083043336868286,
      "learning_rate": 0.00027617155297064017,
      "loss": 3.8635,
      "step": 88940
    },
    {
      "epoch": 0.1853125,
      "grad_norm": 0.7255121469497681,
      "learning_rate": 0.0002761662210765645,
      "loss": 3.7795,
      "step": 88950
    },
    {
      "epoch": 0.18533333333333332,
      "grad_norm": 0.9030846953392029,
      "learning_rate": 0.00027616088863750073,
      "loss": 4.0779,
      "step": 88960
    },
    {
      "epoch": 0.18535416666666665,
      "grad_norm": 0.7669171094894409,
      "learning_rate": 0.0002761555556534718,
      "loss": 3.9201,
      "step": 88970
    },
    {
      "epoch": 0.185375,
      "grad_norm": 0.7465364933013916,
      "learning_rate": 0.0002761502221245009,
      "loss": 4.0523,
      "step": 88980
    },
    {
      "epoch": 0.18539583333333334,
      "grad_norm": 0.8280254006385803,
      "learning_rate": 0.0002761448880506109,
      "loss": 4.0381,
      "step": 88990
    },
    {
      "epoch": 0.18541666666666667,
      "grad_norm": 0.7784864902496338,
      "learning_rate": 0.0002761395534318249,
      "loss": 3.9399,
      "step": 89000
    },
    {
      "epoch": 0.18541666666666667,
      "eval_loss": 4.298866271972656,
      "eval_runtime": 12.0141,
      "eval_samples_per_second": 0.832,
      "eval_steps_per_second": 0.25,
      "step": 89000
    },
    {
      "epoch": 0.1854375,
      "grad_norm": 1.2096363306045532,
      "learning_rate": 0.00027613421826816595,
      "loss": 3.9134,
      "step": 89010
    },
    {
      "epoch": 0.18545833333333334,
      "grad_norm": 0.7081828713417053,
      "learning_rate": 0.00027612888255965724,
      "loss": 3.8537,
      "step": 89020
    },
    {
      "epoch": 0.18547916666666667,
      "grad_norm": 1.0037404298782349,
      "learning_rate": 0.00027612354630632155,
      "loss": 4.1552,
      "step": 89030
    },
    {
      "epoch": 0.1855,
      "grad_norm": 0.7764583230018616,
      "learning_rate": 0.00027611820950818207,
      "loss": 3.8679,
      "step": 89040
    },
    {
      "epoch": 0.18552083333333333,
      "grad_norm": 0.8074873089790344,
      "learning_rate": 0.0002761128721652619,
      "loss": 3.9948,
      "step": 89050
    },
    {
      "epoch": 0.18554166666666666,
      "grad_norm": 0.7888335585594177,
      "learning_rate": 0.000276107534277584,
      "loss": 4.0423,
      "step": 89060
    },
    {
      "epoch": 0.1855625,
      "grad_norm": 0.8509371280670166,
      "learning_rate": 0.0002761021958451715,
      "loss": 4.0586,
      "step": 89070
    },
    {
      "epoch": 0.18558333333333332,
      "grad_norm": 1.0026004314422607,
      "learning_rate": 0.0002760968568680474,
      "loss": 3.8302,
      "step": 89080
    },
    {
      "epoch": 0.18560416666666665,
      "grad_norm": 0.8381650447845459,
      "learning_rate": 0.0002760915173462348,
      "loss": 3.9405,
      "step": 89090
    },
    {
      "epoch": 0.185625,
      "grad_norm": 0.7993146777153015,
      "learning_rate": 0.0002760861772797568,
      "loss": 4.0074,
      "step": 89100
    },
    {
      "epoch": 0.18564583333333334,
      "grad_norm": 0.720235288143158,
      "learning_rate": 0.00027608083666863634,
      "loss": 4.106,
      "step": 89110
    },
    {
      "epoch": 0.18566666666666667,
      "grad_norm": 0.860051155090332,
      "learning_rate": 0.00027607549551289664,
      "loss": 4.0359,
      "step": 89120
    },
    {
      "epoch": 0.1856875,
      "grad_norm": 0.7113305330276489,
      "learning_rate": 0.0002760701538125607,
      "loss": 3.9432,
      "step": 89130
    },
    {
      "epoch": 0.18570833333333334,
      "grad_norm": 1.0736980438232422,
      "learning_rate": 0.00027606481156765153,
      "loss": 4.1147,
      "step": 89140
    },
    {
      "epoch": 0.18572916666666667,
      "grad_norm": 0.8083234429359436,
      "learning_rate": 0.00027605946877819236,
      "loss": 3.9846,
      "step": 89150
    },
    {
      "epoch": 0.18575,
      "grad_norm": 0.8779605627059937,
      "learning_rate": 0.00027605412544420615,
      "loss": 3.8787,
      "step": 89160
    },
    {
      "epoch": 0.18577083333333333,
      "grad_norm": 0.7097904682159424,
      "learning_rate": 0.000276048781565716,
      "loss": 3.9343,
      "step": 89170
    },
    {
      "epoch": 0.18579166666666666,
      "grad_norm": 0.7155259847640991,
      "learning_rate": 0.000276043437142745,
      "loss": 3.8689,
      "step": 89180
    },
    {
      "epoch": 0.1858125,
      "grad_norm": 0.7701885104179382,
      "learning_rate": 0.00027603809217531625,
      "loss": 3.7983,
      "step": 89190
    },
    {
      "epoch": 0.18583333333333332,
      "grad_norm": 0.7614938616752625,
      "learning_rate": 0.00027603274666345286,
      "loss": 3.964,
      "step": 89200
    },
    {
      "epoch": 0.18585416666666665,
      "grad_norm": 0.8108147382736206,
      "learning_rate": 0.00027602740060717783,
      "loss": 3.9181,
      "step": 89210
    },
    {
      "epoch": 0.185875,
      "grad_norm": 0.7919842004776001,
      "learning_rate": 0.0002760220540065144,
      "loss": 3.888,
      "step": 89220
    },
    {
      "epoch": 0.18589583333333334,
      "grad_norm": 0.8006912469863892,
      "learning_rate": 0.0002760167068614855,
      "loss": 3.9911,
      "step": 89230
    },
    {
      "epoch": 0.18591666666666667,
      "grad_norm": 0.6830794811248779,
      "learning_rate": 0.00027601135917211436,
      "loss": 3.9372,
      "step": 89240
    },
    {
      "epoch": 0.1859375,
      "grad_norm": 0.7485286593437195,
      "learning_rate": 0.00027600601093842397,
      "loss": 4.0607,
      "step": 89250
    },
    {
      "epoch": 0.18595833333333334,
      "grad_norm": 0.7953529357910156,
      "learning_rate": 0.0002760006621604375,
      "loss": 4.0595,
      "step": 89260
    },
    {
      "epoch": 0.18597916666666667,
      "grad_norm": 0.6941603422164917,
      "learning_rate": 0.0002759953128381781,
      "loss": 4.0179,
      "step": 89270
    },
    {
      "epoch": 0.186,
      "grad_norm": 0.6825506687164307,
      "learning_rate": 0.0002759899629716688,
      "loss": 3.9162,
      "step": 89280
    },
    {
      "epoch": 0.18602083333333333,
      "grad_norm": 0.9081491231918335,
      "learning_rate": 0.0002759846125609327,
      "loss": 3.6899,
      "step": 89290
    },
    {
      "epoch": 0.18604166666666666,
      "grad_norm": 0.8196941614151001,
      "learning_rate": 0.000275979261605993,
      "loss": 3.8499,
      "step": 89300
    },
    {
      "epoch": 0.1860625,
      "grad_norm": 0.7357652187347412,
      "learning_rate": 0.0002759739101068727,
      "loss": 3.9789,
      "step": 89310
    },
    {
      "epoch": 0.18608333333333332,
      "grad_norm": 0.8006840944290161,
      "learning_rate": 0.00027596855806359503,
      "loss": 3.8858,
      "step": 89320
    },
    {
      "epoch": 0.18610416666666665,
      "grad_norm": 0.8082605600357056,
      "learning_rate": 0.000275963205476183,
      "loss": 3.9375,
      "step": 89330
    },
    {
      "epoch": 0.186125,
      "grad_norm": 0.8830567002296448,
      "learning_rate": 0.00027595785234465976,
      "loss": 3.8676,
      "step": 89340
    },
    {
      "epoch": 0.18614583333333334,
      "grad_norm": 0.9486656785011292,
      "learning_rate": 0.0002759524986690485,
      "loss": 4.1069,
      "step": 89350
    },
    {
      "epoch": 0.18616666666666667,
      "grad_norm": 0.7805612087249756,
      "learning_rate": 0.0002759471444493723,
      "loss": 3.9353,
      "step": 89360
    },
    {
      "epoch": 0.1861875,
      "grad_norm": 0.8980852961540222,
      "learning_rate": 0.0002759417896856543,
      "loss": 4.1242,
      "step": 89370
    },
    {
      "epoch": 0.18620833333333334,
      "grad_norm": 0.6506435871124268,
      "learning_rate": 0.0002759364343779176,
      "loss": 3.8812,
      "step": 89380
    },
    {
      "epoch": 0.18622916666666667,
      "grad_norm": 0.7133354544639587,
      "learning_rate": 0.0002759310785261854,
      "loss": 3.993,
      "step": 89390
    },
    {
      "epoch": 0.18625,
      "grad_norm": 0.7775059342384338,
      "learning_rate": 0.0002759257221304807,
      "loss": 3.9676,
      "step": 89400
    },
    {
      "epoch": 0.18627083333333333,
      "grad_norm": 0.6684448719024658,
      "learning_rate": 0.0002759203651908267,
      "loss": 3.9214,
      "step": 89410
    },
    {
      "epoch": 0.18629166666666666,
      "grad_norm": 0.7657297849655151,
      "learning_rate": 0.0002759150077072467,
      "loss": 3.8964,
      "step": 89420
    },
    {
      "epoch": 0.1863125,
      "grad_norm": 0.6800009608268738,
      "learning_rate": 0.0002759096496797636,
      "loss": 3.7839,
      "step": 89430
    },
    {
      "epoch": 0.18633333333333332,
      "grad_norm": 0.8518722057342529,
      "learning_rate": 0.0002759042911084007,
      "loss": 3.8452,
      "step": 89440
    },
    {
      "epoch": 0.18635416666666665,
      "grad_norm": 0.7656694650650024,
      "learning_rate": 0.0002758989319931811,
      "loss": 4.1663,
      "step": 89450
    },
    {
      "epoch": 0.186375,
      "grad_norm": 0.8027648329734802,
      "learning_rate": 0.00027589357233412794,
      "loss": 3.8722,
      "step": 89460
    },
    {
      "epoch": 0.18639583333333334,
      "grad_norm": 0.8354061245918274,
      "learning_rate": 0.0002758882121312644,
      "loss": 3.8319,
      "step": 89470
    },
    {
      "epoch": 0.18641666666666667,
      "grad_norm": 1.0203309059143066,
      "learning_rate": 0.0002758828513846136,
      "loss": 3.9267,
      "step": 89480
    },
    {
      "epoch": 0.1864375,
      "grad_norm": 0.7360163331031799,
      "learning_rate": 0.0002758774900941987,
      "loss": 4.0231,
      "step": 89490
    },
    {
      "epoch": 0.18645833333333334,
      "grad_norm": 0.7954447865486145,
      "learning_rate": 0.0002758721282600428,
      "loss": 3.8451,
      "step": 89500
    },
    {
      "epoch": 0.18647916666666667,
      "grad_norm": 0.6878617405891418,
      "learning_rate": 0.00027586676588216925,
      "loss": 3.9694,
      "step": 89510
    },
    {
      "epoch": 0.1865,
      "grad_norm": 0.7182298302650452,
      "learning_rate": 0.00027586140296060105,
      "loss": 3.8655,
      "step": 89520
    },
    {
      "epoch": 0.18652083333333333,
      "grad_norm": 0.7702656984329224,
      "learning_rate": 0.0002758560394953614,
      "loss": 3.8865,
      "step": 89530
    },
    {
      "epoch": 0.18654166666666666,
      "grad_norm": 0.7679427862167358,
      "learning_rate": 0.00027585067548647346,
      "loss": 3.907,
      "step": 89540
    },
    {
      "epoch": 0.1865625,
      "grad_norm": 0.6802034974098206,
      "learning_rate": 0.0002758453109339605,
      "loss": 3.8685,
      "step": 89550
    },
    {
      "epoch": 0.18658333333333332,
      "grad_norm": 0.8093920946121216,
      "learning_rate": 0.0002758399458378455,
      "loss": 3.9711,
      "step": 89560
    },
    {
      "epoch": 0.18660416666666665,
      "grad_norm": 0.7637585997581482,
      "learning_rate": 0.0002758345801981518,
      "loss": 3.8115,
      "step": 89570
    },
    {
      "epoch": 0.186625,
      "grad_norm": 0.7978289723396301,
      "learning_rate": 0.0002758292140149025,
      "loss": 3.9875,
      "step": 89580
    },
    {
      "epoch": 0.18664583333333334,
      "grad_norm": 0.7508188486099243,
      "learning_rate": 0.0002758238472881208,
      "loss": 4.0969,
      "step": 89590
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 0.7081105709075928,
      "learning_rate": 0.0002758184800178299,
      "loss": 4.1183,
      "step": 89600
    },
    {
      "epoch": 0.1866875,
      "grad_norm": 0.744877278804779,
      "learning_rate": 0.000275813112204053,
      "loss": 3.7202,
      "step": 89610
    },
    {
      "epoch": 0.18670833333333334,
      "grad_norm": 0.813997209072113,
      "learning_rate": 0.0002758077438468132,
      "loss": 4.0378,
      "step": 89620
    },
    {
      "epoch": 0.18672916666666667,
      "grad_norm": 0.8119266033172607,
      "learning_rate": 0.0002758023749461337,
      "loss": 3.8986,
      "step": 89630
    },
    {
      "epoch": 0.18675,
      "grad_norm": 0.8180190324783325,
      "learning_rate": 0.00027579700550203783,
      "loss": 3.9859,
      "step": 89640
    },
    {
      "epoch": 0.18677083333333333,
      "grad_norm": 0.9067244529724121,
      "learning_rate": 0.0002757916355145487,
      "loss": 3.8231,
      "step": 89650
    },
    {
      "epoch": 0.18679166666666666,
      "grad_norm": 0.7998123168945312,
      "learning_rate": 0.0002757862649836895,
      "loss": 3.9886,
      "step": 89660
    },
    {
      "epoch": 0.1868125,
      "grad_norm": 0.7788608074188232,
      "learning_rate": 0.0002757808939094834,
      "loss": 3.9497,
      "step": 89670
    },
    {
      "epoch": 0.18683333333333332,
      "grad_norm": 0.7209687232971191,
      "learning_rate": 0.0002757755222919536,
      "loss": 3.7818,
      "step": 89680
    },
    {
      "epoch": 0.18685416666666665,
      "grad_norm": 0.7668169140815735,
      "learning_rate": 0.0002757701501311233,
      "loss": 4.0408,
      "step": 89690
    },
    {
      "epoch": 0.186875,
      "grad_norm": 0.7057467103004456,
      "learning_rate": 0.0002757647774270158,
      "loss": 3.7789,
      "step": 89700
    },
    {
      "epoch": 0.18689583333333334,
      "grad_norm": 0.797359824180603,
      "learning_rate": 0.0002757594041796542,
      "loss": 3.87,
      "step": 89710
    },
    {
      "epoch": 0.18691666666666668,
      "grad_norm": 0.7950314879417419,
      "learning_rate": 0.0002757540303890617,
      "loss": 3.931,
      "step": 89720
    },
    {
      "epoch": 0.1869375,
      "grad_norm": 0.7354533076286316,
      "learning_rate": 0.0002757486560552617,
      "loss": 3.8874,
      "step": 89730
    },
    {
      "epoch": 0.18695833333333334,
      "grad_norm": 0.8701459765434265,
      "learning_rate": 0.0002757432811782772,
      "loss": 3.9536,
      "step": 89740
    },
    {
      "epoch": 0.18697916666666667,
      "grad_norm": 0.7935304641723633,
      "learning_rate": 0.00027573790575813155,
      "loss": 3.9164,
      "step": 89750
    },
    {
      "epoch": 0.187,
      "grad_norm": 0.7384026050567627,
      "learning_rate": 0.00027573252979484785,
      "loss": 3.8527,
      "step": 89760
    },
    {
      "epoch": 0.18702083333333333,
      "grad_norm": 0.8241063356399536,
      "learning_rate": 0.00027572715328844945,
      "loss": 3.7992,
      "step": 89770
    },
    {
      "epoch": 0.18704166666666666,
      "grad_norm": 0.9801690578460693,
      "learning_rate": 0.00027572177623895943,
      "loss": 3.7796,
      "step": 89780
    },
    {
      "epoch": 0.1870625,
      "grad_norm": 0.8996636271476746,
      "learning_rate": 0.00027571639864640117,
      "loss": 3.8248,
      "step": 89790
    },
    {
      "epoch": 0.18708333333333332,
      "grad_norm": 0.8434402346611023,
      "learning_rate": 0.0002757110205107978,
      "loss": 4.0475,
      "step": 89800
    },
    {
      "epoch": 0.18710416666666665,
      "grad_norm": 0.7799971699714661,
      "learning_rate": 0.00027570564183217265,
      "loss": 4.0126,
      "step": 89810
    },
    {
      "epoch": 0.187125,
      "grad_norm": 0.8561511635780334,
      "learning_rate": 0.0002757002626105488,
      "loss": 3.8496,
      "step": 89820
    },
    {
      "epoch": 0.18714583333333334,
      "grad_norm": 0.723863959312439,
      "learning_rate": 0.0002756948828459496,
      "loss": 4.0591,
      "step": 89830
    },
    {
      "epoch": 0.18716666666666668,
      "grad_norm": 0.8599280118942261,
      "learning_rate": 0.0002756895025383983,
      "loss": 3.9083,
      "step": 89840
    },
    {
      "epoch": 0.1871875,
      "grad_norm": 0.8584170937538147,
      "learning_rate": 0.00027568412168791804,
      "loss": 3.768,
      "step": 89850
    },
    {
      "epoch": 0.18720833333333334,
      "grad_norm": 0.8101885914802551,
      "learning_rate": 0.0002756787402945321,
      "loss": 4.0316,
      "step": 89860
    },
    {
      "epoch": 0.18722916666666667,
      "grad_norm": 0.7032775282859802,
      "learning_rate": 0.00027567335835826384,
      "loss": 3.9187,
      "step": 89870
    },
    {
      "epoch": 0.18725,
      "grad_norm": 0.8329091668128967,
      "learning_rate": 0.00027566797587913635,
      "loss": 4.0463,
      "step": 89880
    },
    {
      "epoch": 0.18727083333333333,
      "grad_norm": 0.733814537525177,
      "learning_rate": 0.000275662592857173,
      "loss": 3.9978,
      "step": 89890
    },
    {
      "epoch": 0.18729166666666666,
      "grad_norm": 0.8260434865951538,
      "learning_rate": 0.00027565720929239695,
      "loss": 3.8844,
      "step": 89900
    },
    {
      "epoch": 0.1873125,
      "grad_norm": 0.741408109664917,
      "learning_rate": 0.0002756518251848315,
      "loss": 3.8955,
      "step": 89910
    },
    {
      "epoch": 0.18733333333333332,
      "grad_norm": 1.0143468379974365,
      "learning_rate": 0.00027564644053449993,
      "loss": 4.0574,
      "step": 89920
    },
    {
      "epoch": 0.18735416666666665,
      "grad_norm": 0.8887616395950317,
      "learning_rate": 0.0002756410553414254,
      "loss": 3.8075,
      "step": 89930
    },
    {
      "epoch": 0.187375,
      "grad_norm": 0.6973094344139099,
      "learning_rate": 0.0002756356696056313,
      "loss": 4.1351,
      "step": 89940
    },
    {
      "epoch": 0.18739583333333334,
      "grad_norm": 0.8250039219856262,
      "learning_rate": 0.00027563028332714084,
      "loss": 3.9998,
      "step": 89950
    },
    {
      "epoch": 0.18741666666666668,
      "grad_norm": 0.7200683355331421,
      "learning_rate": 0.0002756248965059773,
      "loss": 3.9812,
      "step": 89960
    },
    {
      "epoch": 0.1874375,
      "grad_norm": 0.7437129616737366,
      "learning_rate": 0.00027561950914216387,
      "loss": 3.9968,
      "step": 89970
    },
    {
      "epoch": 0.18745833333333334,
      "grad_norm": 0.7318971753120422,
      "learning_rate": 0.00027561412123572397,
      "loss": 4.0593,
      "step": 89980
    },
    {
      "epoch": 0.18747916666666667,
      "grad_norm": 0.8358121514320374,
      "learning_rate": 0.0002756087327866807,
      "loss": 4.2084,
      "step": 89990
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.9614058136940002,
      "learning_rate": 0.00027560334379505744,
      "loss": 3.8818,
      "step": 90000
    },
    {
      "epoch": 0.1875,
      "eval_loss": 4.2920942306518555,
      "eval_runtime": 10.9871,
      "eval_samples_per_second": 0.91,
      "eval_steps_per_second": 0.273,
      "step": 90000
    },
    {
      "epoch": 0.18752083333333333,
      "grad_norm": 1.11366868019104,
      "learning_rate": 0.0002755979542608775,
      "loss": 3.8387,
      "step": 90010
    },
    {
      "epoch": 0.18754166666666666,
      "grad_norm": 0.8971464037895203,
      "learning_rate": 0.0002755925641841641,
      "loss": 3.9103,
      "step": 90020
    },
    {
      "epoch": 0.1875625,
      "grad_norm": 1.0217576026916504,
      "learning_rate": 0.0002755871735649405,
      "loss": 3.9588,
      "step": 90030
    },
    {
      "epoch": 0.18758333333333332,
      "grad_norm": 0.8443076610565186,
      "learning_rate": 0.00027558178240323,
      "loss": 3.8041,
      "step": 90040
    },
    {
      "epoch": 0.18760416666666666,
      "grad_norm": 1.0453131198883057,
      "learning_rate": 0.000275576390699056,
      "loss": 4.0446,
      "step": 90050
    },
    {
      "epoch": 0.187625,
      "grad_norm": 0.6860546469688416,
      "learning_rate": 0.00027557099845244165,
      "loss": 4.0248,
      "step": 90060
    },
    {
      "epoch": 0.18764583333333335,
      "grad_norm": 0.8259005546569824,
      "learning_rate": 0.00027556560566341023,
      "loss": 3.8635,
      "step": 90070
    },
    {
      "epoch": 0.18766666666666668,
      "grad_norm": 0.8179410099983215,
      "learning_rate": 0.0002755602123319852,
      "loss": 3.863,
      "step": 90080
    },
    {
      "epoch": 0.1876875,
      "grad_norm": 0.7073521614074707,
      "learning_rate": 0.00027555481845818974,
      "loss": 3.9528,
      "step": 90090
    },
    {
      "epoch": 0.18770833333333334,
      "grad_norm": 0.8947041630744934,
      "learning_rate": 0.00027554942404204707,
      "loss": 4.1079,
      "step": 90100
    },
    {
      "epoch": 0.18772916666666667,
      "grad_norm": 0.6746863722801208,
      "learning_rate": 0.00027554402908358067,
      "loss": 3.8617,
      "step": 90110
    },
    {
      "epoch": 0.18775,
      "grad_norm": 0.9067639112472534,
      "learning_rate": 0.00027553863358281374,
      "loss": 4.2157,
      "step": 90120
    },
    {
      "epoch": 0.18777083333333333,
      "grad_norm": 0.7524749040603638,
      "learning_rate": 0.0002755332375397696,
      "loss": 3.8636,
      "step": 90130
    },
    {
      "epoch": 0.18779166666666666,
      "grad_norm": 0.8891716003417969,
      "learning_rate": 0.00027552784095447155,
      "loss": 3.8854,
      "step": 90140
    },
    {
      "epoch": 0.1878125,
      "grad_norm": 0.7647290229797363,
      "learning_rate": 0.00027552244382694297,
      "loss": 3.7469,
      "step": 90150
    },
    {
      "epoch": 0.18783333333333332,
      "grad_norm": 0.7565181851387024,
      "learning_rate": 0.00027551704615720704,
      "loss": 3.6436,
      "step": 90160
    },
    {
      "epoch": 0.18785416666666666,
      "grad_norm": 0.8345105648040771,
      "learning_rate": 0.0002755116479452872,
      "loss": 3.8707,
      "step": 90170
    },
    {
      "epoch": 0.187875,
      "grad_norm": 0.8356766104698181,
      "learning_rate": 0.0002755062491912067,
      "loss": 3.8833,
      "step": 90180
    },
    {
      "epoch": 0.18789583333333335,
      "grad_norm": 1.0346956253051758,
      "learning_rate": 0.0002755008498949889,
      "loss": 4.1915,
      "step": 90190
    },
    {
      "epoch": 0.18791666666666668,
      "grad_norm": 0.8076524138450623,
      "learning_rate": 0.0002754954500566571,
      "loss": 3.8596,
      "step": 90200
    },
    {
      "epoch": 0.1879375,
      "grad_norm": 0.7552304267883301,
      "learning_rate": 0.0002754900496762346,
      "loss": 3.9999,
      "step": 90210
    },
    {
      "epoch": 0.18795833333333334,
      "grad_norm": 0.7007092237472534,
      "learning_rate": 0.0002754846487537448,
      "loss": 3.9292,
      "step": 90220
    },
    {
      "epoch": 0.18797916666666667,
      "grad_norm": 0.8677220344543457,
      "learning_rate": 0.000275479247289211,
      "loss": 4.0425,
      "step": 90230
    },
    {
      "epoch": 0.188,
      "grad_norm": 0.7654786109924316,
      "learning_rate": 0.00027547384528265646,
      "loss": 3.893,
      "step": 90240
    },
    {
      "epoch": 0.18802083333333333,
      "grad_norm": 0.7446410655975342,
      "learning_rate": 0.0002754684427341046,
      "loss": 3.8495,
      "step": 90250
    },
    {
      "epoch": 0.18804166666666666,
      "grad_norm": 0.7536426782608032,
      "learning_rate": 0.00027546303964357877,
      "loss": 3.8203,
      "step": 90260
    },
    {
      "epoch": 0.1880625,
      "grad_norm": 0.7190613150596619,
      "learning_rate": 0.0002754576360111022,
      "loss": 3.9754,
      "step": 90270
    },
    {
      "epoch": 0.18808333333333332,
      "grad_norm": 0.7491293549537659,
      "learning_rate": 0.0002754522318366983,
      "loss": 4.0677,
      "step": 90280
    },
    {
      "epoch": 0.18810416666666666,
      "grad_norm": 1.0107452869415283,
      "learning_rate": 0.0002754468271203905,
      "loss": 3.8851,
      "step": 90290
    },
    {
      "epoch": 0.188125,
      "grad_norm": 0.684029221534729,
      "learning_rate": 0.00027544142186220204,
      "loss": 3.7384,
      "step": 90300
    },
    {
      "epoch": 0.18814583333333335,
      "grad_norm": 0.8449579477310181,
      "learning_rate": 0.00027543601606215627,
      "loss": 3.9798,
      "step": 90310
    },
    {
      "epoch": 0.18816666666666668,
      "grad_norm": 0.7163834571838379,
      "learning_rate": 0.00027543060972027656,
      "loss": 3.9439,
      "step": 90320
    },
    {
      "epoch": 0.1881875,
      "grad_norm": 0.7535377144813538,
      "learning_rate": 0.00027542520283658627,
      "loss": 3.9214,
      "step": 90330
    },
    {
      "epoch": 0.18820833333333334,
      "grad_norm": 0.7216730117797852,
      "learning_rate": 0.0002754197954111087,
      "loss": 4.024,
      "step": 90340
    },
    {
      "epoch": 0.18822916666666667,
      "grad_norm": 0.7601853609085083,
      "learning_rate": 0.00027541438744386733,
      "loss": 3.8554,
      "step": 90350
    },
    {
      "epoch": 0.18825,
      "grad_norm": 0.6821929216384888,
      "learning_rate": 0.0002754089789348854,
      "loss": 3.8161,
      "step": 90360
    },
    {
      "epoch": 0.18827083333333333,
      "grad_norm": 0.6998051404953003,
      "learning_rate": 0.00027540356988418636,
      "loss": 3.7827,
      "step": 90370
    },
    {
      "epoch": 0.18829166666666666,
      "grad_norm": 0.7484045028686523,
      "learning_rate": 0.0002753981602917935,
      "loss": 3.9709,
      "step": 90380
    },
    {
      "epoch": 0.1883125,
      "grad_norm": 0.7463517785072327,
      "learning_rate": 0.00027539275015773027,
      "loss": 4.0278,
      "step": 90390
    },
    {
      "epoch": 0.18833333333333332,
      "grad_norm": 0.8142198324203491,
      "learning_rate": 0.00027538733948201995,
      "loss": 4.0242,
      "step": 90400
    },
    {
      "epoch": 0.18835416666666666,
      "grad_norm": 0.777458131313324,
      "learning_rate": 0.00027538192826468604,
      "loss": 3.9408,
      "step": 90410
    },
    {
      "epoch": 0.188375,
      "grad_norm": 1.2004265785217285,
      "learning_rate": 0.0002753765165057517,
      "loss": 3.7879,
      "step": 90420
    },
    {
      "epoch": 0.18839583333333335,
      "grad_norm": 0.6975199580192566,
      "learning_rate": 0.0002753711042052405,
      "loss": 3.925,
      "step": 90430
    },
    {
      "epoch": 0.18841666666666668,
      "grad_norm": 0.7498310804367065,
      "learning_rate": 0.00027536569136317576,
      "loss": 3.7748,
      "step": 90440
    },
    {
      "epoch": 0.1884375,
      "grad_norm": 0.7448443174362183,
      "learning_rate": 0.00027536027797958086,
      "loss": 3.818,
      "step": 90450
    },
    {
      "epoch": 0.18845833333333334,
      "grad_norm": 0.7086969614028931,
      "learning_rate": 0.0002753548640544792,
      "loss": 4.0275,
      "step": 90460
    },
    {
      "epoch": 0.18847916666666667,
      "grad_norm": 0.7517547607421875,
      "learning_rate": 0.0002753494495878941,
      "loss": 3.8173,
      "step": 90470
    },
    {
      "epoch": 0.1885,
      "grad_norm": 0.9155359268188477,
      "learning_rate": 0.000275344034579849,
      "loss": 4.0659,
      "step": 90480
    },
    {
      "epoch": 0.18852083333333333,
      "grad_norm": 0.7029311656951904,
      "learning_rate": 0.0002753386190303673,
      "loss": 3.7859,
      "step": 90490
    },
    {
      "epoch": 0.18854166666666666,
      "grad_norm": 0.8668927550315857,
      "learning_rate": 0.00027533320293947236,
      "loss": 3.9797,
      "step": 90500
    },
    {
      "epoch": 0.1885625,
      "grad_norm": 0.8076042532920837,
      "learning_rate": 0.0002753277863071876,
      "loss": 3.9226,
      "step": 90510
    },
    {
      "epoch": 0.18858333333333333,
      "grad_norm": 0.6942238211631775,
      "learning_rate": 0.00027532236913353645,
      "loss": 4.1003,
      "step": 90520
    },
    {
      "epoch": 0.18860416666666666,
      "grad_norm": 0.8237395882606506,
      "learning_rate": 0.0002753169514185422,
      "loss": 3.9405,
      "step": 90530
    },
    {
      "epoch": 0.188625,
      "grad_norm": 0.7730165123939514,
      "learning_rate": 0.0002753115331622284,
      "loss": 3.8686,
      "step": 90540
    },
    {
      "epoch": 0.18864583333333335,
      "grad_norm": 0.7748793959617615,
      "learning_rate": 0.0002753061143646183,
      "loss": 3.9027,
      "step": 90550
    },
    {
      "epoch": 0.18866666666666668,
      "grad_norm": 0.7220009565353394,
      "learning_rate": 0.00027530069502573545,
      "loss": 3.7875,
      "step": 90560
    },
    {
      "epoch": 0.1886875,
      "grad_norm": 0.7040328979492188,
      "learning_rate": 0.0002752952751456032,
      "loss": 3.9804,
      "step": 90570
    },
    {
      "epoch": 0.18870833333333334,
      "grad_norm": 0.7275586128234863,
      "learning_rate": 0.00027528985472424495,
      "loss": 4.0049,
      "step": 90580
    },
    {
      "epoch": 0.18872916666666667,
      "grad_norm": 0.9606851935386658,
      "learning_rate": 0.00027528443376168406,
      "loss": 3.8625,
      "step": 90590
    },
    {
      "epoch": 0.18875,
      "grad_norm": 0.7357778549194336,
      "learning_rate": 0.00027527901225794403,
      "loss": 4.0667,
      "step": 90600
    },
    {
      "epoch": 0.18877083333333333,
      "grad_norm": 0.6824604272842407,
      "learning_rate": 0.0002752735902130483,
      "loss": 3.6783,
      "step": 90610
    },
    {
      "epoch": 0.18879166666666666,
      "grad_norm": 0.7038468718528748,
      "learning_rate": 0.00027526816762702024,
      "loss": 4.1564,
      "step": 90620
    },
    {
      "epoch": 0.1888125,
      "grad_norm": 0.8768200874328613,
      "learning_rate": 0.00027526274449988326,
      "loss": 3.9711,
      "step": 90630
    },
    {
      "epoch": 0.18883333333333333,
      "grad_norm": 0.8745374083518982,
      "learning_rate": 0.00027525732083166077,
      "loss": 4.0623,
      "step": 90640
    },
    {
      "epoch": 0.18885416666666666,
      "grad_norm": 0.8174855709075928,
      "learning_rate": 0.0002752518966223763,
      "loss": 3.9034,
      "step": 90650
    },
    {
      "epoch": 0.188875,
      "grad_norm": 0.8773013353347778,
      "learning_rate": 0.0002752464718720532,
      "loss": 3.921,
      "step": 90660
    },
    {
      "epoch": 0.18889583333333335,
      "grad_norm": 0.8423275351524353,
      "learning_rate": 0.0002752410465807149,
      "loss": 4.0036,
      "step": 90670
    },
    {
      "epoch": 0.18891666666666668,
      "grad_norm": 0.7193958759307861,
      "learning_rate": 0.00027523562074838485,
      "loss": 3.9239,
      "step": 90680
    },
    {
      "epoch": 0.1889375,
      "grad_norm": 0.8813473582267761,
      "learning_rate": 0.00027523019437508645,
      "loss": 4.0094,
      "step": 90690
    },
    {
      "epoch": 0.18895833333333334,
      "grad_norm": 0.7666972875595093,
      "learning_rate": 0.00027522476746084327,
      "loss": 3.8462,
      "step": 90700
    },
    {
      "epoch": 0.18897916666666667,
      "grad_norm": 0.8894777297973633,
      "learning_rate": 0.0002752193400056786,
      "loss": 3.9852,
      "step": 90710
    },
    {
      "epoch": 0.189,
      "grad_norm": 0.8080527186393738,
      "learning_rate": 0.000275213912009616,
      "loss": 3.957,
      "step": 90720
    },
    {
      "epoch": 0.18902083333333333,
      "grad_norm": 0.7745118141174316,
      "learning_rate": 0.00027520848347267876,
      "loss": 3.9157,
      "step": 90730
    },
    {
      "epoch": 0.18904166666666666,
      "grad_norm": 0.9185326099395752,
      "learning_rate": 0.00027520305439489057,
      "loss": 3.8117,
      "step": 90740
    },
    {
      "epoch": 0.1890625,
      "grad_norm": 0.8392927050590515,
      "learning_rate": 0.0002751976247762747,
      "loss": 3.8071,
      "step": 90750
    },
    {
      "epoch": 0.18908333333333333,
      "grad_norm": 0.954681932926178,
      "learning_rate": 0.00027519219461685454,
      "loss": 3.9229,
      "step": 90760
    },
    {
      "epoch": 0.18910416666666666,
      "grad_norm": 0.9523108601570129,
      "learning_rate": 0.00027518676391665375,
      "loss": 3.9633,
      "step": 90770
    },
    {
      "epoch": 0.189125,
      "grad_norm": 0.7654154896736145,
      "learning_rate": 0.0002751813326756957,
      "loss": 3.9699,
      "step": 90780
    },
    {
      "epoch": 0.18914583333333335,
      "grad_norm": 0.770520806312561,
      "learning_rate": 0.0002751759008940038,
      "loss": 3.8459,
      "step": 90790
    },
    {
      "epoch": 0.18916666666666668,
      "grad_norm": 0.8089296221733093,
      "learning_rate": 0.0002751704685716016,
      "loss": 3.9771,
      "step": 90800
    },
    {
      "epoch": 0.1891875,
      "grad_norm": 1.0744339227676392,
      "learning_rate": 0.0002751650357085125,
      "loss": 3.6902,
      "step": 90810
    },
    {
      "epoch": 0.18920833333333334,
      "grad_norm": 0.7356364727020264,
      "learning_rate": 0.00027515960230475997,
      "loss": 3.8714,
      "step": 90820
    },
    {
      "epoch": 0.18922916666666667,
      "grad_norm": 0.9227558970451355,
      "learning_rate": 0.00027515416836036753,
      "loss": 3.888,
      "step": 90830
    },
    {
      "epoch": 0.18925,
      "grad_norm": 0.7819401621818542,
      "learning_rate": 0.0002751487338753586,
      "loss": 3.8022,
      "step": 90840
    },
    {
      "epoch": 0.18927083333333333,
      "grad_norm": 0.7911032438278198,
      "learning_rate": 0.00027514329884975673,
      "loss": 4.0341,
      "step": 90850
    },
    {
      "epoch": 0.18929166666666666,
      "grad_norm": 0.8402722477912903,
      "learning_rate": 0.0002751378632835853,
      "loss": 3.9001,
      "step": 90860
    },
    {
      "epoch": 0.1893125,
      "grad_norm": 0.7463510036468506,
      "learning_rate": 0.0002751324271768678,
      "loss": 3.9722,
      "step": 90870
    },
    {
      "epoch": 0.18933333333333333,
      "grad_norm": 0.7551965117454529,
      "learning_rate": 0.0002751269905296278,
      "loss": 4.0114,
      "step": 90880
    },
    {
      "epoch": 0.18935416666666666,
      "grad_norm": 0.7226583361625671,
      "learning_rate": 0.0002751215533418887,
      "loss": 3.9945,
      "step": 90890
    },
    {
      "epoch": 0.189375,
      "grad_norm": 0.7309621572494507,
      "learning_rate": 0.000275116115613674,
      "loss": 4.0263,
      "step": 90900
    },
    {
      "epoch": 0.18939583333333335,
      "grad_norm": 0.7473005056381226,
      "learning_rate": 0.00027511067734500725,
      "loss": 3.9245,
      "step": 90910
    },
    {
      "epoch": 0.18941666666666668,
      "grad_norm": 0.8030510544776917,
      "learning_rate": 0.00027510523853591193,
      "loss": 3.922,
      "step": 90920
    },
    {
      "epoch": 0.1894375,
      "grad_norm": 0.740079939365387,
      "learning_rate": 0.00027509979918641144,
      "loss": 3.9914,
      "step": 90930
    },
    {
      "epoch": 0.18945833333333334,
      "grad_norm": 0.729196310043335,
      "learning_rate": 0.0002750943592965293,
      "loss": 3.9046,
      "step": 90940
    },
    {
      "epoch": 0.18947916666666667,
      "grad_norm": 0.6961444616317749,
      "learning_rate": 0.0002750889188662891,
      "loss": 4.0557,
      "step": 90950
    },
    {
      "epoch": 0.1895,
      "grad_norm": 0.9419139623641968,
      "learning_rate": 0.0002750834778957143,
      "loss": 3.8487,
      "step": 90960
    },
    {
      "epoch": 0.18952083333333333,
      "grad_norm": 0.7238985896110535,
      "learning_rate": 0.0002750780363848283,
      "loss": 4.1281,
      "step": 90970
    },
    {
      "epoch": 0.18954166666666666,
      "grad_norm": 0.8287613987922668,
      "learning_rate": 0.0002750725943336548,
      "loss": 3.9944,
      "step": 90980
    },
    {
      "epoch": 0.1895625,
      "grad_norm": 0.8379096388816833,
      "learning_rate": 0.00027506715174221714,
      "loss": 4.0347,
      "step": 90990
    },
    {
      "epoch": 0.18958333333333333,
      "grad_norm": 0.6929618120193481,
      "learning_rate": 0.0002750617086105389,
      "loss": 3.8417,
      "step": 91000
    },
    {
      "epoch": 0.18958333333333333,
      "eval_loss": 4.276630878448486,
      "eval_runtime": 10.2234,
      "eval_samples_per_second": 0.978,
      "eval_steps_per_second": 0.293,
      "step": 91000
    },
    {
      "epoch": 0.18960416666666666,
      "grad_norm": 0.8686568737030029,
      "learning_rate": 0.00027505626493864354,
      "loss": 3.9349,
      "step": 91010
    },
    {
      "epoch": 0.189625,
      "grad_norm": 0.8446127772331238,
      "learning_rate": 0.0002750508207265547,
      "loss": 3.9135,
      "step": 91020
    },
    {
      "epoch": 0.18964583333333335,
      "grad_norm": 0.8525540828704834,
      "learning_rate": 0.00027504537597429577,
      "loss": 4.0003,
      "step": 91030
    },
    {
      "epoch": 0.18966666666666668,
      "grad_norm": 0.823111355304718,
      "learning_rate": 0.00027503993068189026,
      "loss": 3.9984,
      "step": 91040
    },
    {
      "epoch": 0.1896875,
      "grad_norm": 0.7598847150802612,
      "learning_rate": 0.0002750344848493618,
      "loss": 3.9276,
      "step": 91050
    },
    {
      "epoch": 0.18970833333333334,
      "grad_norm": 0.8569549918174744,
      "learning_rate": 0.0002750290384767339,
      "loss": 3.9448,
      "step": 91060
    },
    {
      "epoch": 0.18972916666666667,
      "grad_norm": 0.6327351927757263,
      "learning_rate": 0.00027502359156402997,
      "loss": 3.98,
      "step": 91070
    },
    {
      "epoch": 0.18975,
      "grad_norm": 0.701816201210022,
      "learning_rate": 0.0002750181441112736,
      "loss": 3.8545,
      "step": 91080
    },
    {
      "epoch": 0.18977083333333333,
      "grad_norm": 0.8722787499427795,
      "learning_rate": 0.0002750126961184884,
      "loss": 3.8524,
      "step": 91090
    },
    {
      "epoch": 0.18979166666666666,
      "grad_norm": 0.7483274340629578,
      "learning_rate": 0.00027500724758569784,
      "loss": 3.8947,
      "step": 91100
    },
    {
      "epoch": 0.1898125,
      "grad_norm": 0.7213094830513,
      "learning_rate": 0.0002750017985129254,
      "loss": 4.1604,
      "step": 91110
    },
    {
      "epoch": 0.18983333333333333,
      "grad_norm": 0.8775256872177124,
      "learning_rate": 0.0002749963489001947,
      "loss": 3.9029,
      "step": 91120
    },
    {
      "epoch": 0.18985416666666666,
      "grad_norm": 0.8480299711227417,
      "learning_rate": 0.0002749908987475292,
      "loss": 3.9399,
      "step": 91130
    },
    {
      "epoch": 0.189875,
      "grad_norm": 0.9053731560707092,
      "learning_rate": 0.00027498544805495257,
      "loss": 3.9933,
      "step": 91140
    },
    {
      "epoch": 0.18989583333333335,
      "grad_norm": 0.829850435256958,
      "learning_rate": 0.0002749799968224882,
      "loss": 3.8422,
      "step": 91150
    },
    {
      "epoch": 0.18991666666666668,
      "grad_norm": 0.7775528430938721,
      "learning_rate": 0.0002749745450501598,
      "loss": 3.9708,
      "step": 91160
    },
    {
      "epoch": 0.1899375,
      "grad_norm": 0.6491659879684448,
      "learning_rate": 0.00027496909273799075,
      "loss": 4.0027,
      "step": 91170
    },
    {
      "epoch": 0.18995833333333334,
      "grad_norm": 0.7435899376869202,
      "learning_rate": 0.00027496363988600473,
      "loss": 3.7506,
      "step": 91180
    },
    {
      "epoch": 0.18997916666666667,
      "grad_norm": 0.7295722365379333,
      "learning_rate": 0.00027495818649422523,
      "loss": 3.9025,
      "step": 91190
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7059231400489807,
      "learning_rate": 0.00027495273256267585,
      "loss": 3.8826,
      "step": 91200
    },
    {
      "epoch": 0.19002083333333333,
      "grad_norm": 0.7443966269493103,
      "learning_rate": 0.0002749472780913801,
      "loss": 3.9267,
      "step": 91210
    },
    {
      "epoch": 0.19004166666666666,
      "grad_norm": 0.9410343170166016,
      "learning_rate": 0.00027494182308036163,
      "loss": 3.8722,
      "step": 91220
    },
    {
      "epoch": 0.1900625,
      "grad_norm": 0.8353641033172607,
      "learning_rate": 0.00027493636752964386,
      "loss": 4.0574,
      "step": 91230
    },
    {
      "epoch": 0.19008333333333333,
      "grad_norm": 0.7245425581932068,
      "learning_rate": 0.00027493091143925046,
      "loss": 4.0093,
      "step": 91240
    },
    {
      "epoch": 0.19010416666666666,
      "grad_norm": 0.7991434335708618,
      "learning_rate": 0.000274925454809205,
      "loss": 3.9749,
      "step": 91250
    },
    {
      "epoch": 0.190125,
      "grad_norm": 0.6720604300498962,
      "learning_rate": 0.000274919997639531,
      "loss": 4.0222,
      "step": 91260
    },
    {
      "epoch": 0.19014583333333332,
      "grad_norm": 0.8459290266036987,
      "learning_rate": 0.00027491453993025206,
      "loss": 3.9078,
      "step": 91270
    },
    {
      "epoch": 0.19016666666666668,
      "grad_norm": 0.7595254182815552,
      "learning_rate": 0.00027490908168139173,
      "loss": 4.0737,
      "step": 91280
    },
    {
      "epoch": 0.1901875,
      "grad_norm": 0.8362794518470764,
      "learning_rate": 0.00027490362289297364,
      "loss": 3.8611,
      "step": 91290
    },
    {
      "epoch": 0.19020833333333334,
      "grad_norm": 1.1498925685882568,
      "learning_rate": 0.0002748981635650213,
      "loss": 4.0931,
      "step": 91300
    },
    {
      "epoch": 0.19022916666666667,
      "grad_norm": 0.8223147392272949,
      "learning_rate": 0.0002748927036975584,
      "loss": 3.8085,
      "step": 91310
    },
    {
      "epoch": 0.19025,
      "grad_norm": 0.8182123303413391,
      "learning_rate": 0.0002748872432906084,
      "loss": 3.8545,
      "step": 91320
    },
    {
      "epoch": 0.19027083333333333,
      "grad_norm": 0.7466261982917786,
      "learning_rate": 0.000274881782344195,
      "loss": 3.8463,
      "step": 91330
    },
    {
      "epoch": 0.19029166666666666,
      "grad_norm": 0.8861969113349915,
      "learning_rate": 0.0002748763208583417,
      "loss": 4.027,
      "step": 91340
    },
    {
      "epoch": 0.1903125,
      "grad_norm": 0.7078753113746643,
      "learning_rate": 0.00027487085883307207,
      "loss": 3.9894,
      "step": 91350
    },
    {
      "epoch": 0.19033333333333333,
      "grad_norm": 0.8025042414665222,
      "learning_rate": 0.0002748653962684098,
      "loss": 4.005,
      "step": 91360
    },
    {
      "epoch": 0.19035416666666666,
      "grad_norm": 0.8878797888755798,
      "learning_rate": 0.0002748599331643784,
      "loss": 3.745,
      "step": 91370
    },
    {
      "epoch": 0.190375,
      "grad_norm": 0.7819230556488037,
      "learning_rate": 0.0002748544695210016,
      "loss": 4.0213,
      "step": 91380
    },
    {
      "epoch": 0.19039583333333332,
      "grad_norm": 0.8536155223846436,
      "learning_rate": 0.00027484900533830285,
      "loss": 3.7896,
      "step": 91390
    },
    {
      "epoch": 0.19041666666666668,
      "grad_norm": 0.786052942276001,
      "learning_rate": 0.0002748435406163059,
      "loss": 4.0097,
      "step": 91400
    },
    {
      "epoch": 0.1904375,
      "grad_norm": 0.718035876750946,
      "learning_rate": 0.0002748380753550342,
      "loss": 3.9545,
      "step": 91410
    },
    {
      "epoch": 0.19045833333333334,
      "grad_norm": 0.6784069538116455,
      "learning_rate": 0.00027483260955451144,
      "loss": 3.9363,
      "step": 91420
    },
    {
      "epoch": 0.19047916666666667,
      "grad_norm": 0.7188217043876648,
      "learning_rate": 0.0002748271432147612,
      "loss": 3.8519,
      "step": 91430
    },
    {
      "epoch": 0.1905,
      "grad_norm": 0.6768965125083923,
      "learning_rate": 0.0002748216763358071,
      "loss": 3.8921,
      "step": 91440
    },
    {
      "epoch": 0.19052083333333333,
      "grad_norm": 0.7178685069084167,
      "learning_rate": 0.0002748162089176728,
      "loss": 4.1011,
      "step": 91450
    },
    {
      "epoch": 0.19054166666666666,
      "grad_norm": 0.794382631778717,
      "learning_rate": 0.00027481074096038187,
      "loss": 4.1549,
      "step": 91460
    },
    {
      "epoch": 0.1905625,
      "grad_norm": 0.779817521572113,
      "learning_rate": 0.000274805272463958,
      "loss": 3.9833,
      "step": 91470
    },
    {
      "epoch": 0.19058333333333333,
      "grad_norm": 0.9672266840934753,
      "learning_rate": 0.00027479980342842464,
      "loss": 3.9802,
      "step": 91480
    },
    {
      "epoch": 0.19060416666666666,
      "grad_norm": 0.8670803904533386,
      "learning_rate": 0.00027479433385380563,
      "loss": 3.726,
      "step": 91490
    },
    {
      "epoch": 0.190625,
      "grad_norm": 0.7401044964790344,
      "learning_rate": 0.00027478886374012444,
      "loss": 3.9623,
      "step": 91500
    },
    {
      "epoch": 0.19064583333333332,
      "grad_norm": 0.9476518034934998,
      "learning_rate": 0.00027478339308740476,
      "loss": 3.9517,
      "step": 91510
    },
    {
      "epoch": 0.19066666666666668,
      "grad_norm": 0.780386209487915,
      "learning_rate": 0.00027477792189567024,
      "loss": 3.752,
      "step": 91520
    },
    {
      "epoch": 0.1906875,
      "grad_norm": 0.6833907961845398,
      "learning_rate": 0.00027477245016494444,
      "loss": 3.9909,
      "step": 91530
    },
    {
      "epoch": 0.19070833333333334,
      "grad_norm": 0.7191479802131653,
      "learning_rate": 0.0002747669778952511,
      "loss": 3.8381,
      "step": 91540
    },
    {
      "epoch": 0.19072916666666667,
      "grad_norm": 1.0186420679092407,
      "learning_rate": 0.00027476150508661375,
      "loss": 3.7833,
      "step": 91550
    },
    {
      "epoch": 0.19075,
      "grad_norm": 0.8338903784751892,
      "learning_rate": 0.0002747560317390561,
      "loss": 3.908,
      "step": 91560
    },
    {
      "epoch": 0.19077083333333333,
      "grad_norm": 0.7646533250808716,
      "learning_rate": 0.0002747505578526018,
      "loss": 4.0111,
      "step": 91570
    },
    {
      "epoch": 0.19079166666666666,
      "grad_norm": 0.7737823724746704,
      "learning_rate": 0.0002747450834272745,
      "loss": 3.8103,
      "step": 91580
    },
    {
      "epoch": 0.1908125,
      "grad_norm": 0.7915352582931519,
      "learning_rate": 0.00027473960846309775,
      "loss": 3.9467,
      "step": 91590
    },
    {
      "epoch": 0.19083333333333333,
      "grad_norm": 0.8901461958885193,
      "learning_rate": 0.0002747341329600953,
      "loss": 4.0009,
      "step": 91600
    },
    {
      "epoch": 0.19085416666666666,
      "grad_norm": 0.7481701374053955,
      "learning_rate": 0.0002747286569182907,
      "loss": 4.0391,
      "step": 91610
    },
    {
      "epoch": 0.190875,
      "grad_norm": 0.8185672760009766,
      "learning_rate": 0.00027472318033770776,
      "loss": 4.0325,
      "step": 91620
    },
    {
      "epoch": 0.19089583333333332,
      "grad_norm": 0.6752582788467407,
      "learning_rate": 0.00027471770321837,
      "loss": 3.9469,
      "step": 91630
    },
    {
      "epoch": 0.19091666666666668,
      "grad_norm": 0.7974951267242432,
      "learning_rate": 0.00027471222556030116,
      "loss": 3.8233,
      "step": 91640
    },
    {
      "epoch": 0.1909375,
      "grad_norm": 0.7876443862915039,
      "learning_rate": 0.00027470674736352485,
      "loss": 3.9325,
      "step": 91650
    },
    {
      "epoch": 0.19095833333333334,
      "grad_norm": 0.7514185309410095,
      "learning_rate": 0.00027470126862806475,
      "loss": 3.8126,
      "step": 91660
    },
    {
      "epoch": 0.19097916666666667,
      "grad_norm": 0.6796295046806335,
      "learning_rate": 0.00027469578935394455,
      "loss": 3.9914,
      "step": 91670
    },
    {
      "epoch": 0.191,
      "grad_norm": 0.7301395535469055,
      "learning_rate": 0.0002746903095411879,
      "loss": 4.1735,
      "step": 91680
    },
    {
      "epoch": 0.19102083333333333,
      "grad_norm": 0.6710376739501953,
      "learning_rate": 0.00027468482918981845,
      "loss": 4.0461,
      "step": 91690
    },
    {
      "epoch": 0.19104166666666667,
      "grad_norm": 0.7758207321166992,
      "learning_rate": 0.00027467934829985993,
      "loss": 3.8788,
      "step": 91700
    },
    {
      "epoch": 0.1910625,
      "grad_norm": 0.7084881663322449,
      "learning_rate": 0.0002746738668713359,
      "loss": 3.9367,
      "step": 91710
    },
    {
      "epoch": 0.19108333333333333,
      "grad_norm": 0.7900219559669495,
      "learning_rate": 0.00027466838490427023,
      "loss": 3.9891,
      "step": 91720
    },
    {
      "epoch": 0.19110416666666666,
      "grad_norm": 0.7622429132461548,
      "learning_rate": 0.0002746629023986864,
      "loss": 4.143,
      "step": 91730
    },
    {
      "epoch": 0.191125,
      "grad_norm": 0.7779148817062378,
      "learning_rate": 0.0002746574193546082,
      "loss": 3.9204,
      "step": 91740
    },
    {
      "epoch": 0.19114583333333332,
      "grad_norm": 0.8320451974868774,
      "learning_rate": 0.0002746519357720593,
      "loss": 4.0396,
      "step": 91750
    },
    {
      "epoch": 0.19116666666666668,
      "grad_norm": 0.6889131665229797,
      "learning_rate": 0.0002746464516510633,
      "loss": 4.0424,
      "step": 91760
    },
    {
      "epoch": 0.1911875,
      "grad_norm": 0.7551159262657166,
      "learning_rate": 0.0002746409669916441,
      "loss": 4.1392,
      "step": 91770
    },
    {
      "epoch": 0.19120833333333334,
      "grad_norm": 0.9842861294746399,
      "learning_rate": 0.0002746354817938251,
      "loss": 3.8253,
      "step": 91780
    },
    {
      "epoch": 0.19122916666666667,
      "grad_norm": 0.737730860710144,
      "learning_rate": 0.0002746299960576303,
      "loss": 3.9084,
      "step": 91790
    },
    {
      "epoch": 0.19125,
      "grad_norm": 0.6666132211685181,
      "learning_rate": 0.00027462450978308316,
      "loss": 3.9368,
      "step": 91800
    },
    {
      "epoch": 0.19127083333333333,
      "grad_norm": 1.0006086826324463,
      "learning_rate": 0.0002746190229702075,
      "loss": 3.9634,
      "step": 91810
    },
    {
      "epoch": 0.19129166666666667,
      "grad_norm": 0.7661669850349426,
      "learning_rate": 0.000274613535619027,
      "loss": 3.9001,
      "step": 91820
    },
    {
      "epoch": 0.1913125,
      "grad_norm": 0.7501083016395569,
      "learning_rate": 0.00027460804772956533,
      "loss": 3.8066,
      "step": 91830
    },
    {
      "epoch": 0.19133333333333333,
      "grad_norm": 0.8600069284439087,
      "learning_rate": 0.00027460255930184625,
      "loss": 3.9067,
      "step": 91840
    },
    {
      "epoch": 0.19135416666666666,
      "grad_norm": 0.6812048554420471,
      "learning_rate": 0.0002745970703358934,
      "loss": 4.0688,
      "step": 91850
    },
    {
      "epoch": 0.191375,
      "grad_norm": 0.7618786096572876,
      "learning_rate": 0.0002745915808317305,
      "loss": 3.9948,
      "step": 91860
    },
    {
      "epoch": 0.19139583333333332,
      "grad_norm": 0.8765764832496643,
      "learning_rate": 0.00027458609078938133,
      "loss": 3.9949,
      "step": 91870
    },
    {
      "epoch": 0.19141666666666668,
      "grad_norm": 0.7917579412460327,
      "learning_rate": 0.0002745806002088696,
      "loss": 3.826,
      "step": 91880
    },
    {
      "epoch": 0.1914375,
      "grad_norm": 0.7034358978271484,
      "learning_rate": 0.0002745751090902189,
      "loss": 3.9916,
      "step": 91890
    },
    {
      "epoch": 0.19145833333333334,
      "grad_norm": 0.725060760974884,
      "learning_rate": 0.00027456961743345306,
      "loss": 3.8604,
      "step": 91900
    },
    {
      "epoch": 0.19147916666666667,
      "grad_norm": 0.7747330069541931,
      "learning_rate": 0.00027456412523859584,
      "loss": 3.7856,
      "step": 91910
    },
    {
      "epoch": 0.1915,
      "grad_norm": 1.0238698720932007,
      "learning_rate": 0.0002745586325056709,
      "loss": 4.0772,
      "step": 91920
    },
    {
      "epoch": 0.19152083333333333,
      "grad_norm": 0.764764666557312,
      "learning_rate": 0.0002745531392347019,
      "loss": 3.8257,
      "step": 91930
    },
    {
      "epoch": 0.19154166666666667,
      "grad_norm": 0.8122008442878723,
      "learning_rate": 0.00027454764542571264,
      "loss": 3.8727,
      "step": 91940
    },
    {
      "epoch": 0.1915625,
      "grad_norm": 0.6949844360351562,
      "learning_rate": 0.0002745421510787269,
      "loss": 4.0294,
      "step": 91950
    },
    {
      "epoch": 0.19158333333333333,
      "grad_norm": 0.779973030090332,
      "learning_rate": 0.0002745366561937684,
      "loss": 3.9849,
      "step": 91960
    },
    {
      "epoch": 0.19160416666666666,
      "grad_norm": 0.8110035061836243,
      "learning_rate": 0.00027453116077086077,
      "loss": 3.8684,
      "step": 91970
    },
    {
      "epoch": 0.191625,
      "grad_norm": 0.7618404030799866,
      "learning_rate": 0.00027452566481002785,
      "loss": 3.8138,
      "step": 91980
    },
    {
      "epoch": 0.19164583333333332,
      "grad_norm": 0.8639703989028931,
      "learning_rate": 0.00027452016831129334,
      "loss": 4.0034,
      "step": 91990
    },
    {
      "epoch": 0.19166666666666668,
      "grad_norm": 0.9348292350769043,
      "learning_rate": 0.000274514671274681,
      "loss": 3.9246,
      "step": 92000
    },
    {
      "epoch": 0.19166666666666668,
      "eval_loss": 4.304018497467041,
      "eval_runtime": 10.3251,
      "eval_samples_per_second": 0.969,
      "eval_steps_per_second": 0.291,
      "step": 92000
    },
    {
      "epoch": 0.1916875,
      "grad_norm": 0.720513641834259,
      "learning_rate": 0.00027450917370021457,
      "loss": 4.0624,
      "step": 92010
    },
    {
      "epoch": 0.19170833333333334,
      "grad_norm": 0.7905014157295227,
      "learning_rate": 0.00027450367558791775,
      "loss": 3.9737,
      "step": 92020
    },
    {
      "epoch": 0.19172916666666667,
      "grad_norm": 0.773129940032959,
      "learning_rate": 0.00027449817693781436,
      "loss": 4.0088,
      "step": 92030
    },
    {
      "epoch": 0.19175,
      "grad_norm": 0.7528867721557617,
      "learning_rate": 0.00027449267774992816,
      "loss": 3.8686,
      "step": 92040
    },
    {
      "epoch": 0.19177083333333333,
      "grad_norm": 0.8468011021614075,
      "learning_rate": 0.00027448717802428283,
      "loss": 4.0911,
      "step": 92050
    },
    {
      "epoch": 0.19179166666666667,
      "grad_norm": 0.7901443243026733,
      "learning_rate": 0.0002744816777609022,
      "loss": 3.9156,
      "step": 92060
    },
    {
      "epoch": 0.1918125,
      "grad_norm": 0.921197235584259,
      "learning_rate": 0.00027447617695981,
      "loss": 4.1764,
      "step": 92070
    },
    {
      "epoch": 0.19183333333333333,
      "grad_norm": 0.7413967251777649,
      "learning_rate": 0.0002744706756210299,
      "loss": 3.9085,
      "step": 92080
    },
    {
      "epoch": 0.19185416666666666,
      "grad_norm": 0.7521814107894897,
      "learning_rate": 0.0002744651737445858,
      "loss": 3.9243,
      "step": 92090
    },
    {
      "epoch": 0.191875,
      "grad_norm": 0.8064786195755005,
      "learning_rate": 0.00027445967133050145,
      "loss": 3.8933,
      "step": 92100
    },
    {
      "epoch": 0.19189583333333332,
      "grad_norm": 0.8939036130905151,
      "learning_rate": 0.0002744541683788006,
      "loss": 4.1365,
      "step": 92110
    },
    {
      "epoch": 0.19191666666666668,
      "grad_norm": 0.9395675659179688,
      "learning_rate": 0.00027444866488950695,
      "loss": 3.8792,
      "step": 92120
    },
    {
      "epoch": 0.1919375,
      "grad_norm": 0.8432508111000061,
      "learning_rate": 0.00027444316086264436,
      "loss": 3.7222,
      "step": 92130
    },
    {
      "epoch": 0.19195833333333334,
      "grad_norm": 0.7654009461402893,
      "learning_rate": 0.00027443765629823656,
      "loss": 3.9068,
      "step": 92140
    },
    {
      "epoch": 0.19197916666666667,
      "grad_norm": 0.7469329833984375,
      "learning_rate": 0.00027443215119630734,
      "loss": 3.9266,
      "step": 92150
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.7478797435760498,
      "learning_rate": 0.00027442664555688044,
      "loss": 3.9401,
      "step": 92160
    },
    {
      "epoch": 0.19202083333333334,
      "grad_norm": 0.7221897840499878,
      "learning_rate": 0.00027442113937997973,
      "loss": 3.9671,
      "step": 92170
    },
    {
      "epoch": 0.19204166666666667,
      "grad_norm": 0.7009600400924683,
      "learning_rate": 0.000274415632665629,
      "loss": 3.9802,
      "step": 92180
    },
    {
      "epoch": 0.1920625,
      "grad_norm": 0.9405708312988281,
      "learning_rate": 0.0002744101254138519,
      "loss": 3.8237,
      "step": 92190
    },
    {
      "epoch": 0.19208333333333333,
      "grad_norm": 0.9240197539329529,
      "learning_rate": 0.0002744046176246723,
      "loss": 4.1535,
      "step": 92200
    },
    {
      "epoch": 0.19210416666666666,
      "grad_norm": 1.5765730142593384,
      "learning_rate": 0.000274399109298114,
      "loss": 3.8292,
      "step": 92210
    },
    {
      "epoch": 0.192125,
      "grad_norm": 0.7649264931678772,
      "learning_rate": 0.00027439360043420084,
      "loss": 4.0274,
      "step": 92220
    },
    {
      "epoch": 0.19214583333333332,
      "grad_norm": 0.8353575468063354,
      "learning_rate": 0.00027438809103295654,
      "loss": 3.9686,
      "step": 92230
    },
    {
      "epoch": 0.19216666666666668,
      "grad_norm": 0.8402441740036011,
      "learning_rate": 0.0002743825810944049,
      "loss": 3.9734,
      "step": 92240
    },
    {
      "epoch": 0.1921875,
      "grad_norm": 0.7814085483551025,
      "learning_rate": 0.00027437707061856977,
      "loss": 3.8722,
      "step": 92250
    },
    {
      "epoch": 0.19220833333333334,
      "grad_norm": 0.7611770033836365,
      "learning_rate": 0.0002743715596054749,
      "loss": 3.9009,
      "step": 92260
    },
    {
      "epoch": 0.19222916666666667,
      "grad_norm": 0.8077239990234375,
      "learning_rate": 0.00027436604805514413,
      "loss": 3.946,
      "step": 92270
    },
    {
      "epoch": 0.19225,
      "grad_norm": 0.902617871761322,
      "learning_rate": 0.0002743605359676013,
      "loss": 4.0646,
      "step": 92280
    },
    {
      "epoch": 0.19227083333333334,
      "grad_norm": 0.7679324746131897,
      "learning_rate": 0.0002743550233428701,
      "loss": 3.7573,
      "step": 92290
    },
    {
      "epoch": 0.19229166666666667,
      "grad_norm": 0.805543839931488,
      "learning_rate": 0.0002743495101809745,
      "loss": 3.961,
      "step": 92300
    },
    {
      "epoch": 0.1923125,
      "grad_norm": 0.8161610960960388,
      "learning_rate": 0.0002743439964819382,
      "loss": 3.9249,
      "step": 92310
    },
    {
      "epoch": 0.19233333333333333,
      "grad_norm": 0.8563823103904724,
      "learning_rate": 0.0002743384822457851,
      "loss": 3.9702,
      "step": 92320
    },
    {
      "epoch": 0.19235416666666666,
      "grad_norm": 0.820151686668396,
      "learning_rate": 0.0002743329674725389,
      "loss": 3.9398,
      "step": 92330
    },
    {
      "epoch": 0.192375,
      "grad_norm": 0.7374067306518555,
      "learning_rate": 0.00027432745216222356,
      "loss": 3.8798,
      "step": 92340
    },
    {
      "epoch": 0.19239583333333332,
      "grad_norm": 0.736767053604126,
      "learning_rate": 0.0002743219363148628,
      "loss": 3.9624,
      "step": 92350
    },
    {
      "epoch": 0.19241666666666668,
      "grad_norm": 0.9352604150772095,
      "learning_rate": 0.0002743164199304805,
      "loss": 4.012,
      "step": 92360
    },
    {
      "epoch": 0.1924375,
      "grad_norm": 0.6628725528717041,
      "learning_rate": 0.00027431090300910043,
      "loss": 3.9992,
      "step": 92370
    },
    {
      "epoch": 0.19245833333333334,
      "grad_norm": 0.7624752521514893,
      "learning_rate": 0.0002743053855507465,
      "loss": 3.9903,
      "step": 92380
    },
    {
      "epoch": 0.19247916666666667,
      "grad_norm": 0.781508207321167,
      "learning_rate": 0.00027429986755544256,
      "loss": 3.8491,
      "step": 92390
    },
    {
      "epoch": 0.1925,
      "grad_norm": 0.7229906916618347,
      "learning_rate": 0.0002742943490232123,
      "loss": 3.9524,
      "step": 92400
    },
    {
      "epoch": 0.19252083333333334,
      "grad_norm": 0.7586458921432495,
      "learning_rate": 0.0002742888299540797,
      "loss": 4.0652,
      "step": 92410
    },
    {
      "epoch": 0.19254166666666667,
      "grad_norm": 0.8727280497550964,
      "learning_rate": 0.0002742833103480686,
      "loss": 3.9226,
      "step": 92420
    },
    {
      "epoch": 0.1925625,
      "grad_norm": 0.8636091351509094,
      "learning_rate": 0.0002742777902052027,
      "loss": 3.8735,
      "step": 92430
    },
    {
      "epoch": 0.19258333333333333,
      "grad_norm": 0.8419030904769897,
      "learning_rate": 0.000274272269525506,
      "loss": 4.0432,
      "step": 92440
    },
    {
      "epoch": 0.19260416666666666,
      "grad_norm": 0.6897881031036377,
      "learning_rate": 0.0002742667483090023,
      "loss": 3.9078,
      "step": 92450
    },
    {
      "epoch": 0.192625,
      "grad_norm": 0.7528761029243469,
      "learning_rate": 0.00027426122655571536,
      "loss": 3.9572,
      "step": 92460
    },
    {
      "epoch": 0.19264583333333332,
      "grad_norm": 0.8524377346038818,
      "learning_rate": 0.00027425570426566916,
      "loss": 3.7353,
      "step": 92470
    },
    {
      "epoch": 0.19266666666666668,
      "grad_norm": 0.8729358315467834,
      "learning_rate": 0.0002742501814388875,
      "loss": 3.9651,
      "step": 92480
    },
    {
      "epoch": 0.1926875,
      "grad_norm": 0.8362614512443542,
      "learning_rate": 0.00027424465807539424,
      "loss": 3.9995,
      "step": 92490
    },
    {
      "epoch": 0.19270833333333334,
      "grad_norm": 0.6963710188865662,
      "learning_rate": 0.0002742391341752132,
      "loss": 3.9844,
      "step": 92500
    },
    {
      "epoch": 0.19272916666666667,
      "grad_norm": 0.7750999927520752,
      "learning_rate": 0.0002742336097383683,
      "loss": 3.9475,
      "step": 92510
    },
    {
      "epoch": 0.19275,
      "grad_norm": 0.7656430602073669,
      "learning_rate": 0.0002742280847648834,
      "loss": 4.0152,
      "step": 92520
    },
    {
      "epoch": 0.19277083333333334,
      "grad_norm": 0.7820266485214233,
      "learning_rate": 0.0002742225592547823,
      "loss": 4.0884,
      "step": 92530
    },
    {
      "epoch": 0.19279166666666667,
      "grad_norm": 0.7531667351722717,
      "learning_rate": 0.00027421703320808894,
      "loss": 3.8227,
      "step": 92540
    },
    {
      "epoch": 0.1928125,
      "grad_norm": 0.8280318379402161,
      "learning_rate": 0.00027421150662482717,
      "loss": 4.0076,
      "step": 92550
    },
    {
      "epoch": 0.19283333333333333,
      "grad_norm": 0.8133417963981628,
      "learning_rate": 0.0002742059795050209,
      "loss": 3.9055,
      "step": 92560
    },
    {
      "epoch": 0.19285416666666666,
      "grad_norm": 0.8578565120697021,
      "learning_rate": 0.0002742004518486939,
      "loss": 3.8173,
      "step": 92570
    },
    {
      "epoch": 0.192875,
      "grad_norm": 0.7284464240074158,
      "learning_rate": 0.0002741949236558701,
      "loss": 4.0032,
      "step": 92580
    },
    {
      "epoch": 0.19289583333333332,
      "grad_norm": 0.7112690210342407,
      "learning_rate": 0.00027418939492657347,
      "loss": 3.8814,
      "step": 92590
    },
    {
      "epoch": 0.19291666666666665,
      "grad_norm": 0.8367990851402283,
      "learning_rate": 0.00027418386566082774,
      "loss": 3.8413,
      "step": 92600
    },
    {
      "epoch": 0.1929375,
      "grad_norm": 0.8962868452072144,
      "learning_rate": 0.0002741783358586569,
      "loss": 3.8134,
      "step": 92610
    },
    {
      "epoch": 0.19295833333333334,
      "grad_norm": 0.6666688919067383,
      "learning_rate": 0.00027417280552008476,
      "loss": 4.0485,
      "step": 92620
    },
    {
      "epoch": 0.19297916666666667,
      "grad_norm": 0.7154685854911804,
      "learning_rate": 0.0002741672746451353,
      "loss": 4.2429,
      "step": 92630
    },
    {
      "epoch": 0.193,
      "grad_norm": 0.7668737173080444,
      "learning_rate": 0.0002741617432338323,
      "loss": 3.6922,
      "step": 92640
    },
    {
      "epoch": 0.19302083333333334,
      "grad_norm": 0.7683324217796326,
      "learning_rate": 0.0002741562112861998,
      "loss": 4.0276,
      "step": 92650
    },
    {
      "epoch": 0.19304166666666667,
      "grad_norm": 0.9048532247543335,
      "learning_rate": 0.00027415067880226155,
      "loss": 4.0346,
      "step": 92660
    },
    {
      "epoch": 0.1930625,
      "grad_norm": 0.6691904664039612,
      "learning_rate": 0.00027414514578204155,
      "loss": 3.8164,
      "step": 92670
    },
    {
      "epoch": 0.19308333333333333,
      "grad_norm": 0.8999292850494385,
      "learning_rate": 0.0002741396122255636,
      "loss": 4.112,
      "step": 92680
    },
    {
      "epoch": 0.19310416666666666,
      "grad_norm": 0.8325583338737488,
      "learning_rate": 0.00027413407813285174,
      "loss": 3.9046,
      "step": 92690
    },
    {
      "epoch": 0.193125,
      "grad_norm": 0.7240872383117676,
      "learning_rate": 0.0002741285435039298,
      "loss": 3.7488,
      "step": 92700
    },
    {
      "epoch": 0.19314583333333332,
      "grad_norm": 0.7588842511177063,
      "learning_rate": 0.00027412300833882164,
      "loss": 4.0078,
      "step": 92710
    },
    {
      "epoch": 0.19316666666666665,
      "grad_norm": 0.9620528817176819,
      "learning_rate": 0.00027411747263755116,
      "loss": 3.8836,
      "step": 92720
    },
    {
      "epoch": 0.1931875,
      "grad_norm": 0.8557708859443665,
      "learning_rate": 0.00027411193640014244,
      "loss": 3.776,
      "step": 92730
    },
    {
      "epoch": 0.19320833333333334,
      "grad_norm": 0.8330896496772766,
      "learning_rate": 0.0002741063996266192,
      "loss": 4.1032,
      "step": 92740
    },
    {
      "epoch": 0.19322916666666667,
      "grad_norm": 0.9313504099845886,
      "learning_rate": 0.0002741008623170055,
      "loss": 4.0922,
      "step": 92750
    },
    {
      "epoch": 0.19325,
      "grad_norm": 0.8999679684638977,
      "learning_rate": 0.00027409532447132516,
      "loss": 3.9642,
      "step": 92760
    },
    {
      "epoch": 0.19327083333333334,
      "grad_norm": 0.8363356590270996,
      "learning_rate": 0.00027408978608960214,
      "loss": 3.9914,
      "step": 92770
    },
    {
      "epoch": 0.19329166666666667,
      "grad_norm": 0.9103180766105652,
      "learning_rate": 0.00027408424717186036,
      "loss": 4.0082,
      "step": 92780
    },
    {
      "epoch": 0.1933125,
      "grad_norm": 0.7567905187606812,
      "learning_rate": 0.00027407870771812377,
      "loss": 4.0551,
      "step": 92790
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 0.726589024066925,
      "learning_rate": 0.0002740731677284163,
      "loss": 3.7554,
      "step": 92800
    },
    {
      "epoch": 0.19335416666666666,
      "grad_norm": 0.7578080296516418,
      "learning_rate": 0.00027406762720276175,
      "loss": 4.1402,
      "step": 92810
    },
    {
      "epoch": 0.193375,
      "grad_norm": 0.7857120037078857,
      "learning_rate": 0.00027406208614118424,
      "loss": 3.9718,
      "step": 92820
    },
    {
      "epoch": 0.19339583333333332,
      "grad_norm": 0.7242152690887451,
      "learning_rate": 0.00027405654454370766,
      "loss": 3.9675,
      "step": 92830
    },
    {
      "epoch": 0.19341666666666665,
      "grad_norm": 0.7252117395401001,
      "learning_rate": 0.0002740510024103558,
      "loss": 3.8327,
      "step": 92840
    },
    {
      "epoch": 0.1934375,
      "grad_norm": 0.8823216557502747,
      "learning_rate": 0.0002740454597411528,
      "loss": 3.99,
      "step": 92850
    },
    {
      "epoch": 0.19345833333333334,
      "grad_norm": 0.9301354885101318,
      "learning_rate": 0.0002740399165361225,
      "loss": 3.8664,
      "step": 92860
    },
    {
      "epoch": 0.19347916666666667,
      "grad_norm": 0.7952534556388855,
      "learning_rate": 0.0002740343727952888,
      "loss": 3.9184,
      "step": 92870
    },
    {
      "epoch": 0.1935,
      "grad_norm": 0.7573935389518738,
      "learning_rate": 0.0002740288285186758,
      "loss": 3.6879,
      "step": 92880
    },
    {
      "epoch": 0.19352083333333334,
      "grad_norm": 0.7205803990364075,
      "learning_rate": 0.0002740232837063073,
      "loss": 3.6603,
      "step": 92890
    },
    {
      "epoch": 0.19354166666666667,
      "grad_norm": 0.8046885132789612,
      "learning_rate": 0.00027401773835820735,
      "loss": 3.993,
      "step": 92900
    },
    {
      "epoch": 0.1935625,
      "grad_norm": 0.7210755944252014,
      "learning_rate": 0.0002740121924743998,
      "loss": 4.0867,
      "step": 92910
    },
    {
      "epoch": 0.19358333333333333,
      "grad_norm": 0.7960945963859558,
      "learning_rate": 0.0002740066460549087,
      "loss": 3.9225,
      "step": 92920
    },
    {
      "epoch": 0.19360416666666666,
      "grad_norm": 0.7935143709182739,
      "learning_rate": 0.000274001099099758,
      "loss": 3.8238,
      "step": 92930
    },
    {
      "epoch": 0.193625,
      "grad_norm": 0.7336628437042236,
      "learning_rate": 0.00027399555160897163,
      "loss": 3.789,
      "step": 92940
    },
    {
      "epoch": 0.19364583333333332,
      "grad_norm": 0.835741400718689,
      "learning_rate": 0.00027399000358257347,
      "loss": 3.9717,
      "step": 92950
    },
    {
      "epoch": 0.19366666666666665,
      "grad_norm": 0.8618433475494385,
      "learning_rate": 0.0002739844550205877,
      "loss": 4.0095,
      "step": 92960
    },
    {
      "epoch": 0.1936875,
      "grad_norm": 0.8053343892097473,
      "learning_rate": 0.0002739789059230381,
      "loss": 3.9956,
      "step": 92970
    },
    {
      "epoch": 0.19370833333333334,
      "grad_norm": 0.7320711612701416,
      "learning_rate": 0.00027397335628994866,
      "loss": 3.7438,
      "step": 92980
    },
    {
      "epoch": 0.19372916666666667,
      "grad_norm": 0.7310126423835754,
      "learning_rate": 0.0002739678061213434,
      "loss": 3.9132,
      "step": 92990
    },
    {
      "epoch": 0.19375,
      "grad_norm": 0.8002314567565918,
      "learning_rate": 0.00027396225541724637,
      "loss": 4.0405,
      "step": 93000
    },
    {
      "epoch": 0.19375,
      "eval_loss": 4.269639015197754,
      "eval_runtime": 10.1917,
      "eval_samples_per_second": 0.981,
      "eval_steps_per_second": 0.294,
      "step": 93000
    },
    {
      "epoch": 0.19377083333333334,
      "grad_norm": 0.7941508293151855,
      "learning_rate": 0.0002739567041776814,
      "loss": 3.8952,
      "step": 93010
    },
    {
      "epoch": 0.19379166666666667,
      "grad_norm": 0.7720952033996582,
      "learning_rate": 0.00027395115240267255,
      "loss": 4.1051,
      "step": 93020
    },
    {
      "epoch": 0.1938125,
      "grad_norm": 0.927321195602417,
      "learning_rate": 0.0002739456000922438,
      "loss": 4.0727,
      "step": 93030
    },
    {
      "epoch": 0.19383333333333333,
      "grad_norm": 0.771827220916748,
      "learning_rate": 0.0002739400472464191,
      "loss": 3.9515,
      "step": 93040
    },
    {
      "epoch": 0.19385416666666666,
      "grad_norm": 0.7216969132423401,
      "learning_rate": 0.0002739344938652224,
      "loss": 3.8871,
      "step": 93050
    },
    {
      "epoch": 0.193875,
      "grad_norm": 0.8987125754356384,
      "learning_rate": 0.0002739289399486778,
      "loss": 3.743,
      "step": 93060
    },
    {
      "epoch": 0.19389583333333332,
      "grad_norm": 0.9023748636245728,
      "learning_rate": 0.00027392338549680925,
      "loss": 3.9201,
      "step": 93070
    },
    {
      "epoch": 0.19391666666666665,
      "grad_norm": 0.8799203634262085,
      "learning_rate": 0.0002739178305096407,
      "loss": 3.985,
      "step": 93080
    },
    {
      "epoch": 0.1939375,
      "grad_norm": 0.8309151530265808,
      "learning_rate": 0.00027391227498719617,
      "loss": 4.1411,
      "step": 93090
    },
    {
      "epoch": 0.19395833333333334,
      "grad_norm": 0.7469663619995117,
      "learning_rate": 0.0002739067189294997,
      "loss": 4.047,
      "step": 93100
    },
    {
      "epoch": 0.19397916666666667,
      "grad_norm": 1.0068955421447754,
      "learning_rate": 0.00027390116233657523,
      "loss": 3.7882,
      "step": 93110
    },
    {
      "epoch": 0.194,
      "grad_norm": 0.7198595404624939,
      "learning_rate": 0.00027389560520844675,
      "loss": 3.7972,
      "step": 93120
    },
    {
      "epoch": 0.19402083333333334,
      "grad_norm": 0.6688303351402283,
      "learning_rate": 0.00027389004754513834,
      "loss": 3.9947,
      "step": 93130
    },
    {
      "epoch": 0.19404166666666667,
      "grad_norm": 0.694288969039917,
      "learning_rate": 0.0002738844893466739,
      "loss": 3.9205,
      "step": 93140
    },
    {
      "epoch": 0.1940625,
      "grad_norm": 0.7417435050010681,
      "learning_rate": 0.00027387893061307756,
      "loss": 4.0214,
      "step": 93150
    },
    {
      "epoch": 0.19408333333333333,
      "grad_norm": 0.7214083075523376,
      "learning_rate": 0.00027387337134437327,
      "loss": 3.6254,
      "step": 93160
    },
    {
      "epoch": 0.19410416666666666,
      "grad_norm": 0.7388765811920166,
      "learning_rate": 0.000273867811540585,
      "loss": 4.0499,
      "step": 93170
    },
    {
      "epoch": 0.194125,
      "grad_norm": 0.856877863407135,
      "learning_rate": 0.00027386225120173686,
      "loss": 3.9623,
      "step": 93180
    },
    {
      "epoch": 0.19414583333333332,
      "grad_norm": 0.7007079720497131,
      "learning_rate": 0.0002738566903278528,
      "loss": 4.0631,
      "step": 93190
    },
    {
      "epoch": 0.19416666666666665,
      "grad_norm": 0.7219590544700623,
      "learning_rate": 0.0002738511289189569,
      "loss": 3.9473,
      "step": 93200
    },
    {
      "epoch": 0.1941875,
      "grad_norm": 0.7756072282791138,
      "learning_rate": 0.00027384556697507316,
      "loss": 4.1159,
      "step": 93210
    },
    {
      "epoch": 0.19420833333333334,
      "grad_norm": 0.9047934412956238,
      "learning_rate": 0.00027384000449622557,
      "loss": 4.0723,
      "step": 93220
    },
    {
      "epoch": 0.19422916666666667,
      "grad_norm": 0.805165708065033,
      "learning_rate": 0.00027383444148243815,
      "loss": 3.9257,
      "step": 93230
    },
    {
      "epoch": 0.19425,
      "grad_norm": 0.8401201963424683,
      "learning_rate": 0.000273828877933735,
      "loss": 4.0321,
      "step": 93240
    },
    {
      "epoch": 0.19427083333333334,
      "grad_norm": 0.8996986746788025,
      "learning_rate": 0.0002738233138501401,
      "loss": 4.08,
      "step": 93250
    },
    {
      "epoch": 0.19429166666666667,
      "grad_norm": 0.7385739684104919,
      "learning_rate": 0.00027381774923167744,
      "loss": 3.8499,
      "step": 93260
    },
    {
      "epoch": 0.1943125,
      "grad_norm": 0.9362020492553711,
      "learning_rate": 0.00027381218407837116,
      "loss": 3.9704,
      "step": 93270
    },
    {
      "epoch": 0.19433333333333333,
      "grad_norm": 0.736035168170929,
      "learning_rate": 0.00027380661839024523,
      "loss": 4.1272,
      "step": 93280
    },
    {
      "epoch": 0.19435416666666666,
      "grad_norm": 0.7421329617500305,
      "learning_rate": 0.0002738010521673238,
      "loss": 3.8996,
      "step": 93290
    },
    {
      "epoch": 0.194375,
      "grad_norm": 0.6876094937324524,
      "learning_rate": 0.00027379548540963075,
      "loss": 3.9998,
      "step": 93300
    },
    {
      "epoch": 0.19439583333333332,
      "grad_norm": 0.8467497229576111,
      "learning_rate": 0.0002737899181171902,
      "loss": 3.8202,
      "step": 93310
    },
    {
      "epoch": 0.19441666666666665,
      "grad_norm": 0.7419642210006714,
      "learning_rate": 0.00027378435029002627,
      "loss": 3.9519,
      "step": 93320
    },
    {
      "epoch": 0.1944375,
      "grad_norm": 0.7050631642341614,
      "learning_rate": 0.00027377878192816286,
      "loss": 4.0001,
      "step": 93330
    },
    {
      "epoch": 0.19445833333333334,
      "grad_norm": 0.7252691388130188,
      "learning_rate": 0.0002737732130316242,
      "loss": 3.8829,
      "step": 93340
    },
    {
      "epoch": 0.19447916666666668,
      "grad_norm": 0.7547847628593445,
      "learning_rate": 0.00027376764360043413,
      "loss": 3.977,
      "step": 93350
    },
    {
      "epoch": 0.1945,
      "grad_norm": 0.6897545456886292,
      "learning_rate": 0.00027376207363461694,
      "loss": 3.9498,
      "step": 93360
    },
    {
      "epoch": 0.19452083333333334,
      "grad_norm": 0.7228429317474365,
      "learning_rate": 0.0002737565031341965,
      "loss": 3.9702,
      "step": 93370
    },
    {
      "epoch": 0.19454166666666667,
      "grad_norm": 0.705147385597229,
      "learning_rate": 0.00027375093209919705,
      "loss": 3.8303,
      "step": 93380
    },
    {
      "epoch": 0.1945625,
      "grad_norm": 0.9464631676673889,
      "learning_rate": 0.0002737453605296424,
      "loss": 4.0417,
      "step": 93390
    },
    {
      "epoch": 0.19458333333333333,
      "grad_norm": 0.8223630785942078,
      "learning_rate": 0.0002737397884255569,
      "loss": 4.0428,
      "step": 93400
    },
    {
      "epoch": 0.19460416666666666,
      "grad_norm": 0.685832142829895,
      "learning_rate": 0.0002737342157869645,
      "loss": 3.9259,
      "step": 93410
    },
    {
      "epoch": 0.194625,
      "grad_norm": 0.8223825693130493,
      "learning_rate": 0.00027372864261388923,
      "loss": 3.8906,
      "step": 93420
    },
    {
      "epoch": 0.19464583333333332,
      "grad_norm": 1.185671329498291,
      "learning_rate": 0.0002737230689063552,
      "loss": 4.0781,
      "step": 93430
    },
    {
      "epoch": 0.19466666666666665,
      "grad_norm": 0.7670809626579285,
      "learning_rate": 0.0002737174946643865,
      "loss": 3.8752,
      "step": 93440
    },
    {
      "epoch": 0.1946875,
      "grad_norm": 0.8647821545600891,
      "learning_rate": 0.0002737119198880072,
      "loss": 4.0045,
      "step": 93450
    },
    {
      "epoch": 0.19470833333333334,
      "grad_norm": 0.7961347103118896,
      "learning_rate": 0.00027370634457724133,
      "loss": 3.9624,
      "step": 93460
    },
    {
      "epoch": 0.19472916666666668,
      "grad_norm": 0.7699318528175354,
      "learning_rate": 0.00027370076873211305,
      "loss": 3.8687,
      "step": 93470
    },
    {
      "epoch": 0.19475,
      "grad_norm": 0.8351806402206421,
      "learning_rate": 0.0002736951923526464,
      "loss": 4.1077,
      "step": 93480
    },
    {
      "epoch": 0.19477083333333334,
      "grad_norm": 0.9162630438804626,
      "learning_rate": 0.0002736896154388655,
      "loss": 4.0104,
      "step": 93490
    },
    {
      "epoch": 0.19479166666666667,
      "grad_norm": 0.745882511138916,
      "learning_rate": 0.0002736840379907944,
      "loss": 3.8675,
      "step": 93500
    },
    {
      "epoch": 0.1948125,
      "grad_norm": 0.747920572757721,
      "learning_rate": 0.0002736784600084572,
      "loss": 3.9878,
      "step": 93510
    },
    {
      "epoch": 0.19483333333333333,
      "grad_norm": 0.8390116095542908,
      "learning_rate": 0.00027367288149187806,
      "loss": 3.8748,
      "step": 93520
    },
    {
      "epoch": 0.19485416666666666,
      "grad_norm": 0.7207647562026978,
      "learning_rate": 0.000273667302441081,
      "loss": 3.7873,
      "step": 93530
    },
    {
      "epoch": 0.194875,
      "grad_norm": 0.8329967260360718,
      "learning_rate": 0.0002736617228560901,
      "loss": 3.8015,
      "step": 93540
    },
    {
      "epoch": 0.19489583333333332,
      "grad_norm": 0.7339974045753479,
      "learning_rate": 0.0002736561427369296,
      "loss": 3.8681,
      "step": 93550
    },
    {
      "epoch": 0.19491666666666665,
      "grad_norm": 0.798789918422699,
      "learning_rate": 0.0002736505620836234,
      "loss": 4.0514,
      "step": 93560
    },
    {
      "epoch": 0.1949375,
      "grad_norm": 0.7890822291374207,
      "learning_rate": 0.0002736449808961958,
      "loss": 3.9427,
      "step": 93570
    },
    {
      "epoch": 0.19495833333333334,
      "grad_norm": 0.7477342486381531,
      "learning_rate": 0.0002736393991746708,
      "loss": 3.8848,
      "step": 93580
    },
    {
      "epoch": 0.19497916666666668,
      "grad_norm": 0.898853063583374,
      "learning_rate": 0.0002736338169190725,
      "loss": 3.9888,
      "step": 93590
    },
    {
      "epoch": 0.195,
      "grad_norm": 0.7376127243041992,
      "learning_rate": 0.0002736282341294251,
      "loss": 3.8526,
      "step": 93600
    },
    {
      "epoch": 0.19502083333333334,
      "grad_norm": 0.7087004780769348,
      "learning_rate": 0.0002736226508057526,
      "loss": 3.8738,
      "step": 93610
    },
    {
      "epoch": 0.19504166666666667,
      "grad_norm": 0.8363021016120911,
      "learning_rate": 0.0002736170669480793,
      "loss": 4.1419,
      "step": 93620
    },
    {
      "epoch": 0.1950625,
      "grad_norm": 0.7132776975631714,
      "learning_rate": 0.0002736114825564291,
      "loss": 4.0503,
      "step": 93630
    },
    {
      "epoch": 0.19508333333333333,
      "grad_norm": 0.7109072208404541,
      "learning_rate": 0.00027360589763082623,
      "loss": 4.128,
      "step": 93640
    },
    {
      "epoch": 0.19510416666666666,
      "grad_norm": 0.7300116419792175,
      "learning_rate": 0.0002736003121712948,
      "loss": 3.7277,
      "step": 93650
    },
    {
      "epoch": 0.195125,
      "grad_norm": 0.8087018728256226,
      "learning_rate": 0.000273594726177859,
      "loss": 3.8619,
      "step": 93660
    },
    {
      "epoch": 0.19514583333333332,
      "grad_norm": 0.8632952570915222,
      "learning_rate": 0.0002735891396505429,
      "loss": 4.1368,
      "step": 93670
    },
    {
      "epoch": 0.19516666666666665,
      "grad_norm": 0.934794008731842,
      "learning_rate": 0.0002735835525893706,
      "loss": 4.0777,
      "step": 93680
    },
    {
      "epoch": 0.1951875,
      "grad_norm": 0.7700251340866089,
      "learning_rate": 0.00027357796499436626,
      "loss": 3.9264,
      "step": 93690
    },
    {
      "epoch": 0.19520833333333334,
      "grad_norm": 0.7411268353462219,
      "learning_rate": 0.0002735723768655541,
      "loss": 4.1325,
      "step": 93700
    },
    {
      "epoch": 0.19522916666666668,
      "grad_norm": 0.9760246872901917,
      "learning_rate": 0.00027356678820295813,
      "loss": 3.9986,
      "step": 93710
    },
    {
      "epoch": 0.19525,
      "grad_norm": 0.7019138336181641,
      "learning_rate": 0.00027356119900660256,
      "loss": 4.0159,
      "step": 93720
    },
    {
      "epoch": 0.19527083333333334,
      "grad_norm": 0.7643010020256042,
      "learning_rate": 0.0002735556092765115,
      "loss": 4.0083,
      "step": 93730
    },
    {
      "epoch": 0.19529166666666667,
      "grad_norm": 0.8194450736045837,
      "learning_rate": 0.00027355001901270917,
      "loss": 3.8196,
      "step": 93740
    },
    {
      "epoch": 0.1953125,
      "grad_norm": 0.7122031450271606,
      "learning_rate": 0.0002735444282152196,
      "loss": 3.9696,
      "step": 93750
    },
    {
      "epoch": 0.19533333333333333,
      "grad_norm": 0.9850800633430481,
      "learning_rate": 0.000273538836884067,
      "loss": 4.094,
      "step": 93760
    },
    {
      "epoch": 0.19535416666666666,
      "grad_norm": 0.7248971462249756,
      "learning_rate": 0.0002735332450192756,
      "loss": 4.1117,
      "step": 93770
    },
    {
      "epoch": 0.195375,
      "grad_norm": 0.7017927765846252,
      "learning_rate": 0.0002735276526208694,
      "loss": 3.8721,
      "step": 93780
    },
    {
      "epoch": 0.19539583333333332,
      "grad_norm": 0.8409106731414795,
      "learning_rate": 0.00027352205968887266,
      "loss": 3.9017,
      "step": 93790
    },
    {
      "epoch": 0.19541666666666666,
      "grad_norm": 0.7094943523406982,
      "learning_rate": 0.00027351646622330954,
      "loss": 3.95,
      "step": 93800
    },
    {
      "epoch": 0.1954375,
      "grad_norm": 0.750248372554779,
      "learning_rate": 0.00027351087222420413,
      "loss": 4.0178,
      "step": 93810
    },
    {
      "epoch": 0.19545833333333335,
      "grad_norm": 0.663446843624115,
      "learning_rate": 0.00027350527769158067,
      "loss": 3.8346,
      "step": 93820
    },
    {
      "epoch": 0.19547916666666668,
      "grad_norm": 0.7019898891448975,
      "learning_rate": 0.00027349968262546334,
      "loss": 3.9638,
      "step": 93830
    },
    {
      "epoch": 0.1955,
      "grad_norm": 0.7226138710975647,
      "learning_rate": 0.0002734940870258762,
      "loss": 3.9421,
      "step": 93840
    },
    {
      "epoch": 0.19552083333333334,
      "grad_norm": 0.7109925150871277,
      "learning_rate": 0.0002734884908928435,
      "loss": 4.1389,
      "step": 93850
    },
    {
      "epoch": 0.19554166666666667,
      "grad_norm": 0.7578256130218506,
      "learning_rate": 0.0002734828942263894,
      "loss": 4.1641,
      "step": 93860
    },
    {
      "epoch": 0.1955625,
      "grad_norm": 0.7542611956596375,
      "learning_rate": 0.00027347729702653813,
      "loss": 3.9333,
      "step": 93870
    },
    {
      "epoch": 0.19558333333333333,
      "grad_norm": 1.0114073753356934,
      "learning_rate": 0.00027347169929331375,
      "loss": 3.9586,
      "step": 93880
    },
    {
      "epoch": 0.19560416666666666,
      "grad_norm": 0.7541428208351135,
      "learning_rate": 0.0002734661010267405,
      "loss": 3.9015,
      "step": 93890
    },
    {
      "epoch": 0.195625,
      "grad_norm": 0.691645622253418,
      "learning_rate": 0.0002734605022268426,
      "loss": 3.8081,
      "step": 93900
    },
    {
      "epoch": 0.19564583333333332,
      "grad_norm": 0.9284999370574951,
      "learning_rate": 0.0002734549028936442,
      "loss": 3.9396,
      "step": 93910
    },
    {
      "epoch": 0.19566666666666666,
      "grad_norm": 0.7675895690917969,
      "learning_rate": 0.00027344930302716943,
      "loss": 3.9035,
      "step": 93920
    },
    {
      "epoch": 0.1956875,
      "grad_norm": 0.780472993850708,
      "learning_rate": 0.00027344370262744256,
      "loss": 3.9011,
      "step": 93930
    },
    {
      "epoch": 0.19570833333333335,
      "grad_norm": 0.7809320092201233,
      "learning_rate": 0.00027343810169448777,
      "loss": 3.8916,
      "step": 93940
    },
    {
      "epoch": 0.19572916666666668,
      "grad_norm": 0.7453614473342896,
      "learning_rate": 0.0002734325002283293,
      "loss": 3.8171,
      "step": 93950
    },
    {
      "epoch": 0.19575,
      "grad_norm": 0.9034572243690491,
      "learning_rate": 0.0002734268982289912,
      "loss": 3.8176,
      "step": 93960
    },
    {
      "epoch": 0.19577083333333334,
      "grad_norm": 0.7633448243141174,
      "learning_rate": 0.0002734212956964978,
      "loss": 3.7947,
      "step": 93970
    },
    {
      "epoch": 0.19579166666666667,
      "grad_norm": 0.9083358645439148,
      "learning_rate": 0.00027341569263087317,
      "loss": 3.8277,
      "step": 93980
    },
    {
      "epoch": 0.1958125,
      "grad_norm": 0.791124701499939,
      "learning_rate": 0.0002734100890321417,
      "loss": 3.9152,
      "step": 93990
    },
    {
      "epoch": 0.19583333333333333,
      "grad_norm": 0.8397074341773987,
      "learning_rate": 0.0002734044849003275,
      "loss": 4.0513,
      "step": 94000
    },
    {
      "epoch": 0.19583333333333333,
      "eval_loss": 4.285913944244385,
      "eval_runtime": 10.0018,
      "eval_samples_per_second": 1.0,
      "eval_steps_per_second": 0.3,
      "step": 94000
    },
    {
      "epoch": 0.19585416666666666,
      "grad_norm": 0.7428603768348694,
      "learning_rate": 0.0002733988802354547,
      "loss": 4.0798,
      "step": 94010
    },
    {
      "epoch": 0.195875,
      "grad_norm": 0.7495461702346802,
      "learning_rate": 0.0002733932750375476,
      "loss": 4.0043,
      "step": 94020
    },
    {
      "epoch": 0.19589583333333332,
      "grad_norm": 0.7680255770683289,
      "learning_rate": 0.00027338766930663045,
      "loss": 3.7617,
      "step": 94030
    },
    {
      "epoch": 0.19591666666666666,
      "grad_norm": 0.7712447047233582,
      "learning_rate": 0.00027338206304272736,
      "loss": 4.0918,
      "step": 94040
    },
    {
      "epoch": 0.1959375,
      "grad_norm": 0.800653338432312,
      "learning_rate": 0.00027337645624586263,
      "loss": 3.9981,
      "step": 94050
    },
    {
      "epoch": 0.19595833333333335,
      "grad_norm": 0.676794171333313,
      "learning_rate": 0.0002733708489160604,
      "loss": 3.9644,
      "step": 94060
    },
    {
      "epoch": 0.19597916666666668,
      "grad_norm": 0.6784111261367798,
      "learning_rate": 0.00027336524105334495,
      "loss": 3.9767,
      "step": 94070
    },
    {
      "epoch": 0.196,
      "grad_norm": 0.8128810524940491,
      "learning_rate": 0.0002733596326577405,
      "loss": 3.9617,
      "step": 94080
    },
    {
      "epoch": 0.19602083333333334,
      "grad_norm": 0.8545257449150085,
      "learning_rate": 0.0002733540237292713,
      "loss": 3.8829,
      "step": 94090
    },
    {
      "epoch": 0.19604166666666667,
      "grad_norm": 0.7146647572517395,
      "learning_rate": 0.0002733484142679615,
      "loss": 3.9225,
      "step": 94100
    },
    {
      "epoch": 0.1960625,
      "grad_norm": 0.849390983581543,
      "learning_rate": 0.00027334280427383534,
      "loss": 4.0716,
      "step": 94110
    },
    {
      "epoch": 0.19608333333333333,
      "grad_norm": 0.7027696967124939,
      "learning_rate": 0.0002733371937469172,
      "loss": 3.9006,
      "step": 94120
    },
    {
      "epoch": 0.19610416666666666,
      "grad_norm": 0.7660244107246399,
      "learning_rate": 0.00027333158268723107,
      "loss": 3.7835,
      "step": 94130
    },
    {
      "epoch": 0.196125,
      "grad_norm": 0.8189563751220703,
      "learning_rate": 0.0002733259710948014,
      "loss": 3.8866,
      "step": 94140
    },
    {
      "epoch": 0.19614583333333332,
      "grad_norm": 0.7408201694488525,
      "learning_rate": 0.00027332035896965236,
      "loss": 3.8726,
      "step": 94150
    },
    {
      "epoch": 0.19616666666666666,
      "grad_norm": 0.809445321559906,
      "learning_rate": 0.0002733147463118081,
      "loss": 3.9916,
      "step": 94160
    },
    {
      "epoch": 0.1961875,
      "grad_norm": 0.7544098496437073,
      "learning_rate": 0.000273309133121293,
      "loss": 4.0405,
      "step": 94170
    },
    {
      "epoch": 0.19620833333333335,
      "grad_norm": 0.7298381924629211,
      "learning_rate": 0.0002733035193981313,
      "loss": 4.0829,
      "step": 94180
    },
    {
      "epoch": 0.19622916666666668,
      "grad_norm": 0.8632772564888,
      "learning_rate": 0.0002732979051423472,
      "loss": 3.992,
      "step": 94190
    },
    {
      "epoch": 0.19625,
      "grad_norm": 0.7655407786369324,
      "learning_rate": 0.0002732922903539649,
      "loss": 4.0246,
      "step": 94200
    },
    {
      "epoch": 0.19627083333333334,
      "grad_norm": 0.7302138209342957,
      "learning_rate": 0.00027328667503300874,
      "loss": 3.9714,
      "step": 94210
    },
    {
      "epoch": 0.19629166666666667,
      "grad_norm": 0.8145546317100525,
      "learning_rate": 0.0002732810591795029,
      "loss": 3.9614,
      "step": 94220
    },
    {
      "epoch": 0.1963125,
      "grad_norm": 0.710543155670166,
      "learning_rate": 0.0002732754427934717,
      "loss": 3.9526,
      "step": 94230
    },
    {
      "epoch": 0.19633333333333333,
      "grad_norm": 0.7220954298973083,
      "learning_rate": 0.00027326982587493943,
      "loss": 3.8375,
      "step": 94240
    },
    {
      "epoch": 0.19635416666666666,
      "grad_norm": 0.8978043794631958,
      "learning_rate": 0.00027326420842393025,
      "loss": 4.0095,
      "step": 94250
    },
    {
      "epoch": 0.196375,
      "grad_norm": 0.7745317220687866,
      "learning_rate": 0.0002732585904404685,
      "loss": 3.8199,
      "step": 94260
    },
    {
      "epoch": 0.19639583333333333,
      "grad_norm": 0.6638867855072021,
      "learning_rate": 0.00027325297192457845,
      "loss": 3.8557,
      "step": 94270
    },
    {
      "epoch": 0.19641666666666666,
      "grad_norm": 0.765419602394104,
      "learning_rate": 0.0002732473528762843,
      "loss": 4.1052,
      "step": 94280
    },
    {
      "epoch": 0.1964375,
      "grad_norm": 0.7885999083518982,
      "learning_rate": 0.00027324173329561045,
      "loss": 3.761,
      "step": 94290
    },
    {
      "epoch": 0.19645833333333335,
      "grad_norm": 0.7087690234184265,
      "learning_rate": 0.000273236113182581,
      "loss": 3.9428,
      "step": 94300
    },
    {
      "epoch": 0.19647916666666668,
      "grad_norm": 0.773313581943512,
      "learning_rate": 0.0002732304925372204,
      "loss": 3.9819,
      "step": 94310
    },
    {
      "epoch": 0.1965,
      "grad_norm": 0.8233387470245361,
      "learning_rate": 0.0002732248713595528,
      "loss": 4.0071,
      "step": 94320
    },
    {
      "epoch": 0.19652083333333334,
      "grad_norm": 0.8832021355628967,
      "learning_rate": 0.00027321924964960253,
      "loss": 3.7911,
      "step": 94330
    },
    {
      "epoch": 0.19654166666666667,
      "grad_norm": 0.8114696145057678,
      "learning_rate": 0.0002732136274073939,
      "loss": 4.1259,
      "step": 94340
    },
    {
      "epoch": 0.1965625,
      "grad_norm": 0.7254542112350464,
      "learning_rate": 0.0002732080046329512,
      "loss": 3.9026,
      "step": 94350
    },
    {
      "epoch": 0.19658333333333333,
      "grad_norm": 0.812205970287323,
      "learning_rate": 0.0002732023813262986,
      "loss": 3.7488,
      "step": 94360
    },
    {
      "epoch": 0.19660416666666666,
      "grad_norm": 0.8565831780433655,
      "learning_rate": 0.0002731967574874606,
      "loss": 3.8708,
      "step": 94370
    },
    {
      "epoch": 0.196625,
      "grad_norm": 0.7425814867019653,
      "learning_rate": 0.00027319113311646126,
      "loss": 3.959,
      "step": 94380
    },
    {
      "epoch": 0.19664583333333333,
      "grad_norm": 0.9900192022323608,
      "learning_rate": 0.00027318550821332506,
      "loss": 4.0643,
      "step": 94390
    },
    {
      "epoch": 0.19666666666666666,
      "grad_norm": 0.832787275314331,
      "learning_rate": 0.00027317988277807614,
      "loss": 3.9747,
      "step": 94400
    },
    {
      "epoch": 0.1966875,
      "grad_norm": 0.9632630944252014,
      "learning_rate": 0.00027317425681073896,
      "loss": 4.1129,
      "step": 94410
    },
    {
      "epoch": 0.19670833333333335,
      "grad_norm": 0.7998073101043701,
      "learning_rate": 0.00027316863031133775,
      "loss": 3.9019,
      "step": 94420
    },
    {
      "epoch": 0.19672916666666668,
      "grad_norm": 0.7998934388160706,
      "learning_rate": 0.0002731630032798968,
      "loss": 4.076,
      "step": 94430
    },
    {
      "epoch": 0.19675,
      "grad_norm": 0.8293442726135254,
      "learning_rate": 0.0002731573757164404,
      "loss": 3.924,
      "step": 94440
    },
    {
      "epoch": 0.19677083333333334,
      "grad_norm": 0.7782034277915955,
      "learning_rate": 0.0002731517476209929,
      "loss": 3.8855,
      "step": 94450
    },
    {
      "epoch": 0.19679166666666667,
      "grad_norm": 0.7438388466835022,
      "learning_rate": 0.00027314611899357854,
      "loss": 3.9089,
      "step": 94460
    },
    {
      "epoch": 0.1968125,
      "grad_norm": 0.768671989440918,
      "learning_rate": 0.0002731404898342218,
      "loss": 3.9499,
      "step": 94470
    },
    {
      "epoch": 0.19683333333333333,
      "grad_norm": 0.7243049740791321,
      "learning_rate": 0.00027313486014294685,
      "loss": 3.9702,
      "step": 94480
    },
    {
      "epoch": 0.19685416666666666,
      "grad_norm": 0.8078787922859192,
      "learning_rate": 0.00027312922991977803,
      "loss": 3.8232,
      "step": 94490
    },
    {
      "epoch": 0.196875,
      "grad_norm": 0.8151666522026062,
      "learning_rate": 0.00027312359916473964,
      "loss": 4.1178,
      "step": 94500
    },
    {
      "epoch": 0.19689583333333333,
      "grad_norm": 0.7245591282844543,
      "learning_rate": 0.00027311796787785606,
      "loss": 3.8415,
      "step": 94510
    },
    {
      "epoch": 0.19691666666666666,
      "grad_norm": 0.7509301900863647,
      "learning_rate": 0.00027311233605915164,
      "loss": 3.7977,
      "step": 94520
    },
    {
      "epoch": 0.1969375,
      "grad_norm": 0.7546054124832153,
      "learning_rate": 0.0002731067037086506,
      "loss": 3.7631,
      "step": 94530
    },
    {
      "epoch": 0.19695833333333335,
      "grad_norm": 0.8203265070915222,
      "learning_rate": 0.00027310107082637736,
      "loss": 3.8932,
      "step": 94540
    },
    {
      "epoch": 0.19697916666666668,
      "grad_norm": 0.6537691354751587,
      "learning_rate": 0.00027309543741235623,
      "loss": 3.957,
      "step": 94550
    },
    {
      "epoch": 0.197,
      "grad_norm": 0.7701115608215332,
      "learning_rate": 0.0002730898034666115,
      "loss": 3.8988,
      "step": 94560
    },
    {
      "epoch": 0.19702083333333334,
      "grad_norm": 0.7552040815353394,
      "learning_rate": 0.00027308416898916754,
      "loss": 3.9089,
      "step": 94570
    },
    {
      "epoch": 0.19704166666666667,
      "grad_norm": 0.8950221538543701,
      "learning_rate": 0.0002730785339800487,
      "loss": 3.8939,
      "step": 94580
    },
    {
      "epoch": 0.1970625,
      "grad_norm": 0.6725966334342957,
      "learning_rate": 0.0002730728984392793,
      "loss": 3.8281,
      "step": 94590
    },
    {
      "epoch": 0.19708333333333333,
      "grad_norm": 0.7390570044517517,
      "learning_rate": 0.00027306726236688375,
      "loss": 3.8458,
      "step": 94600
    },
    {
      "epoch": 0.19710416666666666,
      "grad_norm": 0.9460276365280151,
      "learning_rate": 0.00027306162576288634,
      "loss": 4.0306,
      "step": 94610
    },
    {
      "epoch": 0.197125,
      "grad_norm": 0.7983285784721375,
      "learning_rate": 0.0002730559886273114,
      "loss": 4.0208,
      "step": 94620
    },
    {
      "epoch": 0.19714583333333333,
      "grad_norm": 0.7989623546600342,
      "learning_rate": 0.0002730503509601833,
      "loss": 4.0132,
      "step": 94630
    },
    {
      "epoch": 0.19716666666666666,
      "grad_norm": 0.8446179032325745,
      "learning_rate": 0.0002730447127615263,
      "loss": 3.8906,
      "step": 94640
    },
    {
      "epoch": 0.1971875,
      "grad_norm": 0.7612013220787048,
      "learning_rate": 0.0002730390740313649,
      "loss": 3.9187,
      "step": 94650
    },
    {
      "epoch": 0.19720833333333335,
      "grad_norm": 0.6686002612113953,
      "learning_rate": 0.0002730334347697235,
      "loss": 3.9897,
      "step": 94660
    },
    {
      "epoch": 0.19722916666666668,
      "grad_norm": 0.8132466077804565,
      "learning_rate": 0.0002730277949766262,
      "loss": 3.9706,
      "step": 94670
    },
    {
      "epoch": 0.19725,
      "grad_norm": 0.8219506144523621,
      "learning_rate": 0.00027302215465209765,
      "loss": 3.9559,
      "step": 94680
    },
    {
      "epoch": 0.19727083333333334,
      "grad_norm": 0.8895891308784485,
      "learning_rate": 0.00027301651379616203,
      "loss": 4.0325,
      "step": 94690
    },
    {
      "epoch": 0.19729166666666667,
      "grad_norm": 0.7913607358932495,
      "learning_rate": 0.0002730108724088438,
      "loss": 3.904,
      "step": 94700
    },
    {
      "epoch": 0.1973125,
      "grad_norm": 0.9104297757148743,
      "learning_rate": 0.00027300523049016726,
      "loss": 4.0778,
      "step": 94710
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 0.754450798034668,
      "learning_rate": 0.0002729995880401568,
      "loss": 3.9666,
      "step": 94720
    },
    {
      "epoch": 0.19735416666666666,
      "grad_norm": 0.646834671497345,
      "learning_rate": 0.0002729939450588368,
      "loss": 3.836,
      "step": 94730
    },
    {
      "epoch": 0.197375,
      "grad_norm": 0.7612391114234924,
      "learning_rate": 0.00027298830154623167,
      "loss": 3.8928,
      "step": 94740
    },
    {
      "epoch": 0.19739583333333333,
      "grad_norm": 0.8547986745834351,
      "learning_rate": 0.00027298265750236577,
      "loss": 3.9103,
      "step": 94750
    },
    {
      "epoch": 0.19741666666666666,
      "grad_norm": 0.8213331699371338,
      "learning_rate": 0.00027297701292726347,
      "loss": 4.0028,
      "step": 94760
    },
    {
      "epoch": 0.1974375,
      "grad_norm": 0.7758845090866089,
      "learning_rate": 0.00027297136782094915,
      "loss": 3.8489,
      "step": 94770
    },
    {
      "epoch": 0.19745833333333335,
      "grad_norm": 0.7645173668861389,
      "learning_rate": 0.00027296572218344717,
      "loss": 3.8653,
      "step": 94780
    },
    {
      "epoch": 0.19747916666666668,
      "grad_norm": 0.8325846195220947,
      "learning_rate": 0.00027296007601478197,
      "loss": 3.8926,
      "step": 94790
    },
    {
      "epoch": 0.1975,
      "grad_norm": 0.7507449388504028,
      "learning_rate": 0.0002729544293149779,
      "loss": 3.8006,
      "step": 94800
    },
    {
      "epoch": 0.19752083333333334,
      "grad_norm": 0.8223894238471985,
      "learning_rate": 0.00027294878208405937,
      "loss": 4.062,
      "step": 94810
    },
    {
      "epoch": 0.19754166666666667,
      "grad_norm": 0.6670302152633667,
      "learning_rate": 0.0002729431343220507,
      "loss": 3.9239,
      "step": 94820
    },
    {
      "epoch": 0.1975625,
      "grad_norm": 0.7052832841873169,
      "learning_rate": 0.00027293748602897646,
      "loss": 3.8612,
      "step": 94830
    },
    {
      "epoch": 0.19758333333333333,
      "grad_norm": 0.8444905281066895,
      "learning_rate": 0.00027293183720486096,
      "loss": 4.0202,
      "step": 94840
    },
    {
      "epoch": 0.19760416666666666,
      "grad_norm": 0.8753871321678162,
      "learning_rate": 0.0002729261878497285,
      "loss": 3.9907,
      "step": 94850
    },
    {
      "epoch": 0.197625,
      "grad_norm": 0.7703127264976501,
      "learning_rate": 0.0002729205379636036,
      "loss": 3.9846,
      "step": 94860
    },
    {
      "epoch": 0.19764583333333333,
      "grad_norm": 0.710654079914093,
      "learning_rate": 0.0002729148875465106,
      "loss": 3.8334,
      "step": 94870
    },
    {
      "epoch": 0.19766666666666666,
      "grad_norm": 0.792307436466217,
      "learning_rate": 0.00027290923659847394,
      "loss": 4.1345,
      "step": 94880
    },
    {
      "epoch": 0.1976875,
      "grad_norm": 0.8061255812644958,
      "learning_rate": 0.00027290358511951806,
      "loss": 3.9624,
      "step": 94890
    },
    {
      "epoch": 0.19770833333333335,
      "grad_norm": 0.736041247844696,
      "learning_rate": 0.0002728979331096673,
      "loss": 3.932,
      "step": 94900
    },
    {
      "epoch": 0.19772916666666668,
      "grad_norm": 0.7914325594902039,
      "learning_rate": 0.00027289228056894617,
      "loss": 3.9747,
      "step": 94910
    },
    {
      "epoch": 0.19775,
      "grad_norm": 0.7332755327224731,
      "learning_rate": 0.000272886627497379,
      "loss": 3.917,
      "step": 94920
    },
    {
      "epoch": 0.19777083333333334,
      "grad_norm": 0.7542585730552673,
      "learning_rate": 0.00027288097389499024,
      "loss": 4.1028,
      "step": 94930
    },
    {
      "epoch": 0.19779166666666667,
      "grad_norm": 0.750957727432251,
      "learning_rate": 0.00027287531976180433,
      "loss": 3.8554,
      "step": 94940
    },
    {
      "epoch": 0.1978125,
      "grad_norm": 0.8525398969650269,
      "learning_rate": 0.00027286966509784563,
      "loss": 4.1059,
      "step": 94950
    },
    {
      "epoch": 0.19783333333333333,
      "grad_norm": 0.7257283926010132,
      "learning_rate": 0.0002728640099031387,
      "loss": 3.8929,
      "step": 94960
    },
    {
      "epoch": 0.19785416666666666,
      "grad_norm": 0.7192295789718628,
      "learning_rate": 0.00027285835417770784,
      "loss": 3.7907,
      "step": 94970
    },
    {
      "epoch": 0.197875,
      "grad_norm": 0.7817862629890442,
      "learning_rate": 0.0002728526979215775,
      "loss": 4.0013,
      "step": 94980
    },
    {
      "epoch": 0.19789583333333333,
      "grad_norm": 0.7521064281463623,
      "learning_rate": 0.00027284704113477213,
      "loss": 3.9138,
      "step": 94990
    },
    {
      "epoch": 0.19791666666666666,
      "grad_norm": 0.8898777365684509,
      "learning_rate": 0.00027284138381731616,
      "loss": 3.9277,
      "step": 95000
    },
    {
      "epoch": 0.19791666666666666,
      "eval_loss": 4.271115779876709,
      "eval_runtime": 10.2343,
      "eval_samples_per_second": 0.977,
      "eval_steps_per_second": 0.293,
      "step": 95000
    },
    {
      "epoch": 0.1979375,
      "grad_norm": 0.6711692810058594,
      "learning_rate": 0.0002728357259692341,
      "loss": 3.9482,
      "step": 95010
    },
    {
      "epoch": 0.19795833333333332,
      "grad_norm": 0.7672122120857239,
      "learning_rate": 0.00027283006759055024,
      "loss": 3.939,
      "step": 95020
    },
    {
      "epoch": 0.19797916666666668,
      "grad_norm": 0.7526044249534607,
      "learning_rate": 0.00027282440868128913,
      "loss": 3.9021,
      "step": 95030
    },
    {
      "epoch": 0.198,
      "grad_norm": 0.7613542675971985,
      "learning_rate": 0.0002728187492414752,
      "loss": 4.023,
      "step": 95040
    },
    {
      "epoch": 0.19802083333333334,
      "grad_norm": 0.8219260573387146,
      "learning_rate": 0.00027281308927113297,
      "loss": 3.8358,
      "step": 95050
    },
    {
      "epoch": 0.19804166666666667,
      "grad_norm": 0.7035009264945984,
      "learning_rate": 0.0002728074287702867,
      "loss": 4.0996,
      "step": 95060
    },
    {
      "epoch": 0.1980625,
      "grad_norm": 0.7991828918457031,
      "learning_rate": 0.000272801767738961,
      "loss": 3.8931,
      "step": 95070
    },
    {
      "epoch": 0.19808333333333333,
      "grad_norm": 0.8352935910224915,
      "learning_rate": 0.0002727961061771803,
      "loss": 3.913,
      "step": 95080
    },
    {
      "epoch": 0.19810416666666666,
      "grad_norm": 0.6879733800888062,
      "learning_rate": 0.00027279044408496896,
      "loss": 3.7716,
      "step": 95090
    },
    {
      "epoch": 0.198125,
      "grad_norm": 0.7977094054222107,
      "learning_rate": 0.0002727847814623515,
      "loss": 3.9439,
      "step": 95100
    },
    {
      "epoch": 0.19814583333333333,
      "grad_norm": 0.8713047504425049,
      "learning_rate": 0.0002727791183093524,
      "loss": 3.7435,
      "step": 95110
    },
    {
      "epoch": 0.19816666666666666,
      "grad_norm": 0.8096645474433899,
      "learning_rate": 0.00027277345462599616,
      "loss": 4.0533,
      "step": 95120
    },
    {
      "epoch": 0.1981875,
      "grad_norm": 0.7325319051742554,
      "learning_rate": 0.00027276779041230715,
      "loss": 3.9595,
      "step": 95130
    },
    {
      "epoch": 0.19820833333333332,
      "grad_norm": 1.015947937965393,
      "learning_rate": 0.00027276212566830987,
      "loss": 3.9971,
      "step": 95140
    },
    {
      "epoch": 0.19822916666666668,
      "grad_norm": 0.9872867465019226,
      "learning_rate": 0.0002727564603940288,
      "loss": 3.9777,
      "step": 95150
    },
    {
      "epoch": 0.19825,
      "grad_norm": 0.6348692774772644,
      "learning_rate": 0.00027275079458948843,
      "loss": 4.1258,
      "step": 95160
    },
    {
      "epoch": 0.19827083333333334,
      "grad_norm": 0.7497531771659851,
      "learning_rate": 0.00027274512825471324,
      "loss": 4.0081,
      "step": 95170
    },
    {
      "epoch": 0.19829166666666667,
      "grad_norm": 0.7661571502685547,
      "learning_rate": 0.00027273946138972767,
      "loss": 3.8591,
      "step": 95180
    },
    {
      "epoch": 0.1983125,
      "grad_norm": 0.7939054369926453,
      "learning_rate": 0.0002727337939945562,
      "loss": 4.1012,
      "step": 95190
    },
    {
      "epoch": 0.19833333333333333,
      "grad_norm": 0.7353616952896118,
      "learning_rate": 0.0002727281260692233,
      "loss": 3.8836,
      "step": 95200
    },
    {
      "epoch": 0.19835416666666666,
      "grad_norm": 0.7423490881919861,
      "learning_rate": 0.0002727224576137535,
      "loss": 3.9224,
      "step": 95210
    },
    {
      "epoch": 0.198375,
      "grad_norm": 0.7997414469718933,
      "learning_rate": 0.0002727167886281713,
      "loss": 3.9208,
      "step": 95220
    },
    {
      "epoch": 0.19839583333333333,
      "grad_norm": 0.7954651713371277,
      "learning_rate": 0.00027271111911250103,
      "loss": 3.927,
      "step": 95230
    },
    {
      "epoch": 0.19841666666666666,
      "grad_norm": 0.710033118724823,
      "learning_rate": 0.00027270544906676737,
      "loss": 4.0043,
      "step": 95240
    },
    {
      "epoch": 0.1984375,
      "grad_norm": 0.8082271814346313,
      "learning_rate": 0.00027269977849099476,
      "loss": 3.9193,
      "step": 95250
    },
    {
      "epoch": 0.19845833333333332,
      "grad_norm": 0.8078631162643433,
      "learning_rate": 0.0002726941073852077,
      "loss": 3.7871,
      "step": 95260
    },
    {
      "epoch": 0.19847916666666668,
      "grad_norm": 0.7675504684448242,
      "learning_rate": 0.00027268843574943056,
      "loss": 3.993,
      "step": 95270
    },
    {
      "epoch": 0.1985,
      "grad_norm": 0.8192450404167175,
      "learning_rate": 0.00027268276358368804,
      "loss": 3.921,
      "step": 95280
    },
    {
      "epoch": 0.19852083333333334,
      "grad_norm": 0.7936809062957764,
      "learning_rate": 0.00027267709088800446,
      "loss": 3.9812,
      "step": 95290
    },
    {
      "epoch": 0.19854166666666667,
      "grad_norm": 0.8804940581321716,
      "learning_rate": 0.00027267141766240444,
      "loss": 3.8316,
      "step": 95300
    },
    {
      "epoch": 0.1985625,
      "grad_norm": 1.021031379699707,
      "learning_rate": 0.0002726657439069125,
      "loss": 3.9863,
      "step": 95310
    },
    {
      "epoch": 0.19858333333333333,
      "grad_norm": 0.9963385462760925,
      "learning_rate": 0.000272660069621553,
      "loss": 3.9901,
      "step": 95320
    },
    {
      "epoch": 0.19860416666666666,
      "grad_norm": 0.8169689774513245,
      "learning_rate": 0.00027265439480635064,
      "loss": 3.9198,
      "step": 95330
    },
    {
      "epoch": 0.198625,
      "grad_norm": 0.7887220978736877,
      "learning_rate": 0.00027264871946132977,
      "loss": 3.9599,
      "step": 95340
    },
    {
      "epoch": 0.19864583333333333,
      "grad_norm": 0.755453884601593,
      "learning_rate": 0.000272643043586515,
      "loss": 3.893,
      "step": 95350
    },
    {
      "epoch": 0.19866666666666666,
      "grad_norm": 0.8351927399635315,
      "learning_rate": 0.0002726373671819309,
      "loss": 4.0355,
      "step": 95360
    },
    {
      "epoch": 0.1986875,
      "grad_norm": 0.870010495185852,
      "learning_rate": 0.00027263169024760187,
      "loss": 3.9091,
      "step": 95370
    },
    {
      "epoch": 0.19870833333333332,
      "grad_norm": 0.8379443883895874,
      "learning_rate": 0.00027262601278355247,
      "loss": 3.94,
      "step": 95380
    },
    {
      "epoch": 0.19872916666666668,
      "grad_norm": 0.7221532464027405,
      "learning_rate": 0.00027262033478980726,
      "loss": 3.9911,
      "step": 95390
    },
    {
      "epoch": 0.19875,
      "grad_norm": 0.7765875458717346,
      "learning_rate": 0.0002726146562663907,
      "loss": 3.8333,
      "step": 95400
    },
    {
      "epoch": 0.19877083333333334,
      "grad_norm": 0.8983017802238464,
      "learning_rate": 0.0002726089772133274,
      "loss": 3.9037,
      "step": 95410
    },
    {
      "epoch": 0.19879166666666667,
      "grad_norm": 0.6565699577331543,
      "learning_rate": 0.0002726032976306418,
      "loss": 3.8885,
      "step": 95420
    },
    {
      "epoch": 0.1988125,
      "grad_norm": 0.870557963848114,
      "learning_rate": 0.0002725976175183585,
      "loss": 3.9318,
      "step": 95430
    },
    {
      "epoch": 0.19883333333333333,
      "grad_norm": 0.6848026514053345,
      "learning_rate": 0.00027259193687650203,
      "loss": 3.8416,
      "step": 95440
    },
    {
      "epoch": 0.19885416666666667,
      "grad_norm": 0.7527801990509033,
      "learning_rate": 0.0002725862557050969,
      "loss": 4.0907,
      "step": 95450
    },
    {
      "epoch": 0.198875,
      "grad_norm": 0.8276255130767822,
      "learning_rate": 0.00027258057400416773,
      "loss": 3.762,
      "step": 95460
    },
    {
      "epoch": 0.19889583333333333,
      "grad_norm": 0.9026311635971069,
      "learning_rate": 0.000272574891773739,
      "loss": 3.8851,
      "step": 95470
    },
    {
      "epoch": 0.19891666666666666,
      "grad_norm": 0.7340048551559448,
      "learning_rate": 0.0002725692090138352,
      "loss": 3.9971,
      "step": 95480
    },
    {
      "epoch": 0.1989375,
      "grad_norm": 0.8014360070228577,
      "learning_rate": 0.00027256352572448096,
      "loss": 4.0204,
      "step": 95490
    },
    {
      "epoch": 0.19895833333333332,
      "grad_norm": 0.8241854310035706,
      "learning_rate": 0.0002725578419057008,
      "loss": 3.9715,
      "step": 95500
    },
    {
      "epoch": 0.19897916666666668,
      "grad_norm": 0.7955034375190735,
      "learning_rate": 0.00027255215755751924,
      "loss": 3.8963,
      "step": 95510
    },
    {
      "epoch": 0.199,
      "grad_norm": 0.774272620677948,
      "learning_rate": 0.0002725464726799609,
      "loss": 4.0039,
      "step": 95520
    },
    {
      "epoch": 0.19902083333333334,
      "grad_norm": 0.8428143858909607,
      "learning_rate": 0.0002725407872730503,
      "loss": 3.8393,
      "step": 95530
    },
    {
      "epoch": 0.19904166666666667,
      "grad_norm": 0.7368664741516113,
      "learning_rate": 0.000272535101336812,
      "loss": 3.8077,
      "step": 95540
    },
    {
      "epoch": 0.1990625,
      "grad_norm": 0.7432920336723328,
      "learning_rate": 0.00027252941487127056,
      "loss": 4.0228,
      "step": 95550
    },
    {
      "epoch": 0.19908333333333333,
      "grad_norm": 0.720112144947052,
      "learning_rate": 0.0002725237278764506,
      "loss": 4.065,
      "step": 95560
    },
    {
      "epoch": 0.19910416666666667,
      "grad_norm": 0.7293336391448975,
      "learning_rate": 0.0002725180403523766,
      "loss": 3.8378,
      "step": 95570
    },
    {
      "epoch": 0.199125,
      "grad_norm": 0.7541269063949585,
      "learning_rate": 0.00027251235229907314,
      "loss": 3.9803,
      "step": 95580
    },
    {
      "epoch": 0.19914583333333333,
      "grad_norm": 0.7519063353538513,
      "learning_rate": 0.00027250666371656483,
      "loss": 4.0744,
      "step": 95590
    },
    {
      "epoch": 0.19916666666666666,
      "grad_norm": 0.74894779920578,
      "learning_rate": 0.0002725009746048762,
      "loss": 3.7719,
      "step": 95600
    },
    {
      "epoch": 0.1991875,
      "grad_norm": 0.7593650221824646,
      "learning_rate": 0.0002724952849640319,
      "loss": 3.811,
      "step": 95610
    },
    {
      "epoch": 0.19920833333333332,
      "grad_norm": 0.7517598867416382,
      "learning_rate": 0.0002724895947940564,
      "loss": 4.1314,
      "step": 95620
    },
    {
      "epoch": 0.19922916666666668,
      "grad_norm": 0.7260909080505371,
      "learning_rate": 0.00027248390409497435,
      "loss": 3.9499,
      "step": 95630
    },
    {
      "epoch": 0.19925,
      "grad_norm": 0.7088784575462341,
      "learning_rate": 0.0002724782128668103,
      "loss": 4.0847,
      "step": 95640
    },
    {
      "epoch": 0.19927083333333334,
      "grad_norm": 0.8258644938468933,
      "learning_rate": 0.0002724725211095889,
      "loss": 4.0237,
      "step": 95650
    },
    {
      "epoch": 0.19929166666666667,
      "grad_norm": 0.6923059821128845,
      "learning_rate": 0.0002724668288233347,
      "loss": 3.8894,
      "step": 95660
    },
    {
      "epoch": 0.1993125,
      "grad_norm": 0.8046190142631531,
      "learning_rate": 0.0002724611360080722,
      "loss": 3.92,
      "step": 95670
    },
    {
      "epoch": 0.19933333333333333,
      "grad_norm": 0.7987192273139954,
      "learning_rate": 0.0002724554426638261,
      "loss": 4.0126,
      "step": 95680
    },
    {
      "epoch": 0.19935416666666667,
      "grad_norm": 0.6852538585662842,
      "learning_rate": 0.000272449748790621,
      "loss": 3.8898,
      "step": 95690
    },
    {
      "epoch": 0.199375,
      "grad_norm": 0.7531848549842834,
      "learning_rate": 0.0002724440543884814,
      "loss": 3.9476,
      "step": 95700
    },
    {
      "epoch": 0.19939583333333333,
      "grad_norm": 0.8573852181434631,
      "learning_rate": 0.00027243835945743204,
      "loss": 3.9328,
      "step": 95710
    },
    {
      "epoch": 0.19941666666666666,
      "grad_norm": 0.8567180633544922,
      "learning_rate": 0.0002724326639974973,
      "loss": 3.803,
      "step": 95720
    },
    {
      "epoch": 0.1994375,
      "grad_norm": 0.7971590161323547,
      "learning_rate": 0.000272426968008702,
      "loss": 3.9547,
      "step": 95730
    },
    {
      "epoch": 0.19945833333333332,
      "grad_norm": 0.673969030380249,
      "learning_rate": 0.00027242127149107063,
      "loss": 3.8689,
      "step": 95740
    },
    {
      "epoch": 0.19947916666666668,
      "grad_norm": 0.7227053642272949,
      "learning_rate": 0.00027241557444462785,
      "loss": 3.9238,
      "step": 95750
    },
    {
      "epoch": 0.1995,
      "grad_norm": 0.8365728855133057,
      "learning_rate": 0.0002724098768693982,
      "loss": 3.8884,
      "step": 95760
    },
    {
      "epoch": 0.19952083333333334,
      "grad_norm": 0.7833431363105774,
      "learning_rate": 0.00027240417876540636,
      "loss": 4.0479,
      "step": 95770
    },
    {
      "epoch": 0.19954166666666667,
      "grad_norm": 0.7857282757759094,
      "learning_rate": 0.0002723984801326769,
      "loss": 4.031,
      "step": 95780
    },
    {
      "epoch": 0.1995625,
      "grad_norm": 0.7180692553520203,
      "learning_rate": 0.0002723927809712345,
      "loss": 3.7832,
      "step": 95790
    },
    {
      "epoch": 0.19958333333333333,
      "grad_norm": 0.7568239569664001,
      "learning_rate": 0.0002723870812811037,
      "loss": 4.0191,
      "step": 95800
    },
    {
      "epoch": 0.19960416666666667,
      "grad_norm": 1.0466986894607544,
      "learning_rate": 0.00027238138106230913,
      "loss": 4.0187,
      "step": 95810
    },
    {
      "epoch": 0.199625,
      "grad_norm": 0.7847929000854492,
      "learning_rate": 0.0002723756803148755,
      "loss": 3.9603,
      "step": 95820
    },
    {
      "epoch": 0.19964583333333333,
      "grad_norm": 0.6816434860229492,
      "learning_rate": 0.00027236997903882734,
      "loss": 3.8365,
      "step": 95830
    },
    {
      "epoch": 0.19966666666666666,
      "grad_norm": 0.7795352935791016,
      "learning_rate": 0.0002723642772341893,
      "loss": 3.8474,
      "step": 95840
    },
    {
      "epoch": 0.1996875,
      "grad_norm": 0.9082037806510925,
      "learning_rate": 0.000272358574900986,
      "loss": 3.9114,
      "step": 95850
    },
    {
      "epoch": 0.19970833333333332,
      "grad_norm": 0.786378800868988,
      "learning_rate": 0.0002723528720392421,
      "loss": 3.8308,
      "step": 95860
    },
    {
      "epoch": 0.19972916666666668,
      "grad_norm": 0.7490182518959045,
      "learning_rate": 0.00027234716864898224,
      "loss": 4.0144,
      "step": 95870
    },
    {
      "epoch": 0.19975,
      "grad_norm": 0.8036988377571106,
      "learning_rate": 0.000272341464730231,
      "loss": 3.8668,
      "step": 95880
    },
    {
      "epoch": 0.19977083333333334,
      "grad_norm": 0.9833376407623291,
      "learning_rate": 0.00027233576028301316,
      "loss": 3.8897,
      "step": 95890
    },
    {
      "epoch": 0.19979166666666667,
      "grad_norm": 0.8045269846916199,
      "learning_rate": 0.00027233005530735314,
      "loss": 3.8997,
      "step": 95900
    },
    {
      "epoch": 0.1998125,
      "grad_norm": 0.7489220499992371,
      "learning_rate": 0.00027232434980327576,
      "loss": 3.9744,
      "step": 95910
    },
    {
      "epoch": 0.19983333333333334,
      "grad_norm": 0.7048522233963013,
      "learning_rate": 0.0002723186437708056,
      "loss": 3.8358,
      "step": 95920
    },
    {
      "epoch": 0.19985416666666667,
      "grad_norm": 0.779782235622406,
      "learning_rate": 0.0002723129372099673,
      "loss": 3.8097,
      "step": 95930
    },
    {
      "epoch": 0.199875,
      "grad_norm": 1.021405577659607,
      "learning_rate": 0.00027230723012078555,
      "loss": 4.2053,
      "step": 95940
    },
    {
      "epoch": 0.19989583333333333,
      "grad_norm": 0.9189375638961792,
      "learning_rate": 0.000272301522503285,
      "loss": 3.9751,
      "step": 95950
    },
    {
      "epoch": 0.19991666666666666,
      "grad_norm": 0.8550997376441956,
      "learning_rate": 0.0002722958143574902,
      "loss": 3.9191,
      "step": 95960
    },
    {
      "epoch": 0.1999375,
      "grad_norm": 1.0112518072128296,
      "learning_rate": 0.000272290105683426,
      "loss": 3.9383,
      "step": 95970
    },
    {
      "epoch": 0.19995833333333332,
      "grad_norm": 0.9111433625221252,
      "learning_rate": 0.0002722843964811169,
      "loss": 3.868,
      "step": 95980
    },
    {
      "epoch": 0.19997916666666668,
      "grad_norm": 0.9547604918479919,
      "learning_rate": 0.00027227868675058764,
      "loss": 3.9079,
      "step": 95990
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7119100689888,
      "learning_rate": 0.00027227297649186274,
      "loss": 3.8974,
      "step": 96000
    },
    {
      "epoch": 0.2,
      "eval_loss": 4.269207000732422,
      "eval_runtime": 9.6444,
      "eval_samples_per_second": 1.037,
      "eval_steps_per_second": 0.311,
      "step": 96000
    },
    {
      "epoch": 0.20002083333333334,
      "grad_norm": 0.6749746799468994,
      "learning_rate": 0.0002722672657049671,
      "loss": 3.9385,
      "step": 96010
    },
    {
      "epoch": 0.20004166666666667,
      "grad_norm": 0.720657467842102,
      "learning_rate": 0.00027226155438992523,
      "loss": 3.8762,
      "step": 96020
    },
    {
      "epoch": 0.2000625,
      "grad_norm": 0.8139712810516357,
      "learning_rate": 0.00027225584254676185,
      "loss": 3.9956,
      "step": 96030
    },
    {
      "epoch": 0.20008333333333334,
      "grad_norm": 0.7231793403625488,
      "learning_rate": 0.0002722501301755016,
      "loss": 4.0713,
      "step": 96040
    },
    {
      "epoch": 0.20010416666666667,
      "grad_norm": 0.7793995141983032,
      "learning_rate": 0.0002722444172761692,
      "loss": 3.9339,
      "step": 96050
    },
    {
      "epoch": 0.200125,
      "grad_norm": 0.7356772422790527,
      "learning_rate": 0.00027223870384878926,
      "loss": 3.9066,
      "step": 96060
    },
    {
      "epoch": 0.20014583333333333,
      "grad_norm": 0.8260016441345215,
      "learning_rate": 0.0002722329898933865,
      "loss": 3.8784,
      "step": 96070
    },
    {
      "epoch": 0.20016666666666666,
      "grad_norm": 0.8359085321426392,
      "learning_rate": 0.0002722272754099857,
      "loss": 3.9533,
      "step": 96080
    },
    {
      "epoch": 0.2001875,
      "grad_norm": 0.7122097015380859,
      "learning_rate": 0.00027222156039861137,
      "loss": 3.9402,
      "step": 96090
    },
    {
      "epoch": 0.20020833333333332,
      "grad_norm": 0.833626925945282,
      "learning_rate": 0.00027221584485928835,
      "loss": 3.8526,
      "step": 96100
    },
    {
      "epoch": 0.20022916666666668,
      "grad_norm": 0.7518821954727173,
      "learning_rate": 0.0002722101287920412,
      "loss": 3.9381,
      "step": 96110
    },
    {
      "epoch": 0.20025,
      "grad_norm": 0.9906911253929138,
      "learning_rate": 0.00027220441219689463,
      "loss": 3.767,
      "step": 96120
    },
    {
      "epoch": 0.20027083333333334,
      "grad_norm": 0.7922478318214417,
      "learning_rate": 0.00027219869507387343,
      "loss": 3.9935,
      "step": 96130
    },
    {
      "epoch": 0.20029166666666667,
      "grad_norm": 0.8802465200424194,
      "learning_rate": 0.0002721929774230023,
      "loss": 3.999,
      "step": 96140
    },
    {
      "epoch": 0.2003125,
      "grad_norm": 0.753786563873291,
      "learning_rate": 0.0002721872592443057,
      "loss": 4.1773,
      "step": 96150
    },
    {
      "epoch": 0.20033333333333334,
      "grad_norm": 0.8047367334365845,
      "learning_rate": 0.00027218154053780866,
      "loss": 4.2498,
      "step": 96160
    },
    {
      "epoch": 0.20035416666666667,
      "grad_norm": 0.8207294940948486,
      "learning_rate": 0.00027217582130353564,
      "loss": 3.88,
      "step": 96170
    },
    {
      "epoch": 0.200375,
      "grad_norm": 0.8483783006668091,
      "learning_rate": 0.0002721701015415115,
      "loss": 3.913,
      "step": 96180
    },
    {
      "epoch": 0.20039583333333333,
      "grad_norm": 0.7812147736549377,
      "learning_rate": 0.0002721643812517608,
      "loss": 3.9171,
      "step": 96190
    },
    {
      "epoch": 0.20041666666666666,
      "grad_norm": 0.8235172033309937,
      "learning_rate": 0.0002721586604343084,
      "loss": 3.8888,
      "step": 96200
    },
    {
      "epoch": 0.2004375,
      "grad_norm": 0.8635163307189941,
      "learning_rate": 0.00027215293908917893,
      "loss": 3.7856,
      "step": 96210
    },
    {
      "epoch": 0.20045833333333332,
      "grad_norm": 0.7315236330032349,
      "learning_rate": 0.0002721472172163971,
      "loss": 3.9348,
      "step": 96220
    },
    {
      "epoch": 0.20047916666666668,
      "grad_norm": 0.7713849544525146,
      "learning_rate": 0.00027214149481598766,
      "loss": 3.911,
      "step": 96230
    },
    {
      "epoch": 0.2005,
      "grad_norm": 1.029566764831543,
      "learning_rate": 0.00027213577188797526,
      "loss": 3.933,
      "step": 96240
    },
    {
      "epoch": 0.20052083333333334,
      "grad_norm": 0.823090136051178,
      "learning_rate": 0.00027213004843238466,
      "loss": 4.0918,
      "step": 96250
    },
    {
      "epoch": 0.20054166666666667,
      "grad_norm": 0.7355145215988159,
      "learning_rate": 0.0002721243244492407,
      "loss": 3.841,
      "step": 96260
    },
    {
      "epoch": 0.2005625,
      "grad_norm": 0.7411622405052185,
      "learning_rate": 0.0002721185999385679,
      "loss": 3.9687,
      "step": 96270
    },
    {
      "epoch": 0.20058333333333334,
      "grad_norm": 0.770967960357666,
      "learning_rate": 0.00027211287490039115,
      "loss": 3.9921,
      "step": 96280
    },
    {
      "epoch": 0.20060416666666667,
      "grad_norm": 0.9157595634460449,
      "learning_rate": 0.00027210714933473506,
      "loss": 3.8543,
      "step": 96290
    },
    {
      "epoch": 0.200625,
      "grad_norm": 0.6340699791908264,
      "learning_rate": 0.0002721014232416245,
      "loss": 3.8014,
      "step": 96300
    },
    {
      "epoch": 0.20064583333333333,
      "grad_norm": 0.6797040104866028,
      "learning_rate": 0.00027209569662108404,
      "loss": 4.053,
      "step": 96310
    },
    {
      "epoch": 0.20066666666666666,
      "grad_norm": 0.8827582597732544,
      "learning_rate": 0.0002720899694731385,
      "loss": 3.9321,
      "step": 96320
    },
    {
      "epoch": 0.2006875,
      "grad_norm": 0.7410936951637268,
      "learning_rate": 0.00027208424179781264,
      "loss": 3.9641,
      "step": 96330
    },
    {
      "epoch": 0.20070833333333332,
      "grad_norm": 0.8671683669090271,
      "learning_rate": 0.0002720785135951312,
      "loss": 4.1283,
      "step": 96340
    },
    {
      "epoch": 0.20072916666666665,
      "grad_norm": 0.7476646900177002,
      "learning_rate": 0.00027207278486511885,
      "loss": 3.9762,
      "step": 96350
    },
    {
      "epoch": 0.20075,
      "grad_norm": 0.8110746741294861,
      "learning_rate": 0.00027206705560780045,
      "loss": 3.8652,
      "step": 96360
    },
    {
      "epoch": 0.20077083333333334,
      "grad_norm": 0.6852514743804932,
      "learning_rate": 0.0002720613258232007,
      "loss": 3.9914,
      "step": 96370
    },
    {
      "epoch": 0.20079166666666667,
      "grad_norm": 0.7378655076026917,
      "learning_rate": 0.0002720555955113443,
      "loss": 3.6811,
      "step": 96380
    },
    {
      "epoch": 0.2008125,
      "grad_norm": 0.7923538684844971,
      "learning_rate": 0.00027204986467225595,
      "loss": 3.9536,
      "step": 96390
    },
    {
      "epoch": 0.20083333333333334,
      "grad_norm": 0.7589314579963684,
      "learning_rate": 0.0002720441333059606,
      "loss": 3.7608,
      "step": 96400
    },
    {
      "epoch": 0.20085416666666667,
      "grad_norm": 0.7855508923530579,
      "learning_rate": 0.00027203840141248295,
      "loss": 3.9692,
      "step": 96410
    },
    {
      "epoch": 0.200875,
      "grad_norm": 0.8308335542678833,
      "learning_rate": 0.0002720326689918476,
      "loss": 3.7541,
      "step": 96420
    },
    {
      "epoch": 0.20089583333333333,
      "grad_norm": 0.8538427352905273,
      "learning_rate": 0.0002720269360440795,
      "loss": 4.0497,
      "step": 96430
    },
    {
      "epoch": 0.20091666666666666,
      "grad_norm": 0.7276864647865295,
      "learning_rate": 0.00027202120256920333,
      "loss": 4.0087,
      "step": 96440
    },
    {
      "epoch": 0.2009375,
      "grad_norm": 0.8275144100189209,
      "learning_rate": 0.00027201546856724383,
      "loss": 4.0622,
      "step": 96450
    },
    {
      "epoch": 0.20095833333333332,
      "grad_norm": 0.7370452284812927,
      "learning_rate": 0.00027200973403822585,
      "loss": 3.8801,
      "step": 96460
    },
    {
      "epoch": 0.20097916666666665,
      "grad_norm": 0.8280041217803955,
      "learning_rate": 0.00027200399898217405,
      "loss": 3.8309,
      "step": 96470
    },
    {
      "epoch": 0.201,
      "grad_norm": 0.8614276051521301,
      "learning_rate": 0.0002719982633991133,
      "loss": 4.0389,
      "step": 96480
    },
    {
      "epoch": 0.20102083333333334,
      "grad_norm": 0.7267210483551025,
      "learning_rate": 0.00027199252728906835,
      "loss": 3.9185,
      "step": 96490
    },
    {
      "epoch": 0.20104166666666667,
      "grad_norm": 0.7094448804855347,
      "learning_rate": 0.00027198679065206394,
      "loss": 3.9929,
      "step": 96500
    },
    {
      "epoch": 0.2010625,
      "grad_norm": 0.9102069735527039,
      "learning_rate": 0.0002719810534881249,
      "loss": 3.9923,
      "step": 96510
    },
    {
      "epoch": 0.20108333333333334,
      "grad_norm": 0.9140005111694336,
      "learning_rate": 0.000271975315797276,
      "loss": 3.861,
      "step": 96520
    },
    {
      "epoch": 0.20110416666666667,
      "grad_norm": 0.7833912372589111,
      "learning_rate": 0.0002719695775795421,
      "loss": 3.8002,
      "step": 96530
    },
    {
      "epoch": 0.201125,
      "grad_norm": 0.8272594809532166,
      "learning_rate": 0.00027196383883494775,
      "loss": 3.9008,
      "step": 96540
    },
    {
      "epoch": 0.20114583333333333,
      "grad_norm": 0.747657835483551,
      "learning_rate": 0.00027195809956351795,
      "loss": 3.9202,
      "step": 96550
    },
    {
      "epoch": 0.20116666666666666,
      "grad_norm": 0.8718542456626892,
      "learning_rate": 0.00027195235976527747,
      "loss": 3.9105,
      "step": 96560
    },
    {
      "epoch": 0.2011875,
      "grad_norm": 1.0046499967575073,
      "learning_rate": 0.000271946619440251,
      "loss": 4.0026,
      "step": 96570
    },
    {
      "epoch": 0.20120833333333332,
      "grad_norm": 0.7794237732887268,
      "learning_rate": 0.00027194087858846346,
      "loss": 3.9915,
      "step": 96580
    },
    {
      "epoch": 0.20122916666666665,
      "grad_norm": 0.8747658133506775,
      "learning_rate": 0.0002719351372099396,
      "loss": 3.881,
      "step": 96590
    },
    {
      "epoch": 0.20125,
      "grad_norm": 0.7785527110099792,
      "learning_rate": 0.0002719293953047042,
      "loss": 3.9765,
      "step": 96600
    },
    {
      "epoch": 0.20127083333333334,
      "grad_norm": 0.7424585223197937,
      "learning_rate": 0.0002719236528727821,
      "loss": 4.0881,
      "step": 96610
    },
    {
      "epoch": 0.20129166666666667,
      "grad_norm": 0.6733518838882446,
      "learning_rate": 0.00027191790991419796,
      "loss": 3.9841,
      "step": 96620
    },
    {
      "epoch": 0.2013125,
      "grad_norm": 0.8110787272453308,
      "learning_rate": 0.0002719121664289768,
      "loss": 4.0031,
      "step": 96630
    },
    {
      "epoch": 0.20133333333333334,
      "grad_norm": 0.7581105828285217,
      "learning_rate": 0.00027190642241714335,
      "loss": 3.7786,
      "step": 96640
    },
    {
      "epoch": 0.20135416666666667,
      "grad_norm": 0.6881938576698303,
      "learning_rate": 0.0002719006778787224,
      "loss": 3.8073,
      "step": 96650
    },
    {
      "epoch": 0.201375,
      "grad_norm": 0.8405342102050781,
      "learning_rate": 0.00027189493281373875,
      "loss": 4.0126,
      "step": 96660
    },
    {
      "epoch": 0.20139583333333333,
      "grad_norm": 0.7996871471405029,
      "learning_rate": 0.00027188918722221726,
      "loss": 4.0282,
      "step": 96670
    },
    {
      "epoch": 0.20141666666666666,
      "grad_norm": 0.7815754413604736,
      "learning_rate": 0.0002718834411041827,
      "loss": 3.8003,
      "step": 96680
    },
    {
      "epoch": 0.2014375,
      "grad_norm": 0.6517860889434814,
      "learning_rate": 0.00027187769445966,
      "loss": 4.0772,
      "step": 96690
    },
    {
      "epoch": 0.20145833333333332,
      "grad_norm": 0.870891273021698,
      "learning_rate": 0.0002718719472886738,
      "loss": 3.9419,
      "step": 96700
    },
    {
      "epoch": 0.20147916666666665,
      "grad_norm": 0.7152897715568542,
      "learning_rate": 0.000271866199591249,
      "loss": 3.9181,
      "step": 96710
    },
    {
      "epoch": 0.2015,
      "grad_norm": 0.688261866569519,
      "learning_rate": 0.0002718604513674106,
      "loss": 4.1037,
      "step": 96720
    },
    {
      "epoch": 0.20152083333333334,
      "grad_norm": 0.8328794240951538,
      "learning_rate": 0.0002718547026171832,
      "loss": 3.7863,
      "step": 96730
    },
    {
      "epoch": 0.20154166666666667,
      "grad_norm": 0.7212241291999817,
      "learning_rate": 0.00027184895334059173,
      "loss": 3.7936,
      "step": 96740
    },
    {
      "epoch": 0.2015625,
      "grad_norm": 0.8041657209396362,
      "learning_rate": 0.00027184320353766103,
      "loss": 3.9702,
      "step": 96750
    },
    {
      "epoch": 0.20158333333333334,
      "grad_norm": 0.7761883735656738,
      "learning_rate": 0.00027183745320841587,
      "loss": 3.8841,
      "step": 96760
    },
    {
      "epoch": 0.20160416666666667,
      "grad_norm": 0.7630966901779175,
      "learning_rate": 0.0002718317023528812,
      "loss": 3.988,
      "step": 96770
    },
    {
      "epoch": 0.201625,
      "grad_norm": 1.0216387510299683,
      "learning_rate": 0.00027182595097108173,
      "loss": 4.0325,
      "step": 96780
    },
    {
      "epoch": 0.20164583333333333,
      "grad_norm": 0.7563979029655457,
      "learning_rate": 0.00027182019906304245,
      "loss": 4.0333,
      "step": 96790
    },
    {
      "epoch": 0.20166666666666666,
      "grad_norm": 0.7872804403305054,
      "learning_rate": 0.00027181444662878804,
      "loss": 4.1554,
      "step": 96800
    },
    {
      "epoch": 0.2016875,
      "grad_norm": 0.732183039188385,
      "learning_rate": 0.00027180869366834353,
      "loss": 3.8076,
      "step": 96810
    },
    {
      "epoch": 0.20170833333333332,
      "grad_norm": 0.8412035703659058,
      "learning_rate": 0.00027180294018173365,
      "loss": 3.9898,
      "step": 96820
    },
    {
      "epoch": 0.20172916666666665,
      "grad_norm": 0.6848443746566772,
      "learning_rate": 0.0002717971861689833,
      "loss": 3.939,
      "step": 96830
    },
    {
      "epoch": 0.20175,
      "grad_norm": 0.7595687508583069,
      "learning_rate": 0.0002717914316301173,
      "loss": 3.9462,
      "step": 96840
    },
    {
      "epoch": 0.20177083333333334,
      "grad_norm": 0.7698736190795898,
      "learning_rate": 0.0002717856765651605,
      "loss": 3.8503,
      "step": 96850
    },
    {
      "epoch": 0.20179166666666667,
      "grad_norm": 0.7094859480857849,
      "learning_rate": 0.00027177992097413776,
      "loss": 3.8999,
      "step": 96860
    },
    {
      "epoch": 0.2018125,
      "grad_norm": 0.7424104809761047,
      "learning_rate": 0.000271774164857074,
      "loss": 3.9178,
      "step": 96870
    },
    {
      "epoch": 0.20183333333333334,
      "grad_norm": 0.8056774139404297,
      "learning_rate": 0.00027176840821399405,
      "loss": 4.1371,
      "step": 96880
    },
    {
      "epoch": 0.20185416666666667,
      "grad_norm": 0.9054586291313171,
      "learning_rate": 0.00027176265104492277,
      "loss": 3.8927,
      "step": 96890
    },
    {
      "epoch": 0.201875,
      "grad_norm": 0.730076014995575,
      "learning_rate": 0.00027175689334988507,
      "loss": 3.9444,
      "step": 96900
    },
    {
      "epoch": 0.20189583333333333,
      "grad_norm": 0.7134878635406494,
      "learning_rate": 0.00027175113512890577,
      "loss": 3.8593,
      "step": 96910
    },
    {
      "epoch": 0.20191666666666666,
      "grad_norm": 0.8196001648902893,
      "learning_rate": 0.0002717453763820097,
      "loss": 3.8333,
      "step": 96920
    },
    {
      "epoch": 0.2019375,
      "grad_norm": 0.7250441312789917,
      "learning_rate": 0.00027173961710922186,
      "loss": 3.9355,
      "step": 96930
    },
    {
      "epoch": 0.20195833333333332,
      "grad_norm": 0.7996559143066406,
      "learning_rate": 0.00027173385731056707,
      "loss": 3.8722,
      "step": 96940
    },
    {
      "epoch": 0.20197916666666665,
      "grad_norm": 0.8824446797370911,
      "learning_rate": 0.0002717280969860701,
      "loss": 3.962,
      "step": 96950
    },
    {
      "epoch": 0.202,
      "grad_norm": 0.7890738844871521,
      "learning_rate": 0.00027172233613575607,
      "loss": 4.0854,
      "step": 96960
    },
    {
      "epoch": 0.20202083333333334,
      "grad_norm": 0.7400267720222473,
      "learning_rate": 0.0002717165747596496,
      "loss": 3.7425,
      "step": 96970
    },
    {
      "epoch": 0.20204166666666667,
      "grad_norm": 0.6946665048599243,
      "learning_rate": 0.0002717108128577758,
      "loss": 3.8352,
      "step": 96980
    },
    {
      "epoch": 0.2020625,
      "grad_norm": 0.7933791279792786,
      "learning_rate": 0.00027170505043015947,
      "loss": 3.8984,
      "step": 96990
    },
    {
      "epoch": 0.20208333333333334,
      "grad_norm": 0.9109715819358826,
      "learning_rate": 0.0002716992874768254,
      "loss": 3.8104,
      "step": 97000
    },
    {
      "epoch": 0.20208333333333334,
      "eval_loss": 4.2821455001831055,
      "eval_runtime": 10.2029,
      "eval_samples_per_second": 0.98,
      "eval_steps_per_second": 0.294,
      "step": 97000
    },
    {
      "epoch": 0.20210416666666667,
      "grad_norm": 0.7184386849403381,
      "learning_rate": 0.00027169352399779865,
      "loss": 4.0512,
      "step": 97010
    },
    {
      "epoch": 0.202125,
      "grad_norm": 0.7090054154396057,
      "learning_rate": 0.00027168775999310404,
      "loss": 3.9147,
      "step": 97020
    },
    {
      "epoch": 0.20214583333333333,
      "grad_norm": 0.8819112777709961,
      "learning_rate": 0.00027168199546276654,
      "loss": 3.8482,
      "step": 97030
    },
    {
      "epoch": 0.20216666666666666,
      "grad_norm": 0.77251797914505,
      "learning_rate": 0.0002716762304068109,
      "loss": 3.8541,
      "step": 97040
    },
    {
      "epoch": 0.2021875,
      "grad_norm": 0.8518852591514587,
      "learning_rate": 0.0002716704648252621,
      "loss": 3.8788,
      "step": 97050
    },
    {
      "epoch": 0.20220833333333332,
      "grad_norm": 0.8591873645782471,
      "learning_rate": 0.0002716646987181451,
      "loss": 4.0258,
      "step": 97060
    },
    {
      "epoch": 0.20222916666666665,
      "grad_norm": 0.7187579870223999,
      "learning_rate": 0.00027165893208548473,
      "loss": 3.966,
      "step": 97070
    },
    {
      "epoch": 0.20225,
      "grad_norm": 0.8849664926528931,
      "learning_rate": 0.0002716531649273059,
      "loss": 3.8622,
      "step": 97080
    },
    {
      "epoch": 0.20227083333333334,
      "grad_norm": 0.7190258502960205,
      "learning_rate": 0.00027164739724363363,
      "loss": 4.0013,
      "step": 97090
    },
    {
      "epoch": 0.20229166666666668,
      "grad_norm": 0.7888973355293274,
      "learning_rate": 0.0002716416290344927,
      "loss": 3.9044,
      "step": 97100
    },
    {
      "epoch": 0.2023125,
      "grad_norm": 0.7764570713043213,
      "learning_rate": 0.00027163586029990813,
      "loss": 3.9109,
      "step": 97110
    },
    {
      "epoch": 0.20233333333333334,
      "grad_norm": 0.7124319672584534,
      "learning_rate": 0.0002716300910399047,
      "loss": 4.1086,
      "step": 97120
    },
    {
      "epoch": 0.20235416666666667,
      "grad_norm": 0.7800642251968384,
      "learning_rate": 0.0002716243212545075,
      "loss": 3.9384,
      "step": 97130
    },
    {
      "epoch": 0.202375,
      "grad_norm": 0.8160101175308228,
      "learning_rate": 0.00027161855094374137,
      "loss": 3.9939,
      "step": 97140
    },
    {
      "epoch": 0.20239583333333333,
      "grad_norm": 1.286986231803894,
      "learning_rate": 0.00027161278010763123,
      "loss": 3.8122,
      "step": 97150
    },
    {
      "epoch": 0.20241666666666666,
      "grad_norm": 0.7640390992164612,
      "learning_rate": 0.000271607008746202,
      "loss": 4.0387,
      "step": 97160
    },
    {
      "epoch": 0.2024375,
      "grad_norm": 0.8173478245735168,
      "learning_rate": 0.0002716012368594786,
      "loss": 3.8864,
      "step": 97170
    },
    {
      "epoch": 0.20245833333333332,
      "grad_norm": 0.7355332374572754,
      "learning_rate": 0.0002715954644474861,
      "loss": 3.802,
      "step": 97180
    },
    {
      "epoch": 0.20247916666666665,
      "grad_norm": 0.7653236389160156,
      "learning_rate": 0.0002715896915102492,
      "loss": 4.0003,
      "step": 97190
    },
    {
      "epoch": 0.2025,
      "grad_norm": 0.6865783929824829,
      "learning_rate": 0.00027158391804779305,
      "loss": 3.8954,
      "step": 97200
    },
    {
      "epoch": 0.20252083333333334,
      "grad_norm": 0.7461762428283691,
      "learning_rate": 0.0002715781440601424,
      "loss": 4.2432,
      "step": 97210
    },
    {
      "epoch": 0.20254166666666668,
      "grad_norm": 0.7023046612739563,
      "learning_rate": 0.0002715723695473224,
      "loss": 3.8207,
      "step": 97220
    },
    {
      "epoch": 0.2025625,
      "grad_norm": 0.7209023833274841,
      "learning_rate": 0.0002715665945093578,
      "loss": 3.8024,
      "step": 97230
    },
    {
      "epoch": 0.20258333333333334,
      "grad_norm": 0.8072795867919922,
      "learning_rate": 0.0002715608189462737,
      "loss": 3.878,
      "step": 97240
    },
    {
      "epoch": 0.20260416666666667,
      "grad_norm": 0.7748768329620361,
      "learning_rate": 0.00027155504285809493,
      "loss": 3.911,
      "step": 97250
    },
    {
      "epoch": 0.202625,
      "grad_norm": 0.7613902688026428,
      "learning_rate": 0.00027154926624484653,
      "loss": 3.9138,
      "step": 97260
    },
    {
      "epoch": 0.20264583333333333,
      "grad_norm": 0.7492506504058838,
      "learning_rate": 0.0002715434891065534,
      "loss": 3.9109,
      "step": 97270
    },
    {
      "epoch": 0.20266666666666666,
      "grad_norm": 0.8183521032333374,
      "learning_rate": 0.0002715377114432405,
      "loss": 3.9155,
      "step": 97280
    },
    {
      "epoch": 0.2026875,
      "grad_norm": 0.6761447191238403,
      "learning_rate": 0.0002715319332549328,
      "loss": 4.003,
      "step": 97290
    },
    {
      "epoch": 0.20270833333333332,
      "grad_norm": 0.8284725546836853,
      "learning_rate": 0.0002715261545416552,
      "loss": 3.9522,
      "step": 97300
    },
    {
      "epoch": 0.20272916666666665,
      "grad_norm": 0.9588183760643005,
      "learning_rate": 0.0002715203753034328,
      "loss": 3.9287,
      "step": 97310
    },
    {
      "epoch": 0.20275,
      "grad_norm": 0.8293543457984924,
      "learning_rate": 0.0002715145955402904,
      "loss": 3.8949,
      "step": 97320
    },
    {
      "epoch": 0.20277083333333334,
      "grad_norm": 0.7811524868011475,
      "learning_rate": 0.00027150881525225313,
      "loss": 3.8441,
      "step": 97330
    },
    {
      "epoch": 0.20279166666666668,
      "grad_norm": 0.7419423460960388,
      "learning_rate": 0.00027150303443934583,
      "loss": 4.0126,
      "step": 97340
    },
    {
      "epoch": 0.2028125,
      "grad_norm": 0.854369044303894,
      "learning_rate": 0.0002714972531015935,
      "loss": 3.9634,
      "step": 97350
    },
    {
      "epoch": 0.20283333333333334,
      "grad_norm": 0.8469094634056091,
      "learning_rate": 0.0002714914712390212,
      "loss": 3.885,
      "step": 97360
    },
    {
      "epoch": 0.20285416666666667,
      "grad_norm": 0.8944759368896484,
      "learning_rate": 0.00027148568885165374,
      "loss": 4.0116,
      "step": 97370
    },
    {
      "epoch": 0.202875,
      "grad_norm": 0.7014848589897156,
      "learning_rate": 0.00027147990593951626,
      "loss": 3.9866,
      "step": 97380
    },
    {
      "epoch": 0.20289583333333333,
      "grad_norm": 0.8370168805122375,
      "learning_rate": 0.00027147412250263364,
      "loss": 4.0335,
      "step": 97390
    },
    {
      "epoch": 0.20291666666666666,
      "grad_norm": 0.7997311949729919,
      "learning_rate": 0.0002714683385410309,
      "loss": 3.9079,
      "step": 97400
    },
    {
      "epoch": 0.2029375,
      "grad_norm": 0.7653656601905823,
      "learning_rate": 0.000271462554054733,
      "loss": 3.9678,
      "step": 97410
    },
    {
      "epoch": 0.20295833333333332,
      "grad_norm": 0.6855714321136475,
      "learning_rate": 0.000271456769043765,
      "loss": 3.9143,
      "step": 97420
    },
    {
      "epoch": 0.20297916666666665,
      "grad_norm": 0.8820379376411438,
      "learning_rate": 0.0002714509835081518,
      "loss": 4.0403,
      "step": 97430
    },
    {
      "epoch": 0.203,
      "grad_norm": 0.7624015212059021,
      "learning_rate": 0.00027144519744791835,
      "loss": 3.965,
      "step": 97440
    },
    {
      "epoch": 0.20302083333333334,
      "grad_norm": 0.7017776966094971,
      "learning_rate": 0.0002714394108630898,
      "loss": 4.1915,
      "step": 97450
    },
    {
      "epoch": 0.20304166666666668,
      "grad_norm": 0.8316776156425476,
      "learning_rate": 0.000271433623753691,
      "loss": 3.9246,
      "step": 97460
    },
    {
      "epoch": 0.2030625,
      "grad_norm": 0.8129537105560303,
      "learning_rate": 0.00027142783611974714,
      "loss": 3.881,
      "step": 97470
    },
    {
      "epoch": 0.20308333333333334,
      "grad_norm": 0.7926350831985474,
      "learning_rate": 0.000271422047961283,
      "loss": 3.9325,
      "step": 97480
    },
    {
      "epoch": 0.20310416666666667,
      "grad_norm": 0.8074626922607422,
      "learning_rate": 0.0002714162592783237,
      "loss": 3.977,
      "step": 97490
    },
    {
      "epoch": 0.203125,
      "grad_norm": 0.8846316337585449,
      "learning_rate": 0.0002714104700708942,
      "loss": 3.8196,
      "step": 97500
    },
    {
      "epoch": 0.20314583333333333,
      "grad_norm": 0.6884284019470215,
      "learning_rate": 0.00027140468033901954,
      "loss": 3.9149,
      "step": 97510
    },
    {
      "epoch": 0.20316666666666666,
      "grad_norm": 0.7488963603973389,
      "learning_rate": 0.0002713988900827247,
      "loss": 3.8872,
      "step": 97520
    },
    {
      "epoch": 0.2031875,
      "grad_norm": 0.6959220767021179,
      "learning_rate": 0.00027139309930203473,
      "loss": 3.9026,
      "step": 97530
    },
    {
      "epoch": 0.20320833333333332,
      "grad_norm": 0.8341795802116394,
      "learning_rate": 0.00027138730799697465,
      "loss": 4.0791,
      "step": 97540
    },
    {
      "epoch": 0.20322916666666666,
      "grad_norm": 0.8490181565284729,
      "learning_rate": 0.0002713815161675694,
      "loss": 4.0398,
      "step": 97550
    },
    {
      "epoch": 0.20325,
      "grad_norm": 0.6948962807655334,
      "learning_rate": 0.00027137572381384406,
      "loss": 3.8091,
      "step": 97560
    },
    {
      "epoch": 0.20327083333333335,
      "grad_norm": 0.709119439125061,
      "learning_rate": 0.00027136993093582364,
      "loss": 3.7727,
      "step": 97570
    },
    {
      "epoch": 0.20329166666666668,
      "grad_norm": 0.7375856637954712,
      "learning_rate": 0.00027136413753353313,
      "loss": 3.9572,
      "step": 97580
    },
    {
      "epoch": 0.2033125,
      "grad_norm": 0.7648619413375854,
      "learning_rate": 0.00027135834360699764,
      "loss": 3.9925,
      "step": 97590
    },
    {
      "epoch": 0.20333333333333334,
      "grad_norm": 0.7756049036979675,
      "learning_rate": 0.0002713525491562421,
      "loss": 3.93,
      "step": 97600
    },
    {
      "epoch": 0.20335416666666667,
      "grad_norm": 0.8068016767501831,
      "learning_rate": 0.0002713467541812916,
      "loss": 3.9425,
      "step": 97610
    },
    {
      "epoch": 0.203375,
      "grad_norm": 0.72282475233078,
      "learning_rate": 0.0002713409586821711,
      "loss": 3.8222,
      "step": 97620
    },
    {
      "epoch": 0.20339583333333333,
      "grad_norm": 0.7116051912307739,
      "learning_rate": 0.00027133516265890576,
      "loss": 3.9813,
      "step": 97630
    },
    {
      "epoch": 0.20341666666666666,
      "grad_norm": 0.8936026692390442,
      "learning_rate": 0.00027132936611152055,
      "loss": 3.8957,
      "step": 97640
    },
    {
      "epoch": 0.2034375,
      "grad_norm": 0.6795300841331482,
      "learning_rate": 0.0002713235690400405,
      "loss": 3.9239,
      "step": 97650
    },
    {
      "epoch": 0.20345833333333332,
      "grad_norm": 0.869817316532135,
      "learning_rate": 0.0002713177714444906,
      "loss": 4.0339,
      "step": 97660
    },
    {
      "epoch": 0.20347916666666666,
      "grad_norm": 0.6676619648933411,
      "learning_rate": 0.00027131197332489593,
      "loss": 3.8933,
      "step": 97670
    },
    {
      "epoch": 0.2035,
      "grad_norm": 0.7057666182518005,
      "learning_rate": 0.00027130617468128167,
      "loss": 4.0758,
      "step": 97680
    },
    {
      "epoch": 0.20352083333333335,
      "grad_norm": 0.7505435347557068,
      "learning_rate": 0.00027130037551367266,
      "loss": 4.0105,
      "step": 97690
    },
    {
      "epoch": 0.20354166666666668,
      "grad_norm": 0.7956533432006836,
      "learning_rate": 0.0002712945758220941,
      "loss": 3.8544,
      "step": 97700
    },
    {
      "epoch": 0.2035625,
      "grad_norm": 0.7448551058769226,
      "learning_rate": 0.00027128877560657095,
      "loss": 3.8635,
      "step": 97710
    },
    {
      "epoch": 0.20358333333333334,
      "grad_norm": 0.8416665196418762,
      "learning_rate": 0.0002712829748671283,
      "loss": 4.0299,
      "step": 97720
    },
    {
      "epoch": 0.20360416666666667,
      "grad_norm": 0.7655050158500671,
      "learning_rate": 0.00027127717360379117,
      "loss": 4.0655,
      "step": 97730
    },
    {
      "epoch": 0.203625,
      "grad_norm": 0.7575312852859497,
      "learning_rate": 0.0002712713718165847,
      "loss": 3.9177,
      "step": 97740
    },
    {
      "epoch": 0.20364583333333333,
      "grad_norm": 0.7807748317718506,
      "learning_rate": 0.0002712655695055339,
      "loss": 4.0441,
      "step": 97750
    },
    {
      "epoch": 0.20366666666666666,
      "grad_norm": 0.9041343927383423,
      "learning_rate": 0.00027125976667066384,
      "loss": 3.828,
      "step": 97760
    },
    {
      "epoch": 0.2036875,
      "grad_norm": 0.7137126922607422,
      "learning_rate": 0.0002712539633119996,
      "loss": 3.9601,
      "step": 97770
    },
    {
      "epoch": 0.20370833333333332,
      "grad_norm": 0.7491195797920227,
      "learning_rate": 0.0002712481594295662,
      "loss": 3.9191,
      "step": 97780
    },
    {
      "epoch": 0.20372916666666666,
      "grad_norm": 0.7567050457000732,
      "learning_rate": 0.00027124235502338877,
      "loss": 3.855,
      "step": 97790
    },
    {
      "epoch": 0.20375,
      "grad_norm": 0.8469628691673279,
      "learning_rate": 0.00027123655009349235,
      "loss": 3.9065,
      "step": 97800
    },
    {
      "epoch": 0.20377083333333335,
      "grad_norm": 0.8442763686180115,
      "learning_rate": 0.000271230744639902,
      "loss": 4.079,
      "step": 97810
    },
    {
      "epoch": 0.20379166666666668,
      "grad_norm": 0.7627809643745422,
      "learning_rate": 0.00027122493866264287,
      "loss": 4.0253,
      "step": 97820
    },
    {
      "epoch": 0.2038125,
      "grad_norm": 0.9450651407241821,
      "learning_rate": 0.00027121913216173995,
      "loss": 3.9751,
      "step": 97830
    },
    {
      "epoch": 0.20383333333333334,
      "grad_norm": 0.9559528231620789,
      "learning_rate": 0.0002712133251372184,
      "loss": 3.9703,
      "step": 97840
    },
    {
      "epoch": 0.20385416666666667,
      "grad_norm": 0.8710651397705078,
      "learning_rate": 0.00027120751758910323,
      "loss": 3.8856,
      "step": 97850
    },
    {
      "epoch": 0.203875,
      "grad_norm": 0.879367470741272,
      "learning_rate": 0.00027120170951741953,
      "loss": 3.9875,
      "step": 97860
    },
    {
      "epoch": 0.20389583333333333,
      "grad_norm": 0.8639014363288879,
      "learning_rate": 0.0002711959009221925,
      "loss": 3.8365,
      "step": 97870
    },
    {
      "epoch": 0.20391666666666666,
      "grad_norm": 0.8471252918243408,
      "learning_rate": 0.00027119009180344704,
      "loss": 3.9805,
      "step": 97880
    },
    {
      "epoch": 0.2039375,
      "grad_norm": 0.7566556334495544,
      "learning_rate": 0.00027118428216120846,
      "loss": 3.9799,
      "step": 97890
    },
    {
      "epoch": 0.20395833333333332,
      "grad_norm": 0.7058636546134949,
      "learning_rate": 0.0002711784719955017,
      "loss": 3.9915,
      "step": 97900
    },
    {
      "epoch": 0.20397916666666666,
      "grad_norm": 1.159803032875061,
      "learning_rate": 0.00027117266130635194,
      "loss": 3.8601,
      "step": 97910
    },
    {
      "epoch": 0.204,
      "grad_norm": 0.7626458406448364,
      "learning_rate": 0.00027116685009378425,
      "loss": 4.0315,
      "step": 97920
    },
    {
      "epoch": 0.20402083333333335,
      "grad_norm": 0.7354722619056702,
      "learning_rate": 0.00027116103835782366,
      "loss": 4.1317,
      "step": 97930
    },
    {
      "epoch": 0.20404166666666668,
      "grad_norm": 0.8794471025466919,
      "learning_rate": 0.00027115522609849537,
      "loss": 3.9106,
      "step": 97940
    },
    {
      "epoch": 0.2040625,
      "grad_norm": 0.7679542303085327,
      "learning_rate": 0.00027114941331582453,
      "loss": 3.8476,
      "step": 97950
    },
    {
      "epoch": 0.20408333333333334,
      "grad_norm": 0.7416098713874817,
      "learning_rate": 0.0002711436000098361,
      "loss": 3.8681,
      "step": 97960
    },
    {
      "epoch": 0.20410416666666667,
      "grad_norm": 0.8265259861946106,
      "learning_rate": 0.0002711377861805553,
      "loss": 3.7619,
      "step": 97970
    },
    {
      "epoch": 0.204125,
      "grad_norm": 0.7775449752807617,
      "learning_rate": 0.0002711319718280072,
      "loss": 4.1507,
      "step": 97980
    },
    {
      "epoch": 0.20414583333333333,
      "grad_norm": 0.666971743106842,
      "learning_rate": 0.00027112615695221696,
      "loss": 3.8885,
      "step": 97990
    },
    {
      "epoch": 0.20416666666666666,
      "grad_norm": 0.905532956123352,
      "learning_rate": 0.0002711203415532096,
      "loss": 3.9236,
      "step": 98000
    },
    {
      "epoch": 0.20416666666666666,
      "eval_loss": 4.271847724914551,
      "eval_runtime": 11.0625,
      "eval_samples_per_second": 0.904,
      "eval_steps_per_second": 0.271,
      "step": 98000
    },
    {
      "epoch": 0.2041875,
      "grad_norm": 0.7565674781799316,
      "learning_rate": 0.0002711145256310104,
      "loss": 3.8446,
      "step": 98010
    },
    {
      "epoch": 0.20420833333333333,
      "grad_norm": 0.8288971185684204,
      "learning_rate": 0.00027110870918564434,
      "loss": 4.0274,
      "step": 98020
    },
    {
      "epoch": 0.20422916666666666,
      "grad_norm": 0.7351484298706055,
      "learning_rate": 0.0002711028922171366,
      "loss": 3.998,
      "step": 98030
    },
    {
      "epoch": 0.20425,
      "grad_norm": 0.7573543787002563,
      "learning_rate": 0.0002710970747255123,
      "loss": 3.8923,
      "step": 98040
    },
    {
      "epoch": 0.20427083333333335,
      "grad_norm": 0.8019400238990784,
      "learning_rate": 0.0002710912567107965,
      "loss": 4.0546,
      "step": 98050
    },
    {
      "epoch": 0.20429166666666668,
      "grad_norm": 0.9333224892616272,
      "learning_rate": 0.00027108543817301454,
      "loss": 4.0017,
      "step": 98060
    },
    {
      "epoch": 0.2043125,
      "grad_norm": 0.8996326923370361,
      "learning_rate": 0.00027107961911219133,
      "loss": 4.1018,
      "step": 98070
    },
    {
      "epoch": 0.20433333333333334,
      "grad_norm": 0.9545336365699768,
      "learning_rate": 0.0002710737995283521,
      "loss": 3.9738,
      "step": 98080
    },
    {
      "epoch": 0.20435416666666667,
      "grad_norm": 0.7270487546920776,
      "learning_rate": 0.00027106797942152197,
      "loss": 3.9808,
      "step": 98090
    },
    {
      "epoch": 0.204375,
      "grad_norm": 0.7048183679580688,
      "learning_rate": 0.00027106215879172616,
      "loss": 4.1196,
      "step": 98100
    },
    {
      "epoch": 0.20439583333333333,
      "grad_norm": 0.7274428009986877,
      "learning_rate": 0.0002710563376389896,
      "loss": 3.9523,
      "step": 98110
    },
    {
      "epoch": 0.20441666666666666,
      "grad_norm": 0.8528040647506714,
      "learning_rate": 0.00027105051596333776,
      "loss": 4.0584,
      "step": 98120
    },
    {
      "epoch": 0.2044375,
      "grad_norm": 0.8082497715950012,
      "learning_rate": 0.00027104469376479546,
      "loss": 3.9875,
      "step": 98130
    },
    {
      "epoch": 0.20445833333333333,
      "grad_norm": 0.7904685735702515,
      "learning_rate": 0.0002710388710433881,
      "loss": 3.9763,
      "step": 98140
    },
    {
      "epoch": 0.20447916666666666,
      "grad_norm": 0.7936574220657349,
      "learning_rate": 0.0002710330477991407,
      "loss": 3.8748,
      "step": 98150
    },
    {
      "epoch": 0.2045,
      "grad_norm": 0.6941542029380798,
      "learning_rate": 0.0002710272240320784,
      "loss": 3.8785,
      "step": 98160
    },
    {
      "epoch": 0.20452083333333335,
      "grad_norm": 0.7061350345611572,
      "learning_rate": 0.00027102139974222644,
      "loss": 3.7852,
      "step": 98170
    },
    {
      "epoch": 0.20454166666666668,
      "grad_norm": 0.7819772362709045,
      "learning_rate": 0.0002710155749296099,
      "loss": 3.8965,
      "step": 98180
    },
    {
      "epoch": 0.2045625,
      "grad_norm": 0.762638509273529,
      "learning_rate": 0.00027100974959425397,
      "loss": 4.0542,
      "step": 98190
    },
    {
      "epoch": 0.20458333333333334,
      "grad_norm": 0.7688943147659302,
      "learning_rate": 0.00027100392373618387,
      "loss": 3.8433,
      "step": 98200
    },
    {
      "epoch": 0.20460416666666667,
      "grad_norm": 0.9404740929603577,
      "learning_rate": 0.00027099809735542466,
      "loss": 4.0874,
      "step": 98210
    },
    {
      "epoch": 0.204625,
      "grad_norm": 0.8107801079750061,
      "learning_rate": 0.0002709922704520016,
      "loss": 4.0638,
      "step": 98220
    },
    {
      "epoch": 0.20464583333333333,
      "grad_norm": 0.7169693112373352,
      "learning_rate": 0.00027098644302593985,
      "loss": 3.9551,
      "step": 98230
    },
    {
      "epoch": 0.20466666666666666,
      "grad_norm": 0.6465263962745667,
      "learning_rate": 0.00027098061507726455,
      "loss": 3.9921,
      "step": 98240
    },
    {
      "epoch": 0.2046875,
      "grad_norm": 0.7230799794197083,
      "learning_rate": 0.0002709747866060008,
      "loss": 4.0766,
      "step": 98250
    },
    {
      "epoch": 0.20470833333333333,
      "grad_norm": 0.8622190952301025,
      "learning_rate": 0.0002709689576121739,
      "loss": 4.0501,
      "step": 98260
    },
    {
      "epoch": 0.20472916666666666,
      "grad_norm": 0.6923192143440247,
      "learning_rate": 0.00027096312809580907,
      "loss": 3.9327,
      "step": 98270
    },
    {
      "epoch": 0.20475,
      "grad_norm": 0.8704793453216553,
      "learning_rate": 0.0002709572980569313,
      "loss": 3.9259,
      "step": 98280
    },
    {
      "epoch": 0.20477083333333335,
      "grad_norm": 0.8065400719642639,
      "learning_rate": 0.00027095146749556593,
      "loss": 4.0226,
      "step": 98290
    },
    {
      "epoch": 0.20479166666666668,
      "grad_norm": 0.7688430547714233,
      "learning_rate": 0.00027094563641173806,
      "loss": 3.9895,
      "step": 98300
    },
    {
      "epoch": 0.2048125,
      "grad_norm": 0.7918058633804321,
      "learning_rate": 0.00027093980480547296,
      "loss": 3.7162,
      "step": 98310
    },
    {
      "epoch": 0.20483333333333334,
      "grad_norm": 0.9288097620010376,
      "learning_rate": 0.00027093397267679577,
      "loss": 3.9202,
      "step": 98320
    },
    {
      "epoch": 0.20485416666666667,
      "grad_norm": 0.7767307162284851,
      "learning_rate": 0.00027092814002573166,
      "loss": 3.8106,
      "step": 98330
    },
    {
      "epoch": 0.204875,
      "grad_norm": 0.7230889201164246,
      "learning_rate": 0.00027092230685230587,
      "loss": 3.8489,
      "step": 98340
    },
    {
      "epoch": 0.20489583333333333,
      "grad_norm": 0.7469038963317871,
      "learning_rate": 0.0002709164731565436,
      "loss": 3.7774,
      "step": 98350
    },
    {
      "epoch": 0.20491666666666666,
      "grad_norm": 0.8063194155693054,
      "learning_rate": 0.00027091063893846997,
      "loss": 4.0771,
      "step": 98360
    },
    {
      "epoch": 0.2049375,
      "grad_norm": 0.7980257868766785,
      "learning_rate": 0.00027090480419811027,
      "loss": 3.7864,
      "step": 98370
    },
    {
      "epoch": 0.20495833333333333,
      "grad_norm": 0.8418265581130981,
      "learning_rate": 0.00027089896893548967,
      "loss": 3.8685,
      "step": 98380
    },
    {
      "epoch": 0.20497916666666666,
      "grad_norm": 0.8272743821144104,
      "learning_rate": 0.00027089313315063334,
      "loss": 3.8316,
      "step": 98390
    },
    {
      "epoch": 0.205,
      "grad_norm": 0.8037554621696472,
      "learning_rate": 0.0002708872968435666,
      "loss": 3.9302,
      "step": 98400
    },
    {
      "epoch": 0.20502083333333335,
      "grad_norm": 0.7613440155982971,
      "learning_rate": 0.00027088146001431456,
      "loss": 3.8078,
      "step": 98410
    },
    {
      "epoch": 0.20504166666666668,
      "grad_norm": 0.6807852387428284,
      "learning_rate": 0.0002708756226629025,
      "loss": 3.9171,
      "step": 98420
    },
    {
      "epoch": 0.2050625,
      "grad_norm": 0.8898691534996033,
      "learning_rate": 0.0002708697847893555,
      "loss": 3.9192,
      "step": 98430
    },
    {
      "epoch": 0.20508333333333334,
      "grad_norm": 1.0383068323135376,
      "learning_rate": 0.0002708639463936989,
      "loss": 4.13,
      "step": 98440
    },
    {
      "epoch": 0.20510416666666667,
      "grad_norm": 0.7596967220306396,
      "learning_rate": 0.00027085810747595794,
      "loss": 3.9496,
      "step": 98450
    },
    {
      "epoch": 0.205125,
      "grad_norm": 0.8368827700614929,
      "learning_rate": 0.0002708522680361578,
      "loss": 3.8706,
      "step": 98460
    },
    {
      "epoch": 0.20514583333333333,
      "grad_norm": 0.8472090363502502,
      "learning_rate": 0.00027084642807432364,
      "loss": 3.8723,
      "step": 98470
    },
    {
      "epoch": 0.20516666666666666,
      "grad_norm": 0.6975506544113159,
      "learning_rate": 0.0002708405875904808,
      "loss": 4.0444,
      "step": 98480
    },
    {
      "epoch": 0.2051875,
      "grad_norm": 0.7413138747215271,
      "learning_rate": 0.0002708347465846544,
      "loss": 3.8107,
      "step": 98490
    },
    {
      "epoch": 0.20520833333333333,
      "grad_norm": 0.8085603713989258,
      "learning_rate": 0.00027082890505686976,
      "loss": 3.8597,
      "step": 98500
    },
    {
      "epoch": 0.20522916666666666,
      "grad_norm": 0.7990094423294067,
      "learning_rate": 0.00027082306300715213,
      "loss": 3.9583,
      "step": 98510
    },
    {
      "epoch": 0.20525,
      "grad_norm": 0.815497636795044,
      "learning_rate": 0.0002708172204355266,
      "loss": 3.8412,
      "step": 98520
    },
    {
      "epoch": 0.20527083333333335,
      "grad_norm": 0.8414531350135803,
      "learning_rate": 0.0002708113773420185,
      "loss": 3.9133,
      "step": 98530
    },
    {
      "epoch": 0.20529166666666668,
      "grad_norm": 0.7307424545288086,
      "learning_rate": 0.00027080553372665314,
      "loss": 3.934,
      "step": 98540
    },
    {
      "epoch": 0.2053125,
      "grad_norm": 0.7242031097412109,
      "learning_rate": 0.00027079968958945564,
      "loss": 3.9665,
      "step": 98550
    },
    {
      "epoch": 0.20533333333333334,
      "grad_norm": 0.6844214797019958,
      "learning_rate": 0.00027079384493045136,
      "loss": 4.0102,
      "step": 98560
    },
    {
      "epoch": 0.20535416666666667,
      "grad_norm": 0.8357396721839905,
      "learning_rate": 0.0002707879997496654,
      "loss": 3.9911,
      "step": 98570
    },
    {
      "epoch": 0.205375,
      "grad_norm": 0.7856284976005554,
      "learning_rate": 0.00027078215404712316,
      "loss": 4.0185,
      "step": 98580
    },
    {
      "epoch": 0.20539583333333333,
      "grad_norm": 0.7562322616577148,
      "learning_rate": 0.00027077630782284975,
      "loss": 4.0263,
      "step": 98590
    },
    {
      "epoch": 0.20541666666666666,
      "grad_norm": 0.7089793086051941,
      "learning_rate": 0.00027077046107687057,
      "loss": 3.9613,
      "step": 98600
    },
    {
      "epoch": 0.2054375,
      "grad_norm": 0.7472154498100281,
      "learning_rate": 0.00027076461380921076,
      "loss": 3.9225,
      "step": 98610
    },
    {
      "epoch": 0.20545833333333333,
      "grad_norm": 0.7424056529998779,
      "learning_rate": 0.0002707587660198957,
      "loss": 3.9592,
      "step": 98620
    },
    {
      "epoch": 0.20547916666666666,
      "grad_norm": 0.8588979244232178,
      "learning_rate": 0.00027075291770895047,
      "loss": 4.0654,
      "step": 98630
    },
    {
      "epoch": 0.2055,
      "grad_norm": 0.8278164267539978,
      "learning_rate": 0.0002707470688764004,
      "loss": 3.868,
      "step": 98640
    },
    {
      "epoch": 0.20552083333333335,
      "grad_norm": 0.8227831125259399,
      "learning_rate": 0.00027074121952227093,
      "loss": 3.8261,
      "step": 98650
    },
    {
      "epoch": 0.20554166666666668,
      "grad_norm": 0.6942715644836426,
      "learning_rate": 0.00027073536964658713,
      "loss": 3.9182,
      "step": 98660
    },
    {
      "epoch": 0.2055625,
      "grad_norm": 0.7321028113365173,
      "learning_rate": 0.0002707295192493743,
      "loss": 3.8486,
      "step": 98670
    },
    {
      "epoch": 0.20558333333333334,
      "grad_norm": 0.7090244293212891,
      "learning_rate": 0.0002707236683306577,
      "loss": 3.9105,
      "step": 98680
    },
    {
      "epoch": 0.20560416666666667,
      "grad_norm": 0.7848743200302124,
      "learning_rate": 0.0002707178168904627,
      "loss": 3.7812,
      "step": 98690
    },
    {
      "epoch": 0.205625,
      "grad_norm": 0.6596819758415222,
      "learning_rate": 0.00027071196492881445,
      "loss": 3.9523,
      "step": 98700
    },
    {
      "epoch": 0.20564583333333333,
      "grad_norm": 0.7594568133354187,
      "learning_rate": 0.0002707061124457384,
      "loss": 4.0017,
      "step": 98710
    },
    {
      "epoch": 0.20566666666666666,
      "grad_norm": 0.7677954435348511,
      "learning_rate": 0.0002707002594412596,
      "loss": 4.0189,
      "step": 98720
    },
    {
      "epoch": 0.2056875,
      "grad_norm": 0.7099378108978271,
      "learning_rate": 0.00027069440591540354,
      "loss": 3.9764,
      "step": 98730
    },
    {
      "epoch": 0.20570833333333333,
      "grad_norm": 0.7382763028144836,
      "learning_rate": 0.0002706885518681954,
      "loss": 4.0356,
      "step": 98740
    },
    {
      "epoch": 0.20572916666666666,
      "grad_norm": 0.7353635430335999,
      "learning_rate": 0.00027068269729966046,
      "loss": 3.9533,
      "step": 98750
    },
    {
      "epoch": 0.20575,
      "grad_norm": 0.8146982192993164,
      "learning_rate": 0.00027067684220982404,
      "loss": 3.8992,
      "step": 98760
    },
    {
      "epoch": 0.20577083333333332,
      "grad_norm": 0.70722496509552,
      "learning_rate": 0.00027067098659871146,
      "loss": 3.9481,
      "step": 98770
    },
    {
      "epoch": 0.20579166666666668,
      "grad_norm": 0.7846710085868835,
      "learning_rate": 0.00027066513046634797,
      "loss": 3.9041,
      "step": 98780
    },
    {
      "epoch": 0.2058125,
      "grad_norm": 0.772275984287262,
      "learning_rate": 0.0002706592738127589,
      "loss": 3.8238,
      "step": 98790
    },
    {
      "epoch": 0.20583333333333334,
      "grad_norm": 0.7178471088409424,
      "learning_rate": 0.0002706534166379695,
      "loss": 4.0251,
      "step": 98800
    },
    {
      "epoch": 0.20585416666666667,
      "grad_norm": 0.6998826861381531,
      "learning_rate": 0.0002706475589420051,
      "loss": 4.0017,
      "step": 98810
    },
    {
      "epoch": 0.205875,
      "grad_norm": 0.7184035778045654,
      "learning_rate": 0.000270641700724891,
      "loss": 3.8719,
      "step": 98820
    },
    {
      "epoch": 0.20589583333333333,
      "grad_norm": 0.7043710350990295,
      "learning_rate": 0.0002706358419866525,
      "loss": 3.9978,
      "step": 98830
    },
    {
      "epoch": 0.20591666666666666,
      "grad_norm": 0.7312883734703064,
      "learning_rate": 0.00027062998272731493,
      "loss": 3.8651,
      "step": 98840
    },
    {
      "epoch": 0.2059375,
      "grad_norm": 0.7845483422279358,
      "learning_rate": 0.0002706241229469036,
      "loss": 4.0236,
      "step": 98850
    },
    {
      "epoch": 0.20595833333333333,
      "grad_norm": 0.838993489742279,
      "learning_rate": 0.0002706182626454438,
      "loss": 3.8165,
      "step": 98860
    },
    {
      "epoch": 0.20597916666666666,
      "grad_norm": 0.7243244051933289,
      "learning_rate": 0.0002706124018229608,
      "loss": 4.0019,
      "step": 98870
    },
    {
      "epoch": 0.206,
      "grad_norm": 0.7149066925048828,
      "learning_rate": 0.00027060654047948,
      "loss": 3.9474,
      "step": 98880
    },
    {
      "epoch": 0.20602083333333332,
      "grad_norm": 0.8560032248497009,
      "learning_rate": 0.0002706006786150267,
      "loss": 3.9406,
      "step": 98890
    },
    {
      "epoch": 0.20604166666666668,
      "grad_norm": 0.7061344385147095,
      "learning_rate": 0.0002705948162296262,
      "loss": 3.8974,
      "step": 98900
    },
    {
      "epoch": 0.2060625,
      "grad_norm": 0.7748035192489624,
      "learning_rate": 0.0002705889533233038,
      "loss": 3.9183,
      "step": 98910
    },
    {
      "epoch": 0.20608333333333334,
      "grad_norm": 0.7170754075050354,
      "learning_rate": 0.0002705830898960849,
      "loss": 3.9709,
      "step": 98920
    },
    {
      "epoch": 0.20610416666666667,
      "grad_norm": 0.9497849345207214,
      "learning_rate": 0.0002705772259479947,
      "loss": 3.854,
      "step": 98930
    },
    {
      "epoch": 0.206125,
      "grad_norm": 0.7901989817619324,
      "learning_rate": 0.0002705713614790587,
      "loss": 3.7728,
      "step": 98940
    },
    {
      "epoch": 0.20614583333333333,
      "grad_norm": 0.696816086769104,
      "learning_rate": 0.0002705654964893021,
      "loss": 3.9173,
      "step": 98950
    },
    {
      "epoch": 0.20616666666666666,
      "grad_norm": 0.8627177476882935,
      "learning_rate": 0.0002705596309787503,
      "loss": 4.1863,
      "step": 98960
    },
    {
      "epoch": 0.2061875,
      "grad_norm": 0.720314085483551,
      "learning_rate": 0.00027055376494742857,
      "loss": 3.9828,
      "step": 98970
    },
    {
      "epoch": 0.20620833333333333,
      "grad_norm": 0.9319507479667664,
      "learning_rate": 0.00027054789839536233,
      "loss": 4.0786,
      "step": 98980
    },
    {
      "epoch": 0.20622916666666666,
      "grad_norm": 0.7610898613929749,
      "learning_rate": 0.0002705420313225769,
      "loss": 4.0303,
      "step": 98990
    },
    {
      "epoch": 0.20625,
      "grad_norm": 0.7480223178863525,
      "learning_rate": 0.0002705361637290976,
      "loss": 3.9511,
      "step": 99000
    },
    {
      "epoch": 0.20625,
      "eval_loss": 4.256772518157959,
      "eval_runtime": 10.6841,
      "eval_samples_per_second": 0.936,
      "eval_steps_per_second": 0.281,
      "step": 99000
    },
    {
      "epoch": 0.20627083333333332,
      "grad_norm": 0.7145761251449585,
      "learning_rate": 0.00027053029561494973,
      "loss": 3.8698,
      "step": 99010
    },
    {
      "epoch": 0.20629166666666668,
      "grad_norm": 0.8016746640205383,
      "learning_rate": 0.00027052442698015876,
      "loss": 3.9707,
      "step": 99020
    },
    {
      "epoch": 0.2063125,
      "grad_norm": 0.7398425340652466,
      "learning_rate": 0.00027051855782474996,
      "loss": 3.7976,
      "step": 99030
    },
    {
      "epoch": 0.20633333333333334,
      "grad_norm": 0.8325860500335693,
      "learning_rate": 0.0002705126881487487,
      "loss": 3.8547,
      "step": 99040
    },
    {
      "epoch": 0.20635416666666667,
      "grad_norm": 0.7015655636787415,
      "learning_rate": 0.0002705068179521803,
      "loss": 3.9988,
      "step": 99050
    },
    {
      "epoch": 0.206375,
      "grad_norm": 0.7375438213348389,
      "learning_rate": 0.00027050094723507013,
      "loss": 3.887,
      "step": 99060
    },
    {
      "epoch": 0.20639583333333333,
      "grad_norm": 0.7197336554527283,
      "learning_rate": 0.0002704950759974436,
      "loss": 4.0264,
      "step": 99070
    },
    {
      "epoch": 0.20641666666666666,
      "grad_norm": 0.6974433064460754,
      "learning_rate": 0.00027048920423932603,
      "loss": 3.7938,
      "step": 99080
    },
    {
      "epoch": 0.2064375,
      "grad_norm": 0.727984607219696,
      "learning_rate": 0.0002704833319607428,
      "loss": 3.9127,
      "step": 99090
    },
    {
      "epoch": 0.20645833333333333,
      "grad_norm": 0.6545091867446899,
      "learning_rate": 0.00027047745916171926,
      "loss": 3.9321,
      "step": 99100
    },
    {
      "epoch": 0.20647916666666666,
      "grad_norm": 0.7326334118843079,
      "learning_rate": 0.00027047158584228077,
      "loss": 3.9295,
      "step": 99110
    },
    {
      "epoch": 0.2065,
      "grad_norm": 0.995898425579071,
      "learning_rate": 0.00027046571200245277,
      "loss": 3.955,
      "step": 99120
    },
    {
      "epoch": 0.20652083333333332,
      "grad_norm": 0.7142347097396851,
      "learning_rate": 0.00027045983764226053,
      "loss": 3.7772,
      "step": 99130
    },
    {
      "epoch": 0.20654166666666668,
      "grad_norm": 0.9536827206611633,
      "learning_rate": 0.0002704539627617295,
      "loss": 4.0604,
      "step": 99140
    },
    {
      "epoch": 0.2065625,
      "grad_norm": 0.9706093072891235,
      "learning_rate": 0.000270448087360885,
      "loss": 3.897,
      "step": 99150
    },
    {
      "epoch": 0.20658333333333334,
      "grad_norm": 0.8020411729812622,
      "learning_rate": 0.0002704422114397524,
      "loss": 3.924,
      "step": 99160
    },
    {
      "epoch": 0.20660416666666667,
      "grad_norm": 0.7228273153305054,
      "learning_rate": 0.0002704363349983572,
      "loss": 3.9452,
      "step": 99170
    },
    {
      "epoch": 0.206625,
      "grad_norm": 0.7467770576477051,
      "learning_rate": 0.00027043045803672465,
      "loss": 3.8599,
      "step": 99180
    },
    {
      "epoch": 0.20664583333333333,
      "grad_norm": 0.6662198901176453,
      "learning_rate": 0.0002704245805548802,
      "loss": 3.9531,
      "step": 99190
    },
    {
      "epoch": 0.20666666666666667,
      "grad_norm": 0.7636839151382446,
      "learning_rate": 0.00027041870255284926,
      "loss": 3.9873,
      "step": 99200
    },
    {
      "epoch": 0.2066875,
      "grad_norm": 0.8352934718132019,
      "learning_rate": 0.00027041282403065717,
      "loss": 3.9992,
      "step": 99210
    },
    {
      "epoch": 0.20670833333333333,
      "grad_norm": 0.9625530242919922,
      "learning_rate": 0.00027040694498832934,
      "loss": 3.9511,
      "step": 99220
    },
    {
      "epoch": 0.20672916666666666,
      "grad_norm": 0.8624677062034607,
      "learning_rate": 0.00027040106542589124,
      "loss": 3.8357,
      "step": 99230
    },
    {
      "epoch": 0.20675,
      "grad_norm": 0.7134447693824768,
      "learning_rate": 0.0002703951853433681,
      "loss": 3.891,
      "step": 99240
    },
    {
      "epoch": 0.20677083333333332,
      "grad_norm": 0.7797545194625854,
      "learning_rate": 0.00027038930474078545,
      "loss": 3.9734,
      "step": 99250
    },
    {
      "epoch": 0.20679166666666668,
      "grad_norm": 0.7862750887870789,
      "learning_rate": 0.00027038342361816866,
      "loss": 4.0491,
      "step": 99260
    },
    {
      "epoch": 0.2068125,
      "grad_norm": 0.7302650213241577,
      "learning_rate": 0.0002703775419755431,
      "loss": 4.1421,
      "step": 99270
    },
    {
      "epoch": 0.20683333333333334,
      "grad_norm": 0.7886211276054382,
      "learning_rate": 0.00027037165981293426,
      "loss": 3.8874,
      "step": 99280
    },
    {
      "epoch": 0.20685416666666667,
      "grad_norm": 0.7321017384529114,
      "learning_rate": 0.00027036577713036744,
      "loss": 4.0311,
      "step": 99290
    },
    {
      "epoch": 0.206875,
      "grad_norm": 0.664029061794281,
      "learning_rate": 0.0002703598939278681,
      "loss": 3.868,
      "step": 99300
    },
    {
      "epoch": 0.20689583333333333,
      "grad_norm": 0.6837591528892517,
      "learning_rate": 0.00027035401020546174,
      "loss": 4.122,
      "step": 99310
    },
    {
      "epoch": 0.20691666666666667,
      "grad_norm": 0.7312952876091003,
      "learning_rate": 0.00027034812596317366,
      "loss": 3.9522,
      "step": 99320
    },
    {
      "epoch": 0.2069375,
      "grad_norm": 0.8689932823181152,
      "learning_rate": 0.0002703422412010293,
      "loss": 4.1706,
      "step": 99330
    },
    {
      "epoch": 0.20695833333333333,
      "grad_norm": 0.7996540665626526,
      "learning_rate": 0.0002703363559190541,
      "loss": 3.8171,
      "step": 99340
    },
    {
      "epoch": 0.20697916666666666,
      "grad_norm": 0.864711344242096,
      "learning_rate": 0.00027033047011727345,
      "loss": 3.9487,
      "step": 99350
    },
    {
      "epoch": 0.207,
      "grad_norm": 0.8300389647483826,
      "learning_rate": 0.0002703245837957128,
      "loss": 4.0347,
      "step": 99360
    },
    {
      "epoch": 0.20702083333333332,
      "grad_norm": 0.7777196168899536,
      "learning_rate": 0.00027031869695439765,
      "loss": 3.8458,
      "step": 99370
    },
    {
      "epoch": 0.20704166666666668,
      "grad_norm": 0.8874353170394897,
      "learning_rate": 0.0002703128095933533,
      "loss": 3.8151,
      "step": 99380
    },
    {
      "epoch": 0.2070625,
      "grad_norm": 0.852321207523346,
      "learning_rate": 0.0002703069217126052,
      "loss": 3.9535,
      "step": 99390
    },
    {
      "epoch": 0.20708333333333334,
      "grad_norm": 0.7844010591506958,
      "learning_rate": 0.0002703010333121789,
      "loss": 3.9026,
      "step": 99400
    },
    {
      "epoch": 0.20710416666666667,
      "grad_norm": 0.78663170337677,
      "learning_rate": 0.0002702951443920996,
      "loss": 3.8403,
      "step": 99410
    },
    {
      "epoch": 0.207125,
      "grad_norm": 0.6776803731918335,
      "learning_rate": 0.000270289254952393,
      "loss": 3.9337,
      "step": 99420
    },
    {
      "epoch": 0.20714583333333333,
      "grad_norm": 0.7785733938217163,
      "learning_rate": 0.0002702833649930845,
      "loss": 3.9292,
      "step": 99430
    },
    {
      "epoch": 0.20716666666666667,
      "grad_norm": 0.7961976528167725,
      "learning_rate": 0.0002702774745141994,
      "loss": 3.6678,
      "step": 99440
    },
    {
      "epoch": 0.2071875,
      "grad_norm": 0.7589039206504822,
      "learning_rate": 0.00027027158351576326,
      "loss": 3.9324,
      "step": 99450
    },
    {
      "epoch": 0.20720833333333333,
      "grad_norm": 0.7436046004295349,
      "learning_rate": 0.0002702656919978014,
      "loss": 4.034,
      "step": 99460
    },
    {
      "epoch": 0.20722916666666666,
      "grad_norm": 0.7713046669960022,
      "learning_rate": 0.0002702597999603394,
      "loss": 3.9752,
      "step": 99470
    },
    {
      "epoch": 0.20725,
      "grad_norm": 0.7547160983085632,
      "learning_rate": 0.0002702539074034027,
      "loss": 3.8981,
      "step": 99480
    },
    {
      "epoch": 0.20727083333333332,
      "grad_norm": 0.6990825533866882,
      "learning_rate": 0.0002702480143270167,
      "loss": 3.8734,
      "step": 99490
    },
    {
      "epoch": 0.20729166666666668,
      "grad_norm": 1.0489686727523804,
      "learning_rate": 0.00027024212073120684,
      "loss": 3.8486,
      "step": 99500
    },
    {
      "epoch": 0.2073125,
      "grad_norm": 0.8936699032783508,
      "learning_rate": 0.0002702362266159987,
      "loss": 3.9086,
      "step": 99510
    },
    {
      "epoch": 0.20733333333333334,
      "grad_norm": 0.7443354725837708,
      "learning_rate": 0.00027023033198141756,
      "loss": 3.8542,
      "step": 99520
    },
    {
      "epoch": 0.20735416666666667,
      "grad_norm": 0.7970522046089172,
      "learning_rate": 0.000270224436827489,
      "loss": 4.0252,
      "step": 99530
    },
    {
      "epoch": 0.207375,
      "grad_norm": 0.7859051823616028,
      "learning_rate": 0.0002702185411542385,
      "loss": 3.8541,
      "step": 99540
    },
    {
      "epoch": 0.20739583333333333,
      "grad_norm": 0.7349193692207336,
      "learning_rate": 0.00027021264496169146,
      "loss": 3.8772,
      "step": 99550
    },
    {
      "epoch": 0.20741666666666667,
      "grad_norm": 0.8676632642745972,
      "learning_rate": 0.00027020674824987335,
      "loss": 4.0154,
      "step": 99560
    },
    {
      "epoch": 0.2074375,
      "grad_norm": 0.7305377125740051,
      "learning_rate": 0.00027020085101880974,
      "loss": 3.6887,
      "step": 99570
    },
    {
      "epoch": 0.20745833333333333,
      "grad_norm": 0.8315433859825134,
      "learning_rate": 0.000270194953268526,
      "loss": 3.9902,
      "step": 99580
    },
    {
      "epoch": 0.20747916666666666,
      "grad_norm": 0.7022918462753296,
      "learning_rate": 0.00027018905499904763,
      "loss": 3.8534,
      "step": 99590
    },
    {
      "epoch": 0.2075,
      "grad_norm": 0.8246311545372009,
      "learning_rate": 0.0002701831562104001,
      "loss": 3.8297,
      "step": 99600
    },
    {
      "epoch": 0.20752083333333332,
      "grad_norm": 0.6984212398529053,
      "learning_rate": 0.0002701772569026089,
      "loss": 3.8181,
      "step": 99610
    },
    {
      "epoch": 0.20754166666666668,
      "grad_norm": 1.0341120958328247,
      "learning_rate": 0.00027017135707569956,
      "loss": 4.0088,
      "step": 99620
    },
    {
      "epoch": 0.2075625,
      "grad_norm": 0.6557123064994812,
      "learning_rate": 0.0002701654567296975,
      "loss": 3.9247,
      "step": 99630
    },
    {
      "epoch": 0.20758333333333334,
      "grad_norm": 0.7157204151153564,
      "learning_rate": 0.00027015955586462827,
      "loss": 4.0549,
      "step": 99640
    },
    {
      "epoch": 0.20760416666666667,
      "grad_norm": 0.8681158423423767,
      "learning_rate": 0.0002701536544805173,
      "loss": 3.9496,
      "step": 99650
    },
    {
      "epoch": 0.207625,
      "grad_norm": 0.7297716736793518,
      "learning_rate": 0.00027014775257739004,
      "loss": 3.7612,
      "step": 99660
    },
    {
      "epoch": 0.20764583333333334,
      "grad_norm": 0.7475490570068359,
      "learning_rate": 0.00027014185015527214,
      "loss": 3.9153,
      "step": 99670
    },
    {
      "epoch": 0.20766666666666667,
      "grad_norm": 0.731817364692688,
      "learning_rate": 0.00027013594721418894,
      "loss": 3.9172,
      "step": 99680
    },
    {
      "epoch": 0.2076875,
      "grad_norm": 0.7607062458992004,
      "learning_rate": 0.000270130043754166,
      "loss": 3.938,
      "step": 99690
    },
    {
      "epoch": 0.20770833333333333,
      "grad_norm": 0.6940791010856628,
      "learning_rate": 0.0002701241397752289,
      "loss": 3.7932,
      "step": 99700
    },
    {
      "epoch": 0.20772916666666666,
      "grad_norm": 0.8961820602416992,
      "learning_rate": 0.00027011823527740294,
      "loss": 3.9808,
      "step": 99710
    },
    {
      "epoch": 0.20775,
      "grad_norm": 0.7839245200157166,
      "learning_rate": 0.0002701123302607139,
      "loss": 3.9306,
      "step": 99720
    },
    {
      "epoch": 0.20777083333333332,
      "grad_norm": 0.7979865670204163,
      "learning_rate": 0.000270106424725187,
      "loss": 3.9324,
      "step": 99730
    },
    {
      "epoch": 0.20779166666666668,
      "grad_norm": 0.915101945400238,
      "learning_rate": 0.0002701005186708479,
      "loss": 3.9982,
      "step": 99740
    },
    {
      "epoch": 0.2078125,
      "grad_norm": 0.6369365453720093,
      "learning_rate": 0.0002700946120977222,
      "loss": 3.9639,
      "step": 99750
    },
    {
      "epoch": 0.20783333333333334,
      "grad_norm": 0.9562554359436035,
      "learning_rate": 0.0002700887050058352,
      "loss": 3.9891,
      "step": 99760
    },
    {
      "epoch": 0.20785416666666667,
      "grad_norm": 0.7328503131866455,
      "learning_rate": 0.0002700827973952126,
      "loss": 3.8668,
      "step": 99770
    },
    {
      "epoch": 0.207875,
      "grad_norm": 0.756215512752533,
      "learning_rate": 0.00027007688926587985,
      "loss": 3.8251,
      "step": 99780
    },
    {
      "epoch": 0.20789583333333334,
      "grad_norm": 0.8910409808158875,
      "learning_rate": 0.00027007098061786243,
      "loss": 3.8036,
      "step": 99790
    },
    {
      "epoch": 0.20791666666666667,
      "grad_norm": 0.7314499020576477,
      "learning_rate": 0.00027006507145118595,
      "loss": 3.8405,
      "step": 99800
    },
    {
      "epoch": 0.2079375,
      "grad_norm": 0.8136187195777893,
      "learning_rate": 0.0002700591617658758,
      "loss": 3.9835,
      "step": 99810
    },
    {
      "epoch": 0.20795833333333333,
      "grad_norm": 0.7605281472206116,
      "learning_rate": 0.0002700532515619577,
      "loss": 3.9367,
      "step": 99820
    },
    {
      "epoch": 0.20797916666666666,
      "grad_norm": 0.7892848253250122,
      "learning_rate": 0.000270047340839457,
      "loss": 3.9309,
      "step": 99830
    },
    {
      "epoch": 0.208,
      "grad_norm": 0.9768999218940735,
      "learning_rate": 0.00027004142959839933,
      "loss": 3.9541,
      "step": 99840
    },
    {
      "epoch": 0.20802083333333332,
      "grad_norm": 0.7073710560798645,
      "learning_rate": 0.0002700355178388102,
      "loss": 4.0636,
      "step": 99850
    },
    {
      "epoch": 0.20804166666666668,
      "grad_norm": 0.8323172926902771,
      "learning_rate": 0.0002700296055607152,
      "loss": 3.9064,
      "step": 99860
    },
    {
      "epoch": 0.2080625,
      "grad_norm": 0.7948471307754517,
      "learning_rate": 0.00027002369276413977,
      "loss": 3.927,
      "step": 99870
    },
    {
      "epoch": 0.20808333333333334,
      "grad_norm": 0.9191707968711853,
      "learning_rate": 0.0002700177794491095,
      "loss": 4.0282,
      "step": 99880
    },
    {
      "epoch": 0.20810416666666667,
      "grad_norm": 0.7243791222572327,
      "learning_rate": 0.00027001186561564987,
      "loss": 3.9953,
      "step": 99890
    },
    {
      "epoch": 0.208125,
      "grad_norm": 0.7418065667152405,
      "learning_rate": 0.0002700059512637865,
      "loss": 3.8674,
      "step": 99900
    },
    {
      "epoch": 0.20814583333333334,
      "grad_norm": 0.8340119123458862,
      "learning_rate": 0.000270000036393545,
      "loss": 4.0167,
      "step": 99910
    },
    {
      "epoch": 0.20816666666666667,
      "grad_norm": 0.7639809250831604,
      "learning_rate": 0.00026999412100495076,
      "loss": 4.0151,
      "step": 99920
    },
    {
      "epoch": 0.2081875,
      "grad_norm": 0.6915614008903503,
      "learning_rate": 0.0002699882050980294,
      "loss": 4.0189,
      "step": 99930
    },
    {
      "epoch": 0.20820833333333333,
      "grad_norm": 0.7375022172927856,
      "learning_rate": 0.00026998228867280657,
      "loss": 3.8826,
      "step": 99940
    },
    {
      "epoch": 0.20822916666666666,
      "grad_norm": 0.7793653011322021,
      "learning_rate": 0.0002699763717293077,
      "loss": 3.9433,
      "step": 99950
    },
    {
      "epoch": 0.20825,
      "grad_norm": 0.7699088454246521,
      "learning_rate": 0.00026997045426755843,
      "loss": 3.9484,
      "step": 99960
    },
    {
      "epoch": 0.20827083333333332,
      "grad_norm": 0.7179043889045715,
      "learning_rate": 0.00026996453628758425,
      "loss": 3.8454,
      "step": 99970
    },
    {
      "epoch": 0.20829166666666668,
      "grad_norm": 0.9166111946105957,
      "learning_rate": 0.00026995861778941077,
      "loss": 3.9953,
      "step": 99980
    },
    {
      "epoch": 0.2083125,
      "grad_norm": 0.7917600274085999,
      "learning_rate": 0.00026995269877306356,
      "loss": 3.9487,
      "step": 99990
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 0.6542020440101624,
      "learning_rate": 0.0002699467792385681,
      "loss": 3.9057,
      "step": 100000
    },
    {
      "epoch": 0.20833333333333334,
      "eval_loss": 4.271517276763916,
      "eval_runtime": 10.24,
      "eval_samples_per_second": 0.977,
      "eval_steps_per_second": 0.293,
      "step": 100000
    },
    {
      "epoch": 0.20835416666666667,
      "grad_norm": 1.0828955173492432,
      "learning_rate": 0.0002699408591859501,
      "loss": 4.0128,
      "step": 100010
    },
    {
      "epoch": 0.208375,
      "grad_norm": 0.7887589931488037,
      "learning_rate": 0.0002699349386152351,
      "loss": 3.9277,
      "step": 100020
    },
    {
      "epoch": 0.20839583333333334,
      "grad_norm": 0.8306854367256165,
      "learning_rate": 0.0002699290175264486,
      "loss": 3.8462,
      "step": 100030
    },
    {
      "epoch": 0.20841666666666667,
      "grad_norm": 0.7744120359420776,
      "learning_rate": 0.0002699230959196162,
      "loss": 3.7912,
      "step": 100040
    },
    {
      "epoch": 0.2084375,
      "grad_norm": 0.8196149468421936,
      "learning_rate": 0.00026991717379476346,
      "loss": 3.9621,
      "step": 100050
    },
    {
      "epoch": 0.20845833333333333,
      "grad_norm": 0.9614679217338562,
      "learning_rate": 0.00026991125115191606,
      "loss": 3.9956,
      "step": 100060
    },
    {
      "epoch": 0.20847916666666666,
      "grad_norm": 0.7675607204437256,
      "learning_rate": 0.00026990532799109953,
      "loss": 3.8525,
      "step": 100070
    },
    {
      "epoch": 0.2085,
      "grad_norm": 0.6666399240493774,
      "learning_rate": 0.00026989940431233934,
      "loss": 3.9395,
      "step": 100080
    },
    {
      "epoch": 0.20852083333333332,
      "grad_norm": 0.7078964710235596,
      "learning_rate": 0.0002698934801156613,
      "loss": 4.0353,
      "step": 100090
    },
    {
      "epoch": 0.20854166666666665,
      "grad_norm": 0.7129538059234619,
      "learning_rate": 0.00026988755540109085,
      "loss": 3.9099,
      "step": 100100
    },
    {
      "epoch": 0.2085625,
      "grad_norm": 0.7828505039215088,
      "learning_rate": 0.00026988163016865356,
      "loss": 3.9194,
      "step": 100110
    },
    {
      "epoch": 0.20858333333333334,
      "grad_norm": 0.7264589071273804,
      "learning_rate": 0.0002698757044183752,
      "loss": 3.7734,
      "step": 100120
    },
    {
      "epoch": 0.20860416666666667,
      "grad_norm": 0.7864357829093933,
      "learning_rate": 0.0002698697781502811,
      "loss": 3.9147,
      "step": 100130
    },
    {
      "epoch": 0.208625,
      "grad_norm": 0.7802590727806091,
      "learning_rate": 0.0002698638513643971,
      "loss": 3.8665,
      "step": 100140
    },
    {
      "epoch": 0.20864583333333334,
      "grad_norm": 0.7286370396614075,
      "learning_rate": 0.0002698579240607487,
      "loss": 3.9713,
      "step": 100150
    },
    {
      "epoch": 0.20866666666666667,
      "grad_norm": 0.7840452194213867,
      "learning_rate": 0.00026985199623936145,
      "loss": 4.0005,
      "step": 100160
    },
    {
      "epoch": 0.2086875,
      "grad_norm": 0.7470037937164307,
      "learning_rate": 0.00026984606790026106,
      "loss": 4.0358,
      "step": 100170
    },
    {
      "epoch": 0.20870833333333333,
      "grad_norm": 0.7604383230209351,
      "learning_rate": 0.0002698401390434731,
      "loss": 3.9874,
      "step": 100180
    },
    {
      "epoch": 0.20872916666666666,
      "grad_norm": 0.9223660230636597,
      "learning_rate": 0.0002698342096690232,
      "loss": 3.9044,
      "step": 100190
    },
    {
      "epoch": 0.20875,
      "grad_norm": 0.7254631519317627,
      "learning_rate": 0.0002698282797769369,
      "loss": 4.0262,
      "step": 100200
    },
    {
      "epoch": 0.20877083333333332,
      "grad_norm": 0.7557848691940308,
      "learning_rate": 0.0002698223493672399,
      "loss": 3.8807,
      "step": 100210
    },
    {
      "epoch": 0.20879166666666665,
      "grad_norm": 0.8035601377487183,
      "learning_rate": 0.00026981641843995774,
      "loss": 3.8338,
      "step": 100220
    },
    {
      "epoch": 0.2088125,
      "grad_norm": 0.690593957901001,
      "learning_rate": 0.0002698104869951161,
      "loss": 3.7943,
      "step": 100230
    },
    {
      "epoch": 0.20883333333333334,
      "grad_norm": 0.7185525894165039,
      "learning_rate": 0.0002698045550327406,
      "loss": 3.7232,
      "step": 100240
    },
    {
      "epoch": 0.20885416666666667,
      "grad_norm": 0.7602024078369141,
      "learning_rate": 0.00026979862255285684,
      "loss": 3.8471,
      "step": 100250
    },
    {
      "epoch": 0.208875,
      "grad_norm": 0.8257759809494019,
      "learning_rate": 0.0002697926895554904,
      "loss": 3.9443,
      "step": 100260
    },
    {
      "epoch": 0.20889583333333334,
      "grad_norm": 0.6884680986404419,
      "learning_rate": 0.00026978675604066697,
      "loss": 3.7723,
      "step": 100270
    },
    {
      "epoch": 0.20891666666666667,
      "grad_norm": 0.7183137536048889,
      "learning_rate": 0.0002697808220084122,
      "loss": 4.1249,
      "step": 100280
    },
    {
      "epoch": 0.2089375,
      "grad_norm": 0.7529290914535522,
      "learning_rate": 0.0002697748874587517,
      "loss": 3.7536,
      "step": 100290
    },
    {
      "epoch": 0.20895833333333333,
      "grad_norm": 0.7425618171691895,
      "learning_rate": 0.00026976895239171105,
      "loss": 3.9431,
      "step": 100300
    },
    {
      "epoch": 0.20897916666666666,
      "grad_norm": 0.8318856954574585,
      "learning_rate": 0.000269763016807316,
      "loss": 4.0213,
      "step": 100310
    },
    {
      "epoch": 0.209,
      "grad_norm": 0.8090575933456421,
      "learning_rate": 0.0002697570807055921,
      "loss": 3.8451,
      "step": 100320
    },
    {
      "epoch": 0.20902083333333332,
      "grad_norm": 0.906082034111023,
      "learning_rate": 0.000269751144086565,
      "loss": 3.9551,
      "step": 100330
    },
    {
      "epoch": 0.20904166666666665,
      "grad_norm": 0.7665221691131592,
      "learning_rate": 0.0002697452069502603,
      "loss": 3.9767,
      "step": 100340
    },
    {
      "epoch": 0.2090625,
      "grad_norm": 0.6740334630012512,
      "learning_rate": 0.00026973926929670377,
      "loss": 3.9988,
      "step": 100350
    },
    {
      "epoch": 0.20908333333333334,
      "grad_norm": 0.7616051435470581,
      "learning_rate": 0.00026973333112592104,
      "loss": 3.8608,
      "step": 100360
    },
    {
      "epoch": 0.20910416666666667,
      "grad_norm": 0.7959082722663879,
      "learning_rate": 0.00026972739243793766,
      "loss": 3.6754,
      "step": 100370
    },
    {
      "epoch": 0.209125,
      "grad_norm": 0.7682712078094482,
      "learning_rate": 0.00026972145323277927,
      "loss": 4.0071,
      "step": 100380
    },
    {
      "epoch": 0.20914583333333334,
      "grad_norm": 0.7272965312004089,
      "learning_rate": 0.0002697155135104717,
      "loss": 3.8289,
      "step": 100390
    },
    {
      "epoch": 0.20916666666666667,
      "grad_norm": 0.7779249548912048,
      "learning_rate": 0.0002697095732710404,
      "loss": 3.8347,
      "step": 100400
    },
    {
      "epoch": 0.2091875,
      "grad_norm": 0.8291679620742798,
      "learning_rate": 0.00026970363251451124,
      "loss": 3.9626,
      "step": 100410
    },
    {
      "epoch": 0.20920833333333333,
      "grad_norm": 0.7357811331748962,
      "learning_rate": 0.00026969769124090973,
      "loss": 3.7216,
      "step": 100420
    },
    {
      "epoch": 0.20922916666666666,
      "grad_norm": 0.734731912612915,
      "learning_rate": 0.0002696917494502615,
      "loss": 3.8712,
      "step": 100430
    },
    {
      "epoch": 0.20925,
      "grad_norm": 0.7748503088951111,
      "learning_rate": 0.0002696858071425924,
      "loss": 3.9399,
      "step": 100440
    },
    {
      "epoch": 0.20927083333333332,
      "grad_norm": 0.7709073424339294,
      "learning_rate": 0.00026967986431792793,
      "loss": 3.9281,
      "step": 100450
    },
    {
      "epoch": 0.20929166666666665,
      "grad_norm": 0.7457091212272644,
      "learning_rate": 0.0002696739209762938,
      "loss": 3.9381,
      "step": 100460
    },
    {
      "epoch": 0.2093125,
      "grad_norm": 0.7326961755752563,
      "learning_rate": 0.00026966797711771575,
      "loss": 3.9665,
      "step": 100470
    },
    {
      "epoch": 0.20933333333333334,
      "grad_norm": 0.7713673710823059,
      "learning_rate": 0.00026966203274221936,
      "loss": 4.0613,
      "step": 100480
    },
    {
      "epoch": 0.20935416666666667,
      "grad_norm": 0.7172417640686035,
      "learning_rate": 0.0002696560878498304,
      "loss": 3.8364,
      "step": 100490
    },
    {
      "epoch": 0.209375,
      "grad_norm": 0.6862996220588684,
      "learning_rate": 0.00026965014244057444,
      "loss": 3.9679,
      "step": 100500
    },
    {
      "epoch": 0.20939583333333334,
      "grad_norm": 0.7821856737136841,
      "learning_rate": 0.00026964419651447725,
      "loss": 3.9259,
      "step": 100510
    },
    {
      "epoch": 0.20941666666666667,
      "grad_norm": 0.6646330952644348,
      "learning_rate": 0.0002696382500715645,
      "loss": 3.897,
      "step": 100520
    },
    {
      "epoch": 0.2094375,
      "grad_norm": 0.906822144985199,
      "learning_rate": 0.0002696323031118619,
      "loss": 3.8748,
      "step": 100530
    },
    {
      "epoch": 0.20945833333333333,
      "grad_norm": 1.0426373481750488,
      "learning_rate": 0.00026962635563539507,
      "loss": 3.9749,
      "step": 100540
    },
    {
      "epoch": 0.20947916666666666,
      "grad_norm": 0.754717230796814,
      "learning_rate": 0.00026962040764218974,
      "loss": 3.79,
      "step": 100550
    },
    {
      "epoch": 0.2095,
      "grad_norm": 0.6997254490852356,
      "learning_rate": 0.00026961445913227164,
      "loss": 4.051,
      "step": 100560
    },
    {
      "epoch": 0.20952083333333332,
      "grad_norm": 0.8067952394485474,
      "learning_rate": 0.0002696085101056664,
      "loss": 3.9121,
      "step": 100570
    },
    {
      "epoch": 0.20954166666666665,
      "grad_norm": 0.7852560877799988,
      "learning_rate": 0.00026960256056239964,
      "loss": 3.8683,
      "step": 100580
    },
    {
      "epoch": 0.2095625,
      "grad_norm": 0.8277136087417603,
      "learning_rate": 0.0002695966105024973,
      "loss": 4.0107,
      "step": 100590
    },
    {
      "epoch": 0.20958333333333334,
      "grad_norm": 0.8291253447532654,
      "learning_rate": 0.00026959065992598484,
      "loss": 4.0464,
      "step": 100600
    },
    {
      "epoch": 0.20960416666666667,
      "grad_norm": 0.7416697144508362,
      "learning_rate": 0.0002695847088328881,
      "loss": 3.8658,
      "step": 100610
    },
    {
      "epoch": 0.209625,
      "grad_norm": 0.7298949360847473,
      "learning_rate": 0.00026957875722323277,
      "loss": 3.9691,
      "step": 100620
    },
    {
      "epoch": 0.20964583333333334,
      "grad_norm": 0.7824665904045105,
      "learning_rate": 0.0002695728050970445,
      "loss": 3.9395,
      "step": 100630
    },
    {
      "epoch": 0.20966666666666667,
      "grad_norm": 0.7905336022377014,
      "learning_rate": 0.00026956685245434913,
      "loss": 3.9125,
      "step": 100640
    },
    {
      "epoch": 0.2096875,
      "grad_norm": 0.7508228421211243,
      "learning_rate": 0.0002695608992951722,
      "loss": 4.1603,
      "step": 100650
    },
    {
      "epoch": 0.20970833333333333,
      "grad_norm": 0.7187749743461609,
      "learning_rate": 0.00026955494561953957,
      "loss": 4.0474,
      "step": 100660
    },
    {
      "epoch": 0.20972916666666666,
      "grad_norm": 0.8792694807052612,
      "learning_rate": 0.00026954899142747683,
      "loss": 3.9919,
      "step": 100670
    },
    {
      "epoch": 0.20975,
      "grad_norm": 0.7819789052009583,
      "learning_rate": 0.00026954303671900985,
      "loss": 3.8618,
      "step": 100680
    },
    {
      "epoch": 0.20977083333333332,
      "grad_norm": 0.9502438902854919,
      "learning_rate": 0.0002695370814941642,
      "loss": 4.0189,
      "step": 100690
    },
    {
      "epoch": 0.20979166666666665,
      "grad_norm": 0.691494882106781,
      "learning_rate": 0.0002695311257529657,
      "loss": 4.2064,
      "step": 100700
    },
    {
      "epoch": 0.2098125,
      "grad_norm": 0.7997622489929199,
      "learning_rate": 0.00026952516949544004,
      "loss": 4.0938,
      "step": 100710
    },
    {
      "epoch": 0.20983333333333334,
      "grad_norm": 0.794265627861023,
      "learning_rate": 0.00026951921272161297,
      "loss": 3.9638,
      "step": 100720
    },
    {
      "epoch": 0.20985416666666667,
      "grad_norm": 0.72667396068573,
      "learning_rate": 0.00026951325543151023,
      "loss": 3.9497,
      "step": 100730
    },
    {
      "epoch": 0.209875,
      "grad_norm": 0.8311936259269714,
      "learning_rate": 0.0002695072976251575,
      "loss": 3.922,
      "step": 100740
    },
    {
      "epoch": 0.20989583333333334,
      "grad_norm": 1.1751930713653564,
      "learning_rate": 0.00026950133930258056,
      "loss": 4.0144,
      "step": 100750
    },
    {
      "epoch": 0.20991666666666667,
      "grad_norm": 0.7665546536445618,
      "learning_rate": 0.0002694953804638052,
      "loss": 3.9702,
      "step": 100760
    },
    {
      "epoch": 0.2099375,
      "grad_norm": 0.7720737457275391,
      "learning_rate": 0.00026948942110885697,
      "loss": 3.886,
      "step": 100770
    },
    {
      "epoch": 0.20995833333333333,
      "grad_norm": 0.8131123781204224,
      "learning_rate": 0.0002694834612377618,
      "loss": 3.7739,
      "step": 100780
    },
    {
      "epoch": 0.20997916666666666,
      "grad_norm": 0.7736006379127502,
      "learning_rate": 0.0002694775008505454,
      "loss": 3.9595,
      "step": 100790
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7683284878730774,
      "learning_rate": 0.0002694715399472335,
      "loss": 3.937,
      "step": 100800
    },
    {
      "epoch": 0.21002083333333332,
      "grad_norm": 0.7940028309822083,
      "learning_rate": 0.00026946557852785175,
      "loss": 3.7637,
      "step": 100810
    },
    {
      "epoch": 0.21004166666666665,
      "grad_norm": 0.7502275705337524,
      "learning_rate": 0.00026945961659242604,
      "loss": 4.0259,
      "step": 100820
    },
    {
      "epoch": 0.2100625,
      "grad_norm": 0.8072684407234192,
      "learning_rate": 0.00026945365414098206,
      "loss": 3.8897,
      "step": 100830
    },
    {
      "epoch": 0.21008333333333334,
      "grad_norm": 0.8077104091644287,
      "learning_rate": 0.0002694476911735456,
      "loss": 4.2664,
      "step": 100840
    },
    {
      "epoch": 0.21010416666666668,
      "grad_norm": 0.7347311973571777,
      "learning_rate": 0.0002694417276901424,
      "loss": 3.9618,
      "step": 100850
    },
    {
      "epoch": 0.210125,
      "grad_norm": 0.7142252326011658,
      "learning_rate": 0.00026943576369079815,
      "loss": 3.7406,
      "step": 100860
    },
    {
      "epoch": 0.21014583333333334,
      "grad_norm": 1.0674288272857666,
      "learning_rate": 0.00026942979917553875,
      "loss": 3.8193,
      "step": 100870
    },
    {
      "epoch": 0.21016666666666667,
      "grad_norm": 1.098987102508545,
      "learning_rate": 0.00026942383414438987,
      "loss": 3.923,
      "step": 100880
    },
    {
      "epoch": 0.2101875,
      "grad_norm": 0.7651236653327942,
      "learning_rate": 0.00026941786859737733,
      "loss": 4.0019,
      "step": 100890
    },
    {
      "epoch": 0.21020833333333333,
      "grad_norm": 0.727094292640686,
      "learning_rate": 0.0002694119025345268,
      "loss": 3.9892,
      "step": 100900
    },
    {
      "epoch": 0.21022916666666666,
      "grad_norm": 0.7321663498878479,
      "learning_rate": 0.00026940593595586415,
      "loss": 3.9087,
      "step": 100910
    },
    {
      "epoch": 0.21025,
      "grad_norm": 0.7765200138092041,
      "learning_rate": 0.0002693999688614151,
      "loss": 3.9409,
      "step": 100920
    },
    {
      "epoch": 0.21027083333333332,
      "grad_norm": 0.8324688673019409,
      "learning_rate": 0.00026939400125120547,
      "loss": 3.9192,
      "step": 100930
    },
    {
      "epoch": 0.21029166666666665,
      "grad_norm": 0.7404791712760925,
      "learning_rate": 0.000269388033125261,
      "loss": 3.8032,
      "step": 100940
    },
    {
      "epoch": 0.2103125,
      "grad_norm": 0.7649177312850952,
      "learning_rate": 0.0002693820644836075,
      "loss": 3.7753,
      "step": 100950
    },
    {
      "epoch": 0.21033333333333334,
      "grad_norm": 0.6972590088844299,
      "learning_rate": 0.00026937609532627074,
      "loss": 3.8639,
      "step": 100960
    },
    {
      "epoch": 0.21035416666666668,
      "grad_norm": 0.8903745412826538,
      "learning_rate": 0.00026937012565327647,
      "loss": 3.8775,
      "step": 100970
    },
    {
      "epoch": 0.210375,
      "grad_norm": 0.7859228849411011,
      "learning_rate": 0.00026936415546465056,
      "loss": 3.8872,
      "step": 100980
    },
    {
      "epoch": 0.21039583333333334,
      "grad_norm": 0.6667293310165405,
      "learning_rate": 0.0002693581847604187,
      "loss": 3.7461,
      "step": 100990
    },
    {
      "epoch": 0.21041666666666667,
      "grad_norm": 0.7079753875732422,
      "learning_rate": 0.00026935221354060674,
      "loss": 3.9731,
      "step": 101000
    },
    {
      "epoch": 0.21041666666666667,
      "eval_loss": 4.2596330642700195,
      "eval_runtime": 9.2584,
      "eval_samples_per_second": 1.08,
      "eval_steps_per_second": 0.324,
      "step": 101000
    },
    {
      "epoch": 0.2104375,
      "grad_norm": 0.7572210431098938,
      "learning_rate": 0.0002693462418052405,
      "loss": 3.8059,
      "step": 101010
    },
    {
      "epoch": 0.21045833333333333,
      "grad_norm": 0.6829994916915894,
      "learning_rate": 0.00026934026955434566,
      "loss": 3.9567,
      "step": 101020
    },
    {
      "epoch": 0.21047916666666666,
      "grad_norm": 0.7596521973609924,
      "learning_rate": 0.00026933429678794815,
      "loss": 3.9586,
      "step": 101030
    },
    {
      "epoch": 0.2105,
      "grad_norm": 0.965099036693573,
      "learning_rate": 0.00026932832350607365,
      "loss": 4.0766,
      "step": 101040
    },
    {
      "epoch": 0.21052083333333332,
      "grad_norm": 0.7780905961990356,
      "learning_rate": 0.0002693223497087481,
      "loss": 4.0123,
      "step": 101050
    },
    {
      "epoch": 0.21054166666666665,
      "grad_norm": 0.7070611715316772,
      "learning_rate": 0.00026931637539599724,
      "loss": 3.868,
      "step": 101060
    },
    {
      "epoch": 0.2105625,
      "grad_norm": 0.7427692413330078,
      "learning_rate": 0.0002693104005678468,
      "loss": 3.8343,
      "step": 101070
    },
    {
      "epoch": 0.21058333333333334,
      "grad_norm": 0.9417982697486877,
      "learning_rate": 0.00026930442522432265,
      "loss": 4.0149,
      "step": 101080
    },
    {
      "epoch": 0.21060416666666668,
      "grad_norm": 0.8123637437820435,
      "learning_rate": 0.0002692984493654507,
      "loss": 3.9279,
      "step": 101090
    },
    {
      "epoch": 0.210625,
      "grad_norm": 0.7978792190551758,
      "learning_rate": 0.0002692924729912566,
      "loss": 3.996,
      "step": 101100
    },
    {
      "epoch": 0.21064583333333334,
      "grad_norm": 0.7046129107475281,
      "learning_rate": 0.0002692864961017662,
      "loss": 3.8943,
      "step": 101110
    },
    {
      "epoch": 0.21066666666666667,
      "grad_norm": 0.9492311477661133,
      "learning_rate": 0.00026928051869700543,
      "loss": 3.9427,
      "step": 101120
    },
    {
      "epoch": 0.2106875,
      "grad_norm": 0.7446462512016296,
      "learning_rate": 0.00026927454077699996,
      "loss": 3.987,
      "step": 101130
    },
    {
      "epoch": 0.21070833333333333,
      "grad_norm": 0.7630727291107178,
      "learning_rate": 0.00026926856234177576,
      "loss": 3.9315,
      "step": 101140
    },
    {
      "epoch": 0.21072916666666666,
      "grad_norm": 0.7730732560157776,
      "learning_rate": 0.00026926258339135854,
      "loss": 3.8829,
      "step": 101150
    },
    {
      "epoch": 0.21075,
      "grad_norm": 0.7772974371910095,
      "learning_rate": 0.0002692566039257742,
      "loss": 3.8147,
      "step": 101160
    },
    {
      "epoch": 0.21077083333333332,
      "grad_norm": 0.8188722133636475,
      "learning_rate": 0.00026925062394504847,
      "loss": 3.833,
      "step": 101170
    },
    {
      "epoch": 0.21079166666666665,
      "grad_norm": 0.7402281165122986,
      "learning_rate": 0.0002692446434492073,
      "loss": 3.8346,
      "step": 101180
    },
    {
      "epoch": 0.2108125,
      "grad_norm": 0.8557885885238647,
      "learning_rate": 0.0002692386624382765,
      "loss": 3.9747,
      "step": 101190
    },
    {
      "epoch": 0.21083333333333334,
      "grad_norm": 0.8117541670799255,
      "learning_rate": 0.0002692326809122818,
      "loss": 3.8675,
      "step": 101200
    },
    {
      "epoch": 0.21085416666666668,
      "grad_norm": 0.7949894070625305,
      "learning_rate": 0.00026922669887124913,
      "loss": 3.8146,
      "step": 101210
    },
    {
      "epoch": 0.210875,
      "grad_norm": 0.7698141932487488,
      "learning_rate": 0.0002692207163152044,
      "loss": 3.9943,
      "step": 101220
    },
    {
      "epoch": 0.21089583333333334,
      "grad_norm": 0.8617931604385376,
      "learning_rate": 0.00026921473324417327,
      "loss": 3.9423,
      "step": 101230
    },
    {
      "epoch": 0.21091666666666667,
      "grad_norm": 0.7801691293716431,
      "learning_rate": 0.0002692087496581817,
      "loss": 3.9933,
      "step": 101240
    },
    {
      "epoch": 0.2109375,
      "grad_norm": 0.7268981337547302,
      "learning_rate": 0.0002692027655572555,
      "loss": 3.9493,
      "step": 101250
    },
    {
      "epoch": 0.21095833333333333,
      "grad_norm": 0.8417555093765259,
      "learning_rate": 0.0002691967809414206,
      "loss": 3.9974,
      "step": 101260
    },
    {
      "epoch": 0.21097916666666666,
      "grad_norm": 0.7841132283210754,
      "learning_rate": 0.00026919079581070275,
      "loss": 4.0388,
      "step": 101270
    },
    {
      "epoch": 0.211,
      "grad_norm": 0.7825107574462891,
      "learning_rate": 0.00026918481016512786,
      "loss": 3.8295,
      "step": 101280
    },
    {
      "epoch": 0.21102083333333332,
      "grad_norm": 0.9452253580093384,
      "learning_rate": 0.00026917882400472173,
      "loss": 4.0078,
      "step": 101290
    },
    {
      "epoch": 0.21104166666666666,
      "grad_norm": 0.773239016532898,
      "learning_rate": 0.00026917283732951034,
      "loss": 3.8739,
      "step": 101300
    },
    {
      "epoch": 0.2110625,
      "grad_norm": 0.7082853317260742,
      "learning_rate": 0.0002691668501395194,
      "loss": 3.8803,
      "step": 101310
    },
    {
      "epoch": 0.21108333333333335,
      "grad_norm": 0.8155280947685242,
      "learning_rate": 0.00026916086243477475,
      "loss": 4.1947,
      "step": 101320
    },
    {
      "epoch": 0.21110416666666668,
      "grad_norm": 0.6907743811607361,
      "learning_rate": 0.0002691548742153025,
      "loss": 3.8008,
      "step": 101330
    },
    {
      "epoch": 0.211125,
      "grad_norm": 0.8461233377456665,
      "learning_rate": 0.00026914888548112823,
      "loss": 4.0174,
      "step": 101340
    },
    {
      "epoch": 0.21114583333333334,
      "grad_norm": 0.9016892910003662,
      "learning_rate": 0.000269142896232278,
      "loss": 4.026,
      "step": 101350
    },
    {
      "epoch": 0.21116666666666667,
      "grad_norm": 0.736811101436615,
      "learning_rate": 0.00026913690646877765,
      "loss": 3.9046,
      "step": 101360
    },
    {
      "epoch": 0.2111875,
      "grad_norm": 0.8122937083244324,
      "learning_rate": 0.000269130916190653,
      "loss": 3.9382,
      "step": 101370
    },
    {
      "epoch": 0.21120833333333333,
      "grad_norm": 0.7200863361358643,
      "learning_rate": 0.00026912492539792987,
      "loss": 3.7608,
      "step": 101380
    },
    {
      "epoch": 0.21122916666666666,
      "grad_norm": 0.6763854026794434,
      "learning_rate": 0.0002691189340906343,
      "loss": 3.9085,
      "step": 101390
    },
    {
      "epoch": 0.21125,
      "grad_norm": 0.6256564855575562,
      "learning_rate": 0.0002691129422687921,
      "loss": 3.8341,
      "step": 101400
    },
    {
      "epoch": 0.21127083333333332,
      "grad_norm": 0.7168192863464355,
      "learning_rate": 0.00026910694993242907,
      "loss": 3.7341,
      "step": 101410
    },
    {
      "epoch": 0.21129166666666666,
      "grad_norm": 0.773725688457489,
      "learning_rate": 0.0002691009570815712,
      "loss": 3.9621,
      "step": 101420
    },
    {
      "epoch": 0.2113125,
      "grad_norm": 0.7964165806770325,
      "learning_rate": 0.00026909496371624433,
      "loss": 3.7952,
      "step": 101430
    },
    {
      "epoch": 0.21133333333333335,
      "grad_norm": 0.7489926815032959,
      "learning_rate": 0.0002690889698364744,
      "loss": 4.0362,
      "step": 101440
    },
    {
      "epoch": 0.21135416666666668,
      "grad_norm": 0.6828926205635071,
      "learning_rate": 0.0002690829754422872,
      "loss": 3.98,
      "step": 101450
    },
    {
      "epoch": 0.211375,
      "grad_norm": 0.7501125335693359,
      "learning_rate": 0.0002690769805337086,
      "loss": 3.8035,
      "step": 101460
    },
    {
      "epoch": 0.21139583333333334,
      "grad_norm": 0.7287818789482117,
      "learning_rate": 0.00026907098511076477,
      "loss": 3.9405,
      "step": 101470
    },
    {
      "epoch": 0.21141666666666667,
      "grad_norm": 0.8872655630111694,
      "learning_rate": 0.0002690649891734813,
      "loss": 3.9516,
      "step": 101480
    },
    {
      "epoch": 0.2114375,
      "grad_norm": 0.8197237849235535,
      "learning_rate": 0.0002690589927218842,
      "loss": 3.8783,
      "step": 101490
    },
    {
      "epoch": 0.21145833333333333,
      "grad_norm": 0.727516233921051,
      "learning_rate": 0.00026905299575599945,
      "loss": 3.7657,
      "step": 101500
    },
    {
      "epoch": 0.21147916666666666,
      "grad_norm": 0.7150389552116394,
      "learning_rate": 0.0002690469982758528,
      "loss": 4.0368,
      "step": 101510
    },
    {
      "epoch": 0.2115,
      "grad_norm": 0.7241448163986206,
      "learning_rate": 0.0002690410002814703,
      "loss": 4.0007,
      "step": 101520
    },
    {
      "epoch": 0.21152083333333332,
      "grad_norm": 0.7516583800315857,
      "learning_rate": 0.0002690350017728778,
      "loss": 3.7458,
      "step": 101530
    },
    {
      "epoch": 0.21154166666666666,
      "grad_norm": 0.6799235939979553,
      "learning_rate": 0.0002690290027501012,
      "loss": 4.0149,
      "step": 101540
    },
    {
      "epoch": 0.2115625,
      "grad_norm": 0.8281518220901489,
      "learning_rate": 0.0002690230032131664,
      "loss": 4.0347,
      "step": 101550
    },
    {
      "epoch": 0.21158333333333335,
      "grad_norm": 0.7532950043678284,
      "learning_rate": 0.00026901700316209936,
      "loss": 4.0255,
      "step": 101560
    },
    {
      "epoch": 0.21160416666666668,
      "grad_norm": 0.87919020652771,
      "learning_rate": 0.0002690110025969259,
      "loss": 3.9045,
      "step": 101570
    },
    {
      "epoch": 0.211625,
      "grad_norm": 0.7727704644203186,
      "learning_rate": 0.00026900500151767217,
      "loss": 3.8065,
      "step": 101580
    },
    {
      "epoch": 0.21164583333333334,
      "grad_norm": 0.7319427728652954,
      "learning_rate": 0.0002689989999243638,
      "loss": 3.9018,
      "step": 101590
    },
    {
      "epoch": 0.21166666666666667,
      "grad_norm": 0.8042263984680176,
      "learning_rate": 0.00026899299781702694,
      "loss": 3.9037,
      "step": 101600
    },
    {
      "epoch": 0.2116875,
      "grad_norm": 0.785496711730957,
      "learning_rate": 0.0002689869951956874,
      "loss": 3.9505,
      "step": 101610
    },
    {
      "epoch": 0.21170833333333333,
      "grad_norm": 0.7060412764549255,
      "learning_rate": 0.0002689809920603711,
      "loss": 3.8536,
      "step": 101620
    },
    {
      "epoch": 0.21172916666666666,
      "grad_norm": 0.8036321997642517,
      "learning_rate": 0.00026897498841110405,
      "loss": 3.8078,
      "step": 101630
    },
    {
      "epoch": 0.21175,
      "grad_norm": 0.7490014433860779,
      "learning_rate": 0.00026896898424791214,
      "loss": 3.8779,
      "step": 101640
    },
    {
      "epoch": 0.21177083333333332,
      "grad_norm": 0.7449133992195129,
      "learning_rate": 0.00026896297957082135,
      "loss": 4.0354,
      "step": 101650
    },
    {
      "epoch": 0.21179166666666666,
      "grad_norm": 0.7575647830963135,
      "learning_rate": 0.0002689569743798575,
      "loss": 3.8706,
      "step": 101660
    },
    {
      "epoch": 0.2118125,
      "grad_norm": 0.6808041334152222,
      "learning_rate": 0.00026895096867504665,
      "loss": 3.776,
      "step": 101670
    },
    {
      "epoch": 0.21183333333333335,
      "grad_norm": 0.705390214920044,
      "learning_rate": 0.0002689449624564147,
      "loss": 3.8117,
      "step": 101680
    },
    {
      "epoch": 0.21185416666666668,
      "grad_norm": 0.7704113125801086,
      "learning_rate": 0.0002689389557239876,
      "loss": 3.7795,
      "step": 101690
    },
    {
      "epoch": 0.211875,
      "grad_norm": 0.8617448806762695,
      "learning_rate": 0.00026893294847779125,
      "loss": 3.8507,
      "step": 101700
    },
    {
      "epoch": 0.21189583333333334,
      "grad_norm": 0.9044981002807617,
      "learning_rate": 0.00026892694071785166,
      "loss": 4.0114,
      "step": 101710
    },
    {
      "epoch": 0.21191666666666667,
      "grad_norm": 0.8212941288948059,
      "learning_rate": 0.0002689209324441948,
      "loss": 4.0032,
      "step": 101720
    },
    {
      "epoch": 0.2119375,
      "grad_norm": 0.917941153049469,
      "learning_rate": 0.0002689149236568465,
      "loss": 3.9251,
      "step": 101730
    },
    {
      "epoch": 0.21195833333333333,
      "grad_norm": 0.7857261896133423,
      "learning_rate": 0.00026890891435583285,
      "loss": 3.8619,
      "step": 101740
    },
    {
      "epoch": 0.21197916666666666,
      "grad_norm": 1.1743850708007812,
      "learning_rate": 0.00026890290454117976,
      "loss": 3.992,
      "step": 101750
    },
    {
      "epoch": 0.212,
      "grad_norm": 0.8144389390945435,
      "learning_rate": 0.0002688968942129132,
      "loss": 4.0246,
      "step": 101760
    },
    {
      "epoch": 0.21202083333333333,
      "grad_norm": 0.827150821685791,
      "learning_rate": 0.0002688908833710591,
      "loss": 4.0306,
      "step": 101770
    },
    {
      "epoch": 0.21204166666666666,
      "grad_norm": 0.7052580118179321,
      "learning_rate": 0.00026888487201564345,
      "loss": 3.9917,
      "step": 101780
    },
    {
      "epoch": 0.2120625,
      "grad_norm": 0.8677448630332947,
      "learning_rate": 0.0002688788601466922,
      "loss": 3.9206,
      "step": 101790
    },
    {
      "epoch": 0.21208333333333335,
      "grad_norm": 0.6731429696083069,
      "learning_rate": 0.00026887284776423134,
      "loss": 3.8156,
      "step": 101800
    },
    {
      "epoch": 0.21210416666666668,
      "grad_norm": 0.8419640064239502,
      "learning_rate": 0.00026886683486828685,
      "loss": 3.755,
      "step": 101810
    },
    {
      "epoch": 0.212125,
      "grad_norm": 0.8198195099830627,
      "learning_rate": 0.00026886082145888464,
      "loss": 3.8881,
      "step": 101820
    },
    {
      "epoch": 0.21214583333333334,
      "grad_norm": 0.8400870561599731,
      "learning_rate": 0.0002688548075360508,
      "loss": 3.9401,
      "step": 101830
    },
    {
      "epoch": 0.21216666666666667,
      "grad_norm": 0.7324418425559998,
      "learning_rate": 0.00026884879309981116,
      "loss": 4.0222,
      "step": 101840
    },
    {
      "epoch": 0.2121875,
      "grad_norm": 0.7792113423347473,
      "learning_rate": 0.00026884277815019184,
      "loss": 4.0837,
      "step": 101850
    },
    {
      "epoch": 0.21220833333333333,
      "grad_norm": 0.8094585537910461,
      "learning_rate": 0.0002688367626872187,
      "loss": 3.8978,
      "step": 101860
    },
    {
      "epoch": 0.21222916666666666,
      "grad_norm": 0.6523857712745667,
      "learning_rate": 0.00026883074671091783,
      "loss": 3.9772,
      "step": 101870
    },
    {
      "epoch": 0.21225,
      "grad_norm": 0.7404894232749939,
      "learning_rate": 0.00026882473022131514,
      "loss": 3.9345,
      "step": 101880
    },
    {
      "epoch": 0.21227083333333333,
      "grad_norm": 0.7448127269744873,
      "learning_rate": 0.00026881871321843666,
      "loss": 3.9813,
      "step": 101890
    },
    {
      "epoch": 0.21229166666666666,
      "grad_norm": 0.8063109517097473,
      "learning_rate": 0.00026881269570230837,
      "loss": 3.8895,
      "step": 101900
    },
    {
      "epoch": 0.2123125,
      "grad_norm": 0.7606075406074524,
      "learning_rate": 0.0002688066776729563,
      "loss": 3.9711,
      "step": 101910
    },
    {
      "epoch": 0.21233333333333335,
      "grad_norm": 0.7763221263885498,
      "learning_rate": 0.0002688006591304063,
      "loss": 3.7966,
      "step": 101920
    },
    {
      "epoch": 0.21235416666666668,
      "grad_norm": 0.9131444692611694,
      "learning_rate": 0.00026879464007468465,
      "loss": 3.9333,
      "step": 101930
    },
    {
      "epoch": 0.212375,
      "grad_norm": 0.7246547937393188,
      "learning_rate": 0.00026878862050581703,
      "loss": 3.6485,
      "step": 101940
    },
    {
      "epoch": 0.21239583333333334,
      "grad_norm": 0.8146539926528931,
      "learning_rate": 0.00026878260042382965,
      "loss": 4.0253,
      "step": 101950
    },
    {
      "epoch": 0.21241666666666667,
      "grad_norm": 0.7101246118545532,
      "learning_rate": 0.0002687765798287484,
      "loss": 3.8005,
      "step": 101960
    },
    {
      "epoch": 0.2124375,
      "grad_norm": 0.7135463953018188,
      "learning_rate": 0.0002687705587205994,
      "loss": 3.9231,
      "step": 101970
    },
    {
      "epoch": 0.21245833333333333,
      "grad_norm": 0.7801119089126587,
      "learning_rate": 0.00026876453709940857,
      "loss": 3.8731,
      "step": 101980
    },
    {
      "epoch": 0.21247916666666666,
      "grad_norm": 0.7425222992897034,
      "learning_rate": 0.000268758514965202,
      "loss": 4.0029,
      "step": 101990
    },
    {
      "epoch": 0.2125,
      "grad_norm": 0.7243941426277161,
      "learning_rate": 0.0002687524923180056,
      "loss": 3.9541,
      "step": 102000
    },
    {
      "epoch": 0.2125,
      "eval_loss": 4.257933139801025,
      "eval_runtime": 10.5741,
      "eval_samples_per_second": 0.946,
      "eval_steps_per_second": 0.284,
      "step": 102000
    },
    {
      "epoch": 0.21252083333333333,
      "grad_norm": 0.7978315949440002,
      "learning_rate": 0.0002687464691578455,
      "loss": 3.92,
      "step": 102010
    },
    {
      "epoch": 0.21254166666666666,
      "grad_norm": 0.681343138217926,
      "learning_rate": 0.00026874044548474757,
      "loss": 4.0246,
      "step": 102020
    },
    {
      "epoch": 0.2125625,
      "grad_norm": 0.7588603496551514,
      "learning_rate": 0.000268734421298738,
      "loss": 3.916,
      "step": 102030
    },
    {
      "epoch": 0.21258333333333335,
      "grad_norm": 0.8589641451835632,
      "learning_rate": 0.0002687283965998426,
      "loss": 4.0735,
      "step": 102040
    },
    {
      "epoch": 0.21260416666666668,
      "grad_norm": 0.7631565928459167,
      "learning_rate": 0.00026872237138808765,
      "loss": 4.1029,
      "step": 102050
    },
    {
      "epoch": 0.212625,
      "grad_norm": 0.8590434789657593,
      "learning_rate": 0.000268716345663499,
      "loss": 3.9569,
      "step": 102060
    },
    {
      "epoch": 0.21264583333333334,
      "grad_norm": 0.838293731212616,
      "learning_rate": 0.0002687103194261028,
      "loss": 4.0072,
      "step": 102070
    },
    {
      "epoch": 0.21266666666666667,
      "grad_norm": 0.7529684901237488,
      "learning_rate": 0.00026870429267592487,
      "loss": 3.817,
      "step": 102080
    },
    {
      "epoch": 0.2126875,
      "grad_norm": 0.7946373224258423,
      "learning_rate": 0.00026869826541299144,
      "loss": 3.8726,
      "step": 102090
    },
    {
      "epoch": 0.21270833333333333,
      "grad_norm": 0.9467531442642212,
      "learning_rate": 0.00026869223763732855,
      "loss": 3.9858,
      "step": 102100
    },
    {
      "epoch": 0.21272916666666666,
      "grad_norm": 0.7930809855461121,
      "learning_rate": 0.0002686862093489621,
      "loss": 3.9987,
      "step": 102110
    },
    {
      "epoch": 0.21275,
      "grad_norm": 0.761275589466095,
      "learning_rate": 0.00026868018054791823,
      "loss": 4.1218,
      "step": 102120
    },
    {
      "epoch": 0.21277083333333333,
      "grad_norm": 0.7149988412857056,
      "learning_rate": 0.000268674151234223,
      "loss": 4.0132,
      "step": 102130
    },
    {
      "epoch": 0.21279166666666666,
      "grad_norm": 0.8866239190101624,
      "learning_rate": 0.00026866812140790235,
      "loss": 4.0156,
      "step": 102140
    },
    {
      "epoch": 0.2128125,
      "grad_norm": 0.7645127773284912,
      "learning_rate": 0.00026866209106898246,
      "loss": 3.8962,
      "step": 102150
    },
    {
      "epoch": 0.21283333333333335,
      "grad_norm": 0.7490736246109009,
      "learning_rate": 0.0002686560602174892,
      "loss": 3.9405,
      "step": 102160
    },
    {
      "epoch": 0.21285416666666668,
      "grad_norm": 0.7333042621612549,
      "learning_rate": 0.0002686500288534488,
      "loss": 3.8867,
      "step": 102170
    },
    {
      "epoch": 0.212875,
      "grad_norm": 0.7217627167701721,
      "learning_rate": 0.0002686439969768872,
      "loss": 3.927,
      "step": 102180
    },
    {
      "epoch": 0.21289583333333334,
      "grad_norm": 0.7511118054389954,
      "learning_rate": 0.00026863796458783057,
      "loss": 3.8395,
      "step": 102190
    },
    {
      "epoch": 0.21291666666666667,
      "grad_norm": 0.76315838098526,
      "learning_rate": 0.0002686319316863048,
      "loss": 4.1199,
      "step": 102200
    },
    {
      "epoch": 0.2129375,
      "grad_norm": 0.873668909072876,
      "learning_rate": 0.0002686258982723361,
      "loss": 3.9224,
      "step": 102210
    },
    {
      "epoch": 0.21295833333333333,
      "grad_norm": 0.6979446411132812,
      "learning_rate": 0.00026861986434595044,
      "loss": 3.9083,
      "step": 102220
    },
    {
      "epoch": 0.21297916666666666,
      "grad_norm": 0.7413837909698486,
      "learning_rate": 0.00026861382990717397,
      "loss": 3.8842,
      "step": 102230
    },
    {
      "epoch": 0.213,
      "grad_norm": 0.7603200674057007,
      "learning_rate": 0.00026860779495603267,
      "loss": 3.8725,
      "step": 102240
    },
    {
      "epoch": 0.21302083333333333,
      "grad_norm": 0.8010658025741577,
      "learning_rate": 0.0002686017594925526,
      "loss": 3.8885,
      "step": 102250
    },
    {
      "epoch": 0.21304166666666666,
      "grad_norm": 0.8114608526229858,
      "learning_rate": 0.00026859572351675996,
      "loss": 4.0786,
      "step": 102260
    },
    {
      "epoch": 0.2130625,
      "grad_norm": 0.7454273104667664,
      "learning_rate": 0.0002685896870286807,
      "loss": 3.8122,
      "step": 102270
    },
    {
      "epoch": 0.21308333333333335,
      "grad_norm": 0.7505452632904053,
      "learning_rate": 0.00026858365002834097,
      "loss": 3.8651,
      "step": 102280
    },
    {
      "epoch": 0.21310416666666668,
      "grad_norm": 0.6873261332511902,
      "learning_rate": 0.0002685776125157667,
      "loss": 3.869,
      "step": 102290
    },
    {
      "epoch": 0.213125,
      "grad_norm": 0.7360709309577942,
      "learning_rate": 0.0002685715744909842,
      "loss": 3.8295,
      "step": 102300
    },
    {
      "epoch": 0.21314583333333334,
      "grad_norm": 0.7566107511520386,
      "learning_rate": 0.00026856553595401935,
      "loss": 3.956,
      "step": 102310
    },
    {
      "epoch": 0.21316666666666667,
      "grad_norm": 0.7553548216819763,
      "learning_rate": 0.0002685594969048984,
      "loss": 3.989,
      "step": 102320
    },
    {
      "epoch": 0.2131875,
      "grad_norm": 0.7375275492668152,
      "learning_rate": 0.00026855345734364726,
      "loss": 3.9449,
      "step": 102330
    },
    {
      "epoch": 0.21320833333333333,
      "grad_norm": 0.9017612338066101,
      "learning_rate": 0.0002685474172702922,
      "loss": 3.8942,
      "step": 102340
    },
    {
      "epoch": 0.21322916666666666,
      "grad_norm": 0.764139711856842,
      "learning_rate": 0.00026854137668485916,
      "loss": 3.8897,
      "step": 102350
    },
    {
      "epoch": 0.21325,
      "grad_norm": 0.7723730206489563,
      "learning_rate": 0.0002685353355873743,
      "loss": 3.9012,
      "step": 102360
    },
    {
      "epoch": 0.21327083333333333,
      "grad_norm": 0.6823552846908569,
      "learning_rate": 0.00026852929397786374,
      "loss": 3.9441,
      "step": 102370
    },
    {
      "epoch": 0.21329166666666666,
      "grad_norm": 0.7374151349067688,
      "learning_rate": 0.00026852325185635354,
      "loss": 3.8815,
      "step": 102380
    },
    {
      "epoch": 0.2133125,
      "grad_norm": 0.7097358107566833,
      "learning_rate": 0.0002685172092228698,
      "loss": 3.9217,
      "step": 102390
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 0.9499896764755249,
      "learning_rate": 0.0002685111660774386,
      "loss": 3.9072,
      "step": 102400
    },
    {
      "epoch": 0.21335416666666668,
      "grad_norm": 0.7470501661300659,
      "learning_rate": 0.0002685051224200861,
      "loss": 3.8578,
      "step": 102410
    },
    {
      "epoch": 0.213375,
      "grad_norm": 0.7761180996894836,
      "learning_rate": 0.0002684990782508384,
      "loss": 4.0244,
      "step": 102420
    },
    {
      "epoch": 0.21339583333333334,
      "grad_norm": 0.8002363443374634,
      "learning_rate": 0.0002684930335697215,
      "loss": 3.873,
      "step": 102430
    },
    {
      "epoch": 0.21341666666666667,
      "grad_norm": 0.8261585235595703,
      "learning_rate": 0.00026848698837676175,
      "loss": 4.1082,
      "step": 102440
    },
    {
      "epoch": 0.2134375,
      "grad_norm": 0.79581618309021,
      "learning_rate": 0.000268480942671985,
      "loss": 3.9881,
      "step": 102450
    },
    {
      "epoch": 0.21345833333333333,
      "grad_norm": 1.0859493017196655,
      "learning_rate": 0.0002684748964554175,
      "loss": 3.9886,
      "step": 102460
    },
    {
      "epoch": 0.21347916666666666,
      "grad_norm": 0.8346890211105347,
      "learning_rate": 0.00026846884972708536,
      "loss": 4.0271,
      "step": 102470
    },
    {
      "epoch": 0.2135,
      "grad_norm": 0.6516628265380859,
      "learning_rate": 0.00026846280248701463,
      "loss": 3.9529,
      "step": 102480
    },
    {
      "epoch": 0.21352083333333333,
      "grad_norm": 0.8331006765365601,
      "learning_rate": 0.00026845675473523154,
      "loss": 3.9675,
      "step": 102490
    },
    {
      "epoch": 0.21354166666666666,
      "grad_norm": 0.7599084973335266,
      "learning_rate": 0.0002684507064717621,
      "loss": 3.9758,
      "step": 102500
    },
    {
      "epoch": 0.2135625,
      "grad_norm": 0.7038829326629639,
      "learning_rate": 0.0002684446576966325,
      "loss": 3.898,
      "step": 102510
    },
    {
      "epoch": 0.21358333333333332,
      "grad_norm": 0.7360091209411621,
      "learning_rate": 0.00026843860840986895,
      "loss": 3.8368,
      "step": 102520
    },
    {
      "epoch": 0.21360416666666668,
      "grad_norm": 0.7361437678337097,
      "learning_rate": 0.00026843255861149737,
      "loss": 4.0167,
      "step": 102530
    },
    {
      "epoch": 0.213625,
      "grad_norm": 0.9330411553382874,
      "learning_rate": 0.00026842650830154413,
      "loss": 4.0012,
      "step": 102540
    },
    {
      "epoch": 0.21364583333333334,
      "grad_norm": 0.8259146213531494,
      "learning_rate": 0.0002684204574800352,
      "loss": 3.9611,
      "step": 102550
    },
    {
      "epoch": 0.21366666666666667,
      "grad_norm": 0.6997962594032288,
      "learning_rate": 0.0002684144061469968,
      "loss": 3.9073,
      "step": 102560
    },
    {
      "epoch": 0.2136875,
      "grad_norm": 0.9808492064476013,
      "learning_rate": 0.000268408354302455,
      "loss": 3.8694,
      "step": 102570
    },
    {
      "epoch": 0.21370833333333333,
      "grad_norm": 0.8506420850753784,
      "learning_rate": 0.00026840230194643595,
      "loss": 3.8944,
      "step": 102580
    },
    {
      "epoch": 0.21372916666666666,
      "grad_norm": 0.7658294439315796,
      "learning_rate": 0.00026839624907896585,
      "loss": 3.7559,
      "step": 102590
    },
    {
      "epoch": 0.21375,
      "grad_norm": 0.7188820242881775,
      "learning_rate": 0.0002683901957000708,
      "loss": 3.9622,
      "step": 102600
    },
    {
      "epoch": 0.21377083333333333,
      "grad_norm": 0.6906453371047974,
      "learning_rate": 0.000268384141809777,
      "loss": 3.721,
      "step": 102610
    },
    {
      "epoch": 0.21379166666666666,
      "grad_norm": 0.7976897358894348,
      "learning_rate": 0.0002683780874081106,
      "loss": 3.8533,
      "step": 102620
    },
    {
      "epoch": 0.2138125,
      "grad_norm": 0.821456789970398,
      "learning_rate": 0.00026837203249509766,
      "loss": 4.0668,
      "step": 102630
    },
    {
      "epoch": 0.21383333333333332,
      "grad_norm": 0.7323678135871887,
      "learning_rate": 0.00026836597707076437,
      "loss": 3.8987,
      "step": 102640
    },
    {
      "epoch": 0.21385416666666668,
      "grad_norm": 0.846759557723999,
      "learning_rate": 0.00026835992113513705,
      "loss": 4.096,
      "step": 102650
    },
    {
      "epoch": 0.213875,
      "grad_norm": 0.7387557625770569,
      "learning_rate": 0.00026835386468824156,
      "loss": 3.9384,
      "step": 102660
    },
    {
      "epoch": 0.21389583333333334,
      "grad_norm": 0.8009338974952698,
      "learning_rate": 0.0002683478077301043,
      "loss": 3.7237,
      "step": 102670
    },
    {
      "epoch": 0.21391666666666667,
      "grad_norm": 0.7991369962692261,
      "learning_rate": 0.0002683417502607513,
      "loss": 4.1183,
      "step": 102680
    },
    {
      "epoch": 0.2139375,
      "grad_norm": 0.7126520276069641,
      "learning_rate": 0.0002683356922802089,
      "loss": 3.7857,
      "step": 102690
    },
    {
      "epoch": 0.21395833333333333,
      "grad_norm": 0.689676821231842,
      "learning_rate": 0.00026832963378850306,
      "loss": 3.8488,
      "step": 102700
    },
    {
      "epoch": 0.21397916666666666,
      "grad_norm": 0.8616625666618347,
      "learning_rate": 0.00026832357478566004,
      "loss": 3.9005,
      "step": 102710
    },
    {
      "epoch": 0.214,
      "grad_norm": 0.8223869800567627,
      "learning_rate": 0.000268317515271706,
      "loss": 3.9147,
      "step": 102720
    },
    {
      "epoch": 0.21402083333333333,
      "grad_norm": 0.7108721733093262,
      "learning_rate": 0.00026831145524666716,
      "loss": 3.7697,
      "step": 102730
    },
    {
      "epoch": 0.21404166666666666,
      "grad_norm": 0.7605945467948914,
      "learning_rate": 0.00026830539471056966,
      "loss": 3.8239,
      "step": 102740
    },
    {
      "epoch": 0.2140625,
      "grad_norm": 0.776104211807251,
      "learning_rate": 0.0002682993336634397,
      "loss": 3.9029,
      "step": 102750
    },
    {
      "epoch": 0.21408333333333332,
      "grad_norm": 0.9401202201843262,
      "learning_rate": 0.0002682932721053035,
      "loss": 3.9727,
      "step": 102760
    },
    {
      "epoch": 0.21410416666666668,
      "grad_norm": 0.7934325933456421,
      "learning_rate": 0.00026828721003618704,
      "loss": 4.1223,
      "step": 102770
    },
    {
      "epoch": 0.214125,
      "grad_norm": 0.6608116626739502,
      "learning_rate": 0.00026828114745611675,
      "loss": 3.7889,
      "step": 102780
    },
    {
      "epoch": 0.21414583333333334,
      "grad_norm": 0.714304506778717,
      "learning_rate": 0.0002682750843651187,
      "loss": 3.9216,
      "step": 102790
    },
    {
      "epoch": 0.21416666666666667,
      "grad_norm": 0.8999590277671814,
      "learning_rate": 0.00026826902076321907,
      "loss": 4.0489,
      "step": 102800
    },
    {
      "epoch": 0.2141875,
      "grad_norm": 0.7042125463485718,
      "learning_rate": 0.00026826295665044415,
      "loss": 3.9472,
      "step": 102810
    },
    {
      "epoch": 0.21420833333333333,
      "grad_norm": 0.698754608631134,
      "learning_rate": 0.00026825689202682,
      "loss": 3.7831,
      "step": 102820
    },
    {
      "epoch": 0.21422916666666666,
      "grad_norm": 0.7814480066299438,
      "learning_rate": 0.000268250826892373,
      "loss": 4.0915,
      "step": 102830
    },
    {
      "epoch": 0.21425,
      "grad_norm": 0.7854883074760437,
      "learning_rate": 0.0002682447612471291,
      "loss": 4.0275,
      "step": 102840
    },
    {
      "epoch": 0.21427083333333333,
      "grad_norm": 0.6874034404754639,
      "learning_rate": 0.00026823869509111473,
      "loss": 3.886,
      "step": 102850
    },
    {
      "epoch": 0.21429166666666666,
      "grad_norm": 0.6771194338798523,
      "learning_rate": 0.00026823262842435593,
      "loss": 3.7821,
      "step": 102860
    },
    {
      "epoch": 0.2143125,
      "grad_norm": 0.8384600281715393,
      "learning_rate": 0.00026822656124687904,
      "loss": 3.972,
      "step": 102870
    },
    {
      "epoch": 0.21433333333333332,
      "grad_norm": 0.6740886569023132,
      "learning_rate": 0.00026822049355871013,
      "loss": 3.9947,
      "step": 102880
    },
    {
      "epoch": 0.21435416666666668,
      "grad_norm": 0.884361207485199,
      "learning_rate": 0.00026821442535987554,
      "loss": 3.7558,
      "step": 102890
    },
    {
      "epoch": 0.214375,
      "grad_norm": 0.7294917106628418,
      "learning_rate": 0.0002682083566504014,
      "loss": 4.0087,
      "step": 102900
    },
    {
      "epoch": 0.21439583333333334,
      "grad_norm": 0.7637292146682739,
      "learning_rate": 0.00026820228743031397,
      "loss": 3.9769,
      "step": 102910
    },
    {
      "epoch": 0.21441666666666667,
      "grad_norm": 0.74226975440979,
      "learning_rate": 0.00026819621769963946,
      "loss": 3.975,
      "step": 102920
    },
    {
      "epoch": 0.2144375,
      "grad_norm": 0.6588453054428101,
      "learning_rate": 0.000268190147458404,
      "loss": 4.0354,
      "step": 102930
    },
    {
      "epoch": 0.21445833333333333,
      "grad_norm": 0.8250126242637634,
      "learning_rate": 0.00026818407670663397,
      "loss": 3.9471,
      "step": 102940
    },
    {
      "epoch": 0.21447916666666667,
      "grad_norm": 0.8836731314659119,
      "learning_rate": 0.00026817800544435546,
      "loss": 3.966,
      "step": 102950
    },
    {
      "epoch": 0.2145,
      "grad_norm": 0.6795853972434998,
      "learning_rate": 0.0002681719336715948,
      "loss": 3.9269,
      "step": 102960
    },
    {
      "epoch": 0.21452083333333333,
      "grad_norm": 0.9713950157165527,
      "learning_rate": 0.00026816586138837806,
      "loss": 3.8463,
      "step": 102970
    },
    {
      "epoch": 0.21454166666666666,
      "grad_norm": 0.7444133758544922,
      "learning_rate": 0.00026815978859473164,
      "loss": 3.8646,
      "step": 102980
    },
    {
      "epoch": 0.2145625,
      "grad_norm": 0.7613767385482788,
      "learning_rate": 0.0002681537152906817,
      "loss": 4.0952,
      "step": 102990
    },
    {
      "epoch": 0.21458333333333332,
      "grad_norm": 0.7502779364585876,
      "learning_rate": 0.0002681476414762545,
      "loss": 3.838,
      "step": 103000
    },
    {
      "epoch": 0.21458333333333332,
      "eval_loss": 4.260862827301025,
      "eval_runtime": 10.4569,
      "eval_samples_per_second": 0.956,
      "eval_steps_per_second": 0.287,
      "step": 103000
    },
    {
      "epoch": 0.21460416666666668,
      "grad_norm": 0.6982792615890503,
      "learning_rate": 0.00026814156715147623,
      "loss": 3.9598,
      "step": 103010
    },
    {
      "epoch": 0.214625,
      "grad_norm": 0.7814749479293823,
      "learning_rate": 0.00026813549231637313,
      "loss": 3.7586,
      "step": 103020
    },
    {
      "epoch": 0.21464583333333334,
      "grad_norm": 0.8365145921707153,
      "learning_rate": 0.0002681294169709715,
      "loss": 3.8582,
      "step": 103030
    },
    {
      "epoch": 0.21466666666666667,
      "grad_norm": 0.8170823454856873,
      "learning_rate": 0.0002681233411152975,
      "loss": 3.9467,
      "step": 103040
    },
    {
      "epoch": 0.2146875,
      "grad_norm": 0.8920000791549683,
      "learning_rate": 0.0002681172647493775,
      "loss": 3.7777,
      "step": 103050
    },
    {
      "epoch": 0.21470833333333333,
      "grad_norm": 0.85231614112854,
      "learning_rate": 0.0002681111878732376,
      "loss": 3.8396,
      "step": 103060
    },
    {
      "epoch": 0.21472916666666667,
      "grad_norm": 0.717993438243866,
      "learning_rate": 0.00026810511048690417,
      "loss": 3.9329,
      "step": 103070
    },
    {
      "epoch": 0.21475,
      "grad_norm": 0.7576789855957031,
      "learning_rate": 0.0002680990325904034,
      "loss": 3.8043,
      "step": 103080
    },
    {
      "epoch": 0.21477083333333333,
      "grad_norm": 0.8052340149879456,
      "learning_rate": 0.0002680929541837615,
      "loss": 3.8089,
      "step": 103090
    },
    {
      "epoch": 0.21479166666666666,
      "grad_norm": 0.6904061436653137,
      "learning_rate": 0.0002680868752670049,
      "loss": 3.8332,
      "step": 103100
    },
    {
      "epoch": 0.2148125,
      "grad_norm": 0.7217944264411926,
      "learning_rate": 0.00026808079584015964,
      "loss": 3.8662,
      "step": 103110
    },
    {
      "epoch": 0.21483333333333332,
      "grad_norm": 0.8178644180297852,
      "learning_rate": 0.0002680747159032521,
      "loss": 3.8935,
      "step": 103120
    },
    {
      "epoch": 0.21485416666666668,
      "grad_norm": 0.6505054831504822,
      "learning_rate": 0.0002680686354563085,
      "loss": 3.9768,
      "step": 103130
    },
    {
      "epoch": 0.214875,
      "grad_norm": 0.8037826418876648,
      "learning_rate": 0.0002680625544993552,
      "loss": 3.9203,
      "step": 103140
    },
    {
      "epoch": 0.21489583333333334,
      "grad_norm": 0.7412013411521912,
      "learning_rate": 0.0002680564730324184,
      "loss": 3.948,
      "step": 103150
    },
    {
      "epoch": 0.21491666666666667,
      "grad_norm": 0.7569954991340637,
      "learning_rate": 0.0002680503910555243,
      "loss": 3.9984,
      "step": 103160
    },
    {
      "epoch": 0.2149375,
      "grad_norm": 0.7454707622528076,
      "learning_rate": 0.00026804430856869924,
      "loss": 3.7551,
      "step": 103170
    },
    {
      "epoch": 0.21495833333333333,
      "grad_norm": 0.7634373903274536,
      "learning_rate": 0.00026803822557196953,
      "loss": 3.9429,
      "step": 103180
    },
    {
      "epoch": 0.21497916666666667,
      "grad_norm": 0.7058666944503784,
      "learning_rate": 0.0002680321420653614,
      "loss": 4.0497,
      "step": 103190
    },
    {
      "epoch": 0.215,
      "grad_norm": 0.7659200429916382,
      "learning_rate": 0.0002680260580489012,
      "loss": 3.9494,
      "step": 103200
    },
    {
      "epoch": 0.21502083333333333,
      "grad_norm": 0.8120572566986084,
      "learning_rate": 0.000268019973522615,
      "loss": 3.7899,
      "step": 103210
    },
    {
      "epoch": 0.21504166666666666,
      "grad_norm": 0.8189850449562073,
      "learning_rate": 0.00026801388848652935,
      "loss": 3.8968,
      "step": 103220
    },
    {
      "epoch": 0.2150625,
      "grad_norm": 0.7041645646095276,
      "learning_rate": 0.00026800780294067034,
      "loss": 3.8132,
      "step": 103230
    },
    {
      "epoch": 0.21508333333333332,
      "grad_norm": 0.7610019445419312,
      "learning_rate": 0.0002680017168850644,
      "loss": 4.0651,
      "step": 103240
    },
    {
      "epoch": 0.21510416666666668,
      "grad_norm": 0.8385465741157532,
      "learning_rate": 0.00026799563031973774,
      "loss": 4.0106,
      "step": 103250
    },
    {
      "epoch": 0.215125,
      "grad_norm": 0.754497766494751,
      "learning_rate": 0.0002679895432447166,
      "loss": 3.9309,
      "step": 103260
    },
    {
      "epoch": 0.21514583333333334,
      "grad_norm": 0.7783034443855286,
      "learning_rate": 0.0002679834556600274,
      "loss": 3.9577,
      "step": 103270
    },
    {
      "epoch": 0.21516666666666667,
      "grad_norm": 0.7606397271156311,
      "learning_rate": 0.0002679773675656964,
      "loss": 3.9848,
      "step": 103280
    },
    {
      "epoch": 0.2151875,
      "grad_norm": 0.77164226770401,
      "learning_rate": 0.0002679712789617498,
      "loss": 3.8466,
      "step": 103290
    },
    {
      "epoch": 0.21520833333333333,
      "grad_norm": 0.801077127456665,
      "learning_rate": 0.00026796518984821397,
      "loss": 3.8626,
      "step": 103300
    },
    {
      "epoch": 0.21522916666666667,
      "grad_norm": 0.8006694316864014,
      "learning_rate": 0.0002679591002251152,
      "loss": 3.8977,
      "step": 103310
    },
    {
      "epoch": 0.21525,
      "grad_norm": 0.7246871590614319,
      "learning_rate": 0.0002679530100924799,
      "loss": 3.8405,
      "step": 103320
    },
    {
      "epoch": 0.21527083333333333,
      "grad_norm": 0.7989106178283691,
      "learning_rate": 0.0002679469194503342,
      "loss": 3.8341,
      "step": 103330
    },
    {
      "epoch": 0.21529166666666666,
      "grad_norm": 1.6239168643951416,
      "learning_rate": 0.0002679408282987045,
      "loss": 4.0622,
      "step": 103340
    },
    {
      "epoch": 0.2153125,
      "grad_norm": 0.9158325791358948,
      "learning_rate": 0.00026793473663761717,
      "loss": 3.9563,
      "step": 103350
    },
    {
      "epoch": 0.21533333333333332,
      "grad_norm": 0.6992232799530029,
      "learning_rate": 0.0002679286444670984,
      "loss": 3.7751,
      "step": 103360
    },
    {
      "epoch": 0.21535416666666668,
      "grad_norm": 0.7879667282104492,
      "learning_rate": 0.00026792255178717463,
      "loss": 3.9625,
      "step": 103370
    },
    {
      "epoch": 0.215375,
      "grad_norm": 0.7148048281669617,
      "learning_rate": 0.00026791645859787207,
      "loss": 3.9527,
      "step": 103380
    },
    {
      "epoch": 0.21539583333333334,
      "grad_norm": 0.7951317429542542,
      "learning_rate": 0.00026791036489921707,
      "loss": 3.921,
      "step": 103390
    },
    {
      "epoch": 0.21541666666666667,
      "grad_norm": 0.7236343622207642,
      "learning_rate": 0.000267904270691236,
      "loss": 3.9359,
      "step": 103400
    },
    {
      "epoch": 0.2154375,
      "grad_norm": 0.7318707704544067,
      "learning_rate": 0.0002678981759739551,
      "loss": 3.8841,
      "step": 103410
    },
    {
      "epoch": 0.21545833333333334,
      "grad_norm": 0.774462103843689,
      "learning_rate": 0.0002678920807474008,
      "loss": 3.9174,
      "step": 103420
    },
    {
      "epoch": 0.21547916666666667,
      "grad_norm": 0.8632633090019226,
      "learning_rate": 0.00026788598501159935,
      "loss": 3.8909,
      "step": 103430
    },
    {
      "epoch": 0.2155,
      "grad_norm": 0.7106120586395264,
      "learning_rate": 0.0002678798887665771,
      "loss": 3.9104,
      "step": 103440
    },
    {
      "epoch": 0.21552083333333333,
      "grad_norm": 0.7379701137542725,
      "learning_rate": 0.00026787379201236044,
      "loss": 3.9152,
      "step": 103450
    },
    {
      "epoch": 0.21554166666666666,
      "grad_norm": 0.7571840882301331,
      "learning_rate": 0.00026786769474897556,
      "loss": 3.9346,
      "step": 103460
    },
    {
      "epoch": 0.2155625,
      "grad_norm": 0.6822111010551453,
      "learning_rate": 0.000267861596976449,
      "loss": 3.8323,
      "step": 103470
    },
    {
      "epoch": 0.21558333333333332,
      "grad_norm": 0.7523879408836365,
      "learning_rate": 0.0002678554986948069,
      "loss": 3.8893,
      "step": 103480
    },
    {
      "epoch": 0.21560416666666668,
      "grad_norm": 0.7549329996109009,
      "learning_rate": 0.00026784939990407575,
      "loss": 3.8454,
      "step": 103490
    },
    {
      "epoch": 0.215625,
      "grad_norm": 0.6732136011123657,
      "learning_rate": 0.00026784330060428184,
      "loss": 3.92,
      "step": 103500
    },
    {
      "epoch": 0.21564583333333334,
      "grad_norm": 0.7138423323631287,
      "learning_rate": 0.0002678372007954515,
      "loss": 3.766,
      "step": 103510
    },
    {
      "epoch": 0.21566666666666667,
      "grad_norm": 0.653668224811554,
      "learning_rate": 0.0002678311004776111,
      "loss": 4.0385,
      "step": 103520
    },
    {
      "epoch": 0.2156875,
      "grad_norm": 0.8782212138175964,
      "learning_rate": 0.000267824999650787,
      "loss": 3.8297,
      "step": 103530
    },
    {
      "epoch": 0.21570833333333334,
      "grad_norm": 0.7806443572044373,
      "learning_rate": 0.00026781889831500557,
      "loss": 3.7766,
      "step": 103540
    },
    {
      "epoch": 0.21572916666666667,
      "grad_norm": 0.7511743307113647,
      "learning_rate": 0.00026781279647029307,
      "loss": 3.9426,
      "step": 103550
    },
    {
      "epoch": 0.21575,
      "grad_norm": 0.7026357054710388,
      "learning_rate": 0.00026780669411667596,
      "loss": 3.8873,
      "step": 103560
    },
    {
      "epoch": 0.21577083333333333,
      "grad_norm": 0.8051574230194092,
      "learning_rate": 0.00026780059125418055,
      "loss": 3.8866,
      "step": 103570
    },
    {
      "epoch": 0.21579166666666666,
      "grad_norm": 0.8536532521247864,
      "learning_rate": 0.0002677944878828332,
      "loss": 3.9817,
      "step": 103580
    },
    {
      "epoch": 0.2158125,
      "grad_norm": 0.7482403516769409,
      "learning_rate": 0.0002677883840026603,
      "loss": 3.9137,
      "step": 103590
    },
    {
      "epoch": 0.21583333333333332,
      "grad_norm": 0.948333203792572,
      "learning_rate": 0.0002677822796136882,
      "loss": 3.9617,
      "step": 103600
    },
    {
      "epoch": 0.21585416666666668,
      "grad_norm": 0.7991553544998169,
      "learning_rate": 0.00026777617471594327,
      "loss": 3.7469,
      "step": 103610
    },
    {
      "epoch": 0.215875,
      "grad_norm": 0.8696415424346924,
      "learning_rate": 0.0002677700693094519,
      "loss": 3.8768,
      "step": 103620
    },
    {
      "epoch": 0.21589583333333334,
      "grad_norm": 0.8170913457870483,
      "learning_rate": 0.0002677639633942405,
      "loss": 3.8417,
      "step": 103630
    },
    {
      "epoch": 0.21591666666666667,
      "grad_norm": 0.7533899545669556,
      "learning_rate": 0.00026775785697033533,
      "loss": 3.8518,
      "step": 103640
    },
    {
      "epoch": 0.2159375,
      "grad_norm": 0.773405909538269,
      "learning_rate": 0.00026775175003776285,
      "loss": 3.8078,
      "step": 103650
    },
    {
      "epoch": 0.21595833333333334,
      "grad_norm": 0.7714802026748657,
      "learning_rate": 0.0002677456425965494,
      "loss": 3.8635,
      "step": 103660
    },
    {
      "epoch": 0.21597916666666667,
      "grad_norm": 0.7386381030082703,
      "learning_rate": 0.00026773953464672134,
      "loss": 3.9024,
      "step": 103670
    },
    {
      "epoch": 0.216,
      "grad_norm": 0.7434378266334534,
      "learning_rate": 0.00026773342618830517,
      "loss": 3.9514,
      "step": 103680
    },
    {
      "epoch": 0.21602083333333333,
      "grad_norm": 0.7749361991882324,
      "learning_rate": 0.00026772731722132716,
      "loss": 3.891,
      "step": 103690
    },
    {
      "epoch": 0.21604166666666666,
      "grad_norm": 0.7133052349090576,
      "learning_rate": 0.0002677212077458138,
      "loss": 3.8808,
      "step": 103700
    },
    {
      "epoch": 0.2160625,
      "grad_norm": 0.7226802110671997,
      "learning_rate": 0.0002677150977617913,
      "loss": 4.0399,
      "step": 103710
    },
    {
      "epoch": 0.21608333333333332,
      "grad_norm": 0.7969832420349121,
      "learning_rate": 0.0002677089872692863,
      "loss": 3.8664,
      "step": 103720
    },
    {
      "epoch": 0.21610416666666668,
      "grad_norm": 0.7299691438674927,
      "learning_rate": 0.00026770287626832497,
      "loss": 3.8752,
      "step": 103730
    },
    {
      "epoch": 0.216125,
      "grad_norm": 0.8858870267868042,
      "learning_rate": 0.0002676967647589339,
      "loss": 4.0339,
      "step": 103740
    },
    {
      "epoch": 0.21614583333333334,
      "grad_norm": 0.711050271987915,
      "learning_rate": 0.0002676906527411393,
      "loss": 3.8653,
      "step": 103750
    },
    {
      "epoch": 0.21616666666666667,
      "grad_norm": 0.7966354489326477,
      "learning_rate": 0.0002676845402149677,
      "loss": 3.9269,
      "step": 103760
    },
    {
      "epoch": 0.2161875,
      "grad_norm": 0.6632649898529053,
      "learning_rate": 0.00026767842718044546,
      "loss": 3.9883,
      "step": 103770
    },
    {
      "epoch": 0.21620833333333334,
      "grad_norm": 0.7212406396865845,
      "learning_rate": 0.00026767231363759907,
      "loss": 3.8808,
      "step": 103780
    },
    {
      "epoch": 0.21622916666666667,
      "grad_norm": 0.754252016544342,
      "learning_rate": 0.0002676661995864548,
      "loss": 3.9677,
      "step": 103790
    },
    {
      "epoch": 0.21625,
      "grad_norm": 0.7198277711868286,
      "learning_rate": 0.00026766008502703914,
      "loss": 3.9638,
      "step": 103800
    },
    {
      "epoch": 0.21627083333333333,
      "grad_norm": 0.7945812940597534,
      "learning_rate": 0.00026765396995937846,
      "loss": 3.9757,
      "step": 103810
    },
    {
      "epoch": 0.21629166666666666,
      "grad_norm": 0.7051178216934204,
      "learning_rate": 0.0002676478543834992,
      "loss": 3.8648,
      "step": 103820
    },
    {
      "epoch": 0.2163125,
      "grad_norm": 0.8302850127220154,
      "learning_rate": 0.0002676417382994278,
      "loss": 3.8902,
      "step": 103830
    },
    {
      "epoch": 0.21633333333333332,
      "grad_norm": 1.052733302116394,
      "learning_rate": 0.0002676356217071906,
      "loss": 3.9098,
      "step": 103840
    },
    {
      "epoch": 0.21635416666666665,
      "grad_norm": 0.8028723001480103,
      "learning_rate": 0.00026762950460681415,
      "loss": 3.9258,
      "step": 103850
    },
    {
      "epoch": 0.216375,
      "grad_norm": 0.7772068977355957,
      "learning_rate": 0.00026762338699832475,
      "loss": 3.7869,
      "step": 103860
    },
    {
      "epoch": 0.21639583333333334,
      "grad_norm": 0.781239926815033,
      "learning_rate": 0.00026761726888174895,
      "loss": 3.9336,
      "step": 103870
    },
    {
      "epoch": 0.21641666666666667,
      "grad_norm": 0.8122050762176514,
      "learning_rate": 0.000267611150257113,
      "loss": 3.9407,
      "step": 103880
    },
    {
      "epoch": 0.2164375,
      "grad_norm": 0.7631456851959229,
      "learning_rate": 0.00026760503112444354,
      "loss": 4.1303,
      "step": 103890
    },
    {
      "epoch": 0.21645833333333334,
      "grad_norm": 0.7108595967292786,
      "learning_rate": 0.00026759891148376685,
      "loss": 4.0887,
      "step": 103900
    },
    {
      "epoch": 0.21647916666666667,
      "grad_norm": 0.6934673190116882,
      "learning_rate": 0.0002675927913351094,
      "loss": 3.7694,
      "step": 103910
    },
    {
      "epoch": 0.2165,
      "grad_norm": 0.7208923697471619,
      "learning_rate": 0.00026758667067849765,
      "loss": 3.8423,
      "step": 103920
    },
    {
      "epoch": 0.21652083333333333,
      "grad_norm": 0.7249716520309448,
      "learning_rate": 0.000267580549513958,
      "loss": 3.882,
      "step": 103930
    },
    {
      "epoch": 0.21654166666666666,
      "grad_norm": 0.7159674167633057,
      "learning_rate": 0.00026757442784151696,
      "loss": 3.8892,
      "step": 103940
    },
    {
      "epoch": 0.2165625,
      "grad_norm": 0.7205800414085388,
      "learning_rate": 0.00026756830566120087,
      "loss": 3.7883,
      "step": 103950
    },
    {
      "epoch": 0.21658333333333332,
      "grad_norm": 0.7518658638000488,
      "learning_rate": 0.0002675621829730363,
      "loss": 4.0217,
      "step": 103960
    },
    {
      "epoch": 0.21660416666666665,
      "grad_norm": 0.7917511463165283,
      "learning_rate": 0.00026755605977704964,
      "loss": 3.8776,
      "step": 103970
    },
    {
      "epoch": 0.216625,
      "grad_norm": 0.8439042568206787,
      "learning_rate": 0.0002675499360732673,
      "loss": 3.942,
      "step": 103980
    },
    {
      "epoch": 0.21664583333333334,
      "grad_norm": 0.8198758363723755,
      "learning_rate": 0.00026754381186171574,
      "loss": 3.8107,
      "step": 103990
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 0.7065703272819519,
      "learning_rate": 0.0002675376871424215,
      "loss": 3.8423,
      "step": 104000
    },
    {
      "epoch": 0.21666666666666667,
      "eval_loss": 4.274416923522949,
      "eval_runtime": 12.4571,
      "eval_samples_per_second": 0.803,
      "eval_steps_per_second": 0.241,
      "step": 104000
    },
    {
      "epoch": 0.2166875,
      "grad_norm": 0.7423152327537537,
      "learning_rate": 0.00026753156191541095,
      "loss": 3.9345,
      "step": 104010
    },
    {
      "epoch": 0.21670833333333334,
      "grad_norm": 0.7986307740211487,
      "learning_rate": 0.0002675254361807106,
      "loss": 3.9252,
      "step": 104020
    },
    {
      "epoch": 0.21672916666666667,
      "grad_norm": 0.9137560129165649,
      "learning_rate": 0.0002675193099383468,
      "loss": 3.9921,
      "step": 104030
    },
    {
      "epoch": 0.21675,
      "grad_norm": 0.8167948722839355,
      "learning_rate": 0.0002675131831883462,
      "loss": 3.9545,
      "step": 104040
    },
    {
      "epoch": 0.21677083333333333,
      "grad_norm": 0.791115403175354,
      "learning_rate": 0.00026750705593073514,
      "loss": 3.8376,
      "step": 104050
    },
    {
      "epoch": 0.21679166666666666,
      "grad_norm": 0.8448063731193542,
      "learning_rate": 0.00026750092816554003,
      "loss": 4.0255,
      "step": 104060
    },
    {
      "epoch": 0.2168125,
      "grad_norm": 0.7388009428977966,
      "learning_rate": 0.00026749479989278754,
      "loss": 4.0163,
      "step": 104070
    },
    {
      "epoch": 0.21683333333333332,
      "grad_norm": 0.782379150390625,
      "learning_rate": 0.0002674886711125039,
      "loss": 3.9002,
      "step": 104080
    },
    {
      "epoch": 0.21685416666666665,
      "grad_norm": 0.697393536567688,
      "learning_rate": 0.0002674825418247158,
      "loss": 3.8552,
      "step": 104090
    },
    {
      "epoch": 0.216875,
      "grad_norm": 0.7120442986488342,
      "learning_rate": 0.0002674764120294496,
      "loss": 4.0263,
      "step": 104100
    },
    {
      "epoch": 0.21689583333333334,
      "grad_norm": 0.8131166100502014,
      "learning_rate": 0.00026747028172673175,
      "loss": 3.8023,
      "step": 104110
    },
    {
      "epoch": 0.21691666666666667,
      "grad_norm": 0.7342423796653748,
      "learning_rate": 0.0002674641509165889,
      "loss": 4.049,
      "step": 104120
    },
    {
      "epoch": 0.2169375,
      "grad_norm": 0.806699275970459,
      "learning_rate": 0.00026745801959904725,
      "loss": 3.7946,
      "step": 104130
    },
    {
      "epoch": 0.21695833333333334,
      "grad_norm": 0.7331568002700806,
      "learning_rate": 0.0002674518877741336,
      "loss": 3.8278,
      "step": 104140
    },
    {
      "epoch": 0.21697916666666667,
      "grad_norm": 0.7831412553787231,
      "learning_rate": 0.0002674457554418742,
      "loss": 4.0529,
      "step": 104150
    },
    {
      "epoch": 0.217,
      "grad_norm": 0.7117398977279663,
      "learning_rate": 0.00026743962260229563,
      "loss": 3.9099,
      "step": 104160
    },
    {
      "epoch": 0.21702083333333333,
      "grad_norm": 0.6962454915046692,
      "learning_rate": 0.00026743348925542445,
      "loss": 4.0312,
      "step": 104170
    },
    {
      "epoch": 0.21704166666666666,
      "grad_norm": 0.6746824383735657,
      "learning_rate": 0.000267427355401287,
      "loss": 3.925,
      "step": 104180
    },
    {
      "epoch": 0.2170625,
      "grad_norm": 0.9637673497200012,
      "learning_rate": 0.00026742122103990985,
      "loss": 3.9378,
      "step": 104190
    },
    {
      "epoch": 0.21708333333333332,
      "grad_norm": 0.8229334950447083,
      "learning_rate": 0.00026741508617131955,
      "loss": 4.0395,
      "step": 104200
    },
    {
      "epoch": 0.21710416666666665,
      "grad_norm": 0.7581438422203064,
      "learning_rate": 0.0002674089507955425,
      "loss": 3.8309,
      "step": 104210
    },
    {
      "epoch": 0.217125,
      "grad_norm": 0.849983274936676,
      "learning_rate": 0.0002674028149126053,
      "loss": 3.8995,
      "step": 104220
    },
    {
      "epoch": 0.21714583333333334,
      "grad_norm": 0.6840772032737732,
      "learning_rate": 0.0002673966785225344,
      "loss": 4.0081,
      "step": 104230
    },
    {
      "epoch": 0.21716666666666667,
      "grad_norm": 0.8355234861373901,
      "learning_rate": 0.0002673905416253563,
      "loss": 3.9356,
      "step": 104240
    },
    {
      "epoch": 0.2171875,
      "grad_norm": 0.7818974852561951,
      "learning_rate": 0.0002673844042210976,
      "loss": 4.0173,
      "step": 104250
    },
    {
      "epoch": 0.21720833333333334,
      "grad_norm": 0.7823631167411804,
      "learning_rate": 0.00026737826630978464,
      "loss": 3.9927,
      "step": 104260
    },
    {
      "epoch": 0.21722916666666667,
      "grad_norm": 0.8428428769111633,
      "learning_rate": 0.0002673721278914441,
      "loss": 3.8545,
      "step": 104270
    },
    {
      "epoch": 0.21725,
      "grad_norm": 0.7690878510475159,
      "learning_rate": 0.0002673659889661024,
      "loss": 4.0338,
      "step": 104280
    },
    {
      "epoch": 0.21727083333333333,
      "grad_norm": 0.7697757482528687,
      "learning_rate": 0.0002673598495337861,
      "loss": 4.1381,
      "step": 104290
    },
    {
      "epoch": 0.21729166666666666,
      "grad_norm": 0.7954941391944885,
      "learning_rate": 0.00026735370959452166,
      "loss": 3.7662,
      "step": 104300
    },
    {
      "epoch": 0.2173125,
      "grad_norm": 0.8215659856796265,
      "learning_rate": 0.0002673475691483357,
      "loss": 3.8771,
      "step": 104310
    },
    {
      "epoch": 0.21733333333333332,
      "grad_norm": 0.8557404279708862,
      "learning_rate": 0.00026734142819525463,
      "loss": 3.9002,
      "step": 104320
    },
    {
      "epoch": 0.21735416666666665,
      "grad_norm": 0.8209974765777588,
      "learning_rate": 0.0002673352867353051,
      "loss": 3.9765,
      "step": 104330
    },
    {
      "epoch": 0.217375,
      "grad_norm": 0.8450025320053101,
      "learning_rate": 0.00026732914476851354,
      "loss": 3.8594,
      "step": 104340
    },
    {
      "epoch": 0.21739583333333334,
      "grad_norm": 0.9227427840232849,
      "learning_rate": 0.00026732300229490654,
      "loss": 4.0199,
      "step": 104350
    },
    {
      "epoch": 0.21741666666666667,
      "grad_norm": 0.7749657034873962,
      "learning_rate": 0.0002673168593145106,
      "loss": 3.8585,
      "step": 104360
    },
    {
      "epoch": 0.2174375,
      "grad_norm": 0.7021118402481079,
      "learning_rate": 0.00026731071582735224,
      "loss": 3.773,
      "step": 104370
    },
    {
      "epoch": 0.21745833333333334,
      "grad_norm": 0.8828438520431519,
      "learning_rate": 0.0002673045718334581,
      "loss": 3.8008,
      "step": 104380
    },
    {
      "epoch": 0.21747916666666667,
      "grad_norm": 0.7635529041290283,
      "learning_rate": 0.00026729842733285456,
      "loss": 4.0125,
      "step": 104390
    },
    {
      "epoch": 0.2175,
      "grad_norm": 0.7537969350814819,
      "learning_rate": 0.0002672922823255682,
      "loss": 4.0364,
      "step": 104400
    },
    {
      "epoch": 0.21752083333333333,
      "grad_norm": 0.826253354549408,
      "learning_rate": 0.0002672861368116257,
      "loss": 3.8463,
      "step": 104410
    },
    {
      "epoch": 0.21754166666666666,
      "grad_norm": 0.761141836643219,
      "learning_rate": 0.0002672799907910535,
      "loss": 4.0086,
      "step": 104420
    },
    {
      "epoch": 0.2175625,
      "grad_norm": 0.7776395082473755,
      "learning_rate": 0.00026727384426387816,
      "loss": 4.0605,
      "step": 104430
    },
    {
      "epoch": 0.21758333333333332,
      "grad_norm": 0.7577017545700073,
      "learning_rate": 0.00026726769723012624,
      "loss": 3.9474,
      "step": 104440
    },
    {
      "epoch": 0.21760416666666665,
      "grad_norm": 0.6962851285934448,
      "learning_rate": 0.00026726154968982423,
      "loss": 3.8337,
      "step": 104450
    },
    {
      "epoch": 0.217625,
      "grad_norm": 0.7821736931800842,
      "learning_rate": 0.0002672554016429988,
      "loss": 3.8815,
      "step": 104460
    },
    {
      "epoch": 0.21764583333333334,
      "grad_norm": 0.7570845484733582,
      "learning_rate": 0.00026724925308967644,
      "loss": 3.9793,
      "step": 104470
    },
    {
      "epoch": 0.21766666666666667,
      "grad_norm": 0.7696646451950073,
      "learning_rate": 0.00026724310402988374,
      "loss": 3.9362,
      "step": 104480
    },
    {
      "epoch": 0.2176875,
      "grad_norm": 1.0080870389938354,
      "learning_rate": 0.00026723695446364724,
      "loss": 3.9891,
      "step": 104490
    },
    {
      "epoch": 0.21770833333333334,
      "grad_norm": 0.7530809640884399,
      "learning_rate": 0.00026723080439099346,
      "loss": 3.8873,
      "step": 104500
    },
    {
      "epoch": 0.21772916666666667,
      "grad_norm": 0.9744793772697449,
      "learning_rate": 0.000267224653811949,
      "loss": 4.0277,
      "step": 104510
    },
    {
      "epoch": 0.21775,
      "grad_norm": 0.7277044653892517,
      "learning_rate": 0.00026721850272654047,
      "loss": 3.9071,
      "step": 104520
    },
    {
      "epoch": 0.21777083333333333,
      "grad_norm": 0.778976559638977,
      "learning_rate": 0.0002672123511347944,
      "loss": 3.9885,
      "step": 104530
    },
    {
      "epoch": 0.21779166666666666,
      "grad_norm": 0.7113878130912781,
      "learning_rate": 0.0002672061990367373,
      "loss": 3.8071,
      "step": 104540
    },
    {
      "epoch": 0.2178125,
      "grad_norm": 0.7919794321060181,
      "learning_rate": 0.0002672000464323959,
      "loss": 3.9251,
      "step": 104550
    },
    {
      "epoch": 0.21783333333333332,
      "grad_norm": 0.7412070631980896,
      "learning_rate": 0.0002671938933217966,
      "loss": 3.8941,
      "step": 104560
    },
    {
      "epoch": 0.21785416666666665,
      "grad_norm": 0.7718671560287476,
      "learning_rate": 0.00026718773970496617,
      "loss": 4.0387,
      "step": 104570
    },
    {
      "epoch": 0.217875,
      "grad_norm": 0.7874016165733337,
      "learning_rate": 0.0002671815855819311,
      "loss": 3.8588,
      "step": 104580
    },
    {
      "epoch": 0.21789583333333334,
      "grad_norm": 0.7471857070922852,
      "learning_rate": 0.0002671754309527179,
      "loss": 3.8398,
      "step": 104590
    },
    {
      "epoch": 0.21791666666666668,
      "grad_norm": 0.809622049331665,
      "learning_rate": 0.0002671692758173532,
      "loss": 3.8368,
      "step": 104600
    },
    {
      "epoch": 0.2179375,
      "grad_norm": 0.7267488837242126,
      "learning_rate": 0.0002671631201758637,
      "loss": 3.974,
      "step": 104610
    },
    {
      "epoch": 0.21795833333333334,
      "grad_norm": 0.9010500907897949,
      "learning_rate": 0.00026715696402827583,
      "loss": 3.7927,
      "step": 104620
    },
    {
      "epoch": 0.21797916666666667,
      "grad_norm": 0.696721076965332,
      "learning_rate": 0.00026715080737461623,
      "loss": 3.855,
      "step": 104630
    },
    {
      "epoch": 0.218,
      "grad_norm": 0.8063490390777588,
      "learning_rate": 0.0002671446502149115,
      "loss": 3.892,
      "step": 104640
    },
    {
      "epoch": 0.21802083333333333,
      "grad_norm": 0.8231057524681091,
      "learning_rate": 0.00026713849254918833,
      "loss": 3.6312,
      "step": 104650
    },
    {
      "epoch": 0.21804166666666666,
      "grad_norm": 0.7074212431907654,
      "learning_rate": 0.0002671323343774732,
      "loss": 3.8466,
      "step": 104660
    },
    {
      "epoch": 0.2180625,
      "grad_norm": 0.6711615324020386,
      "learning_rate": 0.00026712617569979273,
      "loss": 3.8507,
      "step": 104670
    },
    {
      "epoch": 0.21808333333333332,
      "grad_norm": 0.7008763551712036,
      "learning_rate": 0.0002671200165161736,
      "loss": 3.8425,
      "step": 104680
    },
    {
      "epoch": 0.21810416666666665,
      "grad_norm": 0.81549471616745,
      "learning_rate": 0.0002671138568266423,
      "loss": 3.7309,
      "step": 104690
    },
    {
      "epoch": 0.218125,
      "grad_norm": 0.7578418254852295,
      "learning_rate": 0.00026710769663122557,
      "loss": 3.9151,
      "step": 104700
    },
    {
      "epoch": 0.21814583333333334,
      "grad_norm": 0.7082387208938599,
      "learning_rate": 0.0002671015359299499,
      "loss": 3.9013,
      "step": 104710
    },
    {
      "epoch": 0.21816666666666668,
      "grad_norm": 0.9113315939903259,
      "learning_rate": 0.0002670953747228419,
      "loss": 3.8836,
      "step": 104720
    },
    {
      "epoch": 0.2181875,
      "grad_norm": 0.8651805520057678,
      "learning_rate": 0.0002670892130099283,
      "loss": 4.0695,
      "step": 104730
    },
    {
      "epoch": 0.21820833333333334,
      "grad_norm": 0.8003982901573181,
      "learning_rate": 0.00026708305079123563,
      "loss": 3.8118,
      "step": 104740
    },
    {
      "epoch": 0.21822916666666667,
      "grad_norm": 0.9467316269874573,
      "learning_rate": 0.0002670768880667905,
      "loss": 4.0595,
      "step": 104750
    },
    {
      "epoch": 0.21825,
      "grad_norm": 0.7686951756477356,
      "learning_rate": 0.00026707072483661955,
      "loss": 4.0011,
      "step": 104760
    },
    {
      "epoch": 0.21827083333333333,
      "grad_norm": 0.7373315095901489,
      "learning_rate": 0.00026706456110074943,
      "loss": 3.7876,
      "step": 104770
    },
    {
      "epoch": 0.21829166666666666,
      "grad_norm": 0.7608977556228638,
      "learning_rate": 0.00026705839685920677,
      "loss": 4.0293,
      "step": 104780
    },
    {
      "epoch": 0.2183125,
      "grad_norm": 0.7952674031257629,
      "learning_rate": 0.0002670522321120181,
      "loss": 3.9461,
      "step": 104790
    },
    {
      "epoch": 0.21833333333333332,
      "grad_norm": 0.656443178653717,
      "learning_rate": 0.0002670460668592102,
      "loss": 4.0416,
      "step": 104800
    },
    {
      "epoch": 0.21835416666666665,
      "grad_norm": 0.8711400032043457,
      "learning_rate": 0.0002670399011008096,
      "loss": 4.0224,
      "step": 104810
    },
    {
      "epoch": 0.218375,
      "grad_norm": 0.8473699688911438,
      "learning_rate": 0.0002670337348368429,
      "loss": 3.9552,
      "step": 104820
    },
    {
      "epoch": 0.21839583333333334,
      "grad_norm": 0.8371500968933105,
      "learning_rate": 0.00026702756806733685,
      "loss": 3.8966,
      "step": 104830
    },
    {
      "epoch": 0.21841666666666668,
      "grad_norm": 0.7243757843971252,
      "learning_rate": 0.000267021400792318,
      "loss": 3.9566,
      "step": 104840
    },
    {
      "epoch": 0.2184375,
      "grad_norm": 0.7674323916435242,
      "learning_rate": 0.00026701523301181303,
      "loss": 4.0358,
      "step": 104850
    },
    {
      "epoch": 0.21845833333333334,
      "grad_norm": 0.7585069537162781,
      "learning_rate": 0.00026700906472584856,
      "loss": 3.792,
      "step": 104860
    },
    {
      "epoch": 0.21847916666666667,
      "grad_norm": 0.8280012011528015,
      "learning_rate": 0.00026700289593445126,
      "loss": 3.9146,
      "step": 104870
    },
    {
      "epoch": 0.2185,
      "grad_norm": 0.8288918137550354,
      "learning_rate": 0.00026699672663764776,
      "loss": 3.7976,
      "step": 104880
    },
    {
      "epoch": 0.21852083333333333,
      "grad_norm": 0.7592902779579163,
      "learning_rate": 0.00026699055683546466,
      "loss": 3.958,
      "step": 104890
    },
    {
      "epoch": 0.21854166666666666,
      "grad_norm": 0.6763870716094971,
      "learning_rate": 0.00026698438652792875,
      "loss": 3.9607,
      "step": 104900
    },
    {
      "epoch": 0.2185625,
      "grad_norm": 0.7556689977645874,
      "learning_rate": 0.00026697821571506654,
      "loss": 3.9862,
      "step": 104910
    },
    {
      "epoch": 0.21858333333333332,
      "grad_norm": 0.856159508228302,
      "learning_rate": 0.0002669720443969048,
      "loss": 3.9369,
      "step": 104920
    },
    {
      "epoch": 0.21860416666666665,
      "grad_norm": 0.7842695116996765,
      "learning_rate": 0.00026696587257347005,
      "loss": 3.8061,
      "step": 104930
    },
    {
      "epoch": 0.218625,
      "grad_norm": 0.762103796005249,
      "learning_rate": 0.00026695970024478906,
      "loss": 3.959,
      "step": 104940
    },
    {
      "epoch": 0.21864583333333334,
      "grad_norm": 0.7334314584732056,
      "learning_rate": 0.00026695352741088846,
      "loss": 3.9698,
      "step": 104950
    },
    {
      "epoch": 0.21866666666666668,
      "grad_norm": 0.7618116736412048,
      "learning_rate": 0.0002669473540717949,
      "loss": 3.7954,
      "step": 104960
    },
    {
      "epoch": 0.2186875,
      "grad_norm": 0.7822664380073547,
      "learning_rate": 0.00026694118022753513,
      "loss": 3.8656,
      "step": 104970
    },
    {
      "epoch": 0.21870833333333334,
      "grad_norm": 0.7530372738838196,
      "learning_rate": 0.0002669350058781357,
      "loss": 4.1112,
      "step": 104980
    },
    {
      "epoch": 0.21872916666666667,
      "grad_norm": 0.9639653563499451,
      "learning_rate": 0.00026692883102362333,
      "loss": 3.8474,
      "step": 104990
    },
    {
      "epoch": 0.21875,
      "grad_norm": 1.0002776384353638,
      "learning_rate": 0.00026692265566402465,
      "loss": 3.7543,
      "step": 105000
    },
    {
      "epoch": 0.21875,
      "eval_loss": 4.2600297927856445,
      "eval_runtime": 11.4193,
      "eval_samples_per_second": 0.876,
      "eval_steps_per_second": 0.263,
      "step": 105000
    },
    {
      "epoch": 0.21877083333333333,
      "grad_norm": 0.8150566816329956,
      "learning_rate": 0.00026691647979936643,
      "loss": 3.9516,
      "step": 105010
    },
    {
      "epoch": 0.21879166666666666,
      "grad_norm": 0.8290562033653259,
      "learning_rate": 0.00026691030342967535,
      "loss": 3.845,
      "step": 105020
    },
    {
      "epoch": 0.2188125,
      "grad_norm": 0.8604964017868042,
      "learning_rate": 0.00026690412655497797,
      "loss": 3.805,
      "step": 105030
    },
    {
      "epoch": 0.21883333333333332,
      "grad_norm": 0.7329251170158386,
      "learning_rate": 0.000266897949175301,
      "loss": 3.6805,
      "step": 105040
    },
    {
      "epoch": 0.21885416666666666,
      "grad_norm": 0.6748791933059692,
      "learning_rate": 0.00026689177129067125,
      "loss": 3.8343,
      "step": 105050
    },
    {
      "epoch": 0.218875,
      "grad_norm": 0.8582395911216736,
      "learning_rate": 0.00026688559290111527,
      "loss": 3.7663,
      "step": 105060
    },
    {
      "epoch": 0.21889583333333335,
      "grad_norm": 0.7886938452720642,
      "learning_rate": 0.00026687941400665977,
      "loss": 3.9143,
      "step": 105070
    },
    {
      "epoch": 0.21891666666666668,
      "grad_norm": 0.759994626045227,
      "learning_rate": 0.0002668732346073315,
      "loss": 3.8949,
      "step": 105080
    },
    {
      "epoch": 0.2189375,
      "grad_norm": 0.728993833065033,
      "learning_rate": 0.0002668670547031571,
      "loss": 3.8713,
      "step": 105090
    },
    {
      "epoch": 0.21895833333333334,
      "grad_norm": 0.9658108949661255,
      "learning_rate": 0.0002668608742941633,
      "loss": 3.9185,
      "step": 105100
    },
    {
      "epoch": 0.21897916666666667,
      "grad_norm": 0.8262014985084534,
      "learning_rate": 0.0002668546933803768,
      "loss": 3.9789,
      "step": 105110
    },
    {
      "epoch": 0.219,
      "grad_norm": 0.7392993569374084,
      "learning_rate": 0.0002668485119618242,
      "loss": 3.8367,
      "step": 105120
    },
    {
      "epoch": 0.21902083333333333,
      "grad_norm": 0.7432605624198914,
      "learning_rate": 0.00026684233003853236,
      "loss": 3.882,
      "step": 105130
    },
    {
      "epoch": 0.21904166666666666,
      "grad_norm": 0.7666639685630798,
      "learning_rate": 0.00026683614761052786,
      "loss": 3.9536,
      "step": 105140
    },
    {
      "epoch": 0.2190625,
      "grad_norm": 0.7497982978820801,
      "learning_rate": 0.00026682996467783745,
      "loss": 3.9303,
      "step": 105150
    },
    {
      "epoch": 0.21908333333333332,
      "grad_norm": 0.7865482568740845,
      "learning_rate": 0.0002668237812404879,
      "loss": 3.8498,
      "step": 105160
    },
    {
      "epoch": 0.21910416666666666,
      "grad_norm": 0.7616860270500183,
      "learning_rate": 0.0002668175972985058,
      "loss": 4.0287,
      "step": 105170
    },
    {
      "epoch": 0.219125,
      "grad_norm": 0.71839439868927,
      "learning_rate": 0.0002668114128519179,
      "loss": 3.9839,
      "step": 105180
    },
    {
      "epoch": 0.21914583333333335,
      "grad_norm": 0.7999733090400696,
      "learning_rate": 0.000266805227900751,
      "loss": 3.9214,
      "step": 105190
    },
    {
      "epoch": 0.21916666666666668,
      "grad_norm": 0.7660910487174988,
      "learning_rate": 0.00026679904244503167,
      "loss": 3.9398,
      "step": 105200
    },
    {
      "epoch": 0.2191875,
      "grad_norm": 0.7827932238578796,
      "learning_rate": 0.00026679285648478676,
      "loss": 3.9862,
      "step": 105210
    },
    {
      "epoch": 0.21920833333333334,
      "grad_norm": 0.7547827959060669,
      "learning_rate": 0.00026678667002004295,
      "loss": 4.0437,
      "step": 105220
    },
    {
      "epoch": 0.21922916666666667,
      "grad_norm": 0.9763752818107605,
      "learning_rate": 0.0002667804830508269,
      "loss": 3.773,
      "step": 105230
    },
    {
      "epoch": 0.21925,
      "grad_norm": 0.7883580327033997,
      "learning_rate": 0.00026677429557716545,
      "loss": 3.8381,
      "step": 105240
    },
    {
      "epoch": 0.21927083333333333,
      "grad_norm": 0.8377566337585449,
      "learning_rate": 0.00026676810759908526,
      "loss": 3.7737,
      "step": 105250
    },
    {
      "epoch": 0.21929166666666666,
      "grad_norm": 0.719329297542572,
      "learning_rate": 0.000266761919116613,
      "loss": 3.953,
      "step": 105260
    },
    {
      "epoch": 0.2193125,
      "grad_norm": 0.859813392162323,
      "learning_rate": 0.0002667557301297755,
      "loss": 4.0518,
      "step": 105270
    },
    {
      "epoch": 0.21933333333333332,
      "grad_norm": 0.6758179068565369,
      "learning_rate": 0.00026674954063859947,
      "loss": 4.0481,
      "step": 105280
    },
    {
      "epoch": 0.21935416666666666,
      "grad_norm": 0.7060511708259583,
      "learning_rate": 0.00026674335064311166,
      "loss": 3.8006,
      "step": 105290
    },
    {
      "epoch": 0.219375,
      "grad_norm": 0.7398645877838135,
      "learning_rate": 0.00026673716014333877,
      "loss": 3.8796,
      "step": 105300
    },
    {
      "epoch": 0.21939583333333335,
      "grad_norm": 0.724229097366333,
      "learning_rate": 0.00026673096913930756,
      "loss": 3.9223,
      "step": 105310
    },
    {
      "epoch": 0.21941666666666668,
      "grad_norm": 0.6884937286376953,
      "learning_rate": 0.00026672477763104477,
      "loss": 3.886,
      "step": 105320
    },
    {
      "epoch": 0.2194375,
      "grad_norm": 0.7349305748939514,
      "learning_rate": 0.0002667185856185771,
      "loss": 3.9454,
      "step": 105330
    },
    {
      "epoch": 0.21945833333333334,
      "grad_norm": 0.7666019201278687,
      "learning_rate": 0.0002667123931019314,
      "loss": 3.7856,
      "step": 105340
    },
    {
      "epoch": 0.21947916666666667,
      "grad_norm": 0.6945618987083435,
      "learning_rate": 0.0002667062000811343,
      "loss": 4.0033,
      "step": 105350
    },
    {
      "epoch": 0.2195,
      "grad_norm": 0.7147140502929688,
      "learning_rate": 0.00026670000655621264,
      "loss": 4.1642,
      "step": 105360
    },
    {
      "epoch": 0.21952083333333333,
      "grad_norm": 0.8542624115943909,
      "learning_rate": 0.0002666938125271932,
      "loss": 3.8872,
      "step": 105370
    },
    {
      "epoch": 0.21954166666666666,
      "grad_norm": 0.7031590342521667,
      "learning_rate": 0.0002666876179941026,
      "loss": 4.0464,
      "step": 105380
    },
    {
      "epoch": 0.2195625,
      "grad_norm": 0.771092414855957,
      "learning_rate": 0.0002666814229569677,
      "loss": 3.8151,
      "step": 105390
    },
    {
      "epoch": 0.21958333333333332,
      "grad_norm": 0.712288498878479,
      "learning_rate": 0.00026667522741581525,
      "loss": 4.0759,
      "step": 105400
    },
    {
      "epoch": 0.21960416666666666,
      "grad_norm": 0.7369149923324585,
      "learning_rate": 0.000266669031370672,
      "loss": 3.9501,
      "step": 105410
    },
    {
      "epoch": 0.219625,
      "grad_norm": 0.7684122323989868,
      "learning_rate": 0.0002666628348215647,
      "loss": 4.0854,
      "step": 105420
    },
    {
      "epoch": 0.21964583333333335,
      "grad_norm": 0.7138094305992126,
      "learning_rate": 0.00026665663776852017,
      "loss": 3.9972,
      "step": 105430
    },
    {
      "epoch": 0.21966666666666668,
      "grad_norm": 0.7374135851860046,
      "learning_rate": 0.0002666504402115651,
      "loss": 3.7908,
      "step": 105440
    },
    {
      "epoch": 0.2196875,
      "grad_norm": 0.8267068266868591,
      "learning_rate": 0.0002666442421507263,
      "loss": 3.8005,
      "step": 105450
    },
    {
      "epoch": 0.21970833333333334,
      "grad_norm": 1.0193334817886353,
      "learning_rate": 0.00026663804358603054,
      "loss": 3.7568,
      "step": 105460
    },
    {
      "epoch": 0.21972916666666667,
      "grad_norm": 0.8747304677963257,
      "learning_rate": 0.0002666318445175047,
      "loss": 3.9957,
      "step": 105470
    },
    {
      "epoch": 0.21975,
      "grad_norm": 0.9369239807128906,
      "learning_rate": 0.0002666256449451753,
      "loss": 3.8707,
      "step": 105480
    },
    {
      "epoch": 0.21977083333333333,
      "grad_norm": 0.700725793838501,
      "learning_rate": 0.0002666194448690694,
      "loss": 3.8802,
      "step": 105490
    },
    {
      "epoch": 0.21979166666666666,
      "grad_norm": 0.726491391658783,
      "learning_rate": 0.0002666132442892136,
      "loss": 4.0617,
      "step": 105500
    },
    {
      "epoch": 0.2198125,
      "grad_norm": 0.746843159198761,
      "learning_rate": 0.0002666070432056348,
      "loss": 3.8178,
      "step": 105510
    },
    {
      "epoch": 0.21983333333333333,
      "grad_norm": 0.7673795223236084,
      "learning_rate": 0.00026660084161835967,
      "loss": 3.797,
      "step": 105520
    },
    {
      "epoch": 0.21985416666666666,
      "grad_norm": 0.7605812549591064,
      "learning_rate": 0.00026659463952741506,
      "loss": 3.9315,
      "step": 105530
    },
    {
      "epoch": 0.219875,
      "grad_norm": 0.763658344745636,
      "learning_rate": 0.00026658843693282776,
      "loss": 4.0043,
      "step": 105540
    },
    {
      "epoch": 0.21989583333333335,
      "grad_norm": 0.8275021910667419,
      "learning_rate": 0.0002665822338346246,
      "loss": 3.8891,
      "step": 105550
    },
    {
      "epoch": 0.21991666666666668,
      "grad_norm": 0.7398106455802917,
      "learning_rate": 0.0002665760302328323,
      "loss": 3.8445,
      "step": 105560
    },
    {
      "epoch": 0.2199375,
      "grad_norm": 0.8677472472190857,
      "learning_rate": 0.0002665698261274777,
      "loss": 3.9601,
      "step": 105570
    },
    {
      "epoch": 0.21995833333333334,
      "grad_norm": 0.8173753619194031,
      "learning_rate": 0.0002665636215185876,
      "loss": 3.9152,
      "step": 105580
    },
    {
      "epoch": 0.21997916666666667,
      "grad_norm": 0.7400959730148315,
      "learning_rate": 0.0002665574164061888,
      "loss": 4.0748,
      "step": 105590
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9690905809402466,
      "learning_rate": 0.0002665512107903081,
      "loss": 3.938,
      "step": 105600
    },
    {
      "epoch": 0.22002083333333333,
      "grad_norm": 0.8001475930213928,
      "learning_rate": 0.0002665450046709723,
      "loss": 3.9462,
      "step": 105610
    },
    {
      "epoch": 0.22004166666666666,
      "grad_norm": 0.7573313117027283,
      "learning_rate": 0.00026653879804820817,
      "loss": 3.8258,
      "step": 105620
    },
    {
      "epoch": 0.2200625,
      "grad_norm": 0.8333478569984436,
      "learning_rate": 0.0002665325909220426,
      "loss": 3.9399,
      "step": 105630
    },
    {
      "epoch": 0.22008333333333333,
      "grad_norm": 0.6649231910705566,
      "learning_rate": 0.0002665263832925024,
      "loss": 4.0425,
      "step": 105640
    },
    {
      "epoch": 0.22010416666666666,
      "grad_norm": 0.7845414876937866,
      "learning_rate": 0.00026652017515961426,
      "loss": 3.9934,
      "step": 105650
    },
    {
      "epoch": 0.220125,
      "grad_norm": 0.7115461826324463,
      "learning_rate": 0.00026651396652340516,
      "loss": 3.6655,
      "step": 105660
    },
    {
      "epoch": 0.22014583333333335,
      "grad_norm": 0.7441027760505676,
      "learning_rate": 0.0002665077573839018,
      "loss": 3.906,
      "step": 105670
    },
    {
      "epoch": 0.22016666666666668,
      "grad_norm": 0.8220618963241577,
      "learning_rate": 0.0002665015477411311,
      "loss": 3.8488,
      "step": 105680
    },
    {
      "epoch": 0.2201875,
      "grad_norm": 0.726945161819458,
      "learning_rate": 0.0002664953375951198,
      "loss": 3.8297,
      "step": 105690
    },
    {
      "epoch": 0.22020833333333334,
      "grad_norm": 0.7362468838691711,
      "learning_rate": 0.00026648912694589473,
      "loss": 3.746,
      "step": 105700
    },
    {
      "epoch": 0.22022916666666667,
      "grad_norm": 0.7386288642883301,
      "learning_rate": 0.00026648291579348273,
      "loss": 3.7976,
      "step": 105710
    },
    {
      "epoch": 0.22025,
      "grad_norm": 0.7297850251197815,
      "learning_rate": 0.0002664767041379107,
      "loss": 4.0067,
      "step": 105720
    },
    {
      "epoch": 0.22027083333333333,
      "grad_norm": 0.7793077230453491,
      "learning_rate": 0.00026647049197920536,
      "loss": 3.9055,
      "step": 105730
    },
    {
      "epoch": 0.22029166666666666,
      "grad_norm": 0.7442745566368103,
      "learning_rate": 0.00026646427931739365,
      "loss": 3.8418,
      "step": 105740
    },
    {
      "epoch": 0.2203125,
      "grad_norm": 0.8482430577278137,
      "learning_rate": 0.00026645806615250233,
      "loss": 3.8892,
      "step": 105750
    },
    {
      "epoch": 0.22033333333333333,
      "grad_norm": 0.85197913646698,
      "learning_rate": 0.0002664518524845582,
      "loss": 3.9189,
      "step": 105760
    },
    {
      "epoch": 0.22035416666666666,
      "grad_norm": 0.853791356086731,
      "learning_rate": 0.0002664456383135882,
      "loss": 3.913,
      "step": 105770
    },
    {
      "epoch": 0.220375,
      "grad_norm": 0.719450056552887,
      "learning_rate": 0.0002664394236396192,
      "loss": 3.8338,
      "step": 105780
    },
    {
      "epoch": 0.22039583333333335,
      "grad_norm": 0.768027663230896,
      "learning_rate": 0.0002664332084626779,
      "loss": 4.0376,
      "step": 105790
    },
    {
      "epoch": 0.22041666666666668,
      "grad_norm": 0.7706342339515686,
      "learning_rate": 0.00026642699278279125,
      "loss": 3.8771,
      "step": 105800
    },
    {
      "epoch": 0.2204375,
      "grad_norm": 0.8393242955207825,
      "learning_rate": 0.0002664207765999861,
      "loss": 3.9024,
      "step": 105810
    },
    {
      "epoch": 0.22045833333333334,
      "grad_norm": 0.839827835559845,
      "learning_rate": 0.0002664145599142893,
      "loss": 3.7915,
      "step": 105820
    },
    {
      "epoch": 0.22047916666666667,
      "grad_norm": 0.8493495583534241,
      "learning_rate": 0.0002664083427257276,
      "loss": 4.0486,
      "step": 105830
    },
    {
      "epoch": 0.2205,
      "grad_norm": 0.7559679746627808,
      "learning_rate": 0.000266402125034328,
      "loss": 3.7525,
      "step": 105840
    },
    {
      "epoch": 0.22052083333333333,
      "grad_norm": 0.785567045211792,
      "learning_rate": 0.00026639590684011727,
      "loss": 3.8833,
      "step": 105850
    },
    {
      "epoch": 0.22054166666666666,
      "grad_norm": 0.8014571070671082,
      "learning_rate": 0.0002663896881431223,
      "loss": 3.9134,
      "step": 105860
    },
    {
      "epoch": 0.2205625,
      "grad_norm": 0.7504716515541077,
      "learning_rate": 0.0002663834689433699,
      "loss": 3.8839,
      "step": 105870
    },
    {
      "epoch": 0.22058333333333333,
      "grad_norm": 0.7571702003479004,
      "learning_rate": 0.0002663772492408871,
      "loss": 3.8229,
      "step": 105880
    },
    {
      "epoch": 0.22060416666666666,
      "grad_norm": 0.7657384276390076,
      "learning_rate": 0.00026637102903570055,
      "loss": 3.6461,
      "step": 105890
    },
    {
      "epoch": 0.220625,
      "grad_norm": 0.7977587580680847,
      "learning_rate": 0.00026636480832783723,
      "loss": 3.6772,
      "step": 105900
    },
    {
      "epoch": 0.22064583333333335,
      "grad_norm": 0.7607811093330383,
      "learning_rate": 0.000266358587117324,
      "loss": 3.7536,
      "step": 105910
    },
    {
      "epoch": 0.22066666666666668,
      "grad_norm": 0.7685151696205139,
      "learning_rate": 0.00026635236540418773,
      "loss": 3.9102,
      "step": 105920
    },
    {
      "epoch": 0.2206875,
      "grad_norm": 0.9433813691139221,
      "learning_rate": 0.00026634614318845533,
      "loss": 3.9243,
      "step": 105930
    },
    {
      "epoch": 0.22070833333333334,
      "grad_norm": 0.8997839689254761,
      "learning_rate": 0.00026633992047015364,
      "loss": 3.7783,
      "step": 105940
    },
    {
      "epoch": 0.22072916666666667,
      "grad_norm": 0.7003724575042725,
      "learning_rate": 0.0002663336972493095,
      "loss": 3.772,
      "step": 105950
    },
    {
      "epoch": 0.22075,
      "grad_norm": 0.7610173225402832,
      "learning_rate": 0.0002663274735259499,
      "loss": 3.894,
      "step": 105960
    },
    {
      "epoch": 0.22077083333333333,
      "grad_norm": 0.7154001593589783,
      "learning_rate": 0.0002663212493001016,
      "loss": 3.7608,
      "step": 105970
    },
    {
      "epoch": 0.22079166666666666,
      "grad_norm": 0.751069188117981,
      "learning_rate": 0.0002663150245717916,
      "loss": 3.9089,
      "step": 105980
    },
    {
      "epoch": 0.2208125,
      "grad_norm": 0.7022091150283813,
      "learning_rate": 0.0002663087993410467,
      "loss": 3.7608,
      "step": 105990
    },
    {
      "epoch": 0.22083333333333333,
      "grad_norm": 0.6944957971572876,
      "learning_rate": 0.0002663025736078938,
      "loss": 3.897,
      "step": 106000
    },
    {
      "epoch": 0.22083333333333333,
      "eval_loss": 4.263007164001465,
      "eval_runtime": 11.5851,
      "eval_samples_per_second": 0.863,
      "eval_steps_per_second": 0.259,
      "step": 106000
    },
    {
      "epoch": 0.22085416666666666,
      "grad_norm": 0.7495271563529968,
      "learning_rate": 0.0002662963473723599,
      "loss": 3.9281,
      "step": 106010
    },
    {
      "epoch": 0.220875,
      "grad_norm": 0.9212570190429688,
      "learning_rate": 0.00026629012063447173,
      "loss": 3.8094,
      "step": 106020
    },
    {
      "epoch": 0.22089583333333335,
      "grad_norm": 0.7677696943283081,
      "learning_rate": 0.0002662838933942563,
      "loss": 3.9096,
      "step": 106030
    },
    {
      "epoch": 0.22091666666666668,
      "grad_norm": 0.8192338943481445,
      "learning_rate": 0.0002662776656517405,
      "loss": 3.7621,
      "step": 106040
    },
    {
      "epoch": 0.2209375,
      "grad_norm": 0.767661452293396,
      "learning_rate": 0.00026627143740695115,
      "loss": 4.0155,
      "step": 106050
    },
    {
      "epoch": 0.22095833333333334,
      "grad_norm": 0.782114565372467,
      "learning_rate": 0.00026626520865991526,
      "loss": 3.927,
      "step": 106060
    },
    {
      "epoch": 0.22097916666666667,
      "grad_norm": 0.7513480186462402,
      "learning_rate": 0.00026625897941065974,
      "loss": 3.8428,
      "step": 106070
    },
    {
      "epoch": 0.221,
      "grad_norm": 0.7380729913711548,
      "learning_rate": 0.00026625274965921136,
      "loss": 4.0565,
      "step": 106080
    },
    {
      "epoch": 0.22102083333333333,
      "grad_norm": 0.7644425630569458,
      "learning_rate": 0.00026624651940559713,
      "loss": 3.8958,
      "step": 106090
    },
    {
      "epoch": 0.22104166666666666,
      "grad_norm": 0.7268819808959961,
      "learning_rate": 0.000266240288649844,
      "loss": 3.8689,
      "step": 106100
    },
    {
      "epoch": 0.2210625,
      "grad_norm": 0.9829049110412598,
      "learning_rate": 0.00026623405739197877,
      "loss": 3.8698,
      "step": 106110
    },
    {
      "epoch": 0.22108333333333333,
      "grad_norm": 0.7404220700263977,
      "learning_rate": 0.00026622782563202847,
      "loss": 3.9373,
      "step": 106120
    },
    {
      "epoch": 0.22110416666666666,
      "grad_norm": 0.6607434749603271,
      "learning_rate": 0.00026622159337002,
      "loss": 3.9529,
      "step": 106130
    },
    {
      "epoch": 0.221125,
      "grad_norm": 0.7616944909095764,
      "learning_rate": 0.0002662153606059801,
      "loss": 3.827,
      "step": 106140
    },
    {
      "epoch": 0.22114583333333335,
      "grad_norm": 0.7866303324699402,
      "learning_rate": 0.000266209127339936,
      "loss": 3.9808,
      "step": 106150
    },
    {
      "epoch": 0.22116666666666668,
      "grad_norm": 0.8451835513114929,
      "learning_rate": 0.00026620289357191443,
      "loss": 4.1705,
      "step": 106160
    },
    {
      "epoch": 0.2211875,
      "grad_norm": 0.7590757608413696,
      "learning_rate": 0.0002661966593019423,
      "loss": 3.7789,
      "step": 106170
    },
    {
      "epoch": 0.22120833333333334,
      "grad_norm": 0.7942466139793396,
      "learning_rate": 0.00026619042453004667,
      "loss": 3.8496,
      "step": 106180
    },
    {
      "epoch": 0.22122916666666667,
      "grad_norm": 0.7167297005653381,
      "learning_rate": 0.00026618418925625437,
      "loss": 3.9271,
      "step": 106190
    },
    {
      "epoch": 0.22125,
      "grad_norm": 0.8119813203811646,
      "learning_rate": 0.00026617795348059237,
      "loss": 4.1465,
      "step": 106200
    },
    {
      "epoch": 0.22127083333333333,
      "grad_norm": 0.7014748454093933,
      "learning_rate": 0.00026617171720308755,
      "loss": 3.8074,
      "step": 106210
    },
    {
      "epoch": 0.22129166666666666,
      "grad_norm": 0.7355243563652039,
      "learning_rate": 0.00026616548042376697,
      "loss": 4.0249,
      "step": 106220
    },
    {
      "epoch": 0.2213125,
      "grad_norm": 0.8808769583702087,
      "learning_rate": 0.00026615924314265745,
      "loss": 4.0511,
      "step": 106230
    },
    {
      "epoch": 0.22133333333333333,
      "grad_norm": 0.7928478717803955,
      "learning_rate": 0.00026615300535978595,
      "loss": 3.8143,
      "step": 106240
    },
    {
      "epoch": 0.22135416666666666,
      "grad_norm": 0.6332072615623474,
      "learning_rate": 0.00026614676707517945,
      "loss": 4.0583,
      "step": 106250
    },
    {
      "epoch": 0.221375,
      "grad_norm": 0.8525303602218628,
      "learning_rate": 0.00026614052828886496,
      "loss": 3.954,
      "step": 106260
    },
    {
      "epoch": 0.22139583333333332,
      "grad_norm": 0.7928577065467834,
      "learning_rate": 0.0002661342890008693,
      "loss": 3.7744,
      "step": 106270
    },
    {
      "epoch": 0.22141666666666668,
      "grad_norm": 0.7467909455299377,
      "learning_rate": 0.0002661280492112195,
      "loss": 3.7889,
      "step": 106280
    },
    {
      "epoch": 0.2214375,
      "grad_norm": 0.743579626083374,
      "learning_rate": 0.0002661218089199425,
      "loss": 3.9343,
      "step": 106290
    },
    {
      "epoch": 0.22145833333333334,
      "grad_norm": 0.7375714182853699,
      "learning_rate": 0.00026611556812706523,
      "loss": 3.9651,
      "step": 106300
    },
    {
      "epoch": 0.22147916666666667,
      "grad_norm": 0.9413690567016602,
      "learning_rate": 0.0002661093268326147,
      "loss": 3.7796,
      "step": 106310
    },
    {
      "epoch": 0.2215,
      "grad_norm": 0.7928476929664612,
      "learning_rate": 0.00026610308503661784,
      "loss": 3.9487,
      "step": 106320
    },
    {
      "epoch": 0.22152083333333333,
      "grad_norm": 0.8981952667236328,
      "learning_rate": 0.00026609684273910155,
      "loss": 3.9585,
      "step": 106330
    },
    {
      "epoch": 0.22154166666666666,
      "grad_norm": 0.6752199530601501,
      "learning_rate": 0.0002660905999400929,
      "loss": 3.7719,
      "step": 106340
    },
    {
      "epoch": 0.2215625,
      "grad_norm": 0.8216575980186462,
      "learning_rate": 0.00026608435663961875,
      "loss": 3.9238,
      "step": 106350
    },
    {
      "epoch": 0.22158333333333333,
      "grad_norm": 0.7550071477890015,
      "learning_rate": 0.0002660781128377062,
      "loss": 3.7972,
      "step": 106360
    },
    {
      "epoch": 0.22160416666666666,
      "grad_norm": 0.698108971118927,
      "learning_rate": 0.00026607186853438216,
      "loss": 3.8589,
      "step": 106370
    },
    {
      "epoch": 0.221625,
      "grad_norm": 0.804286539554596,
      "learning_rate": 0.00026606562372967355,
      "loss": 3.8882,
      "step": 106380
    },
    {
      "epoch": 0.22164583333333332,
      "grad_norm": 0.884022057056427,
      "learning_rate": 0.00026605937842360736,
      "loss": 4.0031,
      "step": 106390
    },
    {
      "epoch": 0.22166666666666668,
      "grad_norm": 0.7534272074699402,
      "learning_rate": 0.00026605313261621064,
      "loss": 3.9992,
      "step": 106400
    },
    {
      "epoch": 0.2216875,
      "grad_norm": 0.6922098398208618,
      "learning_rate": 0.00026604688630751033,
      "loss": 3.764,
      "step": 106410
    },
    {
      "epoch": 0.22170833333333334,
      "grad_norm": 0.8696918487548828,
      "learning_rate": 0.00026604063949753337,
      "loss": 3.9052,
      "step": 106420
    },
    {
      "epoch": 0.22172916666666667,
      "grad_norm": 0.8363291025161743,
      "learning_rate": 0.0002660343921863068,
      "loss": 3.9409,
      "step": 106430
    },
    {
      "epoch": 0.22175,
      "grad_norm": 0.8817480206489563,
      "learning_rate": 0.0002660281443738576,
      "loss": 3.9565,
      "step": 106440
    },
    {
      "epoch": 0.22177083333333333,
      "grad_norm": 0.7801922559738159,
      "learning_rate": 0.0002660218960602127,
      "loss": 3.9034,
      "step": 106450
    },
    {
      "epoch": 0.22179166666666666,
      "grad_norm": 0.7722594141960144,
      "learning_rate": 0.0002660156472453992,
      "loss": 3.9085,
      "step": 106460
    },
    {
      "epoch": 0.2218125,
      "grad_norm": 0.8719643950462341,
      "learning_rate": 0.000266009397929444,
      "loss": 4.0434,
      "step": 106470
    },
    {
      "epoch": 0.22183333333333333,
      "grad_norm": 0.7910572290420532,
      "learning_rate": 0.0002660031481123741,
      "loss": 4.0634,
      "step": 106480
    },
    {
      "epoch": 0.22185416666666666,
      "grad_norm": 1.0808076858520508,
      "learning_rate": 0.0002659968977942165,
      "loss": 4.0856,
      "step": 106490
    },
    {
      "epoch": 0.221875,
      "grad_norm": 0.8004506826400757,
      "learning_rate": 0.0002659906469749983,
      "loss": 3.8287,
      "step": 106500
    },
    {
      "epoch": 0.22189583333333332,
      "grad_norm": 0.8332095742225647,
      "learning_rate": 0.0002659843956547463,
      "loss": 3.859,
      "step": 106510
    },
    {
      "epoch": 0.22191666666666668,
      "grad_norm": 0.7841601967811584,
      "learning_rate": 0.0002659781438334877,
      "loss": 3.8558,
      "step": 106520
    },
    {
      "epoch": 0.2219375,
      "grad_norm": 0.7245835661888123,
      "learning_rate": 0.0002659718915112494,
      "loss": 3.8181,
      "step": 106530
    },
    {
      "epoch": 0.22195833333333334,
      "grad_norm": 0.7690312266349792,
      "learning_rate": 0.00026596563868805845,
      "loss": 3.8979,
      "step": 106540
    },
    {
      "epoch": 0.22197916666666667,
      "grad_norm": 0.7009631395339966,
      "learning_rate": 0.00026595938536394184,
      "loss": 3.9225,
      "step": 106550
    },
    {
      "epoch": 0.222,
      "grad_norm": 0.674130916595459,
      "learning_rate": 0.00026595313153892654,
      "loss": 3.9704,
      "step": 106560
    },
    {
      "epoch": 0.22202083333333333,
      "grad_norm": 0.9195488095283508,
      "learning_rate": 0.0002659468772130397,
      "loss": 3.7929,
      "step": 106570
    },
    {
      "epoch": 0.22204166666666666,
      "grad_norm": 0.7544596791267395,
      "learning_rate": 0.00026594062238630817,
      "loss": 3.8474,
      "step": 106580
    },
    {
      "epoch": 0.2220625,
      "grad_norm": 0.9778372645378113,
      "learning_rate": 0.0002659343670587591,
      "loss": 3.6234,
      "step": 106590
    },
    {
      "epoch": 0.22208333333333333,
      "grad_norm": 0.8703648447990417,
      "learning_rate": 0.00026592811123041937,
      "loss": 3.8989,
      "step": 106600
    },
    {
      "epoch": 0.22210416666666666,
      "grad_norm": 0.8328741192817688,
      "learning_rate": 0.00026592185490131615,
      "loss": 3.8533,
      "step": 106610
    },
    {
      "epoch": 0.222125,
      "grad_norm": 0.6787323355674744,
      "learning_rate": 0.00026591559807147643,
      "loss": 3.9707,
      "step": 106620
    },
    {
      "epoch": 0.22214583333333332,
      "grad_norm": 0.7863646745681763,
      "learning_rate": 0.00026590934074092716,
      "loss": 3.966,
      "step": 106630
    },
    {
      "epoch": 0.22216666666666668,
      "grad_norm": 0.7725445628166199,
      "learning_rate": 0.00026590308290969544,
      "loss": 3.9065,
      "step": 106640
    },
    {
      "epoch": 0.2221875,
      "grad_norm": 0.7791009545326233,
      "learning_rate": 0.00026589682457780827,
      "loss": 4.0331,
      "step": 106650
    },
    {
      "epoch": 0.22220833333333334,
      "grad_norm": 0.7611457705497742,
      "learning_rate": 0.0002658905657452927,
      "loss": 3.9234,
      "step": 106660
    },
    {
      "epoch": 0.22222916666666667,
      "grad_norm": 0.8106477856636047,
      "learning_rate": 0.0002658843064121757,
      "loss": 4.0255,
      "step": 106670
    },
    {
      "epoch": 0.22225,
      "grad_norm": 0.7849729657173157,
      "learning_rate": 0.00026587804657848444,
      "loss": 4.0635,
      "step": 106680
    },
    {
      "epoch": 0.22227083333333333,
      "grad_norm": 0.6616964936256409,
      "learning_rate": 0.00026587178624424586,
      "loss": 3.8768,
      "step": 106690
    },
    {
      "epoch": 0.22229166666666667,
      "grad_norm": 0.7264218330383301,
      "learning_rate": 0.000265865525409487,
      "loss": 4.1401,
      "step": 106700
    },
    {
      "epoch": 0.2223125,
      "grad_norm": 0.8588873147964478,
      "learning_rate": 0.000265859264074235,
      "loss": 3.8622,
      "step": 106710
    },
    {
      "epoch": 0.22233333333333333,
      "grad_norm": 0.712618350982666,
      "learning_rate": 0.0002658530022385168,
      "loss": 3.9907,
      "step": 106720
    },
    {
      "epoch": 0.22235416666666666,
      "grad_norm": 0.7516477108001709,
      "learning_rate": 0.0002658467399023595,
      "loss": 3.9207,
      "step": 106730
    },
    {
      "epoch": 0.222375,
      "grad_norm": 0.758374035358429,
      "learning_rate": 0.00026584047706579013,
      "loss": 4.0066,
      "step": 106740
    },
    {
      "epoch": 0.22239583333333332,
      "grad_norm": 0.8018149137496948,
      "learning_rate": 0.00026583421372883574,
      "loss": 3.9142,
      "step": 106750
    },
    {
      "epoch": 0.22241666666666668,
      "grad_norm": 0.7033915519714355,
      "learning_rate": 0.0002658279498915234,
      "loss": 3.9871,
      "step": 106760
    },
    {
      "epoch": 0.2224375,
      "grad_norm": 0.7712659239768982,
      "learning_rate": 0.00026582168555388017,
      "loss": 3.7746,
      "step": 106770
    },
    {
      "epoch": 0.22245833333333334,
      "grad_norm": 1.012284755706787,
      "learning_rate": 0.00026581542071593315,
      "loss": 3.9335,
      "step": 106780
    },
    {
      "epoch": 0.22247916666666667,
      "grad_norm": 0.8726108074188232,
      "learning_rate": 0.0002658091553777093,
      "loss": 3.8852,
      "step": 106790
    },
    {
      "epoch": 0.2225,
      "grad_norm": 0.6966093182563782,
      "learning_rate": 0.0002658028895392357,
      "loss": 3.9296,
      "step": 106800
    },
    {
      "epoch": 0.22252083333333333,
      "grad_norm": 0.7011997103691101,
      "learning_rate": 0.00026579662320053957,
      "loss": 4.0139,
      "step": 106810
    },
    {
      "epoch": 0.22254166666666667,
      "grad_norm": 0.6668365001678467,
      "learning_rate": 0.0002657903563616478,
      "loss": 3.9151,
      "step": 106820
    },
    {
      "epoch": 0.2225625,
      "grad_norm": 0.7497164607048035,
      "learning_rate": 0.0002657840890225875,
      "loss": 3.9849,
      "step": 106830
    },
    {
      "epoch": 0.22258333333333333,
      "grad_norm": 1.9956046342849731,
      "learning_rate": 0.0002657778211833858,
      "loss": 3.8486,
      "step": 106840
    },
    {
      "epoch": 0.22260416666666666,
      "grad_norm": 0.7006537318229675,
      "learning_rate": 0.00026577155284406977,
      "loss": 4.0221,
      "step": 106850
    },
    {
      "epoch": 0.222625,
      "grad_norm": 0.6869621276855469,
      "learning_rate": 0.00026576528400466636,
      "loss": 4.1174,
      "step": 106860
    },
    {
      "epoch": 0.22264583333333332,
      "grad_norm": 0.7424688339233398,
      "learning_rate": 0.0002657590146652028,
      "loss": 3.8777,
      "step": 106870
    },
    {
      "epoch": 0.22266666666666668,
      "grad_norm": 0.6974683403968811,
      "learning_rate": 0.00026575274482570617,
      "loss": 3.9291,
      "step": 106880
    },
    {
      "epoch": 0.2226875,
      "grad_norm": 0.8646669387817383,
      "learning_rate": 0.00026574647448620345,
      "loss": 4.0359,
      "step": 106890
    },
    {
      "epoch": 0.22270833333333334,
      "grad_norm": 0.7763456702232361,
      "learning_rate": 0.00026574020364672176,
      "loss": 3.9785,
      "step": 106900
    },
    {
      "epoch": 0.22272916666666667,
      "grad_norm": 0.7240476608276367,
      "learning_rate": 0.0002657339323072882,
      "loss": 3.7879,
      "step": 106910
    },
    {
      "epoch": 0.22275,
      "grad_norm": 0.8518239259719849,
      "learning_rate": 0.00026572766046792986,
      "loss": 3.8854,
      "step": 106920
    },
    {
      "epoch": 0.22277083333333333,
      "grad_norm": 0.7275566458702087,
      "learning_rate": 0.0002657213881286739,
      "loss": 3.9473,
      "step": 106930
    },
    {
      "epoch": 0.22279166666666667,
      "grad_norm": 0.7805466055870056,
      "learning_rate": 0.0002657151152895473,
      "loss": 3.8436,
      "step": 106940
    },
    {
      "epoch": 0.2228125,
      "grad_norm": 0.8923725485801697,
      "learning_rate": 0.0002657088419505772,
      "loss": 3.9055,
      "step": 106950
    },
    {
      "epoch": 0.22283333333333333,
      "grad_norm": 0.7302841544151306,
      "learning_rate": 0.0002657025681117907,
      "loss": 3.9748,
      "step": 106960
    },
    {
      "epoch": 0.22285416666666666,
      "grad_norm": 0.7336488962173462,
      "learning_rate": 0.00026569629377321495,
      "loss": 4.061,
      "step": 106970
    },
    {
      "epoch": 0.222875,
      "grad_norm": 0.7312243580818176,
      "learning_rate": 0.00026569001893487695,
      "loss": 3.8757,
      "step": 106980
    },
    {
      "epoch": 0.22289583333333332,
      "grad_norm": 0.7413064241409302,
      "learning_rate": 0.00026568374359680393,
      "loss": 4.0734,
      "step": 106990
    },
    {
      "epoch": 0.22291666666666668,
      "grad_norm": 0.7719700336456299,
      "learning_rate": 0.00026567746775902284,
      "loss": 4.0565,
      "step": 107000
    },
    {
      "epoch": 0.22291666666666668,
      "eval_loss": 4.259228706359863,
      "eval_runtime": 10.7727,
      "eval_samples_per_second": 0.928,
      "eval_steps_per_second": 0.278,
      "step": 107000
    },
    {
      "epoch": 0.2229375,
      "grad_norm": 0.7677245140075684,
      "learning_rate": 0.000265671191421561,
      "loss": 3.9025,
      "step": 107010
    },
    {
      "epoch": 0.22295833333333334,
      "grad_norm": 1.0918828248977661,
      "learning_rate": 0.0002656649145844453,
      "loss": 4.0099,
      "step": 107020
    },
    {
      "epoch": 0.22297916666666667,
      "grad_norm": 0.7574662566184998,
      "learning_rate": 0.00026565863724770295,
      "loss": 3.8251,
      "step": 107030
    },
    {
      "epoch": 0.223,
      "grad_norm": 0.8037267923355103,
      "learning_rate": 0.0002656523594113611,
      "loss": 3.8877,
      "step": 107040
    },
    {
      "epoch": 0.22302083333333333,
      "grad_norm": 0.8779398202896118,
      "learning_rate": 0.00026564608107544684,
      "loss": 3.8325,
      "step": 107050
    },
    {
      "epoch": 0.22304166666666667,
      "grad_norm": 0.8288348913192749,
      "learning_rate": 0.00026563980223998725,
      "loss": 3.9819,
      "step": 107060
    },
    {
      "epoch": 0.2230625,
      "grad_norm": 0.8896586298942566,
      "learning_rate": 0.00026563352290500953,
      "loss": 4.0356,
      "step": 107070
    },
    {
      "epoch": 0.22308333333333333,
      "grad_norm": 0.8191094994544983,
      "learning_rate": 0.0002656272430705408,
      "loss": 3.913,
      "step": 107080
    },
    {
      "epoch": 0.22310416666666666,
      "grad_norm": 0.6436986923217773,
      "learning_rate": 0.0002656209627366081,
      "loss": 3.9173,
      "step": 107090
    },
    {
      "epoch": 0.223125,
      "grad_norm": 0.7644083499908447,
      "learning_rate": 0.00026561468190323853,
      "loss": 3.804,
      "step": 107100
    },
    {
      "epoch": 0.22314583333333332,
      "grad_norm": 0.6941161155700684,
      "learning_rate": 0.00026560840057045937,
      "loss": 3.9998,
      "step": 107110
    },
    {
      "epoch": 0.22316666666666668,
      "grad_norm": 0.7605928182601929,
      "learning_rate": 0.0002656021187382977,
      "loss": 4.1159,
      "step": 107120
    },
    {
      "epoch": 0.2231875,
      "grad_norm": 0.8727775812149048,
      "learning_rate": 0.0002655958364067806,
      "loss": 4.0363,
      "step": 107130
    },
    {
      "epoch": 0.22320833333333334,
      "grad_norm": 0.7707823514938354,
      "learning_rate": 0.00026558955357593525,
      "loss": 3.9256,
      "step": 107140
    },
    {
      "epoch": 0.22322916666666667,
      "grad_norm": 0.760208249092102,
      "learning_rate": 0.0002655832702457888,
      "loss": 3.8698,
      "step": 107150
    },
    {
      "epoch": 0.22325,
      "grad_norm": 0.7524341344833374,
      "learning_rate": 0.00026557698641636835,
      "loss": 3.8695,
      "step": 107160
    },
    {
      "epoch": 0.22327083333333334,
      "grad_norm": 0.7939009666442871,
      "learning_rate": 0.0002655707020877011,
      "loss": 4.0827,
      "step": 107170
    },
    {
      "epoch": 0.22329166666666667,
      "grad_norm": 0.7592851519584656,
      "learning_rate": 0.00026556441725981414,
      "loss": 3.9316,
      "step": 107180
    },
    {
      "epoch": 0.2233125,
      "grad_norm": 0.7610192894935608,
      "learning_rate": 0.00026555813193273464,
      "loss": 3.9483,
      "step": 107190
    },
    {
      "epoch": 0.22333333333333333,
      "grad_norm": 0.8078341484069824,
      "learning_rate": 0.00026555184610648977,
      "loss": 3.8478,
      "step": 107200
    },
    {
      "epoch": 0.22335416666666666,
      "grad_norm": 0.750744104385376,
      "learning_rate": 0.0002655455597811066,
      "loss": 3.9728,
      "step": 107210
    },
    {
      "epoch": 0.223375,
      "grad_norm": 0.7998350262641907,
      "learning_rate": 0.0002655392729566124,
      "loss": 4.1324,
      "step": 107220
    },
    {
      "epoch": 0.22339583333333332,
      "grad_norm": 0.8170853853225708,
      "learning_rate": 0.0002655329856330343,
      "loss": 4.1032,
      "step": 107230
    },
    {
      "epoch": 0.22341666666666668,
      "grad_norm": 0.7446580529212952,
      "learning_rate": 0.0002655266978103994,
      "loss": 3.7184,
      "step": 107240
    },
    {
      "epoch": 0.2234375,
      "grad_norm": 0.6860045790672302,
      "learning_rate": 0.0002655204094887349,
      "loss": 4.0353,
      "step": 107250
    },
    {
      "epoch": 0.22345833333333334,
      "grad_norm": 0.8715390563011169,
      "learning_rate": 0.00026551412066806794,
      "loss": 3.9282,
      "step": 107260
    },
    {
      "epoch": 0.22347916666666667,
      "grad_norm": 0.7032885551452637,
      "learning_rate": 0.0002655078313484257,
      "loss": 3.8907,
      "step": 107270
    },
    {
      "epoch": 0.2235,
      "grad_norm": 0.7164519429206848,
      "learning_rate": 0.0002655015415298354,
      "loss": 3.7976,
      "step": 107280
    },
    {
      "epoch": 0.22352083333333334,
      "grad_norm": 0.7490293979644775,
      "learning_rate": 0.00026549525121232414,
      "loss": 3.9742,
      "step": 107290
    },
    {
      "epoch": 0.22354166666666667,
      "grad_norm": 0.7898446321487427,
      "learning_rate": 0.00026548896039591907,
      "loss": 3.9779,
      "step": 107300
    },
    {
      "epoch": 0.2235625,
      "grad_norm": 0.9759935736656189,
      "learning_rate": 0.0002654826690806475,
      "loss": 4.0217,
      "step": 107310
    },
    {
      "epoch": 0.22358333333333333,
      "grad_norm": 0.8574326038360596,
      "learning_rate": 0.0002654763772665364,
      "loss": 3.795,
      "step": 107320
    },
    {
      "epoch": 0.22360416666666666,
      "grad_norm": 0.6761444807052612,
      "learning_rate": 0.0002654700849536131,
      "loss": 3.9371,
      "step": 107330
    },
    {
      "epoch": 0.223625,
      "grad_norm": 0.745129406452179,
      "learning_rate": 0.00026546379214190477,
      "loss": 4.0349,
      "step": 107340
    },
    {
      "epoch": 0.22364583333333332,
      "grad_norm": 0.7850171327590942,
      "learning_rate": 0.00026545749883143853,
      "loss": 3.7608,
      "step": 107350
    },
    {
      "epoch": 0.22366666666666668,
      "grad_norm": 0.8618757128715515,
      "learning_rate": 0.0002654512050222416,
      "loss": 3.8327,
      "step": 107360
    },
    {
      "epoch": 0.2236875,
      "grad_norm": 0.739352822303772,
      "learning_rate": 0.00026544491071434117,
      "loss": 4.068,
      "step": 107370
    },
    {
      "epoch": 0.22370833333333334,
      "grad_norm": 0.7913686037063599,
      "learning_rate": 0.00026543861590776435,
      "loss": 4.0086,
      "step": 107380
    },
    {
      "epoch": 0.22372916666666667,
      "grad_norm": 0.7705641984939575,
      "learning_rate": 0.0002654323206025385,
      "loss": 3.915,
      "step": 107390
    },
    {
      "epoch": 0.22375,
      "grad_norm": 0.7584271430969238,
      "learning_rate": 0.00026542602479869064,
      "loss": 3.8358,
      "step": 107400
    },
    {
      "epoch": 0.22377083333333334,
      "grad_norm": 0.7203395366668701,
      "learning_rate": 0.0002654197284962481,
      "loss": 3.7604,
      "step": 107410
    },
    {
      "epoch": 0.22379166666666667,
      "grad_norm": 0.7428842782974243,
      "learning_rate": 0.00026541343169523803,
      "loss": 3.9863,
      "step": 107420
    },
    {
      "epoch": 0.2238125,
      "grad_norm": 0.7380913496017456,
      "learning_rate": 0.0002654071343956876,
      "loss": 3.96,
      "step": 107430
    },
    {
      "epoch": 0.22383333333333333,
      "grad_norm": 0.8246150016784668,
      "learning_rate": 0.000265400836597624,
      "loss": 3.7616,
      "step": 107440
    },
    {
      "epoch": 0.22385416666666666,
      "grad_norm": 1.0532253980636597,
      "learning_rate": 0.0002653945383010745,
      "loss": 3.9266,
      "step": 107450
    },
    {
      "epoch": 0.223875,
      "grad_norm": 0.6825015544891357,
      "learning_rate": 0.00026538823950606627,
      "loss": 3.8685,
      "step": 107460
    },
    {
      "epoch": 0.22389583333333332,
      "grad_norm": 0.7266039252281189,
      "learning_rate": 0.0002653819402126265,
      "loss": 3.7001,
      "step": 107470
    },
    {
      "epoch": 0.22391666666666668,
      "grad_norm": 0.9822700023651123,
      "learning_rate": 0.0002653756404207824,
      "loss": 4.0703,
      "step": 107480
    },
    {
      "epoch": 0.2239375,
      "grad_norm": 0.7079208493232727,
      "learning_rate": 0.00026536934013056125,
      "loss": 3.9164,
      "step": 107490
    },
    {
      "epoch": 0.22395833333333334,
      "grad_norm": 0.841139554977417,
      "learning_rate": 0.00026536303934199024,
      "loss": 4.0352,
      "step": 107500
    },
    {
      "epoch": 0.22397916666666667,
      "grad_norm": 0.6773451566696167,
      "learning_rate": 0.0002653567380550965,
      "loss": 3.8395,
      "step": 107510
    },
    {
      "epoch": 0.224,
      "grad_norm": 0.8557222485542297,
      "learning_rate": 0.0002653504362699073,
      "loss": 3.8345,
      "step": 107520
    },
    {
      "epoch": 0.22402083333333334,
      "grad_norm": 0.7836664319038391,
      "learning_rate": 0.00026534413398644996,
      "loss": 3.818,
      "step": 107530
    },
    {
      "epoch": 0.22404166666666667,
      "grad_norm": 0.6668901443481445,
      "learning_rate": 0.00026533783120475155,
      "loss": 3.8794,
      "step": 107540
    },
    {
      "epoch": 0.2240625,
      "grad_norm": 0.7809096574783325,
      "learning_rate": 0.00026533152792483937,
      "loss": 3.9028,
      "step": 107550
    },
    {
      "epoch": 0.22408333333333333,
      "grad_norm": 0.9078205823898315,
      "learning_rate": 0.0002653252241467407,
      "loss": 3.9512,
      "step": 107560
    },
    {
      "epoch": 0.22410416666666666,
      "grad_norm": 0.8058987259864807,
      "learning_rate": 0.0002653189198704826,
      "loss": 4.0778,
      "step": 107570
    },
    {
      "epoch": 0.224125,
      "grad_norm": 0.9055424928665161,
      "learning_rate": 0.00026531261509609247,
      "loss": 3.8216,
      "step": 107580
    },
    {
      "epoch": 0.22414583333333332,
      "grad_norm": 0.9539164900779724,
      "learning_rate": 0.00026530630982359753,
      "loss": 3.9549,
      "step": 107590
    },
    {
      "epoch": 0.22416666666666665,
      "grad_norm": 0.7007455825805664,
      "learning_rate": 0.0002653000040530249,
      "loss": 3.9578,
      "step": 107600
    },
    {
      "epoch": 0.2241875,
      "grad_norm": 0.8495174050331116,
      "learning_rate": 0.0002652936977844019,
      "loss": 3.9749,
      "step": 107610
    },
    {
      "epoch": 0.22420833333333334,
      "grad_norm": 0.9904433488845825,
      "learning_rate": 0.00026528739101775584,
      "loss": 3.9216,
      "step": 107620
    },
    {
      "epoch": 0.22422916666666667,
      "grad_norm": 0.8151664137840271,
      "learning_rate": 0.00026528108375311384,
      "loss": 3.8695,
      "step": 107630
    },
    {
      "epoch": 0.22425,
      "grad_norm": 0.8081353306770325,
      "learning_rate": 0.00026527477599050316,
      "loss": 3.7737,
      "step": 107640
    },
    {
      "epoch": 0.22427083333333334,
      "grad_norm": 0.9427882432937622,
      "learning_rate": 0.0002652684677299511,
      "loss": 3.6688,
      "step": 107650
    },
    {
      "epoch": 0.22429166666666667,
      "grad_norm": 0.8764473795890808,
      "learning_rate": 0.00026526215897148484,
      "loss": 3.97,
      "step": 107660
    },
    {
      "epoch": 0.2243125,
      "grad_norm": 0.7579878568649292,
      "learning_rate": 0.00026525584971513175,
      "loss": 3.9794,
      "step": 107670
    },
    {
      "epoch": 0.22433333333333333,
      "grad_norm": 0.8373045921325684,
      "learning_rate": 0.000265249539960919,
      "loss": 3.9304,
      "step": 107680
    },
    {
      "epoch": 0.22435416666666666,
      "grad_norm": 0.7085008025169373,
      "learning_rate": 0.0002652432297088738,
      "loss": 3.9066,
      "step": 107690
    },
    {
      "epoch": 0.224375,
      "grad_norm": 0.6876103281974792,
      "learning_rate": 0.00026523691895902353,
      "loss": 3.8296,
      "step": 107700
    },
    {
      "epoch": 0.22439583333333332,
      "grad_norm": 0.8115256428718567,
      "learning_rate": 0.00026523060771139535,
      "loss": 3.9444,
      "step": 107710
    },
    {
      "epoch": 0.22441666666666665,
      "grad_norm": 0.6655845046043396,
      "learning_rate": 0.00026522429596601655,
      "loss": 3.9822,
      "step": 107720
    },
    {
      "epoch": 0.2244375,
      "grad_norm": 0.7063350677490234,
      "learning_rate": 0.0002652179837229144,
      "loss": 4.0137,
      "step": 107730
    },
    {
      "epoch": 0.22445833333333334,
      "grad_norm": 0.8975074887275696,
      "learning_rate": 0.00026521167098211623,
      "loss": 3.9922,
      "step": 107740
    },
    {
      "epoch": 0.22447916666666667,
      "grad_norm": 0.6861363053321838,
      "learning_rate": 0.0002652053577436491,
      "loss": 3.9582,
      "step": 107750
    },
    {
      "epoch": 0.2245,
      "grad_norm": 0.7187337875366211,
      "learning_rate": 0.0002651990440075406,
      "loss": 3.9205,
      "step": 107760
    },
    {
      "epoch": 0.22452083333333334,
      "grad_norm": 0.9012169241905212,
      "learning_rate": 0.00026519272977381774,
      "loss": 3.9932,
      "step": 107770
    },
    {
      "epoch": 0.22454166666666667,
      "grad_norm": 0.8746116161346436,
      "learning_rate": 0.0002651864150425079,
      "loss": 3.7856,
      "step": 107780
    },
    {
      "epoch": 0.2245625,
      "grad_norm": 0.8028250336647034,
      "learning_rate": 0.0002651800998136383,
      "loss": 3.8111,
      "step": 107790
    },
    {
      "epoch": 0.22458333333333333,
      "grad_norm": 0.8137475252151489,
      "learning_rate": 0.00026517378408723633,
      "loss": 3.832,
      "step": 107800
    },
    {
      "epoch": 0.22460416666666666,
      "grad_norm": 0.7160421013832092,
      "learning_rate": 0.00026516746786332915,
      "loss": 3.9565,
      "step": 107810
    },
    {
      "epoch": 0.224625,
      "grad_norm": 0.7053418159484863,
      "learning_rate": 0.0002651611511419441,
      "loss": 3.9425,
      "step": 107820
    },
    {
      "epoch": 0.22464583333333332,
      "grad_norm": 0.6934900283813477,
      "learning_rate": 0.0002651548339231085,
      "loss": 4.0303,
      "step": 107830
    },
    {
      "epoch": 0.22466666666666665,
      "grad_norm": 0.7565485239028931,
      "learning_rate": 0.00026514851620684955,
      "loss": 3.9256,
      "step": 107840
    },
    {
      "epoch": 0.2246875,
      "grad_norm": 0.700203001499176,
      "learning_rate": 0.0002651421979931946,
      "loss": 3.9349,
      "step": 107850
    },
    {
      "epoch": 0.22470833333333334,
      "grad_norm": 0.8127493262290955,
      "learning_rate": 0.00026513587928217095,
      "loss": 3.9847,
      "step": 107860
    },
    {
      "epoch": 0.22472916666666667,
      "grad_norm": 0.7424354553222656,
      "learning_rate": 0.00026512956007380587,
      "loss": 4.0018,
      "step": 107870
    },
    {
      "epoch": 0.22475,
      "grad_norm": 0.7245036363601685,
      "learning_rate": 0.00026512324036812664,
      "loss": 3.66,
      "step": 107880
    },
    {
      "epoch": 0.22477083333333334,
      "grad_norm": 0.7188828587532043,
      "learning_rate": 0.0002651169201651606,
      "loss": 3.7991,
      "step": 107890
    },
    {
      "epoch": 0.22479166666666667,
      "grad_norm": 0.7548100352287292,
      "learning_rate": 0.00026511059946493504,
      "loss": 4.0621,
      "step": 107900
    },
    {
      "epoch": 0.2248125,
      "grad_norm": 0.7032444477081299,
      "learning_rate": 0.00026510427826747726,
      "loss": 4.0631,
      "step": 107910
    },
    {
      "epoch": 0.22483333333333333,
      "grad_norm": 0.7910984754562378,
      "learning_rate": 0.0002650979565728145,
      "loss": 4.0126,
      "step": 107920
    },
    {
      "epoch": 0.22485416666666666,
      "grad_norm": 0.8080632090568542,
      "learning_rate": 0.0002650916343809742,
      "loss": 3.8145,
      "step": 107930
    },
    {
      "epoch": 0.224875,
      "grad_norm": 0.7022880911827087,
      "learning_rate": 0.00026508531169198356,
      "loss": 4.0366,
      "step": 107940
    },
    {
      "epoch": 0.22489583333333332,
      "grad_norm": 1.0428080558776855,
      "learning_rate": 0.00026507898850586996,
      "loss": 3.8148,
      "step": 107950
    },
    {
      "epoch": 0.22491666666666665,
      "grad_norm": 0.8246618509292603,
      "learning_rate": 0.0002650726648226606,
      "loss": 3.854,
      "step": 107960
    },
    {
      "epoch": 0.2249375,
      "grad_norm": 0.8671993017196655,
      "learning_rate": 0.00026506634064238295,
      "loss": 3.8819,
      "step": 107970
    },
    {
      "epoch": 0.22495833333333334,
      "grad_norm": 0.7429173588752747,
      "learning_rate": 0.00026506001596506425,
      "loss": 4.1048,
      "step": 107980
    },
    {
      "epoch": 0.22497916666666667,
      "grad_norm": 0.7929667234420776,
      "learning_rate": 0.0002650536907907318,
      "loss": 3.8898,
      "step": 107990
    },
    {
      "epoch": 0.225,
      "grad_norm": 0.7828166484832764,
      "learning_rate": 0.000265047365119413,
      "loss": 3.9413,
      "step": 108000
    },
    {
      "epoch": 0.225,
      "eval_loss": 4.2701826095581055,
      "eval_runtime": 9.5578,
      "eval_samples_per_second": 1.046,
      "eval_steps_per_second": 0.314,
      "step": 108000
    },
    {
      "epoch": 0.22502083333333334,
      "grad_norm": 0.6855906248092651,
      "learning_rate": 0.0002650410389511351,
      "loss": 4.0664,
      "step": 108010
    },
    {
      "epoch": 0.22504166666666667,
      "grad_norm": 0.7390345931053162,
      "learning_rate": 0.0002650347122859254,
      "loss": 3.9795,
      "step": 108020
    },
    {
      "epoch": 0.2250625,
      "grad_norm": 0.7705675363540649,
      "learning_rate": 0.0002650283851238113,
      "loss": 3.8993,
      "step": 108030
    },
    {
      "epoch": 0.22508333333333333,
      "grad_norm": 0.9260096549987793,
      "learning_rate": 0.00026502205746482013,
      "loss": 4.0351,
      "step": 108040
    },
    {
      "epoch": 0.22510416666666666,
      "grad_norm": 0.9677886962890625,
      "learning_rate": 0.00026501572930897916,
      "loss": 3.8891,
      "step": 108050
    },
    {
      "epoch": 0.225125,
      "grad_norm": 0.6848931312561035,
      "learning_rate": 0.0002650094006563158,
      "loss": 3.8525,
      "step": 108060
    },
    {
      "epoch": 0.22514583333333332,
      "grad_norm": 0.7515177130699158,
      "learning_rate": 0.00026500307150685733,
      "loss": 3.81,
      "step": 108070
    },
    {
      "epoch": 0.22516666666666665,
      "grad_norm": 0.7472609281539917,
      "learning_rate": 0.0002649967418606311,
      "loss": 4.043,
      "step": 108080
    },
    {
      "epoch": 0.2251875,
      "grad_norm": 0.7035729289054871,
      "learning_rate": 0.0002649904117176645,
      "loss": 3.7697,
      "step": 108090
    },
    {
      "epoch": 0.22520833333333334,
      "grad_norm": 0.8153097033500671,
      "learning_rate": 0.00026498408107798483,
      "loss": 3.8596,
      "step": 108100
    },
    {
      "epoch": 0.22522916666666667,
      "grad_norm": 0.7727575302124023,
      "learning_rate": 0.00026497774994161945,
      "loss": 3.7768,
      "step": 108110
    },
    {
      "epoch": 0.22525,
      "grad_norm": 0.9080545902252197,
      "learning_rate": 0.0002649714183085957,
      "loss": 3.9655,
      "step": 108120
    },
    {
      "epoch": 0.22527083333333334,
      "grad_norm": 0.7253996133804321,
      "learning_rate": 0.0002649650861789409,
      "loss": 4.0605,
      "step": 108130
    },
    {
      "epoch": 0.22529166666666667,
      "grad_norm": 0.6984232068061829,
      "learning_rate": 0.00026495875355268247,
      "loss": 3.9623,
      "step": 108140
    },
    {
      "epoch": 0.2253125,
      "grad_norm": 0.7518556714057922,
      "learning_rate": 0.0002649524204298477,
      "loss": 3.9034,
      "step": 108150
    },
    {
      "epoch": 0.22533333333333333,
      "grad_norm": 1.0172518491744995,
      "learning_rate": 0.00026494608681046404,
      "loss": 3.8013,
      "step": 108160
    },
    {
      "epoch": 0.22535416666666666,
      "grad_norm": 0.8406162261962891,
      "learning_rate": 0.0002649397526945587,
      "loss": 3.8911,
      "step": 108170
    },
    {
      "epoch": 0.225375,
      "grad_norm": 0.8054888248443604,
      "learning_rate": 0.00026493341808215914,
      "loss": 3.9592,
      "step": 108180
    },
    {
      "epoch": 0.22539583333333332,
      "grad_norm": 0.7733594179153442,
      "learning_rate": 0.00026492708297329277,
      "loss": 3.7242,
      "step": 108190
    },
    {
      "epoch": 0.22541666666666665,
      "grad_norm": 0.9566751718521118,
      "learning_rate": 0.00026492074736798687,
      "loss": 3.812,
      "step": 108200
    },
    {
      "epoch": 0.2254375,
      "grad_norm": 0.7568111419677734,
      "learning_rate": 0.00026491441126626875,
      "loss": 3.8475,
      "step": 108210
    },
    {
      "epoch": 0.22545833333333334,
      "grad_norm": 0.9721013903617859,
      "learning_rate": 0.00026490807466816597,
      "loss": 3.8514,
      "step": 108220
    },
    {
      "epoch": 0.22547916666666667,
      "grad_norm": 0.7420798540115356,
      "learning_rate": 0.0002649017375737057,
      "loss": 3.952,
      "step": 108230
    },
    {
      "epoch": 0.2255,
      "grad_norm": 0.7340584993362427,
      "learning_rate": 0.00026489539998291546,
      "loss": 4.0204,
      "step": 108240
    },
    {
      "epoch": 0.22552083333333334,
      "grad_norm": 0.8068675398826599,
      "learning_rate": 0.0002648890618958226,
      "loss": 3.8098,
      "step": 108250
    },
    {
      "epoch": 0.22554166666666667,
      "grad_norm": 0.9337735772132874,
      "learning_rate": 0.0002648827233124544,
      "loss": 4.1307,
      "step": 108260
    },
    {
      "epoch": 0.2255625,
      "grad_norm": 0.769917368888855,
      "learning_rate": 0.0002648763842328383,
      "loss": 3.7521,
      "step": 108270
    },
    {
      "epoch": 0.22558333333333333,
      "grad_norm": 0.8258672952651978,
      "learning_rate": 0.00026487004465700173,
      "loss": 4.1334,
      "step": 108280
    },
    {
      "epoch": 0.22560416666666666,
      "grad_norm": 0.6714640259742737,
      "learning_rate": 0.000264863704584972,
      "loss": 3.9538,
      "step": 108290
    },
    {
      "epoch": 0.225625,
      "grad_norm": 0.8542248606681824,
      "learning_rate": 0.00026485736401677664,
      "loss": 3.983,
      "step": 108300
    },
    {
      "epoch": 0.22564583333333332,
      "grad_norm": 0.8766009211540222,
      "learning_rate": 0.0002648510229524428,
      "loss": 3.8602,
      "step": 108310
    },
    {
      "epoch": 0.22566666666666665,
      "grad_norm": 0.7024014592170715,
      "learning_rate": 0.0002648446813919981,
      "loss": 3.8481,
      "step": 108320
    },
    {
      "epoch": 0.2256875,
      "grad_norm": 0.9006258249282837,
      "learning_rate": 0.00026483833933546976,
      "loss": 4.0391,
      "step": 108330
    },
    {
      "epoch": 0.22570833333333334,
      "grad_norm": 0.7353135347366333,
      "learning_rate": 0.0002648319967828853,
      "loss": 3.8486,
      "step": 108340
    },
    {
      "epoch": 0.22572916666666668,
      "grad_norm": 0.7824783325195312,
      "learning_rate": 0.00026482565373427206,
      "loss": 4.0668,
      "step": 108350
    },
    {
      "epoch": 0.22575,
      "grad_norm": 0.7513824105262756,
      "learning_rate": 0.0002648193101896574,
      "loss": 3.952,
      "step": 108360
    },
    {
      "epoch": 0.22577083333333334,
      "grad_norm": 0.8437369465827942,
      "learning_rate": 0.0002648129661490688,
      "loss": 3.8093,
      "step": 108370
    },
    {
      "epoch": 0.22579166666666667,
      "grad_norm": 1.0553442239761353,
      "learning_rate": 0.00026480662161253366,
      "loss": 3.9647,
      "step": 108380
    },
    {
      "epoch": 0.2258125,
      "grad_norm": 0.7749742269515991,
      "learning_rate": 0.00026480027658007935,
      "loss": 4.1088,
      "step": 108390
    },
    {
      "epoch": 0.22583333333333333,
      "grad_norm": 0.8228604793548584,
      "learning_rate": 0.00026479393105173325,
      "loss": 3.9304,
      "step": 108400
    },
    {
      "epoch": 0.22585416666666666,
      "grad_norm": 0.9030579328536987,
      "learning_rate": 0.00026478758502752284,
      "loss": 3.7751,
      "step": 108410
    },
    {
      "epoch": 0.225875,
      "grad_norm": 0.8912897109985352,
      "learning_rate": 0.0002647812385074755,
      "loss": 3.7719,
      "step": 108420
    },
    {
      "epoch": 0.22589583333333332,
      "grad_norm": 0.8149330019950867,
      "learning_rate": 0.0002647748914916186,
      "loss": 3.9286,
      "step": 108430
    },
    {
      "epoch": 0.22591666666666665,
      "grad_norm": 0.7595223784446716,
      "learning_rate": 0.00026476854397997963,
      "loss": 3.8379,
      "step": 108440
    },
    {
      "epoch": 0.2259375,
      "grad_norm": 0.755595326423645,
      "learning_rate": 0.000264762195972586,
      "loss": 4.0013,
      "step": 108450
    },
    {
      "epoch": 0.22595833333333334,
      "grad_norm": 0.780499279499054,
      "learning_rate": 0.0002647558474694651,
      "loss": 3.8853,
      "step": 108460
    },
    {
      "epoch": 0.22597916666666668,
      "grad_norm": 0.775527834892273,
      "learning_rate": 0.00026474949847064437,
      "loss": 3.9691,
      "step": 108470
    },
    {
      "epoch": 0.226,
      "grad_norm": 0.718939483165741,
      "learning_rate": 0.0002647431489761512,
      "loss": 3.7946,
      "step": 108480
    },
    {
      "epoch": 0.22602083333333334,
      "grad_norm": 0.9269850254058838,
      "learning_rate": 0.00026473679898601305,
      "loss": 3.9013,
      "step": 108490
    },
    {
      "epoch": 0.22604166666666667,
      "grad_norm": 0.7547590136528015,
      "learning_rate": 0.00026473044850025735,
      "loss": 3.8128,
      "step": 108500
    },
    {
      "epoch": 0.2260625,
      "grad_norm": 0.7387957572937012,
      "learning_rate": 0.0002647240975189115,
      "loss": 3.9923,
      "step": 108510
    },
    {
      "epoch": 0.22608333333333333,
      "grad_norm": 0.893765926361084,
      "learning_rate": 0.000264717746042003,
      "loss": 4.0459,
      "step": 108520
    },
    {
      "epoch": 0.22610416666666666,
      "grad_norm": 0.8834101557731628,
      "learning_rate": 0.00026471139406955926,
      "loss": 3.9557,
      "step": 108530
    },
    {
      "epoch": 0.226125,
      "grad_norm": 0.7173231244087219,
      "learning_rate": 0.00026470504160160764,
      "loss": 4.1095,
      "step": 108540
    },
    {
      "epoch": 0.22614583333333332,
      "grad_norm": 0.7746885418891907,
      "learning_rate": 0.0002646986886381757,
      "loss": 3.8995,
      "step": 108550
    },
    {
      "epoch": 0.22616666666666665,
      "grad_norm": 0.8607303500175476,
      "learning_rate": 0.0002646923351792908,
      "loss": 3.9218,
      "step": 108560
    },
    {
      "epoch": 0.2261875,
      "grad_norm": 0.7040896415710449,
      "learning_rate": 0.0002646859812249804,
      "loss": 3.8774,
      "step": 108570
    },
    {
      "epoch": 0.22620833333333334,
      "grad_norm": 0.7985808849334717,
      "learning_rate": 0.00026467962677527196,
      "loss": 3.8572,
      "step": 108580
    },
    {
      "epoch": 0.22622916666666668,
      "grad_norm": 0.8430532217025757,
      "learning_rate": 0.00026467327183019295,
      "loss": 3.7673,
      "step": 108590
    },
    {
      "epoch": 0.22625,
      "grad_norm": 0.8355246782302856,
      "learning_rate": 0.00026466691638977075,
      "loss": 3.9548,
      "step": 108600
    },
    {
      "epoch": 0.22627083333333334,
      "grad_norm": 0.8682499527931213,
      "learning_rate": 0.0002646605604540329,
      "loss": 3.8205,
      "step": 108610
    },
    {
      "epoch": 0.22629166666666667,
      "grad_norm": 0.6535966992378235,
      "learning_rate": 0.00026465420402300684,
      "loss": 3.7764,
      "step": 108620
    },
    {
      "epoch": 0.2263125,
      "grad_norm": 0.7928372025489807,
      "learning_rate": 0.00026464784709671993,
      "loss": 4.0335,
      "step": 108630
    },
    {
      "epoch": 0.22633333333333333,
      "grad_norm": 0.7565931081771851,
      "learning_rate": 0.0002646414896751997,
      "loss": 3.8317,
      "step": 108640
    },
    {
      "epoch": 0.22635416666666666,
      "grad_norm": 0.8574429750442505,
      "learning_rate": 0.0002646351317584737,
      "loss": 3.957,
      "step": 108650
    },
    {
      "epoch": 0.226375,
      "grad_norm": 0.7410995364189148,
      "learning_rate": 0.0002646287733465693,
      "loss": 3.7798,
      "step": 108660
    },
    {
      "epoch": 0.22639583333333332,
      "grad_norm": 0.653450608253479,
      "learning_rate": 0.0002646224144395139,
      "loss": 3.9486,
      "step": 108670
    },
    {
      "epoch": 0.22641666666666665,
      "grad_norm": 0.9384242296218872,
      "learning_rate": 0.00026461605503733506,
      "loss": 3.9158,
      "step": 108680
    },
    {
      "epoch": 0.2264375,
      "grad_norm": 0.7668075561523438,
      "learning_rate": 0.0002646096951400603,
      "loss": 3.9525,
      "step": 108690
    },
    {
      "epoch": 0.22645833333333334,
      "grad_norm": 0.7403702139854431,
      "learning_rate": 0.00026460333474771693,
      "loss": 3.8136,
      "step": 108700
    },
    {
      "epoch": 0.22647916666666668,
      "grad_norm": 0.7225868105888367,
      "learning_rate": 0.00026459697386033257,
      "loss": 3.8819,
      "step": 108710
    },
    {
      "epoch": 0.2265,
      "grad_norm": 0.6888270378112793,
      "learning_rate": 0.00026459061247793457,
      "loss": 4.0308,
      "step": 108720
    },
    {
      "epoch": 0.22652083333333334,
      "grad_norm": 0.872168779373169,
      "learning_rate": 0.00026458425060055056,
      "loss": 4.0748,
      "step": 108730
    },
    {
      "epoch": 0.22654166666666667,
      "grad_norm": 0.678532600402832,
      "learning_rate": 0.0002645778882282079,
      "loss": 4.1489,
      "step": 108740
    },
    {
      "epoch": 0.2265625,
      "grad_norm": 0.7982475757598877,
      "learning_rate": 0.0002645715253609342,
      "loss": 4.0493,
      "step": 108750
    },
    {
      "epoch": 0.22658333333333333,
      "grad_norm": 0.7670603394508362,
      "learning_rate": 0.0002645651619987568,
      "loss": 3.9351,
      "step": 108760
    },
    {
      "epoch": 0.22660416666666666,
      "grad_norm": 0.7278753519058228,
      "learning_rate": 0.0002645587981417032,
      "loss": 3.9232,
      "step": 108770
    },
    {
      "epoch": 0.226625,
      "grad_norm": 0.7164149880409241,
      "learning_rate": 0.000264552433789801,
      "loss": 3.9732,
      "step": 108780
    },
    {
      "epoch": 0.22664583333333332,
      "grad_norm": 0.7963036298751831,
      "learning_rate": 0.0002645460689430776,
      "loss": 4.0386,
      "step": 108790
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 0.7459926605224609,
      "learning_rate": 0.0002645397036015606,
      "loss": 3.942,
      "step": 108800
    },
    {
      "epoch": 0.2266875,
      "grad_norm": 0.701884925365448,
      "learning_rate": 0.00026453333776527735,
      "loss": 3.745,
      "step": 108810
    },
    {
      "epoch": 0.22670833333333335,
      "grad_norm": 0.7518672943115234,
      "learning_rate": 0.00026452697143425536,
      "loss": 3.8424,
      "step": 108820
    },
    {
      "epoch": 0.22672916666666668,
      "grad_norm": 0.6924442648887634,
      "learning_rate": 0.0002645206046085223,
      "loss": 3.9889,
      "step": 108830
    },
    {
      "epoch": 0.22675,
      "grad_norm": 0.795567512512207,
      "learning_rate": 0.0002645142372881055,
      "loss": 3.8982,
      "step": 108840
    },
    {
      "epoch": 0.22677083333333334,
      "grad_norm": 0.7239937782287598,
      "learning_rate": 0.0002645078694730325,
      "loss": 3.8779,
      "step": 108850
    },
    {
      "epoch": 0.22679166666666667,
      "grad_norm": 0.7635540962219238,
      "learning_rate": 0.0002645015011633309,
      "loss": 3.7136,
      "step": 108860
    },
    {
      "epoch": 0.2268125,
      "grad_norm": 0.7305667400360107,
      "learning_rate": 0.00026449513235902804,
      "loss": 3.9036,
      "step": 108870
    },
    {
      "epoch": 0.22683333333333333,
      "grad_norm": 0.761264443397522,
      "learning_rate": 0.0002644887630601516,
      "loss": 3.9273,
      "step": 108880
    },
    {
      "epoch": 0.22685416666666666,
      "grad_norm": 0.7146025896072388,
      "learning_rate": 0.000264482393266729,
      "loss": 4.0215,
      "step": 108890
    },
    {
      "epoch": 0.226875,
      "grad_norm": 0.8386164903640747,
      "learning_rate": 0.0002644760229787878,
      "loss": 3.8077,
      "step": 108900
    },
    {
      "epoch": 0.22689583333333332,
      "grad_norm": 0.7800633907318115,
      "learning_rate": 0.00026446965219635544,
      "loss": 4.0506,
      "step": 108910
    },
    {
      "epoch": 0.22691666666666666,
      "grad_norm": 0.7347279191017151,
      "learning_rate": 0.00026446328091945956,
      "loss": 3.8444,
      "step": 108920
    },
    {
      "epoch": 0.2269375,
      "grad_norm": 0.8164711594581604,
      "learning_rate": 0.00026445690914812754,
      "loss": 4.001,
      "step": 108930
    },
    {
      "epoch": 0.22695833333333335,
      "grad_norm": 0.6698181629180908,
      "learning_rate": 0.000264450536882387,
      "loss": 3.7945,
      "step": 108940
    },
    {
      "epoch": 0.22697916666666668,
      "grad_norm": 0.7902946472167969,
      "learning_rate": 0.0002644441641222655,
      "loss": 3.9007,
      "step": 108950
    },
    {
      "epoch": 0.227,
      "grad_norm": 0.8352525234222412,
      "learning_rate": 0.0002644377908677905,
      "loss": 3.9775,
      "step": 108960
    },
    {
      "epoch": 0.22702083333333334,
      "grad_norm": 0.7898527383804321,
      "learning_rate": 0.00026443141711898944,
      "loss": 3.9275,
      "step": 108970
    },
    {
      "epoch": 0.22704166666666667,
      "grad_norm": 0.6846413612365723,
      "learning_rate": 0.00026442504287589006,
      "loss": 3.973,
      "step": 108980
    },
    {
      "epoch": 0.2270625,
      "grad_norm": 0.73252934217453,
      "learning_rate": 0.0002644186681385197,
      "loss": 3.8706,
      "step": 108990
    },
    {
      "epoch": 0.22708333333333333,
      "grad_norm": 0.8041558861732483,
      "learning_rate": 0.0002644122929069061,
      "loss": 3.923,
      "step": 109000
    },
    {
      "epoch": 0.22708333333333333,
      "eval_loss": 4.2499494552612305,
      "eval_runtime": 10.4155,
      "eval_samples_per_second": 0.96,
      "eval_steps_per_second": 0.288,
      "step": 109000
    },
    {
      "epoch": 0.22710416666666666,
      "grad_norm": 0.7211470603942871,
      "learning_rate": 0.00026440591718107664,
      "loss": 3.9642,
      "step": 109010
    },
    {
      "epoch": 0.227125,
      "grad_norm": 0.8587322235107422,
      "learning_rate": 0.00026439954096105884,
      "loss": 3.8876,
      "step": 109020
    },
    {
      "epoch": 0.22714583333333332,
      "grad_norm": 0.824578583240509,
      "learning_rate": 0.00026439316424688034,
      "loss": 3.8638,
      "step": 109030
    },
    {
      "epoch": 0.22716666666666666,
      "grad_norm": 0.7026079893112183,
      "learning_rate": 0.0002643867870385687,
      "loss": 3.9412,
      "step": 109040
    },
    {
      "epoch": 0.2271875,
      "grad_norm": 0.7915549874305725,
      "learning_rate": 0.0002643804093361514,
      "loss": 4.0401,
      "step": 109050
    },
    {
      "epoch": 0.22720833333333335,
      "grad_norm": 0.7297204732894897,
      "learning_rate": 0.00026437403113965596,
      "loss": 4.0048,
      "step": 109060
    },
    {
      "epoch": 0.22722916666666668,
      "grad_norm": 0.7245772480964661,
      "learning_rate": 0.00026436765244911,
      "loss": 3.8391,
      "step": 109070
    },
    {
      "epoch": 0.22725,
      "grad_norm": 0.9843947291374207,
      "learning_rate": 0.00026436127326454105,
      "loss": 3.9333,
      "step": 109080
    },
    {
      "epoch": 0.22727083333333334,
      "grad_norm": 0.7660737037658691,
      "learning_rate": 0.00026435489358597665,
      "loss": 3.9236,
      "step": 109090
    },
    {
      "epoch": 0.22729166666666667,
      "grad_norm": 0.7760373950004578,
      "learning_rate": 0.0002643485134134444,
      "loss": 3.993,
      "step": 109100
    },
    {
      "epoch": 0.2273125,
      "grad_norm": 0.7885679602622986,
      "learning_rate": 0.0002643421327469718,
      "loss": 3.7301,
      "step": 109110
    },
    {
      "epoch": 0.22733333333333333,
      "grad_norm": 0.8297938108444214,
      "learning_rate": 0.0002643357515865865,
      "loss": 4.0085,
      "step": 109120
    },
    {
      "epoch": 0.22735416666666666,
      "grad_norm": 0.7652775049209595,
      "learning_rate": 0.000264329369932316,
      "loss": 3.83,
      "step": 109130
    },
    {
      "epoch": 0.227375,
      "grad_norm": 1.2758543491363525,
      "learning_rate": 0.0002643229877841878,
      "loss": 4.2243,
      "step": 109140
    },
    {
      "epoch": 0.22739583333333332,
      "grad_norm": 0.9598618745803833,
      "learning_rate": 0.0002643166051422297,
      "loss": 3.8953,
      "step": 109150
    },
    {
      "epoch": 0.22741666666666666,
      "grad_norm": 0.7711547017097473,
      "learning_rate": 0.000264310222006469,
      "loss": 4.0641,
      "step": 109160
    },
    {
      "epoch": 0.2274375,
      "grad_norm": 0.7458028793334961,
      "learning_rate": 0.0002643038383769334,
      "loss": 3.9576,
      "step": 109170
    },
    {
      "epoch": 0.22745833333333335,
      "grad_norm": 0.7583891153335571,
      "learning_rate": 0.00026429745425365046,
      "loss": 3.9374,
      "step": 109180
    },
    {
      "epoch": 0.22747916666666668,
      "grad_norm": 0.7509993314743042,
      "learning_rate": 0.0002642910696366478,
      "loss": 3.8812,
      "step": 109190
    },
    {
      "epoch": 0.2275,
      "grad_norm": 0.8617029190063477,
      "learning_rate": 0.00026428468452595295,
      "loss": 4.0242,
      "step": 109200
    },
    {
      "epoch": 0.22752083333333334,
      "grad_norm": 0.7223390340805054,
      "learning_rate": 0.00026427829892159343,
      "loss": 3.8089,
      "step": 109210
    },
    {
      "epoch": 0.22754166666666667,
      "grad_norm": 0.9702696800231934,
      "learning_rate": 0.000264271912823597,
      "loss": 4.011,
      "step": 109220
    },
    {
      "epoch": 0.2275625,
      "grad_norm": 0.7030995488166809,
      "learning_rate": 0.00026426552623199105,
      "loss": 3.7721,
      "step": 109230
    },
    {
      "epoch": 0.22758333333333333,
      "grad_norm": 0.7186703681945801,
      "learning_rate": 0.00026425913914680327,
      "loss": 3.8339,
      "step": 109240
    },
    {
      "epoch": 0.22760416666666666,
      "grad_norm": 0.8866310119628906,
      "learning_rate": 0.00026425275156806123,
      "loss": 3.9068,
      "step": 109250
    },
    {
      "epoch": 0.227625,
      "grad_norm": 0.8194873929023743,
      "learning_rate": 0.0002642463634957926,
      "loss": 3.9625,
      "step": 109260
    },
    {
      "epoch": 0.22764583333333333,
      "grad_norm": 0.7451662421226501,
      "learning_rate": 0.00026423997493002483,
      "loss": 3.8809,
      "step": 109270
    },
    {
      "epoch": 0.22766666666666666,
      "grad_norm": 0.8646328449249268,
      "learning_rate": 0.00026423358587078564,
      "loss": 3.8685,
      "step": 109280
    },
    {
      "epoch": 0.2276875,
      "grad_norm": 0.8582132458686829,
      "learning_rate": 0.0002642271963181025,
      "loss": 3.8492,
      "step": 109290
    },
    {
      "epoch": 0.22770833333333335,
      "grad_norm": 0.8723394274711609,
      "learning_rate": 0.00026422080627200317,
      "loss": 3.8499,
      "step": 109300
    },
    {
      "epoch": 0.22772916666666668,
      "grad_norm": 0.8789157867431641,
      "learning_rate": 0.0002642144157325151,
      "loss": 3.8766,
      "step": 109310
    },
    {
      "epoch": 0.22775,
      "grad_norm": 0.7020376324653625,
      "learning_rate": 0.000264208024699666,
      "loss": 3.9585,
      "step": 109320
    },
    {
      "epoch": 0.22777083333333334,
      "grad_norm": 0.7438896894454956,
      "learning_rate": 0.00026420163317348347,
      "loss": 4.084,
      "step": 109330
    },
    {
      "epoch": 0.22779166666666667,
      "grad_norm": 0.9015541672706604,
      "learning_rate": 0.00026419524115399505,
      "loss": 3.9749,
      "step": 109340
    },
    {
      "epoch": 0.2278125,
      "grad_norm": 0.8149701952934265,
      "learning_rate": 0.0002641888486412284,
      "loss": 3.9668,
      "step": 109350
    },
    {
      "epoch": 0.22783333333333333,
      "grad_norm": 0.6502760648727417,
      "learning_rate": 0.0002641824556352111,
      "loss": 4.0524,
      "step": 109360
    },
    {
      "epoch": 0.22785416666666666,
      "grad_norm": 0.8575359582901001,
      "learning_rate": 0.0002641760621359708,
      "loss": 3.8735,
      "step": 109370
    },
    {
      "epoch": 0.227875,
      "grad_norm": 0.8677646517753601,
      "learning_rate": 0.0002641696681435351,
      "loss": 3.8544,
      "step": 109380
    },
    {
      "epoch": 0.22789583333333333,
      "grad_norm": 0.7077972292900085,
      "learning_rate": 0.00026416327365793164,
      "loss": 4.0386,
      "step": 109390
    },
    {
      "epoch": 0.22791666666666666,
      "grad_norm": 0.7458457946777344,
      "learning_rate": 0.00026415687867918804,
      "loss": 4.0746,
      "step": 109400
    },
    {
      "epoch": 0.2279375,
      "grad_norm": 0.7556995749473572,
      "learning_rate": 0.0002641504832073319,
      "loss": 3.9944,
      "step": 109410
    },
    {
      "epoch": 0.22795833333333335,
      "grad_norm": 0.8564623594284058,
      "learning_rate": 0.00026414408724239084,
      "loss": 3.9201,
      "step": 109420
    },
    {
      "epoch": 0.22797916666666668,
      "grad_norm": 0.7261602282524109,
      "learning_rate": 0.00026413769078439253,
      "loss": 4.0478,
      "step": 109430
    },
    {
      "epoch": 0.228,
      "grad_norm": 0.8424165844917297,
      "learning_rate": 0.0002641312938333645,
      "loss": 3.9259,
      "step": 109440
    },
    {
      "epoch": 0.22802083333333334,
      "grad_norm": 0.9319525361061096,
      "learning_rate": 0.0002641248963893345,
      "loss": 4.0891,
      "step": 109450
    },
    {
      "epoch": 0.22804166666666667,
      "grad_norm": 0.8633121848106384,
      "learning_rate": 0.0002641184984523302,
      "loss": 3.8944,
      "step": 109460
    },
    {
      "epoch": 0.2280625,
      "grad_norm": 0.9659656286239624,
      "learning_rate": 0.0002641121000223791,
      "loss": 3.8978,
      "step": 109470
    },
    {
      "epoch": 0.22808333333333333,
      "grad_norm": 0.8419045805931091,
      "learning_rate": 0.0002641057010995089,
      "loss": 3.9073,
      "step": 109480
    },
    {
      "epoch": 0.22810416666666666,
      "grad_norm": 0.9332680702209473,
      "learning_rate": 0.0002640993016837472,
      "loss": 3.7823,
      "step": 109490
    },
    {
      "epoch": 0.228125,
      "grad_norm": 0.7900363802909851,
      "learning_rate": 0.0002640929017751217,
      "loss": 3.8347,
      "step": 109500
    },
    {
      "epoch": 0.22814583333333333,
      "grad_norm": 0.7122859358787537,
      "learning_rate": 0.00026408650137366006,
      "loss": 4.0859,
      "step": 109510
    },
    {
      "epoch": 0.22816666666666666,
      "grad_norm": 0.8112831711769104,
      "learning_rate": 0.00026408010047938987,
      "loss": 3.971,
      "step": 109520
    },
    {
      "epoch": 0.2281875,
      "grad_norm": 0.8198418021202087,
      "learning_rate": 0.0002640736990923388,
      "loss": 3.867,
      "step": 109530
    },
    {
      "epoch": 0.22820833333333335,
      "grad_norm": 0.7016808986663818,
      "learning_rate": 0.0002640672972125345,
      "loss": 4.0692,
      "step": 109540
    },
    {
      "epoch": 0.22822916666666668,
      "grad_norm": 0.7392622232437134,
      "learning_rate": 0.00026406089484000466,
      "loss": 3.8595,
      "step": 109550
    },
    {
      "epoch": 0.22825,
      "grad_norm": 0.7799830436706543,
      "learning_rate": 0.00026405449197477684,
      "loss": 3.922,
      "step": 109560
    },
    {
      "epoch": 0.22827083333333334,
      "grad_norm": 1.1229808330535889,
      "learning_rate": 0.00026404808861687877,
      "loss": 3.8587,
      "step": 109570
    },
    {
      "epoch": 0.22829166666666667,
      "grad_norm": 0.7212927937507629,
      "learning_rate": 0.0002640416847663381,
      "loss": 3.9411,
      "step": 109580
    },
    {
      "epoch": 0.2283125,
      "grad_norm": 0.9135217070579529,
      "learning_rate": 0.00026403528042318253,
      "loss": 3.9338,
      "step": 109590
    },
    {
      "epoch": 0.22833333333333333,
      "grad_norm": 0.9486455321311951,
      "learning_rate": 0.00026402887558743966,
      "loss": 3.7547,
      "step": 109600
    },
    {
      "epoch": 0.22835416666666666,
      "grad_norm": 0.8096184134483337,
      "learning_rate": 0.00026402247025913723,
      "loss": 4.0848,
      "step": 109610
    },
    {
      "epoch": 0.228375,
      "grad_norm": 0.7783848643302917,
      "learning_rate": 0.00026401606443830284,
      "loss": 4.0792,
      "step": 109620
    },
    {
      "epoch": 0.22839583333333333,
      "grad_norm": 0.765708863735199,
      "learning_rate": 0.00026400965812496414,
      "loss": 4.0049,
      "step": 109630
    },
    {
      "epoch": 0.22841666666666666,
      "grad_norm": 1.0106561183929443,
      "learning_rate": 0.00026400325131914894,
      "loss": 3.9896,
      "step": 109640
    },
    {
      "epoch": 0.2284375,
      "grad_norm": 0.9338300824165344,
      "learning_rate": 0.0002639968440208847,
      "loss": 3.8279,
      "step": 109650
    },
    {
      "epoch": 0.22845833333333335,
      "grad_norm": 0.6938652396202087,
      "learning_rate": 0.0002639904362301993,
      "loss": 4.0593,
      "step": 109660
    },
    {
      "epoch": 0.22847916666666668,
      "grad_norm": 0.7950575351715088,
      "learning_rate": 0.0002639840279471203,
      "loss": 3.8256,
      "step": 109670
    },
    {
      "epoch": 0.2285,
      "grad_norm": 0.863710343837738,
      "learning_rate": 0.0002639776191716754,
      "loss": 4.1375,
      "step": 109680
    },
    {
      "epoch": 0.22852083333333334,
      "grad_norm": 0.7684694528579712,
      "learning_rate": 0.00026397120990389233,
      "loss": 4.0483,
      "step": 109690
    },
    {
      "epoch": 0.22854166666666667,
      "grad_norm": 0.76094651222229,
      "learning_rate": 0.00026396480014379876,
      "loss": 3.7674,
      "step": 109700
    },
    {
      "epoch": 0.2285625,
      "grad_norm": 0.789027988910675,
      "learning_rate": 0.0002639583898914223,
      "loss": 3.8377,
      "step": 109710
    },
    {
      "epoch": 0.22858333333333333,
      "grad_norm": 0.6967670917510986,
      "learning_rate": 0.0002639519791467908,
      "loss": 3.7613,
      "step": 109720
    },
    {
      "epoch": 0.22860416666666666,
      "grad_norm": 1.0734822750091553,
      "learning_rate": 0.0002639455679099318,
      "loss": 3.8546,
      "step": 109730
    },
    {
      "epoch": 0.228625,
      "grad_norm": 0.9505367875099182,
      "learning_rate": 0.00026393915618087307,
      "loss": 3.999,
      "step": 109740
    },
    {
      "epoch": 0.22864583333333333,
      "grad_norm": 0.9332210421562195,
      "learning_rate": 0.00026393274395964224,
      "loss": 3.9409,
      "step": 109750
    },
    {
      "epoch": 0.22866666666666666,
      "grad_norm": 0.7475576400756836,
      "learning_rate": 0.00026392633124626706,
      "loss": 3.9663,
      "step": 109760
    },
    {
      "epoch": 0.2286875,
      "grad_norm": 0.7160632610321045,
      "learning_rate": 0.0002639199180407753,
      "loss": 3.8305,
      "step": 109770
    },
    {
      "epoch": 0.22870833333333335,
      "grad_norm": 0.7517324686050415,
      "learning_rate": 0.0002639135043431945,
      "loss": 3.7539,
      "step": 109780
    },
    {
      "epoch": 0.22872916666666668,
      "grad_norm": 0.818114697933197,
      "learning_rate": 0.0002639070901535525,
      "loss": 3.9507,
      "step": 109790
    },
    {
      "epoch": 0.22875,
      "grad_norm": 0.7590651512145996,
      "learning_rate": 0.00026390067547187696,
      "loss": 4.0164,
      "step": 109800
    },
    {
      "epoch": 0.22877083333333334,
      "grad_norm": 0.7373353838920593,
      "learning_rate": 0.0002638942602981956,
      "loss": 3.8152,
      "step": 109810
    },
    {
      "epoch": 0.22879166666666667,
      "grad_norm": 0.7649748921394348,
      "learning_rate": 0.00026388784463253603,
      "loss": 3.8372,
      "step": 109820
    },
    {
      "epoch": 0.2288125,
      "grad_norm": 0.9198845028877258,
      "learning_rate": 0.00026388142847492616,
      "loss": 3.8272,
      "step": 109830
    },
    {
      "epoch": 0.22883333333333333,
      "grad_norm": 0.7580945491790771,
      "learning_rate": 0.00026387501182539353,
      "loss": 3.8579,
      "step": 109840
    },
    {
      "epoch": 0.22885416666666666,
      "grad_norm": 0.8657234311103821,
      "learning_rate": 0.00026386859468396597,
      "loss": 3.8016,
      "step": 109850
    },
    {
      "epoch": 0.228875,
      "grad_norm": 0.7559195160865784,
      "learning_rate": 0.0002638621770506711,
      "loss": 3.9147,
      "step": 109860
    },
    {
      "epoch": 0.22889583333333333,
      "grad_norm": 0.8593403697013855,
      "learning_rate": 0.0002638557589255367,
      "loss": 3.9565,
      "step": 109870
    },
    {
      "epoch": 0.22891666666666666,
      "grad_norm": 0.8786885738372803,
      "learning_rate": 0.0002638493403085905,
      "loss": 3.7291,
      "step": 109880
    },
    {
      "epoch": 0.2289375,
      "grad_norm": 0.8491235971450806,
      "learning_rate": 0.00026384292119986023,
      "loss": 3.9545,
      "step": 109890
    },
    {
      "epoch": 0.22895833333333335,
      "grad_norm": 0.6955267190933228,
      "learning_rate": 0.00026383650159937357,
      "loss": 4.1,
      "step": 109900
    },
    {
      "epoch": 0.22897916666666668,
      "grad_norm": 0.7136731147766113,
      "learning_rate": 0.00026383008150715834,
      "loss": 3.9432,
      "step": 109910
    },
    {
      "epoch": 0.229,
      "grad_norm": 1.0043952465057373,
      "learning_rate": 0.0002638236609232422,
      "loss": 3.997,
      "step": 109920
    },
    {
      "epoch": 0.22902083333333334,
      "grad_norm": 0.7582695484161377,
      "learning_rate": 0.00026381723984765287,
      "loss": 3.9381,
      "step": 109930
    },
    {
      "epoch": 0.22904166666666667,
      "grad_norm": 0.7013106942176819,
      "learning_rate": 0.0002638108182804181,
      "loss": 3.9009,
      "step": 109940
    },
    {
      "epoch": 0.2290625,
      "grad_norm": 0.8008269667625427,
      "learning_rate": 0.00026380439622156567,
      "loss": 4.1077,
      "step": 109950
    },
    {
      "epoch": 0.22908333333333333,
      "grad_norm": 0.742562472820282,
      "learning_rate": 0.0002637979736711233,
      "loss": 3.8171,
      "step": 109960
    },
    {
      "epoch": 0.22910416666666666,
      "grad_norm": 0.8089008331298828,
      "learning_rate": 0.0002637915506291187,
      "loss": 3.7811,
      "step": 109970
    },
    {
      "epoch": 0.229125,
      "grad_norm": 0.830127477645874,
      "learning_rate": 0.0002637851270955797,
      "loss": 3.8195,
      "step": 109980
    },
    {
      "epoch": 0.22914583333333333,
      "grad_norm": 0.8295267820358276,
      "learning_rate": 0.00026377870307053397,
      "loss": 3.8919,
      "step": 109990
    },
    {
      "epoch": 0.22916666666666666,
      "grad_norm": 0.718661367893219,
      "learning_rate": 0.00026377227855400924,
      "loss": 3.8697,
      "step": 110000
    },
    {
      "epoch": 0.22916666666666666,
      "eval_loss": 4.249701499938965,
      "eval_runtime": 10.5597,
      "eval_samples_per_second": 0.947,
      "eval_steps_per_second": 0.284,
      "step": 110000
    },
    {
      "epoch": 0.2291875,
      "grad_norm": 0.7415273189544678,
      "learning_rate": 0.00026376585354603334,
      "loss": 3.7861,
      "step": 110010
    },
    {
      "epoch": 0.22920833333333332,
      "grad_norm": 0.7925416231155396,
      "learning_rate": 0.00026375942804663397,
      "loss": 3.9635,
      "step": 110020
    },
    {
      "epoch": 0.22922916666666668,
      "grad_norm": 0.7430617809295654,
      "learning_rate": 0.0002637530020558389,
      "loss": 3.9246,
      "step": 110030
    },
    {
      "epoch": 0.22925,
      "grad_norm": 0.7445803284645081,
      "learning_rate": 0.00026374657557367594,
      "loss": 3.8988,
      "step": 110040
    },
    {
      "epoch": 0.22927083333333334,
      "grad_norm": 0.7336782217025757,
      "learning_rate": 0.00026374014860017274,
      "loss": 4.0082,
      "step": 110050
    },
    {
      "epoch": 0.22929166666666667,
      "grad_norm": 0.6729409694671631,
      "learning_rate": 0.0002637337211353571,
      "loss": 4.0101,
      "step": 110060
    },
    {
      "epoch": 0.2293125,
      "grad_norm": 0.7361496686935425,
      "learning_rate": 0.0002637272931792568,
      "loss": 3.8981,
      "step": 110070
    },
    {
      "epoch": 0.22933333333333333,
      "grad_norm": 0.7461500763893127,
      "learning_rate": 0.00026372086473189964,
      "loss": 3.8955,
      "step": 110080
    },
    {
      "epoch": 0.22935416666666666,
      "grad_norm": 0.7760915756225586,
      "learning_rate": 0.0002637144357933134,
      "loss": 3.8394,
      "step": 110090
    },
    {
      "epoch": 0.229375,
      "grad_norm": 0.8526029586791992,
      "learning_rate": 0.0002637080063635258,
      "loss": 3.8861,
      "step": 110100
    },
    {
      "epoch": 0.22939583333333333,
      "grad_norm": 0.8022934794425964,
      "learning_rate": 0.00026370157644256455,
      "loss": 4.0007,
      "step": 110110
    },
    {
      "epoch": 0.22941666666666666,
      "grad_norm": 0.7521193623542786,
      "learning_rate": 0.0002636951460304575,
      "loss": 3.9473,
      "step": 110120
    },
    {
      "epoch": 0.2294375,
      "grad_norm": 0.7516229748725891,
      "learning_rate": 0.0002636887151272325,
      "loss": 4.0419,
      "step": 110130
    },
    {
      "epoch": 0.22945833333333332,
      "grad_norm": 0.6763893365859985,
      "learning_rate": 0.0002636822837329172,
      "loss": 3.8682,
      "step": 110140
    },
    {
      "epoch": 0.22947916666666668,
      "grad_norm": 0.7663094997406006,
      "learning_rate": 0.00026367585184753945,
      "loss": 3.866,
      "step": 110150
    },
    {
      "epoch": 0.2295,
      "grad_norm": 0.882121205329895,
      "learning_rate": 0.000263669419471127,
      "loss": 4.0151,
      "step": 110160
    },
    {
      "epoch": 0.22952083333333334,
      "grad_norm": 0.6913464665412903,
      "learning_rate": 0.00026366298660370765,
      "loss": 3.8905,
      "step": 110170
    },
    {
      "epoch": 0.22954166666666667,
      "grad_norm": 0.7483918070793152,
      "learning_rate": 0.00026365655324530924,
      "loss": 4.0546,
      "step": 110180
    },
    {
      "epoch": 0.2295625,
      "grad_norm": 0.7755992412567139,
      "learning_rate": 0.0002636501193959594,
      "loss": 3.7696,
      "step": 110190
    },
    {
      "epoch": 0.22958333333333333,
      "grad_norm": 0.7326026558876038,
      "learning_rate": 0.00026364368505568615,
      "loss": 3.8869,
      "step": 110200
    },
    {
      "epoch": 0.22960416666666666,
      "grad_norm": 0.7769258618354797,
      "learning_rate": 0.0002636372502245171,
      "loss": 3.9524,
      "step": 110210
    },
    {
      "epoch": 0.229625,
      "grad_norm": 0.7584809064865112,
      "learning_rate": 0.0002636308149024801,
      "loss": 3.8568,
      "step": 110220
    },
    {
      "epoch": 0.22964583333333333,
      "grad_norm": 0.7712398767471313,
      "learning_rate": 0.000263624379089603,
      "loss": 3.8487,
      "step": 110230
    },
    {
      "epoch": 0.22966666666666666,
      "grad_norm": 0.7107548117637634,
      "learning_rate": 0.0002636179427859135,
      "loss": 3.8059,
      "step": 110240
    },
    {
      "epoch": 0.2296875,
      "grad_norm": 0.9684906005859375,
      "learning_rate": 0.0002636115059914395,
      "loss": 3.8416,
      "step": 110250
    },
    {
      "epoch": 0.22970833333333332,
      "grad_norm": 0.7956709861755371,
      "learning_rate": 0.00026360506870620883,
      "loss": 3.8661,
      "step": 110260
    },
    {
      "epoch": 0.22972916666666668,
      "grad_norm": 0.7930283546447754,
      "learning_rate": 0.00026359863093024916,
      "loss": 4.023,
      "step": 110270
    },
    {
      "epoch": 0.22975,
      "grad_norm": 0.7595381140708923,
      "learning_rate": 0.00026359219266358836,
      "loss": 4.0126,
      "step": 110280
    },
    {
      "epoch": 0.22977083333333334,
      "grad_norm": 0.6647530198097229,
      "learning_rate": 0.00026358575390625426,
      "loss": 3.9504,
      "step": 110290
    },
    {
      "epoch": 0.22979166666666667,
      "grad_norm": 0.7436468005180359,
      "learning_rate": 0.0002635793146582747,
      "loss": 3.8658,
      "step": 110300
    },
    {
      "epoch": 0.2298125,
      "grad_norm": 0.7605845928192139,
      "learning_rate": 0.0002635728749196774,
      "loss": 3.8086,
      "step": 110310
    },
    {
      "epoch": 0.22983333333333333,
      "grad_norm": 0.7105920910835266,
      "learning_rate": 0.0002635664346904902,
      "loss": 3.8331,
      "step": 110320
    },
    {
      "epoch": 0.22985416666666666,
      "grad_norm": 0.7485894560813904,
      "learning_rate": 0.00026355999397074107,
      "loss": 3.9268,
      "step": 110330
    },
    {
      "epoch": 0.229875,
      "grad_norm": 0.8219748735427856,
      "learning_rate": 0.00026355355276045766,
      "loss": 4.0463,
      "step": 110340
    },
    {
      "epoch": 0.22989583333333333,
      "grad_norm": 0.8608161211013794,
      "learning_rate": 0.00026354711105966785,
      "loss": 3.8347,
      "step": 110350
    },
    {
      "epoch": 0.22991666666666666,
      "grad_norm": 0.746091365814209,
      "learning_rate": 0.00026354066886839946,
      "loss": 3.7858,
      "step": 110360
    },
    {
      "epoch": 0.2299375,
      "grad_norm": 0.804319441318512,
      "learning_rate": 0.00026353422618668034,
      "loss": 4.1033,
      "step": 110370
    },
    {
      "epoch": 0.22995833333333332,
      "grad_norm": 0.7565343976020813,
      "learning_rate": 0.0002635277830145383,
      "loss": 3.941,
      "step": 110380
    },
    {
      "epoch": 0.22997916666666668,
      "grad_norm": 0.8230046629905701,
      "learning_rate": 0.00026352133935200116,
      "loss": 3.8843,
      "step": 110390
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8380718231201172,
      "learning_rate": 0.0002635148951990968,
      "loss": 3.9133,
      "step": 110400
    },
    {
      "epoch": 0.23002083333333334,
      "grad_norm": 0.9129257202148438,
      "learning_rate": 0.00026350845055585296,
      "loss": 3.8807,
      "step": 110410
    },
    {
      "epoch": 0.23004166666666667,
      "grad_norm": 0.7682124972343445,
      "learning_rate": 0.00026350200542229763,
      "loss": 4.0301,
      "step": 110420
    },
    {
      "epoch": 0.2300625,
      "grad_norm": 0.8067581057548523,
      "learning_rate": 0.0002634955597984585,
      "loss": 3.8033,
      "step": 110430
    },
    {
      "epoch": 0.23008333333333333,
      "grad_norm": 0.8139240741729736,
      "learning_rate": 0.00026348911368436346,
      "loss": 3.8868,
      "step": 110440
    },
    {
      "epoch": 0.23010416666666667,
      "grad_norm": 0.7920733690261841,
      "learning_rate": 0.0002634826670800404,
      "loss": 3.8681,
      "step": 110450
    },
    {
      "epoch": 0.230125,
      "grad_norm": 0.7330632209777832,
      "learning_rate": 0.00026347621998551717,
      "loss": 3.781,
      "step": 110460
    },
    {
      "epoch": 0.23014583333333333,
      "grad_norm": 0.7772855758666992,
      "learning_rate": 0.0002634697724008216,
      "loss": 3.9946,
      "step": 110470
    },
    {
      "epoch": 0.23016666666666666,
      "grad_norm": 0.8419053554534912,
      "learning_rate": 0.0002634633243259814,
      "loss": 4.0081,
      "step": 110480
    },
    {
      "epoch": 0.2301875,
      "grad_norm": 0.7357924580574036,
      "learning_rate": 0.0002634568757610247,
      "loss": 3.855,
      "step": 110490
    },
    {
      "epoch": 0.23020833333333332,
      "grad_norm": 1.0452427864074707,
      "learning_rate": 0.0002634504267059792,
      "loss": 3.8022,
      "step": 110500
    },
    {
      "epoch": 0.23022916666666668,
      "grad_norm": 0.6946810483932495,
      "learning_rate": 0.00026344397716087265,
      "loss": 4.0258,
      "step": 110510
    },
    {
      "epoch": 0.23025,
      "grad_norm": 0.9397356510162354,
      "learning_rate": 0.0002634375271257331,
      "loss": 3.9896,
      "step": 110520
    },
    {
      "epoch": 0.23027083333333334,
      "grad_norm": 0.7494910955429077,
      "learning_rate": 0.0002634310766005883,
      "loss": 4.1399,
      "step": 110530
    },
    {
      "epoch": 0.23029166666666667,
      "grad_norm": 0.8289433121681213,
      "learning_rate": 0.00026342462558546614,
      "loss": 3.9751,
      "step": 110540
    },
    {
      "epoch": 0.2303125,
      "grad_norm": 0.8440728783607483,
      "learning_rate": 0.00026341817408039454,
      "loss": 3.8619,
      "step": 110550
    },
    {
      "epoch": 0.23033333333333333,
      "grad_norm": 0.9003103375434875,
      "learning_rate": 0.0002634117220854013,
      "loss": 3.9259,
      "step": 110560
    },
    {
      "epoch": 0.23035416666666667,
      "grad_norm": 0.7315119504928589,
      "learning_rate": 0.0002634052696005143,
      "loss": 3.9721,
      "step": 110570
    },
    {
      "epoch": 0.230375,
      "grad_norm": 0.7476469874382019,
      "learning_rate": 0.00026339881662576145,
      "loss": 3.8515,
      "step": 110580
    },
    {
      "epoch": 0.23039583333333333,
      "grad_norm": 0.9370314478874207,
      "learning_rate": 0.00026339236316117056,
      "loss": 3.9393,
      "step": 110590
    },
    {
      "epoch": 0.23041666666666666,
      "grad_norm": 0.7821308374404907,
      "learning_rate": 0.0002633859092067696,
      "loss": 3.8511,
      "step": 110600
    },
    {
      "epoch": 0.2304375,
      "grad_norm": 0.938216507434845,
      "learning_rate": 0.0002633794547625863,
      "loss": 3.8838,
      "step": 110610
    },
    {
      "epoch": 0.23045833333333332,
      "grad_norm": 0.6697997450828552,
      "learning_rate": 0.00026337299982864875,
      "loss": 3.8901,
      "step": 110620
    },
    {
      "epoch": 0.23047916666666668,
      "grad_norm": 0.7944203019142151,
      "learning_rate": 0.0002633665444049847,
      "loss": 3.9081,
      "step": 110630
    },
    {
      "epoch": 0.2305,
      "grad_norm": 0.7712404131889343,
      "learning_rate": 0.000263360088491622,
      "loss": 3.9264,
      "step": 110640
    },
    {
      "epoch": 0.23052083333333334,
      "grad_norm": 0.7657455801963806,
      "learning_rate": 0.0002633536320885886,
      "loss": 3.806,
      "step": 110650
    },
    {
      "epoch": 0.23054166666666667,
      "grad_norm": 0.8278506398200989,
      "learning_rate": 0.0002633471751959124,
      "loss": 3.9548,
      "step": 110660
    },
    {
      "epoch": 0.2305625,
      "grad_norm": 0.7828817963600159,
      "learning_rate": 0.00026334071781362124,
      "loss": 3.9745,
      "step": 110670
    },
    {
      "epoch": 0.23058333333333333,
      "grad_norm": 0.7219924926757812,
      "learning_rate": 0.00026333425994174304,
      "loss": 3.8848,
      "step": 110680
    },
    {
      "epoch": 0.23060416666666667,
      "grad_norm": 0.7578567266464233,
      "learning_rate": 0.0002633278015803057,
      "loss": 3.7908,
      "step": 110690
    },
    {
      "epoch": 0.230625,
      "grad_norm": 0.8224273324012756,
      "learning_rate": 0.00026332134272933716,
      "loss": 3.8528,
      "step": 110700
    },
    {
      "epoch": 0.23064583333333333,
      "grad_norm": 0.891659140586853,
      "learning_rate": 0.0002633148833888652,
      "loss": 3.8193,
      "step": 110710
    },
    {
      "epoch": 0.23066666666666666,
      "grad_norm": 0.8037193417549133,
      "learning_rate": 0.0002633084235589179,
      "loss": 3.8481,
      "step": 110720
    },
    {
      "epoch": 0.2306875,
      "grad_norm": 0.7784743905067444,
      "learning_rate": 0.000263301963239523,
      "loss": 3.9424,
      "step": 110730
    },
    {
      "epoch": 0.23070833333333332,
      "grad_norm": 0.7517142295837402,
      "learning_rate": 0.00026329550243070845,
      "loss": 4.0266,
      "step": 110740
    },
    {
      "epoch": 0.23072916666666668,
      "grad_norm": 0.6955044269561768,
      "learning_rate": 0.00026328904113250213,
      "loss": 3.9015,
      "step": 110750
    },
    {
      "epoch": 0.23075,
      "grad_norm": 0.8060383796691895,
      "learning_rate": 0.0002632825793449321,
      "loss": 3.8304,
      "step": 110760
    },
    {
      "epoch": 0.23077083333333334,
      "grad_norm": 0.7709038853645325,
      "learning_rate": 0.0002632761170680261,
      "loss": 3.8963,
      "step": 110770
    },
    {
      "epoch": 0.23079166666666667,
      "grad_norm": 0.7380147576332092,
      "learning_rate": 0.00026326965430181217,
      "loss": 3.8006,
      "step": 110780
    },
    {
      "epoch": 0.2308125,
      "grad_norm": 0.8429622054100037,
      "learning_rate": 0.00026326319104631816,
      "loss": 3.9463,
      "step": 110790
    },
    {
      "epoch": 0.23083333333333333,
      "grad_norm": 0.6555927395820618,
      "learning_rate": 0.00026325672730157196,
      "loss": 3.9201,
      "step": 110800
    },
    {
      "epoch": 0.23085416666666667,
      "grad_norm": 0.7551180124282837,
      "learning_rate": 0.00026325026306760153,
      "loss": 3.9295,
      "step": 110810
    },
    {
      "epoch": 0.230875,
      "grad_norm": 0.714095413684845,
      "learning_rate": 0.0002632437983444348,
      "loss": 3.7702,
      "step": 110820
    },
    {
      "epoch": 0.23089583333333333,
      "grad_norm": 0.9376791715621948,
      "learning_rate": 0.0002632373331320997,
      "loss": 3.9306,
      "step": 110830
    },
    {
      "epoch": 0.23091666666666666,
      "grad_norm": 0.8611328601837158,
      "learning_rate": 0.0002632308674306241,
      "loss": 4.0446,
      "step": 110840
    },
    {
      "epoch": 0.2309375,
      "grad_norm": 0.8162150382995605,
      "learning_rate": 0.00026322440124003604,
      "loss": 3.903,
      "step": 110850
    },
    {
      "epoch": 0.23095833333333332,
      "grad_norm": 0.7970434427261353,
      "learning_rate": 0.0002632179345603633,
      "loss": 4.04,
      "step": 110860
    },
    {
      "epoch": 0.23097916666666668,
      "grad_norm": 0.7253361940383911,
      "learning_rate": 0.000263211467391634,
      "loss": 4.0305,
      "step": 110870
    },
    {
      "epoch": 0.231,
      "grad_norm": 0.718839704990387,
      "learning_rate": 0.0002632049997338759,
      "loss": 3.9479,
      "step": 110880
    },
    {
      "epoch": 0.23102083333333334,
      "grad_norm": 0.8014327883720398,
      "learning_rate": 0.000263198531587117,
      "loss": 3.8546,
      "step": 110890
    },
    {
      "epoch": 0.23104166666666667,
      "grad_norm": 0.6378292441368103,
      "learning_rate": 0.0002631920629513853,
      "loss": 3.9452,
      "step": 110900
    },
    {
      "epoch": 0.2310625,
      "grad_norm": 0.7460970282554626,
      "learning_rate": 0.00026318559382670865,
      "loss": 3.8953,
      "step": 110910
    },
    {
      "epoch": 0.23108333333333334,
      "grad_norm": 0.7733733057975769,
      "learning_rate": 0.0002631791242131151,
      "loss": 3.8513,
      "step": 110920
    },
    {
      "epoch": 0.23110416666666667,
      "grad_norm": 0.6646256446838379,
      "learning_rate": 0.00026317265411063246,
      "loss": 3.8363,
      "step": 110930
    },
    {
      "epoch": 0.231125,
      "grad_norm": 0.6862418055534363,
      "learning_rate": 0.0002631661835192888,
      "loss": 3.8604,
      "step": 110940
    },
    {
      "epoch": 0.23114583333333333,
      "grad_norm": 0.8158310055732727,
      "learning_rate": 0.000263159712439112,
      "loss": 3.95,
      "step": 110950
    },
    {
      "epoch": 0.23116666666666666,
      "grad_norm": 0.8497163653373718,
      "learning_rate": 0.00026315324087013,
      "loss": 3.9401,
      "step": 110960
    },
    {
      "epoch": 0.2311875,
      "grad_norm": 0.8626744747161865,
      "learning_rate": 0.0002631467688123709,
      "loss": 3.954,
      "step": 110970
    },
    {
      "epoch": 0.23120833333333332,
      "grad_norm": 0.8702007532119751,
      "learning_rate": 0.00026314029626586246,
      "loss": 3.8886,
      "step": 110980
    },
    {
      "epoch": 0.23122916666666668,
      "grad_norm": 0.7809944152832031,
      "learning_rate": 0.0002631338232306327,
      "loss": 3.9979,
      "step": 110990
    },
    {
      "epoch": 0.23125,
      "grad_norm": 1.011650800704956,
      "learning_rate": 0.00026312734970670965,
      "loss": 3.899,
      "step": 111000
    },
    {
      "epoch": 0.23125,
      "eval_loss": 4.259222984313965,
      "eval_runtime": 12.1814,
      "eval_samples_per_second": 0.821,
      "eval_steps_per_second": 0.246,
      "step": 111000
    },
    {
      "epoch": 0.23127083333333334,
      "grad_norm": 0.7447972297668457,
      "learning_rate": 0.00026312087569412126,
      "loss": 3.9835,
      "step": 111010
    },
    {
      "epoch": 0.23129166666666667,
      "grad_norm": 0.7871766686439514,
      "learning_rate": 0.0002631144011928954,
      "loss": 4.0029,
      "step": 111020
    },
    {
      "epoch": 0.2313125,
      "grad_norm": 0.7316348552703857,
      "learning_rate": 0.00026310792620306016,
      "loss": 3.9094,
      "step": 111030
    },
    {
      "epoch": 0.23133333333333334,
      "grad_norm": 0.7284290194511414,
      "learning_rate": 0.0002631014507246434,
      "loss": 3.777,
      "step": 111040
    },
    {
      "epoch": 0.23135416666666667,
      "grad_norm": 0.671930193901062,
      "learning_rate": 0.00026309497475767314,
      "loss": 3.9091,
      "step": 111050
    },
    {
      "epoch": 0.231375,
      "grad_norm": 0.7103212475776672,
      "learning_rate": 0.0002630884983021774,
      "loss": 3.9506,
      "step": 111060
    },
    {
      "epoch": 0.23139583333333333,
      "grad_norm": 1.211203932762146,
      "learning_rate": 0.00026308202135818403,
      "loss": 4.0763,
      "step": 111070
    },
    {
      "epoch": 0.23141666666666666,
      "grad_norm": 0.8662888407707214,
      "learning_rate": 0.0002630755439257211,
      "loss": 3.9137,
      "step": 111080
    },
    {
      "epoch": 0.2314375,
      "grad_norm": 0.7737754583358765,
      "learning_rate": 0.0002630690660048167,
      "loss": 3.8654,
      "step": 111090
    },
    {
      "epoch": 0.23145833333333332,
      "grad_norm": 0.7639414668083191,
      "learning_rate": 0.00026306258759549857,
      "loss": 3.9977,
      "step": 111100
    },
    {
      "epoch": 0.23147916666666668,
      "grad_norm": 0.7029449343681335,
      "learning_rate": 0.00026305610869779486,
      "loss": 3.8866,
      "step": 111110
    },
    {
      "epoch": 0.2315,
      "grad_norm": 0.725816547870636,
      "learning_rate": 0.00026304962931173354,
      "loss": 3.8516,
      "step": 111120
    },
    {
      "epoch": 0.23152083333333334,
      "grad_norm": 0.7402777075767517,
      "learning_rate": 0.0002630431494373425,
      "loss": 3.9251,
      "step": 111130
    },
    {
      "epoch": 0.23154166666666667,
      "grad_norm": 0.6928304433822632,
      "learning_rate": 0.0002630366690746498,
      "loss": 3.7762,
      "step": 111140
    },
    {
      "epoch": 0.2315625,
      "grad_norm": 1.0071220397949219,
      "learning_rate": 0.00026303018822368353,
      "loss": 3.9681,
      "step": 111150
    },
    {
      "epoch": 0.23158333333333334,
      "grad_norm": 0.6975928544998169,
      "learning_rate": 0.0002630237068844715,
      "loss": 4.0362,
      "step": 111160
    },
    {
      "epoch": 0.23160416666666667,
      "grad_norm": 0.7705450654029846,
      "learning_rate": 0.00026301722505704184,
      "loss": 3.9652,
      "step": 111170
    },
    {
      "epoch": 0.231625,
      "grad_norm": 0.7328722476959229,
      "learning_rate": 0.0002630107427414225,
      "loss": 3.7845,
      "step": 111180
    },
    {
      "epoch": 0.23164583333333333,
      "grad_norm": 0.8429649472236633,
      "learning_rate": 0.00026300425993764146,
      "loss": 3.7654,
      "step": 111190
    },
    {
      "epoch": 0.23166666666666666,
      "grad_norm": 0.6927450299263,
      "learning_rate": 0.0002629977766457268,
      "loss": 3.8065,
      "step": 111200
    },
    {
      "epoch": 0.2316875,
      "grad_norm": 0.8214758038520813,
      "learning_rate": 0.00026299129286570637,
      "loss": 3.8802,
      "step": 111210
    },
    {
      "epoch": 0.23170833333333332,
      "grad_norm": 0.8582007884979248,
      "learning_rate": 0.0002629848085976084,
      "loss": 3.9225,
      "step": 111220
    },
    {
      "epoch": 0.23172916666666668,
      "grad_norm": 0.8587452173233032,
      "learning_rate": 0.0002629783238414607,
      "loss": 3.8799,
      "step": 111230
    },
    {
      "epoch": 0.23175,
      "grad_norm": 0.7185875773429871,
      "learning_rate": 0.00026297183859729135,
      "loss": 3.9331,
      "step": 111240
    },
    {
      "epoch": 0.23177083333333334,
      "grad_norm": 0.7874863743782043,
      "learning_rate": 0.0002629653528651284,
      "loss": 4.0469,
      "step": 111250
    },
    {
      "epoch": 0.23179166666666667,
      "grad_norm": 0.688462495803833,
      "learning_rate": 0.00026295886664499984,
      "loss": 3.856,
      "step": 111260
    },
    {
      "epoch": 0.2318125,
      "grad_norm": 0.7100249528884888,
      "learning_rate": 0.0002629523799369337,
      "loss": 3.8522,
      "step": 111270
    },
    {
      "epoch": 0.23183333333333334,
      "grad_norm": 0.717502236366272,
      "learning_rate": 0.000262945892740958,
      "loss": 3.7062,
      "step": 111280
    },
    {
      "epoch": 0.23185416666666667,
      "grad_norm": 0.7285719513893127,
      "learning_rate": 0.00026293940505710067,
      "loss": 3.8296,
      "step": 111290
    },
    {
      "epoch": 0.231875,
      "grad_norm": 0.7048869132995605,
      "learning_rate": 0.0002629329168853899,
      "loss": 3.8523,
      "step": 111300
    },
    {
      "epoch": 0.23189583333333333,
      "grad_norm": 0.9402475953102112,
      "learning_rate": 0.0002629264282258536,
      "loss": 4.0261,
      "step": 111310
    },
    {
      "epoch": 0.23191666666666666,
      "grad_norm": 0.7475755214691162,
      "learning_rate": 0.00026291993907851983,
      "loss": 3.8453,
      "step": 111320
    },
    {
      "epoch": 0.2319375,
      "grad_norm": 0.6509888172149658,
      "learning_rate": 0.00026291344944341666,
      "loss": 3.946,
      "step": 111330
    },
    {
      "epoch": 0.23195833333333332,
      "grad_norm": 0.6837831735610962,
      "learning_rate": 0.000262906959320572,
      "loss": 3.9729,
      "step": 111340
    },
    {
      "epoch": 0.23197916666666665,
      "grad_norm": 0.8936699032783508,
      "learning_rate": 0.000262900468710014,
      "loss": 4.0117,
      "step": 111350
    },
    {
      "epoch": 0.232,
      "grad_norm": 0.8879022598266602,
      "learning_rate": 0.0002628939776117707,
      "loss": 3.7899,
      "step": 111360
    },
    {
      "epoch": 0.23202083333333334,
      "grad_norm": 0.710128128528595,
      "learning_rate": 0.00026288748602587005,
      "loss": 4.1887,
      "step": 111370
    },
    {
      "epoch": 0.23204166666666667,
      "grad_norm": 0.7109906077384949,
      "learning_rate": 0.0002628809939523402,
      "loss": 3.927,
      "step": 111380
    },
    {
      "epoch": 0.2320625,
      "grad_norm": 0.7970317006111145,
      "learning_rate": 0.0002628745013912091,
      "loss": 3.9565,
      "step": 111390
    },
    {
      "epoch": 0.23208333333333334,
      "grad_norm": 0.770982027053833,
      "learning_rate": 0.0002628680083425049,
      "loss": 3.8723,
      "step": 111400
    },
    {
      "epoch": 0.23210416666666667,
      "grad_norm": 0.7223377823829651,
      "learning_rate": 0.0002628615148062555,
      "loss": 3.8235,
      "step": 111410
    },
    {
      "epoch": 0.232125,
      "grad_norm": 0.8547884225845337,
      "learning_rate": 0.00026285502078248905,
      "loss": 3.9321,
      "step": 111420
    },
    {
      "epoch": 0.23214583333333333,
      "grad_norm": 0.7768958210945129,
      "learning_rate": 0.00026284852627123356,
      "loss": 3.9343,
      "step": 111430
    },
    {
      "epoch": 0.23216666666666666,
      "grad_norm": 0.7044298648834229,
      "learning_rate": 0.0002628420312725172,
      "loss": 3.7384,
      "step": 111440
    },
    {
      "epoch": 0.2321875,
      "grad_norm": 0.6861140727996826,
      "learning_rate": 0.00026283553578636785,
      "loss": 3.9858,
      "step": 111450
    },
    {
      "epoch": 0.23220833333333332,
      "grad_norm": 0.7831413149833679,
      "learning_rate": 0.00026282903981281365,
      "loss": 3.8283,
      "step": 111460
    },
    {
      "epoch": 0.23222916666666665,
      "grad_norm": 0.9140717387199402,
      "learning_rate": 0.00026282254335188265,
      "loss": 3.889,
      "step": 111470
    },
    {
      "epoch": 0.23225,
      "grad_norm": 0.8580403327941895,
      "learning_rate": 0.00026281604640360294,
      "loss": 3.8962,
      "step": 111480
    },
    {
      "epoch": 0.23227083333333334,
      "grad_norm": 0.7603825330734253,
      "learning_rate": 0.0002628095489680026,
      "loss": 3.8639,
      "step": 111490
    },
    {
      "epoch": 0.23229166666666667,
      "grad_norm": 0.9072398543357849,
      "learning_rate": 0.00026280305104510964,
      "loss": 4.0419,
      "step": 111500
    },
    {
      "epoch": 0.2323125,
      "grad_norm": 0.8351004719734192,
      "learning_rate": 0.0002627965526349521,
      "loss": 3.7948,
      "step": 111510
    },
    {
      "epoch": 0.23233333333333334,
      "grad_norm": 0.758663535118103,
      "learning_rate": 0.00026279005373755813,
      "loss": 3.7984,
      "step": 111520
    },
    {
      "epoch": 0.23235416666666667,
      "grad_norm": 0.7044987678527832,
      "learning_rate": 0.0002627835543529558,
      "loss": 3.7625,
      "step": 111530
    },
    {
      "epoch": 0.232375,
      "grad_norm": 0.8230049014091492,
      "learning_rate": 0.00026277705448117316,
      "loss": 3.9412,
      "step": 111540
    },
    {
      "epoch": 0.23239583333333333,
      "grad_norm": 0.7038384675979614,
      "learning_rate": 0.0002627705541222382,
      "loss": 3.9714,
      "step": 111550
    },
    {
      "epoch": 0.23241666666666666,
      "grad_norm": 0.686237633228302,
      "learning_rate": 0.0002627640532761792,
      "loss": 3.9185,
      "step": 111560
    },
    {
      "epoch": 0.2324375,
      "grad_norm": 0.7641128301620483,
      "learning_rate": 0.0002627575519430241,
      "loss": 3.8886,
      "step": 111570
    },
    {
      "epoch": 0.23245833333333332,
      "grad_norm": 0.8373143672943115,
      "learning_rate": 0.00026275105012280096,
      "loss": 3.9086,
      "step": 111580
    },
    {
      "epoch": 0.23247916666666665,
      "grad_norm": 0.7255634069442749,
      "learning_rate": 0.0002627445478155379,
      "loss": 3.8907,
      "step": 111590
    },
    {
      "epoch": 0.2325,
      "grad_norm": 0.6677389740943909,
      "learning_rate": 0.0002627380450212631,
      "loss": 4.0584,
      "step": 111600
    },
    {
      "epoch": 0.23252083333333334,
      "grad_norm": 0.9531341791152954,
      "learning_rate": 0.00026273154174000457,
      "loss": 3.8513,
      "step": 111610
    },
    {
      "epoch": 0.23254166666666667,
      "grad_norm": 0.7701080441474915,
      "learning_rate": 0.0002627250379717903,
      "loss": 3.8268,
      "step": 111620
    },
    {
      "epoch": 0.2325625,
      "grad_norm": 0.7749426364898682,
      "learning_rate": 0.00026271853371664857,
      "loss": 3.9065,
      "step": 111630
    },
    {
      "epoch": 0.23258333333333334,
      "grad_norm": 0.5677282214164734,
      "learning_rate": 0.00026271202897460734,
      "loss": 3.9892,
      "step": 111640
    },
    {
      "epoch": 0.23260416666666667,
      "grad_norm": 0.7585051655769348,
      "learning_rate": 0.0002627055237456948,
      "loss": 3.802,
      "step": 111650
    },
    {
      "epoch": 0.232625,
      "grad_norm": 0.8361876010894775,
      "learning_rate": 0.000262699018029939,
      "loss": 3.9132,
      "step": 111660
    },
    {
      "epoch": 0.23264583333333333,
      "grad_norm": 0.7064248323440552,
      "learning_rate": 0.00026269251182736806,
      "loss": 3.7597,
      "step": 111670
    },
    {
      "epoch": 0.23266666666666666,
      "grad_norm": 0.7732850313186646,
      "learning_rate": 0.00026268600513801007,
      "loss": 3.9992,
      "step": 111680
    },
    {
      "epoch": 0.2326875,
      "grad_norm": 0.765714704990387,
      "learning_rate": 0.0002626794979618931,
      "loss": 3.9224,
      "step": 111690
    },
    {
      "epoch": 0.23270833333333332,
      "grad_norm": 0.6995965838432312,
      "learning_rate": 0.00026267299029904533,
      "loss": 3.9122,
      "step": 111700
    },
    {
      "epoch": 0.23272916666666665,
      "grad_norm": 0.7562347054481506,
      "learning_rate": 0.00026266648214949486,
      "loss": 3.9894,
      "step": 111710
    },
    {
      "epoch": 0.23275,
      "grad_norm": 0.7201587557792664,
      "learning_rate": 0.0002626599735132698,
      "loss": 3.8096,
      "step": 111720
    },
    {
      "epoch": 0.23277083333333334,
      "grad_norm": 0.6826424598693848,
      "learning_rate": 0.00026265346439039816,
      "loss": 4.0296,
      "step": 111730
    },
    {
      "epoch": 0.23279166666666667,
      "grad_norm": 0.7603018879890442,
      "learning_rate": 0.00026264695478090826,
      "loss": 3.8851,
      "step": 111740
    },
    {
      "epoch": 0.2328125,
      "grad_norm": 0.740297257900238,
      "learning_rate": 0.00026264044468482804,
      "loss": 4.0285,
      "step": 111750
    },
    {
      "epoch": 0.23283333333333334,
      "grad_norm": 0.7939237952232361,
      "learning_rate": 0.0002626339341021857,
      "loss": 3.8378,
      "step": 111760
    },
    {
      "epoch": 0.23285416666666667,
      "grad_norm": 0.7580857276916504,
      "learning_rate": 0.0002626274230330093,
      "loss": 4.0436,
      "step": 111770
    },
    {
      "epoch": 0.232875,
      "grad_norm": 0.840263307094574,
      "learning_rate": 0.000262620911477327,
      "loss": 3.8759,
      "step": 111780
    },
    {
      "epoch": 0.23289583333333333,
      "grad_norm": 0.7579668164253235,
      "learning_rate": 0.00026261439943516706,
      "loss": 3.7403,
      "step": 111790
    },
    {
      "epoch": 0.23291666666666666,
      "grad_norm": 0.7859682440757751,
      "learning_rate": 0.0002626078869065574,
      "loss": 3.924,
      "step": 111800
    },
    {
      "epoch": 0.2329375,
      "grad_norm": 0.7735762596130371,
      "learning_rate": 0.0002626013738915263,
      "loss": 4.0336,
      "step": 111810
    },
    {
      "epoch": 0.23295833333333332,
      "grad_norm": 0.7913901805877686,
      "learning_rate": 0.0002625948603901018,
      "loss": 4.0462,
      "step": 111820
    },
    {
      "epoch": 0.23297916666666665,
      "grad_norm": 0.6808672547340393,
      "learning_rate": 0.00026258834640231207,
      "loss": 3.9063,
      "step": 111830
    },
    {
      "epoch": 0.233,
      "grad_norm": 0.8610113263130188,
      "learning_rate": 0.00026258183192818526,
      "loss": 3.8985,
      "step": 111840
    },
    {
      "epoch": 0.23302083333333334,
      "grad_norm": 0.819995641708374,
      "learning_rate": 0.0002625753169677495,
      "loss": 3.9316,
      "step": 111850
    },
    {
      "epoch": 0.23304166666666667,
      "grad_norm": 0.7497013211250305,
      "learning_rate": 0.0002625688015210329,
      "loss": 3.9134,
      "step": 111860
    },
    {
      "epoch": 0.2330625,
      "grad_norm": 0.8400436043739319,
      "learning_rate": 0.00026256228558806365,
      "loss": 3.9156,
      "step": 111870
    },
    {
      "epoch": 0.23308333333333334,
      "grad_norm": 0.8771371841430664,
      "learning_rate": 0.0002625557691688699,
      "loss": 3.8162,
      "step": 111880
    },
    {
      "epoch": 0.23310416666666667,
      "grad_norm": 0.790725588798523,
      "learning_rate": 0.0002625492522634798,
      "loss": 3.7881,
      "step": 111890
    },
    {
      "epoch": 0.233125,
      "grad_norm": 0.7919836640357971,
      "learning_rate": 0.00026254273487192145,
      "loss": 3.886,
      "step": 111900
    },
    {
      "epoch": 0.23314583333333333,
      "grad_norm": 0.7582946419715881,
      "learning_rate": 0.000262536216994223,
      "loss": 3.8966,
      "step": 111910
    },
    {
      "epoch": 0.23316666666666666,
      "grad_norm": 0.7517276406288147,
      "learning_rate": 0.0002625296986304127,
      "loss": 3.7688,
      "step": 111920
    },
    {
      "epoch": 0.2331875,
      "grad_norm": 0.8119111657142639,
      "learning_rate": 0.0002625231797805186,
      "loss": 3.7797,
      "step": 111930
    },
    {
      "epoch": 0.23320833333333332,
      "grad_norm": 0.6608599424362183,
      "learning_rate": 0.0002625166604445689,
      "loss": 3.8323,
      "step": 111940
    },
    {
      "epoch": 0.23322916666666665,
      "grad_norm": 0.7229088544845581,
      "learning_rate": 0.00026251014062259184,
      "loss": 3.7491,
      "step": 111950
    },
    {
      "epoch": 0.23325,
      "grad_norm": 0.7446879148483276,
      "learning_rate": 0.0002625036203146154,
      "loss": 3.8828,
      "step": 111960
    },
    {
      "epoch": 0.23327083333333334,
      "grad_norm": 0.837006688117981,
      "learning_rate": 0.0002624970995206679,
      "loss": 3.8628,
      "step": 111970
    },
    {
      "epoch": 0.23329166666666667,
      "grad_norm": 0.7080159187316895,
      "learning_rate": 0.00026249057824077746,
      "loss": 3.7792,
      "step": 111980
    },
    {
      "epoch": 0.2333125,
      "grad_norm": 0.7472955584526062,
      "learning_rate": 0.0002624840564749722,
      "loss": 3.9049,
      "step": 111990
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 0.7172091007232666,
      "learning_rate": 0.0002624775342232804,
      "loss": 3.7349,
      "step": 112000
    },
    {
      "epoch": 0.23333333333333334,
      "eval_loss": 4.255408763885498,
      "eval_runtime": 9.3201,
      "eval_samples_per_second": 1.073,
      "eval_steps_per_second": 0.322,
      "step": 112000
    },
    {
      "epoch": 0.23335416666666667,
      "grad_norm": 0.7072089314460754,
      "learning_rate": 0.00026247101148573024,
      "loss": 3.6939,
      "step": 112010
    },
    {
      "epoch": 0.233375,
      "grad_norm": 0.7706016302108765,
      "learning_rate": 0.00026246448826234973,
      "loss": 3.871,
      "step": 112020
    },
    {
      "epoch": 0.23339583333333333,
      "grad_norm": 0.7672034502029419,
      "learning_rate": 0.00026245796455316717,
      "loss": 4.0457,
      "step": 112030
    },
    {
      "epoch": 0.23341666666666666,
      "grad_norm": 0.7202407717704773,
      "learning_rate": 0.0002624514403582107,
      "loss": 3.9787,
      "step": 112040
    },
    {
      "epoch": 0.2334375,
      "grad_norm": 0.7958422899246216,
      "learning_rate": 0.00026244491567750856,
      "loss": 4.0647,
      "step": 112050
    },
    {
      "epoch": 0.23345833333333332,
      "grad_norm": 0.6803152561187744,
      "learning_rate": 0.00026243839051108884,
      "loss": 3.7944,
      "step": 112060
    },
    {
      "epoch": 0.23347916666666665,
      "grad_norm": 0.7441197633743286,
      "learning_rate": 0.0002624318648589798,
      "loss": 3.9932,
      "step": 112070
    },
    {
      "epoch": 0.2335,
      "grad_norm": 0.8197855949401855,
      "learning_rate": 0.00026242533872120966,
      "loss": 3.702,
      "step": 112080
    },
    {
      "epoch": 0.23352083333333334,
      "grad_norm": 0.9275585412979126,
      "learning_rate": 0.00026241881209780653,
      "loss": 3.7043,
      "step": 112090
    },
    {
      "epoch": 0.23354166666666668,
      "grad_norm": 0.7420555353164673,
      "learning_rate": 0.00026241228498879857,
      "loss": 3.7687,
      "step": 112100
    },
    {
      "epoch": 0.2335625,
      "grad_norm": 0.7635204195976257,
      "learning_rate": 0.0002624057573942141,
      "loss": 3.9274,
      "step": 112110
    },
    {
      "epoch": 0.23358333333333334,
      "grad_norm": 0.7383560538291931,
      "learning_rate": 0.00026239922931408125,
      "loss": 3.9865,
      "step": 112120
    },
    {
      "epoch": 0.23360416666666667,
      "grad_norm": 0.706870436668396,
      "learning_rate": 0.00026239270074842816,
      "loss": 3.8564,
      "step": 112130
    },
    {
      "epoch": 0.233625,
      "grad_norm": 0.8389548659324646,
      "learning_rate": 0.00026238617169728316,
      "loss": 3.8187,
      "step": 112140
    },
    {
      "epoch": 0.23364583333333333,
      "grad_norm": 0.8292524218559265,
      "learning_rate": 0.00026237964216067433,
      "loss": 3.9247,
      "step": 112150
    },
    {
      "epoch": 0.23366666666666666,
      "grad_norm": 0.7681282162666321,
      "learning_rate": 0.00026237311213862997,
      "loss": 3.8309,
      "step": 112160
    },
    {
      "epoch": 0.2336875,
      "grad_norm": 0.7173855304718018,
      "learning_rate": 0.0002623665816311782,
      "loss": 3.7896,
      "step": 112170
    },
    {
      "epoch": 0.23370833333333332,
      "grad_norm": 0.7048563361167908,
      "learning_rate": 0.0002623600506383473,
      "loss": 4.0499,
      "step": 112180
    },
    {
      "epoch": 0.23372916666666665,
      "grad_norm": 0.8285587430000305,
      "learning_rate": 0.0002623535191601655,
      "loss": 3.8513,
      "step": 112190
    },
    {
      "epoch": 0.23375,
      "grad_norm": 0.69991534948349,
      "learning_rate": 0.0002623469871966609,
      "loss": 4.0091,
      "step": 112200
    },
    {
      "epoch": 0.23377083333333334,
      "grad_norm": 0.6780224442481995,
      "learning_rate": 0.00026234045474786183,
      "loss": 3.9649,
      "step": 112210
    },
    {
      "epoch": 0.23379166666666668,
      "grad_norm": 0.7998135685920715,
      "learning_rate": 0.0002623339218137964,
      "loss": 3.9319,
      "step": 112220
    },
    {
      "epoch": 0.2338125,
      "grad_norm": 0.9621427655220032,
      "learning_rate": 0.000262327388394493,
      "loss": 3.92,
      "step": 112230
    },
    {
      "epoch": 0.23383333333333334,
      "grad_norm": 0.7570099830627441,
      "learning_rate": 0.0002623208544899797,
      "loss": 3.8329,
      "step": 112240
    },
    {
      "epoch": 0.23385416666666667,
      "grad_norm": 0.7789862155914307,
      "learning_rate": 0.00026231432010028475,
      "loss": 3.9784,
      "step": 112250
    },
    {
      "epoch": 0.233875,
      "grad_norm": 0.6812233924865723,
      "learning_rate": 0.0002623077852254364,
      "loss": 3.9572,
      "step": 112260
    },
    {
      "epoch": 0.23389583333333333,
      "grad_norm": 0.7824247479438782,
      "learning_rate": 0.00026230124986546284,
      "loss": 4.0227,
      "step": 112270
    },
    {
      "epoch": 0.23391666666666666,
      "grad_norm": 0.7145914435386658,
      "learning_rate": 0.0002622947140203924,
      "loss": 3.8778,
      "step": 112280
    },
    {
      "epoch": 0.2339375,
      "grad_norm": 0.7928178310394287,
      "learning_rate": 0.00026228817769025314,
      "loss": 4.0464,
      "step": 112290
    },
    {
      "epoch": 0.23395833333333332,
      "grad_norm": 0.7519782781600952,
      "learning_rate": 0.0002622816408750735,
      "loss": 3.8932,
      "step": 112300
    },
    {
      "epoch": 0.23397916666666665,
      "grad_norm": 0.7235788106918335,
      "learning_rate": 0.0002622751035748816,
      "loss": 3.8302,
      "step": 112310
    },
    {
      "epoch": 0.234,
      "grad_norm": 0.7413920164108276,
      "learning_rate": 0.0002622685657897057,
      "loss": 3.9072,
      "step": 112320
    },
    {
      "epoch": 0.23402083333333334,
      "grad_norm": 0.8739325404167175,
      "learning_rate": 0.000262262027519574,
      "loss": 4.043,
      "step": 112330
    },
    {
      "epoch": 0.23404166666666668,
      "grad_norm": 1.0761208534240723,
      "learning_rate": 0.0002622554887645148,
      "loss": 3.8481,
      "step": 112340
    },
    {
      "epoch": 0.2340625,
      "grad_norm": 0.8072762489318848,
      "learning_rate": 0.0002622489495245563,
      "loss": 3.9273,
      "step": 112350
    },
    {
      "epoch": 0.23408333333333334,
      "grad_norm": 0.7394698262214661,
      "learning_rate": 0.00026224240979972675,
      "loss": 3.6577,
      "step": 112360
    },
    {
      "epoch": 0.23410416666666667,
      "grad_norm": 0.6784875988960266,
      "learning_rate": 0.00026223586959005446,
      "loss": 4.043,
      "step": 112370
    },
    {
      "epoch": 0.234125,
      "grad_norm": 0.7344674468040466,
      "learning_rate": 0.0002622293288955676,
      "loss": 3.9131,
      "step": 112380
    },
    {
      "epoch": 0.23414583333333333,
      "grad_norm": 0.7370862364768982,
      "learning_rate": 0.00026222278771629453,
      "loss": 3.9838,
      "step": 112390
    },
    {
      "epoch": 0.23416666666666666,
      "grad_norm": 0.8208688497543335,
      "learning_rate": 0.00026221624605226343,
      "loss": 3.9771,
      "step": 112400
    },
    {
      "epoch": 0.2341875,
      "grad_norm": 0.8002815246582031,
      "learning_rate": 0.0002622097039035025,
      "loss": 3.845,
      "step": 112410
    },
    {
      "epoch": 0.23420833333333332,
      "grad_norm": 0.8399003148078918,
      "learning_rate": 0.0002622031612700401,
      "loss": 4.1704,
      "step": 112420
    },
    {
      "epoch": 0.23422916666666665,
      "grad_norm": 0.7511206865310669,
      "learning_rate": 0.00026219661815190447,
      "loss": 3.841,
      "step": 112430
    },
    {
      "epoch": 0.23425,
      "grad_norm": 0.6996220350265503,
      "learning_rate": 0.00026219007454912385,
      "loss": 4.055,
      "step": 112440
    },
    {
      "epoch": 0.23427083333333334,
      "grad_norm": 0.8284479379653931,
      "learning_rate": 0.0002621835304617265,
      "loss": 3.822,
      "step": 112450
    },
    {
      "epoch": 0.23429166666666668,
      "grad_norm": 0.732962429523468,
      "learning_rate": 0.0002621769858897407,
      "loss": 3.8288,
      "step": 112460
    },
    {
      "epoch": 0.2343125,
      "grad_norm": 0.6844059824943542,
      "learning_rate": 0.00026217044083319476,
      "loss": 4.026,
      "step": 112470
    },
    {
      "epoch": 0.23433333333333334,
      "grad_norm": 0.7182744145393372,
      "learning_rate": 0.00026216389529211685,
      "loss": 4.106,
      "step": 112480
    },
    {
      "epoch": 0.23435416666666667,
      "grad_norm": 0.7824922800064087,
      "learning_rate": 0.0002621573492665354,
      "loss": 3.892,
      "step": 112490
    },
    {
      "epoch": 0.234375,
      "grad_norm": 0.761566162109375,
      "learning_rate": 0.0002621508027564786,
      "loss": 3.8131,
      "step": 112500
    },
    {
      "epoch": 0.23439583333333333,
      "grad_norm": 0.7079015970230103,
      "learning_rate": 0.00026214425576197466,
      "loss": 3.9687,
      "step": 112510
    },
    {
      "epoch": 0.23441666666666666,
      "grad_norm": 0.7447836399078369,
      "learning_rate": 0.0002621377082830519,
      "loss": 3.9782,
      "step": 112520
    },
    {
      "epoch": 0.2344375,
      "grad_norm": 0.816684901714325,
      "learning_rate": 0.0002621311603197387,
      "loss": 3.8896,
      "step": 112530
    },
    {
      "epoch": 0.23445833333333332,
      "grad_norm": 0.7626854777336121,
      "learning_rate": 0.0002621246118720632,
      "loss": 3.9266,
      "step": 112540
    },
    {
      "epoch": 0.23447916666666666,
      "grad_norm": 0.8282618522644043,
      "learning_rate": 0.0002621180629400538,
      "loss": 3.8656,
      "step": 112550
    },
    {
      "epoch": 0.2345,
      "grad_norm": 0.7841196060180664,
      "learning_rate": 0.00026211151352373876,
      "loss": 3.9661,
      "step": 112560
    },
    {
      "epoch": 0.23452083333333335,
      "grad_norm": 0.7180324196815491,
      "learning_rate": 0.0002621049636231463,
      "loss": 3.9818,
      "step": 112570
    },
    {
      "epoch": 0.23454166666666668,
      "grad_norm": 0.7510347366333008,
      "learning_rate": 0.00026209841323830485,
      "loss": 3.6956,
      "step": 112580
    },
    {
      "epoch": 0.2345625,
      "grad_norm": 0.8722372651100159,
      "learning_rate": 0.00026209186236924263,
      "loss": 3.952,
      "step": 112590
    },
    {
      "epoch": 0.23458333333333334,
      "grad_norm": 0.7620896697044373,
      "learning_rate": 0.0002620853110159879,
      "loss": 3.7804,
      "step": 112600
    },
    {
      "epoch": 0.23460416666666667,
      "grad_norm": 0.7736909985542297,
      "learning_rate": 0.000262078759178569,
      "loss": 3.9963,
      "step": 112610
    },
    {
      "epoch": 0.234625,
      "grad_norm": 0.7790977358818054,
      "learning_rate": 0.0002620722068570142,
      "loss": 3.9914,
      "step": 112620
    },
    {
      "epoch": 0.23464583333333333,
      "grad_norm": 0.7237060070037842,
      "learning_rate": 0.0002620656540513518,
      "loss": 3.8542,
      "step": 112630
    },
    {
      "epoch": 0.23466666666666666,
      "grad_norm": 0.9768034219741821,
      "learning_rate": 0.0002620591007616102,
      "loss": 3.8891,
      "step": 112640
    },
    {
      "epoch": 0.2346875,
      "grad_norm": 0.6890493631362915,
      "learning_rate": 0.0002620525469878176,
      "loss": 3.7818,
      "step": 112650
    },
    {
      "epoch": 0.23470833333333332,
      "grad_norm": 0.9258646965026855,
      "learning_rate": 0.0002620459927300024,
      "loss": 3.9585,
      "step": 112660
    },
    {
      "epoch": 0.23472916666666666,
      "grad_norm": 1.2307043075561523,
      "learning_rate": 0.0002620394379881928,
      "loss": 3.763,
      "step": 112670
    },
    {
      "epoch": 0.23475,
      "grad_norm": 0.7087436318397522,
      "learning_rate": 0.0002620328827624172,
      "loss": 3.7612,
      "step": 112680
    },
    {
      "epoch": 0.23477083333333335,
      "grad_norm": 0.7315555810928345,
      "learning_rate": 0.00026202632705270393,
      "loss": 3.8208,
      "step": 112690
    },
    {
      "epoch": 0.23479166666666668,
      "grad_norm": 0.7825053334236145,
      "learning_rate": 0.0002620197708590812,
      "loss": 3.9261,
      "step": 112700
    },
    {
      "epoch": 0.2348125,
      "grad_norm": 0.8862001299858093,
      "learning_rate": 0.00026201321418157744,
      "loss": 3.8814,
      "step": 112710
    },
    {
      "epoch": 0.23483333333333334,
      "grad_norm": 0.7509416937828064,
      "learning_rate": 0.00026200665702022096,
      "loss": 3.9814,
      "step": 112720
    },
    {
      "epoch": 0.23485416666666667,
      "grad_norm": 0.7726261019706726,
      "learning_rate": 0.00026200009937504,
      "loss": 4.0606,
      "step": 112730
    },
    {
      "epoch": 0.234875,
      "grad_norm": 0.6815237998962402,
      "learning_rate": 0.00026199354124606297,
      "loss": 3.7853,
      "step": 112740
    },
    {
      "epoch": 0.23489583333333333,
      "grad_norm": 0.7003218531608582,
      "learning_rate": 0.00026198698263331816,
      "loss": 3.7727,
      "step": 112750
    },
    {
      "epoch": 0.23491666666666666,
      "grad_norm": 0.8282172679901123,
      "learning_rate": 0.00026198042353683395,
      "loss": 3.9612,
      "step": 112760
    },
    {
      "epoch": 0.2349375,
      "grad_norm": 0.6605738997459412,
      "learning_rate": 0.0002619738639566386,
      "loss": 3.8221,
      "step": 112770
    },
    {
      "epoch": 0.23495833333333332,
      "grad_norm": 0.751958429813385,
      "learning_rate": 0.0002619673038927605,
      "loss": 3.8575,
      "step": 112780
    },
    {
      "epoch": 0.23497916666666666,
      "grad_norm": 0.8201401829719543,
      "learning_rate": 0.0002619607433452279,
      "loss": 4.0231,
      "step": 112790
    },
    {
      "epoch": 0.235,
      "grad_norm": 0.8694060444831848,
      "learning_rate": 0.0002619541823140693,
      "loss": 3.9477,
      "step": 112800
    },
    {
      "epoch": 0.23502083333333335,
      "grad_norm": 0.7929521203041077,
      "learning_rate": 0.0002619476207993129,
      "loss": 3.8248,
      "step": 112810
    },
    {
      "epoch": 0.23504166666666668,
      "grad_norm": 0.725143551826477,
      "learning_rate": 0.0002619410588009871,
      "loss": 3.8737,
      "step": 112820
    },
    {
      "epoch": 0.2350625,
      "grad_norm": 0.8168599605560303,
      "learning_rate": 0.00026193449631912026,
      "loss": 3.7516,
      "step": 112830
    },
    {
      "epoch": 0.23508333333333334,
      "grad_norm": 0.8912594318389893,
      "learning_rate": 0.00026192793335374066,
      "loss": 4.0511,
      "step": 112840
    },
    {
      "epoch": 0.23510416666666667,
      "grad_norm": 0.8464767336845398,
      "learning_rate": 0.0002619213699048767,
      "loss": 3.6606,
      "step": 112850
    },
    {
      "epoch": 0.235125,
      "grad_norm": 0.824193000793457,
      "learning_rate": 0.0002619148059725568,
      "loss": 4.0295,
      "step": 112860
    },
    {
      "epoch": 0.23514583333333333,
      "grad_norm": 0.7161937355995178,
      "learning_rate": 0.0002619082415568091,
      "loss": 3.8706,
      "step": 112870
    },
    {
      "epoch": 0.23516666666666666,
      "grad_norm": 0.7569338083267212,
      "learning_rate": 0.0002619016766576622,
      "loss": 3.7718,
      "step": 112880
    },
    {
      "epoch": 0.2351875,
      "grad_norm": 0.7777268886566162,
      "learning_rate": 0.0002618951112751443,
      "loss": 3.7888,
      "step": 112890
    },
    {
      "epoch": 0.23520833333333332,
      "grad_norm": 0.8880210518836975,
      "learning_rate": 0.0002618885454092838,
      "loss": 3.8777,
      "step": 112900
    },
    {
      "epoch": 0.23522916666666666,
      "grad_norm": 1.0999858379364014,
      "learning_rate": 0.00026188197906010913,
      "loss": 3.9637,
      "step": 112910
    },
    {
      "epoch": 0.23525,
      "grad_norm": 0.8330174088478088,
      "learning_rate": 0.00026187541222764856,
      "loss": 3.9946,
      "step": 112920
    },
    {
      "epoch": 0.23527083333333335,
      "grad_norm": 0.7998022437095642,
      "learning_rate": 0.00026186884491193047,
      "loss": 4.0292,
      "step": 112930
    },
    {
      "epoch": 0.23529166666666668,
      "grad_norm": 0.7511048316955566,
      "learning_rate": 0.0002618622771129833,
      "loss": 3.9363,
      "step": 112940
    },
    {
      "epoch": 0.2353125,
      "grad_norm": 0.7381274700164795,
      "learning_rate": 0.0002618557088308353,
      "loss": 3.9134,
      "step": 112950
    },
    {
      "epoch": 0.23533333333333334,
      "grad_norm": 0.69205641746521,
      "learning_rate": 0.000261849140065515,
      "loss": 3.8321,
      "step": 112960
    },
    {
      "epoch": 0.23535416666666667,
      "grad_norm": 0.7544022798538208,
      "learning_rate": 0.0002618425708170506,
      "loss": 3.6865,
      "step": 112970
    },
    {
      "epoch": 0.235375,
      "grad_norm": 0.7884484529495239,
      "learning_rate": 0.0002618360010854707,
      "loss": 3.7413,
      "step": 112980
    },
    {
      "epoch": 0.23539583333333333,
      "grad_norm": 0.81086266040802,
      "learning_rate": 0.00026182943087080344,
      "loss": 3.9115,
      "step": 112990
    },
    {
      "epoch": 0.23541666666666666,
      "grad_norm": 0.7462107539176941,
      "learning_rate": 0.0002618228601730773,
      "loss": 3.9045,
      "step": 113000
    },
    {
      "epoch": 0.23541666666666666,
      "eval_loss": 4.26096248626709,
      "eval_runtime": 9.3227,
      "eval_samples_per_second": 1.073,
      "eval_steps_per_second": 0.322,
      "step": 113000
    },
    {
      "epoch": 0.2354375,
      "grad_norm": 0.8278399109840393,
      "learning_rate": 0.0002618162889923207,
      "loss": 4.0592,
      "step": 113010
    },
    {
      "epoch": 0.23545833333333333,
      "grad_norm": 0.7057823538780212,
      "learning_rate": 0.00026180971732856195,
      "loss": 3.9916,
      "step": 113020
    },
    {
      "epoch": 0.23547916666666666,
      "grad_norm": 0.7851118445396423,
      "learning_rate": 0.0002618031451818295,
      "loss": 4.1084,
      "step": 113030
    },
    {
      "epoch": 0.2355,
      "grad_norm": 0.7384151816368103,
      "learning_rate": 0.0002617965725521517,
      "loss": 3.8835,
      "step": 113040
    },
    {
      "epoch": 0.23552083333333335,
      "grad_norm": 1.0190908908843994,
      "learning_rate": 0.000261789999439557,
      "loss": 3.8852,
      "step": 113050
    },
    {
      "epoch": 0.23554166666666668,
      "grad_norm": 0.7323639988899231,
      "learning_rate": 0.00026178342584407373,
      "loss": 4.0053,
      "step": 113060
    },
    {
      "epoch": 0.2355625,
      "grad_norm": 0.7451760768890381,
      "learning_rate": 0.0002617768517657303,
      "loss": 3.9405,
      "step": 113070
    },
    {
      "epoch": 0.23558333333333334,
      "grad_norm": 0.8560953140258789,
      "learning_rate": 0.0002617702772045552,
      "loss": 3.8062,
      "step": 113080
    },
    {
      "epoch": 0.23560416666666667,
      "grad_norm": 0.7370516657829285,
      "learning_rate": 0.0002617637021605766,
      "loss": 3.8479,
      "step": 113090
    },
    {
      "epoch": 0.235625,
      "grad_norm": 0.8259835243225098,
      "learning_rate": 0.00026175712663382316,
      "loss": 3.7711,
      "step": 113100
    },
    {
      "epoch": 0.23564583333333333,
      "grad_norm": 0.7790320515632629,
      "learning_rate": 0.00026175055062432315,
      "loss": 3.9084,
      "step": 113110
    },
    {
      "epoch": 0.23566666666666666,
      "grad_norm": 0.7821506857872009,
      "learning_rate": 0.00026174397413210494,
      "loss": 3.7912,
      "step": 113120
    },
    {
      "epoch": 0.2356875,
      "grad_norm": 0.730197012424469,
      "learning_rate": 0.00026173739715719705,
      "loss": 3.9163,
      "step": 113130
    },
    {
      "epoch": 0.23570833333333333,
      "grad_norm": 0.7655876874923706,
      "learning_rate": 0.0002617308196996278,
      "loss": 3.9123,
      "step": 113140
    },
    {
      "epoch": 0.23572916666666666,
      "grad_norm": 0.8811327815055847,
      "learning_rate": 0.00026172424175942565,
      "loss": 3.6363,
      "step": 113150
    },
    {
      "epoch": 0.23575,
      "grad_norm": 0.8580450415611267,
      "learning_rate": 0.00026171766333661894,
      "loss": 3.7783,
      "step": 113160
    },
    {
      "epoch": 0.23577083333333335,
      "grad_norm": 0.8216408491134644,
      "learning_rate": 0.00026171108443123623,
      "loss": 3.968,
      "step": 113170
    },
    {
      "epoch": 0.23579166666666668,
      "grad_norm": 0.8225196003913879,
      "learning_rate": 0.0002617045050433058,
      "loss": 3.7732,
      "step": 113180
    },
    {
      "epoch": 0.2358125,
      "grad_norm": 0.8478304147720337,
      "learning_rate": 0.00026169792517285616,
      "loss": 3.8318,
      "step": 113190
    },
    {
      "epoch": 0.23583333333333334,
      "grad_norm": 0.9333080053329468,
      "learning_rate": 0.00026169134481991566,
      "loss": 3.8541,
      "step": 113200
    },
    {
      "epoch": 0.23585416666666667,
      "grad_norm": 0.8038802742958069,
      "learning_rate": 0.0002616847639845128,
      "loss": 4.0497,
      "step": 113210
    },
    {
      "epoch": 0.235875,
      "grad_norm": 0.675420880317688,
      "learning_rate": 0.00026167818266667594,
      "loss": 3.9327,
      "step": 113220
    },
    {
      "epoch": 0.23589583333333333,
      "grad_norm": 0.8065382242202759,
      "learning_rate": 0.00026167160086643354,
      "loss": 3.8605,
      "step": 113230
    },
    {
      "epoch": 0.23591666666666666,
      "grad_norm": 0.6767610907554626,
      "learning_rate": 0.0002616650185838141,
      "loss": 4.0246,
      "step": 113240
    },
    {
      "epoch": 0.2359375,
      "grad_norm": 0.8441426157951355,
      "learning_rate": 0.00026165843581884586,
      "loss": 3.8533,
      "step": 113250
    },
    {
      "epoch": 0.23595833333333333,
      "grad_norm": 0.8039485812187195,
      "learning_rate": 0.0002616518525715574,
      "loss": 4.012,
      "step": 113260
    },
    {
      "epoch": 0.23597916666666666,
      "grad_norm": 0.8812327980995178,
      "learning_rate": 0.0002616452688419772,
      "loss": 3.8435,
      "step": 113270
    },
    {
      "epoch": 0.236,
      "grad_norm": 0.8026545643806458,
      "learning_rate": 0.0002616386846301336,
      "loss": 3.8735,
      "step": 113280
    },
    {
      "epoch": 0.23602083333333335,
      "grad_norm": 0.8382328152656555,
      "learning_rate": 0.000261632099936055,
      "loss": 3.8716,
      "step": 113290
    },
    {
      "epoch": 0.23604166666666668,
      "grad_norm": 0.8009381294250488,
      "learning_rate": 0.00026162551475977,
      "loss": 3.7203,
      "step": 113300
    },
    {
      "epoch": 0.2360625,
      "grad_norm": 0.7849263548851013,
      "learning_rate": 0.00026161892910130693,
      "loss": 3.9239,
      "step": 113310
    },
    {
      "epoch": 0.23608333333333334,
      "grad_norm": 0.7992645502090454,
      "learning_rate": 0.0002616123429606943,
      "loss": 3.8202,
      "step": 113320
    },
    {
      "epoch": 0.23610416666666667,
      "grad_norm": 0.8581199049949646,
      "learning_rate": 0.0002616057563379605,
      "loss": 3.7453,
      "step": 113330
    },
    {
      "epoch": 0.236125,
      "grad_norm": 0.8569010496139526,
      "learning_rate": 0.000261599169233134,
      "loss": 3.8997,
      "step": 113340
    },
    {
      "epoch": 0.23614583333333333,
      "grad_norm": 0.7280343770980835,
      "learning_rate": 0.00026159258164624327,
      "loss": 3.7878,
      "step": 113350
    },
    {
      "epoch": 0.23616666666666666,
      "grad_norm": 0.9599436521530151,
      "learning_rate": 0.00026158599357731677,
      "loss": 3.7773,
      "step": 113360
    },
    {
      "epoch": 0.2361875,
      "grad_norm": 0.7498140335083008,
      "learning_rate": 0.00026157940502638294,
      "loss": 3.9682,
      "step": 113370
    },
    {
      "epoch": 0.23620833333333333,
      "grad_norm": 0.8583912253379822,
      "learning_rate": 0.00026157281599347023,
      "loss": 3.8666,
      "step": 113380
    },
    {
      "epoch": 0.23622916666666666,
      "grad_norm": 0.8194348216056824,
      "learning_rate": 0.00026156622647860716,
      "loss": 3.8318,
      "step": 113390
    },
    {
      "epoch": 0.23625,
      "grad_norm": 0.6903581023216248,
      "learning_rate": 0.00026155963648182213,
      "loss": 4.0164,
      "step": 113400
    },
    {
      "epoch": 0.23627083333333335,
      "grad_norm": 0.8513405323028564,
      "learning_rate": 0.0002615530460031436,
      "loss": 3.9531,
      "step": 113410
    },
    {
      "epoch": 0.23629166666666668,
      "grad_norm": 0.8295087218284607,
      "learning_rate": 0.0002615464550426001,
      "loss": 4.0258,
      "step": 113420
    },
    {
      "epoch": 0.2363125,
      "grad_norm": 0.7575225234031677,
      "learning_rate": 0.00026153986360022007,
      "loss": 3.88,
      "step": 113430
    },
    {
      "epoch": 0.23633333333333334,
      "grad_norm": 0.7763004302978516,
      "learning_rate": 0.000261533271676032,
      "loss": 3.9596,
      "step": 113440
    },
    {
      "epoch": 0.23635416666666667,
      "grad_norm": 0.9391988515853882,
      "learning_rate": 0.0002615266792700643,
      "loss": 3.9439,
      "step": 113450
    },
    {
      "epoch": 0.236375,
      "grad_norm": 0.815933108329773,
      "learning_rate": 0.0002615200863823455,
      "loss": 3.7458,
      "step": 113460
    },
    {
      "epoch": 0.23639583333333333,
      "grad_norm": 0.6595311760902405,
      "learning_rate": 0.00026151349301290405,
      "loss": 3.908,
      "step": 113470
    },
    {
      "epoch": 0.23641666666666666,
      "grad_norm": 0.7461366653442383,
      "learning_rate": 0.0002615068991617685,
      "loss": 3.972,
      "step": 113480
    },
    {
      "epoch": 0.2364375,
      "grad_norm": 0.94295734167099,
      "learning_rate": 0.0002615003048289673,
      "loss": 3.8458,
      "step": 113490
    },
    {
      "epoch": 0.23645833333333333,
      "grad_norm": 0.6933321952819824,
      "learning_rate": 0.00026149371001452885,
      "loss": 3.6789,
      "step": 113500
    },
    {
      "epoch": 0.23647916666666666,
      "grad_norm": 0.7620449662208557,
      "learning_rate": 0.0002614871147184817,
      "loss": 4.0125,
      "step": 113510
    },
    {
      "epoch": 0.2365,
      "grad_norm": 0.8424232006072998,
      "learning_rate": 0.0002614805189408544,
      "loss": 3.9163,
      "step": 113520
    },
    {
      "epoch": 0.23652083333333335,
      "grad_norm": 0.6996073722839355,
      "learning_rate": 0.0002614739226816754,
      "loss": 3.9681,
      "step": 113530
    },
    {
      "epoch": 0.23654166666666668,
      "grad_norm": 0.7832129597663879,
      "learning_rate": 0.0002614673259409731,
      "loss": 3.822,
      "step": 113540
    },
    {
      "epoch": 0.2365625,
      "grad_norm": 0.8291290998458862,
      "learning_rate": 0.0002614607287187761,
      "loss": 3.9458,
      "step": 113550
    },
    {
      "epoch": 0.23658333333333334,
      "grad_norm": 0.7482668161392212,
      "learning_rate": 0.0002614541310151129,
      "loss": 3.8046,
      "step": 113560
    },
    {
      "epoch": 0.23660416666666667,
      "grad_norm": 0.7317926287651062,
      "learning_rate": 0.00026144753283001193,
      "loss": 3.9622,
      "step": 113570
    },
    {
      "epoch": 0.236625,
      "grad_norm": 0.7550917267799377,
      "learning_rate": 0.0002614409341635018,
      "loss": 3.8706,
      "step": 113580
    },
    {
      "epoch": 0.23664583333333333,
      "grad_norm": 0.7495788335800171,
      "learning_rate": 0.0002614343350156109,
      "loss": 3.9195,
      "step": 113590
    },
    {
      "epoch": 0.23666666666666666,
      "grad_norm": 0.9394643902778625,
      "learning_rate": 0.0002614277353863678,
      "loss": 3.8986,
      "step": 113600
    },
    {
      "epoch": 0.2366875,
      "grad_norm": 0.7414722442626953,
      "learning_rate": 0.00026142113527580094,
      "loss": 3.7689,
      "step": 113610
    },
    {
      "epoch": 0.23670833333333333,
      "grad_norm": 0.7958858013153076,
      "learning_rate": 0.0002614145346839389,
      "loss": 3.7782,
      "step": 113620
    },
    {
      "epoch": 0.23672916666666666,
      "grad_norm": 0.7467257380485535,
      "learning_rate": 0.0002614079336108102,
      "loss": 3.8583,
      "step": 113630
    },
    {
      "epoch": 0.23675,
      "grad_norm": 0.7843925356864929,
      "learning_rate": 0.0002614013320564433,
      "loss": 3.7919,
      "step": 113640
    },
    {
      "epoch": 0.23677083333333335,
      "grad_norm": 0.773753821849823,
      "learning_rate": 0.00026139473002086675,
      "loss": 3.8849,
      "step": 113650
    },
    {
      "epoch": 0.23679166666666668,
      "grad_norm": 0.8628260493278503,
      "learning_rate": 0.0002613881275041091,
      "loss": 3.9306,
      "step": 113660
    },
    {
      "epoch": 0.2368125,
      "grad_norm": 0.8059950470924377,
      "learning_rate": 0.00026138152450619876,
      "loss": 3.822,
      "step": 113670
    },
    {
      "epoch": 0.23683333333333334,
      "grad_norm": 0.7553508281707764,
      "learning_rate": 0.00026137492102716435,
      "loss": 3.7846,
      "step": 113680
    },
    {
      "epoch": 0.23685416666666667,
      "grad_norm": 0.8282298445701599,
      "learning_rate": 0.0002613683170670344,
      "loss": 3.9299,
      "step": 113690
    },
    {
      "epoch": 0.236875,
      "grad_norm": 0.7417914271354675,
      "learning_rate": 0.00026136171262583735,
      "loss": 3.8805,
      "step": 113700
    },
    {
      "epoch": 0.23689583333333333,
      "grad_norm": 0.7207459807395935,
      "learning_rate": 0.0002613551077036018,
      "loss": 3.8517,
      "step": 113710
    },
    {
      "epoch": 0.23691666666666666,
      "grad_norm": 0.6979677677154541,
      "learning_rate": 0.00026134850230035626,
      "loss": 3.9228,
      "step": 113720
    },
    {
      "epoch": 0.2369375,
      "grad_norm": 0.6991243362426758,
      "learning_rate": 0.0002613418964161293,
      "loss": 3.8076,
      "step": 113730
    },
    {
      "epoch": 0.23695833333333333,
      "grad_norm": 0.6677184700965881,
      "learning_rate": 0.00026133529005094937,
      "loss": 3.9327,
      "step": 113740
    },
    {
      "epoch": 0.23697916666666666,
      "grad_norm": 0.7654378414154053,
      "learning_rate": 0.00026132868320484504,
      "loss": 3.8384,
      "step": 113750
    },
    {
      "epoch": 0.237,
      "grad_norm": 0.9106190800666809,
      "learning_rate": 0.00026132207587784494,
      "loss": 3.9872,
      "step": 113760
    },
    {
      "epoch": 0.23702083333333332,
      "grad_norm": 0.8048157095909119,
      "learning_rate": 0.0002613154680699775,
      "loss": 3.935,
      "step": 113770
    },
    {
      "epoch": 0.23704166666666668,
      "grad_norm": 0.8073506355285645,
      "learning_rate": 0.00026130885978127127,
      "loss": 3.786,
      "step": 113780
    },
    {
      "epoch": 0.2370625,
      "grad_norm": 0.7299621105194092,
      "learning_rate": 0.0002613022510117549,
      "loss": 3.9242,
      "step": 113790
    },
    {
      "epoch": 0.23708333333333334,
      "grad_norm": 0.7716646790504456,
      "learning_rate": 0.0002612956417614568,
      "loss": 3.8563,
      "step": 113800
    },
    {
      "epoch": 0.23710416666666667,
      "grad_norm": 0.7175790071487427,
      "learning_rate": 0.00026128903203040556,
      "loss": 4.0354,
      "step": 113810
    },
    {
      "epoch": 0.237125,
      "grad_norm": 0.6506059765815735,
      "learning_rate": 0.0002612824218186298,
      "loss": 3.8953,
      "step": 113820
    },
    {
      "epoch": 0.23714583333333333,
      "grad_norm": 0.7555687427520752,
      "learning_rate": 0.00026127581112615804,
      "loss": 3.8858,
      "step": 113830
    },
    {
      "epoch": 0.23716666666666666,
      "grad_norm": 0.7510266900062561,
      "learning_rate": 0.0002612691999530188,
      "loss": 3.862,
      "step": 113840
    },
    {
      "epoch": 0.2371875,
      "grad_norm": 0.7787691950798035,
      "learning_rate": 0.00026126258829924066,
      "loss": 4.1028,
      "step": 113850
    },
    {
      "epoch": 0.23720833333333333,
      "grad_norm": 0.7241496443748474,
      "learning_rate": 0.0002612559761648522,
      "loss": 3.8725,
      "step": 113860
    },
    {
      "epoch": 0.23722916666666666,
      "grad_norm": 0.7116979956626892,
      "learning_rate": 0.0002612493635498819,
      "loss": 3.995,
      "step": 113870
    },
    {
      "epoch": 0.23725,
      "grad_norm": 0.8266820311546326,
      "learning_rate": 0.0002612427504543584,
      "loss": 3.7682,
      "step": 113880
    },
    {
      "epoch": 0.23727083333333332,
      "grad_norm": 0.6824839115142822,
      "learning_rate": 0.0002612361368783103,
      "loss": 3.9402,
      "step": 113890
    },
    {
      "epoch": 0.23729166666666668,
      "grad_norm": 0.7754460573196411,
      "learning_rate": 0.0002612295228217661,
      "loss": 3.891,
      "step": 113900
    },
    {
      "epoch": 0.2373125,
      "grad_norm": 0.7085105776786804,
      "learning_rate": 0.00026122290828475435,
      "loss": 3.9192,
      "step": 113910
    },
    {
      "epoch": 0.23733333333333334,
      "grad_norm": 0.6307634711265564,
      "learning_rate": 0.0002612162932673037,
      "loss": 3.8076,
      "step": 113920
    },
    {
      "epoch": 0.23735416666666667,
      "grad_norm": 0.8724708557128906,
      "learning_rate": 0.00026120967776944266,
      "loss": 3.8679,
      "step": 113930
    },
    {
      "epoch": 0.237375,
      "grad_norm": 0.8018783330917358,
      "learning_rate": 0.0002612030617911999,
      "loss": 3.9368,
      "step": 113940
    },
    {
      "epoch": 0.23739583333333333,
      "grad_norm": 0.7467615008354187,
      "learning_rate": 0.00026119644533260385,
      "loss": 3.9215,
      "step": 113950
    },
    {
      "epoch": 0.23741666666666666,
      "grad_norm": 0.8405132293701172,
      "learning_rate": 0.00026118982839368324,
      "loss": 3.875,
      "step": 113960
    },
    {
      "epoch": 0.2374375,
      "grad_norm": 0.6761019825935364,
      "learning_rate": 0.00026118321097446653,
      "loss": 3.8323,
      "step": 113970
    },
    {
      "epoch": 0.23745833333333333,
      "grad_norm": 0.982046902179718,
      "learning_rate": 0.00026117659307498236,
      "loss": 3.9609,
      "step": 113980
    },
    {
      "epoch": 0.23747916666666666,
      "grad_norm": 0.7016381621360779,
      "learning_rate": 0.0002611699746952593,
      "loss": 4.0141,
      "step": 113990
    },
    {
      "epoch": 0.2375,
      "grad_norm": 0.6979237794876099,
      "learning_rate": 0.000261163355835326,
      "loss": 3.8632,
      "step": 114000
    },
    {
      "epoch": 0.2375,
      "eval_loss": 4.274669170379639,
      "eval_runtime": 10.1558,
      "eval_samples_per_second": 0.985,
      "eval_steps_per_second": 0.295,
      "step": 114000
    },
    {
      "epoch": 0.23752083333333332,
      "grad_norm": 0.707955539226532,
      "learning_rate": 0.000261156736495211,
      "loss": 3.8232,
      "step": 114010
    },
    {
      "epoch": 0.23754166666666668,
      "grad_norm": 0.833194375038147,
      "learning_rate": 0.0002611501166749429,
      "loss": 3.7136,
      "step": 114020
    },
    {
      "epoch": 0.2375625,
      "grad_norm": 0.7838445901870728,
      "learning_rate": 0.00026114349637455027,
      "loss": 3.8977,
      "step": 114030
    },
    {
      "epoch": 0.23758333333333334,
      "grad_norm": 0.8599135875701904,
      "learning_rate": 0.00026113687559406175,
      "loss": 3.849,
      "step": 114040
    },
    {
      "epoch": 0.23760416666666667,
      "grad_norm": 0.987023115158081,
      "learning_rate": 0.0002611302543335059,
      "loss": 4.0649,
      "step": 114050
    },
    {
      "epoch": 0.237625,
      "grad_norm": 0.7492974996566772,
      "learning_rate": 0.0002611236325929113,
      "loss": 3.9408,
      "step": 114060
    },
    {
      "epoch": 0.23764583333333333,
      "grad_norm": 0.7786435484886169,
      "learning_rate": 0.00026111701037230664,
      "loss": 3.8493,
      "step": 114070
    },
    {
      "epoch": 0.23766666666666666,
      "grad_norm": 0.8377174735069275,
      "learning_rate": 0.00026111038767172046,
      "loss": 3.888,
      "step": 114080
    },
    {
      "epoch": 0.2376875,
      "grad_norm": 0.7755816578865051,
      "learning_rate": 0.0002611037644911814,
      "loss": 3.9386,
      "step": 114090
    },
    {
      "epoch": 0.23770833333333333,
      "grad_norm": 0.7938888072967529,
      "learning_rate": 0.0002610971408307181,
      "loss": 3.8402,
      "step": 114100
    },
    {
      "epoch": 0.23772916666666666,
      "grad_norm": 0.684544563293457,
      "learning_rate": 0.00026109051669035907,
      "loss": 3.7374,
      "step": 114110
    },
    {
      "epoch": 0.23775,
      "grad_norm": 0.7818745970726013,
      "learning_rate": 0.000261083892070133,
      "loss": 3.8437,
      "step": 114120
    },
    {
      "epoch": 0.23777083333333332,
      "grad_norm": 0.6883953213691711,
      "learning_rate": 0.0002610772669700684,
      "loss": 3.8417,
      "step": 114130
    },
    {
      "epoch": 0.23779166666666668,
      "grad_norm": 0.7021319270133972,
      "learning_rate": 0.00026107064139019407,
      "loss": 3.9388,
      "step": 114140
    },
    {
      "epoch": 0.2378125,
      "grad_norm": 0.7883499264717102,
      "learning_rate": 0.0002610640153305386,
      "loss": 3.8189,
      "step": 114150
    },
    {
      "epoch": 0.23783333333333334,
      "grad_norm": 0.7388126254081726,
      "learning_rate": 0.0002610573887911304,
      "loss": 3.9782,
      "step": 114160
    },
    {
      "epoch": 0.23785416666666667,
      "grad_norm": 0.7088503837585449,
      "learning_rate": 0.0002610507617719983,
      "loss": 3.8246,
      "step": 114170
    },
    {
      "epoch": 0.237875,
      "grad_norm": 0.8095081448554993,
      "learning_rate": 0.00026104413427317086,
      "loss": 3.865,
      "step": 114180
    },
    {
      "epoch": 0.23789583333333333,
      "grad_norm": 0.7264026999473572,
      "learning_rate": 0.00026103750629467674,
      "loss": 3.891,
      "step": 114190
    },
    {
      "epoch": 0.23791666666666667,
      "grad_norm": 0.7216106653213501,
      "learning_rate": 0.00026103087783654454,
      "loss": 3.9403,
      "step": 114200
    },
    {
      "epoch": 0.2379375,
      "grad_norm": 0.7419866323471069,
      "learning_rate": 0.0002610242488988029,
      "loss": 3.906,
      "step": 114210
    },
    {
      "epoch": 0.23795833333333333,
      "grad_norm": 0.7289590835571289,
      "learning_rate": 0.00026101761948148043,
      "loss": 3.7424,
      "step": 114220
    },
    {
      "epoch": 0.23797916666666666,
      "grad_norm": 0.9748528003692627,
      "learning_rate": 0.0002610109895846058,
      "loss": 3.9552,
      "step": 114230
    },
    {
      "epoch": 0.238,
      "grad_norm": 0.8353610038757324,
      "learning_rate": 0.0002610043592082076,
      "loss": 4.0065,
      "step": 114240
    },
    {
      "epoch": 0.23802083333333332,
      "grad_norm": 0.8529026508331299,
      "learning_rate": 0.00026099772835231456,
      "loss": 3.8788,
      "step": 114250
    },
    {
      "epoch": 0.23804166666666668,
      "grad_norm": 0.8682144284248352,
      "learning_rate": 0.0002609910970169552,
      "loss": 3.7228,
      "step": 114260
    },
    {
      "epoch": 0.2380625,
      "grad_norm": 0.7240811586380005,
      "learning_rate": 0.0002609844652021583,
      "loss": 3.9139,
      "step": 114270
    },
    {
      "epoch": 0.23808333333333334,
      "grad_norm": 0.8528417944908142,
      "learning_rate": 0.0002609778329079524,
      "loss": 3.8395,
      "step": 114280
    },
    {
      "epoch": 0.23810416666666667,
      "grad_norm": 0.7062963247299194,
      "learning_rate": 0.00026097120013436625,
      "loss": 3.9186,
      "step": 114290
    },
    {
      "epoch": 0.238125,
      "grad_norm": 0.7778975963592529,
      "learning_rate": 0.0002609645668814284,
      "loss": 3.7888,
      "step": 114300
    },
    {
      "epoch": 0.23814583333333333,
      "grad_norm": 0.7422923445701599,
      "learning_rate": 0.0002609579331491675,
      "loss": 4.0528,
      "step": 114310
    },
    {
      "epoch": 0.23816666666666667,
      "grad_norm": 0.8436475396156311,
      "learning_rate": 0.00026095129893761234,
      "loss": 4.028,
      "step": 114320
    },
    {
      "epoch": 0.2381875,
      "grad_norm": 0.8094499111175537,
      "learning_rate": 0.00026094466424679146,
      "loss": 3.7622,
      "step": 114330
    },
    {
      "epoch": 0.23820833333333333,
      "grad_norm": 0.8609719276428223,
      "learning_rate": 0.0002609380290767335,
      "loss": 3.7944,
      "step": 114340
    },
    {
      "epoch": 0.23822916666666666,
      "grad_norm": 0.7979872226715088,
      "learning_rate": 0.0002609313934274672,
      "loss": 3.8434,
      "step": 114350
    },
    {
      "epoch": 0.23825,
      "grad_norm": 0.9424957633018494,
      "learning_rate": 0.0002609247572990212,
      "loss": 3.8321,
      "step": 114360
    },
    {
      "epoch": 0.23827083333333332,
      "grad_norm": 0.7749367356300354,
      "learning_rate": 0.00026091812069142415,
      "loss": 3.9443,
      "step": 114370
    },
    {
      "epoch": 0.23829166666666668,
      "grad_norm": 0.7836552262306213,
      "learning_rate": 0.0002609114836047047,
      "loss": 3.9337,
      "step": 114380
    },
    {
      "epoch": 0.2383125,
      "grad_norm": 0.6600876450538635,
      "learning_rate": 0.0002609048460388915,
      "loss": 3.9098,
      "step": 114390
    },
    {
      "epoch": 0.23833333333333334,
      "grad_norm": 0.7677357196807861,
      "learning_rate": 0.00026089820799401336,
      "loss": 4.0287,
      "step": 114400
    },
    {
      "epoch": 0.23835416666666667,
      "grad_norm": 0.7388955354690552,
      "learning_rate": 0.0002608915694700988,
      "loss": 4.0129,
      "step": 114410
    },
    {
      "epoch": 0.238375,
      "grad_norm": 0.7915213108062744,
      "learning_rate": 0.0002608849304671766,
      "loss": 3.8023,
      "step": 114420
    },
    {
      "epoch": 0.23839583333333333,
      "grad_norm": 0.8580248355865479,
      "learning_rate": 0.00026087829098527535,
      "loss": 3.8921,
      "step": 114430
    },
    {
      "epoch": 0.23841666666666667,
      "grad_norm": 0.8447347283363342,
      "learning_rate": 0.00026087165102442375,
      "loss": 3.9229,
      "step": 114440
    },
    {
      "epoch": 0.2384375,
      "grad_norm": 0.6824004650115967,
      "learning_rate": 0.00026086501058465055,
      "loss": 3.914,
      "step": 114450
    },
    {
      "epoch": 0.23845833333333333,
      "grad_norm": 0.7024351954460144,
      "learning_rate": 0.0002608583696659844,
      "loss": 3.8175,
      "step": 114460
    },
    {
      "epoch": 0.23847916666666666,
      "grad_norm": 0.7374757528305054,
      "learning_rate": 0.0002608517282684539,
      "loss": 3.8488,
      "step": 114470
    },
    {
      "epoch": 0.2385,
      "grad_norm": 0.7171477675437927,
      "learning_rate": 0.0002608450863920879,
      "loss": 3.839,
      "step": 114480
    },
    {
      "epoch": 0.23852083333333332,
      "grad_norm": 1.2253645658493042,
      "learning_rate": 0.00026083844403691493,
      "loss": 3.9028,
      "step": 114490
    },
    {
      "epoch": 0.23854166666666668,
      "grad_norm": 0.8538299202919006,
      "learning_rate": 0.00026083180120296383,
      "loss": 3.7607,
      "step": 114500
    },
    {
      "epoch": 0.2385625,
      "grad_norm": 0.8508172631263733,
      "learning_rate": 0.00026082515789026316,
      "loss": 3.9103,
      "step": 114510
    },
    {
      "epoch": 0.23858333333333334,
      "grad_norm": 0.888931393623352,
      "learning_rate": 0.00026081851409884174,
      "loss": 3.7562,
      "step": 114520
    },
    {
      "epoch": 0.23860416666666667,
      "grad_norm": 0.8008545637130737,
      "learning_rate": 0.0002608118698287281,
      "loss": 3.7393,
      "step": 114530
    },
    {
      "epoch": 0.238625,
      "grad_norm": 1.2680237293243408,
      "learning_rate": 0.00026080522507995106,
      "loss": 3.9353,
      "step": 114540
    },
    {
      "epoch": 0.23864583333333333,
      "grad_norm": 0.906619131565094,
      "learning_rate": 0.0002607985798525394,
      "loss": 3.842,
      "step": 114550
    },
    {
      "epoch": 0.23866666666666667,
      "grad_norm": 0.7736608982086182,
      "learning_rate": 0.00026079193414652166,
      "loss": 3.7793,
      "step": 114560
    },
    {
      "epoch": 0.2386875,
      "grad_norm": 0.8171983957290649,
      "learning_rate": 0.00026078528796192663,
      "loss": 3.9688,
      "step": 114570
    },
    {
      "epoch": 0.23870833333333333,
      "grad_norm": 0.8694718480110168,
      "learning_rate": 0.00026077864129878304,
      "loss": 3.8157,
      "step": 114580
    },
    {
      "epoch": 0.23872916666666666,
      "grad_norm": 0.7078268527984619,
      "learning_rate": 0.00026077199415711956,
      "loss": 3.7632,
      "step": 114590
    },
    {
      "epoch": 0.23875,
      "grad_norm": 0.7211157083511353,
      "learning_rate": 0.0002607653465369649,
      "loss": 3.8509,
      "step": 114600
    },
    {
      "epoch": 0.23877083333333332,
      "grad_norm": 0.6716285347938538,
      "learning_rate": 0.0002607586984383478,
      "loss": 3.9599,
      "step": 114610
    },
    {
      "epoch": 0.23879166666666668,
      "grad_norm": 0.7134262323379517,
      "learning_rate": 0.00026075204986129695,
      "loss": 3.8272,
      "step": 114620
    },
    {
      "epoch": 0.2388125,
      "grad_norm": 0.7559017539024353,
      "learning_rate": 0.00026074540080584104,
      "loss": 3.8747,
      "step": 114630
    },
    {
      "epoch": 0.23883333333333334,
      "grad_norm": 0.7917506694793701,
      "learning_rate": 0.0002607387512720089,
      "loss": 4.0529,
      "step": 114640
    },
    {
      "epoch": 0.23885416666666667,
      "grad_norm": 0.7047008872032166,
      "learning_rate": 0.0002607321012598292,
      "loss": 3.8136,
      "step": 114650
    },
    {
      "epoch": 0.238875,
      "grad_norm": 0.7834599018096924,
      "learning_rate": 0.00026072545076933056,
      "loss": 3.8974,
      "step": 114660
    },
    {
      "epoch": 0.23889583333333334,
      "grad_norm": 0.790911853313446,
      "learning_rate": 0.0002607187998005419,
      "loss": 3.8195,
      "step": 114670
    },
    {
      "epoch": 0.23891666666666667,
      "grad_norm": 0.8479803204536438,
      "learning_rate": 0.0002607121483534918,
      "loss": 4.0642,
      "step": 114680
    },
    {
      "epoch": 0.2389375,
      "grad_norm": 0.8249107599258423,
      "learning_rate": 0.000260705496428209,
      "loss": 3.8174,
      "step": 114690
    },
    {
      "epoch": 0.23895833333333333,
      "grad_norm": 0.685752809047699,
      "learning_rate": 0.00026069884402472236,
      "loss": 3.8388,
      "step": 114700
    },
    {
      "epoch": 0.23897916666666666,
      "grad_norm": 0.8596463799476624,
      "learning_rate": 0.0002606921911430605,
      "loss": 3.9567,
      "step": 114710
    },
    {
      "epoch": 0.239,
      "grad_norm": 0.7592532634735107,
      "learning_rate": 0.0002606855377832522,
      "loss": 3.817,
      "step": 114720
    },
    {
      "epoch": 0.23902083333333332,
      "grad_norm": 0.9025839567184448,
      "learning_rate": 0.00026067888394532614,
      "loss": 3.9749,
      "step": 114730
    },
    {
      "epoch": 0.23904166666666668,
      "grad_norm": 0.7498944997787476,
      "learning_rate": 0.00026067222962931116,
      "loss": 3.8145,
      "step": 114740
    },
    {
      "epoch": 0.2390625,
      "grad_norm": 0.6617084741592407,
      "learning_rate": 0.000260665574835236,
      "loss": 3.8192,
      "step": 114750
    },
    {
      "epoch": 0.23908333333333334,
      "grad_norm": 0.7757551074028015,
      "learning_rate": 0.0002606589195631293,
      "loss": 3.789,
      "step": 114760
    },
    {
      "epoch": 0.23910416666666667,
      "grad_norm": 0.7989000678062439,
      "learning_rate": 0.0002606522638130198,
      "loss": 3.8031,
      "step": 114770
    },
    {
      "epoch": 0.239125,
      "grad_norm": 0.9631623029708862,
      "learning_rate": 0.00026064560758493646,
      "loss": 3.7692,
      "step": 114780
    },
    {
      "epoch": 0.23914583333333334,
      "grad_norm": 0.9125344753265381,
      "learning_rate": 0.0002606389508789078,
      "loss": 3.8187,
      "step": 114790
    },
    {
      "epoch": 0.23916666666666667,
      "grad_norm": 0.9317472577095032,
      "learning_rate": 0.00026063229369496267,
      "loss": 3.7828,
      "step": 114800
    },
    {
      "epoch": 0.2391875,
      "grad_norm": 0.7269681692123413,
      "learning_rate": 0.00026062563603312987,
      "loss": 3.8293,
      "step": 114810
    },
    {
      "epoch": 0.23920833333333333,
      "grad_norm": 0.7286441326141357,
      "learning_rate": 0.00026061897789343805,
      "loss": 3.895,
      "step": 114820
    },
    {
      "epoch": 0.23922916666666666,
      "grad_norm": 0.865191638469696,
      "learning_rate": 0.0002606123192759161,
      "loss": 3.7164,
      "step": 114830
    },
    {
      "epoch": 0.23925,
      "grad_norm": 0.7402560114860535,
      "learning_rate": 0.00026060566018059266,
      "loss": 3.9105,
      "step": 114840
    },
    {
      "epoch": 0.23927083333333332,
      "grad_norm": 0.9875277876853943,
      "learning_rate": 0.0002605990006074966,
      "loss": 3.9954,
      "step": 114850
    },
    {
      "epoch": 0.23929166666666668,
      "grad_norm": 0.7138338685035706,
      "learning_rate": 0.00026059234055665663,
      "loss": 4.0028,
      "step": 114860
    },
    {
      "epoch": 0.2393125,
      "grad_norm": 0.680026650428772,
      "learning_rate": 0.00026058568002810146,
      "loss": 3.8785,
      "step": 114870
    },
    {
      "epoch": 0.23933333333333334,
      "grad_norm": 0.8372796177864075,
      "learning_rate": 0.00026057901902186,
      "loss": 4.0017,
      "step": 114880
    },
    {
      "epoch": 0.23935416666666667,
      "grad_norm": 0.9821401834487915,
      "learning_rate": 0.00026057235753796087,
      "loss": 3.6303,
      "step": 114890
    },
    {
      "epoch": 0.239375,
      "grad_norm": 0.7389310598373413,
      "learning_rate": 0.00026056569557643297,
      "loss": 3.8975,
      "step": 114900
    },
    {
      "epoch": 0.23939583333333334,
      "grad_norm": 0.7369092106819153,
      "learning_rate": 0.000260559033137305,
      "loss": 3.9146,
      "step": 114910
    },
    {
      "epoch": 0.23941666666666667,
      "grad_norm": 0.7818358540534973,
      "learning_rate": 0.00026055237022060585,
      "loss": 3.9397,
      "step": 114920
    },
    {
      "epoch": 0.2394375,
      "grad_norm": 0.7191615104675293,
      "learning_rate": 0.00026054570682636414,
      "loss": 3.9114,
      "step": 114930
    },
    {
      "epoch": 0.23945833333333333,
      "grad_norm": 0.6996783018112183,
      "learning_rate": 0.00026053904295460874,
      "loss": 3.8098,
      "step": 114940
    },
    {
      "epoch": 0.23947916666666666,
      "grad_norm": 0.7549847960472107,
      "learning_rate": 0.00026053237860536847,
      "loss": 3.9116,
      "step": 114950
    },
    {
      "epoch": 0.2395,
      "grad_norm": 0.7843330502510071,
      "learning_rate": 0.0002605257137786721,
      "loss": 3.9704,
      "step": 114960
    },
    {
      "epoch": 0.23952083333333332,
      "grad_norm": 0.8731957077980042,
      "learning_rate": 0.0002605190484745483,
      "loss": 3.8214,
      "step": 114970
    },
    {
      "epoch": 0.23954166666666668,
      "grad_norm": 1.0411624908447266,
      "learning_rate": 0.000260512382693026,
      "loss": 3.9145,
      "step": 114980
    },
    {
      "epoch": 0.2395625,
      "grad_norm": 0.8362072706222534,
      "learning_rate": 0.000260505716434134,
      "loss": 3.8692,
      "step": 114990
    },
    {
      "epoch": 0.23958333333333334,
      "grad_norm": 0.9187620282173157,
      "learning_rate": 0.00026049904969790093,
      "loss": 3.8984,
      "step": 115000
    },
    {
      "epoch": 0.23958333333333334,
      "eval_loss": 4.277940273284912,
      "eval_runtime": 9.5298,
      "eval_samples_per_second": 1.049,
      "eval_steps_per_second": 0.315,
      "step": 115000
    },
    {
      "epoch": 0.23960416666666667,
      "grad_norm": 0.8665232062339783,
      "learning_rate": 0.0002604923824843558,
      "loss": 3.8811,
      "step": 115010
    },
    {
      "epoch": 0.239625,
      "grad_norm": 0.7611491680145264,
      "learning_rate": 0.0002604857147935273,
      "loss": 3.9553,
      "step": 115020
    },
    {
      "epoch": 0.23964583333333334,
      "grad_norm": 0.6717048287391663,
      "learning_rate": 0.0002604790466254442,
      "loss": 3.9914,
      "step": 115030
    },
    {
      "epoch": 0.23966666666666667,
      "grad_norm": 0.8163872957229614,
      "learning_rate": 0.0002604723779801354,
      "loss": 3.9749,
      "step": 115040
    },
    {
      "epoch": 0.2396875,
      "grad_norm": 0.7745394110679626,
      "learning_rate": 0.00026046570885762964,
      "loss": 3.9945,
      "step": 115050
    },
    {
      "epoch": 0.23970833333333333,
      "grad_norm": 0.7717122435569763,
      "learning_rate": 0.00026045903925795577,
      "loss": 3.7198,
      "step": 115060
    },
    {
      "epoch": 0.23972916666666666,
      "grad_norm": 0.7597681879997253,
      "learning_rate": 0.0002604523691811425,
      "loss": 3.795,
      "step": 115070
    },
    {
      "epoch": 0.23975,
      "grad_norm": 0.6760414838790894,
      "learning_rate": 0.0002604456986272188,
      "loss": 3.9673,
      "step": 115080
    },
    {
      "epoch": 0.23977083333333332,
      "grad_norm": 0.7097985744476318,
      "learning_rate": 0.0002604390275962134,
      "loss": 3.9733,
      "step": 115090
    },
    {
      "epoch": 0.23979166666666665,
      "grad_norm": 0.7956592440605164,
      "learning_rate": 0.00026043235608815506,
      "loss": 3.877,
      "step": 115100
    },
    {
      "epoch": 0.2398125,
      "grad_norm": 0.7657138705253601,
      "learning_rate": 0.00026042568410307264,
      "loss": 3.7238,
      "step": 115110
    },
    {
      "epoch": 0.23983333333333334,
      "grad_norm": 0.8124246597290039,
      "learning_rate": 0.00026041901164099504,
      "loss": 3.7767,
      "step": 115120
    },
    {
      "epoch": 0.23985416666666667,
      "grad_norm": 0.7243840098381042,
      "learning_rate": 0.00026041233870195094,
      "loss": 3.9495,
      "step": 115130
    },
    {
      "epoch": 0.239875,
      "grad_norm": 0.8098496794700623,
      "learning_rate": 0.0002604056652859693,
      "loss": 3.815,
      "step": 115140
    },
    {
      "epoch": 0.23989583333333334,
      "grad_norm": 0.7868401408195496,
      "learning_rate": 0.00026039899139307886,
      "loss": 3.8543,
      "step": 115150
    },
    {
      "epoch": 0.23991666666666667,
      "grad_norm": 0.8721498847007751,
      "learning_rate": 0.0002603923170233085,
      "loss": 3.9988,
      "step": 115160
    },
    {
      "epoch": 0.2399375,
      "grad_norm": 0.7743726372718811,
      "learning_rate": 0.000260385642176687,
      "loss": 3.7932,
      "step": 115170
    },
    {
      "epoch": 0.23995833333333333,
      "grad_norm": 0.7834858298301697,
      "learning_rate": 0.0002603789668532432,
      "loss": 3.8865,
      "step": 115180
    },
    {
      "epoch": 0.23997916666666666,
      "grad_norm": 0.868409276008606,
      "learning_rate": 0.000260372291053006,
      "loss": 3.9339,
      "step": 115190
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7618752121925354,
      "learning_rate": 0.0002603656147760042,
      "loss": 3.724,
      "step": 115200
    },
    {
      "epoch": 0.24002083333333332,
      "grad_norm": 0.8054734468460083,
      "learning_rate": 0.0002603589380222666,
      "loss": 3.7611,
      "step": 115210
    },
    {
      "epoch": 0.24004166666666665,
      "grad_norm": 0.8302469849586487,
      "learning_rate": 0.0002603522607918221,
      "loss": 3.9,
      "step": 115220
    },
    {
      "epoch": 0.2400625,
      "grad_norm": 0.7552115321159363,
      "learning_rate": 0.0002603455830846995,
      "loss": 3.9184,
      "step": 115230
    },
    {
      "epoch": 0.24008333333333334,
      "grad_norm": 0.7636775374412537,
      "learning_rate": 0.0002603389049009276,
      "loss": 3.9328,
      "step": 115240
    },
    {
      "epoch": 0.24010416666666667,
      "grad_norm": 1.0122946500778198,
      "learning_rate": 0.0002603322262405354,
      "loss": 3.7834,
      "step": 115250
    },
    {
      "epoch": 0.240125,
      "grad_norm": 0.8122518658638,
      "learning_rate": 0.0002603255471035516,
      "loss": 3.867,
      "step": 115260
    },
    {
      "epoch": 0.24014583333333334,
      "grad_norm": 0.7597981691360474,
      "learning_rate": 0.0002603188674900051,
      "loss": 3.9474,
      "step": 115270
    },
    {
      "epoch": 0.24016666666666667,
      "grad_norm": 0.8387296199798584,
      "learning_rate": 0.0002603121873999248,
      "loss": 3.9787,
      "step": 115280
    },
    {
      "epoch": 0.2401875,
      "grad_norm": 0.7291693091392517,
      "learning_rate": 0.00026030550683333947,
      "loss": 3.9418,
      "step": 115290
    },
    {
      "epoch": 0.24020833333333333,
      "grad_norm": 0.6397300362586975,
      "learning_rate": 0.00026029882579027807,
      "loss": 3.8501,
      "step": 115300
    },
    {
      "epoch": 0.24022916666666666,
      "grad_norm": 0.8513126969337463,
      "learning_rate": 0.00026029214427076934,
      "loss": 3.996,
      "step": 115310
    },
    {
      "epoch": 0.24025,
      "grad_norm": 0.766761302947998,
      "learning_rate": 0.0002602854622748423,
      "loss": 3.8538,
      "step": 115320
    },
    {
      "epoch": 0.24027083333333332,
      "grad_norm": 0.7275024652481079,
      "learning_rate": 0.0002602787798025256,
      "loss": 3.865,
      "step": 115330
    },
    {
      "epoch": 0.24029166666666665,
      "grad_norm": 0.6636534929275513,
      "learning_rate": 0.00026027209685384827,
      "loss": 3.9783,
      "step": 115340
    },
    {
      "epoch": 0.2403125,
      "grad_norm": 0.769293487071991,
      "learning_rate": 0.0002602654134288391,
      "loss": 3.9783,
      "step": 115350
    },
    {
      "epoch": 0.24033333333333334,
      "grad_norm": 0.7248364686965942,
      "learning_rate": 0.000260258729527527,
      "loss": 3.9378,
      "step": 115360
    },
    {
      "epoch": 0.24035416666666667,
      "grad_norm": 0.68677818775177,
      "learning_rate": 0.0002602520451499409,
      "loss": 3.968,
      "step": 115370
    },
    {
      "epoch": 0.240375,
      "grad_norm": 0.9008524417877197,
      "learning_rate": 0.00026024536029610956,
      "loss": 3.8415,
      "step": 115380
    },
    {
      "epoch": 0.24039583333333334,
      "grad_norm": 0.889981210231781,
      "learning_rate": 0.00026023867496606187,
      "loss": 3.9423,
      "step": 115390
    },
    {
      "epoch": 0.24041666666666667,
      "grad_norm": 0.8326575756072998,
      "learning_rate": 0.00026023198915982684,
      "loss": 3.9177,
      "step": 115400
    },
    {
      "epoch": 0.2404375,
      "grad_norm": 0.7323761582374573,
      "learning_rate": 0.00026022530287743315,
      "loss": 4.0097,
      "step": 115410
    },
    {
      "epoch": 0.24045833333333333,
      "grad_norm": 0.6826841831207275,
      "learning_rate": 0.0002602186161189098,
      "loss": 3.7704,
      "step": 115420
    },
    {
      "epoch": 0.24047916666666666,
      "grad_norm": 0.9225627779960632,
      "learning_rate": 0.00026021192888428567,
      "loss": 3.8628,
      "step": 115430
    },
    {
      "epoch": 0.2405,
      "grad_norm": 0.7063223123550415,
      "learning_rate": 0.0002602052411735896,
      "loss": 3.9168,
      "step": 115440
    },
    {
      "epoch": 0.24052083333333332,
      "grad_norm": 0.715499758720398,
      "learning_rate": 0.00026019855298685054,
      "loss": 3.8754,
      "step": 115450
    },
    {
      "epoch": 0.24054166666666665,
      "grad_norm": 0.8689903616905212,
      "learning_rate": 0.0002601918643240974,
      "loss": 3.703,
      "step": 115460
    },
    {
      "epoch": 0.2405625,
      "grad_norm": 0.8279256224632263,
      "learning_rate": 0.00026018517518535897,
      "loss": 3.8142,
      "step": 115470
    },
    {
      "epoch": 0.24058333333333334,
      "grad_norm": 0.738116443157196,
      "learning_rate": 0.00026017848557066415,
      "loss": 4.1691,
      "step": 115480
    },
    {
      "epoch": 0.24060416666666667,
      "grad_norm": 0.743424117565155,
      "learning_rate": 0.00026017179548004193,
      "loss": 3.8714,
      "step": 115490
    },
    {
      "epoch": 0.240625,
      "grad_norm": 0.7706015110015869,
      "learning_rate": 0.0002601651049135212,
      "loss": 3.852,
      "step": 115500
    },
    {
      "epoch": 0.24064583333333334,
      "grad_norm": 0.7491422295570374,
      "learning_rate": 0.0002601584138711308,
      "loss": 3.9881,
      "step": 115510
    },
    {
      "epoch": 0.24066666666666667,
      "grad_norm": 0.7675372362136841,
      "learning_rate": 0.00026015172235289963,
      "loss": 3.9055,
      "step": 115520
    },
    {
      "epoch": 0.2406875,
      "grad_norm": 0.6913831233978271,
      "learning_rate": 0.00026014503035885663,
      "loss": 4.0176,
      "step": 115530
    },
    {
      "epoch": 0.24070833333333333,
      "grad_norm": 0.7792788743972778,
      "learning_rate": 0.0002601383378890307,
      "loss": 4.0364,
      "step": 115540
    },
    {
      "epoch": 0.24072916666666666,
      "grad_norm": 0.7344367504119873,
      "learning_rate": 0.00026013164494345073,
      "loss": 3.9964,
      "step": 115550
    },
    {
      "epoch": 0.24075,
      "grad_norm": 0.7833885550498962,
      "learning_rate": 0.00026012495152214567,
      "loss": 4.0095,
      "step": 115560
    },
    {
      "epoch": 0.24077083333333332,
      "grad_norm": 0.6592714190483093,
      "learning_rate": 0.00026011825762514446,
      "loss": 3.8675,
      "step": 115570
    },
    {
      "epoch": 0.24079166666666665,
      "grad_norm": 0.8733033537864685,
      "learning_rate": 0.0002601115632524759,
      "loss": 3.8531,
      "step": 115580
    },
    {
      "epoch": 0.2408125,
      "grad_norm": 0.7357209920883179,
      "learning_rate": 0.000260104868404169,
      "loss": 3.8205,
      "step": 115590
    },
    {
      "epoch": 0.24083333333333334,
      "grad_norm": 0.6903390884399414,
      "learning_rate": 0.0002600981730802526,
      "loss": 3.9439,
      "step": 115600
    },
    {
      "epoch": 0.24085416666666667,
      "grad_norm": 0.7157521843910217,
      "learning_rate": 0.0002600914772807557,
      "loss": 3.8341,
      "step": 115610
    },
    {
      "epoch": 0.240875,
      "grad_norm": 0.7281493544578552,
      "learning_rate": 0.00026008478100570726,
      "loss": 3.7966,
      "step": 115620
    },
    {
      "epoch": 0.24089583333333334,
      "grad_norm": 0.8439201712608337,
      "learning_rate": 0.00026007808425513603,
      "loss": 3.8699,
      "step": 115630
    },
    {
      "epoch": 0.24091666666666667,
      "grad_norm": 0.827664315700531,
      "learning_rate": 0.00026007138702907113,
      "loss": 3.8798,
      "step": 115640
    },
    {
      "epoch": 0.2409375,
      "grad_norm": 0.7361575365066528,
      "learning_rate": 0.00026006468932754135,
      "loss": 4.0136,
      "step": 115650
    },
    {
      "epoch": 0.24095833333333333,
      "grad_norm": 0.6786472201347351,
      "learning_rate": 0.0002600579911505757,
      "loss": 3.9109,
      "step": 115660
    },
    {
      "epoch": 0.24097916666666666,
      "grad_norm": 0.6592401266098022,
      "learning_rate": 0.0002600512924982031,
      "loss": 3.7852,
      "step": 115670
    },
    {
      "epoch": 0.241,
      "grad_norm": 0.6761149168014526,
      "learning_rate": 0.0002600445933704525,
      "loss": 3.9503,
      "step": 115680
    },
    {
      "epoch": 0.24102083333333332,
      "grad_norm": 0.8813633918762207,
      "learning_rate": 0.0002600378937673528,
      "loss": 3.8897,
      "step": 115690
    },
    {
      "epoch": 0.24104166666666665,
      "grad_norm": 0.8154450058937073,
      "learning_rate": 0.0002600311936889329,
      "loss": 3.7943,
      "step": 115700
    },
    {
      "epoch": 0.2410625,
      "grad_norm": 0.7494574785232544,
      "learning_rate": 0.00026002449313522187,
      "loss": 3.806,
      "step": 115710
    },
    {
      "epoch": 0.24108333333333334,
      "grad_norm": 0.8022719621658325,
      "learning_rate": 0.00026001779210624857,
      "loss": 4.0115,
      "step": 115720
    },
    {
      "epoch": 0.24110416666666667,
      "grad_norm": 0.7826627492904663,
      "learning_rate": 0.0002600110906020419,
      "loss": 3.9712,
      "step": 115730
    },
    {
      "epoch": 0.241125,
      "grad_norm": 0.8162029981613159,
      "learning_rate": 0.00026000438862263097,
      "loss": 3.929,
      "step": 115740
    },
    {
      "epoch": 0.24114583333333334,
      "grad_norm": 0.7820276021957397,
      "learning_rate": 0.00025999768616804457,
      "loss": 3.9347,
      "step": 115750
    },
    {
      "epoch": 0.24116666666666667,
      "grad_norm": 0.8058353662490845,
      "learning_rate": 0.00025999098323831166,
      "loss": 4.1583,
      "step": 115760
    },
    {
      "epoch": 0.2411875,
      "grad_norm": 0.7865243554115295,
      "learning_rate": 0.0002599842798334613,
      "loss": 4.0209,
      "step": 115770
    },
    {
      "epoch": 0.24120833333333333,
      "grad_norm": 0.8769298195838928,
      "learning_rate": 0.00025997757595352234,
      "loss": 3.8901,
      "step": 115780
    },
    {
      "epoch": 0.24122916666666666,
      "grad_norm": 0.843979001045227,
      "learning_rate": 0.0002599708715985238,
      "loss": 3.9604,
      "step": 115790
    },
    {
      "epoch": 0.24125,
      "grad_norm": 0.7673715353012085,
      "learning_rate": 0.00025996416676849464,
      "loss": 3.7127,
      "step": 115800
    },
    {
      "epoch": 0.24127083333333332,
      "grad_norm": 0.7727834582328796,
      "learning_rate": 0.0002599574614634638,
      "loss": 3.8271,
      "step": 115810
    },
    {
      "epoch": 0.24129166666666665,
      "grad_norm": 0.7556334733963013,
      "learning_rate": 0.00025995075568346025,
      "loss": 4.1219,
      "step": 115820
    },
    {
      "epoch": 0.2413125,
      "grad_norm": 0.8232370018959045,
      "learning_rate": 0.0002599440494285129,
      "loss": 4.1545,
      "step": 115830
    },
    {
      "epoch": 0.24133333333333334,
      "grad_norm": 0.8181596398353577,
      "learning_rate": 0.0002599373426986509,
      "loss": 3.7967,
      "step": 115840
    },
    {
      "epoch": 0.24135416666666668,
      "grad_norm": 0.8050000667572021,
      "learning_rate": 0.00025993063549390296,
      "loss": 3.9781,
      "step": 115850
    },
    {
      "epoch": 0.241375,
      "grad_norm": 0.7994040250778198,
      "learning_rate": 0.0002599239278142983,
      "loss": 3.891,
      "step": 115860
    },
    {
      "epoch": 0.24139583333333334,
      "grad_norm": 0.7868145704269409,
      "learning_rate": 0.0002599172196598657,
      "loss": 3.8387,
      "step": 115870
    },
    {
      "epoch": 0.24141666666666667,
      "grad_norm": 0.742220401763916,
      "learning_rate": 0.0002599105110306343,
      "loss": 3.8433,
      "step": 115880
    },
    {
      "epoch": 0.2414375,
      "grad_norm": 0.919288158416748,
      "learning_rate": 0.0002599038019266329,
      "loss": 3.8763,
      "step": 115890
    },
    {
      "epoch": 0.24145833333333333,
      "grad_norm": 0.7905799746513367,
      "learning_rate": 0.00025989709234789066,
      "loss": 3.686,
      "step": 115900
    },
    {
      "epoch": 0.24147916666666666,
      "grad_norm": 0.7417182922363281,
      "learning_rate": 0.00025989038229443643,
      "loss": 3.8377,
      "step": 115910
    },
    {
      "epoch": 0.2415,
      "grad_norm": 0.7821013331413269,
      "learning_rate": 0.00025988367176629925,
      "loss": 3.8474,
      "step": 115920
    },
    {
      "epoch": 0.24152083333333332,
      "grad_norm": 0.9150959849357605,
      "learning_rate": 0.0002598769607635081,
      "loss": 3.6116,
      "step": 115930
    },
    {
      "epoch": 0.24154166666666665,
      "grad_norm": 0.6710528135299683,
      "learning_rate": 0.00025987024928609203,
      "loss": 3.737,
      "step": 115940
    },
    {
      "epoch": 0.2415625,
      "grad_norm": 0.8117600083351135,
      "learning_rate": 0.00025986353733407994,
      "loss": 3.8148,
      "step": 115950
    },
    {
      "epoch": 0.24158333333333334,
      "grad_norm": 0.7698238492012024,
      "learning_rate": 0.00025985682490750085,
      "loss": 4.0023,
      "step": 115960
    },
    {
      "epoch": 0.24160416666666668,
      "grad_norm": 0.9356105327606201,
      "learning_rate": 0.00025985011200638377,
      "loss": 3.8954,
      "step": 115970
    },
    {
      "epoch": 0.241625,
      "grad_norm": 0.773661732673645,
      "learning_rate": 0.0002598433986307577,
      "loss": 4.0737,
      "step": 115980
    },
    {
      "epoch": 0.24164583333333334,
      "grad_norm": 0.7811927795410156,
      "learning_rate": 0.0002598366847806516,
      "loss": 3.5673,
      "step": 115990
    },
    {
      "epoch": 0.24166666666666667,
      "grad_norm": 0.7317502498626709,
      "learning_rate": 0.0002598299704560945,
      "loss": 3.93,
      "step": 116000
    },
    {
      "epoch": 0.24166666666666667,
      "eval_loss": 4.257462978363037,
      "eval_runtime": 9.5771,
      "eval_samples_per_second": 1.044,
      "eval_steps_per_second": 0.313,
      "step": 116000
    },
    {
      "epoch": 0.2416875,
      "grad_norm": 0.6917761564254761,
      "learning_rate": 0.0002598232556571154,
      "loss": 3.9443,
      "step": 116010
    },
    {
      "epoch": 0.24170833333333333,
      "grad_norm": 0.7054569125175476,
      "learning_rate": 0.00025981654038374335,
      "loss": 3.8276,
      "step": 116020
    },
    {
      "epoch": 0.24172916666666666,
      "grad_norm": 0.8852920532226562,
      "learning_rate": 0.0002598098246360072,
      "loss": 3.8606,
      "step": 116030
    },
    {
      "epoch": 0.24175,
      "grad_norm": 0.8094838857650757,
      "learning_rate": 0.0002598031084139362,
      "loss": 4.0563,
      "step": 116040
    },
    {
      "epoch": 0.24177083333333332,
      "grad_norm": 0.7740088701248169,
      "learning_rate": 0.0002597963917175592,
      "loss": 3.8043,
      "step": 116050
    },
    {
      "epoch": 0.24179166666666665,
      "grad_norm": 0.7583639621734619,
      "learning_rate": 0.0002597896745469052,
      "loss": 3.929,
      "step": 116060
    },
    {
      "epoch": 0.2418125,
      "grad_norm": 0.7717350721359253,
      "learning_rate": 0.0002597829569020033,
      "loss": 3.6648,
      "step": 116070
    },
    {
      "epoch": 0.24183333333333334,
      "grad_norm": 0.7236257195472717,
      "learning_rate": 0.00025977623878288244,
      "loss": 3.9055,
      "step": 116080
    },
    {
      "epoch": 0.24185416666666668,
      "grad_norm": 0.7113205194473267,
      "learning_rate": 0.0002597695201895718,
      "loss": 3.9422,
      "step": 116090
    },
    {
      "epoch": 0.241875,
      "grad_norm": 0.8215823173522949,
      "learning_rate": 0.00025976280112210016,
      "loss": 3.8281,
      "step": 116100
    },
    {
      "epoch": 0.24189583333333334,
      "grad_norm": 0.8866168260574341,
      "learning_rate": 0.0002597560815804967,
      "loss": 4.0249,
      "step": 116110
    },
    {
      "epoch": 0.24191666666666667,
      "grad_norm": 0.8423787355422974,
      "learning_rate": 0.00025974936156479046,
      "loss": 3.8418,
      "step": 116120
    },
    {
      "epoch": 0.2419375,
      "grad_norm": 0.9628915190696716,
      "learning_rate": 0.00025974264107501033,
      "loss": 3.9925,
      "step": 116130
    },
    {
      "epoch": 0.24195833333333333,
      "grad_norm": 0.851317822933197,
      "learning_rate": 0.0002597359201111855,
      "loss": 3.9211,
      "step": 116140
    },
    {
      "epoch": 0.24197916666666666,
      "grad_norm": 0.8120859861373901,
      "learning_rate": 0.0002597291986733449,
      "loss": 3.7712,
      "step": 116150
    },
    {
      "epoch": 0.242,
      "grad_norm": 0.6859013438224792,
      "learning_rate": 0.0002597224767615176,
      "loss": 3.8546,
      "step": 116160
    },
    {
      "epoch": 0.24202083333333332,
      "grad_norm": 0.7952880263328552,
      "learning_rate": 0.00025971575437573266,
      "loss": 3.6966,
      "step": 116170
    },
    {
      "epoch": 0.24204166666666665,
      "grad_norm": 0.7338311672210693,
      "learning_rate": 0.00025970903151601907,
      "loss": 4.0408,
      "step": 116180
    },
    {
      "epoch": 0.2420625,
      "grad_norm": 0.8171995282173157,
      "learning_rate": 0.0002597023081824059,
      "loss": 3.8387,
      "step": 116190
    },
    {
      "epoch": 0.24208333333333334,
      "grad_norm": 0.7956803441047668,
      "learning_rate": 0.00025969558437492215,
      "loss": 3.7903,
      "step": 116200
    },
    {
      "epoch": 0.24210416666666668,
      "grad_norm": 0.8171812891960144,
      "learning_rate": 0.00025968886009359693,
      "loss": 3.8972,
      "step": 116210
    },
    {
      "epoch": 0.242125,
      "grad_norm": 0.6809042692184448,
      "learning_rate": 0.0002596821353384592,
      "loss": 3.8001,
      "step": 116220
    },
    {
      "epoch": 0.24214583333333334,
      "grad_norm": 0.6739193201065063,
      "learning_rate": 0.00025967541010953814,
      "loss": 3.8659,
      "step": 116230
    },
    {
      "epoch": 0.24216666666666667,
      "grad_norm": 0.7918659448623657,
      "learning_rate": 0.0002596686844068627,
      "loss": 3.9693,
      "step": 116240
    },
    {
      "epoch": 0.2421875,
      "grad_norm": 0.8061742782592773,
      "learning_rate": 0.0002596619582304619,
      "loss": 3.8957,
      "step": 116250
    },
    {
      "epoch": 0.24220833333333333,
      "grad_norm": 0.7432987689971924,
      "learning_rate": 0.0002596552315803649,
      "loss": 3.9082,
      "step": 116260
    },
    {
      "epoch": 0.24222916666666666,
      "grad_norm": 0.6846911907196045,
      "learning_rate": 0.00025964850445660064,
      "loss": 3.7562,
      "step": 116270
    },
    {
      "epoch": 0.24225,
      "grad_norm": 0.9619568586349487,
      "learning_rate": 0.00025964177685919824,
      "loss": 3.861,
      "step": 116280
    },
    {
      "epoch": 0.24227083333333332,
      "grad_norm": 0.789553165435791,
      "learning_rate": 0.0002596350487881869,
      "loss": 4.0047,
      "step": 116290
    },
    {
      "epoch": 0.24229166666666666,
      "grad_norm": 0.7478734850883484,
      "learning_rate": 0.0002596283202435954,
      "loss": 3.9989,
      "step": 116300
    },
    {
      "epoch": 0.2423125,
      "grad_norm": 0.7954090237617493,
      "learning_rate": 0.000259621591225453,
      "loss": 3.8302,
      "step": 116310
    },
    {
      "epoch": 0.24233333333333335,
      "grad_norm": 0.9067075848579407,
      "learning_rate": 0.00025961486173378874,
      "loss": 3.9416,
      "step": 116320
    },
    {
      "epoch": 0.24235416666666668,
      "grad_norm": 0.7972802519798279,
      "learning_rate": 0.00025960813176863164,
      "loss": 3.9194,
      "step": 116330
    },
    {
      "epoch": 0.242375,
      "grad_norm": 0.9493650794029236,
      "learning_rate": 0.0002596014013300109,
      "loss": 3.9079,
      "step": 116340
    },
    {
      "epoch": 0.24239583333333334,
      "grad_norm": 0.7626553177833557,
      "learning_rate": 0.00025959467041795534,
      "loss": 3.8957,
      "step": 116350
    },
    {
      "epoch": 0.24241666666666667,
      "grad_norm": 0.7938113212585449,
      "learning_rate": 0.00025958793903249427,
      "loss": 3.9083,
      "step": 116360
    },
    {
      "epoch": 0.2424375,
      "grad_norm": 0.8069543242454529,
      "learning_rate": 0.0002595812071736566,
      "loss": 3.971,
      "step": 116370
    },
    {
      "epoch": 0.24245833333333333,
      "grad_norm": 0.7843195199966431,
      "learning_rate": 0.00025957447484147153,
      "loss": 3.9601,
      "step": 116380
    },
    {
      "epoch": 0.24247916666666666,
      "grad_norm": 0.7222977876663208,
      "learning_rate": 0.00025956774203596814,
      "loss": 3.6944,
      "step": 116390
    },
    {
      "epoch": 0.2425,
      "grad_norm": 0.6622121334075928,
      "learning_rate": 0.00025956100875717544,
      "loss": 3.7766,
      "step": 116400
    },
    {
      "epoch": 0.24252083333333332,
      "grad_norm": 0.6966058611869812,
      "learning_rate": 0.0002595542750051225,
      "loss": 3.6411,
      "step": 116410
    },
    {
      "epoch": 0.24254166666666666,
      "grad_norm": 0.9141052961349487,
      "learning_rate": 0.00025954754077983855,
      "loss": 3.9816,
      "step": 116420
    },
    {
      "epoch": 0.2425625,
      "grad_norm": 0.727435290813446,
      "learning_rate": 0.00025954080608135254,
      "loss": 3.7795,
      "step": 116430
    },
    {
      "epoch": 0.24258333333333335,
      "grad_norm": 0.8648117780685425,
      "learning_rate": 0.00025953407090969366,
      "loss": 4.0119,
      "step": 116440
    },
    {
      "epoch": 0.24260416666666668,
      "grad_norm": 0.7691929936408997,
      "learning_rate": 0.0002595273352648909,
      "loss": 3.8281,
      "step": 116450
    },
    {
      "epoch": 0.242625,
      "grad_norm": 0.7509002685546875,
      "learning_rate": 0.0002595205991469734,
      "loss": 3.7915,
      "step": 116460
    },
    {
      "epoch": 0.24264583333333334,
      "grad_norm": 0.8490985631942749,
      "learning_rate": 0.0002595138625559703,
      "loss": 3.9081,
      "step": 116470
    },
    {
      "epoch": 0.24266666666666667,
      "grad_norm": 0.8261803388595581,
      "learning_rate": 0.0002595071254919106,
      "loss": 3.9555,
      "step": 116480
    },
    {
      "epoch": 0.2426875,
      "grad_norm": 0.7897732853889465,
      "learning_rate": 0.0002595003879548235,
      "loss": 3.8452,
      "step": 116490
    },
    {
      "epoch": 0.24270833333333333,
      "grad_norm": 0.8003754615783691,
      "learning_rate": 0.0002594936499447381,
      "loss": 3.8708,
      "step": 116500
    },
    {
      "epoch": 0.24272916666666666,
      "grad_norm": 0.7413751482963562,
      "learning_rate": 0.00025948691146168343,
      "loss": 4.0482,
      "step": 116510
    },
    {
      "epoch": 0.24275,
      "grad_norm": 0.6921604871749878,
      "learning_rate": 0.00025948017250568864,
      "loss": 3.9819,
      "step": 116520
    },
    {
      "epoch": 0.24277083333333332,
      "grad_norm": 0.6663542985916138,
      "learning_rate": 0.00025947343307678285,
      "loss": 3.9209,
      "step": 116530
    },
    {
      "epoch": 0.24279166666666666,
      "grad_norm": 0.7911424040794373,
      "learning_rate": 0.00025946669317499513,
      "loss": 4.1013,
      "step": 116540
    },
    {
      "epoch": 0.2428125,
      "grad_norm": 0.7296214699745178,
      "learning_rate": 0.0002594599528003547,
      "loss": 3.9969,
      "step": 116550
    },
    {
      "epoch": 0.24283333333333335,
      "grad_norm": 0.8899838924407959,
      "learning_rate": 0.00025945321195289055,
      "loss": 3.7518,
      "step": 116560
    },
    {
      "epoch": 0.24285416666666668,
      "grad_norm": 0.7114010453224182,
      "learning_rate": 0.00025944647063263186,
      "loss": 3.992,
      "step": 116570
    },
    {
      "epoch": 0.242875,
      "grad_norm": 0.857628583908081,
      "learning_rate": 0.00025943972883960773,
      "loss": 3.8461,
      "step": 116580
    },
    {
      "epoch": 0.24289583333333334,
      "grad_norm": 0.7786334753036499,
      "learning_rate": 0.0002594329865738473,
      "loss": 3.9069,
      "step": 116590
    },
    {
      "epoch": 0.24291666666666667,
      "grad_norm": 0.8355357050895691,
      "learning_rate": 0.00025942624383537967,
      "loss": 3.9935,
      "step": 116600
    },
    {
      "epoch": 0.2429375,
      "grad_norm": 0.8979407548904419,
      "learning_rate": 0.000259419500624234,
      "loss": 3.9506,
      "step": 116610
    },
    {
      "epoch": 0.24295833333333333,
      "grad_norm": 0.6659632921218872,
      "learning_rate": 0.0002594127569404394,
      "loss": 3.8784,
      "step": 116620
    },
    {
      "epoch": 0.24297916666666666,
      "grad_norm": 0.7302885055541992,
      "learning_rate": 0.000259406012784025,
      "loss": 3.7433,
      "step": 116630
    },
    {
      "epoch": 0.243,
      "grad_norm": 0.8123252987861633,
      "learning_rate": 0.0002593992681550199,
      "loss": 4.0612,
      "step": 116640
    },
    {
      "epoch": 0.24302083333333332,
      "grad_norm": 0.7398465275764465,
      "learning_rate": 0.0002593925230534533,
      "loss": 3.9271,
      "step": 116650
    },
    {
      "epoch": 0.24304166666666666,
      "grad_norm": 0.7925382256507874,
      "learning_rate": 0.0002593857774793543,
      "loss": 3.9625,
      "step": 116660
    },
    {
      "epoch": 0.2430625,
      "grad_norm": 0.9005240797996521,
      "learning_rate": 0.00025937903143275203,
      "loss": 3.7249,
      "step": 116670
    },
    {
      "epoch": 0.24308333333333335,
      "grad_norm": 0.789962887763977,
      "learning_rate": 0.0002593722849136756,
      "loss": 3.8014,
      "step": 116680
    },
    {
      "epoch": 0.24310416666666668,
      "grad_norm": 0.8386132121086121,
      "learning_rate": 0.00025936553792215426,
      "loss": 3.8312,
      "step": 116690
    },
    {
      "epoch": 0.243125,
      "grad_norm": 0.7865932583808899,
      "learning_rate": 0.000259358790458217,
      "loss": 3.812,
      "step": 116700
    },
    {
      "epoch": 0.24314583333333334,
      "grad_norm": 0.8433756828308105,
      "learning_rate": 0.00025935204252189314,
      "loss": 3.9282,
      "step": 116710
    },
    {
      "epoch": 0.24316666666666667,
      "grad_norm": 0.7681934833526611,
      "learning_rate": 0.0002593452941132117,
      "loss": 3.7525,
      "step": 116720
    },
    {
      "epoch": 0.2431875,
      "grad_norm": 0.9916110038757324,
      "learning_rate": 0.0002593385452322019,
      "loss": 3.8572,
      "step": 116730
    },
    {
      "epoch": 0.24320833333333333,
      "grad_norm": 0.7875805497169495,
      "learning_rate": 0.0002593317958788928,
      "loss": 3.9969,
      "step": 116740
    },
    {
      "epoch": 0.24322916666666666,
      "grad_norm": 0.7784370183944702,
      "learning_rate": 0.0002593250460533137,
      "loss": 3.9646,
      "step": 116750
    },
    {
      "epoch": 0.24325,
      "grad_norm": 0.8628151416778564,
      "learning_rate": 0.00025931829575549364,
      "loss": 3.9546,
      "step": 116760
    },
    {
      "epoch": 0.24327083333333333,
      "grad_norm": 0.6791853904724121,
      "learning_rate": 0.0002593115449854618,
      "loss": 3.9645,
      "step": 116770
    },
    {
      "epoch": 0.24329166666666666,
      "grad_norm": 0.6625243425369263,
      "learning_rate": 0.00025930479374324737,
      "loss": 3.8641,
      "step": 116780
    },
    {
      "epoch": 0.2433125,
      "grad_norm": 0.782039225101471,
      "learning_rate": 0.0002592980420288795,
      "loss": 3.7476,
      "step": 116790
    },
    {
      "epoch": 0.24333333333333335,
      "grad_norm": 0.7374080419540405,
      "learning_rate": 0.00025929128984238727,
      "loss": 4.0216,
      "step": 116800
    },
    {
      "epoch": 0.24335416666666668,
      "grad_norm": 0.7469167709350586,
      "learning_rate": 0.0002592845371838001,
      "loss": 3.7283,
      "step": 116810
    },
    {
      "epoch": 0.243375,
      "grad_norm": 0.6884095668792725,
      "learning_rate": 0.0002592777840531469,
      "loss": 3.9686,
      "step": 116820
    },
    {
      "epoch": 0.24339583333333334,
      "grad_norm": 0.7887201309204102,
      "learning_rate": 0.0002592710304504568,
      "loss": 3.9597,
      "step": 116830
    },
    {
      "epoch": 0.24341666666666667,
      "grad_norm": 0.7530519962310791,
      "learning_rate": 0.00025926427637575924,
      "loss": 3.8162,
      "step": 116840
    },
    {
      "epoch": 0.2434375,
      "grad_norm": 0.6478872299194336,
      "learning_rate": 0.00025925752182908324,
      "loss": 4.1641,
      "step": 116850
    },
    {
      "epoch": 0.24345833333333333,
      "grad_norm": 0.7160364985466003,
      "learning_rate": 0.000259250766810458,
      "loss": 4.0355,
      "step": 116860
    },
    {
      "epoch": 0.24347916666666666,
      "grad_norm": 0.9682184457778931,
      "learning_rate": 0.00025924401131991267,
      "loss": 3.9978,
      "step": 116870
    },
    {
      "epoch": 0.2435,
      "grad_norm": 0.752261757850647,
      "learning_rate": 0.00025923725535747643,
      "loss": 3.8223,
      "step": 116880
    },
    {
      "epoch": 0.24352083333333333,
      "grad_norm": 0.8060197830200195,
      "learning_rate": 0.00025923049892317854,
      "loss": 3.865,
      "step": 116890
    },
    {
      "epoch": 0.24354166666666666,
      "grad_norm": 0.7600920796394348,
      "learning_rate": 0.0002592237420170481,
      "loss": 3.8748,
      "step": 116900
    },
    {
      "epoch": 0.2435625,
      "grad_norm": 0.8843249082565308,
      "learning_rate": 0.0002592169846391144,
      "loss": 3.8346,
      "step": 116910
    },
    {
      "epoch": 0.24358333333333335,
      "grad_norm": 0.859544038772583,
      "learning_rate": 0.00025921022678940643,
      "loss": 3.7077,
      "step": 116920
    },
    {
      "epoch": 0.24360416666666668,
      "grad_norm": 0.763481855392456,
      "learning_rate": 0.0002592034684679536,
      "loss": 3.902,
      "step": 116930
    },
    {
      "epoch": 0.243625,
      "grad_norm": 0.7508820295333862,
      "learning_rate": 0.000259196709674785,
      "loss": 3.9739,
      "step": 116940
    },
    {
      "epoch": 0.24364583333333334,
      "grad_norm": 0.7567071914672852,
      "learning_rate": 0.00025918995040992974,
      "loss": 3.9304,
      "step": 116950
    },
    {
      "epoch": 0.24366666666666667,
      "grad_norm": 0.7885265946388245,
      "learning_rate": 0.00025918319067341723,
      "loss": 3.9852,
      "step": 116960
    },
    {
      "epoch": 0.2436875,
      "grad_norm": 0.7665534615516663,
      "learning_rate": 0.0002591764304652765,
      "loss": 4.0126,
      "step": 116970
    },
    {
      "epoch": 0.24370833333333333,
      "grad_norm": 0.6745424866676331,
      "learning_rate": 0.00025916966978553683,
      "loss": 3.9742,
      "step": 116980
    },
    {
      "epoch": 0.24372916666666666,
      "grad_norm": 0.7563460469245911,
      "learning_rate": 0.00025916290863422744,
      "loss": 4.0185,
      "step": 116990
    },
    {
      "epoch": 0.24375,
      "grad_norm": 0.7510818243026733,
      "learning_rate": 0.0002591561470113774,
      "loss": 3.8582,
      "step": 117000
    },
    {
      "epoch": 0.24375,
      "eval_loss": 4.26155948638916,
      "eval_runtime": 9.6524,
      "eval_samples_per_second": 1.036,
      "eval_steps_per_second": 0.311,
      "step": 117000
    },
    {
      "epoch": 0.24377083333333333,
      "grad_norm": 0.7554516196250916,
      "learning_rate": 0.0002591493849170161,
      "loss": 4.0088,
      "step": 117010
    },
    {
      "epoch": 0.24379166666666666,
      "grad_norm": 0.6987264752388,
      "learning_rate": 0.00025914262235117257,
      "loss": 3.6363,
      "step": 117020
    },
    {
      "epoch": 0.2438125,
      "grad_norm": 0.7333374619483948,
      "learning_rate": 0.00025913585931387615,
      "loss": 3.9231,
      "step": 117030
    },
    {
      "epoch": 0.24383333333333335,
      "grad_norm": 0.7988362908363342,
      "learning_rate": 0.0002591290958051561,
      "loss": 4.1034,
      "step": 117040
    },
    {
      "epoch": 0.24385416666666668,
      "grad_norm": 0.7397446036338806,
      "learning_rate": 0.00025912233182504143,
      "loss": 3.7541,
      "step": 117050
    },
    {
      "epoch": 0.243875,
      "grad_norm": 0.832311749458313,
      "learning_rate": 0.0002591155673735616,
      "loss": 3.9655,
      "step": 117060
    },
    {
      "epoch": 0.24389583333333334,
      "grad_norm": 0.7686418294906616,
      "learning_rate": 0.0002591088024507456,
      "loss": 3.9101,
      "step": 117070
    },
    {
      "epoch": 0.24391666666666667,
      "grad_norm": 0.7144972681999207,
      "learning_rate": 0.0002591020370566228,
      "loss": 3.9001,
      "step": 117080
    },
    {
      "epoch": 0.2439375,
      "grad_norm": 0.7584365010261536,
      "learning_rate": 0.0002590952711912224,
      "loss": 3.8508,
      "step": 117090
    },
    {
      "epoch": 0.24395833333333333,
      "grad_norm": 0.629894495010376,
      "learning_rate": 0.0002590885048545736,
      "loss": 4.0654,
      "step": 117100
    },
    {
      "epoch": 0.24397916666666666,
      "grad_norm": 0.7575013041496277,
      "learning_rate": 0.00025908173804670565,
      "loss": 3.957,
      "step": 117110
    },
    {
      "epoch": 0.244,
      "grad_norm": 0.8635952472686768,
      "learning_rate": 0.0002590749707676477,
      "loss": 3.7749,
      "step": 117120
    },
    {
      "epoch": 0.24402083333333333,
      "grad_norm": 0.6803057193756104,
      "learning_rate": 0.00025906820301742914,
      "loss": 3.778,
      "step": 117130
    },
    {
      "epoch": 0.24404166666666666,
      "grad_norm": 0.7499809861183167,
      "learning_rate": 0.0002590614347960791,
      "loss": 3.7579,
      "step": 117140
    },
    {
      "epoch": 0.2440625,
      "grad_norm": 0.8167714476585388,
      "learning_rate": 0.0002590546661036268,
      "loss": 4.0128,
      "step": 117150
    },
    {
      "epoch": 0.24408333333333335,
      "grad_norm": 0.7857744097709656,
      "learning_rate": 0.00025904789694010155,
      "loss": 3.8611,
      "step": 117160
    },
    {
      "epoch": 0.24410416666666668,
      "grad_norm": 0.9107292294502258,
      "learning_rate": 0.0002590411273055325,
      "loss": 3.9661,
      "step": 117170
    },
    {
      "epoch": 0.244125,
      "grad_norm": 0.7575744986534119,
      "learning_rate": 0.000259034357199949,
      "loss": 3.7755,
      "step": 117180
    },
    {
      "epoch": 0.24414583333333334,
      "grad_norm": 0.8039848208427429,
      "learning_rate": 0.0002590275866233802,
      "loss": 3.7417,
      "step": 117190
    },
    {
      "epoch": 0.24416666666666667,
      "grad_norm": 0.8951263427734375,
      "learning_rate": 0.00025902081557585533,
      "loss": 3.9693,
      "step": 117200
    },
    {
      "epoch": 0.2441875,
      "grad_norm": 0.6488986611366272,
      "learning_rate": 0.0002590140440574038,
      "loss": 3.9269,
      "step": 117210
    },
    {
      "epoch": 0.24420833333333333,
      "grad_norm": 0.7462566494941711,
      "learning_rate": 0.00025900727206805467,
      "loss": 3.9519,
      "step": 117220
    },
    {
      "epoch": 0.24422916666666666,
      "grad_norm": 0.7055051326751709,
      "learning_rate": 0.0002590004996078373,
      "loss": 3.9398,
      "step": 117230
    },
    {
      "epoch": 0.24425,
      "grad_norm": 0.7725315093994141,
      "learning_rate": 0.00025899372667678093,
      "loss": 3.8799,
      "step": 117240
    },
    {
      "epoch": 0.24427083333333333,
      "grad_norm": 0.813205361366272,
      "learning_rate": 0.00025898695327491474,
      "loss": 3.7179,
      "step": 117250
    },
    {
      "epoch": 0.24429166666666666,
      "grad_norm": 0.8894073963165283,
      "learning_rate": 0.0002589801794022681,
      "loss": 3.8764,
      "step": 117260
    },
    {
      "epoch": 0.2443125,
      "grad_norm": 0.7551104426383972,
      "learning_rate": 0.00025897340505887025,
      "loss": 3.8527,
      "step": 117270
    },
    {
      "epoch": 0.24433333333333335,
      "grad_norm": 0.8153460025787354,
      "learning_rate": 0.0002589666302447504,
      "loss": 3.8497,
      "step": 117280
    },
    {
      "epoch": 0.24435416666666668,
      "grad_norm": 0.6907312273979187,
      "learning_rate": 0.0002589598549599378,
      "loss": 3.8355,
      "step": 117290
    },
    {
      "epoch": 0.244375,
      "grad_norm": 0.8143213391304016,
      "learning_rate": 0.00025895307920446186,
      "loss": 3.9018,
      "step": 117300
    },
    {
      "epoch": 0.24439583333333334,
      "grad_norm": 0.791246771812439,
      "learning_rate": 0.0002589463029783517,
      "loss": 3.9516,
      "step": 117310
    },
    {
      "epoch": 0.24441666666666667,
      "grad_norm": 0.8003825545310974,
      "learning_rate": 0.00025893952628163657,
      "loss": 3.6461,
      "step": 117320
    },
    {
      "epoch": 0.2444375,
      "grad_norm": 0.7607778906822205,
      "learning_rate": 0.0002589327491143458,
      "loss": 3.7387,
      "step": 117330
    },
    {
      "epoch": 0.24445833333333333,
      "grad_norm": 0.9828870892524719,
      "learning_rate": 0.0002589259714765088,
      "loss": 3.9542,
      "step": 117340
    },
    {
      "epoch": 0.24447916666666666,
      "grad_norm": 0.7388181090354919,
      "learning_rate": 0.0002589191933681546,
      "loss": 3.8616,
      "step": 117350
    },
    {
      "epoch": 0.2445,
      "grad_norm": 0.7895506024360657,
      "learning_rate": 0.00025891241478931263,
      "loss": 3.8009,
      "step": 117360
    },
    {
      "epoch": 0.24452083333333333,
      "grad_norm": 0.8436576724052429,
      "learning_rate": 0.00025890563574001215,
      "loss": 3.9693,
      "step": 117370
    },
    {
      "epoch": 0.24454166666666666,
      "grad_norm": 0.7068819403648376,
      "learning_rate": 0.0002588988562202824,
      "loss": 3.797,
      "step": 117380
    },
    {
      "epoch": 0.2445625,
      "grad_norm": 0.7679857015609741,
      "learning_rate": 0.00025889207623015277,
      "loss": 3.7666,
      "step": 117390
    },
    {
      "epoch": 0.24458333333333335,
      "grad_norm": 1.0029438734054565,
      "learning_rate": 0.00025888529576965246,
      "loss": 3.9507,
      "step": 117400
    },
    {
      "epoch": 0.24460416666666668,
      "grad_norm": 0.9146065711975098,
      "learning_rate": 0.00025887851483881073,
      "loss": 3.7531,
      "step": 117410
    },
    {
      "epoch": 0.244625,
      "grad_norm": 0.8020023703575134,
      "learning_rate": 0.00025887173343765694,
      "loss": 3.8742,
      "step": 117420
    },
    {
      "epoch": 0.24464583333333334,
      "grad_norm": 0.8427119851112366,
      "learning_rate": 0.0002588649515662203,
      "loss": 3.9582,
      "step": 117430
    },
    {
      "epoch": 0.24466666666666667,
      "grad_norm": 0.859825074672699,
      "learning_rate": 0.0002588581692245302,
      "loss": 3.9081,
      "step": 117440
    },
    {
      "epoch": 0.2446875,
      "grad_norm": 0.7488427758216858,
      "learning_rate": 0.00025885138641261587,
      "loss": 3.7319,
      "step": 117450
    },
    {
      "epoch": 0.24470833333333333,
      "grad_norm": 0.7474827766418457,
      "learning_rate": 0.0002588446031305067,
      "loss": 4.1,
      "step": 117460
    },
    {
      "epoch": 0.24472916666666666,
      "grad_norm": 0.7461313009262085,
      "learning_rate": 0.00025883781937823187,
      "loss": 3.8202,
      "step": 117470
    },
    {
      "epoch": 0.24475,
      "grad_norm": 0.750504732131958,
      "learning_rate": 0.0002588310351558208,
      "loss": 3.8696,
      "step": 117480
    },
    {
      "epoch": 0.24477083333333333,
      "grad_norm": 0.7263540625572205,
      "learning_rate": 0.0002588242504633027,
      "loss": 3.7726,
      "step": 117490
    },
    {
      "epoch": 0.24479166666666666,
      "grad_norm": 0.8759488463401794,
      "learning_rate": 0.0002588174653007069,
      "loss": 3.8658,
      "step": 117500
    },
    {
      "epoch": 0.2448125,
      "grad_norm": 0.9535866379737854,
      "learning_rate": 0.00025881067966806277,
      "loss": 3.8374,
      "step": 117510
    },
    {
      "epoch": 0.24483333333333332,
      "grad_norm": 0.7921175956726074,
      "learning_rate": 0.00025880389356539957,
      "loss": 3.7613,
      "step": 117520
    },
    {
      "epoch": 0.24485416666666668,
      "grad_norm": 0.8246281743049622,
      "learning_rate": 0.00025879710699274654,
      "loss": 3.7673,
      "step": 117530
    },
    {
      "epoch": 0.244875,
      "grad_norm": 0.7820576429367065,
      "learning_rate": 0.0002587903199501331,
      "loss": 4.0497,
      "step": 117540
    },
    {
      "epoch": 0.24489583333333334,
      "grad_norm": 0.7198566794395447,
      "learning_rate": 0.00025878353243758854,
      "loss": 3.9102,
      "step": 117550
    },
    {
      "epoch": 0.24491666666666667,
      "grad_norm": 0.7308896780014038,
      "learning_rate": 0.00025877674445514223,
      "loss": 3.9733,
      "step": 117560
    },
    {
      "epoch": 0.2449375,
      "grad_norm": 0.798051118850708,
      "learning_rate": 0.0002587699560028234,
      "loss": 3.7004,
      "step": 117570
    },
    {
      "epoch": 0.24495833333333333,
      "grad_norm": 1.5684512853622437,
      "learning_rate": 0.00025876316708066144,
      "loss": 4.0953,
      "step": 117580
    },
    {
      "epoch": 0.24497916666666666,
      "grad_norm": 0.7186267971992493,
      "learning_rate": 0.0002587563776886857,
      "loss": 3.7871,
      "step": 117590
    },
    {
      "epoch": 0.245,
      "grad_norm": 0.7487741112709045,
      "learning_rate": 0.00025874958782692533,
      "loss": 3.9525,
      "step": 117600
    },
    {
      "epoch": 0.24502083333333333,
      "grad_norm": 0.7397080659866333,
      "learning_rate": 0.00025874279749540984,
      "loss": 3.9106,
      "step": 117610
    },
    {
      "epoch": 0.24504166666666666,
      "grad_norm": 0.8941218256950378,
      "learning_rate": 0.0002587360066941686,
      "loss": 3.7492,
      "step": 117620
    },
    {
      "epoch": 0.2450625,
      "grad_norm": 0.7385103702545166,
      "learning_rate": 0.0002587292154232307,
      "loss": 3.9872,
      "step": 117630
    },
    {
      "epoch": 0.24508333333333332,
      "grad_norm": 0.6979750990867615,
      "learning_rate": 0.00025872242368262573,
      "loss": 4.0853,
      "step": 117640
    },
    {
      "epoch": 0.24510416666666668,
      "grad_norm": 0.7693807482719421,
      "learning_rate": 0.00025871563147238287,
      "loss": 3.9558,
      "step": 117650
    },
    {
      "epoch": 0.245125,
      "grad_norm": 0.7990791201591492,
      "learning_rate": 0.00025870883879253154,
      "loss": 3.9242,
      "step": 117660
    },
    {
      "epoch": 0.24514583333333334,
      "grad_norm": 0.8244684934616089,
      "learning_rate": 0.00025870204564310104,
      "loss": 3.8094,
      "step": 117670
    },
    {
      "epoch": 0.24516666666666667,
      "grad_norm": 0.8368804454803467,
      "learning_rate": 0.0002586952520241208,
      "loss": 4.0372,
      "step": 117680
    },
    {
      "epoch": 0.2451875,
      "grad_norm": 0.8076561093330383,
      "learning_rate": 0.00025868845793562,
      "loss": 3.9389,
      "step": 117690
    },
    {
      "epoch": 0.24520833333333333,
      "grad_norm": 0.9318450093269348,
      "learning_rate": 0.0002586816633776281,
      "loss": 3.8375,
      "step": 117700
    },
    {
      "epoch": 0.24522916666666666,
      "grad_norm": 0.7877236008644104,
      "learning_rate": 0.00025867486835017445,
      "loss": 4.0749,
      "step": 117710
    },
    {
      "epoch": 0.24525,
      "grad_norm": 0.6671950817108154,
      "learning_rate": 0.00025866807285328844,
      "loss": 4.0142,
      "step": 117720
    },
    {
      "epoch": 0.24527083333333333,
      "grad_norm": 0.9261797070503235,
      "learning_rate": 0.0002586612768869993,
      "loss": 3.9154,
      "step": 117730
    },
    {
      "epoch": 0.24529166666666666,
      "grad_norm": 0.8583394885063171,
      "learning_rate": 0.00025865448045133646,
      "loss": 3.801,
      "step": 117740
    },
    {
      "epoch": 0.2453125,
      "grad_norm": 0.7578561305999756,
      "learning_rate": 0.0002586476835463293,
      "loss": 3.9084,
      "step": 117750
    },
    {
      "epoch": 0.24533333333333332,
      "grad_norm": 0.7461709976196289,
      "learning_rate": 0.00025864088617200717,
      "loss": 4.0578,
      "step": 117760
    },
    {
      "epoch": 0.24535416666666668,
      "grad_norm": 0.6663042902946472,
      "learning_rate": 0.0002586340883283994,
      "loss": 3.8212,
      "step": 117770
    },
    {
      "epoch": 0.245375,
      "grad_norm": 0.8195911645889282,
      "learning_rate": 0.0002586272900155353,
      "loss": 3.8269,
      "step": 117780
    },
    {
      "epoch": 0.24539583333333334,
      "grad_norm": 0.7312809228897095,
      "learning_rate": 0.00025862049123344437,
      "loss": 3.8748,
      "step": 117790
    },
    {
      "epoch": 0.24541666666666667,
      "grad_norm": 0.7168952822685242,
      "learning_rate": 0.0002586136919821559,
      "loss": 3.8224,
      "step": 117800
    },
    {
      "epoch": 0.2454375,
      "grad_norm": 0.6587426662445068,
      "learning_rate": 0.0002586068922616993,
      "loss": 3.8837,
      "step": 117810
    },
    {
      "epoch": 0.24545833333333333,
      "grad_norm": 0.7248347997665405,
      "learning_rate": 0.0002586000920721039,
      "loss": 3.8846,
      "step": 117820
    },
    {
      "epoch": 0.24547916666666666,
      "grad_norm": 0.9438204169273376,
      "learning_rate": 0.00025859329141339905,
      "loss": 3.8208,
      "step": 117830
    },
    {
      "epoch": 0.2455,
      "grad_norm": 0.7446009516716003,
      "learning_rate": 0.00025858649028561424,
      "loss": 3.6054,
      "step": 117840
    },
    {
      "epoch": 0.24552083333333333,
      "grad_norm": 0.7440967559814453,
      "learning_rate": 0.0002585796886887787,
      "loss": 3.9672,
      "step": 117850
    },
    {
      "epoch": 0.24554166666666666,
      "grad_norm": 0.8069555759429932,
      "learning_rate": 0.0002585728866229219,
      "loss": 4.0227,
      "step": 117860
    },
    {
      "epoch": 0.2455625,
      "grad_norm": 0.6850826144218445,
      "learning_rate": 0.0002585660840880732,
      "loss": 3.7899,
      "step": 117870
    },
    {
      "epoch": 0.24558333333333332,
      "grad_norm": 0.8871257901191711,
      "learning_rate": 0.00025855928108426204,
      "loss": 3.8527,
      "step": 117880
    },
    {
      "epoch": 0.24560416666666668,
      "grad_norm": 0.7395383715629578,
      "learning_rate": 0.0002585524776115177,
      "loss": 3.9098,
      "step": 117890
    },
    {
      "epoch": 0.245625,
      "grad_norm": 0.8603458404541016,
      "learning_rate": 0.00025854567366986967,
      "loss": 4.0497,
      "step": 117900
    },
    {
      "epoch": 0.24564583333333334,
      "grad_norm": 0.848872721195221,
      "learning_rate": 0.0002585388692593473,
      "loss": 3.7729,
      "step": 117910
    },
    {
      "epoch": 0.24566666666666667,
      "grad_norm": 0.8818458318710327,
      "learning_rate": 0.00025853206437997993,
      "loss": 3.8417,
      "step": 117920
    },
    {
      "epoch": 0.2456875,
      "grad_norm": 0.8350204229354858,
      "learning_rate": 0.00025852525903179705,
      "loss": 3.9054,
      "step": 117930
    },
    {
      "epoch": 0.24570833333333333,
      "grad_norm": 0.8009337782859802,
      "learning_rate": 0.0002585184532148279,
      "loss": 3.8578,
      "step": 117940
    },
    {
      "epoch": 0.24572916666666667,
      "grad_norm": 0.7838413715362549,
      "learning_rate": 0.0002585116469291021,
      "loss": 3.8416,
      "step": 117950
    },
    {
      "epoch": 0.24575,
      "grad_norm": 0.7169784307479858,
      "learning_rate": 0.00025850484017464893,
      "loss": 3.9229,
      "step": 117960
    },
    {
      "epoch": 0.24577083333333333,
      "grad_norm": 0.7186762094497681,
      "learning_rate": 0.0002584980329514978,
      "loss": 4.0552,
      "step": 117970
    },
    {
      "epoch": 0.24579166666666666,
      "grad_norm": 0.6634181141853333,
      "learning_rate": 0.00025849122525967806,
      "loss": 3.8731,
      "step": 117980
    },
    {
      "epoch": 0.2458125,
      "grad_norm": 0.7562337517738342,
      "learning_rate": 0.0002584844170992192,
      "loss": 3.7924,
      "step": 117990
    },
    {
      "epoch": 0.24583333333333332,
      "grad_norm": 0.8085762858390808,
      "learning_rate": 0.0002584776084701506,
      "loss": 4.0219,
      "step": 118000
    },
    {
      "epoch": 0.24583333333333332,
      "eval_loss": 4.266958713531494,
      "eval_runtime": 10.2424,
      "eval_samples_per_second": 0.976,
      "eval_steps_per_second": 0.293,
      "step": 118000
    },
    {
      "epoch": 0.24585416666666668,
      "grad_norm": 0.8509557843208313,
      "learning_rate": 0.0002584707993725017,
      "loss": 3.8858,
      "step": 118010
    },
    {
      "epoch": 0.245875,
      "grad_norm": 0.7315271496772766,
      "learning_rate": 0.0002584639898063018,
      "loss": 3.9974,
      "step": 118020
    },
    {
      "epoch": 0.24589583333333334,
      "grad_norm": 0.7400884628295898,
      "learning_rate": 0.0002584571797715805,
      "loss": 3.7917,
      "step": 118030
    },
    {
      "epoch": 0.24591666666666667,
      "grad_norm": 0.823716402053833,
      "learning_rate": 0.00025845036926836704,
      "loss": 3.9015,
      "step": 118040
    },
    {
      "epoch": 0.2459375,
      "grad_norm": 0.7612546682357788,
      "learning_rate": 0.0002584435582966909,
      "loss": 3.9922,
      "step": 118050
    },
    {
      "epoch": 0.24595833333333333,
      "grad_norm": 0.8200158476829529,
      "learning_rate": 0.0002584367468565816,
      "loss": 4.0538,
      "step": 118060
    },
    {
      "epoch": 0.24597916666666667,
      "grad_norm": 1.0333000421524048,
      "learning_rate": 0.00025842993494806836,
      "loss": 3.9545,
      "step": 118070
    },
    {
      "epoch": 0.246,
      "grad_norm": 0.754226565361023,
      "learning_rate": 0.00025842312257118083,
      "loss": 3.7857,
      "step": 118080
    },
    {
      "epoch": 0.24602083333333333,
      "grad_norm": 0.7303328514099121,
      "learning_rate": 0.0002584163097259483,
      "loss": 3.8981,
      "step": 118090
    },
    {
      "epoch": 0.24604166666666666,
      "grad_norm": 0.9526427984237671,
      "learning_rate": 0.0002584094964124002,
      "loss": 3.9291,
      "step": 118100
    },
    {
      "epoch": 0.2460625,
      "grad_norm": 0.8157503604888916,
      "learning_rate": 0.000258402682630566,
      "loss": 3.9873,
      "step": 118110
    },
    {
      "epoch": 0.24608333333333332,
      "grad_norm": 0.7763271927833557,
      "learning_rate": 0.0002583958683804751,
      "loss": 3.786,
      "step": 118120
    },
    {
      "epoch": 0.24610416666666668,
      "grad_norm": 0.8745626211166382,
      "learning_rate": 0.00025838905366215695,
      "loss": 3.8689,
      "step": 118130
    },
    {
      "epoch": 0.246125,
      "grad_norm": 0.7494639158248901,
      "learning_rate": 0.000258382238475641,
      "loss": 3.9522,
      "step": 118140
    },
    {
      "epoch": 0.24614583333333334,
      "grad_norm": 0.7587249279022217,
      "learning_rate": 0.0002583754228209567,
      "loss": 4.0,
      "step": 118150
    },
    {
      "epoch": 0.24616666666666667,
      "grad_norm": 0.7290973663330078,
      "learning_rate": 0.0002583686066981335,
      "loss": 3.775,
      "step": 118160
    },
    {
      "epoch": 0.2461875,
      "grad_norm": 0.7882353067398071,
      "learning_rate": 0.0002583617901072008,
      "loss": 4.0013,
      "step": 118170
    },
    {
      "epoch": 0.24620833333333333,
      "grad_norm": 0.7927708625793457,
      "learning_rate": 0.000258354973048188,
      "loss": 3.7872,
      "step": 118180
    },
    {
      "epoch": 0.24622916666666667,
      "grad_norm": 0.7805205583572388,
      "learning_rate": 0.00025834815552112467,
      "loss": 3.8634,
      "step": 118190
    },
    {
      "epoch": 0.24625,
      "grad_norm": 0.7336538434028625,
      "learning_rate": 0.00025834133752604014,
      "loss": 3.8598,
      "step": 118200
    },
    {
      "epoch": 0.24627083333333333,
      "grad_norm": 0.8449468612670898,
      "learning_rate": 0.0002583345190629639,
      "loss": 3.8523,
      "step": 118210
    },
    {
      "epoch": 0.24629166666666666,
      "grad_norm": 0.6761786341667175,
      "learning_rate": 0.0002583277001319255,
      "loss": 3.9557,
      "step": 118220
    },
    {
      "epoch": 0.2463125,
      "grad_norm": 0.7736433148384094,
      "learning_rate": 0.00025832088073295427,
      "loss": 3.7703,
      "step": 118230
    },
    {
      "epoch": 0.24633333333333332,
      "grad_norm": 1.455973744392395,
      "learning_rate": 0.00025831406086607975,
      "loss": 3.8762,
      "step": 118240
    },
    {
      "epoch": 0.24635416666666668,
      "grad_norm": 0.7978841662406921,
      "learning_rate": 0.00025830724053133134,
      "loss": 3.7365,
      "step": 118250
    },
    {
      "epoch": 0.246375,
      "grad_norm": 0.7907574772834778,
      "learning_rate": 0.00025830041972873846,
      "loss": 3.8346,
      "step": 118260
    },
    {
      "epoch": 0.24639583333333334,
      "grad_norm": 0.8256410360336304,
      "learning_rate": 0.00025829359845833073,
      "loss": 4.0863,
      "step": 118270
    },
    {
      "epoch": 0.24641666666666667,
      "grad_norm": 0.8104029893875122,
      "learning_rate": 0.00025828677672013747,
      "loss": 3.8549,
      "step": 118280
    },
    {
      "epoch": 0.2464375,
      "grad_norm": 0.7649282813072205,
      "learning_rate": 0.0002582799545141882,
      "loss": 3.7909,
      "step": 118290
    },
    {
      "epoch": 0.24645833333333333,
      "grad_norm": 0.7104467749595642,
      "learning_rate": 0.0002582731318405124,
      "loss": 3.8779,
      "step": 118300
    },
    {
      "epoch": 0.24647916666666667,
      "grad_norm": 0.7515720725059509,
      "learning_rate": 0.00025826630869913954,
      "loss": 4.0247,
      "step": 118310
    },
    {
      "epoch": 0.2465,
      "grad_norm": 0.7575503587722778,
      "learning_rate": 0.00025825948509009905,
      "loss": 3.8245,
      "step": 118320
    },
    {
      "epoch": 0.24652083333333333,
      "grad_norm": 0.7842723727226257,
      "learning_rate": 0.0002582526610134205,
      "loss": 3.7684,
      "step": 118330
    },
    {
      "epoch": 0.24654166666666666,
      "grad_norm": 0.7189513444900513,
      "learning_rate": 0.00025824583646913315,
      "loss": 3.698,
      "step": 118340
    },
    {
      "epoch": 0.2465625,
      "grad_norm": 0.9049310088157654,
      "learning_rate": 0.0002582390114572668,
      "loss": 3.7851,
      "step": 118350
    },
    {
      "epoch": 0.24658333333333332,
      "grad_norm": 0.7991364002227783,
      "learning_rate": 0.0002582321859778507,
      "loss": 3.8576,
      "step": 118360
    },
    {
      "epoch": 0.24660416666666668,
      "grad_norm": 0.7606180310249329,
      "learning_rate": 0.00025822536003091437,
      "loss": 4.0814,
      "step": 118370
    },
    {
      "epoch": 0.246625,
      "grad_norm": 0.6880004405975342,
      "learning_rate": 0.00025821853361648737,
      "loss": 3.8324,
      "step": 118380
    },
    {
      "epoch": 0.24664583333333334,
      "grad_norm": 0.6642782092094421,
      "learning_rate": 0.0002582117067345991,
      "loss": 3.9126,
      "step": 118390
    },
    {
      "epoch": 0.24666666666666667,
      "grad_norm": 0.7893816828727722,
      "learning_rate": 0.0002582048793852791,
      "loss": 3.7172,
      "step": 118400
    },
    {
      "epoch": 0.2466875,
      "grad_norm": 0.7701625227928162,
      "learning_rate": 0.0002581980515685569,
      "loss": 3.8943,
      "step": 118410
    },
    {
      "epoch": 0.24670833333333334,
      "grad_norm": 0.7917223572731018,
      "learning_rate": 0.0002581912232844619,
      "loss": 3.9412,
      "step": 118420
    },
    {
      "epoch": 0.24672916666666667,
      "grad_norm": 0.6916700601577759,
      "learning_rate": 0.0002581843945330236,
      "loss": 4.0062,
      "step": 118430
    },
    {
      "epoch": 0.24675,
      "grad_norm": 0.7683937549591064,
      "learning_rate": 0.00025817756531427164,
      "loss": 3.9351,
      "step": 118440
    },
    {
      "epoch": 0.24677083333333333,
      "grad_norm": 0.7596041560173035,
      "learning_rate": 0.00025817073562823536,
      "loss": 3.9528,
      "step": 118450
    },
    {
      "epoch": 0.24679166666666666,
      "grad_norm": 0.7966545224189758,
      "learning_rate": 0.0002581639054749443,
      "loss": 3.8081,
      "step": 118460
    },
    {
      "epoch": 0.2468125,
      "grad_norm": 0.7783086895942688,
      "learning_rate": 0.000258157074854428,
      "loss": 3.9701,
      "step": 118470
    },
    {
      "epoch": 0.24683333333333332,
      "grad_norm": 0.7720364928245544,
      "learning_rate": 0.000258150243766716,
      "loss": 3.8943,
      "step": 118480
    },
    {
      "epoch": 0.24685416666666668,
      "grad_norm": 0.7991997003555298,
      "learning_rate": 0.0002581434122118377,
      "loss": 3.8773,
      "step": 118490
    },
    {
      "epoch": 0.246875,
      "grad_norm": 0.8031527400016785,
      "learning_rate": 0.00025813658018982263,
      "loss": 3.8566,
      "step": 118500
    },
    {
      "epoch": 0.24689583333333334,
      "grad_norm": 0.7115350961685181,
      "learning_rate": 0.0002581297477007004,
      "loss": 3.81,
      "step": 118510
    },
    {
      "epoch": 0.24691666666666667,
      "grad_norm": 0.8297569751739502,
      "learning_rate": 0.0002581229147445005,
      "loss": 3.9956,
      "step": 118520
    },
    {
      "epoch": 0.2469375,
      "grad_norm": 0.6959481239318848,
      "learning_rate": 0.0002581160813212523,
      "loss": 3.8531,
      "step": 118530
    },
    {
      "epoch": 0.24695833333333334,
      "grad_norm": 0.7457829117774963,
      "learning_rate": 0.0002581092474309855,
      "loss": 3.9337,
      "step": 118540
    },
    {
      "epoch": 0.24697916666666667,
      "grad_norm": 0.7139862179756165,
      "learning_rate": 0.0002581024130737295,
      "loss": 3.8651,
      "step": 118550
    },
    {
      "epoch": 0.247,
      "grad_norm": 0.8388549089431763,
      "learning_rate": 0.0002580955782495139,
      "loss": 3.8096,
      "step": 118560
    },
    {
      "epoch": 0.24702083333333333,
      "grad_norm": 0.8134562969207764,
      "learning_rate": 0.0002580887429583681,
      "loss": 3.8764,
      "step": 118570
    },
    {
      "epoch": 0.24704166666666666,
      "grad_norm": 0.7748236060142517,
      "learning_rate": 0.0002580819072003218,
      "loss": 3.9372,
      "step": 118580
    },
    {
      "epoch": 0.2470625,
      "grad_norm": 0.8163461685180664,
      "learning_rate": 0.00025807507097540445,
      "loss": 3.9046,
      "step": 118590
    },
    {
      "epoch": 0.24708333333333332,
      "grad_norm": 0.7864865064620972,
      "learning_rate": 0.0002580682342836455,
      "loss": 3.9183,
      "step": 118600
    },
    {
      "epoch": 0.24710416666666668,
      "grad_norm": 0.6933535933494568,
      "learning_rate": 0.00025806139712507465,
      "loss": 3.8614,
      "step": 118610
    },
    {
      "epoch": 0.247125,
      "grad_norm": 0.7521572709083557,
      "learning_rate": 0.0002580545594997213,
      "loss": 3.9273,
      "step": 118620
    },
    {
      "epoch": 0.24714583333333334,
      "grad_norm": 0.8213915824890137,
      "learning_rate": 0.00025804772140761503,
      "loss": 3.9741,
      "step": 118630
    },
    {
      "epoch": 0.24716666666666667,
      "grad_norm": 0.8198223114013672,
      "learning_rate": 0.00025804088284878536,
      "loss": 3.7938,
      "step": 118640
    },
    {
      "epoch": 0.2471875,
      "grad_norm": 0.7838565111160278,
      "learning_rate": 0.00025803404382326184,
      "loss": 3.6433,
      "step": 118650
    },
    {
      "epoch": 0.24720833333333334,
      "grad_norm": 0.7857825756072998,
      "learning_rate": 0.000258027204331074,
      "loss": 3.8687,
      "step": 118660
    },
    {
      "epoch": 0.24722916666666667,
      "grad_norm": 0.7897281646728516,
      "learning_rate": 0.0002580203643722514,
      "loss": 3.7845,
      "step": 118670
    },
    {
      "epoch": 0.24725,
      "grad_norm": 0.7169413566589355,
      "learning_rate": 0.0002580135239468236,
      "loss": 3.9585,
      "step": 118680
    },
    {
      "epoch": 0.24727083333333333,
      "grad_norm": 0.714391827583313,
      "learning_rate": 0.00025800668305482014,
      "loss": 3.9187,
      "step": 118690
    },
    {
      "epoch": 0.24729166666666666,
      "grad_norm": 0.874221920967102,
      "learning_rate": 0.00025799984169627054,
      "loss": 3.7858,
      "step": 118700
    },
    {
      "epoch": 0.2473125,
      "grad_norm": 0.9348215460777283,
      "learning_rate": 0.0002579929998712044,
      "loss": 3.8379,
      "step": 118710
    },
    {
      "epoch": 0.24733333333333332,
      "grad_norm": 0.7128881812095642,
      "learning_rate": 0.0002579861575796512,
      "loss": 3.8892,
      "step": 118720
    },
    {
      "epoch": 0.24735416666666668,
      "grad_norm": 0.785354495048523,
      "learning_rate": 0.0002579793148216406,
      "loss": 3.9584,
      "step": 118730
    },
    {
      "epoch": 0.247375,
      "grad_norm": 0.7651207447052002,
      "learning_rate": 0.000257972471597202,
      "loss": 3.8266,
      "step": 118740
    },
    {
      "epoch": 0.24739583333333334,
      "grad_norm": 0.7556189894676208,
      "learning_rate": 0.0002579656279063652,
      "loss": 3.9462,
      "step": 118750
    },
    {
      "epoch": 0.24741666666666667,
      "grad_norm": 0.7322025895118713,
      "learning_rate": 0.00025795878374915957,
      "loss": 3.966,
      "step": 118760
    },
    {
      "epoch": 0.2474375,
      "grad_norm": 0.7910550236701965,
      "learning_rate": 0.0002579519391256147,
      "loss": 3.9621,
      "step": 118770
    },
    {
      "epoch": 0.24745833333333334,
      "grad_norm": 0.8131060004234314,
      "learning_rate": 0.0002579450940357602,
      "loss": 3.7817,
      "step": 118780
    },
    {
      "epoch": 0.24747916666666667,
      "grad_norm": 0.7775981426239014,
      "learning_rate": 0.0002579382484796256,
      "loss": 3.7924,
      "step": 118790
    },
    {
      "epoch": 0.2475,
      "grad_norm": 0.7095739841461182,
      "learning_rate": 0.00025793140245724053,
      "loss": 3.919,
      "step": 118800
    },
    {
      "epoch": 0.24752083333333333,
      "grad_norm": 0.808732807636261,
      "learning_rate": 0.0002579245559686345,
      "loss": 3.6478,
      "step": 118810
    },
    {
      "epoch": 0.24754166666666666,
      "grad_norm": 0.7501935958862305,
      "learning_rate": 0.0002579177090138371,
      "loss": 4.0657,
      "step": 118820
    },
    {
      "epoch": 0.2475625,
      "grad_norm": 0.7679192423820496,
      "learning_rate": 0.0002579108615928779,
      "loss": 3.9001,
      "step": 118830
    },
    {
      "epoch": 0.24758333333333332,
      "grad_norm": 0.831760823726654,
      "learning_rate": 0.00025790401370578655,
      "loss": 3.9945,
      "step": 118840
    },
    {
      "epoch": 0.24760416666666665,
      "grad_norm": 0.7904289960861206,
      "learning_rate": 0.00025789716535259255,
      "loss": 3.8589,
      "step": 118850
    },
    {
      "epoch": 0.247625,
      "grad_norm": 0.7790654301643372,
      "learning_rate": 0.0002578903165333255,
      "loss": 3.8282,
      "step": 118860
    },
    {
      "epoch": 0.24764583333333334,
      "grad_norm": 0.7892662286758423,
      "learning_rate": 0.000257883467248015,
      "loss": 3.9182,
      "step": 118870
    },
    {
      "epoch": 0.24766666666666667,
      "grad_norm": 0.7266308069229126,
      "learning_rate": 0.0002578766174966906,
      "loss": 3.9661,
      "step": 118880
    },
    {
      "epoch": 0.2476875,
      "grad_norm": 0.8332687020301819,
      "learning_rate": 0.0002578697672793819,
      "loss": 4.0452,
      "step": 118890
    },
    {
      "epoch": 0.24770833333333334,
      "grad_norm": 0.8307802081108093,
      "learning_rate": 0.0002578629165961185,
      "loss": 3.9783,
      "step": 118900
    },
    {
      "epoch": 0.24772916666666667,
      "grad_norm": 0.7504441738128662,
      "learning_rate": 0.00025785606544693004,
      "loss": 4.0456,
      "step": 118910
    },
    {
      "epoch": 0.24775,
      "grad_norm": 0.9212787747383118,
      "learning_rate": 0.00025784921383184605,
      "loss": 3.9358,
      "step": 118920
    },
    {
      "epoch": 0.24777083333333333,
      "grad_norm": 0.8976601362228394,
      "learning_rate": 0.00025784236175089615,
      "loss": 3.8662,
      "step": 118930
    },
    {
      "epoch": 0.24779166666666666,
      "grad_norm": 0.8270803689956665,
      "learning_rate": 0.00025783550920410996,
      "loss": 3.9675,
      "step": 118940
    },
    {
      "epoch": 0.2478125,
      "grad_norm": 0.7403931021690369,
      "learning_rate": 0.00025782865619151696,
      "loss": 3.9215,
      "step": 118950
    },
    {
      "epoch": 0.24783333333333332,
      "grad_norm": 0.7046790719032288,
      "learning_rate": 0.0002578218027131469,
      "loss": 3.9054,
      "step": 118960
    },
    {
      "epoch": 0.24785416666666665,
      "grad_norm": 0.795700192451477,
      "learning_rate": 0.00025781494876902936,
      "loss": 3.8708,
      "step": 118970
    },
    {
      "epoch": 0.247875,
      "grad_norm": 0.7278501391410828,
      "learning_rate": 0.0002578080943591939,
      "loss": 3.8362,
      "step": 118980
    },
    {
      "epoch": 0.24789583333333334,
      "grad_norm": 0.7614150643348694,
      "learning_rate": 0.00025780123948367014,
      "loss": 3.8015,
      "step": 118990
    },
    {
      "epoch": 0.24791666666666667,
      "grad_norm": 0.7986441254615784,
      "learning_rate": 0.0002577943841424877,
      "loss": 3.7756,
      "step": 119000
    },
    {
      "epoch": 0.24791666666666667,
      "eval_loss": 4.25430965423584,
      "eval_runtime": 10.5281,
      "eval_samples_per_second": 0.95,
      "eval_steps_per_second": 0.285,
      "step": 119000
    },
    {
      "epoch": 0.2479375,
      "grad_norm": 0.7183091044425964,
      "learning_rate": 0.0002577875283356762,
      "loss": 3.9684,
      "step": 119010
    },
    {
      "epoch": 0.24795833333333334,
      "grad_norm": 0.7396254539489746,
      "learning_rate": 0.0002577806720632652,
      "loss": 3.8953,
      "step": 119020
    },
    {
      "epoch": 0.24797916666666667,
      "grad_norm": 0.8980370759963989,
      "learning_rate": 0.0002577738153252844,
      "loss": 3.9279,
      "step": 119030
    },
    {
      "epoch": 0.248,
      "grad_norm": 0.6665918827056885,
      "learning_rate": 0.0002577669581217634,
      "loss": 3.829,
      "step": 119040
    },
    {
      "epoch": 0.24802083333333333,
      "grad_norm": 0.7784817814826965,
      "learning_rate": 0.00025776010045273174,
      "loss": 3.906,
      "step": 119050
    },
    {
      "epoch": 0.24804166666666666,
      "grad_norm": 0.6717686653137207,
      "learning_rate": 0.00025775324231821914,
      "loss": 3.9668,
      "step": 119060
    },
    {
      "epoch": 0.2480625,
      "grad_norm": 0.7231533527374268,
      "learning_rate": 0.0002577463837182552,
      "loss": 3.9343,
      "step": 119070
    },
    {
      "epoch": 0.24808333333333332,
      "grad_norm": 0.8420966267585754,
      "learning_rate": 0.0002577395246528695,
      "loss": 3.9364,
      "step": 119080
    },
    {
      "epoch": 0.24810416666666665,
      "grad_norm": 0.6961618661880493,
      "learning_rate": 0.00025773266512209167,
      "loss": 3.9292,
      "step": 119090
    },
    {
      "epoch": 0.248125,
      "grad_norm": 0.7590980529785156,
      "learning_rate": 0.0002577258051259514,
      "loss": 3.8922,
      "step": 119100
    },
    {
      "epoch": 0.24814583333333334,
      "grad_norm": 0.7866113781929016,
      "learning_rate": 0.0002577189446644783,
      "loss": 4.0258,
      "step": 119110
    },
    {
      "epoch": 0.24816666666666667,
      "grad_norm": 0.7445114254951477,
      "learning_rate": 0.000257712083737702,
      "loss": 4.057,
      "step": 119120
    },
    {
      "epoch": 0.2481875,
      "grad_norm": 0.8174688816070557,
      "learning_rate": 0.00025770522234565214,
      "loss": 3.8783,
      "step": 119130
    },
    {
      "epoch": 0.24820833333333334,
      "grad_norm": 0.768875777721405,
      "learning_rate": 0.00025769836048835835,
      "loss": 3.8768,
      "step": 119140
    },
    {
      "epoch": 0.24822916666666667,
      "grad_norm": 0.7465024590492249,
      "learning_rate": 0.0002576914981658502,
      "loss": 3.9433,
      "step": 119150
    },
    {
      "epoch": 0.24825,
      "grad_norm": 0.7953804731369019,
      "learning_rate": 0.00025768463537815747,
      "loss": 3.8746,
      "step": 119160
    },
    {
      "epoch": 0.24827083333333333,
      "grad_norm": 0.8756990432739258,
      "learning_rate": 0.00025767777212530975,
      "loss": 3.9471,
      "step": 119170
    },
    {
      "epoch": 0.24829166666666666,
      "grad_norm": 0.6783236861228943,
      "learning_rate": 0.00025767090840733665,
      "loss": 3.7586,
      "step": 119180
    },
    {
      "epoch": 0.2483125,
      "grad_norm": 0.7433435916900635,
      "learning_rate": 0.00025766404422426786,
      "loss": 3.9846,
      "step": 119190
    },
    {
      "epoch": 0.24833333333333332,
      "grad_norm": 0.9738131761550903,
      "learning_rate": 0.00025765717957613305,
      "loss": 3.9793,
      "step": 119200
    },
    {
      "epoch": 0.24835416666666665,
      "grad_norm": 0.9018031358718872,
      "learning_rate": 0.0002576503144629618,
      "loss": 3.776,
      "step": 119210
    },
    {
      "epoch": 0.248375,
      "grad_norm": 0.8421837687492371,
      "learning_rate": 0.00025764344888478384,
      "loss": 3.8659,
      "step": 119220
    },
    {
      "epoch": 0.24839583333333334,
      "grad_norm": 0.7560642957687378,
      "learning_rate": 0.0002576365828416287,
      "loss": 3.9978,
      "step": 119230
    },
    {
      "epoch": 0.24841666666666667,
      "grad_norm": 0.9240201115608215,
      "learning_rate": 0.0002576297163335262,
      "loss": 3.7973,
      "step": 119240
    },
    {
      "epoch": 0.2484375,
      "grad_norm": 0.7427593469619751,
      "learning_rate": 0.0002576228493605059,
      "loss": 3.7976,
      "step": 119250
    },
    {
      "epoch": 0.24845833333333334,
      "grad_norm": 0.7888592481613159,
      "learning_rate": 0.00025761598192259753,
      "loss": 3.9443,
      "step": 119260
    },
    {
      "epoch": 0.24847916666666667,
      "grad_norm": 0.7696585655212402,
      "learning_rate": 0.00025760911401983064,
      "loss": 3.8123,
      "step": 119270
    },
    {
      "epoch": 0.2485,
      "grad_norm": 0.7770204544067383,
      "learning_rate": 0.000257602245652235,
      "loss": 3.6487,
      "step": 119280
    },
    {
      "epoch": 0.24852083333333333,
      "grad_norm": 0.8350966572761536,
      "learning_rate": 0.0002575953768198403,
      "loss": 3.9704,
      "step": 119290
    },
    {
      "epoch": 0.24854166666666666,
      "grad_norm": 0.8749803900718689,
      "learning_rate": 0.0002575885075226761,
      "loss": 4.0506,
      "step": 119300
    },
    {
      "epoch": 0.2485625,
      "grad_norm": 0.7713797092437744,
      "learning_rate": 0.0002575816377607722,
      "loss": 3.8592,
      "step": 119310
    },
    {
      "epoch": 0.24858333333333332,
      "grad_norm": 0.7840929627418518,
      "learning_rate": 0.00025757476753415814,
      "loss": 3.9434,
      "step": 119320
    },
    {
      "epoch": 0.24860416666666665,
      "grad_norm": 0.7748851776123047,
      "learning_rate": 0.0002575678968428637,
      "loss": 4.0439,
      "step": 119330
    },
    {
      "epoch": 0.248625,
      "grad_norm": 0.8977269530296326,
      "learning_rate": 0.00025756102568691853,
      "loss": 3.7257,
      "step": 119340
    },
    {
      "epoch": 0.24864583333333334,
      "grad_norm": 1.0532125234603882,
      "learning_rate": 0.0002575541540663523,
      "loss": 3.8985,
      "step": 119350
    },
    {
      "epoch": 0.24866666666666667,
      "grad_norm": 0.7944119572639465,
      "learning_rate": 0.0002575472819811947,
      "loss": 4.0293,
      "step": 119360
    },
    {
      "epoch": 0.2486875,
      "grad_norm": 0.7961151003837585,
      "learning_rate": 0.0002575404094314754,
      "loss": 3.7829,
      "step": 119370
    },
    {
      "epoch": 0.24870833333333334,
      "grad_norm": 0.8592562079429626,
      "learning_rate": 0.00025753353641722406,
      "loss": 3.8202,
      "step": 119380
    },
    {
      "epoch": 0.24872916666666667,
      "grad_norm": 0.7673205733299255,
      "learning_rate": 0.0002575266629384705,
      "loss": 3.7408,
      "step": 119390
    },
    {
      "epoch": 0.24875,
      "grad_norm": 0.7821853160858154,
      "learning_rate": 0.00025751978899524425,
      "loss": 4.0078,
      "step": 119400
    },
    {
      "epoch": 0.24877083333333333,
      "grad_norm": 0.80134117603302,
      "learning_rate": 0.0002575129145875751,
      "loss": 3.8949,
      "step": 119410
    },
    {
      "epoch": 0.24879166666666666,
      "grad_norm": 0.8038097023963928,
      "learning_rate": 0.0002575060397154927,
      "loss": 3.9979,
      "step": 119420
    },
    {
      "epoch": 0.2488125,
      "grad_norm": 0.698530912399292,
      "learning_rate": 0.0002574991643790268,
      "loss": 3.9226,
      "step": 119430
    },
    {
      "epoch": 0.24883333333333332,
      "grad_norm": 0.8223938345909119,
      "learning_rate": 0.00025749228857820697,
      "loss": 4.0191,
      "step": 119440
    },
    {
      "epoch": 0.24885416666666665,
      "grad_norm": 1.0998618602752686,
      "learning_rate": 0.0002574854123130631,
      "loss": 3.9105,
      "step": 119450
    },
    {
      "epoch": 0.248875,
      "grad_norm": 0.8840294480323792,
      "learning_rate": 0.0002574785355836247,
      "loss": 3.9844,
      "step": 119460
    },
    {
      "epoch": 0.24889583333333334,
      "grad_norm": 0.7713092565536499,
      "learning_rate": 0.00025747165838992163,
      "loss": 3.8983,
      "step": 119470
    },
    {
      "epoch": 0.24891666666666667,
      "grad_norm": 0.7873407006263733,
      "learning_rate": 0.00025746478073198357,
      "loss": 4.0182,
      "step": 119480
    },
    {
      "epoch": 0.2489375,
      "grad_norm": 0.8315816521644592,
      "learning_rate": 0.0002574579026098401,
      "loss": 3.9179,
      "step": 119490
    },
    {
      "epoch": 0.24895833333333334,
      "grad_norm": 0.7342570424079895,
      "learning_rate": 0.0002574510240235211,
      "loss": 3.8784,
      "step": 119500
    },
    {
      "epoch": 0.24897916666666667,
      "grad_norm": 0.6908738017082214,
      "learning_rate": 0.0002574441449730562,
      "loss": 3.7849,
      "step": 119510
    },
    {
      "epoch": 0.249,
      "grad_norm": 0.8053215742111206,
      "learning_rate": 0.00025743726545847514,
      "loss": 3.8258,
      "step": 119520
    },
    {
      "epoch": 0.24902083333333333,
      "grad_norm": 0.8010688424110413,
      "learning_rate": 0.0002574303854798076,
      "loss": 3.7594,
      "step": 119530
    },
    {
      "epoch": 0.24904166666666666,
      "grad_norm": 0.7700222134590149,
      "learning_rate": 0.0002574235050370833,
      "loss": 3.7725,
      "step": 119540
    },
    {
      "epoch": 0.2490625,
      "grad_norm": 0.7160970568656921,
      "learning_rate": 0.000257416624130332,
      "loss": 3.779,
      "step": 119550
    },
    {
      "epoch": 0.24908333333333332,
      "grad_norm": 0.8002211451530457,
      "learning_rate": 0.0002574097427595834,
      "loss": 3.9337,
      "step": 119560
    },
    {
      "epoch": 0.24910416666666665,
      "grad_norm": 0.8235437870025635,
      "learning_rate": 0.0002574028609248672,
      "loss": 3.8452,
      "step": 119570
    },
    {
      "epoch": 0.249125,
      "grad_norm": 0.7225263118743896,
      "learning_rate": 0.00025739597862621316,
      "loss": 3.7191,
      "step": 119580
    },
    {
      "epoch": 0.24914583333333334,
      "grad_norm": 0.6830423474311829,
      "learning_rate": 0.000257389095863651,
      "loss": 3.8314,
      "step": 119590
    },
    {
      "epoch": 0.24916666666666668,
      "grad_norm": 0.655307412147522,
      "learning_rate": 0.0002573822126372105,
      "loss": 4.003,
      "step": 119600
    },
    {
      "epoch": 0.2491875,
      "grad_norm": 0.6475358009338379,
      "learning_rate": 0.00025737532894692125,
      "loss": 3.9405,
      "step": 119610
    },
    {
      "epoch": 0.24920833333333334,
      "grad_norm": 0.7996302247047424,
      "learning_rate": 0.00025736844479281316,
      "loss": 3.9271,
      "step": 119620
    },
    {
      "epoch": 0.24922916666666667,
      "grad_norm": 0.7359477877616882,
      "learning_rate": 0.0002573615601749159,
      "loss": 3.7936,
      "step": 119630
    },
    {
      "epoch": 0.24925,
      "grad_norm": 0.7516186237335205,
      "learning_rate": 0.0002573546750932592,
      "loss": 3.9198,
      "step": 119640
    },
    {
      "epoch": 0.24927083333333333,
      "grad_norm": 0.7371119856834412,
      "learning_rate": 0.0002573477895478727,
      "loss": 4.0028,
      "step": 119650
    },
    {
      "epoch": 0.24929166666666666,
      "grad_norm": 0.6925827860832214,
      "learning_rate": 0.0002573409035387863,
      "loss": 3.868,
      "step": 119660
    },
    {
      "epoch": 0.2493125,
      "grad_norm": 0.7882235646247864,
      "learning_rate": 0.00025733401706602975,
      "loss": 3.8277,
      "step": 119670
    },
    {
      "epoch": 0.24933333333333332,
      "grad_norm": 0.696254312992096,
      "learning_rate": 0.00025732713012963267,
      "loss": 4.1132,
      "step": 119680
    },
    {
      "epoch": 0.24935416666666665,
      "grad_norm": 0.7049545049667358,
      "learning_rate": 0.0002573202427296249,
      "loss": 3.9165,
      "step": 119690
    },
    {
      "epoch": 0.249375,
      "grad_norm": 0.8547190427780151,
      "learning_rate": 0.00025731335486603614,
      "loss": 3.9967,
      "step": 119700
    },
    {
      "epoch": 0.24939583333333334,
      "grad_norm": 0.7897358536720276,
      "learning_rate": 0.0002573064665388961,
      "loss": 4.0586,
      "step": 119710
    },
    {
      "epoch": 0.24941666666666668,
      "grad_norm": 0.809725284576416,
      "learning_rate": 0.0002572995777482347,
      "loss": 3.9585,
      "step": 119720
    },
    {
      "epoch": 0.2494375,
      "grad_norm": 0.7695266604423523,
      "learning_rate": 0.0002572926884940815,
      "loss": 3.8964,
      "step": 119730
    },
    {
      "epoch": 0.24945833333333334,
      "grad_norm": 0.7468916773796082,
      "learning_rate": 0.00025728579877646647,
      "loss": 3.8965,
      "step": 119740
    },
    {
      "epoch": 0.24947916666666667,
      "grad_norm": 0.8666465282440186,
      "learning_rate": 0.00025727890859541917,
      "loss": 3.6965,
      "step": 119750
    },
    {
      "epoch": 0.2495,
      "grad_norm": 0.7638580799102783,
      "learning_rate": 0.0002572720179509695,
      "loss": 4.0191,
      "step": 119760
    },
    {
      "epoch": 0.24952083333333333,
      "grad_norm": 0.7271072268486023,
      "learning_rate": 0.00025726512684314716,
      "loss": 3.9314,
      "step": 119770
    },
    {
      "epoch": 0.24954166666666666,
      "grad_norm": 0.8101192116737366,
      "learning_rate": 0.0002572582352719819,
      "loss": 3.961,
      "step": 119780
    },
    {
      "epoch": 0.2495625,
      "grad_norm": 0.8703235387802124,
      "learning_rate": 0.00025725134323750353,
      "loss": 3.9955,
      "step": 119790
    },
    {
      "epoch": 0.24958333333333332,
      "grad_norm": 0.7605385780334473,
      "learning_rate": 0.00025724445073974187,
      "loss": 3.8108,
      "step": 119800
    },
    {
      "epoch": 0.24960416666666665,
      "grad_norm": 0.8410705327987671,
      "learning_rate": 0.00025723755777872653,
      "loss": 3.8291,
      "step": 119810
    },
    {
      "epoch": 0.249625,
      "grad_norm": 0.8532662987709045,
      "learning_rate": 0.00025723066435448744,
      "loss": 3.9263,
      "step": 119820
    },
    {
      "epoch": 0.24964583333333334,
      "grad_norm": 0.8252196311950684,
      "learning_rate": 0.00025722377046705436,
      "loss": 3.8751,
      "step": 119830
    },
    {
      "epoch": 0.24966666666666668,
      "grad_norm": 0.7906928062438965,
      "learning_rate": 0.000257216876116457,
      "loss": 3.8821,
      "step": 119840
    },
    {
      "epoch": 0.2496875,
      "grad_norm": 0.7223817110061646,
      "learning_rate": 0.00025720998130272516,
      "loss": 4.1374,
      "step": 119850
    },
    {
      "epoch": 0.24970833333333334,
      "grad_norm": 0.7797434329986572,
      "learning_rate": 0.0002572030860258887,
      "loss": 3.8997,
      "step": 119860
    },
    {
      "epoch": 0.24972916666666667,
      "grad_norm": 0.6658298373222351,
      "learning_rate": 0.00025719619028597725,
      "loss": 3.8031,
      "step": 119870
    },
    {
      "epoch": 0.24975,
      "grad_norm": 0.7384726405143738,
      "learning_rate": 0.00025718929408302075,
      "loss": 3.9821,
      "step": 119880
    },
    {
      "epoch": 0.24977083333333333,
      "grad_norm": 1.0788984298706055,
      "learning_rate": 0.00025718239741704893,
      "loss": 4.1502,
      "step": 119890
    },
    {
      "epoch": 0.24979166666666666,
      "grad_norm": 0.716058075428009,
      "learning_rate": 0.00025717550028809156,
      "loss": 4.0253,
      "step": 119900
    },
    {
      "epoch": 0.2498125,
      "grad_norm": 0.782516360282898,
      "learning_rate": 0.00025716860269617845,
      "loss": 3.8881,
      "step": 119910
    },
    {
      "epoch": 0.24983333333333332,
      "grad_norm": 0.7745581865310669,
      "learning_rate": 0.00025716170464133936,
      "loss": 3.7859,
      "step": 119920
    },
    {
      "epoch": 0.24985416666666665,
      "grad_norm": 0.73885178565979,
      "learning_rate": 0.0002571548061236042,
      "loss": 3.7987,
      "step": 119930
    },
    {
      "epoch": 0.249875,
      "grad_norm": 0.7535274624824524,
      "learning_rate": 0.00025714790714300264,
      "loss": 3.8836,
      "step": 119940
    },
    {
      "epoch": 0.24989583333333334,
      "grad_norm": 0.7769490480422974,
      "learning_rate": 0.0002571410076995646,
      "loss": 4.0735,
      "step": 119950
    },
    {
      "epoch": 0.24991666666666668,
      "grad_norm": 0.8473771214485168,
      "learning_rate": 0.0002571341077933197,
      "loss": 3.9483,
      "step": 119960
    },
    {
      "epoch": 0.2499375,
      "grad_norm": 0.7447115182876587,
      "learning_rate": 0.00025712720742429796,
      "loss": 3.8819,
      "step": 119970
    },
    {
      "epoch": 0.24995833333333334,
      "grad_norm": 0.7020084261894226,
      "learning_rate": 0.00025712030659252904,
      "loss": 3.8774,
      "step": 119980
    },
    {
      "epoch": 0.24997916666666667,
      "grad_norm": 0.8581231236457825,
      "learning_rate": 0.0002571134052980428,
      "loss": 3.939,
      "step": 119990
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8581737279891968,
      "learning_rate": 0.0002571065035408691,
      "loss": 3.9143,
      "step": 120000
    },
    {
      "epoch": 0.25,
      "eval_loss": 4.261592864990234,
      "eval_runtime": 10.3068,
      "eval_samples_per_second": 0.97,
      "eval_steps_per_second": 0.291,
      "step": 120000
    },
    {
      "epoch": 0.25002083333333336,
      "grad_norm": 0.7196207642555237,
      "learning_rate": 0.0002570996013210376,
      "loss": 3.8037,
      "step": 120010
    },
    {
      "epoch": 0.25004166666666666,
      "grad_norm": 0.9250383377075195,
      "learning_rate": 0.0002570926986385783,
      "loss": 3.9844,
      "step": 120020
    },
    {
      "epoch": 0.2500625,
      "grad_norm": 0.6978735327720642,
      "learning_rate": 0.0002570857954935209,
      "loss": 3.8167,
      "step": 120030
    },
    {
      "epoch": 0.2500833333333333,
      "grad_norm": 0.8068959712982178,
      "learning_rate": 0.0002570788918858952,
      "loss": 3.9997,
      "step": 120040
    },
    {
      "epoch": 0.2501041666666667,
      "grad_norm": 0.7485742568969727,
      "learning_rate": 0.00025707198781573117,
      "loss": 4.0533,
      "step": 120050
    },
    {
      "epoch": 0.250125,
      "grad_norm": 0.7088474035263062,
      "learning_rate": 0.0002570650832830585,
      "loss": 3.9384,
      "step": 120060
    },
    {
      "epoch": 0.25014583333333335,
      "grad_norm": 1.0014783143997192,
      "learning_rate": 0.00025705817828790707,
      "loss": 3.9971,
      "step": 120070
    },
    {
      "epoch": 0.25016666666666665,
      "grad_norm": 0.8636044263839722,
      "learning_rate": 0.0002570512728303067,
      "loss": 3.988,
      "step": 120080
    },
    {
      "epoch": 0.2501875,
      "grad_norm": 0.7610726356506348,
      "learning_rate": 0.0002570443669102871,
      "loss": 3.9117,
      "step": 120090
    },
    {
      "epoch": 0.2502083333333333,
      "grad_norm": 0.7410914301872253,
      "learning_rate": 0.00025703746052787826,
      "loss": 3.8422,
      "step": 120100
    },
    {
      "epoch": 0.25022916666666667,
      "grad_norm": 0.783126950263977,
      "learning_rate": 0.00025703055368311,
      "loss": 3.7672,
      "step": 120110
    },
    {
      "epoch": 0.25025,
      "grad_norm": 0.708441436290741,
      "learning_rate": 0.00025702364637601206,
      "loss": 4.0285,
      "step": 120120
    },
    {
      "epoch": 0.25027083333333333,
      "grad_norm": 0.8758186101913452,
      "learning_rate": 0.00025701673860661434,
      "loss": 3.864,
      "step": 120130
    },
    {
      "epoch": 0.2502916666666667,
      "grad_norm": 0.7664844393730164,
      "learning_rate": 0.0002570098303749467,
      "loss": 3.9303,
      "step": 120140
    },
    {
      "epoch": 0.2503125,
      "grad_norm": 0.651258647441864,
      "learning_rate": 0.00025700292168103893,
      "loss": 3.6243,
      "step": 120150
    },
    {
      "epoch": 0.25033333333333335,
      "grad_norm": 0.8410717248916626,
      "learning_rate": 0.00025699601252492094,
      "loss": 4.0824,
      "step": 120160
    },
    {
      "epoch": 0.25035416666666666,
      "grad_norm": 0.7638306617736816,
      "learning_rate": 0.00025698910290662246,
      "loss": 3.97,
      "step": 120170
    },
    {
      "epoch": 0.250375,
      "grad_norm": 0.9296189546585083,
      "learning_rate": 0.00025698219282617343,
      "loss": 3.7967,
      "step": 120180
    },
    {
      "epoch": 0.2503958333333333,
      "grad_norm": 0.7620874047279358,
      "learning_rate": 0.00025697528228360366,
      "loss": 3.9088,
      "step": 120190
    },
    {
      "epoch": 0.2504166666666667,
      "grad_norm": 0.846098005771637,
      "learning_rate": 0.000256968371278943,
      "loss": 3.8756,
      "step": 120200
    },
    {
      "epoch": 0.2504375,
      "grad_norm": 0.8499286770820618,
      "learning_rate": 0.00025696145981222133,
      "loss": 3.7899,
      "step": 120210
    },
    {
      "epoch": 0.25045833333333334,
      "grad_norm": 1.0266681909561157,
      "learning_rate": 0.00025695454788346857,
      "loss": 3.8183,
      "step": 120220
    },
    {
      "epoch": 0.25047916666666664,
      "grad_norm": 0.7563195824623108,
      "learning_rate": 0.00025694763549271443,
      "loss": 3.8023,
      "step": 120230
    },
    {
      "epoch": 0.2505,
      "grad_norm": 0.7384623289108276,
      "learning_rate": 0.0002569407226399888,
      "loss": 4.0139,
      "step": 120240
    },
    {
      "epoch": 0.25052083333333336,
      "grad_norm": 0.7467703223228455,
      "learning_rate": 0.00025693380932532165,
      "loss": 3.9776,
      "step": 120250
    },
    {
      "epoch": 0.25054166666666666,
      "grad_norm": 0.702704131603241,
      "learning_rate": 0.00025692689554874273,
      "loss": 3.9946,
      "step": 120260
    },
    {
      "epoch": 0.2505625,
      "grad_norm": 0.6703928112983704,
      "learning_rate": 0.00025691998131028193,
      "loss": 3.8944,
      "step": 120270
    },
    {
      "epoch": 0.2505833333333333,
      "grad_norm": 0.776542067527771,
      "learning_rate": 0.00025691306660996917,
      "loss": 3.9993,
      "step": 120280
    },
    {
      "epoch": 0.2506041666666667,
      "grad_norm": 0.7373493313789368,
      "learning_rate": 0.0002569061514478343,
      "loss": 3.9558,
      "step": 120290
    },
    {
      "epoch": 0.250625,
      "grad_norm": 0.9582806825637817,
      "learning_rate": 0.0002568992358239071,
      "loss": 3.8902,
      "step": 120300
    },
    {
      "epoch": 0.25064583333333335,
      "grad_norm": 0.8311376571655273,
      "learning_rate": 0.00025689231973821756,
      "loss": 3.9308,
      "step": 120310
    },
    {
      "epoch": 0.25066666666666665,
      "grad_norm": 0.808879554271698,
      "learning_rate": 0.0002568854031907955,
      "loss": 3.91,
      "step": 120320
    },
    {
      "epoch": 0.2506875,
      "grad_norm": 0.7261315584182739,
      "learning_rate": 0.00025687848618167087,
      "loss": 4.0456,
      "step": 120330
    },
    {
      "epoch": 0.2507083333333333,
      "grad_norm": 0.8664923310279846,
      "learning_rate": 0.0002568715687108734,
      "loss": 4.0785,
      "step": 120340
    },
    {
      "epoch": 0.25072916666666667,
      "grad_norm": 0.7615532875061035,
      "learning_rate": 0.0002568646507784331,
      "loss": 4.1091,
      "step": 120350
    },
    {
      "epoch": 0.25075,
      "grad_norm": 0.6846241354942322,
      "learning_rate": 0.0002568577323843798,
      "loss": 4.0046,
      "step": 120360
    },
    {
      "epoch": 0.25077083333333333,
      "grad_norm": 0.7713476419448853,
      "learning_rate": 0.0002568508135287434,
      "loss": 3.7219,
      "step": 120370
    },
    {
      "epoch": 0.2507916666666667,
      "grad_norm": 0.7852568030357361,
      "learning_rate": 0.00025684389421155374,
      "loss": 3.8986,
      "step": 120380
    },
    {
      "epoch": 0.2508125,
      "grad_norm": 0.9310546517372131,
      "learning_rate": 0.0002568369744328408,
      "loss": 3.9398,
      "step": 120390
    },
    {
      "epoch": 0.25083333333333335,
      "grad_norm": 0.8564936518669128,
      "learning_rate": 0.00025683005419263437,
      "loss": 3.9567,
      "step": 120400
    },
    {
      "epoch": 0.25085416666666666,
      "grad_norm": 0.8029220700263977,
      "learning_rate": 0.0002568231334909644,
      "loss": 3.8286,
      "step": 120410
    },
    {
      "epoch": 0.250875,
      "grad_norm": 0.8428359627723694,
      "learning_rate": 0.0002568162123278608,
      "loss": 3.8974,
      "step": 120420
    },
    {
      "epoch": 0.2508958333333333,
      "grad_norm": 0.689613401889801,
      "learning_rate": 0.00025680929070335347,
      "loss": 4.0764,
      "step": 120430
    },
    {
      "epoch": 0.2509166666666667,
      "grad_norm": 0.7259794473648071,
      "learning_rate": 0.00025680236861747225,
      "loss": 3.9828,
      "step": 120440
    },
    {
      "epoch": 0.2509375,
      "grad_norm": 0.9921327233314514,
      "learning_rate": 0.000256795446070247,
      "loss": 3.8557,
      "step": 120450
    },
    {
      "epoch": 0.25095833333333334,
      "grad_norm": 0.7935556173324585,
      "learning_rate": 0.0002567885230617078,
      "loss": 3.9139,
      "step": 120460
    },
    {
      "epoch": 0.25097916666666664,
      "grad_norm": 0.8191713690757751,
      "learning_rate": 0.0002567815995918845,
      "loss": 3.9586,
      "step": 120470
    },
    {
      "epoch": 0.251,
      "grad_norm": 0.6904999613761902,
      "learning_rate": 0.0002567746756608068,
      "loss": 4.0007,
      "step": 120480
    },
    {
      "epoch": 0.25102083333333336,
      "grad_norm": 0.8289191722869873,
      "learning_rate": 0.00025676775126850485,
      "loss": 3.9152,
      "step": 120490
    },
    {
      "epoch": 0.25104166666666666,
      "grad_norm": 0.9427592754364014,
      "learning_rate": 0.0002567608264150085,
      "loss": 3.902,
      "step": 120500
    },
    {
      "epoch": 0.2510625,
      "grad_norm": 0.9983726143836975,
      "learning_rate": 0.0002567539011003476,
      "loss": 3.7956,
      "step": 120510
    },
    {
      "epoch": 0.2510833333333333,
      "grad_norm": 0.9104589223861694,
      "learning_rate": 0.0002567469753245521,
      "loss": 3.8721,
      "step": 120520
    },
    {
      "epoch": 0.2511041666666667,
      "grad_norm": 0.8815751075744629,
      "learning_rate": 0.0002567400490876519,
      "loss": 3.9859,
      "step": 120530
    },
    {
      "epoch": 0.251125,
      "grad_norm": 0.7189062833786011,
      "learning_rate": 0.000256733122389677,
      "loss": 4.0409,
      "step": 120540
    },
    {
      "epoch": 0.25114583333333335,
      "grad_norm": 0.7398726344108582,
      "learning_rate": 0.00025672619523065725,
      "loss": 3.9185,
      "step": 120550
    },
    {
      "epoch": 0.25116666666666665,
      "grad_norm": 0.7329086661338806,
      "learning_rate": 0.00025671926761062255,
      "loss": 4.0417,
      "step": 120560
    },
    {
      "epoch": 0.2511875,
      "grad_norm": 0.788835346698761,
      "learning_rate": 0.00025671233952960287,
      "loss": 3.9282,
      "step": 120570
    },
    {
      "epoch": 0.2512083333333333,
      "grad_norm": 0.8098801970481873,
      "learning_rate": 0.0002567054109876281,
      "loss": 3.8954,
      "step": 120580
    },
    {
      "epoch": 0.25122916666666667,
      "grad_norm": 0.8776403069496155,
      "learning_rate": 0.0002566984819847282,
      "loss": 3.9758,
      "step": 120590
    },
    {
      "epoch": 0.25125,
      "grad_norm": 0.8316168785095215,
      "learning_rate": 0.0002566915525209331,
      "loss": 3.9024,
      "step": 120600
    },
    {
      "epoch": 0.25127083333333333,
      "grad_norm": 0.814089834690094,
      "learning_rate": 0.00025668462259627274,
      "loss": 3.9025,
      "step": 120610
    },
    {
      "epoch": 0.2512916666666667,
      "grad_norm": 0.7521693110466003,
      "learning_rate": 0.00025667769221077706,
      "loss": 3.86,
      "step": 120620
    },
    {
      "epoch": 0.2513125,
      "grad_norm": 0.7050708532333374,
      "learning_rate": 0.0002566707613644759,
      "loss": 4.0459,
      "step": 120630
    },
    {
      "epoch": 0.25133333333333335,
      "grad_norm": 0.9159626364707947,
      "learning_rate": 0.0002566638300573993,
      "loss": 3.949,
      "step": 120640
    },
    {
      "epoch": 0.25135416666666666,
      "grad_norm": 0.7556700706481934,
      "learning_rate": 0.0002566568982895772,
      "loss": 3.9265,
      "step": 120650
    },
    {
      "epoch": 0.251375,
      "grad_norm": 0.6899934411048889,
      "learning_rate": 0.0002566499660610395,
      "loss": 3.9014,
      "step": 120660
    },
    {
      "epoch": 0.2513958333333333,
      "grad_norm": 0.8057700395584106,
      "learning_rate": 0.00025664303337181614,
      "loss": 4.1396,
      "step": 120670
    },
    {
      "epoch": 0.2514166666666667,
      "grad_norm": 0.6997473239898682,
      "learning_rate": 0.00025663610022193717,
      "loss": 3.7866,
      "step": 120680
    },
    {
      "epoch": 0.2514375,
      "grad_norm": 0.7382404804229736,
      "learning_rate": 0.0002566291666114324,
      "loss": 3.9484,
      "step": 120690
    },
    {
      "epoch": 0.25145833333333334,
      "grad_norm": 0.6613016128540039,
      "learning_rate": 0.00025662223254033185,
      "loss": 3.8351,
      "step": 120700
    },
    {
      "epoch": 0.25147916666666664,
      "grad_norm": 0.8942535519599915,
      "learning_rate": 0.0002566152980086654,
      "loss": 3.9486,
      "step": 120710
    },
    {
      "epoch": 0.2515,
      "grad_norm": 0.8438344597816467,
      "learning_rate": 0.0002566083630164631,
      "loss": 3.8869,
      "step": 120720
    },
    {
      "epoch": 0.25152083333333336,
      "grad_norm": 0.6995416283607483,
      "learning_rate": 0.00025660142756375493,
      "loss": 4.1183,
      "step": 120730
    },
    {
      "epoch": 0.25154166666666666,
      "grad_norm": 0.7075271010398865,
      "learning_rate": 0.0002565944916505707,
      "loss": 3.8999,
      "step": 120740
    },
    {
      "epoch": 0.2515625,
      "grad_norm": 0.8115150928497314,
      "learning_rate": 0.00025658755527694055,
      "loss": 3.8649,
      "step": 120750
    },
    {
      "epoch": 0.2515833333333333,
      "grad_norm": 0.7834635376930237,
      "learning_rate": 0.00025658061844289424,
      "loss": 3.8302,
      "step": 120760
    },
    {
      "epoch": 0.2516041666666667,
      "grad_norm": 0.6540688872337341,
      "learning_rate": 0.00025657368114846197,
      "loss": 3.66,
      "step": 120770
    },
    {
      "epoch": 0.251625,
      "grad_norm": 0.7945818901062012,
      "learning_rate": 0.0002565667433936735,
      "loss": 3.8645,
      "step": 120780
    },
    {
      "epoch": 0.25164583333333335,
      "grad_norm": 0.7202977538108826,
      "learning_rate": 0.0002565598051785589,
      "loss": 3.8834,
      "step": 120790
    },
    {
      "epoch": 0.25166666666666665,
      "grad_norm": 0.7724462747573853,
      "learning_rate": 0.0002565528665031481,
      "loss": 3.9432,
      "step": 120800
    },
    {
      "epoch": 0.2516875,
      "grad_norm": 0.8133946657180786,
      "learning_rate": 0.0002565459273674711,
      "loss": 3.9977,
      "step": 120810
    },
    {
      "epoch": 0.2517083333333333,
      "grad_norm": 0.8408694267272949,
      "learning_rate": 0.0002565389877715579,
      "loss": 3.8379,
      "step": 120820
    },
    {
      "epoch": 0.25172916666666667,
      "grad_norm": 0.83116215467453,
      "learning_rate": 0.00025653204771543844,
      "loss": 3.8071,
      "step": 120830
    },
    {
      "epoch": 0.25175,
      "grad_norm": 0.6928322315216064,
      "learning_rate": 0.0002565251071991427,
      "loss": 3.7203,
      "step": 120840
    },
    {
      "epoch": 0.25177083333333333,
      "grad_norm": 0.947693407535553,
      "learning_rate": 0.0002565181662227006,
      "loss": 4.0644,
      "step": 120850
    },
    {
      "epoch": 0.2517916666666667,
      "grad_norm": 0.9372751712799072,
      "learning_rate": 0.0002565112247861423,
      "loss": 3.9368,
      "step": 120860
    },
    {
      "epoch": 0.2518125,
      "grad_norm": 0.8435293436050415,
      "learning_rate": 0.0002565042828894976,
      "loss": 3.7475,
      "step": 120870
    },
    {
      "epoch": 0.25183333333333335,
      "grad_norm": 0.7374646663665771,
      "learning_rate": 0.0002564973405327965,
      "loss": 3.9464,
      "step": 120880
    },
    {
      "epoch": 0.25185416666666666,
      "grad_norm": 0.7349865436553955,
      "learning_rate": 0.0002564903977160692,
      "loss": 3.7989,
      "step": 120890
    },
    {
      "epoch": 0.251875,
      "grad_norm": 0.7688719630241394,
      "learning_rate": 0.00025648345443934537,
      "loss": 3.8215,
      "step": 120900
    },
    {
      "epoch": 0.2518958333333333,
      "grad_norm": 0.6803123950958252,
      "learning_rate": 0.00025647651070265524,
      "loss": 3.8269,
      "step": 120910
    },
    {
      "epoch": 0.2519166666666667,
      "grad_norm": 0.7390249371528625,
      "learning_rate": 0.0002564695665060287,
      "loss": 4.0176,
      "step": 120920
    },
    {
      "epoch": 0.2519375,
      "grad_norm": 0.8346250653266907,
      "learning_rate": 0.00025646262184949583,
      "loss": 3.909,
      "step": 120930
    },
    {
      "epoch": 0.25195833333333334,
      "grad_norm": 0.692915678024292,
      "learning_rate": 0.00025645567673308656,
      "loss": 3.8148,
      "step": 120940
    },
    {
      "epoch": 0.25197916666666664,
      "grad_norm": 0.8743824362754822,
      "learning_rate": 0.0002564487311568309,
      "loss": 3.9949,
      "step": 120950
    },
    {
      "epoch": 0.252,
      "grad_norm": 0.6724885702133179,
      "learning_rate": 0.0002564417851207588,
      "loss": 3.9243,
      "step": 120960
    },
    {
      "epoch": 0.25202083333333336,
      "grad_norm": 0.7604882121086121,
      "learning_rate": 0.0002564348386249004,
      "loss": 3.8941,
      "step": 120970
    },
    {
      "epoch": 0.25204166666666666,
      "grad_norm": 0.8701813220977783,
      "learning_rate": 0.00025642789166928554,
      "loss": 3.9283,
      "step": 120980
    },
    {
      "epoch": 0.2520625,
      "grad_norm": 0.7348516583442688,
      "learning_rate": 0.0002564209442539444,
      "loss": 3.9366,
      "step": 120990
    },
    {
      "epoch": 0.2520833333333333,
      "grad_norm": 0.8052191734313965,
      "learning_rate": 0.0002564139963789069,
      "loss": 3.6382,
      "step": 121000
    },
    {
      "epoch": 0.2520833333333333,
      "eval_loss": 4.246208667755127,
      "eval_runtime": 10.6645,
      "eval_samples_per_second": 0.938,
      "eval_steps_per_second": 0.281,
      "step": 121000
    },
    {
      "epoch": 0.2521041666666667,
      "grad_norm": 0.6820250153541565,
      "learning_rate": 0.000256407048044203,
      "loss": 4.0514,
      "step": 121010
    },
    {
      "epoch": 0.252125,
      "grad_norm": 0.7678816318511963,
      "learning_rate": 0.00025640009924986283,
      "loss": 3.8597,
      "step": 121020
    },
    {
      "epoch": 0.25214583333333335,
      "grad_norm": 0.7259016036987305,
      "learning_rate": 0.0002563931499959163,
      "loss": 3.661,
      "step": 121030
    },
    {
      "epoch": 0.25216666666666665,
      "grad_norm": 0.8856896162033081,
      "learning_rate": 0.0002563862002823935,
      "loss": 3.7957,
      "step": 121040
    },
    {
      "epoch": 0.2521875,
      "grad_norm": 0.8250541090965271,
      "learning_rate": 0.0002563792501093244,
      "loss": 3.7969,
      "step": 121050
    },
    {
      "epoch": 0.2522083333333333,
      "grad_norm": 0.8893131017684937,
      "learning_rate": 0.0002563722994767391,
      "loss": 4.2698,
      "step": 121060
    },
    {
      "epoch": 0.25222916666666667,
      "grad_norm": 0.6815268993377686,
      "learning_rate": 0.0002563653483846675,
      "loss": 3.9815,
      "step": 121070
    },
    {
      "epoch": 0.25225,
      "grad_norm": 1.1333216428756714,
      "learning_rate": 0.0002563583968331398,
      "loss": 3.9378,
      "step": 121080
    },
    {
      "epoch": 0.25227083333333333,
      "grad_norm": 0.7402220368385315,
      "learning_rate": 0.0002563514448221858,
      "loss": 3.9592,
      "step": 121090
    },
    {
      "epoch": 0.2522916666666667,
      "grad_norm": 0.747617244720459,
      "learning_rate": 0.00025634449235183577,
      "loss": 3.9641,
      "step": 121100
    },
    {
      "epoch": 0.2523125,
      "grad_norm": 0.7477725148200989,
      "learning_rate": 0.00025633753942211953,
      "loss": 3.9679,
      "step": 121110
    },
    {
      "epoch": 0.25233333333333335,
      "grad_norm": 0.7867988348007202,
      "learning_rate": 0.00025633058603306727,
      "loss": 4.0219,
      "step": 121120
    },
    {
      "epoch": 0.25235416666666666,
      "grad_norm": 0.764771044254303,
      "learning_rate": 0.00025632363218470897,
      "loss": 3.8568,
      "step": 121130
    },
    {
      "epoch": 0.252375,
      "grad_norm": 0.835657000541687,
      "learning_rate": 0.00025631667787707465,
      "loss": 3.7132,
      "step": 121140
    },
    {
      "epoch": 0.2523958333333333,
      "grad_norm": 0.795664370059967,
      "learning_rate": 0.00025630972311019436,
      "loss": 3.9105,
      "step": 121150
    },
    {
      "epoch": 0.2524166666666667,
      "grad_norm": 0.871938943862915,
      "learning_rate": 0.00025630276788409813,
      "loss": 3.8246,
      "step": 121160
    },
    {
      "epoch": 0.2524375,
      "grad_norm": 0.6908974647521973,
      "learning_rate": 0.00025629581219881604,
      "loss": 3.8606,
      "step": 121170
    },
    {
      "epoch": 0.25245833333333334,
      "grad_norm": 0.7372518181800842,
      "learning_rate": 0.0002562888560543781,
      "loss": 3.729,
      "step": 121180
    },
    {
      "epoch": 0.25247916666666664,
      "grad_norm": 0.7179344296455383,
      "learning_rate": 0.0002562818994508144,
      "loss": 3.9234,
      "step": 121190
    },
    {
      "epoch": 0.2525,
      "grad_norm": 0.7773375511169434,
      "learning_rate": 0.00025627494238815495,
      "loss": 3.8526,
      "step": 121200
    },
    {
      "epoch": 0.25252083333333336,
      "grad_norm": 0.7609033584594727,
      "learning_rate": 0.0002562679848664298,
      "loss": 3.9,
      "step": 121210
    },
    {
      "epoch": 0.25254166666666666,
      "grad_norm": 0.8296442031860352,
      "learning_rate": 0.00025626102688566907,
      "loss": 4.0644,
      "step": 121220
    },
    {
      "epoch": 0.2525625,
      "grad_norm": 0.9762999415397644,
      "learning_rate": 0.00025625406844590273,
      "loss": 3.8283,
      "step": 121230
    },
    {
      "epoch": 0.2525833333333333,
      "grad_norm": 0.9745132923126221,
      "learning_rate": 0.00025624710954716087,
      "loss": 3.9061,
      "step": 121240
    },
    {
      "epoch": 0.2526041666666667,
      "grad_norm": 0.7505293488502502,
      "learning_rate": 0.0002562401501894735,
      "loss": 3.8799,
      "step": 121250
    },
    {
      "epoch": 0.252625,
      "grad_norm": 0.8659419417381287,
      "learning_rate": 0.0002562331903728708,
      "loss": 3.9376,
      "step": 121260
    },
    {
      "epoch": 0.25264583333333335,
      "grad_norm": 0.7473782896995544,
      "learning_rate": 0.0002562262300973828,
      "loss": 3.9667,
      "step": 121270
    },
    {
      "epoch": 0.25266666666666665,
      "grad_norm": 0.8147486448287964,
      "learning_rate": 0.0002562192693630395,
      "loss": 4.0208,
      "step": 121280
    },
    {
      "epoch": 0.2526875,
      "grad_norm": 0.7939549088478088,
      "learning_rate": 0.000256212308169871,
      "loss": 4.0011,
      "step": 121290
    },
    {
      "epoch": 0.2527083333333333,
      "grad_norm": 0.7588374614715576,
      "learning_rate": 0.0002562053465179073,
      "loss": 3.9369,
      "step": 121300
    },
    {
      "epoch": 0.25272916666666667,
      "grad_norm": 0.8071586489677429,
      "learning_rate": 0.00025619838440717863,
      "loss": 3.8986,
      "step": 121310
    },
    {
      "epoch": 0.25275,
      "grad_norm": 0.7463551163673401,
      "learning_rate": 0.00025619142183771495,
      "loss": 3.9455,
      "step": 121320
    },
    {
      "epoch": 0.25277083333333333,
      "grad_norm": 0.7694637179374695,
      "learning_rate": 0.0002561844588095464,
      "loss": 3.8133,
      "step": 121330
    },
    {
      "epoch": 0.2527916666666667,
      "grad_norm": 0.7189456820487976,
      "learning_rate": 0.00025617749532270295,
      "loss": 3.8953,
      "step": 121340
    },
    {
      "epoch": 0.2528125,
      "grad_norm": 0.999331533908844,
      "learning_rate": 0.00025617053137721475,
      "loss": 3.7433,
      "step": 121350
    },
    {
      "epoch": 0.25283333333333335,
      "grad_norm": 0.7411221265792847,
      "learning_rate": 0.00025616356697311197,
      "loss": 4.0012,
      "step": 121360
    },
    {
      "epoch": 0.25285416666666666,
      "grad_norm": 0.764446496963501,
      "learning_rate": 0.0002561566021104245,
      "loss": 3.7173,
      "step": 121370
    },
    {
      "epoch": 0.252875,
      "grad_norm": 0.792792558670044,
      "learning_rate": 0.0002561496367891826,
      "loss": 3.7169,
      "step": 121380
    },
    {
      "epoch": 0.2528958333333333,
      "grad_norm": 0.7789154052734375,
      "learning_rate": 0.00025614267100941627,
      "loss": 3.7799,
      "step": 121390
    },
    {
      "epoch": 0.2529166666666667,
      "grad_norm": 0.701579749584198,
      "learning_rate": 0.00025613570477115555,
      "loss": 3.7476,
      "step": 121400
    },
    {
      "epoch": 0.2529375,
      "grad_norm": 0.7868003249168396,
      "learning_rate": 0.00025612873807443067,
      "loss": 3.8748,
      "step": 121410
    },
    {
      "epoch": 0.25295833333333334,
      "grad_norm": 0.6738545298576355,
      "learning_rate": 0.00025612177091927167,
      "loss": 3.9102,
      "step": 121420
    },
    {
      "epoch": 0.25297916666666664,
      "grad_norm": 0.785890519618988,
      "learning_rate": 0.0002561148033057085,
      "loss": 3.9156,
      "step": 121430
    },
    {
      "epoch": 0.253,
      "grad_norm": 0.7122005820274353,
      "learning_rate": 0.0002561078352337715,
      "loss": 3.8696,
      "step": 121440
    },
    {
      "epoch": 0.2530208333333333,
      "grad_norm": 0.8468227386474609,
      "learning_rate": 0.0002561008667034906,
      "loss": 4.0213,
      "step": 121450
    },
    {
      "epoch": 0.25304166666666666,
      "grad_norm": 0.8565512895584106,
      "learning_rate": 0.000256093897714896,
      "loss": 3.7186,
      "step": 121460
    },
    {
      "epoch": 0.2530625,
      "grad_norm": 0.8735508918762207,
      "learning_rate": 0.0002560869282680177,
      "loss": 3.8769,
      "step": 121470
    },
    {
      "epoch": 0.2530833333333333,
      "grad_norm": 0.8435592651367188,
      "learning_rate": 0.00025607995836288594,
      "loss": 3.864,
      "step": 121480
    },
    {
      "epoch": 0.2531041666666667,
      "grad_norm": 0.7849438190460205,
      "learning_rate": 0.0002560729879995307,
      "loss": 3.8788,
      "step": 121490
    },
    {
      "epoch": 0.253125,
      "grad_norm": 0.9178645610809326,
      "learning_rate": 0.00025606601717798207,
      "loss": 3.7566,
      "step": 121500
    },
    {
      "epoch": 0.25314583333333335,
      "grad_norm": 0.7460588812828064,
      "learning_rate": 0.0002560590458982703,
      "loss": 4.0017,
      "step": 121510
    },
    {
      "epoch": 0.25316666666666665,
      "grad_norm": 0.7886908650398254,
      "learning_rate": 0.00025605207416042546,
      "loss": 3.9789,
      "step": 121520
    },
    {
      "epoch": 0.2531875,
      "grad_norm": 0.7329227328300476,
      "learning_rate": 0.0002560451019644776,
      "loss": 3.7887,
      "step": 121530
    },
    {
      "epoch": 0.2532083333333333,
      "grad_norm": 0.8514488339424133,
      "learning_rate": 0.00025603812931045686,
      "loss": 3.7902,
      "step": 121540
    },
    {
      "epoch": 0.25322916666666667,
      "grad_norm": 0.7593547105789185,
      "learning_rate": 0.00025603115619839346,
      "loss": 3.8891,
      "step": 121550
    },
    {
      "epoch": 0.25325,
      "grad_norm": 0.8803709745407104,
      "learning_rate": 0.0002560241826283173,
      "loss": 3.8734,
      "step": 121560
    },
    {
      "epoch": 0.25327083333333333,
      "grad_norm": 0.759268581867218,
      "learning_rate": 0.00025601720860025874,
      "loss": 3.9089,
      "step": 121570
    },
    {
      "epoch": 0.2532916666666667,
      "grad_norm": 0.8182417154312134,
      "learning_rate": 0.00025601023411424783,
      "loss": 4.0116,
      "step": 121580
    },
    {
      "epoch": 0.2533125,
      "grad_norm": 0.8800984025001526,
      "learning_rate": 0.0002560032591703146,
      "loss": 3.998,
      "step": 121590
    },
    {
      "epoch": 0.25333333333333335,
      "grad_norm": 0.7970669865608215,
      "learning_rate": 0.00025599628376848926,
      "loss": 3.8529,
      "step": 121600
    },
    {
      "epoch": 0.25335416666666666,
      "grad_norm": 0.6910083889961243,
      "learning_rate": 0.0002559893079088019,
      "loss": 3.871,
      "step": 121610
    },
    {
      "epoch": 0.253375,
      "grad_norm": 1.010529637336731,
      "learning_rate": 0.00025598233159128273,
      "loss": 3.8961,
      "step": 121620
    },
    {
      "epoch": 0.2533958333333333,
      "grad_norm": 0.7742412090301514,
      "learning_rate": 0.00025597535481596185,
      "loss": 3.9687,
      "step": 121630
    },
    {
      "epoch": 0.2534166666666667,
      "grad_norm": 0.7229279279708862,
      "learning_rate": 0.00025596837758286935,
      "loss": 3.9386,
      "step": 121640
    },
    {
      "epoch": 0.2534375,
      "grad_norm": 0.7028369307518005,
      "learning_rate": 0.0002559613998920354,
      "loss": 3.937,
      "step": 121650
    },
    {
      "epoch": 0.25345833333333334,
      "grad_norm": 0.7590677738189697,
      "learning_rate": 0.0002559544217434902,
      "loss": 3.9575,
      "step": 121660
    },
    {
      "epoch": 0.25347916666666664,
      "grad_norm": 0.7592951655387878,
      "learning_rate": 0.0002559474431372638,
      "loss": 4.1414,
      "step": 121670
    },
    {
      "epoch": 0.2535,
      "grad_norm": 0.7253739237785339,
      "learning_rate": 0.00025594046407338635,
      "loss": 4.09,
      "step": 121680
    },
    {
      "epoch": 0.2535208333333333,
      "grad_norm": 0.756971538066864,
      "learning_rate": 0.00025593348455188805,
      "loss": 3.961,
      "step": 121690
    },
    {
      "epoch": 0.25354166666666667,
      "grad_norm": 0.7953006029129028,
      "learning_rate": 0.00025592650457279903,
      "loss": 3.8939,
      "step": 121700
    },
    {
      "epoch": 0.2535625,
      "grad_norm": 0.8033788800239563,
      "learning_rate": 0.0002559195241361494,
      "loss": 3.9133,
      "step": 121710
    },
    {
      "epoch": 0.2535833333333333,
      "grad_norm": 0.6636620759963989,
      "learning_rate": 0.00025591254324196943,
      "loss": 4.0028,
      "step": 121720
    },
    {
      "epoch": 0.2536041666666667,
      "grad_norm": 0.799985408782959,
      "learning_rate": 0.0002559055618902892,
      "loss": 3.8861,
      "step": 121730
    },
    {
      "epoch": 0.253625,
      "grad_norm": 0.7275139093399048,
      "learning_rate": 0.00025589858008113884,
      "loss": 4.0048,
      "step": 121740
    },
    {
      "epoch": 0.25364583333333335,
      "grad_norm": 0.7423003911972046,
      "learning_rate": 0.0002558915978145485,
      "loss": 3.7237,
      "step": 121750
    },
    {
      "epoch": 0.25366666666666665,
      "grad_norm": 0.8169599771499634,
      "learning_rate": 0.00025588461509054843,
      "loss": 3.8936,
      "step": 121760
    },
    {
      "epoch": 0.2536875,
      "grad_norm": 0.9925155639648438,
      "learning_rate": 0.00025587763190916866,
      "loss": 3.9105,
      "step": 121770
    },
    {
      "epoch": 0.2537083333333333,
      "grad_norm": 0.897539496421814,
      "learning_rate": 0.00025587064827043945,
      "loss": 4.0486,
      "step": 121780
    },
    {
      "epoch": 0.2537291666666667,
      "grad_norm": 0.8197892904281616,
      "learning_rate": 0.000255863664174391,
      "loss": 3.8992,
      "step": 121790
    },
    {
      "epoch": 0.25375,
      "grad_norm": 0.7355786561965942,
      "learning_rate": 0.0002558566796210534,
      "loss": 3.9267,
      "step": 121800
    },
    {
      "epoch": 0.25377083333333333,
      "grad_norm": 0.8426274061203003,
      "learning_rate": 0.00025584969461045677,
      "loss": 3.7266,
      "step": 121810
    },
    {
      "epoch": 0.2537916666666667,
      "grad_norm": 0.696071207523346,
      "learning_rate": 0.00025584270914263144,
      "loss": 3.866,
      "step": 121820
    },
    {
      "epoch": 0.2538125,
      "grad_norm": 0.8615666031837463,
      "learning_rate": 0.0002558357232176075,
      "loss": 3.7578,
      "step": 121830
    },
    {
      "epoch": 0.25383333333333336,
      "grad_norm": 0.8186092972755432,
      "learning_rate": 0.0002558287368354151,
      "loss": 4.0919,
      "step": 121840
    },
    {
      "epoch": 0.25385416666666666,
      "grad_norm": 0.7571873664855957,
      "learning_rate": 0.00025582174999608443,
      "loss": 3.8216,
      "step": 121850
    },
    {
      "epoch": 0.253875,
      "grad_norm": 0.7702712416648865,
      "learning_rate": 0.0002558147626996457,
      "loss": 3.7353,
      "step": 121860
    },
    {
      "epoch": 0.2538958333333333,
      "grad_norm": 0.9109023809432983,
      "learning_rate": 0.0002558077749461291,
      "loss": 3.7455,
      "step": 121870
    },
    {
      "epoch": 0.2539166666666667,
      "grad_norm": 0.6919938921928406,
      "learning_rate": 0.0002558007867355648,
      "loss": 4.0042,
      "step": 121880
    },
    {
      "epoch": 0.2539375,
      "grad_norm": 0.7383454442024231,
      "learning_rate": 0.000255793798067983,
      "loss": 3.9249,
      "step": 121890
    },
    {
      "epoch": 0.25395833333333334,
      "grad_norm": 0.8780270218849182,
      "learning_rate": 0.0002557868089434138,
      "loss": 3.8776,
      "step": 121900
    },
    {
      "epoch": 0.25397916666666664,
      "grad_norm": 0.8410590887069702,
      "learning_rate": 0.0002557798193618875,
      "loss": 3.8477,
      "step": 121910
    },
    {
      "epoch": 0.254,
      "grad_norm": 0.7239342331886292,
      "learning_rate": 0.0002557728293234343,
      "loss": 3.8128,
      "step": 121920
    },
    {
      "epoch": 0.2540208333333333,
      "grad_norm": 0.8340786099433899,
      "learning_rate": 0.0002557658388280842,
      "loss": 3.8515,
      "step": 121930
    },
    {
      "epoch": 0.25404166666666667,
      "grad_norm": 0.7492425441741943,
      "learning_rate": 0.0002557588478758677,
      "loss": 3.8772,
      "step": 121940
    },
    {
      "epoch": 0.2540625,
      "grad_norm": 0.7921425104141235,
      "learning_rate": 0.00025575185646681476,
      "loss": 3.7841,
      "step": 121950
    },
    {
      "epoch": 0.2540833333333333,
      "grad_norm": 0.8106657862663269,
      "learning_rate": 0.00025574486460095563,
      "loss": 3.8924,
      "step": 121960
    },
    {
      "epoch": 0.2541041666666667,
      "grad_norm": 0.7648448348045349,
      "learning_rate": 0.0002557378722783206,
      "loss": 3.861,
      "step": 121970
    },
    {
      "epoch": 0.254125,
      "grad_norm": 0.7433361411094666,
      "learning_rate": 0.0002557308794989398,
      "loss": 3.806,
      "step": 121980
    },
    {
      "epoch": 0.25414583333333335,
      "grad_norm": 0.796608030796051,
      "learning_rate": 0.00025572388626284346,
      "loss": 3.8557,
      "step": 121990
    },
    {
      "epoch": 0.25416666666666665,
      "grad_norm": 0.7360089421272278,
      "learning_rate": 0.00025571689257006177,
      "loss": 3.8568,
      "step": 122000
    },
    {
      "epoch": 0.25416666666666665,
      "eval_loss": 4.245745658874512,
      "eval_runtime": 12.15,
      "eval_samples_per_second": 0.823,
      "eval_steps_per_second": 0.247,
      "step": 122000
    },
    {
      "epoch": 0.2541875,
      "grad_norm": 0.8472940921783447,
      "learning_rate": 0.00025570989842062496,
      "loss": 3.8912,
      "step": 122010
    },
    {
      "epoch": 0.2542083333333333,
      "grad_norm": 0.9246723055839539,
      "learning_rate": 0.00025570290381456324,
      "loss": 3.9627,
      "step": 122020
    },
    {
      "epoch": 0.2542291666666667,
      "grad_norm": 0.6533786654472351,
      "learning_rate": 0.00025569590875190674,
      "loss": 3.8987,
      "step": 122030
    },
    {
      "epoch": 0.25425,
      "grad_norm": 0.7841284275054932,
      "learning_rate": 0.0002556889132326859,
      "loss": 4.0775,
      "step": 122040
    },
    {
      "epoch": 0.25427083333333333,
      "grad_norm": 0.748523473739624,
      "learning_rate": 0.00025568191725693063,
      "loss": 3.8426,
      "step": 122050
    },
    {
      "epoch": 0.2542916666666667,
      "grad_norm": 0.7868027091026306,
      "learning_rate": 0.0002556749208246714,
      "loss": 3.9721,
      "step": 122060
    },
    {
      "epoch": 0.2543125,
      "grad_norm": 0.7887148857116699,
      "learning_rate": 0.0002556679239359383,
      "loss": 3.9262,
      "step": 122070
    },
    {
      "epoch": 0.25433333333333336,
      "grad_norm": 0.7029684782028198,
      "learning_rate": 0.00025566092659076164,
      "loss": 3.9143,
      "step": 122080
    },
    {
      "epoch": 0.25435416666666666,
      "grad_norm": 0.7081499695777893,
      "learning_rate": 0.00025565392878917155,
      "loss": 3.8562,
      "step": 122090
    },
    {
      "epoch": 0.254375,
      "grad_norm": 0.8073983192443848,
      "learning_rate": 0.0002556469305311983,
      "loss": 3.9377,
      "step": 122100
    },
    {
      "epoch": 0.2543958333333333,
      "grad_norm": 0.7894736528396606,
      "learning_rate": 0.0002556399318168722,
      "loss": 3.9595,
      "step": 122110
    },
    {
      "epoch": 0.2544166666666667,
      "grad_norm": 0.9658898115158081,
      "learning_rate": 0.0002556329326462234,
      "loss": 3.9797,
      "step": 122120
    },
    {
      "epoch": 0.2544375,
      "grad_norm": 0.9060232043266296,
      "learning_rate": 0.00025562593301928205,
      "loss": 3.9695,
      "step": 122130
    },
    {
      "epoch": 0.25445833333333334,
      "grad_norm": 0.6842469573020935,
      "learning_rate": 0.0002556189329360786,
      "loss": 3.8601,
      "step": 122140
    },
    {
      "epoch": 0.25447916666666665,
      "grad_norm": 1.150064468383789,
      "learning_rate": 0.00025561193239664306,
      "loss": 3.9203,
      "step": 122150
    },
    {
      "epoch": 0.2545,
      "grad_norm": 0.9308398962020874,
      "learning_rate": 0.00025560493140100584,
      "loss": 3.8873,
      "step": 122160
    },
    {
      "epoch": 0.2545208333333333,
      "grad_norm": 0.7282404899597168,
      "learning_rate": 0.0002555979299491971,
      "loss": 3.79,
      "step": 122170
    },
    {
      "epoch": 0.25454166666666667,
      "grad_norm": 1.0073978900909424,
      "learning_rate": 0.00025559092804124713,
      "loss": 3.9872,
      "step": 122180
    },
    {
      "epoch": 0.2545625,
      "grad_norm": 0.9029121398925781,
      "learning_rate": 0.00025558392567718614,
      "loss": 3.7715,
      "step": 122190
    },
    {
      "epoch": 0.25458333333333333,
      "grad_norm": 0.8129239678382874,
      "learning_rate": 0.0002555769228570443,
      "loss": 3.6545,
      "step": 122200
    },
    {
      "epoch": 0.2546041666666667,
      "grad_norm": 0.7182120084762573,
      "learning_rate": 0.00025556991958085204,
      "loss": 3.8561,
      "step": 122210
    },
    {
      "epoch": 0.254625,
      "grad_norm": 1.0001956224441528,
      "learning_rate": 0.00025556291584863947,
      "loss": 3.8014,
      "step": 122220
    },
    {
      "epoch": 0.25464583333333335,
      "grad_norm": 0.7054966688156128,
      "learning_rate": 0.0002555559116604369,
      "loss": 4.0192,
      "step": 122230
    },
    {
      "epoch": 0.25466666666666665,
      "grad_norm": 0.7987936735153198,
      "learning_rate": 0.00025554890701627456,
      "loss": 3.925,
      "step": 122240
    },
    {
      "epoch": 0.2546875,
      "grad_norm": 0.828335702419281,
      "learning_rate": 0.00025554190191618277,
      "loss": 3.9721,
      "step": 122250
    },
    {
      "epoch": 0.2547083333333333,
      "grad_norm": 0.9285962581634521,
      "learning_rate": 0.0002555348963601917,
      "loss": 3.7932,
      "step": 122260
    },
    {
      "epoch": 0.2547291666666667,
      "grad_norm": 0.763226330280304,
      "learning_rate": 0.00025552789034833165,
      "loss": 4.0695,
      "step": 122270
    },
    {
      "epoch": 0.25475,
      "grad_norm": 0.767857015132904,
      "learning_rate": 0.0002555208838806329,
      "loss": 3.8776,
      "step": 122280
    },
    {
      "epoch": 0.25477083333333334,
      "grad_norm": 0.7867432236671448,
      "learning_rate": 0.0002555138769571257,
      "loss": 3.9555,
      "step": 122290
    },
    {
      "epoch": 0.2547916666666667,
      "grad_norm": 0.9079267978668213,
      "learning_rate": 0.00025550686957784025,
      "loss": 3.9725,
      "step": 122300
    },
    {
      "epoch": 0.2548125,
      "grad_norm": 0.7566112279891968,
      "learning_rate": 0.000255499861742807,
      "loss": 3.8875,
      "step": 122310
    },
    {
      "epoch": 0.25483333333333336,
      "grad_norm": 0.7526160478591919,
      "learning_rate": 0.000255492853452056,
      "loss": 3.7702,
      "step": 122320
    },
    {
      "epoch": 0.25485416666666666,
      "grad_norm": 0.674804151058197,
      "learning_rate": 0.0002554858447056177,
      "loss": 3.9145,
      "step": 122330
    },
    {
      "epoch": 0.254875,
      "grad_norm": 0.8304701447486877,
      "learning_rate": 0.0002554788355035223,
      "loss": 3.8947,
      "step": 122340
    },
    {
      "epoch": 0.2548958333333333,
      "grad_norm": 0.7669332027435303,
      "learning_rate": 0.00025547182584580006,
      "loss": 4.0562,
      "step": 122350
    },
    {
      "epoch": 0.2549166666666667,
      "grad_norm": 0.9039373993873596,
      "learning_rate": 0.0002554648157324813,
      "loss": 3.9634,
      "step": 122360
    },
    {
      "epoch": 0.2549375,
      "grad_norm": 1.0647691488265991,
      "learning_rate": 0.0002554578051635963,
      "loss": 3.8522,
      "step": 122370
    },
    {
      "epoch": 0.25495833333333334,
      "grad_norm": 0.7994902729988098,
      "learning_rate": 0.00025545079413917527,
      "loss": 3.8191,
      "step": 122380
    },
    {
      "epoch": 0.25497916666666665,
      "grad_norm": 0.8157479763031006,
      "learning_rate": 0.0002554437826592486,
      "loss": 3.9087,
      "step": 122390
    },
    {
      "epoch": 0.255,
      "grad_norm": 0.7394007444381714,
      "learning_rate": 0.00025543677072384645,
      "loss": 3.8407,
      "step": 122400
    },
    {
      "epoch": 0.2550208333333333,
      "grad_norm": 0.7095553278923035,
      "learning_rate": 0.00025542975833299926,
      "loss": 3.9824,
      "step": 122410
    },
    {
      "epoch": 0.25504166666666667,
      "grad_norm": 0.7835497856140137,
      "learning_rate": 0.0002554227454867372,
      "loss": 4.0136,
      "step": 122420
    },
    {
      "epoch": 0.2550625,
      "grad_norm": 0.7826550006866455,
      "learning_rate": 0.0002554157321850906,
      "loss": 3.962,
      "step": 122430
    },
    {
      "epoch": 0.25508333333333333,
      "grad_norm": 0.8854622840881348,
      "learning_rate": 0.00025540871842808985,
      "loss": 4.0852,
      "step": 122440
    },
    {
      "epoch": 0.2551041666666667,
      "grad_norm": 0.7793246507644653,
      "learning_rate": 0.0002554017042157651,
      "loss": 3.7513,
      "step": 122450
    },
    {
      "epoch": 0.255125,
      "grad_norm": 0.8006263971328735,
      "learning_rate": 0.0002553946895481467,
      "loss": 3.9724,
      "step": 122460
    },
    {
      "epoch": 0.25514583333333335,
      "grad_norm": 0.6950088143348694,
      "learning_rate": 0.00025538767442526497,
      "loss": 3.9372,
      "step": 122470
    },
    {
      "epoch": 0.25516666666666665,
      "grad_norm": 0.7269414663314819,
      "learning_rate": 0.0002553806588471502,
      "loss": 3.8277,
      "step": 122480
    },
    {
      "epoch": 0.2551875,
      "grad_norm": 0.7935929298400879,
      "learning_rate": 0.0002553736428138327,
      "loss": 3.77,
      "step": 122490
    },
    {
      "epoch": 0.2552083333333333,
      "grad_norm": 0.7291639447212219,
      "learning_rate": 0.0002553666263253428,
      "loss": 3.7836,
      "step": 122500
    },
    {
      "epoch": 0.2552291666666667,
      "grad_norm": 0.6680218577384949,
      "learning_rate": 0.00025535960938171076,
      "loss": 3.8837,
      "step": 122510
    },
    {
      "epoch": 0.25525,
      "grad_norm": 0.7831098437309265,
      "learning_rate": 0.0002553525919829669,
      "loss": 3.8234,
      "step": 122520
    },
    {
      "epoch": 0.25527083333333334,
      "grad_norm": 0.9405339360237122,
      "learning_rate": 0.00025534557412914156,
      "loss": 3.9128,
      "step": 122530
    },
    {
      "epoch": 0.25529166666666664,
      "grad_norm": 0.8431889414787292,
      "learning_rate": 0.00025533855582026506,
      "loss": 3.9239,
      "step": 122540
    },
    {
      "epoch": 0.2553125,
      "grad_norm": 0.8103720545768738,
      "learning_rate": 0.0002553315370563676,
      "loss": 3.8447,
      "step": 122550
    },
    {
      "epoch": 0.25533333333333336,
      "grad_norm": 0.7310870289802551,
      "learning_rate": 0.0002553245178374797,
      "loss": 3.9477,
      "step": 122560
    },
    {
      "epoch": 0.25535416666666666,
      "grad_norm": 0.798087477684021,
      "learning_rate": 0.0002553174981636315,
      "loss": 3.8384,
      "step": 122570
    },
    {
      "epoch": 0.255375,
      "grad_norm": 0.9288086295127869,
      "learning_rate": 0.0002553104780348534,
      "loss": 3.7052,
      "step": 122580
    },
    {
      "epoch": 0.2553958333333333,
      "grad_norm": 0.7807664275169373,
      "learning_rate": 0.0002553034574511758,
      "loss": 3.7648,
      "step": 122590
    },
    {
      "epoch": 0.2554166666666667,
      "grad_norm": 0.7199801802635193,
      "learning_rate": 0.00025529643641262887,
      "loss": 3.9649,
      "step": 122600
    },
    {
      "epoch": 0.2554375,
      "grad_norm": 0.7428087592124939,
      "learning_rate": 0.0002552894149192431,
      "loss": 3.7378,
      "step": 122610
    },
    {
      "epoch": 0.25545833333333334,
      "grad_norm": 0.8273755311965942,
      "learning_rate": 0.0002552823929710486,
      "loss": 3.8587,
      "step": 122620
    },
    {
      "epoch": 0.25547916666666665,
      "grad_norm": 0.7651100158691406,
      "learning_rate": 0.0002552753705680759,
      "loss": 3.8999,
      "step": 122630
    },
    {
      "epoch": 0.2555,
      "grad_norm": 0.7891558408737183,
      "learning_rate": 0.0002552683477103553,
      "loss": 3.7939,
      "step": 122640
    },
    {
      "epoch": 0.2555208333333333,
      "grad_norm": 0.7235525846481323,
      "learning_rate": 0.00025526132439791707,
      "loss": 3.9335,
      "step": 122650
    },
    {
      "epoch": 0.25554166666666667,
      "grad_norm": 0.8479325771331787,
      "learning_rate": 0.0002552543006307916,
      "loss": 3.8592,
      "step": 122660
    },
    {
      "epoch": 0.2555625,
      "grad_norm": 0.8167728185653687,
      "learning_rate": 0.0002552472764090092,
      "loss": 3.9896,
      "step": 122670
    },
    {
      "epoch": 0.25558333333333333,
      "grad_norm": 0.7632333040237427,
      "learning_rate": 0.0002552402517326002,
      "loss": 3.9471,
      "step": 122680
    },
    {
      "epoch": 0.2556041666666667,
      "grad_norm": 0.6817264556884766,
      "learning_rate": 0.000255233226601595,
      "loss": 3.8339,
      "step": 122690
    },
    {
      "epoch": 0.255625,
      "grad_norm": 0.6638977527618408,
      "learning_rate": 0.000255226201016024,
      "loss": 3.7955,
      "step": 122700
    },
    {
      "epoch": 0.25564583333333335,
      "grad_norm": 0.8164833188056946,
      "learning_rate": 0.0002552191749759173,
      "loss": 3.9719,
      "step": 122710
    },
    {
      "epoch": 0.25566666666666665,
      "grad_norm": 0.7554192543029785,
      "learning_rate": 0.00025521214848130553,
      "loss": 3.7683,
      "step": 122720
    },
    {
      "epoch": 0.2556875,
      "grad_norm": 0.862862229347229,
      "learning_rate": 0.0002552051215322189,
      "loss": 4.042,
      "step": 122730
    },
    {
      "epoch": 0.2557083333333333,
      "grad_norm": 0.7576764822006226,
      "learning_rate": 0.0002551980941286878,
      "loss": 3.8817,
      "step": 122740
    },
    {
      "epoch": 0.2557291666666667,
      "grad_norm": 0.7268933653831482,
      "learning_rate": 0.0002551910662707425,
      "loss": 3.8959,
      "step": 122750
    },
    {
      "epoch": 0.25575,
      "grad_norm": 0.7075655460357666,
      "learning_rate": 0.00025518403795841353,
      "loss": 3.8649,
      "step": 122760
    },
    {
      "epoch": 0.25577083333333334,
      "grad_norm": 0.7173409461975098,
      "learning_rate": 0.0002551770091917311,
      "loss": 3.7997,
      "step": 122770
    },
    {
      "epoch": 0.25579166666666664,
      "grad_norm": 0.7798449397087097,
      "learning_rate": 0.00025516997997072563,
      "loss": 3.8805,
      "step": 122780
    },
    {
      "epoch": 0.2558125,
      "grad_norm": 0.8994219303131104,
      "learning_rate": 0.00025516295029542744,
      "loss": 3.8036,
      "step": 122790
    },
    {
      "epoch": 0.25583333333333336,
      "grad_norm": 0.7527036666870117,
      "learning_rate": 0.00025515592016586697,
      "loss": 3.9481,
      "step": 122800
    },
    {
      "epoch": 0.25585416666666666,
      "grad_norm": 0.7440403699874878,
      "learning_rate": 0.0002551488895820745,
      "loss": 4.0159,
      "step": 122810
    },
    {
      "epoch": 0.255875,
      "grad_norm": 0.996717095375061,
      "learning_rate": 0.00025514185854408057,
      "loss": 3.8228,
      "step": 122820
    },
    {
      "epoch": 0.2558958333333333,
      "grad_norm": 0.7742910385131836,
      "learning_rate": 0.0002551348270519153,
      "loss": 4.0371,
      "step": 122830
    },
    {
      "epoch": 0.2559166666666667,
      "grad_norm": 0.7035742998123169,
      "learning_rate": 0.00025512779510560924,
      "loss": 3.929,
      "step": 122840
    },
    {
      "epoch": 0.2559375,
      "grad_norm": 0.7828935384750366,
      "learning_rate": 0.00025512076270519274,
      "loss": 3.8812,
      "step": 122850
    },
    {
      "epoch": 0.25595833333333334,
      "grad_norm": 0.8394277095794678,
      "learning_rate": 0.0002551137298506961,
      "loss": 4.0769,
      "step": 122860
    },
    {
      "epoch": 0.25597916666666665,
      "grad_norm": 0.8173779845237732,
      "learning_rate": 0.0002551066965421498,
      "loss": 3.8619,
      "step": 122870
    },
    {
      "epoch": 0.256,
      "grad_norm": 0.783973217010498,
      "learning_rate": 0.0002550996627795842,
      "loss": 3.8231,
      "step": 122880
    },
    {
      "epoch": 0.2560208333333333,
      "grad_norm": 0.7930118441581726,
      "learning_rate": 0.0002550926285630296,
      "loss": 3.8759,
      "step": 122890
    },
    {
      "epoch": 0.25604166666666667,
      "grad_norm": 0.7267900109291077,
      "learning_rate": 0.00025508559389251644,
      "loss": 3.9581,
      "step": 122900
    },
    {
      "epoch": 0.2560625,
      "grad_norm": 0.7776886224746704,
      "learning_rate": 0.0002550785587680751,
      "loss": 3.8788,
      "step": 122910
    },
    {
      "epoch": 0.25608333333333333,
      "grad_norm": 0.6874433159828186,
      "learning_rate": 0.00025507152318973605,
      "loss": 3.9295,
      "step": 122920
    },
    {
      "epoch": 0.2561041666666667,
      "grad_norm": 0.6802135705947876,
      "learning_rate": 0.0002550644871575296,
      "loss": 3.9914,
      "step": 122930
    },
    {
      "epoch": 0.256125,
      "grad_norm": 0.7601392269134521,
      "learning_rate": 0.0002550574506714861,
      "loss": 3.8849,
      "step": 122940
    },
    {
      "epoch": 0.25614583333333335,
      "grad_norm": 0.6520267128944397,
      "learning_rate": 0.000255050413731636,
      "loss": 3.8921,
      "step": 122950
    },
    {
      "epoch": 0.25616666666666665,
      "grad_norm": 0.8737296462059021,
      "learning_rate": 0.0002550433763380098,
      "loss": 3.7735,
      "step": 122960
    },
    {
      "epoch": 0.2561875,
      "grad_norm": 0.7600423693656921,
      "learning_rate": 0.00025503633849063763,
      "loss": 4.1348,
      "step": 122970
    },
    {
      "epoch": 0.2562083333333333,
      "grad_norm": 0.7844699621200562,
      "learning_rate": 0.0002550293001895501,
      "loss": 4.0016,
      "step": 122980
    },
    {
      "epoch": 0.2562291666666667,
      "grad_norm": 0.8737956285476685,
      "learning_rate": 0.0002550222614347777,
      "loss": 4.0822,
      "step": 122990
    },
    {
      "epoch": 0.25625,
      "grad_norm": 0.8076602220535278,
      "learning_rate": 0.00025501522222635053,
      "loss": 3.9708,
      "step": 123000
    },
    {
      "epoch": 0.25625,
      "eval_loss": 4.264017581939697,
      "eval_runtime": 10.1701,
      "eval_samples_per_second": 0.983,
      "eval_steps_per_second": 0.295,
      "step": 123000
    },
    {
      "epoch": 0.25627083333333334,
      "grad_norm": 0.6663829684257507,
      "learning_rate": 0.00025500818256429927,
      "loss": 3.8824,
      "step": 123010
    },
    {
      "epoch": 0.25629166666666664,
      "grad_norm": 0.7565566301345825,
      "learning_rate": 0.0002550011424486542,
      "loss": 3.842,
      "step": 123020
    },
    {
      "epoch": 0.2563125,
      "grad_norm": 0.6882497668266296,
      "learning_rate": 0.0002549941018794458,
      "loss": 3.7493,
      "step": 123030
    },
    {
      "epoch": 0.25633333333333336,
      "grad_norm": 0.7661148905754089,
      "learning_rate": 0.00025498706085670436,
      "loss": 3.904,
      "step": 123040
    },
    {
      "epoch": 0.25635416666666666,
      "grad_norm": 0.8320885300636292,
      "learning_rate": 0.00025498001938046037,
      "loss": 3.8333,
      "step": 123050
    },
    {
      "epoch": 0.256375,
      "grad_norm": 0.8629175424575806,
      "learning_rate": 0.0002549729774507443,
      "loss": 3.8462,
      "step": 123060
    },
    {
      "epoch": 0.2563958333333333,
      "grad_norm": 0.7744255065917969,
      "learning_rate": 0.0002549659350675865,
      "loss": 3.8889,
      "step": 123070
    },
    {
      "epoch": 0.2564166666666667,
      "grad_norm": 0.7551950216293335,
      "learning_rate": 0.0002549588922310175,
      "loss": 3.8855,
      "step": 123080
    },
    {
      "epoch": 0.2564375,
      "grad_norm": 0.7434254884719849,
      "learning_rate": 0.0002549518489410675,
      "loss": 3.7741,
      "step": 123090
    },
    {
      "epoch": 0.25645833333333334,
      "grad_norm": 0.7633050084114075,
      "learning_rate": 0.0002549448051977671,
      "loss": 3.9432,
      "step": 123100
    },
    {
      "epoch": 0.25647916666666665,
      "grad_norm": 0.8874149322509766,
      "learning_rate": 0.0002549377610011467,
      "loss": 3.8882,
      "step": 123110
    },
    {
      "epoch": 0.2565,
      "grad_norm": 0.7932197451591492,
      "learning_rate": 0.0002549307163512367,
      "loss": 3.9249,
      "step": 123120
    },
    {
      "epoch": 0.2565208333333333,
      "grad_norm": 0.7309422492980957,
      "learning_rate": 0.0002549236712480675,
      "loss": 3.9342,
      "step": 123130
    },
    {
      "epoch": 0.25654166666666667,
      "grad_norm": 0.7593932151794434,
      "learning_rate": 0.0002549166256916696,
      "loss": 3.7309,
      "step": 123140
    },
    {
      "epoch": 0.2565625,
      "grad_norm": 0.7775632739067078,
      "learning_rate": 0.00025490957968207344,
      "loss": 3.8367,
      "step": 123150
    },
    {
      "epoch": 0.25658333333333333,
      "grad_norm": 0.8250019550323486,
      "learning_rate": 0.00025490253321930936,
      "loss": 3.93,
      "step": 123160
    },
    {
      "epoch": 0.2566041666666667,
      "grad_norm": 0.7543537616729736,
      "learning_rate": 0.0002548954863034079,
      "loss": 3.8231,
      "step": 123170
    },
    {
      "epoch": 0.256625,
      "grad_norm": 0.7579241991043091,
      "learning_rate": 0.00025488843893439945,
      "loss": 3.8402,
      "step": 123180
    },
    {
      "epoch": 0.25664583333333335,
      "grad_norm": 0.7764449715614319,
      "learning_rate": 0.00025488139111231445,
      "loss": 3.8037,
      "step": 123190
    },
    {
      "epoch": 0.25666666666666665,
      "grad_norm": 0.7625073194503784,
      "learning_rate": 0.0002548743428371834,
      "loss": 3.8367,
      "step": 123200
    },
    {
      "epoch": 0.2566875,
      "grad_norm": 0.7020337581634521,
      "learning_rate": 0.00025486729410903664,
      "loss": 3.7437,
      "step": 123210
    },
    {
      "epoch": 0.2567083333333333,
      "grad_norm": 0.8053200244903564,
      "learning_rate": 0.0002548602449279047,
      "loss": 4.1377,
      "step": 123220
    },
    {
      "epoch": 0.2567291666666667,
      "grad_norm": 0.7035488486289978,
      "learning_rate": 0.00025485319529381804,
      "loss": 3.5944,
      "step": 123230
    },
    {
      "epoch": 0.25675,
      "grad_norm": 0.8079847693443298,
      "learning_rate": 0.00025484614520680706,
      "loss": 3.9193,
      "step": 123240
    },
    {
      "epoch": 0.25677083333333334,
      "grad_norm": 0.780421257019043,
      "learning_rate": 0.0002548390946669022,
      "loss": 3.9983,
      "step": 123250
    },
    {
      "epoch": 0.25679166666666664,
      "grad_norm": 0.7805395126342773,
      "learning_rate": 0.000254832043674134,
      "loss": 3.8802,
      "step": 123260
    },
    {
      "epoch": 0.2568125,
      "grad_norm": 0.9617951512336731,
      "learning_rate": 0.00025482499222853286,
      "loss": 3.8371,
      "step": 123270
    },
    {
      "epoch": 0.25683333333333336,
      "grad_norm": 0.7822078466415405,
      "learning_rate": 0.00025481794033012926,
      "loss": 4.0892,
      "step": 123280
    },
    {
      "epoch": 0.25685416666666666,
      "grad_norm": 0.7932943105697632,
      "learning_rate": 0.0002548108879789536,
      "loss": 4.0008,
      "step": 123290
    },
    {
      "epoch": 0.256875,
      "grad_norm": 0.6648269891738892,
      "learning_rate": 0.0002548038351750364,
      "loss": 3.9107,
      "step": 123300
    },
    {
      "epoch": 0.2568958333333333,
      "grad_norm": 0.7559646964073181,
      "learning_rate": 0.0002547967819184081,
      "loss": 3.9227,
      "step": 123310
    },
    {
      "epoch": 0.2569166666666667,
      "grad_norm": 0.8561594486236572,
      "learning_rate": 0.00025478972820909925,
      "loss": 3.8662,
      "step": 123320
    },
    {
      "epoch": 0.2569375,
      "grad_norm": 0.7902250289916992,
      "learning_rate": 0.0002547826740471402,
      "loss": 3.9132,
      "step": 123330
    },
    {
      "epoch": 0.25695833333333334,
      "grad_norm": 0.6709364056587219,
      "learning_rate": 0.0002547756194325615,
      "loss": 3.7501,
      "step": 123340
    },
    {
      "epoch": 0.25697916666666665,
      "grad_norm": 0.6332309246063232,
      "learning_rate": 0.00025476856436539355,
      "loss": 3.9666,
      "step": 123350
    },
    {
      "epoch": 0.257,
      "grad_norm": 0.7513301968574524,
      "learning_rate": 0.00025476150884566693,
      "loss": 3.8969,
      "step": 123360
    },
    {
      "epoch": 0.2570208333333333,
      "grad_norm": 0.7570653557777405,
      "learning_rate": 0.00025475445287341205,
      "loss": 3.8432,
      "step": 123370
    },
    {
      "epoch": 0.25704166666666667,
      "grad_norm": 0.9477332234382629,
      "learning_rate": 0.0002547473964486594,
      "loss": 3.6082,
      "step": 123380
    },
    {
      "epoch": 0.2570625,
      "grad_norm": 0.7053232192993164,
      "learning_rate": 0.0002547403395714394,
      "loss": 3.9389,
      "step": 123390
    },
    {
      "epoch": 0.25708333333333333,
      "grad_norm": 0.7853904366493225,
      "learning_rate": 0.00025473328224178267,
      "loss": 4.0302,
      "step": 123400
    },
    {
      "epoch": 0.2571041666666667,
      "grad_norm": 0.6600403785705566,
      "learning_rate": 0.00025472622445971957,
      "loss": 3.9181,
      "step": 123410
    },
    {
      "epoch": 0.257125,
      "grad_norm": 0.6581685543060303,
      "learning_rate": 0.00025471916622528065,
      "loss": 4.0294,
      "step": 123420
    },
    {
      "epoch": 0.25714583333333335,
      "grad_norm": 0.9002470374107361,
      "learning_rate": 0.0002547121075384964,
      "loss": 3.7531,
      "step": 123430
    },
    {
      "epoch": 0.25716666666666665,
      "grad_norm": 0.7525268197059631,
      "learning_rate": 0.00025470504839939726,
      "loss": 3.8562,
      "step": 123440
    },
    {
      "epoch": 0.2571875,
      "grad_norm": 0.7973129153251648,
      "learning_rate": 0.00025469798880801373,
      "loss": 3.8493,
      "step": 123450
    },
    {
      "epoch": 0.2572083333333333,
      "grad_norm": 0.7802343964576721,
      "learning_rate": 0.0002546909287643764,
      "loss": 3.8465,
      "step": 123460
    },
    {
      "epoch": 0.2572291666666667,
      "grad_norm": 0.816387951374054,
      "learning_rate": 0.0002546838682685157,
      "loss": 4.0178,
      "step": 123470
    },
    {
      "epoch": 0.25725,
      "grad_norm": 0.9299994707107544,
      "learning_rate": 0.00025467680732046207,
      "loss": 3.9357,
      "step": 123480
    },
    {
      "epoch": 0.25727083333333334,
      "grad_norm": 1.0197807550430298,
      "learning_rate": 0.00025466974592024605,
      "loss": 3.8494,
      "step": 123490
    },
    {
      "epoch": 0.25729166666666664,
      "grad_norm": 0.7756060361862183,
      "learning_rate": 0.00025466268406789826,
      "loss": 3.8866,
      "step": 123500
    },
    {
      "epoch": 0.2573125,
      "grad_norm": 1.6386724710464478,
      "learning_rate": 0.00025465562176344906,
      "loss": 3.9226,
      "step": 123510
    },
    {
      "epoch": 0.25733333333333336,
      "grad_norm": 0.9133806824684143,
      "learning_rate": 0.00025464855900692897,
      "loss": 4.0266,
      "step": 123520
    },
    {
      "epoch": 0.25735416666666666,
      "grad_norm": 0.901220440864563,
      "learning_rate": 0.0002546414957983685,
      "loss": 3.8631,
      "step": 123530
    },
    {
      "epoch": 0.257375,
      "grad_norm": 0.8609871864318848,
      "learning_rate": 0.00025463443213779826,
      "loss": 3.9756,
      "step": 123540
    },
    {
      "epoch": 0.2573958333333333,
      "grad_norm": 0.867235541343689,
      "learning_rate": 0.0002546273680252486,
      "loss": 3.9754,
      "step": 123550
    },
    {
      "epoch": 0.2574166666666667,
      "grad_norm": 0.7624629139900208,
      "learning_rate": 0.00025462030346075023,
      "loss": 3.8603,
      "step": 123560
    },
    {
      "epoch": 0.2574375,
      "grad_norm": 0.8174720406532288,
      "learning_rate": 0.0002546132384443335,
      "loss": 3.8073,
      "step": 123570
    },
    {
      "epoch": 0.25745833333333334,
      "grad_norm": 0.8174784183502197,
      "learning_rate": 0.000254606172976029,
      "loss": 3.7609,
      "step": 123580
    },
    {
      "epoch": 0.25747916666666665,
      "grad_norm": 0.7714561223983765,
      "learning_rate": 0.0002545991070558672,
      "loss": 3.8029,
      "step": 123590
    },
    {
      "epoch": 0.2575,
      "grad_norm": 0.7413188219070435,
      "learning_rate": 0.00025459204068387873,
      "loss": 3.9365,
      "step": 123600
    },
    {
      "epoch": 0.2575208333333333,
      "grad_norm": 0.7673822045326233,
      "learning_rate": 0.00025458497386009405,
      "loss": 3.6658,
      "step": 123610
    },
    {
      "epoch": 0.25754166666666667,
      "grad_norm": 0.721879243850708,
      "learning_rate": 0.00025457790658454363,
      "loss": 3.8931,
      "step": 123620
    },
    {
      "epoch": 0.2575625,
      "grad_norm": 0.68436199426651,
      "learning_rate": 0.00025457083885725804,
      "loss": 3.8777,
      "step": 123630
    },
    {
      "epoch": 0.25758333333333333,
      "grad_norm": 1.0688868761062622,
      "learning_rate": 0.00025456377067826786,
      "loss": 3.791,
      "step": 123640
    },
    {
      "epoch": 0.2576041666666667,
      "grad_norm": 1.0485574007034302,
      "learning_rate": 0.00025455670204760356,
      "loss": 3.9403,
      "step": 123650
    },
    {
      "epoch": 0.257625,
      "grad_norm": 0.6870851516723633,
      "learning_rate": 0.0002545496329652957,
      "loss": 3.8867,
      "step": 123660
    },
    {
      "epoch": 0.25764583333333335,
      "grad_norm": 0.7324002981185913,
      "learning_rate": 0.0002545425634313748,
      "loss": 3.9806,
      "step": 123670
    },
    {
      "epoch": 0.25766666666666665,
      "grad_norm": 0.702763557434082,
      "learning_rate": 0.0002545354934458714,
      "loss": 3.8342,
      "step": 123680
    },
    {
      "epoch": 0.2576875,
      "grad_norm": 0.7403936982154846,
      "learning_rate": 0.0002545284230088161,
      "loss": 3.966,
      "step": 123690
    },
    {
      "epoch": 0.2577083333333333,
      "grad_norm": 0.6795753240585327,
      "learning_rate": 0.0002545213521202393,
      "loss": 4.0627,
      "step": 123700
    },
    {
      "epoch": 0.2577291666666667,
      "grad_norm": 0.8602972030639648,
      "learning_rate": 0.00025451428078017175,
      "loss": 3.707,
      "step": 123710
    },
    {
      "epoch": 0.25775,
      "grad_norm": 0.779268205165863,
      "learning_rate": 0.0002545072089886438,
      "loss": 3.7883,
      "step": 123720
    },
    {
      "epoch": 0.25777083333333334,
      "grad_norm": 0.8189942836761475,
      "learning_rate": 0.000254500136745686,
      "loss": 3.8835,
      "step": 123730
    },
    {
      "epoch": 0.25779166666666664,
      "grad_norm": 0.7075591683387756,
      "learning_rate": 0.0002544930640513291,
      "loss": 3.7985,
      "step": 123740
    },
    {
      "epoch": 0.2578125,
      "grad_norm": 0.8226215243339539,
      "learning_rate": 0.0002544859909056035,
      "loss": 3.7181,
      "step": 123750
    },
    {
      "epoch": 0.25783333333333336,
      "grad_norm": 0.8728930950164795,
      "learning_rate": 0.0002544789173085397,
      "loss": 3.8686,
      "step": 123760
    },
    {
      "epoch": 0.25785416666666666,
      "grad_norm": 0.7152746915817261,
      "learning_rate": 0.0002544718432601684,
      "loss": 3.7939,
      "step": 123770
    },
    {
      "epoch": 0.257875,
      "grad_norm": 0.720248281955719,
      "learning_rate": 0.00025446476876052007,
      "loss": 4.0391,
      "step": 123780
    },
    {
      "epoch": 0.2578958333333333,
      "grad_norm": 0.8238843679428101,
      "learning_rate": 0.00025445769380962535,
      "loss": 3.8549,
      "step": 123790
    },
    {
      "epoch": 0.2579166666666667,
      "grad_norm": 0.7220585346221924,
      "learning_rate": 0.00025445061840751463,
      "loss": 3.8681,
      "step": 123800
    },
    {
      "epoch": 0.2579375,
      "grad_norm": 1.2090181112289429,
      "learning_rate": 0.00025444354255421865,
      "loss": 4.0841,
      "step": 123810
    },
    {
      "epoch": 0.25795833333333335,
      "grad_norm": 0.6954115033149719,
      "learning_rate": 0.0002544364662497679,
      "loss": 3.9127,
      "step": 123820
    },
    {
      "epoch": 0.25797916666666665,
      "grad_norm": 0.724224328994751,
      "learning_rate": 0.00025442938949419295,
      "loss": 3.8559,
      "step": 123830
    },
    {
      "epoch": 0.258,
      "grad_norm": 0.8149754405021667,
      "learning_rate": 0.00025442231228752437,
      "loss": 4.0301,
      "step": 123840
    },
    {
      "epoch": 0.2580208333333333,
      "grad_norm": 0.7905198335647583,
      "learning_rate": 0.0002544152346297927,
      "loss": 3.8119,
      "step": 123850
    },
    {
      "epoch": 0.25804166666666667,
      "grad_norm": 0.737500011920929,
      "learning_rate": 0.0002544081565210286,
      "loss": 3.8361,
      "step": 123860
    },
    {
      "epoch": 0.2580625,
      "grad_norm": 0.912706732749939,
      "learning_rate": 0.0002544010779612626,
      "loss": 3.9399,
      "step": 123870
    },
    {
      "epoch": 0.25808333333333333,
      "grad_norm": 0.8263036012649536,
      "learning_rate": 0.0002543939989505253,
      "loss": 3.919,
      "step": 123880
    },
    {
      "epoch": 0.2581041666666667,
      "grad_norm": 0.7969936728477478,
      "learning_rate": 0.0002543869194888471,
      "loss": 3.8462,
      "step": 123890
    },
    {
      "epoch": 0.258125,
      "grad_norm": 0.6786218881607056,
      "learning_rate": 0.00025437983957625883,
      "loss": 4.0343,
      "step": 123900
    },
    {
      "epoch": 0.25814583333333335,
      "grad_norm": 0.8772757053375244,
      "learning_rate": 0.000254372759212791,
      "loss": 3.7845,
      "step": 123910
    },
    {
      "epoch": 0.25816666666666666,
      "grad_norm": 0.828795850276947,
      "learning_rate": 0.0002543656783984741,
      "loss": 3.9971,
      "step": 123920
    },
    {
      "epoch": 0.2581875,
      "grad_norm": 1.021679162979126,
      "learning_rate": 0.0002543585971333388,
      "loss": 3.9205,
      "step": 123930
    },
    {
      "epoch": 0.2582083333333333,
      "grad_norm": 0.7323775887489319,
      "learning_rate": 0.00025435151541741566,
      "loss": 3.9553,
      "step": 123940
    },
    {
      "epoch": 0.2582291666666667,
      "grad_norm": 0.7828893661499023,
      "learning_rate": 0.0002543444332507353,
      "loss": 3.9174,
      "step": 123950
    },
    {
      "epoch": 0.25825,
      "grad_norm": 0.9655478596687317,
      "learning_rate": 0.0002543373506333283,
      "loss": 3.9622,
      "step": 123960
    },
    {
      "epoch": 0.25827083333333334,
      "grad_norm": 0.7928903698921204,
      "learning_rate": 0.00025433026756522517,
      "loss": 3.6581,
      "step": 123970
    },
    {
      "epoch": 0.25829166666666664,
      "grad_norm": 0.6856575608253479,
      "learning_rate": 0.00025432318404645666,
      "loss": 3.9822,
      "step": 123980
    },
    {
      "epoch": 0.2583125,
      "grad_norm": 0.6661348938941956,
      "learning_rate": 0.0002543161000770533,
      "loss": 3.9871,
      "step": 123990
    },
    {
      "epoch": 0.25833333333333336,
      "grad_norm": 0.8335661292076111,
      "learning_rate": 0.00025430901565704563,
      "loss": 4.0387,
      "step": 124000
    },
    {
      "epoch": 0.25833333333333336,
      "eval_loss": 4.251067638397217,
      "eval_runtime": 11.5743,
      "eval_samples_per_second": 0.864,
      "eval_steps_per_second": 0.259,
      "step": 124000
    },
    {
      "epoch": 0.25835416666666666,
      "grad_norm": 0.7266258001327515,
      "learning_rate": 0.0002543019307864643,
      "loss": 3.8805,
      "step": 124010
    },
    {
      "epoch": 0.258375,
      "grad_norm": 0.7812960147857666,
      "learning_rate": 0.0002542948454653399,
      "loss": 3.7982,
      "step": 124020
    },
    {
      "epoch": 0.2583958333333333,
      "grad_norm": 0.7820038199424744,
      "learning_rate": 0.0002542877596937031,
      "loss": 3.9949,
      "step": 124030
    },
    {
      "epoch": 0.2584166666666667,
      "grad_norm": 0.7133397459983826,
      "learning_rate": 0.00025428067347158445,
      "loss": 3.9642,
      "step": 124040
    },
    {
      "epoch": 0.2584375,
      "grad_norm": 0.824545681476593,
      "learning_rate": 0.00025427358679901455,
      "loss": 3.9314,
      "step": 124050
    },
    {
      "epoch": 0.25845833333333335,
      "grad_norm": 0.669272243976593,
      "learning_rate": 0.00025426649967602404,
      "loss": 3.9239,
      "step": 124060
    },
    {
      "epoch": 0.25847916666666665,
      "grad_norm": 0.7456676363945007,
      "learning_rate": 0.00025425941210264347,
      "loss": 3.9723,
      "step": 124070
    },
    {
      "epoch": 0.2585,
      "grad_norm": 0.7307913303375244,
      "learning_rate": 0.00025425232407890364,
      "loss": 3.9524,
      "step": 124080
    },
    {
      "epoch": 0.2585208333333333,
      "grad_norm": 0.7504796385765076,
      "learning_rate": 0.0002542452356048349,
      "loss": 3.9163,
      "step": 124090
    },
    {
      "epoch": 0.25854166666666667,
      "grad_norm": 0.7071918249130249,
      "learning_rate": 0.00025423814668046807,
      "loss": 4.0099,
      "step": 124100
    },
    {
      "epoch": 0.2585625,
      "grad_norm": 0.7127560973167419,
      "learning_rate": 0.0002542310573058337,
      "loss": 4.0147,
      "step": 124110
    },
    {
      "epoch": 0.25858333333333333,
      "grad_norm": 0.8011254072189331,
      "learning_rate": 0.0002542239674809624,
      "loss": 4.0284,
      "step": 124120
    },
    {
      "epoch": 0.2586041666666667,
      "grad_norm": 0.6737750768661499,
      "learning_rate": 0.00025421687720588484,
      "loss": 4.0175,
      "step": 124130
    },
    {
      "epoch": 0.258625,
      "grad_norm": 0.7255330085754395,
      "learning_rate": 0.0002542097864806316,
      "loss": 3.8888,
      "step": 124140
    },
    {
      "epoch": 0.25864583333333335,
      "grad_norm": 0.8695178627967834,
      "learning_rate": 0.00025420269530523334,
      "loss": 4.0788,
      "step": 124150
    },
    {
      "epoch": 0.25866666666666666,
      "grad_norm": 0.7425760626792908,
      "learning_rate": 0.00025419560367972066,
      "loss": 3.9175,
      "step": 124160
    },
    {
      "epoch": 0.2586875,
      "grad_norm": 0.770792543888092,
      "learning_rate": 0.00025418851160412427,
      "loss": 3.9048,
      "step": 124170
    },
    {
      "epoch": 0.2587083333333333,
      "grad_norm": 0.7816334962844849,
      "learning_rate": 0.0002541814190784747,
      "loss": 3.8385,
      "step": 124180
    },
    {
      "epoch": 0.2587291666666667,
      "grad_norm": 0.7317475080490112,
      "learning_rate": 0.00025417432610280266,
      "loss": 3.7843,
      "step": 124190
    },
    {
      "epoch": 0.25875,
      "grad_norm": 0.7474859952926636,
      "learning_rate": 0.00025416723267713875,
      "loss": 3.9264,
      "step": 124200
    },
    {
      "epoch": 0.25877083333333334,
      "grad_norm": 0.7384098768234253,
      "learning_rate": 0.00025416013880151365,
      "loss": 3.8893,
      "step": 124210
    },
    {
      "epoch": 0.25879166666666664,
      "grad_norm": 0.8004782795906067,
      "learning_rate": 0.000254153044475958,
      "loss": 3.8831,
      "step": 124220
    },
    {
      "epoch": 0.2588125,
      "grad_norm": 0.7437392473220825,
      "learning_rate": 0.0002541459497005024,
      "loss": 4.0504,
      "step": 124230
    },
    {
      "epoch": 0.25883333333333336,
      "grad_norm": 0.8078284859657288,
      "learning_rate": 0.0002541388544751775,
      "loss": 3.7986,
      "step": 124240
    },
    {
      "epoch": 0.25885416666666666,
      "grad_norm": 0.7285879254341125,
      "learning_rate": 0.000254131758800014,
      "loss": 3.959,
      "step": 124250
    },
    {
      "epoch": 0.258875,
      "grad_norm": 0.9711902141571045,
      "learning_rate": 0.0002541246626750425,
      "loss": 3.9585,
      "step": 124260
    },
    {
      "epoch": 0.2588958333333333,
      "grad_norm": 0.7593123912811279,
      "learning_rate": 0.00025411756610029364,
      "loss": 3.8611,
      "step": 124270
    },
    {
      "epoch": 0.2589166666666667,
      "grad_norm": 0.8298879861831665,
      "learning_rate": 0.00025411046907579816,
      "loss": 3.8176,
      "step": 124280
    },
    {
      "epoch": 0.2589375,
      "grad_norm": 0.9094129800796509,
      "learning_rate": 0.0002541033716015867,
      "loss": 3.9529,
      "step": 124290
    },
    {
      "epoch": 0.25895833333333335,
      "grad_norm": 0.7186413407325745,
      "learning_rate": 0.00025409627367768976,
      "loss": 3.8424,
      "step": 124300
    },
    {
      "epoch": 0.25897916666666665,
      "grad_norm": 0.9497385621070862,
      "learning_rate": 0.0002540891753041382,
      "loss": 3.7575,
      "step": 124310
    },
    {
      "epoch": 0.259,
      "grad_norm": 0.77397221326828,
      "learning_rate": 0.0002540820764809626,
      "loss": 3.8876,
      "step": 124320
    },
    {
      "epoch": 0.2590208333333333,
      "grad_norm": 0.8451095819473267,
      "learning_rate": 0.00025407497720819367,
      "loss": 3.8506,
      "step": 124330
    },
    {
      "epoch": 0.25904166666666667,
      "grad_norm": 0.7693751454353333,
      "learning_rate": 0.000254067877485862,
      "loss": 3.8838,
      "step": 124340
    },
    {
      "epoch": 0.2590625,
      "grad_norm": 0.7425490617752075,
      "learning_rate": 0.00025406077731399823,
      "loss": 3.9176,
      "step": 124350
    },
    {
      "epoch": 0.25908333333333333,
      "grad_norm": 0.6343768835067749,
      "learning_rate": 0.0002540536766926332,
      "loss": 3.8987,
      "step": 124360
    },
    {
      "epoch": 0.2591041666666667,
      "grad_norm": 0.7545706033706665,
      "learning_rate": 0.00025404657562179737,
      "loss": 3.9166,
      "step": 124370
    },
    {
      "epoch": 0.259125,
      "grad_norm": 0.8370146155357361,
      "learning_rate": 0.0002540394741015216,
      "loss": 3.8593,
      "step": 124380
    },
    {
      "epoch": 0.25914583333333335,
      "grad_norm": 0.7410882711410522,
      "learning_rate": 0.0002540323721318364,
      "loss": 3.997,
      "step": 124390
    },
    {
      "epoch": 0.25916666666666666,
      "grad_norm": 0.8228699564933777,
      "learning_rate": 0.0002540252697127726,
      "loss": 3.9093,
      "step": 124400
    },
    {
      "epoch": 0.2591875,
      "grad_norm": 0.8146182298660278,
      "learning_rate": 0.0002540181668443608,
      "loss": 3.7607,
      "step": 124410
    },
    {
      "epoch": 0.2592083333333333,
      "grad_norm": 0.8492233157157898,
      "learning_rate": 0.00025401106352663166,
      "loss": 3.8731,
      "step": 124420
    },
    {
      "epoch": 0.2592291666666667,
      "grad_norm": 0.6946579813957214,
      "learning_rate": 0.00025400395975961595,
      "loss": 3.7572,
      "step": 124430
    },
    {
      "epoch": 0.25925,
      "grad_norm": 0.7556657791137695,
      "learning_rate": 0.00025399685554334427,
      "loss": 3.938,
      "step": 124440
    },
    {
      "epoch": 0.25927083333333334,
      "grad_norm": 0.7477526068687439,
      "learning_rate": 0.00025398975087784735,
      "loss": 3.9119,
      "step": 124450
    },
    {
      "epoch": 0.25929166666666664,
      "grad_norm": 0.8839750289916992,
      "learning_rate": 0.0002539826457631558,
      "loss": 3.8058,
      "step": 124460
    },
    {
      "epoch": 0.2593125,
      "grad_norm": 0.8772867918014526,
      "learning_rate": 0.00025397554019930053,
      "loss": 3.872,
      "step": 124470
    },
    {
      "epoch": 0.25933333333333336,
      "grad_norm": 0.7418845295906067,
      "learning_rate": 0.00025396843418631194,
      "loss": 3.9967,
      "step": 124480
    },
    {
      "epoch": 0.25935416666666666,
      "grad_norm": 0.6874549388885498,
      "learning_rate": 0.00025396132772422095,
      "loss": 4.0313,
      "step": 124490
    },
    {
      "epoch": 0.259375,
      "grad_norm": 0.7634685635566711,
      "learning_rate": 0.00025395422081305813,
      "loss": 3.9071,
      "step": 124500
    },
    {
      "epoch": 0.2593958333333333,
      "grad_norm": 0.7108961939811707,
      "learning_rate": 0.00025394711345285423,
      "loss": 3.9105,
      "step": 124510
    },
    {
      "epoch": 0.2594166666666667,
      "grad_norm": 0.6719878315925598,
      "learning_rate": 0.00025394000564363993,
      "loss": 4.0194,
      "step": 124520
    },
    {
      "epoch": 0.2594375,
      "grad_norm": 0.7717917561531067,
      "learning_rate": 0.000253932897385446,
      "loss": 4.0139,
      "step": 124530
    },
    {
      "epoch": 0.25945833333333335,
      "grad_norm": 0.6774030923843384,
      "learning_rate": 0.00025392578867830306,
      "loss": 3.8643,
      "step": 124540
    },
    {
      "epoch": 0.25947916666666665,
      "grad_norm": 0.8911130428314209,
      "learning_rate": 0.00025391867952224186,
      "loss": 3.9496,
      "step": 124550
    },
    {
      "epoch": 0.2595,
      "grad_norm": 0.7360873222351074,
      "learning_rate": 0.0002539115699172931,
      "loss": 3.9751,
      "step": 124560
    },
    {
      "epoch": 0.2595208333333333,
      "grad_norm": 0.833248496055603,
      "learning_rate": 0.00025390445986348746,
      "loss": 3.7412,
      "step": 124570
    },
    {
      "epoch": 0.25954166666666667,
      "grad_norm": 0.8317424058914185,
      "learning_rate": 0.00025389734936085573,
      "loss": 3.7914,
      "step": 124580
    },
    {
      "epoch": 0.2595625,
      "grad_norm": 0.7068344950675964,
      "learning_rate": 0.00025389023840942853,
      "loss": 4.0938,
      "step": 124590
    },
    {
      "epoch": 0.25958333333333333,
      "grad_norm": 0.7601872086524963,
      "learning_rate": 0.0002538831270092366,
      "loss": 3.8722,
      "step": 124600
    },
    {
      "epoch": 0.2596041666666667,
      "grad_norm": 0.7938489317893982,
      "learning_rate": 0.00025387601516031077,
      "loss": 3.9926,
      "step": 124610
    },
    {
      "epoch": 0.259625,
      "grad_norm": 0.6657111048698425,
      "learning_rate": 0.0002538689028626816,
      "loss": 3.9657,
      "step": 124620
    },
    {
      "epoch": 0.25964583333333335,
      "grad_norm": 0.760567307472229,
      "learning_rate": 0.0002538617901163799,
      "loss": 3.7693,
      "step": 124630
    },
    {
      "epoch": 0.25966666666666666,
      "grad_norm": 0.7886583209037781,
      "learning_rate": 0.0002538546769214364,
      "loss": 3.9112,
      "step": 124640
    },
    {
      "epoch": 0.2596875,
      "grad_norm": 0.8053704500198364,
      "learning_rate": 0.0002538475632778818,
      "loss": 3.6496,
      "step": 124650
    },
    {
      "epoch": 0.2597083333333333,
      "grad_norm": 0.831885814666748,
      "learning_rate": 0.0002538404491857468,
      "loss": 3.8215,
      "step": 124660
    },
    {
      "epoch": 0.2597291666666667,
      "grad_norm": 0.7522137761116028,
      "learning_rate": 0.0002538333346450622,
      "loss": 4.012,
      "step": 124670
    },
    {
      "epoch": 0.25975,
      "grad_norm": 0.7375187277793884,
      "learning_rate": 0.0002538262196558587,
      "loss": 3.9396,
      "step": 124680
    },
    {
      "epoch": 0.25977083333333334,
      "grad_norm": 0.8019593358039856,
      "learning_rate": 0.000253819104218167,
      "loss": 3.853,
      "step": 124690
    },
    {
      "epoch": 0.25979166666666664,
      "grad_norm": 0.7113322615623474,
      "learning_rate": 0.00025381198833201784,
      "loss": 3.6619,
      "step": 124700
    },
    {
      "epoch": 0.2598125,
      "grad_norm": 0.8136866092681885,
      "learning_rate": 0.000253804871997442,
      "loss": 3.8443,
      "step": 124710
    },
    {
      "epoch": 0.25983333333333336,
      "grad_norm": 0.763820469379425,
      "learning_rate": 0.0002537977552144702,
      "loss": 3.855,
      "step": 124720
    },
    {
      "epoch": 0.25985416666666666,
      "grad_norm": 0.7539949417114258,
      "learning_rate": 0.0002537906379831333,
      "loss": 3.896,
      "step": 124730
    },
    {
      "epoch": 0.259875,
      "grad_norm": 0.8912409543991089,
      "learning_rate": 0.00025378352030346177,
      "loss": 3.906,
      "step": 124740
    },
    {
      "epoch": 0.2598958333333333,
      "grad_norm": 0.8272230625152588,
      "learning_rate": 0.00025377640217548653,
      "loss": 3.7073,
      "step": 124750
    },
    {
      "epoch": 0.2599166666666667,
      "grad_norm": 0.7370984554290771,
      "learning_rate": 0.0002537692835992384,
      "loss": 3.7798,
      "step": 124760
    },
    {
      "epoch": 0.2599375,
      "grad_norm": 0.7883222699165344,
      "learning_rate": 0.00025376216457474797,
      "loss": 3.8405,
      "step": 124770
    },
    {
      "epoch": 0.25995833333333335,
      "grad_norm": 0.8700327277183533,
      "learning_rate": 0.00025375504510204605,
      "loss": 3.8752,
      "step": 124780
    },
    {
      "epoch": 0.25997916666666665,
      "grad_norm": 0.7995094656944275,
      "learning_rate": 0.0002537479251811635,
      "loss": 3.919,
      "step": 124790
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8315398693084717,
      "learning_rate": 0.00025374080481213086,
      "loss": 3.8308,
      "step": 124800
    },
    {
      "epoch": 0.2600208333333333,
      "grad_norm": 0.6577749252319336,
      "learning_rate": 0.0002537336839949791,
      "loss": 3.9405,
      "step": 124810
    },
    {
      "epoch": 0.26004166666666667,
      "grad_norm": 0.6798194050788879,
      "learning_rate": 0.0002537265627297388,
      "loss": 3.9371,
      "step": 124820
    },
    {
      "epoch": 0.2600625,
      "grad_norm": 0.6858290433883667,
      "learning_rate": 0.0002537194410164409,
      "loss": 3.9768,
      "step": 124830
    },
    {
      "epoch": 0.26008333333333333,
      "grad_norm": 0.7330964803695679,
      "learning_rate": 0.000253712318855116,
      "loss": 4.0128,
      "step": 124840
    },
    {
      "epoch": 0.2601041666666667,
      "grad_norm": 0.8573942184448242,
      "learning_rate": 0.0002537051962457949,
      "loss": 3.7905,
      "step": 124850
    },
    {
      "epoch": 0.260125,
      "grad_norm": 0.8431234955787659,
      "learning_rate": 0.00025369807318850854,
      "loss": 3.8649,
      "step": 124860
    },
    {
      "epoch": 0.26014583333333335,
      "grad_norm": 0.9007709622383118,
      "learning_rate": 0.0002536909496832874,
      "loss": 3.9081,
      "step": 124870
    },
    {
      "epoch": 0.26016666666666666,
      "grad_norm": 0.7502970695495605,
      "learning_rate": 0.00025368382573016246,
      "loss": 3.6527,
      "step": 124880
    },
    {
      "epoch": 0.2601875,
      "grad_norm": 0.7453117966651917,
      "learning_rate": 0.0002536767013291645,
      "loss": 3.9686,
      "step": 124890
    },
    {
      "epoch": 0.2602083333333333,
      "grad_norm": 0.8530716300010681,
      "learning_rate": 0.00025366957648032413,
      "loss": 3.7969,
      "step": 124900
    },
    {
      "epoch": 0.2602291666666667,
      "grad_norm": 0.9883142113685608,
      "learning_rate": 0.0002536624511836723,
      "loss": 4.0666,
      "step": 124910
    },
    {
      "epoch": 0.26025,
      "grad_norm": 0.7952184677124023,
      "learning_rate": 0.00025365532543923967,
      "loss": 3.9035,
      "step": 124920
    },
    {
      "epoch": 0.26027083333333334,
      "grad_norm": 0.7789857983589172,
      "learning_rate": 0.0002536481992470571,
      "loss": 3.891,
      "step": 124930
    },
    {
      "epoch": 0.26029166666666664,
      "grad_norm": 0.7576115727424622,
      "learning_rate": 0.0002536410726071553,
      "loss": 3.9181,
      "step": 124940
    },
    {
      "epoch": 0.2603125,
      "grad_norm": 0.6916048526763916,
      "learning_rate": 0.0002536339455195651,
      "loss": 4.0107,
      "step": 124950
    },
    {
      "epoch": 0.26033333333333336,
      "grad_norm": 1.0502220392227173,
      "learning_rate": 0.0002536268179843173,
      "loss": 3.7253,
      "step": 124960
    },
    {
      "epoch": 0.26035416666666666,
      "grad_norm": 0.7687798142433167,
      "learning_rate": 0.0002536196900014426,
      "loss": 3.7717,
      "step": 124970
    },
    {
      "epoch": 0.260375,
      "grad_norm": 0.7347551584243774,
      "learning_rate": 0.0002536125615709719,
      "loss": 3.9158,
      "step": 124980
    },
    {
      "epoch": 0.2603958333333333,
      "grad_norm": 0.7819399833679199,
      "learning_rate": 0.00025360543269293596,
      "loss": 3.9072,
      "step": 124990
    },
    {
      "epoch": 0.2604166666666667,
      "grad_norm": 0.7034581899642944,
      "learning_rate": 0.0002535983033673655,
      "loss": 3.8761,
      "step": 125000
    },
    {
      "epoch": 0.2604166666666667,
      "eval_loss": 4.251437187194824,
      "eval_runtime": 11.5476,
      "eval_samples_per_second": 0.866,
      "eval_steps_per_second": 0.26,
      "step": 125000
    },
    {
      "epoch": 0.2604375,
      "grad_norm": 0.8109168410301208,
      "learning_rate": 0.00025359117359429145,
      "loss": 3.8974,
      "step": 125010
    },
    {
      "epoch": 0.26045833333333335,
      "grad_norm": 0.7516034245491028,
      "learning_rate": 0.00025358404337374454,
      "loss": 3.9793,
      "step": 125020
    },
    {
      "epoch": 0.26047916666666665,
      "grad_norm": 0.762546956539154,
      "learning_rate": 0.0002535769127057555,
      "loss": 3.9628,
      "step": 125030
    },
    {
      "epoch": 0.2605,
      "grad_norm": 0.7442500591278076,
      "learning_rate": 0.00025356978159035525,
      "loss": 3.9695,
      "step": 125040
    },
    {
      "epoch": 0.2605208333333333,
      "grad_norm": 0.7625104784965515,
      "learning_rate": 0.0002535626500275745,
      "loss": 3.9354,
      "step": 125050
    },
    {
      "epoch": 0.26054166666666667,
      "grad_norm": 0.8764498233795166,
      "learning_rate": 0.0002535555180174441,
      "loss": 3.8348,
      "step": 125060
    },
    {
      "epoch": 0.2605625,
      "grad_norm": 0.7545796632766724,
      "learning_rate": 0.0002535483855599948,
      "loss": 3.9992,
      "step": 125070
    },
    {
      "epoch": 0.26058333333333333,
      "grad_norm": 0.8688541054725647,
      "learning_rate": 0.00025354125265525753,
      "loss": 3.9295,
      "step": 125080
    },
    {
      "epoch": 0.2606041666666667,
      "grad_norm": 0.7376902103424072,
      "learning_rate": 0.00025353411930326304,
      "loss": 3.9494,
      "step": 125090
    },
    {
      "epoch": 0.260625,
      "grad_norm": 0.715073823928833,
      "learning_rate": 0.00025352698550404215,
      "loss": 3.8922,
      "step": 125100
    },
    {
      "epoch": 0.26064583333333335,
      "grad_norm": 0.7724918723106384,
      "learning_rate": 0.00025351985125762565,
      "loss": 3.6465,
      "step": 125110
    },
    {
      "epoch": 0.26066666666666666,
      "grad_norm": 0.8245839476585388,
      "learning_rate": 0.00025351271656404433,
      "loss": 3.7142,
      "step": 125120
    },
    {
      "epoch": 0.2606875,
      "grad_norm": 0.7072054147720337,
      "learning_rate": 0.0002535055814233291,
      "loss": 4.074,
      "step": 125130
    },
    {
      "epoch": 0.2607083333333333,
      "grad_norm": 0.7193695306777954,
      "learning_rate": 0.00025349844583551066,
      "loss": 3.904,
      "step": 125140
    },
    {
      "epoch": 0.2607291666666667,
      "grad_norm": 0.9093794822692871,
      "learning_rate": 0.00025349130980061995,
      "loss": 4.0865,
      "step": 125150
    },
    {
      "epoch": 0.26075,
      "grad_norm": 0.6889277100563049,
      "learning_rate": 0.00025348417331868774,
      "loss": 3.981,
      "step": 125160
    },
    {
      "epoch": 0.26077083333333334,
      "grad_norm": 0.8808034062385559,
      "learning_rate": 0.0002534770363897449,
      "loss": 3.893,
      "step": 125170
    },
    {
      "epoch": 0.26079166666666664,
      "grad_norm": 0.8726701736450195,
      "learning_rate": 0.00025346989901382214,
      "loss": 3.8266,
      "step": 125180
    },
    {
      "epoch": 0.2608125,
      "grad_norm": 0.7543821930885315,
      "learning_rate": 0.00025346276119095037,
      "loss": 3.7353,
      "step": 125190
    },
    {
      "epoch": 0.2608333333333333,
      "grad_norm": 0.7381551861763,
      "learning_rate": 0.00025345562292116054,
      "loss": 3.7702,
      "step": 125200
    },
    {
      "epoch": 0.26085416666666666,
      "grad_norm": 0.8949491381645203,
      "learning_rate": 0.0002534484842044833,
      "loss": 4.0156,
      "step": 125210
    },
    {
      "epoch": 0.260875,
      "grad_norm": 0.6781871318817139,
      "learning_rate": 0.0002534413450409495,
      "loss": 3.8625,
      "step": 125220
    },
    {
      "epoch": 0.2608958333333333,
      "grad_norm": 0.7328683137893677,
      "learning_rate": 0.0002534342054305901,
      "loss": 3.783,
      "step": 125230
    },
    {
      "epoch": 0.2609166666666667,
      "grad_norm": 0.7451244592666626,
      "learning_rate": 0.0002534270653734359,
      "loss": 3.8396,
      "step": 125240
    },
    {
      "epoch": 0.2609375,
      "grad_norm": 0.706762969493866,
      "learning_rate": 0.0002534199248695176,
      "loss": 3.979,
      "step": 125250
    },
    {
      "epoch": 0.26095833333333335,
      "grad_norm": 0.7193386554718018,
      "learning_rate": 0.0002534127839188663,
      "loss": 3.9226,
      "step": 125260
    },
    {
      "epoch": 0.26097916666666665,
      "grad_norm": 0.8288851976394653,
      "learning_rate": 0.0002534056425215126,
      "loss": 3.9423,
      "step": 125270
    },
    {
      "epoch": 0.261,
      "grad_norm": 0.6822898387908936,
      "learning_rate": 0.0002533985006774876,
      "loss": 3.8519,
      "step": 125280
    },
    {
      "epoch": 0.2610208333333333,
      "grad_norm": 0.7862265110015869,
      "learning_rate": 0.00025339135838682185,
      "loss": 3.8309,
      "step": 125290
    },
    {
      "epoch": 0.26104166666666667,
      "grad_norm": 0.7616347670555115,
      "learning_rate": 0.00025338421564954645,
      "loss": 3.9291,
      "step": 125300
    },
    {
      "epoch": 0.2610625,
      "grad_norm": 0.6995921730995178,
      "learning_rate": 0.0002533770724656921,
      "loss": 3.7818,
      "step": 125310
    },
    {
      "epoch": 0.26108333333333333,
      "grad_norm": 0.7923327088356018,
      "learning_rate": 0.00025336992883528975,
      "loss": 3.8884,
      "step": 125320
    },
    {
      "epoch": 0.2611041666666667,
      "grad_norm": 0.7700459957122803,
      "learning_rate": 0.0002533627847583702,
      "loss": 3.8769,
      "step": 125330
    },
    {
      "epoch": 0.261125,
      "grad_norm": 0.7731937766075134,
      "learning_rate": 0.0002533556402349643,
      "loss": 3.933,
      "step": 125340
    },
    {
      "epoch": 0.26114583333333335,
      "grad_norm": 0.7842099070549011,
      "learning_rate": 0.00025334849526510305,
      "loss": 3.814,
      "step": 125350
    },
    {
      "epoch": 0.26116666666666666,
      "grad_norm": 0.6723955273628235,
      "learning_rate": 0.0002533413498488171,
      "loss": 3.8906,
      "step": 125360
    },
    {
      "epoch": 0.2611875,
      "grad_norm": 0.9704383611679077,
      "learning_rate": 0.0002533342039861375,
      "loss": 3.7601,
      "step": 125370
    },
    {
      "epoch": 0.2612083333333333,
      "grad_norm": 0.7525566816329956,
      "learning_rate": 0.00025332705767709506,
      "loss": 3.8536,
      "step": 125380
    },
    {
      "epoch": 0.2612291666666667,
      "grad_norm": 0.8056354522705078,
      "learning_rate": 0.00025331991092172055,
      "loss": 3.8872,
      "step": 125390
    },
    {
      "epoch": 0.26125,
      "grad_norm": 0.7213203310966492,
      "learning_rate": 0.000253312763720045,
      "loss": 3.6807,
      "step": 125400
    },
    {
      "epoch": 0.26127083333333334,
      "grad_norm": 0.8400855660438538,
      "learning_rate": 0.00025330561607209915,
      "loss": 3.9227,
      "step": 125410
    },
    {
      "epoch": 0.26129166666666664,
      "grad_norm": 0.8902785778045654,
      "learning_rate": 0.0002532984679779139,
      "loss": 3.9415,
      "step": 125420
    },
    {
      "epoch": 0.2613125,
      "grad_norm": 0.7021324634552002,
      "learning_rate": 0.0002532913194375202,
      "loss": 3.7491,
      "step": 125430
    },
    {
      "epoch": 0.2613333333333333,
      "grad_norm": 0.7768975496292114,
      "learning_rate": 0.0002532841704509489,
      "loss": 3.7271,
      "step": 125440
    },
    {
      "epoch": 0.26135416666666667,
      "grad_norm": 0.7895972728729248,
      "learning_rate": 0.0002532770210182309,
      "loss": 3.8114,
      "step": 125450
    },
    {
      "epoch": 0.261375,
      "grad_norm": 0.756361186504364,
      "learning_rate": 0.00025326987113939703,
      "loss": 3.889,
      "step": 125460
    },
    {
      "epoch": 0.2613958333333333,
      "grad_norm": 0.8847800493240356,
      "learning_rate": 0.0002532627208144781,
      "loss": 3.831,
      "step": 125470
    },
    {
      "epoch": 0.2614166666666667,
      "grad_norm": 0.7683274745941162,
      "learning_rate": 0.0002532555700435052,
      "loss": 4.0617,
      "step": 125480
    },
    {
      "epoch": 0.2614375,
      "grad_norm": 0.7043762803077698,
      "learning_rate": 0.00025324841882650904,
      "loss": 3.8273,
      "step": 125490
    },
    {
      "epoch": 0.26145833333333335,
      "grad_norm": 0.7239996790885925,
      "learning_rate": 0.0002532412671635206,
      "loss": 4.0109,
      "step": 125500
    },
    {
      "epoch": 0.26147916666666665,
      "grad_norm": 0.8258938193321228,
      "learning_rate": 0.00025323411505457076,
      "loss": 3.9443,
      "step": 125510
    },
    {
      "epoch": 0.2615,
      "grad_norm": 0.781486451625824,
      "learning_rate": 0.0002532269624996904,
      "loss": 3.8977,
      "step": 125520
    },
    {
      "epoch": 0.2615208333333333,
      "grad_norm": 0.7624019980430603,
      "learning_rate": 0.00025321980949891045,
      "loss": 3.9685,
      "step": 125530
    },
    {
      "epoch": 0.2615416666666667,
      "grad_norm": 0.7491692304611206,
      "learning_rate": 0.0002532126560522617,
      "loss": 4.0253,
      "step": 125540
    },
    {
      "epoch": 0.2615625,
      "grad_norm": 0.7221712470054626,
      "learning_rate": 0.00025320550215977524,
      "loss": 3.7928,
      "step": 125550
    },
    {
      "epoch": 0.26158333333333333,
      "grad_norm": 0.9284535646438599,
      "learning_rate": 0.0002531983478214818,
      "loss": 3.8987,
      "step": 125560
    },
    {
      "epoch": 0.2616041666666667,
      "grad_norm": 0.859975278377533,
      "learning_rate": 0.0002531911930374124,
      "loss": 4.0201,
      "step": 125570
    },
    {
      "epoch": 0.261625,
      "grad_norm": 0.695770800113678,
      "learning_rate": 0.00025318403780759776,
      "loss": 3.8825,
      "step": 125580
    },
    {
      "epoch": 0.26164583333333336,
      "grad_norm": 0.7948232889175415,
      "learning_rate": 0.00025317688213206903,
      "loss": 3.8624,
      "step": 125590
    },
    {
      "epoch": 0.26166666666666666,
      "grad_norm": 0.7034209966659546,
      "learning_rate": 0.000253169726010857,
      "loss": 3.8792,
      "step": 125600
    },
    {
      "epoch": 0.2616875,
      "grad_norm": 0.7804223299026489,
      "learning_rate": 0.0002531625694439926,
      "loss": 3.9432,
      "step": 125610
    },
    {
      "epoch": 0.2617083333333333,
      "grad_norm": 0.8129447102546692,
      "learning_rate": 0.00025315541243150667,
      "loss": 3.7682,
      "step": 125620
    },
    {
      "epoch": 0.2617291666666667,
      "grad_norm": 0.8136247992515564,
      "learning_rate": 0.00025314825497343025,
      "loss": 3.747,
      "step": 125630
    },
    {
      "epoch": 0.26175,
      "grad_norm": 0.8488971590995789,
      "learning_rate": 0.00025314109706979417,
      "loss": 3.9528,
      "step": 125640
    },
    {
      "epoch": 0.26177083333333334,
      "grad_norm": 0.8536105155944824,
      "learning_rate": 0.0002531339387206294,
      "loss": 3.9582,
      "step": 125650
    },
    {
      "epoch": 0.26179166666666664,
      "grad_norm": 0.773216962814331,
      "learning_rate": 0.0002531267799259668,
      "loss": 3.9004,
      "step": 125660
    },
    {
      "epoch": 0.2618125,
      "grad_norm": 0.7271801829338074,
      "learning_rate": 0.0002531196206858373,
      "loss": 3.7478,
      "step": 125670
    },
    {
      "epoch": 0.2618333333333333,
      "grad_norm": 0.7034518718719482,
      "learning_rate": 0.00025311246100027197,
      "loss": 3.8916,
      "step": 125680
    },
    {
      "epoch": 0.26185416666666667,
      "grad_norm": 0.778917670249939,
      "learning_rate": 0.00025310530086930153,
      "loss": 3.8634,
      "step": 125690
    },
    {
      "epoch": 0.261875,
      "grad_norm": 0.7091766595840454,
      "learning_rate": 0.0002530981402929571,
      "loss": 3.8357,
      "step": 125700
    },
    {
      "epoch": 0.2618958333333333,
      "grad_norm": 0.9170806407928467,
      "learning_rate": 0.0002530909792712694,
      "loss": 3.7972,
      "step": 125710
    },
    {
      "epoch": 0.2619166666666667,
      "grad_norm": 0.767856240272522,
      "learning_rate": 0.00025308381780426954,
      "loss": 4.1639,
      "step": 125720
    },
    {
      "epoch": 0.2619375,
      "grad_norm": 0.6911662220954895,
      "learning_rate": 0.0002530766558919884,
      "loss": 3.8727,
      "step": 125730
    },
    {
      "epoch": 0.26195833333333335,
      "grad_norm": 0.7397439479827881,
      "learning_rate": 0.00025306949353445687,
      "loss": 3.8233,
      "step": 125740
    },
    {
      "epoch": 0.26197916666666665,
      "grad_norm": 0.6908090114593506,
      "learning_rate": 0.00025306233073170594,
      "loss": 3.857,
      "step": 125750
    },
    {
      "epoch": 0.262,
      "grad_norm": 0.8925408124923706,
      "learning_rate": 0.0002530551674837665,
      "loss": 3.7635,
      "step": 125760
    },
    {
      "epoch": 0.2620208333333333,
      "grad_norm": 1.0245999097824097,
      "learning_rate": 0.00025304800379066957,
      "loss": 3.9815,
      "step": 125770
    },
    {
      "epoch": 0.2620416666666667,
      "grad_norm": 0.8031742572784424,
      "learning_rate": 0.00025304083965244605,
      "loss": 3.9687,
      "step": 125780
    },
    {
      "epoch": 0.2620625,
      "grad_norm": 0.7591427564620972,
      "learning_rate": 0.0002530336750691269,
      "loss": 4.0314,
      "step": 125790
    },
    {
      "epoch": 0.26208333333333333,
      "grad_norm": 0.7258127331733704,
      "learning_rate": 0.00025302651004074304,
      "loss": 3.8456,
      "step": 125800
    },
    {
      "epoch": 0.2621041666666667,
      "grad_norm": 0.75871741771698,
      "learning_rate": 0.0002530193445673254,
      "loss": 3.8497,
      "step": 125810
    },
    {
      "epoch": 0.262125,
      "grad_norm": 0.7171266078948975,
      "learning_rate": 0.000253012178648905,
      "loss": 3.8904,
      "step": 125820
    },
    {
      "epoch": 0.26214583333333336,
      "grad_norm": 0.8412822484970093,
      "learning_rate": 0.0002530050122855128,
      "loss": 3.8843,
      "step": 125830
    },
    {
      "epoch": 0.26216666666666666,
      "grad_norm": 0.7632043957710266,
      "learning_rate": 0.00025299784547717967,
      "loss": 3.9342,
      "step": 125840
    },
    {
      "epoch": 0.2621875,
      "grad_norm": 0.6920459866523743,
      "learning_rate": 0.0002529906782239367,
      "loss": 3.7208,
      "step": 125850
    },
    {
      "epoch": 0.2622083333333333,
      "grad_norm": 0.744586706161499,
      "learning_rate": 0.0002529835105258147,
      "loss": 3.7713,
      "step": 125860
    },
    {
      "epoch": 0.2622291666666667,
      "grad_norm": 0.8018923401832581,
      "learning_rate": 0.0002529763423828447,
      "loss": 4.0689,
      "step": 125870
    },
    {
      "epoch": 0.26225,
      "grad_norm": 0.7255716919898987,
      "learning_rate": 0.00025296917379505763,
      "loss": 3.9194,
      "step": 125880
    },
    {
      "epoch": 0.26227083333333334,
      "grad_norm": 0.7234506011009216,
      "learning_rate": 0.00025296200476248454,
      "loss": 3.8831,
      "step": 125890
    },
    {
      "epoch": 0.26229166666666665,
      "grad_norm": 0.6818462014198303,
      "learning_rate": 0.0002529548352851563,
      "loss": 3.8391,
      "step": 125900
    },
    {
      "epoch": 0.2623125,
      "grad_norm": 0.7795412540435791,
      "learning_rate": 0.00025294766536310397,
      "loss": 3.8882,
      "step": 125910
    },
    {
      "epoch": 0.2623333333333333,
      "grad_norm": 0.8291380405426025,
      "learning_rate": 0.00025294049499635846,
      "loss": 3.7535,
      "step": 125920
    },
    {
      "epoch": 0.26235416666666667,
      "grad_norm": 0.7469478845596313,
      "learning_rate": 0.00025293332418495075,
      "loss": 3.7167,
      "step": 125930
    },
    {
      "epoch": 0.262375,
      "grad_norm": 0.7462781667709351,
      "learning_rate": 0.00025292615292891183,
      "loss": 3.9879,
      "step": 125940
    },
    {
      "epoch": 0.26239583333333333,
      "grad_norm": 0.8290437459945679,
      "learning_rate": 0.00025291898122827266,
      "loss": 3.9462,
      "step": 125950
    },
    {
      "epoch": 0.2624166666666667,
      "grad_norm": 0.6944916248321533,
      "learning_rate": 0.00025291180908306425,
      "loss": 3.9378,
      "step": 125960
    },
    {
      "epoch": 0.2624375,
      "grad_norm": 0.7918404936790466,
      "learning_rate": 0.0002529046364933175,
      "loss": 3.9006,
      "step": 125970
    },
    {
      "epoch": 0.26245833333333335,
      "grad_norm": 0.7636994123458862,
      "learning_rate": 0.0002528974634590635,
      "loss": 3.6572,
      "step": 125980
    },
    {
      "epoch": 0.26247916666666665,
      "grad_norm": 0.7476106882095337,
      "learning_rate": 0.00025289028998033323,
      "loss": 3.7972,
      "step": 125990
    },
    {
      "epoch": 0.2625,
      "grad_norm": 0.7109271287918091,
      "learning_rate": 0.00025288311605715756,
      "loss": 3.9877,
      "step": 126000
    },
    {
      "epoch": 0.2625,
      "eval_loss": 4.23842191696167,
      "eval_runtime": 9.8429,
      "eval_samples_per_second": 1.016,
      "eval_steps_per_second": 0.305,
      "step": 126000
    },
    {
      "epoch": 0.2625208333333333,
      "grad_norm": 1.005553126335144,
      "learning_rate": 0.0002528759416895676,
      "loss": 3.8436,
      "step": 126010
    },
    {
      "epoch": 0.2625416666666667,
      "grad_norm": 0.7385863065719604,
      "learning_rate": 0.00025286876687759426,
      "loss": 4.1086,
      "step": 126020
    },
    {
      "epoch": 0.2625625,
      "grad_norm": 0.8376879096031189,
      "learning_rate": 0.0002528615916212686,
      "loss": 3.9668,
      "step": 126030
    },
    {
      "epoch": 0.26258333333333334,
      "grad_norm": 0.8355489373207092,
      "learning_rate": 0.00025285441592062157,
      "loss": 4.1359,
      "step": 126040
    },
    {
      "epoch": 0.2626041666666667,
      "grad_norm": 0.7681154608726501,
      "learning_rate": 0.0002528472397756841,
      "loss": 4.0332,
      "step": 126050
    },
    {
      "epoch": 0.262625,
      "grad_norm": 0.7322356104850769,
      "learning_rate": 0.00025284006318648734,
      "loss": 4.0527,
      "step": 126060
    },
    {
      "epoch": 0.26264583333333336,
      "grad_norm": 0.7266936898231506,
      "learning_rate": 0.00025283288615306226,
      "loss": 3.7744,
      "step": 126070
    },
    {
      "epoch": 0.26266666666666666,
      "grad_norm": 0.7479995489120483,
      "learning_rate": 0.00025282570867543976,
      "loss": 3.729,
      "step": 126080
    },
    {
      "epoch": 0.2626875,
      "grad_norm": 0.7326896786689758,
      "learning_rate": 0.00025281853075365086,
      "loss": 3.8349,
      "step": 126090
    },
    {
      "epoch": 0.2627083333333333,
      "grad_norm": 0.8325790166854858,
      "learning_rate": 0.00025281135238772667,
      "loss": 3.9076,
      "step": 126100
    },
    {
      "epoch": 0.2627291666666667,
      "grad_norm": 0.7411123514175415,
      "learning_rate": 0.0002528041735776981,
      "loss": 3.9107,
      "step": 126110
    },
    {
      "epoch": 0.26275,
      "grad_norm": 0.7396674156188965,
      "learning_rate": 0.00025279699432359623,
      "loss": 4.031,
      "step": 126120
    },
    {
      "epoch": 0.26277083333333334,
      "grad_norm": 0.7301738858222961,
      "learning_rate": 0.000252789814625452,
      "loss": 3.7914,
      "step": 126130
    },
    {
      "epoch": 0.26279166666666665,
      "grad_norm": 0.6987815499305725,
      "learning_rate": 0.0002527826344832965,
      "loss": 4.0113,
      "step": 126140
    },
    {
      "epoch": 0.2628125,
      "grad_norm": 0.7891760468482971,
      "learning_rate": 0.00025277545389716064,
      "loss": 3.9065,
      "step": 126150
    },
    {
      "epoch": 0.2628333333333333,
      "grad_norm": 0.742714524269104,
      "learning_rate": 0.0002527682728670755,
      "loss": 3.8332,
      "step": 126160
    },
    {
      "epoch": 0.26285416666666667,
      "grad_norm": 0.7628806829452515,
      "learning_rate": 0.00025276109139307215,
      "loss": 4.0127,
      "step": 126170
    },
    {
      "epoch": 0.262875,
      "grad_norm": 0.8056378960609436,
      "learning_rate": 0.00025275390947518156,
      "loss": 3.9251,
      "step": 126180
    },
    {
      "epoch": 0.26289583333333333,
      "grad_norm": 0.700026273727417,
      "learning_rate": 0.0002527467271134347,
      "loss": 4.0411,
      "step": 126190
    },
    {
      "epoch": 0.2629166666666667,
      "grad_norm": 0.7959680557250977,
      "learning_rate": 0.0002527395443078627,
      "loss": 3.8339,
      "step": 126200
    },
    {
      "epoch": 0.2629375,
      "grad_norm": 0.7102029919624329,
      "learning_rate": 0.0002527323610584965,
      "loss": 4.0843,
      "step": 126210
    },
    {
      "epoch": 0.26295833333333335,
      "grad_norm": 0.8202810287475586,
      "learning_rate": 0.00025272517736536716,
      "loss": 3.9577,
      "step": 126220
    },
    {
      "epoch": 0.26297916666666665,
      "grad_norm": 1.0372968912124634,
      "learning_rate": 0.00025271799322850575,
      "loss": 3.9044,
      "step": 126230
    },
    {
      "epoch": 0.263,
      "grad_norm": 0.9043729305267334,
      "learning_rate": 0.00025271080864794327,
      "loss": 3.8117,
      "step": 126240
    },
    {
      "epoch": 0.2630208333333333,
      "grad_norm": 0.8695101141929626,
      "learning_rate": 0.00025270362362371073,
      "loss": 3.9877,
      "step": 126250
    },
    {
      "epoch": 0.2630416666666667,
      "grad_norm": 0.8547897338867188,
      "learning_rate": 0.0002526964381558392,
      "loss": 3.9158,
      "step": 126260
    },
    {
      "epoch": 0.2630625,
      "grad_norm": 0.7670037150382996,
      "learning_rate": 0.00025268925224435974,
      "loss": 3.8997,
      "step": 126270
    },
    {
      "epoch": 0.26308333333333334,
      "grad_norm": 0.7319607734680176,
      "learning_rate": 0.0002526820658893033,
      "loss": 3.9085,
      "step": 126280
    },
    {
      "epoch": 0.26310416666666664,
      "grad_norm": 0.8831567168235779,
      "learning_rate": 0.000252674879090701,
      "loss": 3.7963,
      "step": 126290
    },
    {
      "epoch": 0.263125,
      "grad_norm": 0.7893628478050232,
      "learning_rate": 0.0002526676918485839,
      "loss": 3.8439,
      "step": 126300
    },
    {
      "epoch": 0.26314583333333336,
      "grad_norm": 0.7076952457427979,
      "learning_rate": 0.0002526605041629829,
      "loss": 3.7494,
      "step": 126310
    },
    {
      "epoch": 0.26316666666666666,
      "grad_norm": 0.7588750720024109,
      "learning_rate": 0.00025265331603392926,
      "loss": 3.6227,
      "step": 126320
    },
    {
      "epoch": 0.2631875,
      "grad_norm": 0.8965162038803101,
      "learning_rate": 0.0002526461274614539,
      "loss": 3.9007,
      "step": 126330
    },
    {
      "epoch": 0.2632083333333333,
      "grad_norm": 0.8152491450309753,
      "learning_rate": 0.0002526389384455879,
      "loss": 3.8889,
      "step": 126340
    },
    {
      "epoch": 0.2632291666666667,
      "grad_norm": 0.7912163734436035,
      "learning_rate": 0.0002526317489863623,
      "loss": 3.7757,
      "step": 126350
    },
    {
      "epoch": 0.26325,
      "grad_norm": 0.8147352933883667,
      "learning_rate": 0.00025262455908380823,
      "loss": 3.9196,
      "step": 126360
    },
    {
      "epoch": 0.26327083333333334,
      "grad_norm": 0.7793623208999634,
      "learning_rate": 0.00025261736873795663,
      "loss": 3.8768,
      "step": 126370
    },
    {
      "epoch": 0.26329166666666665,
      "grad_norm": 0.9287704825401306,
      "learning_rate": 0.0002526101779488386,
      "loss": 3.9595,
      "step": 126380
    },
    {
      "epoch": 0.2633125,
      "grad_norm": 0.9384580850601196,
      "learning_rate": 0.00025260298671648526,
      "loss": 3.9018,
      "step": 126390
    },
    {
      "epoch": 0.2633333333333333,
      "grad_norm": 0.7547360062599182,
      "learning_rate": 0.0002525957950409276,
      "loss": 3.7684,
      "step": 126400
    },
    {
      "epoch": 0.26335416666666667,
      "grad_norm": 0.7997637987136841,
      "learning_rate": 0.0002525886029221967,
      "loss": 4.0618,
      "step": 126410
    },
    {
      "epoch": 0.263375,
      "grad_norm": 0.8116149306297302,
      "learning_rate": 0.00025258141036032367,
      "loss": 3.9158,
      "step": 126420
    },
    {
      "epoch": 0.26339583333333333,
      "grad_norm": 0.7598098516464233,
      "learning_rate": 0.00025257421735533955,
      "loss": 3.9659,
      "step": 126430
    },
    {
      "epoch": 0.2634166666666667,
      "grad_norm": 0.7407240867614746,
      "learning_rate": 0.0002525670239072754,
      "loss": 3.9482,
      "step": 126440
    },
    {
      "epoch": 0.2634375,
      "grad_norm": 0.7191349267959595,
      "learning_rate": 0.0002525598300161623,
      "loss": 4.0051,
      "step": 126450
    },
    {
      "epoch": 0.26345833333333335,
      "grad_norm": 0.8139747381210327,
      "learning_rate": 0.0002525526356820314,
      "loss": 3.8728,
      "step": 126460
    },
    {
      "epoch": 0.26347916666666665,
      "grad_norm": 0.7326160073280334,
      "learning_rate": 0.00025254544090491367,
      "loss": 3.856,
      "step": 126470
    },
    {
      "epoch": 0.2635,
      "grad_norm": 0.8148053288459778,
      "learning_rate": 0.0002525382456848402,
      "loss": 3.8782,
      "step": 126480
    },
    {
      "epoch": 0.2635208333333333,
      "grad_norm": 0.9878438711166382,
      "learning_rate": 0.0002525310500218421,
      "loss": 3.8707,
      "step": 126490
    },
    {
      "epoch": 0.2635416666666667,
      "grad_norm": 0.7432263493537903,
      "learning_rate": 0.0002525238539159504,
      "loss": 3.9956,
      "step": 126500
    },
    {
      "epoch": 0.2635625,
      "grad_norm": 0.6926878094673157,
      "learning_rate": 0.0002525166573671963,
      "loss": 3.9953,
      "step": 126510
    },
    {
      "epoch": 0.26358333333333334,
      "grad_norm": 0.8224835395812988,
      "learning_rate": 0.0002525094603756109,
      "loss": 3.8909,
      "step": 126520
    },
    {
      "epoch": 0.26360416666666664,
      "grad_norm": 0.7717549204826355,
      "learning_rate": 0.0002525022629412251,
      "loss": 4.1021,
      "step": 126530
    },
    {
      "epoch": 0.263625,
      "grad_norm": 0.8077322244644165,
      "learning_rate": 0.0002524950650640701,
      "loss": 4.0274,
      "step": 126540
    },
    {
      "epoch": 0.26364583333333336,
      "grad_norm": 0.7121642231941223,
      "learning_rate": 0.00025248786674417705,
      "loss": 3.9456,
      "step": 126550
    },
    {
      "epoch": 0.26366666666666666,
      "grad_norm": 0.7072132229804993,
      "learning_rate": 0.00025248066798157687,
      "loss": 3.829,
      "step": 126560
    },
    {
      "epoch": 0.2636875,
      "grad_norm": 0.7250639796257019,
      "learning_rate": 0.00025247346877630084,
      "loss": 3.8851,
      "step": 126570
    },
    {
      "epoch": 0.2637083333333333,
      "grad_norm": 0.8868707418441772,
      "learning_rate": 0.00025246626912838,
      "loss": 3.8136,
      "step": 126580
    },
    {
      "epoch": 0.2637291666666667,
      "grad_norm": 0.6855431199073792,
      "learning_rate": 0.0002524590690378454,
      "loss": 3.8809,
      "step": 126590
    },
    {
      "epoch": 0.26375,
      "grad_norm": 0.7353986501693726,
      "learning_rate": 0.0002524518685047282,
      "loss": 3.9322,
      "step": 126600
    },
    {
      "epoch": 0.26377083333333334,
      "grad_norm": 0.8489203453063965,
      "learning_rate": 0.0002524446675290595,
      "loss": 3.8323,
      "step": 126610
    },
    {
      "epoch": 0.26379166666666665,
      "grad_norm": 0.7895909547805786,
      "learning_rate": 0.0002524374661108704,
      "loss": 3.9319,
      "step": 126620
    },
    {
      "epoch": 0.2638125,
      "grad_norm": 0.7357152700424194,
      "learning_rate": 0.0002524302642501919,
      "loss": 3.9291,
      "step": 126630
    },
    {
      "epoch": 0.2638333333333333,
      "grad_norm": 0.7328671216964722,
      "learning_rate": 0.0002524230619470553,
      "loss": 3.7952,
      "step": 126640
    },
    {
      "epoch": 0.26385416666666667,
      "grad_norm": 0.7565189599990845,
      "learning_rate": 0.00025241585920149156,
      "loss": 3.8663,
      "step": 126650
    },
    {
      "epoch": 0.263875,
      "grad_norm": 0.8000338077545166,
      "learning_rate": 0.0002524086560135318,
      "loss": 3.7608,
      "step": 126660
    },
    {
      "epoch": 0.26389583333333333,
      "grad_norm": 0.8385242223739624,
      "learning_rate": 0.0002524014523832073,
      "loss": 3.9358,
      "step": 126670
    },
    {
      "epoch": 0.2639166666666667,
      "grad_norm": 0.6669609546661377,
      "learning_rate": 0.00025239424831054896,
      "loss": 4.1734,
      "step": 126680
    },
    {
      "epoch": 0.2639375,
      "grad_norm": 0.7538148760795593,
      "learning_rate": 0.0002523870437955881,
      "loss": 3.7918,
      "step": 126690
    },
    {
      "epoch": 0.26395833333333335,
      "grad_norm": 0.799339771270752,
      "learning_rate": 0.00025237983883835566,
      "loss": 4.1088,
      "step": 126700
    },
    {
      "epoch": 0.26397916666666665,
      "grad_norm": 0.942924439907074,
      "learning_rate": 0.00025237263343888284,
      "loss": 3.7991,
      "step": 126710
    },
    {
      "epoch": 0.264,
      "grad_norm": 0.7185326814651489,
      "learning_rate": 0.0002523654275972008,
      "loss": 3.8034,
      "step": 126720
    },
    {
      "epoch": 0.2640208333333333,
      "grad_norm": 0.7288519740104675,
      "learning_rate": 0.0002523582213133406,
      "loss": 4.0895,
      "step": 126730
    },
    {
      "epoch": 0.2640416666666667,
      "grad_norm": 0.7301902174949646,
      "learning_rate": 0.00025235101458733345,
      "loss": 3.8254,
      "step": 126740
    },
    {
      "epoch": 0.2640625,
      "grad_norm": 0.7112642526626587,
      "learning_rate": 0.0002523438074192104,
      "loss": 3.8849,
      "step": 126750
    },
    {
      "epoch": 0.26408333333333334,
      "grad_norm": 0.8347976803779602,
      "learning_rate": 0.00025233659980900263,
      "loss": 3.9143,
      "step": 126760
    },
    {
      "epoch": 0.26410416666666664,
      "grad_norm": 0.8134211897850037,
      "learning_rate": 0.0002523293917567412,
      "loss": 3.9724,
      "step": 126770
    },
    {
      "epoch": 0.264125,
      "grad_norm": 0.6769863963127136,
      "learning_rate": 0.0002523221832624574,
      "loss": 3.887,
      "step": 126780
    },
    {
      "epoch": 0.26414583333333336,
      "grad_norm": 0.687929630279541,
      "learning_rate": 0.00025231497432618214,
      "loss": 3.7666,
      "step": 126790
    },
    {
      "epoch": 0.26416666666666666,
      "grad_norm": 0.6922773122787476,
      "learning_rate": 0.0002523077649479468,
      "loss": 3.9259,
      "step": 126800
    },
    {
      "epoch": 0.2641875,
      "grad_norm": 0.7559108734130859,
      "learning_rate": 0.00025230055512778235,
      "loss": 3.8555,
      "step": 126810
    },
    {
      "epoch": 0.2642083333333333,
      "grad_norm": 0.7158416509628296,
      "learning_rate": 0.00025229334486572,
      "loss": 4.0755,
      "step": 126820
    },
    {
      "epoch": 0.2642291666666667,
      "grad_norm": 0.7648738622665405,
      "learning_rate": 0.00025228613416179095,
      "loss": 4.026,
      "step": 126830
    },
    {
      "epoch": 0.26425,
      "grad_norm": 0.8115206360816956,
      "learning_rate": 0.0002522789230160262,
      "loss": 3.9598,
      "step": 126840
    },
    {
      "epoch": 0.26427083333333334,
      "grad_norm": 0.7714938521385193,
      "learning_rate": 0.00025227171142845704,
      "loss": 3.9263,
      "step": 126850
    },
    {
      "epoch": 0.26429166666666665,
      "grad_norm": 0.8490068912506104,
      "learning_rate": 0.0002522644993991146,
      "loss": 3.8431,
      "step": 126860
    },
    {
      "epoch": 0.2643125,
      "grad_norm": 0.69791179895401,
      "learning_rate": 0.00025225728692803,
      "loss": 3.9938,
      "step": 126870
    },
    {
      "epoch": 0.2643333333333333,
      "grad_norm": 0.7310870289802551,
      "learning_rate": 0.0002522500740152343,
      "loss": 3.7621,
      "step": 126880
    },
    {
      "epoch": 0.26435416666666667,
      "grad_norm": 0.7571334838867188,
      "learning_rate": 0.0002522428606607589,
      "loss": 3.8327,
      "step": 126890
    },
    {
      "epoch": 0.264375,
      "grad_norm": 0.7839317321777344,
      "learning_rate": 0.0002522356468646347,
      "loss": 3.9786,
      "step": 126900
    },
    {
      "epoch": 0.26439583333333333,
      "grad_norm": 0.6784114241600037,
      "learning_rate": 0.0002522284326268929,
      "loss": 3.9537,
      "step": 126910
    },
    {
      "epoch": 0.2644166666666667,
      "grad_norm": 0.7758464217185974,
      "learning_rate": 0.0002522212179475649,
      "loss": 3.811,
      "step": 126920
    },
    {
      "epoch": 0.2644375,
      "grad_norm": 0.7819792032241821,
      "learning_rate": 0.0002522140028266816,
      "loss": 3.761,
      "step": 126930
    },
    {
      "epoch": 0.26445833333333335,
      "grad_norm": 0.9437029361724854,
      "learning_rate": 0.0002522067872642743,
      "loss": 3.7094,
      "step": 126940
    },
    {
      "epoch": 0.26447916666666665,
      "grad_norm": 0.7907729148864746,
      "learning_rate": 0.00025219957126037417,
      "loss": 4.0409,
      "step": 126950
    },
    {
      "epoch": 0.2645,
      "grad_norm": 0.7902988791465759,
      "learning_rate": 0.0002521923548150123,
      "loss": 3.8768,
      "step": 126960
    },
    {
      "epoch": 0.2645208333333333,
      "grad_norm": 0.7575451135635376,
      "learning_rate": 0.00025218513792821994,
      "loss": 3.799,
      "step": 126970
    },
    {
      "epoch": 0.2645416666666667,
      "grad_norm": 0.8128279447555542,
      "learning_rate": 0.0002521779206000282,
      "loss": 3.7733,
      "step": 126980
    },
    {
      "epoch": 0.2645625,
      "grad_norm": 0.7818239331245422,
      "learning_rate": 0.00025217070283046827,
      "loss": 3.9454,
      "step": 126990
    },
    {
      "epoch": 0.26458333333333334,
      "grad_norm": 0.765714704990387,
      "learning_rate": 0.00025216348461957143,
      "loss": 4.1627,
      "step": 127000
    },
    {
      "epoch": 0.26458333333333334,
      "eval_loss": 4.23486852645874,
      "eval_runtime": 11.8482,
      "eval_samples_per_second": 0.844,
      "eval_steps_per_second": 0.253,
      "step": 127000
    },
    {
      "epoch": 0.26460416666666664,
      "grad_norm": 0.8181374669075012,
      "learning_rate": 0.0002521562659673687,
      "loss": 3.9154,
      "step": 127010
    },
    {
      "epoch": 0.264625,
      "grad_norm": 0.760775625705719,
      "learning_rate": 0.0002521490468738914,
      "loss": 4.0238,
      "step": 127020
    },
    {
      "epoch": 0.26464583333333336,
      "grad_norm": 0.8191899657249451,
      "learning_rate": 0.0002521418273391706,
      "loss": 3.8594,
      "step": 127030
    },
    {
      "epoch": 0.26466666666666666,
      "grad_norm": 0.9952373504638672,
      "learning_rate": 0.0002521346073632375,
      "loss": 3.6233,
      "step": 127040
    },
    {
      "epoch": 0.2646875,
      "grad_norm": 0.7293557524681091,
      "learning_rate": 0.00025212738694612336,
      "loss": 3.8351,
      "step": 127050
    },
    {
      "epoch": 0.2647083333333333,
      "grad_norm": 0.806799054145813,
      "learning_rate": 0.0002521201660878594,
      "loss": 3.861,
      "step": 127060
    },
    {
      "epoch": 0.2647291666666667,
      "grad_norm": 0.7097411751747131,
      "learning_rate": 0.00025211294478847665,
      "loss": 3.8411,
      "step": 127070
    },
    {
      "epoch": 0.26475,
      "grad_norm": 0.7837340831756592,
      "learning_rate": 0.0002521057230480065,
      "loss": 3.6824,
      "step": 127080
    },
    {
      "epoch": 0.26477083333333334,
      "grad_norm": 0.8192874789237976,
      "learning_rate": 0.00025209850086647993,
      "loss": 4.0565,
      "step": 127090
    },
    {
      "epoch": 0.26479166666666665,
      "grad_norm": 0.8385391235351562,
      "learning_rate": 0.0002520912782439283,
      "loss": 3.9638,
      "step": 127100
    },
    {
      "epoch": 0.2648125,
      "grad_norm": 0.8128628730773926,
      "learning_rate": 0.00025208405518038275,
      "loss": 3.8566,
      "step": 127110
    },
    {
      "epoch": 0.2648333333333333,
      "grad_norm": 0.7726175785064697,
      "learning_rate": 0.0002520768316758745,
      "loss": 3.8763,
      "step": 127120
    },
    {
      "epoch": 0.26485416666666667,
      "grad_norm": 0.7092775702476501,
      "learning_rate": 0.0002520696077304347,
      "loss": 4.0525,
      "step": 127130
    },
    {
      "epoch": 0.264875,
      "grad_norm": 0.675346851348877,
      "learning_rate": 0.0002520623833440947,
      "loss": 3.7974,
      "step": 127140
    },
    {
      "epoch": 0.26489583333333333,
      "grad_norm": 0.7330100536346436,
      "learning_rate": 0.0002520551585168855,
      "loss": 3.7251,
      "step": 127150
    },
    {
      "epoch": 0.2649166666666667,
      "grad_norm": 0.8329277634620667,
      "learning_rate": 0.00025204793324883843,
      "loss": 3.8611,
      "step": 127160
    },
    {
      "epoch": 0.2649375,
      "grad_norm": 0.7716445922851562,
      "learning_rate": 0.00025204070753998475,
      "loss": 3.6257,
      "step": 127170
    },
    {
      "epoch": 0.26495833333333335,
      "grad_norm": 0.8839665651321411,
      "learning_rate": 0.0002520334813903555,
      "loss": 3.8482,
      "step": 127180
    },
    {
      "epoch": 0.26497916666666665,
      "grad_norm": 0.8504778742790222,
      "learning_rate": 0.0002520262547999821,
      "loss": 3.9861,
      "step": 127190
    },
    {
      "epoch": 0.265,
      "grad_norm": 0.7573633790016174,
      "learning_rate": 0.0002520190277688956,
      "loss": 3.7905,
      "step": 127200
    },
    {
      "epoch": 0.2650208333333333,
      "grad_norm": 0.711225688457489,
      "learning_rate": 0.0002520118002971273,
      "loss": 4.0387,
      "step": 127210
    },
    {
      "epoch": 0.2650416666666667,
      "grad_norm": 0.7404026389122009,
      "learning_rate": 0.00025200457238470843,
      "loss": 3.7531,
      "step": 127220
    },
    {
      "epoch": 0.2650625,
      "grad_norm": 0.90092933177948,
      "learning_rate": 0.00025199734403167013,
      "loss": 3.9354,
      "step": 127230
    },
    {
      "epoch": 0.26508333333333334,
      "grad_norm": 0.9166718125343323,
      "learning_rate": 0.0002519901152380437,
      "loss": 3.8148,
      "step": 127240
    },
    {
      "epoch": 0.26510416666666664,
      "grad_norm": 0.785960853099823,
      "learning_rate": 0.0002519828860038604,
      "loss": 3.9508,
      "step": 127250
    },
    {
      "epoch": 0.265125,
      "grad_norm": 0.8403561115264893,
      "learning_rate": 0.0002519756563291513,
      "loss": 3.8288,
      "step": 127260
    },
    {
      "epoch": 0.26514583333333336,
      "grad_norm": 0.7235235571861267,
      "learning_rate": 0.00025196842621394775,
      "loss": 3.8304,
      "step": 127270
    },
    {
      "epoch": 0.26516666666666666,
      "grad_norm": 0.7259377837181091,
      "learning_rate": 0.000251961195658281,
      "loss": 3.8104,
      "step": 127280
    },
    {
      "epoch": 0.2651875,
      "grad_norm": 0.9728242754936218,
      "learning_rate": 0.00025195396466218224,
      "loss": 3.7583,
      "step": 127290
    },
    {
      "epoch": 0.2652083333333333,
      "grad_norm": 0.8590109348297119,
      "learning_rate": 0.00025194673322568266,
      "loss": 4.0519,
      "step": 127300
    },
    {
      "epoch": 0.2652291666666667,
      "grad_norm": 0.8058556318283081,
      "learning_rate": 0.0002519395013488136,
      "loss": 3.8562,
      "step": 127310
    },
    {
      "epoch": 0.26525,
      "grad_norm": 0.7124808430671692,
      "learning_rate": 0.00025193226903160625,
      "loss": 4.0076,
      "step": 127320
    },
    {
      "epoch": 0.26527083333333334,
      "grad_norm": 0.789286732673645,
      "learning_rate": 0.0002519250362740918,
      "loss": 3.8211,
      "step": 127330
    },
    {
      "epoch": 0.26529166666666665,
      "grad_norm": 0.8869807720184326,
      "learning_rate": 0.0002519178030763016,
      "loss": 3.8656,
      "step": 127340
    },
    {
      "epoch": 0.2653125,
      "grad_norm": 0.6867950558662415,
      "learning_rate": 0.00025191056943826677,
      "loss": 3.7919,
      "step": 127350
    },
    {
      "epoch": 0.2653333333333333,
      "grad_norm": 0.7298910617828369,
      "learning_rate": 0.00025190333536001866,
      "loss": 4.0298,
      "step": 127360
    },
    {
      "epoch": 0.26535416666666667,
      "grad_norm": 0.6995747089385986,
      "learning_rate": 0.0002518961008415885,
      "loss": 3.9145,
      "step": 127370
    },
    {
      "epoch": 0.265375,
      "grad_norm": 0.7662070393562317,
      "learning_rate": 0.0002518888658830074,
      "loss": 3.8961,
      "step": 127380
    },
    {
      "epoch": 0.26539583333333333,
      "grad_norm": 0.9776878952980042,
      "learning_rate": 0.0002518816304843069,
      "loss": 3.9866,
      "step": 127390
    },
    {
      "epoch": 0.2654166666666667,
      "grad_norm": 0.7664508819580078,
      "learning_rate": 0.0002518743946455179,
      "loss": 3.9657,
      "step": 127400
    },
    {
      "epoch": 0.2654375,
      "grad_norm": 0.7622472643852234,
      "learning_rate": 0.00025186715836667196,
      "loss": 3.8884,
      "step": 127410
    },
    {
      "epoch": 0.26545833333333335,
      "grad_norm": 0.7917435169219971,
      "learning_rate": 0.0002518599216478002,
      "loss": 3.9941,
      "step": 127420
    },
    {
      "epoch": 0.26547916666666665,
      "grad_norm": 0.6767178177833557,
      "learning_rate": 0.00025185268448893385,
      "loss": 3.8552,
      "step": 127430
    },
    {
      "epoch": 0.2655,
      "grad_norm": 0.7177636623382568,
      "learning_rate": 0.0002518454468901043,
      "loss": 3.9769,
      "step": 127440
    },
    {
      "epoch": 0.2655208333333333,
      "grad_norm": 0.7128068208694458,
      "learning_rate": 0.0002518382088513427,
      "loss": 4.0371,
      "step": 127450
    },
    {
      "epoch": 0.2655416666666667,
      "grad_norm": 0.7464169263839722,
      "learning_rate": 0.0002518309703726803,
      "loss": 3.9874,
      "step": 127460
    },
    {
      "epoch": 0.2655625,
      "grad_norm": 0.8032014966011047,
      "learning_rate": 0.0002518237314541485,
      "loss": 3.783,
      "step": 127470
    },
    {
      "epoch": 0.26558333333333334,
      "grad_norm": 0.7248806357383728,
      "learning_rate": 0.0002518164920957784,
      "loss": 3.879,
      "step": 127480
    },
    {
      "epoch": 0.26560416666666664,
      "grad_norm": 0.7738503217697144,
      "learning_rate": 0.00025180925229760135,
      "loss": 3.9137,
      "step": 127490
    },
    {
      "epoch": 0.265625,
      "grad_norm": 0.7410368323326111,
      "learning_rate": 0.0002518020120596487,
      "loss": 3.7913,
      "step": 127500
    },
    {
      "epoch": 0.26564583333333336,
      "grad_norm": 0.7843815088272095,
      "learning_rate": 0.00025179477138195165,
      "loss": 3.7957,
      "step": 127510
    },
    {
      "epoch": 0.26566666666666666,
      "grad_norm": 0.6901084184646606,
      "learning_rate": 0.00025178753026454143,
      "loss": 3.8436,
      "step": 127520
    },
    {
      "epoch": 0.2656875,
      "grad_norm": 0.7766137719154358,
      "learning_rate": 0.0002517802887074494,
      "loss": 3.6779,
      "step": 127530
    },
    {
      "epoch": 0.2657083333333333,
      "grad_norm": 0.8099930286407471,
      "learning_rate": 0.0002517730467107068,
      "loss": 3.9543,
      "step": 127540
    },
    {
      "epoch": 0.2657291666666667,
      "grad_norm": 0.73356032371521,
      "learning_rate": 0.0002517658042743449,
      "loss": 4.0321,
      "step": 127550
    },
    {
      "epoch": 0.26575,
      "grad_norm": 0.7410718202590942,
      "learning_rate": 0.00025175856139839504,
      "loss": 3.9692,
      "step": 127560
    },
    {
      "epoch": 0.26577083333333335,
      "grad_norm": 0.8036902546882629,
      "learning_rate": 0.0002517513180828885,
      "loss": 3.849,
      "step": 127570
    },
    {
      "epoch": 0.26579166666666665,
      "grad_norm": 0.794939398765564,
      "learning_rate": 0.0002517440743278565,
      "loss": 3.9771,
      "step": 127580
    },
    {
      "epoch": 0.2658125,
      "grad_norm": 0.746670663356781,
      "learning_rate": 0.0002517368301333304,
      "loss": 4.0105,
      "step": 127590
    },
    {
      "epoch": 0.2658333333333333,
      "grad_norm": 0.8231221437454224,
      "learning_rate": 0.0002517295854993414,
      "loss": 3.9677,
      "step": 127600
    },
    {
      "epoch": 0.26585416666666667,
      "grad_norm": 0.783407986164093,
      "learning_rate": 0.000251722340425921,
      "loss": 3.9786,
      "step": 127610
    },
    {
      "epoch": 0.265875,
      "grad_norm": 0.6567875146865845,
      "learning_rate": 0.00025171509491310023,
      "loss": 3.9833,
      "step": 127620
    },
    {
      "epoch": 0.26589583333333333,
      "grad_norm": 0.7398426532745361,
      "learning_rate": 0.0002517078489609105,
      "loss": 3.9187,
      "step": 127630
    },
    {
      "epoch": 0.2659166666666667,
      "grad_norm": 1.132751703262329,
      "learning_rate": 0.0002517006025693832,
      "loss": 3.9814,
      "step": 127640
    },
    {
      "epoch": 0.2659375,
      "grad_norm": 0.7110929489135742,
      "learning_rate": 0.00025169335573854945,
      "loss": 3.7984,
      "step": 127650
    },
    {
      "epoch": 0.26595833333333335,
      "grad_norm": 0.8112437129020691,
      "learning_rate": 0.00025168610846844076,
      "loss": 4.0111,
      "step": 127660
    },
    {
      "epoch": 0.26597916666666666,
      "grad_norm": 0.8284375071525574,
      "learning_rate": 0.00025167886075908827,
      "loss": 3.8562,
      "step": 127670
    },
    {
      "epoch": 0.266,
      "grad_norm": 0.7459589838981628,
      "learning_rate": 0.0002516716126105234,
      "loss": 3.9174,
      "step": 127680
    },
    {
      "epoch": 0.2660208333333333,
      "grad_norm": 0.7762990593910217,
      "learning_rate": 0.0002516643640227774,
      "loss": 3.8776,
      "step": 127690
    },
    {
      "epoch": 0.2660416666666667,
      "grad_norm": 0.8481523394584656,
      "learning_rate": 0.00025165711499588154,
      "loss": 3.9037,
      "step": 127700
    },
    {
      "epoch": 0.2660625,
      "grad_norm": 0.7749438881874084,
      "learning_rate": 0.00025164986552986724,
      "loss": 3.9023,
      "step": 127710
    },
    {
      "epoch": 0.26608333333333334,
      "grad_norm": 0.8255292773246765,
      "learning_rate": 0.0002516426156247657,
      "loss": 3.9035,
      "step": 127720
    },
    {
      "epoch": 0.26610416666666664,
      "grad_norm": 0.7504022121429443,
      "learning_rate": 0.0002516353652806083,
      "loss": 3.7357,
      "step": 127730
    },
    {
      "epoch": 0.266125,
      "grad_norm": 0.8789125680923462,
      "learning_rate": 0.0002516281144974264,
      "loss": 3.9961,
      "step": 127740
    },
    {
      "epoch": 0.26614583333333336,
      "grad_norm": 0.6947354078292847,
      "learning_rate": 0.00025162086327525123,
      "loss": 3.8597,
      "step": 127750
    },
    {
      "epoch": 0.26616666666666666,
      "grad_norm": 0.7753321528434753,
      "learning_rate": 0.0002516136116141142,
      "loss": 3.9477,
      "step": 127760
    },
    {
      "epoch": 0.2661875,
      "grad_norm": 0.8419240117073059,
      "learning_rate": 0.00025160635951404655,
      "loss": 3.8927,
      "step": 127770
    },
    {
      "epoch": 0.2662083333333333,
      "grad_norm": 0.8937268257141113,
      "learning_rate": 0.00025159910697507965,
      "loss": 3.991,
      "step": 127780
    },
    {
      "epoch": 0.2662291666666667,
      "grad_norm": 0.8562812805175781,
      "learning_rate": 0.00025159185399724484,
      "loss": 3.9156,
      "step": 127790
    },
    {
      "epoch": 0.26625,
      "grad_norm": 0.7744019627571106,
      "learning_rate": 0.0002515846005805734,
      "loss": 3.9286,
      "step": 127800
    },
    {
      "epoch": 0.26627083333333335,
      "grad_norm": 0.7662583589553833,
      "learning_rate": 0.0002515773467250967,
      "loss": 4.0042,
      "step": 127810
    },
    {
      "epoch": 0.26629166666666665,
      "grad_norm": 0.6993515491485596,
      "learning_rate": 0.0002515700924308461,
      "loss": 3.9077,
      "step": 127820
    },
    {
      "epoch": 0.2663125,
      "grad_norm": 0.7884823679924011,
      "learning_rate": 0.00025156283769785286,
      "loss": 3.8354,
      "step": 127830
    },
    {
      "epoch": 0.2663333333333333,
      "grad_norm": 0.8057529926300049,
      "learning_rate": 0.00025155558252614845,
      "loss": 3.9323,
      "step": 127840
    },
    {
      "epoch": 0.26635416666666667,
      "grad_norm": 0.7700971961021423,
      "learning_rate": 0.00025154832691576403,
      "loss": 3.7337,
      "step": 127850
    },
    {
      "epoch": 0.266375,
      "grad_norm": 0.7881869673728943,
      "learning_rate": 0.0002515410708667311,
      "loss": 3.8253,
      "step": 127860
    },
    {
      "epoch": 0.26639583333333333,
      "grad_norm": 0.7696899771690369,
      "learning_rate": 0.0002515338143790809,
      "loss": 3.9668,
      "step": 127870
    },
    {
      "epoch": 0.2664166666666667,
      "grad_norm": 0.7182843685150146,
      "learning_rate": 0.0002515265574528448,
      "loss": 3.8814,
      "step": 127880
    },
    {
      "epoch": 0.2664375,
      "grad_norm": 0.8742191195487976,
      "learning_rate": 0.0002515193000880542,
      "loss": 3.8172,
      "step": 127890
    },
    {
      "epoch": 0.26645833333333335,
      "grad_norm": 0.752532958984375,
      "learning_rate": 0.0002515120422847404,
      "loss": 3.7336,
      "step": 127900
    },
    {
      "epoch": 0.26647916666666666,
      "grad_norm": 0.743073582649231,
      "learning_rate": 0.00025150478404293474,
      "loss": 3.8886,
      "step": 127910
    },
    {
      "epoch": 0.2665,
      "grad_norm": 0.8176721334457397,
      "learning_rate": 0.0002514975253626686,
      "loss": 4.023,
      "step": 127920
    },
    {
      "epoch": 0.2665208333333333,
      "grad_norm": 0.730074942111969,
      "learning_rate": 0.0002514902662439733,
      "loss": 3.8618,
      "step": 127930
    },
    {
      "epoch": 0.2665416666666667,
      "grad_norm": 0.714226484298706,
      "learning_rate": 0.00025148300668688026,
      "loss": 3.7847,
      "step": 127940
    },
    {
      "epoch": 0.2665625,
      "grad_norm": 0.7988196015357971,
      "learning_rate": 0.0002514757466914208,
      "loss": 3.8642,
      "step": 127950
    },
    {
      "epoch": 0.26658333333333334,
      "grad_norm": 0.8668316006660461,
      "learning_rate": 0.0002514684862576262,
      "loss": 3.7376,
      "step": 127960
    },
    {
      "epoch": 0.26660416666666664,
      "grad_norm": 0.648080587387085,
      "learning_rate": 0.000251461225385528,
      "loss": 3.861,
      "step": 127970
    },
    {
      "epoch": 0.266625,
      "grad_norm": 0.792493999004364,
      "learning_rate": 0.00025145396407515744,
      "loss": 3.9245,
      "step": 127980
    },
    {
      "epoch": 0.26664583333333336,
      "grad_norm": 0.694037675857544,
      "learning_rate": 0.0002514467023265459,
      "loss": 3.8105,
      "step": 127990
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.7404451370239258,
      "learning_rate": 0.00025143944013972475,
      "loss": 3.9465,
      "step": 128000
    },
    {
      "epoch": 0.26666666666666666,
      "eval_loss": 4.232244968414307,
      "eval_runtime": 12.1938,
      "eval_samples_per_second": 0.82,
      "eval_steps_per_second": 0.246,
      "step": 128000
    },
    {
      "epoch": 0.2666875,
      "grad_norm": 0.6467376351356506,
      "learning_rate": 0.0002514321775147254,
      "loss": 4.0001,
      "step": 128010
    },
    {
      "epoch": 0.2667083333333333,
      "grad_norm": 0.6550230383872986,
      "learning_rate": 0.0002514249144515792,
      "loss": 3.9266,
      "step": 128020
    },
    {
      "epoch": 0.2667291666666667,
      "grad_norm": 1.0893518924713135,
      "learning_rate": 0.0002514176509503175,
      "loss": 3.9683,
      "step": 128030
    },
    {
      "epoch": 0.26675,
      "grad_norm": 0.7142029404640198,
      "learning_rate": 0.0002514103870109717,
      "loss": 3.9881,
      "step": 128040
    },
    {
      "epoch": 0.26677083333333335,
      "grad_norm": 0.7028687596321106,
      "learning_rate": 0.00025140312263357314,
      "loss": 3.98,
      "step": 128050
    },
    {
      "epoch": 0.26679166666666665,
      "grad_norm": 0.7645397782325745,
      "learning_rate": 0.0002513958578181533,
      "loss": 3.926,
      "step": 128060
    },
    {
      "epoch": 0.2668125,
      "grad_norm": 0.8149034976959229,
      "learning_rate": 0.0002513885925647434,
      "loss": 3.9624,
      "step": 128070
    },
    {
      "epoch": 0.2668333333333333,
      "grad_norm": 0.72609543800354,
      "learning_rate": 0.000251381326873375,
      "loss": 3.9018,
      "step": 128080
    },
    {
      "epoch": 0.26685416666666667,
      "grad_norm": 0.7569890022277832,
      "learning_rate": 0.0002513740607440793,
      "loss": 3.9492,
      "step": 128090
    },
    {
      "epoch": 0.266875,
      "grad_norm": 0.7408234477043152,
      "learning_rate": 0.0002513667941768878,
      "loss": 3.8429,
      "step": 128100
    },
    {
      "epoch": 0.26689583333333333,
      "grad_norm": 0.6675371527671814,
      "learning_rate": 0.0002513595271718319,
      "loss": 3.8443,
      "step": 128110
    },
    {
      "epoch": 0.2669166666666667,
      "grad_norm": 0.9853361248970032,
      "learning_rate": 0.00025135225972894304,
      "loss": 3.8214,
      "step": 128120
    },
    {
      "epoch": 0.2669375,
      "grad_norm": 0.7653986215591431,
      "learning_rate": 0.0002513449918482524,
      "loss": 3.8887,
      "step": 128130
    },
    {
      "epoch": 0.26695833333333335,
      "grad_norm": 0.7847464084625244,
      "learning_rate": 0.0002513377235297916,
      "loss": 3.8969,
      "step": 128140
    },
    {
      "epoch": 0.26697916666666666,
      "grad_norm": 0.8506678938865662,
      "learning_rate": 0.0002513304547735919,
      "loss": 3.9529,
      "step": 128150
    },
    {
      "epoch": 0.267,
      "grad_norm": 0.7683724761009216,
      "learning_rate": 0.00025132318557968483,
      "loss": 3.7015,
      "step": 128160
    },
    {
      "epoch": 0.2670208333333333,
      "grad_norm": 0.6963831186294556,
      "learning_rate": 0.0002513159159481016,
      "loss": 3.9163,
      "step": 128170
    },
    {
      "epoch": 0.2670416666666667,
      "grad_norm": 0.8111202716827393,
      "learning_rate": 0.00025130864587887377,
      "loss": 3.9985,
      "step": 128180
    },
    {
      "epoch": 0.2670625,
      "grad_norm": 0.9134371876716614,
      "learning_rate": 0.00025130137537203266,
      "loss": 3.9365,
      "step": 128190
    },
    {
      "epoch": 0.26708333333333334,
      "grad_norm": 0.8187398910522461,
      "learning_rate": 0.0002512941044276098,
      "loss": 4.0217,
      "step": 128200
    },
    {
      "epoch": 0.26710416666666664,
      "grad_norm": 0.752600371837616,
      "learning_rate": 0.0002512868330456364,
      "loss": 4.1522,
      "step": 128210
    },
    {
      "epoch": 0.267125,
      "grad_norm": 0.7927932143211365,
      "learning_rate": 0.000251279561226144,
      "loss": 3.7843,
      "step": 128220
    },
    {
      "epoch": 0.26714583333333336,
      "grad_norm": 0.7955322265625,
      "learning_rate": 0.00025127228896916395,
      "loss": 3.8995,
      "step": 128230
    },
    {
      "epoch": 0.26716666666666666,
      "grad_norm": 0.9179224967956543,
      "learning_rate": 0.00025126501627472774,
      "loss": 3.7773,
      "step": 128240
    },
    {
      "epoch": 0.2671875,
      "grad_norm": 0.9279886484146118,
      "learning_rate": 0.00025125774314286675,
      "loss": 3.843,
      "step": 128250
    },
    {
      "epoch": 0.2672083333333333,
      "grad_norm": 0.709936261177063,
      "learning_rate": 0.0002512504695736124,
      "loss": 3.7551,
      "step": 128260
    },
    {
      "epoch": 0.2672291666666667,
      "grad_norm": 0.7669687271118164,
      "learning_rate": 0.0002512431955669961,
      "loss": 4.0271,
      "step": 128270
    },
    {
      "epoch": 0.26725,
      "grad_norm": 0.7237969636917114,
      "learning_rate": 0.00025123592112304924,
      "loss": 3.7966,
      "step": 128280
    },
    {
      "epoch": 0.26727083333333335,
      "grad_norm": 0.7955637574195862,
      "learning_rate": 0.0002512286462418033,
      "loss": 3.9581,
      "step": 128290
    },
    {
      "epoch": 0.26729166666666665,
      "grad_norm": 0.7117471098899841,
      "learning_rate": 0.00025122137092328963,
      "loss": 3.953,
      "step": 128300
    },
    {
      "epoch": 0.2673125,
      "grad_norm": 0.7097080945968628,
      "learning_rate": 0.0002512140951675397,
      "loss": 3.8526,
      "step": 128310
    },
    {
      "epoch": 0.2673333333333333,
      "grad_norm": 0.7881277203559875,
      "learning_rate": 0.000251206818974585,
      "loss": 3.9089,
      "step": 128320
    },
    {
      "epoch": 0.26735416666666667,
      "grad_norm": 0.7313142418861389,
      "learning_rate": 0.0002511995423444569,
      "loss": 3.819,
      "step": 128330
    },
    {
      "epoch": 0.267375,
      "grad_norm": 0.8556851744651794,
      "learning_rate": 0.0002511922652771868,
      "loss": 3.8181,
      "step": 128340
    },
    {
      "epoch": 0.26739583333333333,
      "grad_norm": 0.6903709769248962,
      "learning_rate": 0.00025118498777280615,
      "loss": 3.8848,
      "step": 128350
    },
    {
      "epoch": 0.2674166666666667,
      "grad_norm": 0.6755292415618896,
      "learning_rate": 0.0002511777098313464,
      "loss": 3.8399,
      "step": 128360
    },
    {
      "epoch": 0.2674375,
      "grad_norm": 0.6706302165985107,
      "learning_rate": 0.0002511704314528391,
      "loss": 3.7746,
      "step": 128370
    },
    {
      "epoch": 0.26745833333333335,
      "grad_norm": 0.7644819021224976,
      "learning_rate": 0.0002511631526373155,
      "loss": 3.8486,
      "step": 128380
    },
    {
      "epoch": 0.26747916666666666,
      "grad_norm": 0.719713568687439,
      "learning_rate": 0.00025115587338480716,
      "loss": 3.7356,
      "step": 128390
    },
    {
      "epoch": 0.2675,
      "grad_norm": 0.7715482115745544,
      "learning_rate": 0.0002511485936953454,
      "loss": 3.8925,
      "step": 128400
    },
    {
      "epoch": 0.2675208333333333,
      "grad_norm": 0.7092767953872681,
      "learning_rate": 0.00025114131356896184,
      "loss": 3.8792,
      "step": 128410
    },
    {
      "epoch": 0.2675416666666667,
      "grad_norm": 0.8188432455062866,
      "learning_rate": 0.0002511340330056878,
      "loss": 3.9632,
      "step": 128420
    },
    {
      "epoch": 0.2675625,
      "grad_norm": 0.7163184285163879,
      "learning_rate": 0.0002511267520055548,
      "loss": 3.7657,
      "step": 128430
    },
    {
      "epoch": 0.26758333333333334,
      "grad_norm": 0.8016465306282043,
      "learning_rate": 0.00025111947056859424,
      "loss": 3.8834,
      "step": 128440
    },
    {
      "epoch": 0.26760416666666664,
      "grad_norm": 0.8232869505882263,
      "learning_rate": 0.0002511121886948376,
      "loss": 4.0663,
      "step": 128450
    },
    {
      "epoch": 0.267625,
      "grad_norm": 0.7115660309791565,
      "learning_rate": 0.00025110490638431633,
      "loss": 3.9009,
      "step": 128460
    },
    {
      "epoch": 0.26764583333333336,
      "grad_norm": 0.6573045253753662,
      "learning_rate": 0.0002510976236370619,
      "loss": 3.8614,
      "step": 128470
    },
    {
      "epoch": 0.26766666666666666,
      "grad_norm": 0.8726466298103333,
      "learning_rate": 0.0002510903404531057,
      "loss": 3.8294,
      "step": 128480
    },
    {
      "epoch": 0.2676875,
      "grad_norm": 0.6884239315986633,
      "learning_rate": 0.0002510830568324793,
      "loss": 3.9034,
      "step": 128490
    },
    {
      "epoch": 0.2677083333333333,
      "grad_norm": 0.8608121275901794,
      "learning_rate": 0.000251075772775214,
      "loss": 3.7835,
      "step": 128500
    },
    {
      "epoch": 0.2677291666666667,
      "grad_norm": 0.7819408178329468,
      "learning_rate": 0.00025106848828134154,
      "loss": 3.953,
      "step": 128510
    },
    {
      "epoch": 0.26775,
      "grad_norm": 0.7153249382972717,
      "learning_rate": 0.0002510612033508931,
      "loss": 4.0278,
      "step": 128520
    },
    {
      "epoch": 0.26777083333333335,
      "grad_norm": 0.7487329840660095,
      "learning_rate": 0.00025105391798390026,
      "loss": 3.9043,
      "step": 128530
    },
    {
      "epoch": 0.26779166666666665,
      "grad_norm": 0.943751871585846,
      "learning_rate": 0.00025104663218039456,
      "loss": 4.0024,
      "step": 128540
    },
    {
      "epoch": 0.2678125,
      "grad_norm": 0.8090039491653442,
      "learning_rate": 0.00025103934594040734,
      "loss": 4.0493,
      "step": 128550
    },
    {
      "epoch": 0.2678333333333333,
      "grad_norm": 0.7392368316650391,
      "learning_rate": 0.0002510320592639702,
      "loss": 3.8261,
      "step": 128560
    },
    {
      "epoch": 0.26785416666666667,
      "grad_norm": 0.7134292721748352,
      "learning_rate": 0.0002510247721511145,
      "loss": 3.796,
      "step": 128570
    },
    {
      "epoch": 0.267875,
      "grad_norm": 0.6912939548492432,
      "learning_rate": 0.00025101748460187184,
      "loss": 3.7968,
      "step": 128580
    },
    {
      "epoch": 0.26789583333333333,
      "grad_norm": 0.6781319975852966,
      "learning_rate": 0.0002510101966162736,
      "loss": 3.8147,
      "step": 128590
    },
    {
      "epoch": 0.2679166666666667,
      "grad_norm": 0.7585493326187134,
      "learning_rate": 0.0002510029081943513,
      "loss": 3.8284,
      "step": 128600
    },
    {
      "epoch": 0.2679375,
      "grad_norm": 0.8448770046234131,
      "learning_rate": 0.0002509956193361363,
      "loss": 3.8359,
      "step": 128610
    },
    {
      "epoch": 0.26795833333333335,
      "grad_norm": 0.852157473564148,
      "learning_rate": 0.00025098833004166035,
      "loss": 3.8539,
      "step": 128620
    },
    {
      "epoch": 0.26797916666666666,
      "grad_norm": 0.6990941166877747,
      "learning_rate": 0.0002509810403109547,
      "loss": 3.9611,
      "step": 128630
    },
    {
      "epoch": 0.268,
      "grad_norm": 0.659576416015625,
      "learning_rate": 0.000250973750144051,
      "loss": 3.7766,
      "step": 128640
    },
    {
      "epoch": 0.2680208333333333,
      "grad_norm": 0.8694888949394226,
      "learning_rate": 0.0002509664595409806,
      "loss": 4.0462,
      "step": 128650
    },
    {
      "epoch": 0.2680416666666667,
      "grad_norm": 0.8008922338485718,
      "learning_rate": 0.0002509591685017751,
      "loss": 3.8403,
      "step": 128660
    },
    {
      "epoch": 0.2680625,
      "grad_norm": 0.7438352108001709,
      "learning_rate": 0.00025095187702646595,
      "loss": 3.9541,
      "step": 128670
    },
    {
      "epoch": 0.26808333333333334,
      "grad_norm": 0.8246774077415466,
      "learning_rate": 0.00025094458511508465,
      "loss": 3.9674,
      "step": 128680
    },
    {
      "epoch": 0.26810416666666664,
      "grad_norm": 0.7897971868515015,
      "learning_rate": 0.0002509372927676627,
      "loss": 3.8671,
      "step": 128690
    },
    {
      "epoch": 0.268125,
      "grad_norm": 0.790625274181366,
      "learning_rate": 0.0002509299999842316,
      "loss": 4.1044,
      "step": 128700
    },
    {
      "epoch": 0.26814583333333336,
      "grad_norm": 1.0381884574890137,
      "learning_rate": 0.0002509227067648229,
      "loss": 3.8966,
      "step": 128710
    },
    {
      "epoch": 0.26816666666666666,
      "grad_norm": 0.8424479961395264,
      "learning_rate": 0.000250915413109468,
      "loss": 3.8992,
      "step": 128720
    },
    {
      "epoch": 0.2681875,
      "grad_norm": 0.8551189303398132,
      "learning_rate": 0.00025090811901819844,
      "loss": 3.7746,
      "step": 128730
    },
    {
      "epoch": 0.2682083333333333,
      "grad_norm": 0.9746466279029846,
      "learning_rate": 0.0002509008244910458,
      "loss": 4.0204,
      "step": 128740
    },
    {
      "epoch": 0.2682291666666667,
      "grad_norm": 0.777152955532074,
      "learning_rate": 0.0002508935295280415,
      "loss": 3.9097,
      "step": 128750
    },
    {
      "epoch": 0.26825,
      "grad_norm": 0.6616126298904419,
      "learning_rate": 0.00025088623412921707,
      "loss": 3.9498,
      "step": 128760
    },
    {
      "epoch": 0.26827083333333335,
      "grad_norm": 0.8041462898254395,
      "learning_rate": 0.0002508789382946041,
      "loss": 4.0421,
      "step": 128770
    },
    {
      "epoch": 0.26829166666666665,
      "grad_norm": 0.7007668614387512,
      "learning_rate": 0.000250871642024234,
      "loss": 3.9627,
      "step": 128780
    },
    {
      "epoch": 0.2683125,
      "grad_norm": 0.661449670791626,
      "learning_rate": 0.00025086434531813834,
      "loss": 3.9511,
      "step": 128790
    },
    {
      "epoch": 0.2683333333333333,
      "grad_norm": 0.8497302532196045,
      "learning_rate": 0.00025085704817634865,
      "loss": 3.9728,
      "step": 128800
    },
    {
      "epoch": 0.26835416666666667,
      "grad_norm": 0.9356180429458618,
      "learning_rate": 0.00025084975059889644,
      "loss": 3.9944,
      "step": 128810
    },
    {
      "epoch": 0.268375,
      "grad_norm": 0.7039536833763123,
      "learning_rate": 0.00025084245258581326,
      "loss": 3.9587,
      "step": 128820
    },
    {
      "epoch": 0.26839583333333333,
      "grad_norm": 0.8603288531303406,
      "learning_rate": 0.0002508351541371305,
      "loss": 3.943,
      "step": 128830
    },
    {
      "epoch": 0.2684166666666667,
      "grad_norm": 0.7417218685150146,
      "learning_rate": 0.0002508278552528798,
      "loss": 3.7749,
      "step": 128840
    },
    {
      "epoch": 0.2684375,
      "grad_norm": 0.7818171977996826,
      "learning_rate": 0.00025082055593309276,
      "loss": 3.7824,
      "step": 128850
    },
    {
      "epoch": 0.26845833333333335,
      "grad_norm": 0.7518819570541382,
      "learning_rate": 0.0002508132561778008,
      "loss": 3.9289,
      "step": 128860
    },
    {
      "epoch": 0.26847916666666666,
      "grad_norm": 0.6748148202896118,
      "learning_rate": 0.00025080595598703546,
      "loss": 3.8318,
      "step": 128870
    },
    {
      "epoch": 0.2685,
      "grad_norm": 0.9401952624320984,
      "learning_rate": 0.0002507986553608283,
      "loss": 3.8594,
      "step": 128880
    },
    {
      "epoch": 0.2685208333333333,
      "grad_norm": 0.6781480312347412,
      "learning_rate": 0.00025079135429921084,
      "loss": 3.9827,
      "step": 128890
    },
    {
      "epoch": 0.2685416666666667,
      "grad_norm": 0.733369767665863,
      "learning_rate": 0.00025078405280221463,
      "loss": 3.7452,
      "step": 128900
    },
    {
      "epoch": 0.2685625,
      "grad_norm": 0.6769725680351257,
      "learning_rate": 0.0002507767508698712,
      "loss": 4.0058,
      "step": 128910
    },
    {
      "epoch": 0.26858333333333334,
      "grad_norm": 0.8139511942863464,
      "learning_rate": 0.0002507694485022121,
      "loss": 4.0858,
      "step": 128920
    },
    {
      "epoch": 0.26860416666666664,
      "grad_norm": 0.8075921535491943,
      "learning_rate": 0.00025076214569926886,
      "loss": 3.9899,
      "step": 128930
    },
    {
      "epoch": 0.268625,
      "grad_norm": 0.9116136431694031,
      "learning_rate": 0.0002507548424610731,
      "loss": 3.8998,
      "step": 128940
    },
    {
      "epoch": 0.2686458333333333,
      "grad_norm": 0.725657045841217,
      "learning_rate": 0.0002507475387876562,
      "loss": 3.9489,
      "step": 128950
    },
    {
      "epoch": 0.26866666666666666,
      "grad_norm": 0.6882716417312622,
      "learning_rate": 0.00025074023467904985,
      "loss": 3.9261,
      "step": 128960
    },
    {
      "epoch": 0.2686875,
      "grad_norm": 0.7997869253158569,
      "learning_rate": 0.00025073293013528556,
      "loss": 3.8984,
      "step": 128970
    },
    {
      "epoch": 0.2687083333333333,
      "grad_norm": 0.7673331499099731,
      "learning_rate": 0.0002507256251563949,
      "loss": 3.7616,
      "step": 128980
    },
    {
      "epoch": 0.2687291666666667,
      "grad_norm": 0.8854137063026428,
      "learning_rate": 0.0002507183197424094,
      "loss": 4.0489,
      "step": 128990
    },
    {
      "epoch": 0.26875,
      "grad_norm": 0.7179070115089417,
      "learning_rate": 0.00025071101389336067,
      "loss": 4.022,
      "step": 129000
    },
    {
      "epoch": 0.26875,
      "eval_loss": 4.229150295257568,
      "eval_runtime": 11.0173,
      "eval_samples_per_second": 0.908,
      "eval_steps_per_second": 0.272,
      "step": 129000
    },
    {
      "epoch": 0.26877083333333335,
      "grad_norm": 0.707489550113678,
      "learning_rate": 0.00025070370760928016,
      "loss": 3.6895,
      "step": 129010
    },
    {
      "epoch": 0.26879166666666665,
      "grad_norm": 0.8196832537651062,
      "learning_rate": 0.0002506964008901996,
      "loss": 3.8217,
      "step": 129020
    },
    {
      "epoch": 0.2688125,
      "grad_norm": 0.7736548781394958,
      "learning_rate": 0.0002506890937361503,
      "loss": 3.9277,
      "step": 129030
    },
    {
      "epoch": 0.2688333333333333,
      "grad_norm": 0.7167484760284424,
      "learning_rate": 0.000250681786147164,
      "loss": 3.8944,
      "step": 129040
    },
    {
      "epoch": 0.26885416666666667,
      "grad_norm": 0.7830126881599426,
      "learning_rate": 0.0002506744781232723,
      "loss": 3.9204,
      "step": 129050
    },
    {
      "epoch": 0.268875,
      "grad_norm": 0.7611603140830994,
      "learning_rate": 0.00025066716966450666,
      "loss": 4.0039,
      "step": 129060
    },
    {
      "epoch": 0.26889583333333333,
      "grad_norm": 0.780301570892334,
      "learning_rate": 0.0002506598607708987,
      "loss": 3.9854,
      "step": 129070
    },
    {
      "epoch": 0.2689166666666667,
      "grad_norm": 0.7144777774810791,
      "learning_rate": 0.00025065255144248003,
      "loss": 3.8018,
      "step": 129080
    },
    {
      "epoch": 0.2689375,
      "grad_norm": 0.7523015141487122,
      "learning_rate": 0.0002506452416792821,
      "loss": 3.8755,
      "step": 129090
    },
    {
      "epoch": 0.26895833333333335,
      "grad_norm": 0.7511728405952454,
      "learning_rate": 0.0002506379314813367,
      "loss": 3.9269,
      "step": 129100
    },
    {
      "epoch": 0.26897916666666666,
      "grad_norm": 0.8141710162162781,
      "learning_rate": 0.0002506306208486751,
      "loss": 3.6772,
      "step": 129110
    },
    {
      "epoch": 0.269,
      "grad_norm": 0.676038920879364,
      "learning_rate": 0.00025062330978132917,
      "loss": 3.8685,
      "step": 129120
    },
    {
      "epoch": 0.2690208333333333,
      "grad_norm": 0.8108827471733093,
      "learning_rate": 0.00025061599827933033,
      "loss": 3.8178,
      "step": 129130
    },
    {
      "epoch": 0.2690416666666667,
      "grad_norm": 0.7737749814987183,
      "learning_rate": 0.0002506086863427102,
      "loss": 3.7297,
      "step": 129140
    },
    {
      "epoch": 0.2690625,
      "grad_norm": 0.9329675436019897,
      "learning_rate": 0.00025060137397150034,
      "loss": 3.7672,
      "step": 129150
    },
    {
      "epoch": 0.26908333333333334,
      "grad_norm": 0.8748907446861267,
      "learning_rate": 0.00025059406116573245,
      "loss": 3.8987,
      "step": 129160
    },
    {
      "epoch": 0.26910416666666664,
      "grad_norm": 0.7851693034172058,
      "learning_rate": 0.00025058674792543796,
      "loss": 4.0234,
      "step": 129170
    },
    {
      "epoch": 0.269125,
      "grad_norm": 0.9862889051437378,
      "learning_rate": 0.00025057943425064853,
      "loss": 3.9621,
      "step": 129180
    },
    {
      "epoch": 0.2691458333333333,
      "grad_norm": 0.7489972114562988,
      "learning_rate": 0.0002505721201413958,
      "loss": 4.0721,
      "step": 129190
    },
    {
      "epoch": 0.26916666666666667,
      "grad_norm": 0.8045079708099365,
      "learning_rate": 0.0002505648055977113,
      "loss": 4.0011,
      "step": 129200
    },
    {
      "epoch": 0.2691875,
      "grad_norm": 0.8051006197929382,
      "learning_rate": 0.0002505574906196267,
      "loss": 4.0137,
      "step": 129210
    },
    {
      "epoch": 0.2692083333333333,
      "grad_norm": 0.7096201777458191,
      "learning_rate": 0.00025055017520717347,
      "loss": 3.789,
      "step": 129220
    },
    {
      "epoch": 0.2692291666666667,
      "grad_norm": 0.9520490169525146,
      "learning_rate": 0.0002505428593603833,
      "loss": 3.7699,
      "step": 129230
    },
    {
      "epoch": 0.26925,
      "grad_norm": 0.7577147483825684,
      "learning_rate": 0.0002505355430792878,
      "loss": 4.1359,
      "step": 129240
    },
    {
      "epoch": 0.26927083333333335,
      "grad_norm": 0.750428318977356,
      "learning_rate": 0.0002505282263639185,
      "loss": 3.9625,
      "step": 129250
    },
    {
      "epoch": 0.26929166666666665,
      "grad_norm": 0.7137652039527893,
      "learning_rate": 0.0002505209092143071,
      "loss": 3.8019,
      "step": 129260
    },
    {
      "epoch": 0.2693125,
      "grad_norm": 0.813197910785675,
      "learning_rate": 0.0002505135916304851,
      "loss": 3.9521,
      "step": 129270
    },
    {
      "epoch": 0.2693333333333333,
      "grad_norm": 0.8056837916374207,
      "learning_rate": 0.00025050627361248424,
      "loss": 3.9439,
      "step": 129280
    },
    {
      "epoch": 0.2693541666666667,
      "grad_norm": 0.9283466935157776,
      "learning_rate": 0.00025049895516033606,
      "loss": 3.89,
      "step": 129290
    },
    {
      "epoch": 0.269375,
      "grad_norm": 0.764963686466217,
      "learning_rate": 0.00025049163627407215,
      "loss": 3.8836,
      "step": 129300
    },
    {
      "epoch": 0.26939583333333333,
      "grad_norm": 0.7258776426315308,
      "learning_rate": 0.00025048431695372415,
      "loss": 3.8899,
      "step": 129310
    },
    {
      "epoch": 0.2694166666666667,
      "grad_norm": 0.9638092517852783,
      "learning_rate": 0.0002504769971993237,
      "loss": 3.9628,
      "step": 129320
    },
    {
      "epoch": 0.2694375,
      "grad_norm": 0.8201643228530884,
      "learning_rate": 0.0002504696770109023,
      "loss": 3.8431,
      "step": 129330
    },
    {
      "epoch": 0.26945833333333336,
      "grad_norm": 0.7747397422790527,
      "learning_rate": 0.00025046235638849176,
      "loss": 3.9981,
      "step": 129340
    },
    {
      "epoch": 0.26947916666666666,
      "grad_norm": 0.7439215183258057,
      "learning_rate": 0.0002504550353321236,
      "loss": 3.8835,
      "step": 129350
    },
    {
      "epoch": 0.2695,
      "grad_norm": 0.8077954053878784,
      "learning_rate": 0.0002504477138418294,
      "loss": 3.9277,
      "step": 129360
    },
    {
      "epoch": 0.2695208333333333,
      "grad_norm": 0.7119661569595337,
      "learning_rate": 0.00025044039191764086,
      "loss": 3.9014,
      "step": 129370
    },
    {
      "epoch": 0.2695416666666667,
      "grad_norm": 0.7934789061546326,
      "learning_rate": 0.00025043306955958963,
      "loss": 4.0034,
      "step": 129380
    },
    {
      "epoch": 0.2695625,
      "grad_norm": 0.7537568211555481,
      "learning_rate": 0.0002504257467677072,
      "loss": 3.7715,
      "step": 129390
    },
    {
      "epoch": 0.26958333333333334,
      "grad_norm": 0.7211953401565552,
      "learning_rate": 0.00025041842354202537,
      "loss": 3.7743,
      "step": 129400
    },
    {
      "epoch": 0.26960416666666664,
      "grad_norm": 0.8001144528388977,
      "learning_rate": 0.0002504110998825757,
      "loss": 3.6992,
      "step": 129410
    },
    {
      "epoch": 0.269625,
      "grad_norm": 0.7298014163970947,
      "learning_rate": 0.00025040377578938977,
      "loss": 3.9463,
      "step": 129420
    },
    {
      "epoch": 0.2696458333333333,
      "grad_norm": 0.7385618090629578,
      "learning_rate": 0.0002503964512624993,
      "loss": 3.8149,
      "step": 129430
    },
    {
      "epoch": 0.26966666666666667,
      "grad_norm": 0.7265936136245728,
      "learning_rate": 0.00025038912630193593,
      "loss": 3.8766,
      "step": 129440
    },
    {
      "epoch": 0.2696875,
      "grad_norm": 0.7293309569358826,
      "learning_rate": 0.00025038180090773124,
      "loss": 3.9217,
      "step": 129450
    },
    {
      "epoch": 0.2697083333333333,
      "grad_norm": 0.7431997656822205,
      "learning_rate": 0.0002503744750799169,
      "loss": 3.9789,
      "step": 129460
    },
    {
      "epoch": 0.2697291666666667,
      "grad_norm": 0.7740062475204468,
      "learning_rate": 0.00025036714881852454,
      "loss": 3.7828,
      "step": 129470
    },
    {
      "epoch": 0.26975,
      "grad_norm": 0.7465144991874695,
      "learning_rate": 0.00025035982212358586,
      "loss": 3.8417,
      "step": 129480
    },
    {
      "epoch": 0.26977083333333335,
      "grad_norm": 0.8230554461479187,
      "learning_rate": 0.00025035249499513247,
      "loss": 3.8257,
      "step": 129490
    },
    {
      "epoch": 0.26979166666666665,
      "grad_norm": 0.8615636229515076,
      "learning_rate": 0.000250345167433196,
      "loss": 3.8576,
      "step": 129500
    },
    {
      "epoch": 0.2698125,
      "grad_norm": 0.8997325301170349,
      "learning_rate": 0.00025033783943780816,
      "loss": 3.8136,
      "step": 129510
    },
    {
      "epoch": 0.2698333333333333,
      "grad_norm": 0.7528025507926941,
      "learning_rate": 0.0002503305110090005,
      "loss": 3.931,
      "step": 129520
    },
    {
      "epoch": 0.2698541666666667,
      "grad_norm": 0.8613823652267456,
      "learning_rate": 0.00025032318214680485,
      "loss": 3.9972,
      "step": 129530
    },
    {
      "epoch": 0.269875,
      "grad_norm": 0.7448412775993347,
      "learning_rate": 0.0002503158528512527,
      "loss": 3.945,
      "step": 129540
    },
    {
      "epoch": 0.26989583333333333,
      "grad_norm": 0.7557447552680969,
      "learning_rate": 0.0002503085231223758,
      "loss": 3.864,
      "step": 129550
    },
    {
      "epoch": 0.2699166666666667,
      "grad_norm": 0.7672606706619263,
      "learning_rate": 0.0002503011929602058,
      "loss": 3.9333,
      "step": 129560
    },
    {
      "epoch": 0.2699375,
      "grad_norm": 0.7477983832359314,
      "learning_rate": 0.00025029386236477433,
      "loss": 3.9989,
      "step": 129570
    },
    {
      "epoch": 0.26995833333333336,
      "grad_norm": 0.8532478213310242,
      "learning_rate": 0.0002502865313361131,
      "loss": 3.767,
      "step": 129580
    },
    {
      "epoch": 0.26997916666666666,
      "grad_norm": 0.841403603553772,
      "learning_rate": 0.00025027919987425366,
      "loss": 3.8997,
      "step": 129590
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8174450993537903,
      "learning_rate": 0.0002502718679792278,
      "loss": 3.7957,
      "step": 129600
    },
    {
      "epoch": 0.2700208333333333,
      "grad_norm": 0.7728173136711121,
      "learning_rate": 0.0002502645356510672,
      "loss": 3.6675,
      "step": 129610
    },
    {
      "epoch": 0.2700416666666667,
      "grad_norm": 0.7392288446426392,
      "learning_rate": 0.00025025720288980347,
      "loss": 3.9039,
      "step": 129620
    },
    {
      "epoch": 0.2700625,
      "grad_norm": 0.760933518409729,
      "learning_rate": 0.00025024986969546833,
      "loss": 3.8364,
      "step": 129630
    },
    {
      "epoch": 0.27008333333333334,
      "grad_norm": 0.7059713006019592,
      "learning_rate": 0.0002502425360680934,
      "loss": 3.9169,
      "step": 129640
    },
    {
      "epoch": 0.27010416666666665,
      "grad_norm": 0.734019935131073,
      "learning_rate": 0.00025023520200771044,
      "loss": 3.8246,
      "step": 129650
    },
    {
      "epoch": 0.270125,
      "grad_norm": 0.8283596038818359,
      "learning_rate": 0.00025022786751435105,
      "loss": 3.8954,
      "step": 129660
    },
    {
      "epoch": 0.2701458333333333,
      "grad_norm": 0.7690246105194092,
      "learning_rate": 0.00025022053258804696,
      "loss": 3.8054,
      "step": 129670
    },
    {
      "epoch": 0.27016666666666667,
      "grad_norm": 0.7597419619560242,
      "learning_rate": 0.00025021319722882984,
      "loss": 3.9344,
      "step": 129680
    },
    {
      "epoch": 0.2701875,
      "grad_norm": 0.7585727572441101,
      "learning_rate": 0.0002502058614367314,
      "loss": 3.9839,
      "step": 129690
    },
    {
      "epoch": 0.27020833333333333,
      "grad_norm": 0.8148194551467896,
      "learning_rate": 0.0002501985252117833,
      "loss": 4.064,
      "step": 129700
    },
    {
      "epoch": 0.2702291666666667,
      "grad_norm": 0.8939324021339417,
      "learning_rate": 0.00025019118855401716,
      "loss": 3.9855,
      "step": 129710
    },
    {
      "epoch": 0.27025,
      "grad_norm": 0.9141461849212646,
      "learning_rate": 0.00025018385146346474,
      "loss": 3.8536,
      "step": 129720
    },
    {
      "epoch": 0.27027083333333335,
      "grad_norm": 0.8374649882316589,
      "learning_rate": 0.0002501765139401578,
      "loss": 3.8347,
      "step": 129730
    },
    {
      "epoch": 0.27029166666666665,
      "grad_norm": 0.9741665720939636,
      "learning_rate": 0.00025016917598412794,
      "loss": 3.814,
      "step": 129740
    },
    {
      "epoch": 0.2703125,
      "grad_norm": 1.0571472644805908,
      "learning_rate": 0.0002501618375954069,
      "loss": 4.0678,
      "step": 129750
    },
    {
      "epoch": 0.2703333333333333,
      "grad_norm": 0.9200251698493958,
      "learning_rate": 0.0002501544987740264,
      "loss": 3.9755,
      "step": 129760
    },
    {
      "epoch": 0.2703541666666667,
      "grad_norm": 0.7352839708328247,
      "learning_rate": 0.00025014715952001806,
      "loss": 3.7766,
      "step": 129770
    },
    {
      "epoch": 0.270375,
      "grad_norm": 0.7878907918930054,
      "learning_rate": 0.0002501398198334137,
      "loss": 3.8287,
      "step": 129780
    },
    {
      "epoch": 0.27039583333333334,
      "grad_norm": 0.7867355942726135,
      "learning_rate": 0.00025013247971424486,
      "loss": 3.8885,
      "step": 129790
    },
    {
      "epoch": 0.2704166666666667,
      "grad_norm": 0.661654531955719,
      "learning_rate": 0.00025012513916254344,
      "loss": 4.0501,
      "step": 129800
    },
    {
      "epoch": 0.2704375,
      "grad_norm": 0.6867603659629822,
      "learning_rate": 0.000250117798178341,
      "loss": 3.9092,
      "step": 129810
    },
    {
      "epoch": 0.27045833333333336,
      "grad_norm": 0.742230236530304,
      "learning_rate": 0.0002501104567616693,
      "loss": 3.7246,
      "step": 129820
    },
    {
      "epoch": 0.27047916666666666,
      "grad_norm": 0.8872735500335693,
      "learning_rate": 0.0002501031149125601,
      "loss": 3.9874,
      "step": 129830
    },
    {
      "epoch": 0.2705,
      "grad_norm": 0.7237175107002258,
      "learning_rate": 0.000250095772631045,
      "loss": 3.9547,
      "step": 129840
    },
    {
      "epoch": 0.2705208333333333,
      "grad_norm": 0.8512241244316101,
      "learning_rate": 0.0002500884299171558,
      "loss": 3.8015,
      "step": 129850
    },
    {
      "epoch": 0.2705416666666667,
      "grad_norm": 0.6845589280128479,
      "learning_rate": 0.0002500810867709242,
      "loss": 3.8762,
      "step": 129860
    },
    {
      "epoch": 0.2705625,
      "grad_norm": 0.9259349703788757,
      "learning_rate": 0.00025007374319238195,
      "loss": 3.8415,
      "step": 129870
    },
    {
      "epoch": 0.27058333333333334,
      "grad_norm": 0.7544795870780945,
      "learning_rate": 0.0002500663991815607,
      "loss": 3.9247,
      "step": 129880
    },
    {
      "epoch": 0.27060416666666665,
      "grad_norm": 0.8141941428184509,
      "learning_rate": 0.0002500590547384923,
      "loss": 3.9251,
      "step": 129890
    },
    {
      "epoch": 0.270625,
      "grad_norm": 0.6968669295310974,
      "learning_rate": 0.0002500517098632083,
      "loss": 3.9042,
      "step": 129900
    },
    {
      "epoch": 0.2706458333333333,
      "grad_norm": 0.78533536195755,
      "learning_rate": 0.0002500443645557405,
      "loss": 3.7553,
      "step": 129910
    },
    {
      "epoch": 0.27066666666666667,
      "grad_norm": 0.6940984725952148,
      "learning_rate": 0.00025003701881612074,
      "loss": 4.0104,
      "step": 129920
    },
    {
      "epoch": 0.2706875,
      "grad_norm": 0.7834740281105042,
      "learning_rate": 0.0002500296726443806,
      "loss": 3.7916,
      "step": 129930
    },
    {
      "epoch": 0.27070833333333333,
      "grad_norm": 0.7584323287010193,
      "learning_rate": 0.00025002232604055184,
      "loss": 4.1122,
      "step": 129940
    },
    {
      "epoch": 0.2707291666666667,
      "grad_norm": 0.9145352244377136,
      "learning_rate": 0.00025001497900466624,
      "loss": 3.9143,
      "step": 129950
    },
    {
      "epoch": 0.27075,
      "grad_norm": 0.7293458580970764,
      "learning_rate": 0.00025000763153675557,
      "loss": 3.8889,
      "step": 129960
    },
    {
      "epoch": 0.27077083333333335,
      "grad_norm": 0.9698682427406311,
      "learning_rate": 0.0002500002836368515,
      "loss": 3.9077,
      "step": 129970
    },
    {
      "epoch": 0.27079166666666665,
      "grad_norm": 0.7011756896972656,
      "learning_rate": 0.00024999293530498574,
      "loss": 3.9642,
      "step": 129980
    },
    {
      "epoch": 0.2708125,
      "grad_norm": 0.759166955947876,
      "learning_rate": 0.0002499855865411901,
      "loss": 3.8375,
      "step": 129990
    },
    {
      "epoch": 0.2708333333333333,
      "grad_norm": 0.7864195108413696,
      "learning_rate": 0.0002499782373454963,
      "loss": 3.9426,
      "step": 130000
    },
    {
      "epoch": 0.2708333333333333,
      "eval_loss": 4.224355697631836,
      "eval_runtime": 8.8105,
      "eval_samples_per_second": 1.135,
      "eval_steps_per_second": 0.341,
      "step": 130000
    },
    {
      "epoch": 0.2708541666666667,
      "grad_norm": 0.7983626127243042,
      "learning_rate": 0.00024997088771793613,
      "loss": 3.7616,
      "step": 130010
    },
    {
      "epoch": 0.270875,
      "grad_norm": 0.764716625213623,
      "learning_rate": 0.00024996353765854124,
      "loss": 3.9121,
      "step": 130020
    },
    {
      "epoch": 0.27089583333333334,
      "grad_norm": 0.7131237983703613,
      "learning_rate": 0.0002499561871673435,
      "loss": 3.7928,
      "step": 130030
    },
    {
      "epoch": 0.27091666666666664,
      "grad_norm": 0.7255176901817322,
      "learning_rate": 0.0002499488362443746,
      "loss": 3.7713,
      "step": 130040
    },
    {
      "epoch": 0.2709375,
      "grad_norm": 0.6614768505096436,
      "learning_rate": 0.0002499414848896662,
      "loss": 3.9925,
      "step": 130050
    },
    {
      "epoch": 0.27095833333333336,
      "grad_norm": 0.7660382390022278,
      "learning_rate": 0.0002499341331032502,
      "loss": 3.7998,
      "step": 130060
    },
    {
      "epoch": 0.27097916666666666,
      "grad_norm": 0.7473167777061462,
      "learning_rate": 0.00024992678088515827,
      "loss": 3.8859,
      "step": 130070
    },
    {
      "epoch": 0.271,
      "grad_norm": 0.8196747899055481,
      "learning_rate": 0.00024991942823542225,
      "loss": 3.7988,
      "step": 130080
    },
    {
      "epoch": 0.2710208333333333,
      "grad_norm": 0.8441251516342163,
      "learning_rate": 0.00024991207515407386,
      "loss": 3.9538,
      "step": 130090
    },
    {
      "epoch": 0.2710416666666667,
      "grad_norm": 0.829395055770874,
      "learning_rate": 0.0002499047216411448,
      "loss": 3.7735,
      "step": 130100
    },
    {
      "epoch": 0.2710625,
      "grad_norm": 0.7701510787010193,
      "learning_rate": 0.0002498973676966669,
      "loss": 3.8575,
      "step": 130110
    },
    {
      "epoch": 0.27108333333333334,
      "grad_norm": 1.0922508239746094,
      "learning_rate": 0.00024989001332067194,
      "loss": 3.9165,
      "step": 130120
    },
    {
      "epoch": 0.27110416666666665,
      "grad_norm": 0.8256903886795044,
      "learning_rate": 0.0002498826585131916,
      "loss": 3.8595,
      "step": 130130
    },
    {
      "epoch": 0.271125,
      "grad_norm": 1.0229532718658447,
      "learning_rate": 0.0002498753032742578,
      "loss": 4.0273,
      "step": 130140
    },
    {
      "epoch": 0.2711458333333333,
      "grad_norm": 0.6809743046760559,
      "learning_rate": 0.00024986794760390216,
      "loss": 3.7742,
      "step": 130150
    },
    {
      "epoch": 0.27116666666666667,
      "grad_norm": 0.8126758337020874,
      "learning_rate": 0.0002498605915021566,
      "loss": 3.741,
      "step": 130160
    },
    {
      "epoch": 0.2711875,
      "grad_norm": 0.7258045077323914,
      "learning_rate": 0.0002498532349690527,
      "loss": 3.7645,
      "step": 130170
    },
    {
      "epoch": 0.27120833333333333,
      "grad_norm": 0.8604649901390076,
      "learning_rate": 0.0002498458780046224,
      "loss": 3.8316,
      "step": 130180
    },
    {
      "epoch": 0.2712291666666667,
      "grad_norm": 0.7606468796730042,
      "learning_rate": 0.0002498385206088974,
      "loss": 3.8226,
      "step": 130190
    },
    {
      "epoch": 0.27125,
      "grad_norm": 0.8326647877693176,
      "learning_rate": 0.0002498311627819096,
      "loss": 3.9204,
      "step": 130200
    },
    {
      "epoch": 0.27127083333333335,
      "grad_norm": 0.9779413342475891,
      "learning_rate": 0.0002498238045236906,
      "loss": 3.8291,
      "step": 130210
    },
    {
      "epoch": 0.27129166666666665,
      "grad_norm": 0.7917633652687073,
      "learning_rate": 0.0002498164458342723,
      "loss": 3.8766,
      "step": 130220
    },
    {
      "epoch": 0.2713125,
      "grad_norm": 0.8259766101837158,
      "learning_rate": 0.00024980908671368645,
      "loss": 3.9722,
      "step": 130230
    },
    {
      "epoch": 0.2713333333333333,
      "grad_norm": 0.7121844291687012,
      "learning_rate": 0.0002498017271619649,
      "loss": 3.8728,
      "step": 130240
    },
    {
      "epoch": 0.2713541666666667,
      "grad_norm": 0.7045297026634216,
      "learning_rate": 0.0002497943671791394,
      "loss": 3.8435,
      "step": 130250
    },
    {
      "epoch": 0.271375,
      "grad_norm": 0.9829772114753723,
      "learning_rate": 0.00024978700676524165,
      "loss": 3.771,
      "step": 130260
    },
    {
      "epoch": 0.27139583333333334,
      "grad_norm": 0.6988702416419983,
      "learning_rate": 0.00024977964592030357,
      "loss": 3.838,
      "step": 130270
    },
    {
      "epoch": 0.27141666666666664,
      "grad_norm": 0.8005157113075256,
      "learning_rate": 0.00024977228464435696,
      "loss": 3.9475,
      "step": 130280
    },
    {
      "epoch": 0.2714375,
      "grad_norm": 0.7968006730079651,
      "learning_rate": 0.00024976492293743354,
      "loss": 3.8462,
      "step": 130290
    },
    {
      "epoch": 0.27145833333333336,
      "grad_norm": 0.8481548428535461,
      "learning_rate": 0.0002497575607995651,
      "loss": 3.9066,
      "step": 130300
    },
    {
      "epoch": 0.27147916666666666,
      "grad_norm": 0.7020876407623291,
      "learning_rate": 0.0002497501982307836,
      "loss": 3.8429,
      "step": 130310
    },
    {
      "epoch": 0.2715,
      "grad_norm": 0.7646595239639282,
      "learning_rate": 0.0002497428352311206,
      "loss": 3.7938,
      "step": 130320
    },
    {
      "epoch": 0.2715208333333333,
      "grad_norm": 0.8617119789123535,
      "learning_rate": 0.0002497354718006081,
      "loss": 3.8688,
      "step": 130330
    },
    {
      "epoch": 0.2715416666666667,
      "grad_norm": 0.8451739549636841,
      "learning_rate": 0.0002497281079392778,
      "loss": 4.0243,
      "step": 130340
    },
    {
      "epoch": 0.2715625,
      "grad_norm": 0.6760015487670898,
      "learning_rate": 0.0002497207436471616,
      "loss": 4.0303,
      "step": 130350
    },
    {
      "epoch": 0.27158333333333334,
      "grad_norm": 0.7605512738227844,
      "learning_rate": 0.00024971337892429124,
      "loss": 3.9152,
      "step": 130360
    },
    {
      "epoch": 0.27160416666666665,
      "grad_norm": 0.7983182668685913,
      "learning_rate": 0.00024970601377069854,
      "loss": 3.7868,
      "step": 130370
    },
    {
      "epoch": 0.271625,
      "grad_norm": 0.7967740893363953,
      "learning_rate": 0.0002496986481864153,
      "loss": 3.9762,
      "step": 130380
    },
    {
      "epoch": 0.2716458333333333,
      "grad_norm": 0.8089125752449036,
      "learning_rate": 0.00024969128217147343,
      "loss": 3.9849,
      "step": 130390
    },
    {
      "epoch": 0.27166666666666667,
      "grad_norm": 0.6724365949630737,
      "learning_rate": 0.00024968391572590467,
      "loss": 3.9416,
      "step": 130400
    },
    {
      "epoch": 0.2716875,
      "grad_norm": 0.792824387550354,
      "learning_rate": 0.00024967654884974083,
      "loss": 3.9752,
      "step": 130410
    },
    {
      "epoch": 0.27170833333333333,
      "grad_norm": 0.6878367066383362,
      "learning_rate": 0.00024966918154301375,
      "loss": 3.91,
      "step": 130420
    },
    {
      "epoch": 0.2717291666666667,
      "grad_norm": 0.7365736961364746,
      "learning_rate": 0.00024966181380575524,
      "loss": 3.9052,
      "step": 130430
    },
    {
      "epoch": 0.27175,
      "grad_norm": 0.8535479307174683,
      "learning_rate": 0.00024965444563799713,
      "loss": 3.8556,
      "step": 130440
    },
    {
      "epoch": 0.27177083333333335,
      "grad_norm": 0.7976227402687073,
      "learning_rate": 0.00024964707703977135,
      "loss": 3.8811,
      "step": 130450
    },
    {
      "epoch": 0.27179166666666665,
      "grad_norm": 0.7568181753158569,
      "learning_rate": 0.00024963970801110955,
      "loss": 3.8056,
      "step": 130460
    },
    {
      "epoch": 0.2718125,
      "grad_norm": 0.9024018049240112,
      "learning_rate": 0.0002496323385520437,
      "loss": 3.9649,
      "step": 130470
    },
    {
      "epoch": 0.2718333333333333,
      "grad_norm": 1.184187650680542,
      "learning_rate": 0.0002496249686626056,
      "loss": 3.8698,
      "step": 130480
    },
    {
      "epoch": 0.2718541666666667,
      "grad_norm": 0.8107970952987671,
      "learning_rate": 0.000249617598342827,
      "loss": 3.8087,
      "step": 130490
    },
    {
      "epoch": 0.271875,
      "grad_norm": 0.8301977515220642,
      "learning_rate": 0.00024961022759273984,
      "loss": 3.8819,
      "step": 130500
    },
    {
      "epoch": 0.27189583333333334,
      "grad_norm": 0.7068899273872375,
      "learning_rate": 0.00024960285641237594,
      "loss": 3.8312,
      "step": 130510
    },
    {
      "epoch": 0.27191666666666664,
      "grad_norm": 0.7827125787734985,
      "learning_rate": 0.00024959548480176717,
      "loss": 3.7825,
      "step": 130520
    },
    {
      "epoch": 0.2719375,
      "grad_norm": 0.7735804319381714,
      "learning_rate": 0.00024958811276094524,
      "loss": 3.8909,
      "step": 130530
    },
    {
      "epoch": 0.27195833333333336,
      "grad_norm": 0.6921769976615906,
      "learning_rate": 0.00024958074028994215,
      "loss": 3.8398,
      "step": 130540
    },
    {
      "epoch": 0.27197916666666666,
      "grad_norm": 0.7650237679481506,
      "learning_rate": 0.0002495733673887896,
      "loss": 3.873,
      "step": 130550
    },
    {
      "epoch": 0.272,
      "grad_norm": 0.9188948273658752,
      "learning_rate": 0.0002495659940575196,
      "loss": 3.9531,
      "step": 130560
    },
    {
      "epoch": 0.2720208333333333,
      "grad_norm": 0.7924576997756958,
      "learning_rate": 0.00024955862029616386,
      "loss": 3.9929,
      "step": 130570
    },
    {
      "epoch": 0.2720416666666667,
      "grad_norm": 0.7379719018936157,
      "learning_rate": 0.00024955124610475434,
      "loss": 3.8253,
      "step": 130580
    },
    {
      "epoch": 0.2720625,
      "grad_norm": 0.7838485836982727,
      "learning_rate": 0.0002495438714833228,
      "loss": 3.7443,
      "step": 130590
    },
    {
      "epoch": 0.27208333333333334,
      "grad_norm": 0.923862636089325,
      "learning_rate": 0.0002495364964319012,
      "loss": 3.8424,
      "step": 130600
    },
    {
      "epoch": 0.27210416666666665,
      "grad_norm": 0.8801972270011902,
      "learning_rate": 0.0002495291209505212,
      "loss": 4.0196,
      "step": 130610
    },
    {
      "epoch": 0.272125,
      "grad_norm": 0.7379826307296753,
      "learning_rate": 0.0002495217450392149,
      "loss": 3.8792,
      "step": 130620
    },
    {
      "epoch": 0.2721458333333333,
      "grad_norm": 0.8340052962303162,
      "learning_rate": 0.000249514368698014,
      "loss": 3.8546,
      "step": 130630
    },
    {
      "epoch": 0.27216666666666667,
      "grad_norm": 0.9113439321517944,
      "learning_rate": 0.0002495069919269505,
      "loss": 3.9095,
      "step": 130640
    },
    {
      "epoch": 0.2721875,
      "grad_norm": 0.7830820083618164,
      "learning_rate": 0.0002494996147260561,
      "loss": 4.1362,
      "step": 130650
    },
    {
      "epoch": 0.27220833333333333,
      "grad_norm": 0.6279729008674622,
      "learning_rate": 0.0002494922370953628,
      "loss": 3.9043,
      "step": 130660
    },
    {
      "epoch": 0.2722291666666667,
      "grad_norm": 0.7390682101249695,
      "learning_rate": 0.00024948485903490236,
      "loss": 3.9019,
      "step": 130670
    },
    {
      "epoch": 0.27225,
      "grad_norm": 0.7938640713691711,
      "learning_rate": 0.0002494774805447068,
      "loss": 4.0504,
      "step": 130680
    },
    {
      "epoch": 0.27227083333333335,
      "grad_norm": 0.815131664276123,
      "learning_rate": 0.00024947010162480786,
      "loss": 3.8623,
      "step": 130690
    },
    {
      "epoch": 0.27229166666666665,
      "grad_norm": 0.8783586621284485,
      "learning_rate": 0.00024946272227523744,
      "loss": 3.9154,
      "step": 130700
    },
    {
      "epoch": 0.2723125,
      "grad_norm": 0.890765368938446,
      "learning_rate": 0.0002494553424960274,
      "loss": 3.8952,
      "step": 130710
    },
    {
      "epoch": 0.2723333333333333,
      "grad_norm": 0.9783177971839905,
      "learning_rate": 0.0002494479622872097,
      "loss": 3.9046,
      "step": 130720
    },
    {
      "epoch": 0.2723541666666667,
      "grad_norm": 0.8996365666389465,
      "learning_rate": 0.00024944058164881616,
      "loss": 3.9298,
      "step": 130730
    },
    {
      "epoch": 0.272375,
      "grad_norm": 0.6318645477294922,
      "learning_rate": 0.00024943320058087864,
      "loss": 3.8619,
      "step": 130740
    },
    {
      "epoch": 0.27239583333333334,
      "grad_norm": 0.718174159526825,
      "learning_rate": 0.00024942581908342907,
      "loss": 3.8008,
      "step": 130750
    },
    {
      "epoch": 0.27241666666666664,
      "grad_norm": 0.7526674866676331,
      "learning_rate": 0.0002494184371564993,
      "loss": 3.7909,
      "step": 130760
    },
    {
      "epoch": 0.2724375,
      "grad_norm": 0.685623824596405,
      "learning_rate": 0.00024941105480012126,
      "loss": 3.8753,
      "step": 130770
    },
    {
      "epoch": 0.27245833333333336,
      "grad_norm": 0.7575300931930542,
      "learning_rate": 0.0002494036720143268,
      "loss": 3.8801,
      "step": 130780
    },
    {
      "epoch": 0.27247916666666666,
      "grad_norm": 0.6957394480705261,
      "learning_rate": 0.0002493962887991478,
      "loss": 3.7872,
      "step": 130790
    },
    {
      "epoch": 0.2725,
      "grad_norm": 0.6692525148391724,
      "learning_rate": 0.0002493889051546162,
      "loss": 3.8868,
      "step": 130800
    },
    {
      "epoch": 0.2725208333333333,
      "grad_norm": 0.8113884925842285,
      "learning_rate": 0.0002493815210807639,
      "loss": 4.0013,
      "step": 130810
    },
    {
      "epoch": 0.2725416666666667,
      "grad_norm": 0.7213071584701538,
      "learning_rate": 0.0002493741365776227,
      "loss": 3.9236,
      "step": 130820
    },
    {
      "epoch": 0.2725625,
      "grad_norm": 0.7148305773735046,
      "learning_rate": 0.0002493667516452247,
      "loss": 3.7816,
      "step": 130830
    },
    {
      "epoch": 0.27258333333333334,
      "grad_norm": 0.8554107546806335,
      "learning_rate": 0.0002493593662836015,
      "loss": 3.8568,
      "step": 130840
    },
    {
      "epoch": 0.27260416666666665,
      "grad_norm": 0.8122454285621643,
      "learning_rate": 0.00024935198049278525,
      "loss": 3.8943,
      "step": 130850
    },
    {
      "epoch": 0.272625,
      "grad_norm": 0.8172620534896851,
      "learning_rate": 0.00024934459427280775,
      "loss": 3.8107,
      "step": 130860
    },
    {
      "epoch": 0.2726458333333333,
      "grad_norm": 0.7922977209091187,
      "learning_rate": 0.0002493372076237009,
      "loss": 3.9045,
      "step": 130870
    },
    {
      "epoch": 0.27266666666666667,
      "grad_norm": 0.7004744410514832,
      "learning_rate": 0.0002493298205454967,
      "loss": 3.8497,
      "step": 130880
    },
    {
      "epoch": 0.2726875,
      "grad_norm": 0.8398637771606445,
      "learning_rate": 0.0002493224330382269,
      "loss": 3.9757,
      "step": 130890
    },
    {
      "epoch": 0.27270833333333333,
      "grad_norm": 0.8054845333099365,
      "learning_rate": 0.0002493150451019236,
      "loss": 3.9432,
      "step": 130900
    },
    {
      "epoch": 0.2727291666666667,
      "grad_norm": 0.741251528263092,
      "learning_rate": 0.0002493076567366186,
      "loss": 3.9606,
      "step": 130910
    },
    {
      "epoch": 0.27275,
      "grad_norm": 0.7329684495925903,
      "learning_rate": 0.0002493002679423438,
      "loss": 3.9968,
      "step": 130920
    },
    {
      "epoch": 0.27277083333333335,
      "grad_norm": 0.9774645566940308,
      "learning_rate": 0.0002492928787191312,
      "loss": 3.9392,
      "step": 130930
    },
    {
      "epoch": 0.27279166666666665,
      "grad_norm": 0.7506482005119324,
      "learning_rate": 0.00024928548906701255,
      "loss": 3.9341,
      "step": 130940
    },
    {
      "epoch": 0.2728125,
      "grad_norm": 0.7463821172714233,
      "learning_rate": 0.00024927809898602,
      "loss": 3.9787,
      "step": 130950
    },
    {
      "epoch": 0.2728333333333333,
      "grad_norm": 0.7388579845428467,
      "learning_rate": 0.00024927070847618533,
      "loss": 3.7949,
      "step": 130960
    },
    {
      "epoch": 0.2728541666666667,
      "grad_norm": 0.7699454426765442,
      "learning_rate": 0.0002492633175375404,
      "loss": 3.864,
      "step": 130970
    },
    {
      "epoch": 0.272875,
      "grad_norm": 0.7002202272415161,
      "learning_rate": 0.00024925592617011736,
      "loss": 3.892,
      "step": 130980
    },
    {
      "epoch": 0.27289583333333334,
      "grad_norm": 0.8596770763397217,
      "learning_rate": 0.00024924853437394796,
      "loss": 3.7425,
      "step": 130990
    },
    {
      "epoch": 0.27291666666666664,
      "grad_norm": 0.7711491584777832,
      "learning_rate": 0.0002492411421490642,
      "loss": 3.9976,
      "step": 131000
    },
    {
      "epoch": 0.27291666666666664,
      "eval_loss": 4.238465309143066,
      "eval_runtime": 9.5842,
      "eval_samples_per_second": 1.043,
      "eval_steps_per_second": 0.313,
      "step": 131000
    },
    {
      "epoch": 0.2729375,
      "grad_norm": 0.7943410277366638,
      "learning_rate": 0.000249233749495498,
      "loss": 3.985,
      "step": 131010
    },
    {
      "epoch": 0.27295833333333336,
      "grad_norm": 0.7261936664581299,
      "learning_rate": 0.00024922635641328123,
      "loss": 3.9584,
      "step": 131020
    },
    {
      "epoch": 0.27297916666666666,
      "grad_norm": 0.8298512697219849,
      "learning_rate": 0.00024921896290244587,
      "loss": 3.7349,
      "step": 131030
    },
    {
      "epoch": 0.273,
      "grad_norm": 0.7906572818756104,
      "learning_rate": 0.00024921156896302393,
      "loss": 3.8074,
      "step": 131040
    },
    {
      "epoch": 0.2730208333333333,
      "grad_norm": 0.8672063946723938,
      "learning_rate": 0.00024920417459504724,
      "loss": 4.1323,
      "step": 131050
    },
    {
      "epoch": 0.2730416666666667,
      "grad_norm": 0.7475841641426086,
      "learning_rate": 0.00024919677979854776,
      "loss": 4.1309,
      "step": 131060
    },
    {
      "epoch": 0.2730625,
      "grad_norm": 0.7507525682449341,
      "learning_rate": 0.0002491893845735575,
      "loss": 3.8963,
      "step": 131070
    },
    {
      "epoch": 0.27308333333333334,
      "grad_norm": 0.7184134125709534,
      "learning_rate": 0.0002491819889201083,
      "loss": 3.8006,
      "step": 131080
    },
    {
      "epoch": 0.27310416666666665,
      "grad_norm": 0.7936300039291382,
      "learning_rate": 0.00024917459283823224,
      "loss": 3.8771,
      "step": 131090
    },
    {
      "epoch": 0.273125,
      "grad_norm": 0.7526496052742004,
      "learning_rate": 0.00024916719632796117,
      "loss": 3.8875,
      "step": 131100
    },
    {
      "epoch": 0.2731458333333333,
      "grad_norm": 0.7541085481643677,
      "learning_rate": 0.000249159799389327,
      "loss": 3.9494,
      "step": 131110
    },
    {
      "epoch": 0.27316666666666667,
      "grad_norm": 0.7668295502662659,
      "learning_rate": 0.00024915240202236184,
      "loss": 3.7908,
      "step": 131120
    },
    {
      "epoch": 0.2731875,
      "grad_norm": 0.8821980357170105,
      "learning_rate": 0.00024914500422709755,
      "loss": 3.9442,
      "step": 131130
    },
    {
      "epoch": 0.27320833333333333,
      "grad_norm": 0.8007627725601196,
      "learning_rate": 0.00024913760600356604,
      "loss": 3.8897,
      "step": 131140
    },
    {
      "epoch": 0.2732291666666667,
      "grad_norm": 0.7948816418647766,
      "learning_rate": 0.0002491302073517993,
      "loss": 3.7995,
      "step": 131150
    },
    {
      "epoch": 0.27325,
      "grad_norm": 0.7989332675933838,
      "learning_rate": 0.00024912280827182935,
      "loss": 3.8426,
      "step": 131160
    },
    {
      "epoch": 0.27327083333333335,
      "grad_norm": 0.9500207304954529,
      "learning_rate": 0.00024911540876368805,
      "loss": 3.8433,
      "step": 131170
    },
    {
      "epoch": 0.27329166666666665,
      "grad_norm": 0.9541624784469604,
      "learning_rate": 0.0002491080088274075,
      "loss": 4.0307,
      "step": 131180
    },
    {
      "epoch": 0.2733125,
      "grad_norm": 0.7237255573272705,
      "learning_rate": 0.0002491006084630195,
      "loss": 3.8834,
      "step": 131190
    },
    {
      "epoch": 0.2733333333333333,
      "grad_norm": 0.7212924957275391,
      "learning_rate": 0.00024909320767055613,
      "loss": 3.8983,
      "step": 131200
    },
    {
      "epoch": 0.2733541666666667,
      "grad_norm": 0.8107172250747681,
      "learning_rate": 0.00024908580645004934,
      "loss": 3.8746,
      "step": 131210
    },
    {
      "epoch": 0.273375,
      "grad_norm": 0.7708059549331665,
      "learning_rate": 0.00024907840480153107,
      "loss": 3.7908,
      "step": 131220
    },
    {
      "epoch": 0.27339583333333334,
      "grad_norm": 0.8012281656265259,
      "learning_rate": 0.0002490710027250333,
      "loss": 3.801,
      "step": 131230
    },
    {
      "epoch": 0.27341666666666664,
      "grad_norm": 0.7835131287574768,
      "learning_rate": 0.000249063600220588,
      "loss": 3.8694,
      "step": 131240
    },
    {
      "epoch": 0.2734375,
      "grad_norm": 0.8683320879936218,
      "learning_rate": 0.0002490561972882272,
      "loss": 3.8764,
      "step": 131250
    },
    {
      "epoch": 0.27345833333333336,
      "grad_norm": 0.7989161610603333,
      "learning_rate": 0.0002490487939279828,
      "loss": 3.7495,
      "step": 131260
    },
    {
      "epoch": 0.27347916666666666,
      "grad_norm": 0.6568140983581543,
      "learning_rate": 0.00024904139013988684,
      "loss": 3.9056,
      "step": 131270
    },
    {
      "epoch": 0.2735,
      "grad_norm": 0.8353139758110046,
      "learning_rate": 0.0002490339859239713,
      "loss": 3.927,
      "step": 131280
    },
    {
      "epoch": 0.2735208333333333,
      "grad_norm": 0.6929188370704651,
      "learning_rate": 0.0002490265812802681,
      "loss": 3.6784,
      "step": 131290
    },
    {
      "epoch": 0.2735416666666667,
      "grad_norm": 0.8134717345237732,
      "learning_rate": 0.0002490191762088093,
      "loss": 3.8699,
      "step": 131300
    },
    {
      "epoch": 0.2735625,
      "grad_norm": 0.6827917695045471,
      "learning_rate": 0.0002490117707096268,
      "loss": 3.7402,
      "step": 131310
    },
    {
      "epoch": 0.27358333333333335,
      "grad_norm": 0.781606137752533,
      "learning_rate": 0.0002490043647827527,
      "loss": 3.9465,
      "step": 131320
    },
    {
      "epoch": 0.27360416666666665,
      "grad_norm": 0.7056894302368164,
      "learning_rate": 0.0002489969584282189,
      "loss": 3.746,
      "step": 131330
    },
    {
      "epoch": 0.273625,
      "grad_norm": 0.7433968782424927,
      "learning_rate": 0.00024898955164605747,
      "loss": 3.7829,
      "step": 131340
    },
    {
      "epoch": 0.2736458333333333,
      "grad_norm": 0.6648139357566833,
      "learning_rate": 0.00024898214443630035,
      "loss": 3.8248,
      "step": 131350
    },
    {
      "epoch": 0.27366666666666667,
      "grad_norm": 0.7276646494865417,
      "learning_rate": 0.00024897473679897947,
      "loss": 3.8305,
      "step": 131360
    },
    {
      "epoch": 0.2736875,
      "grad_norm": 0.8524265885353088,
      "learning_rate": 0.00024896732873412695,
      "loss": 3.7802,
      "step": 131370
    },
    {
      "epoch": 0.27370833333333333,
      "grad_norm": 0.814370334148407,
      "learning_rate": 0.0002489599202417748,
      "loss": 3.8967,
      "step": 131380
    },
    {
      "epoch": 0.2737291666666667,
      "grad_norm": 0.7973758578300476,
      "learning_rate": 0.00024895251132195487,
      "loss": 3.8781,
      "step": 131390
    },
    {
      "epoch": 0.27375,
      "grad_norm": 0.7476921081542969,
      "learning_rate": 0.00024894510197469934,
      "loss": 3.9836,
      "step": 131400
    },
    {
      "epoch": 0.27377083333333335,
      "grad_norm": 1.0910406112670898,
      "learning_rate": 0.0002489376922000401,
      "loss": 3.8768,
      "step": 131410
    },
    {
      "epoch": 0.27379166666666666,
      "grad_norm": 0.9367678165435791,
      "learning_rate": 0.00024893028199800916,
      "loss": 4.0154,
      "step": 131420
    },
    {
      "epoch": 0.2738125,
      "grad_norm": 0.9517076015472412,
      "learning_rate": 0.0002489228713686386,
      "loss": 3.8436,
      "step": 131430
    },
    {
      "epoch": 0.2738333333333333,
      "grad_norm": 0.7685136795043945,
      "learning_rate": 0.00024891546031196037,
      "loss": 4.0044,
      "step": 131440
    },
    {
      "epoch": 0.2738541666666667,
      "grad_norm": 0.9804486036300659,
      "learning_rate": 0.0002489080488280065,
      "loss": 4.02,
      "step": 131450
    },
    {
      "epoch": 0.273875,
      "grad_norm": 0.7433421015739441,
      "learning_rate": 0.0002489006369168091,
      "loss": 3.8931,
      "step": 131460
    },
    {
      "epoch": 0.27389583333333334,
      "grad_norm": 0.7500547766685486,
      "learning_rate": 0.00024889322457839996,
      "loss": 3.9733,
      "step": 131470
    },
    {
      "epoch": 0.27391666666666664,
      "grad_norm": 0.7404794692993164,
      "learning_rate": 0.0002488858118128113,
      "loss": 3.8092,
      "step": 131480
    },
    {
      "epoch": 0.2739375,
      "grad_norm": 0.6680045127868652,
      "learning_rate": 0.00024887839862007506,
      "loss": 3.8151,
      "step": 131490
    },
    {
      "epoch": 0.27395833333333336,
      "grad_norm": 0.8206721544265747,
      "learning_rate": 0.0002488709850002233,
      "loss": 3.9919,
      "step": 131500
    },
    {
      "epoch": 0.27397916666666666,
      "grad_norm": 0.7967436909675598,
      "learning_rate": 0.000248863570953288,
      "loss": 3.8833,
      "step": 131510
    },
    {
      "epoch": 0.274,
      "grad_norm": 0.7770370841026306,
      "learning_rate": 0.0002488561564793013,
      "loss": 3.8898,
      "step": 131520
    },
    {
      "epoch": 0.2740208333333333,
      "grad_norm": 0.7049452662467957,
      "learning_rate": 0.000248848741578295,
      "loss": 3.756,
      "step": 131530
    },
    {
      "epoch": 0.2740416666666667,
      "grad_norm": 0.7792090773582458,
      "learning_rate": 0.0002488413262503013,
      "loss": 3.7116,
      "step": 131540
    },
    {
      "epoch": 0.2740625,
      "grad_norm": 0.831977128982544,
      "learning_rate": 0.00024883391049535224,
      "loss": 3.8954,
      "step": 131550
    },
    {
      "epoch": 0.27408333333333335,
      "grad_norm": 0.7460651993751526,
      "learning_rate": 0.00024882649431347975,
      "loss": 3.723,
      "step": 131560
    },
    {
      "epoch": 0.27410416666666665,
      "grad_norm": 0.8034542798995972,
      "learning_rate": 0.00024881907770471593,
      "loss": 3.8052,
      "step": 131570
    },
    {
      "epoch": 0.274125,
      "grad_norm": 0.7644019722938538,
      "learning_rate": 0.0002488116606690929,
      "loss": 3.8347,
      "step": 131580
    },
    {
      "epoch": 0.2741458333333333,
      "grad_norm": 0.8729187250137329,
      "learning_rate": 0.0002488042432066425,
      "loss": 4.0356,
      "step": 131590
    },
    {
      "epoch": 0.27416666666666667,
      "grad_norm": 0.6827532649040222,
      "learning_rate": 0.00024879682531739697,
      "loss": 3.8586,
      "step": 131600
    },
    {
      "epoch": 0.2741875,
      "grad_norm": 0.8284727931022644,
      "learning_rate": 0.0002487894070013881,
      "loss": 3.8812,
      "step": 131610
    },
    {
      "epoch": 0.27420833333333333,
      "grad_norm": 1.0079505443572998,
      "learning_rate": 0.00024878198825864826,
      "loss": 3.8455,
      "step": 131620
    },
    {
      "epoch": 0.2742291666666667,
      "grad_norm": 0.7063518166542053,
      "learning_rate": 0.0002487745690892093,
      "loss": 3.9021,
      "step": 131630
    },
    {
      "epoch": 0.27425,
      "grad_norm": 0.7311769127845764,
      "learning_rate": 0.0002487671494931032,
      "loss": 4.0194,
      "step": 131640
    },
    {
      "epoch": 0.27427083333333335,
      "grad_norm": 0.6930654048919678,
      "learning_rate": 0.00024875972947036224,
      "loss": 3.9967,
      "step": 131650
    },
    {
      "epoch": 0.27429166666666666,
      "grad_norm": 0.7874799370765686,
      "learning_rate": 0.0002487523090210183,
      "loss": 4.0436,
      "step": 131660
    },
    {
      "epoch": 0.2743125,
      "grad_norm": 0.8071593046188354,
      "learning_rate": 0.00024874488814510343,
      "loss": 3.8355,
      "step": 131670
    },
    {
      "epoch": 0.2743333333333333,
      "grad_norm": 0.9061864614486694,
      "learning_rate": 0.00024873746684264973,
      "loss": 3.8188,
      "step": 131680
    },
    {
      "epoch": 0.2743541666666667,
      "grad_norm": 0.992715060710907,
      "learning_rate": 0.0002487300451136893,
      "loss": 3.842,
      "step": 131690
    },
    {
      "epoch": 0.274375,
      "grad_norm": 0.8465872406959534,
      "learning_rate": 0.00024872262295825415,
      "loss": 3.6907,
      "step": 131700
    },
    {
      "epoch": 0.27439583333333334,
      "grad_norm": 0.6628155708312988,
      "learning_rate": 0.00024871520037637635,
      "loss": 3.9531,
      "step": 131710
    },
    {
      "epoch": 0.27441666666666664,
      "grad_norm": 0.751984715461731,
      "learning_rate": 0.00024870777736808795,
      "loss": 3.869,
      "step": 131720
    },
    {
      "epoch": 0.2744375,
      "grad_norm": 0.755027711391449,
      "learning_rate": 0.000248700353933421,
      "loss": 3.9017,
      "step": 131730
    },
    {
      "epoch": 0.27445833333333336,
      "grad_norm": 0.8753833770751953,
      "learning_rate": 0.0002486929300724076,
      "loss": 3.7692,
      "step": 131740
    },
    {
      "epoch": 0.27447916666666666,
      "grad_norm": 0.7926894426345825,
      "learning_rate": 0.00024868550578507984,
      "loss": 3.9396,
      "step": 131750
    },
    {
      "epoch": 0.2745,
      "grad_norm": 0.7629275918006897,
      "learning_rate": 0.0002486780810714697,
      "loss": 3.7848,
      "step": 131760
    },
    {
      "epoch": 0.2745208333333333,
      "grad_norm": 0.7338478565216064,
      "learning_rate": 0.00024867065593160936,
      "loss": 3.9398,
      "step": 131770
    },
    {
      "epoch": 0.2745416666666667,
      "grad_norm": 0.8386098742485046,
      "learning_rate": 0.0002486632303655308,
      "loss": 3.8926,
      "step": 131780
    },
    {
      "epoch": 0.2745625,
      "grad_norm": 0.747200608253479,
      "learning_rate": 0.00024865580437326615,
      "loss": 3.7915,
      "step": 131790
    },
    {
      "epoch": 0.27458333333333335,
      "grad_norm": 0.7556522488594055,
      "learning_rate": 0.0002486483779548475,
      "loss": 4.0171,
      "step": 131800
    },
    {
      "epoch": 0.27460416666666665,
      "grad_norm": 0.7384249567985535,
      "learning_rate": 0.0002486409511103069,
      "loss": 3.8145,
      "step": 131810
    },
    {
      "epoch": 0.274625,
      "grad_norm": 0.8690667152404785,
      "learning_rate": 0.00024863352383967645,
      "loss": 3.7601,
      "step": 131820
    },
    {
      "epoch": 0.2746458333333333,
      "grad_norm": 0.8755940198898315,
      "learning_rate": 0.0002486260961429882,
      "loss": 3.9532,
      "step": 131830
    },
    {
      "epoch": 0.27466666666666667,
      "grad_norm": 0.708443820476532,
      "learning_rate": 0.0002486186680202742,
      "loss": 3.8942,
      "step": 131840
    },
    {
      "epoch": 0.2746875,
      "grad_norm": 0.7709654569625854,
      "learning_rate": 0.00024861123947156664,
      "loss": 3.749,
      "step": 131850
    },
    {
      "epoch": 0.27470833333333333,
      "grad_norm": 0.8004664182662964,
      "learning_rate": 0.0002486038104968976,
      "loss": 3.8215,
      "step": 131860
    },
    {
      "epoch": 0.2747291666666667,
      "grad_norm": 0.7713181972503662,
      "learning_rate": 0.00024859638109629907,
      "loss": 3.9215,
      "step": 131870
    },
    {
      "epoch": 0.27475,
      "grad_norm": 0.7545704245567322,
      "learning_rate": 0.0002485889512698032,
      "loss": 3.8749,
      "step": 131880
    },
    {
      "epoch": 0.27477083333333335,
      "grad_norm": 0.8240733742713928,
      "learning_rate": 0.00024858152101744213,
      "loss": 3.8591,
      "step": 131890
    },
    {
      "epoch": 0.27479166666666666,
      "grad_norm": 0.9776490926742554,
      "learning_rate": 0.00024857409033924785,
      "loss": 3.8829,
      "step": 131900
    },
    {
      "epoch": 0.2748125,
      "grad_norm": 0.7588877081871033,
      "learning_rate": 0.0002485666592352526,
      "loss": 3.8043,
      "step": 131910
    },
    {
      "epoch": 0.2748333333333333,
      "grad_norm": 0.811967670917511,
      "learning_rate": 0.0002485592277054883,
      "loss": 3.7762,
      "step": 131920
    },
    {
      "epoch": 0.2748541666666667,
      "grad_norm": 0.7495052218437195,
      "learning_rate": 0.00024855179574998724,
      "loss": 3.9822,
      "step": 131930
    },
    {
      "epoch": 0.274875,
      "grad_norm": 0.7685454487800598,
      "learning_rate": 0.00024854436336878136,
      "loss": 3.7447,
      "step": 131940
    },
    {
      "epoch": 0.27489583333333334,
      "grad_norm": 0.7957541942596436,
      "learning_rate": 0.00024853693056190286,
      "loss": 3.8368,
      "step": 131950
    },
    {
      "epoch": 0.27491666666666664,
      "grad_norm": 0.7934526205062866,
      "learning_rate": 0.00024852949732938383,
      "loss": 3.8737,
      "step": 131960
    },
    {
      "epoch": 0.2749375,
      "grad_norm": 0.8000742793083191,
      "learning_rate": 0.0002485220636712564,
      "loss": 3.833,
      "step": 131970
    },
    {
      "epoch": 0.27495833333333336,
      "grad_norm": 0.8021329045295715,
      "learning_rate": 0.0002485146295875526,
      "loss": 3.9621,
      "step": 131980
    },
    {
      "epoch": 0.27497916666666666,
      "grad_norm": 0.8421688079833984,
      "learning_rate": 0.0002485071950783046,
      "loss": 3.9745,
      "step": 131990
    },
    {
      "epoch": 0.275,
      "grad_norm": 0.7023497819900513,
      "learning_rate": 0.0002484997601435446,
      "loss": 3.8491,
      "step": 132000
    },
    {
      "epoch": 0.275,
      "eval_loss": 4.228785514831543,
      "eval_runtime": 11.7873,
      "eval_samples_per_second": 0.848,
      "eval_steps_per_second": 0.255,
      "step": 132000
    },
    {
      "epoch": 0.2750208333333333,
      "grad_norm": 0.818314254283905,
      "learning_rate": 0.00024849232478330453,
      "loss": 4.0187,
      "step": 132010
    },
    {
      "epoch": 0.2750416666666667,
      "grad_norm": 0.7777115106582642,
      "learning_rate": 0.0002484848889976166,
      "loss": 3.8206,
      "step": 132020
    },
    {
      "epoch": 0.2750625,
      "grad_norm": 0.7736820578575134,
      "learning_rate": 0.00024847745278651297,
      "loss": 3.9592,
      "step": 132030
    },
    {
      "epoch": 0.27508333333333335,
      "grad_norm": 0.7987531423568726,
      "learning_rate": 0.0002484700161500257,
      "loss": 3.8397,
      "step": 132040
    },
    {
      "epoch": 0.27510416666666665,
      "grad_norm": 0.7076058983802795,
      "learning_rate": 0.00024846257908818693,
      "loss": 3.7675,
      "step": 132050
    },
    {
      "epoch": 0.275125,
      "grad_norm": 0.7931665778160095,
      "learning_rate": 0.00024845514160102883,
      "loss": 3.8541,
      "step": 132060
    },
    {
      "epoch": 0.2751458333333333,
      "grad_norm": 0.9540156126022339,
      "learning_rate": 0.0002484477036885835,
      "loss": 3.8879,
      "step": 132070
    },
    {
      "epoch": 0.27516666666666667,
      "grad_norm": 0.7674939632415771,
      "learning_rate": 0.000248440265350883,
      "loss": 3.7889,
      "step": 132080
    },
    {
      "epoch": 0.2751875,
      "grad_norm": 0.7713223099708557,
      "learning_rate": 0.0002484328265879596,
      "loss": 3.9482,
      "step": 132090
    },
    {
      "epoch": 0.27520833333333333,
      "grad_norm": 0.8474957942962646,
      "learning_rate": 0.00024842538739984526,
      "loss": 3.8396,
      "step": 132100
    },
    {
      "epoch": 0.2752291666666667,
      "grad_norm": 0.7333613634109497,
      "learning_rate": 0.0002484179477865723,
      "loss": 3.774,
      "step": 132110
    },
    {
      "epoch": 0.27525,
      "grad_norm": 0.6742559671401978,
      "learning_rate": 0.0002484105077481726,
      "loss": 3.8479,
      "step": 132120
    },
    {
      "epoch": 0.27527083333333335,
      "grad_norm": 0.8889409303665161,
      "learning_rate": 0.0002484030672846786,
      "loss": 3.9081,
      "step": 132130
    },
    {
      "epoch": 0.27529166666666666,
      "grad_norm": 0.9120559692382812,
      "learning_rate": 0.00024839562639612225,
      "loss": 4.0549,
      "step": 132140
    },
    {
      "epoch": 0.2753125,
      "grad_norm": 0.8340050578117371,
      "learning_rate": 0.0002483881850825358,
      "loss": 3.7915,
      "step": 132150
    },
    {
      "epoch": 0.2753333333333333,
      "grad_norm": 0.8511613011360168,
      "learning_rate": 0.0002483807433439513,
      "loss": 3.8434,
      "step": 132160
    },
    {
      "epoch": 0.2753541666666667,
      "grad_norm": 0.6616591811180115,
      "learning_rate": 0.00024837330118040096,
      "loss": 3.8474,
      "step": 132170
    },
    {
      "epoch": 0.275375,
      "grad_norm": 0.7921062111854553,
      "learning_rate": 0.0002483658585919168,
      "loss": 3.7757,
      "step": 132180
    },
    {
      "epoch": 0.27539583333333334,
      "grad_norm": 0.8457216024398804,
      "learning_rate": 0.0002483584155785312,
      "loss": 3.7856,
      "step": 132190
    },
    {
      "epoch": 0.27541666666666664,
      "grad_norm": 0.8420231938362122,
      "learning_rate": 0.0002483509721402761,
      "loss": 4.0648,
      "step": 132200
    },
    {
      "epoch": 0.2754375,
      "grad_norm": 0.8327915072441101,
      "learning_rate": 0.0002483435282771837,
      "loss": 3.8902,
      "step": 132210
    },
    {
      "epoch": 0.27545833333333336,
      "grad_norm": 0.8209681510925293,
      "learning_rate": 0.0002483360839892862,
      "loss": 3.8527,
      "step": 132220
    },
    {
      "epoch": 0.27547916666666666,
      "grad_norm": 0.7489469051361084,
      "learning_rate": 0.0002483286392766158,
      "loss": 3.8641,
      "step": 132230
    },
    {
      "epoch": 0.2755,
      "grad_norm": 1.1025922298431396,
      "learning_rate": 0.0002483211941392046,
      "loss": 3.8152,
      "step": 132240
    },
    {
      "epoch": 0.2755208333333333,
      "grad_norm": 0.8202779293060303,
      "learning_rate": 0.00024831374857708466,
      "loss": 3.9247,
      "step": 132250
    },
    {
      "epoch": 0.2755416666666667,
      "grad_norm": 0.8676977157592773,
      "learning_rate": 0.00024830630259028833,
      "loss": 3.6532,
      "step": 132260
    },
    {
      "epoch": 0.2755625,
      "grad_norm": 0.7282645106315613,
      "learning_rate": 0.0002482988561788477,
      "loss": 3.7064,
      "step": 132270
    },
    {
      "epoch": 0.27558333333333335,
      "grad_norm": 0.7673658132553101,
      "learning_rate": 0.0002482914093427949,
      "loss": 3.8406,
      "step": 132280
    },
    {
      "epoch": 0.27560416666666665,
      "grad_norm": 0.7714381217956543,
      "learning_rate": 0.00024828396208216206,
      "loss": 3.8199,
      "step": 132290
    },
    {
      "epoch": 0.275625,
      "grad_norm": 0.8134085536003113,
      "learning_rate": 0.0002482765143969814,
      "loss": 3.9239,
      "step": 132300
    },
    {
      "epoch": 0.2756458333333333,
      "grad_norm": 1.00165593624115,
      "learning_rate": 0.0002482690662872852,
      "loss": 3.9252,
      "step": 132310
    },
    {
      "epoch": 0.27566666666666667,
      "grad_norm": 0.708886444568634,
      "learning_rate": 0.00024826161775310545,
      "loss": 3.9247,
      "step": 132320
    },
    {
      "epoch": 0.2756875,
      "grad_norm": 0.7838647365570068,
      "learning_rate": 0.00024825416879447444,
      "loss": 3.9201,
      "step": 132330
    },
    {
      "epoch": 0.27570833333333333,
      "grad_norm": 0.7375988364219666,
      "learning_rate": 0.00024824671941142435,
      "loss": 3.8056,
      "step": 132340
    },
    {
      "epoch": 0.2757291666666667,
      "grad_norm": 0.7350267767906189,
      "learning_rate": 0.0002482392696039872,
      "loss": 3.8606,
      "step": 132350
    },
    {
      "epoch": 0.27575,
      "grad_norm": 0.8643086552619934,
      "learning_rate": 0.00024823181937219543,
      "loss": 3.8379,
      "step": 132360
    },
    {
      "epoch": 0.27577083333333335,
      "grad_norm": 0.7261732220649719,
      "learning_rate": 0.00024822436871608096,
      "loss": 3.9889,
      "step": 132370
    },
    {
      "epoch": 0.27579166666666666,
      "grad_norm": 0.7038525342941284,
      "learning_rate": 0.00024821691763567615,
      "loss": 3.827,
      "step": 132380
    },
    {
      "epoch": 0.2758125,
      "grad_norm": 0.8366166353225708,
      "learning_rate": 0.0002482094661310132,
      "loss": 3.9276,
      "step": 132390
    },
    {
      "epoch": 0.2758333333333333,
      "grad_norm": 0.7943180203437805,
      "learning_rate": 0.00024820201420212417,
      "loss": 4.0798,
      "step": 132400
    },
    {
      "epoch": 0.2758541666666667,
      "grad_norm": 0.893337607383728,
      "learning_rate": 0.0002481945618490413,
      "loss": 3.848,
      "step": 132410
    },
    {
      "epoch": 0.275875,
      "grad_norm": 0.6668698787689209,
      "learning_rate": 0.0002481871090717968,
      "loss": 4.0673,
      "step": 132420
    },
    {
      "epoch": 0.27589583333333334,
      "grad_norm": 0.7354764342308044,
      "learning_rate": 0.00024817965587042287,
      "loss": 3.7743,
      "step": 132430
    },
    {
      "epoch": 0.27591666666666664,
      "grad_norm": 0.7442167401313782,
      "learning_rate": 0.00024817220224495164,
      "loss": 4.0097,
      "step": 132440
    },
    {
      "epoch": 0.2759375,
      "grad_norm": 0.7765097618103027,
      "learning_rate": 0.0002481647481954154,
      "loss": 3.8348,
      "step": 132450
    },
    {
      "epoch": 0.27595833333333336,
      "grad_norm": 0.8253605365753174,
      "learning_rate": 0.0002481572937218463,
      "loss": 3.9865,
      "step": 132460
    },
    {
      "epoch": 0.27597916666666666,
      "grad_norm": 0.7655351758003235,
      "learning_rate": 0.00024814983882427656,
      "loss": 3.7115,
      "step": 132470
    },
    {
      "epoch": 0.276,
      "grad_norm": 0.8694248199462891,
      "learning_rate": 0.0002481423835027383,
      "loss": 3.8771,
      "step": 132480
    },
    {
      "epoch": 0.2760208333333333,
      "grad_norm": 0.7214587926864624,
      "learning_rate": 0.00024813492775726387,
      "loss": 4.0159,
      "step": 132490
    },
    {
      "epoch": 0.2760416666666667,
      "grad_norm": 0.6849027276039124,
      "learning_rate": 0.00024812747158788534,
      "loss": 3.9402,
      "step": 132500
    },
    {
      "epoch": 0.2760625,
      "grad_norm": 0.9742064476013184,
      "learning_rate": 0.00024812001499463504,
      "loss": 3.9385,
      "step": 132510
    },
    {
      "epoch": 0.27608333333333335,
      "grad_norm": 0.7620593905448914,
      "learning_rate": 0.00024811255797754507,
      "loss": 3.9117,
      "step": 132520
    },
    {
      "epoch": 0.27610416666666665,
      "grad_norm": 0.6532821655273438,
      "learning_rate": 0.0002481051005366477,
      "loss": 3.7567,
      "step": 132530
    },
    {
      "epoch": 0.276125,
      "grad_norm": 0.7553690671920776,
      "learning_rate": 0.00024809764267197507,
      "loss": 3.9885,
      "step": 132540
    },
    {
      "epoch": 0.2761458333333333,
      "grad_norm": 0.6603255271911621,
      "learning_rate": 0.0002480901843835595,
      "loss": 4.0197,
      "step": 132550
    },
    {
      "epoch": 0.27616666666666667,
      "grad_norm": 0.7505941987037659,
      "learning_rate": 0.00024808272567143316,
      "loss": 3.9963,
      "step": 132560
    },
    {
      "epoch": 0.2761875,
      "grad_norm": 0.7253624796867371,
      "learning_rate": 0.00024807526653562826,
      "loss": 3.8186,
      "step": 132570
    },
    {
      "epoch": 0.27620833333333333,
      "grad_norm": 0.8358970284461975,
      "learning_rate": 0.00024806780697617705,
      "loss": 4.0383,
      "step": 132580
    },
    {
      "epoch": 0.2762291666666667,
      "grad_norm": 0.7340117692947388,
      "learning_rate": 0.0002480603469931117,
      "loss": 3.962,
      "step": 132590
    },
    {
      "epoch": 0.27625,
      "grad_norm": 0.8033686876296997,
      "learning_rate": 0.00024805288658646447,
      "loss": 3.8218,
      "step": 132600
    },
    {
      "epoch": 0.27627083333333335,
      "grad_norm": 0.8613489270210266,
      "learning_rate": 0.0002480454257562676,
      "loss": 3.8457,
      "step": 132610
    },
    {
      "epoch": 0.27629166666666666,
      "grad_norm": 0.6587225198745728,
      "learning_rate": 0.0002480379645025533,
      "loss": 4.0642,
      "step": 132620
    },
    {
      "epoch": 0.2763125,
      "grad_norm": 0.7050032615661621,
      "learning_rate": 0.0002480305028253538,
      "loss": 3.8735,
      "step": 132630
    },
    {
      "epoch": 0.2763333333333333,
      "grad_norm": 0.6842761039733887,
      "learning_rate": 0.00024802304072470133,
      "loss": 3.8822,
      "step": 132640
    },
    {
      "epoch": 0.2763541666666667,
      "grad_norm": 0.8454779386520386,
      "learning_rate": 0.00024801557820062814,
      "loss": 4.1429,
      "step": 132650
    },
    {
      "epoch": 0.276375,
      "grad_norm": 0.8384038209915161,
      "learning_rate": 0.0002480081152531664,
      "loss": 3.8334,
      "step": 132660
    },
    {
      "epoch": 0.27639583333333334,
      "grad_norm": 0.8759654760360718,
      "learning_rate": 0.00024800065188234846,
      "loss": 3.9729,
      "step": 132670
    },
    {
      "epoch": 0.27641666666666664,
      "grad_norm": 0.7663112878799438,
      "learning_rate": 0.0002479931880882064,
      "loss": 3.7978,
      "step": 132680
    },
    {
      "epoch": 0.2764375,
      "grad_norm": 0.7747230529785156,
      "learning_rate": 0.00024798572387077267,
      "loss": 3.9641,
      "step": 132690
    },
    {
      "epoch": 0.2764583333333333,
      "grad_norm": 0.7453240752220154,
      "learning_rate": 0.0002479782592300794,
      "loss": 3.93,
      "step": 132700
    },
    {
      "epoch": 0.27647916666666666,
      "grad_norm": 0.8061407208442688,
      "learning_rate": 0.0002479707941661587,
      "loss": 3.9323,
      "step": 132710
    },
    {
      "epoch": 0.2765,
      "grad_norm": 0.7482733726501465,
      "learning_rate": 0.00024796332867904305,
      "loss": 3.9319,
      "step": 132720
    },
    {
      "epoch": 0.2765208333333333,
      "grad_norm": 0.8119469285011292,
      "learning_rate": 0.0002479558627687646,
      "loss": 3.8668,
      "step": 132730
    },
    {
      "epoch": 0.2765416666666667,
      "grad_norm": 0.7966367602348328,
      "learning_rate": 0.0002479483964353555,
      "loss": 4.0551,
      "step": 132740
    },
    {
      "epoch": 0.2765625,
      "grad_norm": 0.7177198529243469,
      "learning_rate": 0.00024794092967884816,
      "loss": 3.9185,
      "step": 132750
    },
    {
      "epoch": 0.27658333333333335,
      "grad_norm": 0.8023561835289001,
      "learning_rate": 0.0002479334624992748,
      "loss": 3.9533,
      "step": 132760
    },
    {
      "epoch": 0.27660416666666665,
      "grad_norm": 0.7962167859077454,
      "learning_rate": 0.0002479259948966677,
      "loss": 3.9769,
      "step": 132770
    },
    {
      "epoch": 0.276625,
      "grad_norm": 0.7198845744132996,
      "learning_rate": 0.00024791852687105895,
      "loss": 3.8765,
      "step": 132780
    },
    {
      "epoch": 0.2766458333333333,
      "grad_norm": 0.7700552344322205,
      "learning_rate": 0.00024791105842248096,
      "loss": 3.9403,
      "step": 132790
    },
    {
      "epoch": 0.27666666666666667,
      "grad_norm": 0.7716922163963318,
      "learning_rate": 0.00024790358955096594,
      "loss": 3.6963,
      "step": 132800
    },
    {
      "epoch": 0.2766875,
      "grad_norm": 0.8241925835609436,
      "learning_rate": 0.0002478961202565462,
      "loss": 3.7876,
      "step": 132810
    },
    {
      "epoch": 0.27670833333333333,
      "grad_norm": 0.7270147204399109,
      "learning_rate": 0.00024788865053925396,
      "loss": 3.9579,
      "step": 132820
    },
    {
      "epoch": 0.2767291666666667,
      "grad_norm": 0.7996960282325745,
      "learning_rate": 0.00024788118039912146,
      "loss": 4.0749,
      "step": 132830
    },
    {
      "epoch": 0.27675,
      "grad_norm": 0.8000491857528687,
      "learning_rate": 0.00024787370983618106,
      "loss": 3.814,
      "step": 132840
    },
    {
      "epoch": 0.27677083333333335,
      "grad_norm": 0.7110986113548279,
      "learning_rate": 0.0002478662388504649,
      "loss": 3.9137,
      "step": 132850
    },
    {
      "epoch": 0.27679166666666666,
      "grad_norm": 0.7205012440681458,
      "learning_rate": 0.0002478587674420054,
      "loss": 3.8264,
      "step": 132860
    },
    {
      "epoch": 0.2768125,
      "grad_norm": 0.6954079270362854,
      "learning_rate": 0.00024785129561083474,
      "loss": 3.8256,
      "step": 132870
    },
    {
      "epoch": 0.2768333333333333,
      "grad_norm": 0.7799181938171387,
      "learning_rate": 0.0002478438233569852,
      "loss": 3.8835,
      "step": 132880
    },
    {
      "epoch": 0.2768541666666667,
      "grad_norm": 0.8152369260787964,
      "learning_rate": 0.00024783635068048907,
      "loss": 3.8429,
      "step": 132890
    },
    {
      "epoch": 0.276875,
      "grad_norm": 0.6911367774009705,
      "learning_rate": 0.0002478288775813787,
      "loss": 3.8786,
      "step": 132900
    },
    {
      "epoch": 0.27689583333333334,
      "grad_norm": 0.8147971630096436,
      "learning_rate": 0.0002478214040596862,
      "loss": 3.9934,
      "step": 132910
    },
    {
      "epoch": 0.27691666666666664,
      "grad_norm": 0.8403414487838745,
      "learning_rate": 0.000247813930115444,
      "loss": 4.0516,
      "step": 132920
    },
    {
      "epoch": 0.2769375,
      "grad_norm": 0.8567450046539307,
      "learning_rate": 0.0002478064557486844,
      "loss": 3.7637,
      "step": 132930
    },
    {
      "epoch": 0.2769583333333333,
      "grad_norm": 0.7273354530334473,
      "learning_rate": 0.0002477989809594395,
      "loss": 3.8275,
      "step": 132940
    },
    {
      "epoch": 0.27697916666666667,
      "grad_norm": 0.7942883968353271,
      "learning_rate": 0.00024779150574774184,
      "loss": 4.0662,
      "step": 132950
    },
    {
      "epoch": 0.277,
      "grad_norm": 0.7408545017242432,
      "learning_rate": 0.0002477840301136235,
      "loss": 4.0655,
      "step": 132960
    },
    {
      "epoch": 0.2770208333333333,
      "grad_norm": 0.7178606986999512,
      "learning_rate": 0.00024777655405711687,
      "loss": 4.0082,
      "step": 132970
    },
    {
      "epoch": 0.2770416666666667,
      "grad_norm": 0.8014410138130188,
      "learning_rate": 0.00024776907757825426,
      "loss": 3.8897,
      "step": 132980
    },
    {
      "epoch": 0.2770625,
      "grad_norm": 0.6989971399307251,
      "learning_rate": 0.0002477616006770679,
      "loss": 3.9006,
      "step": 132990
    },
    {
      "epoch": 0.27708333333333335,
      "grad_norm": 0.6430938243865967,
      "learning_rate": 0.00024775412335359013,
      "loss": 3.7929,
      "step": 133000
    },
    {
      "epoch": 0.27708333333333335,
      "eval_loss": 4.25203800201416,
      "eval_runtime": 11.3325,
      "eval_samples_per_second": 0.882,
      "eval_steps_per_second": 0.265,
      "step": 133000
    },
    {
      "epoch": 0.27710416666666665,
      "grad_norm": 0.698390781879425,
      "learning_rate": 0.0002477466456078532,
      "loss": 3.8963,
      "step": 133010
    },
    {
      "epoch": 0.277125,
      "grad_norm": 0.8117298483848572,
      "learning_rate": 0.00024773916743988956,
      "loss": 3.9922,
      "step": 133020
    },
    {
      "epoch": 0.2771458333333333,
      "grad_norm": 0.7057883143424988,
      "learning_rate": 0.00024773168884973133,
      "loss": 3.9356,
      "step": 133030
    },
    {
      "epoch": 0.2771666666666667,
      "grad_norm": 0.7092406749725342,
      "learning_rate": 0.0002477242098374109,
      "loss": 3.894,
      "step": 133040
    },
    {
      "epoch": 0.2771875,
      "grad_norm": 0.7766349911689758,
      "learning_rate": 0.00024771673040296054,
      "loss": 3.8215,
      "step": 133050
    },
    {
      "epoch": 0.27720833333333333,
      "grad_norm": 0.754065752029419,
      "learning_rate": 0.0002477092505464126,
      "loss": 3.9204,
      "step": 133060
    },
    {
      "epoch": 0.2772291666666667,
      "grad_norm": 0.8501023650169373,
      "learning_rate": 0.00024770177026779943,
      "loss": 3.8653,
      "step": 133070
    },
    {
      "epoch": 0.27725,
      "grad_norm": 0.7586575150489807,
      "learning_rate": 0.0002476942895671532,
      "loss": 3.9615,
      "step": 133080
    },
    {
      "epoch": 0.27727083333333336,
      "grad_norm": 0.6712607145309448,
      "learning_rate": 0.0002476868084445064,
      "loss": 3.8531,
      "step": 133090
    },
    {
      "epoch": 0.27729166666666666,
      "grad_norm": 0.8482848405838013,
      "learning_rate": 0.00024767932689989116,
      "loss": 3.9118,
      "step": 133100
    },
    {
      "epoch": 0.2773125,
      "grad_norm": 0.6801428198814392,
      "learning_rate": 0.00024767184493333996,
      "loss": 4.0108,
      "step": 133110
    },
    {
      "epoch": 0.2773333333333333,
      "grad_norm": 0.6933743357658386,
      "learning_rate": 0.00024766436254488504,
      "loss": 3.8926,
      "step": 133120
    },
    {
      "epoch": 0.2773541666666667,
      "grad_norm": 0.7418867349624634,
      "learning_rate": 0.0002476568797345587,
      "loss": 3.9082,
      "step": 133130
    },
    {
      "epoch": 0.277375,
      "grad_norm": 0.7913655042648315,
      "learning_rate": 0.0002476493965023933,
      "loss": 3.6879,
      "step": 133140
    },
    {
      "epoch": 0.27739583333333334,
      "grad_norm": 0.7758198380470276,
      "learning_rate": 0.0002476419128484212,
      "loss": 3.7967,
      "step": 133150
    },
    {
      "epoch": 0.27741666666666664,
      "grad_norm": 0.7843701243400574,
      "learning_rate": 0.00024763442877267464,
      "loss": 3.731,
      "step": 133160
    },
    {
      "epoch": 0.2774375,
      "grad_norm": 0.854170560836792,
      "learning_rate": 0.000247626944275186,
      "loss": 3.8701,
      "step": 133170
    },
    {
      "epoch": 0.2774583333333333,
      "grad_norm": 0.7104267477989197,
      "learning_rate": 0.00024761945935598763,
      "loss": 3.9602,
      "step": 133180
    },
    {
      "epoch": 0.27747916666666667,
      "grad_norm": 0.7127953767776489,
      "learning_rate": 0.00024761197401511185,
      "loss": 3.7469,
      "step": 133190
    },
    {
      "epoch": 0.2775,
      "grad_norm": 0.9060876965522766,
      "learning_rate": 0.00024760448825259093,
      "loss": 3.8231,
      "step": 133200
    },
    {
      "epoch": 0.2775208333333333,
      "grad_norm": 0.8678663969039917,
      "learning_rate": 0.0002475970020684573,
      "loss": 3.7128,
      "step": 133210
    },
    {
      "epoch": 0.2775416666666667,
      "grad_norm": 0.7376992702484131,
      "learning_rate": 0.0002475895154627432,
      "loss": 3.8584,
      "step": 133220
    },
    {
      "epoch": 0.2775625,
      "grad_norm": 0.7553621530532837,
      "learning_rate": 0.00024758202843548106,
      "loss": 3.8356,
      "step": 133230
    },
    {
      "epoch": 0.27758333333333335,
      "grad_norm": 0.7907311916351318,
      "learning_rate": 0.00024757454098670316,
      "loss": 4.0354,
      "step": 133240
    },
    {
      "epoch": 0.27760416666666665,
      "grad_norm": 0.70696622133255,
      "learning_rate": 0.0002475670531164419,
      "loss": 3.9169,
      "step": 133250
    },
    {
      "epoch": 0.277625,
      "grad_norm": 0.7540358304977417,
      "learning_rate": 0.00024755956482472953,
      "loss": 3.8542,
      "step": 133260
    },
    {
      "epoch": 0.2776458333333333,
      "grad_norm": 1.0031418800354004,
      "learning_rate": 0.00024755207611159853,
      "loss": 3.829,
      "step": 133270
    },
    {
      "epoch": 0.2776666666666667,
      "grad_norm": 0.8153480887413025,
      "learning_rate": 0.00024754458697708113,
      "loss": 3.8229,
      "step": 133280
    },
    {
      "epoch": 0.2776875,
      "grad_norm": 0.8533832430839539,
      "learning_rate": 0.00024753709742120976,
      "loss": 3.9057,
      "step": 133290
    },
    {
      "epoch": 0.27770833333333333,
      "grad_norm": 0.7678558826446533,
      "learning_rate": 0.0002475296074440167,
      "loss": 3.9505,
      "step": 133300
    },
    {
      "epoch": 0.2777291666666667,
      "grad_norm": 0.7100315093994141,
      "learning_rate": 0.00024752211704553436,
      "loss": 3.8329,
      "step": 133310
    },
    {
      "epoch": 0.27775,
      "grad_norm": 0.7462872862815857,
      "learning_rate": 0.00024751462622579507,
      "loss": 3.8226,
      "step": 133320
    },
    {
      "epoch": 0.27777083333333336,
      "grad_norm": 0.6560298800468445,
      "learning_rate": 0.0002475071349848312,
      "loss": 3.79,
      "step": 133330
    },
    {
      "epoch": 0.27779166666666666,
      "grad_norm": 0.7685410976409912,
      "learning_rate": 0.0002474996433226751,
      "loss": 4.1247,
      "step": 133340
    },
    {
      "epoch": 0.2778125,
      "grad_norm": 0.9091788530349731,
      "learning_rate": 0.0002474921512393591,
      "loss": 3.8819,
      "step": 133350
    },
    {
      "epoch": 0.2778333333333333,
      "grad_norm": 0.7501220107078552,
      "learning_rate": 0.0002474846587349157,
      "loss": 4.0909,
      "step": 133360
    },
    {
      "epoch": 0.2778541666666667,
      "grad_norm": 0.736700713634491,
      "learning_rate": 0.00024747716580937704,
      "loss": 3.999,
      "step": 133370
    },
    {
      "epoch": 0.277875,
      "grad_norm": 0.7330749034881592,
      "learning_rate": 0.0002474696724627757,
      "loss": 3.9607,
      "step": 133380
    },
    {
      "epoch": 0.27789583333333334,
      "grad_norm": 1.129955768585205,
      "learning_rate": 0.00024746217869514386,
      "loss": 3.8476,
      "step": 133390
    },
    {
      "epoch": 0.27791666666666665,
      "grad_norm": 0.9618799686431885,
      "learning_rate": 0.00024745468450651406,
      "loss": 3.8176,
      "step": 133400
    },
    {
      "epoch": 0.2779375,
      "grad_norm": 0.7968894839286804,
      "learning_rate": 0.0002474471898969186,
      "loss": 3.9537,
      "step": 133410
    },
    {
      "epoch": 0.2779583333333333,
      "grad_norm": 0.7801215052604675,
      "learning_rate": 0.0002474396948663898,
      "loss": 3.8565,
      "step": 133420
    },
    {
      "epoch": 0.27797916666666667,
      "grad_norm": 0.8733572959899902,
      "learning_rate": 0.00024743219941496014,
      "loss": 3.7669,
      "step": 133430
    },
    {
      "epoch": 0.278,
      "grad_norm": 0.7591676115989685,
      "learning_rate": 0.00024742470354266195,
      "loss": 3.9456,
      "step": 133440
    },
    {
      "epoch": 0.27802083333333333,
      "grad_norm": 0.7562623620033264,
      "learning_rate": 0.0002474172072495275,
      "loss": 4.0068,
      "step": 133450
    },
    {
      "epoch": 0.2780416666666667,
      "grad_norm": 0.8241015672683716,
      "learning_rate": 0.0002474097105355894,
      "loss": 3.7955,
      "step": 133460
    },
    {
      "epoch": 0.2780625,
      "grad_norm": 0.8676769733428955,
      "learning_rate": 0.00024740221340087984,
      "loss": 3.7834,
      "step": 133470
    },
    {
      "epoch": 0.27808333333333335,
      "grad_norm": 0.8230909705162048,
      "learning_rate": 0.0002473947158454313,
      "loss": 3.9856,
      "step": 133480
    },
    {
      "epoch": 0.27810416666666665,
      "grad_norm": 0.753420352935791,
      "learning_rate": 0.0002473872178692761,
      "loss": 3.7815,
      "step": 133490
    },
    {
      "epoch": 0.278125,
      "grad_norm": 0.8099004030227661,
      "learning_rate": 0.0002473797194724467,
      "loss": 3.7515,
      "step": 133500
    },
    {
      "epoch": 0.2781458333333333,
      "grad_norm": 0.6993834376335144,
      "learning_rate": 0.0002473722206549755,
      "loss": 3.9677,
      "step": 133510
    },
    {
      "epoch": 0.2781666666666667,
      "grad_norm": 0.8607573509216309,
      "learning_rate": 0.0002473647214168948,
      "loss": 3.8672,
      "step": 133520
    },
    {
      "epoch": 0.2781875,
      "grad_norm": 0.7211482524871826,
      "learning_rate": 0.000247357221758237,
      "loss": 3.9377,
      "step": 133530
    },
    {
      "epoch": 0.27820833333333334,
      "grad_norm": 0.8053668141365051,
      "learning_rate": 0.0002473497216790346,
      "loss": 3.9637,
      "step": 133540
    },
    {
      "epoch": 0.2782291666666667,
      "grad_norm": 0.7525752782821655,
      "learning_rate": 0.0002473422211793199,
      "loss": 3.9231,
      "step": 133550
    },
    {
      "epoch": 0.27825,
      "grad_norm": 0.7284352779388428,
      "learning_rate": 0.00024733472025912544,
      "loss": 3.9236,
      "step": 133560
    },
    {
      "epoch": 0.27827083333333336,
      "grad_norm": 0.6524061560630798,
      "learning_rate": 0.0002473272189184834,
      "loss": 4.0124,
      "step": 133570
    },
    {
      "epoch": 0.27829166666666666,
      "grad_norm": 0.7495468854904175,
      "learning_rate": 0.00024731971715742635,
      "loss": 3.9622,
      "step": 133580
    },
    {
      "epoch": 0.2783125,
      "grad_norm": 0.9105659127235413,
      "learning_rate": 0.00024731221497598663,
      "loss": 3.7995,
      "step": 133590
    },
    {
      "epoch": 0.2783333333333333,
      "grad_norm": 0.8224932551383972,
      "learning_rate": 0.00024730471237419664,
      "loss": 3.7998,
      "step": 133600
    },
    {
      "epoch": 0.2783541666666667,
      "grad_norm": 0.6656752824783325,
      "learning_rate": 0.00024729720935208883,
      "loss": 3.96,
      "step": 133610
    },
    {
      "epoch": 0.278375,
      "grad_norm": 0.7148240804672241,
      "learning_rate": 0.00024728970590969554,
      "loss": 3.7599,
      "step": 133620
    },
    {
      "epoch": 0.27839583333333334,
      "grad_norm": 0.6949142813682556,
      "learning_rate": 0.0002472822020470493,
      "loss": 3.9496,
      "step": 133630
    },
    {
      "epoch": 0.27841666666666665,
      "grad_norm": 0.9460969567298889,
      "learning_rate": 0.00024727469776418244,
      "loss": 3.8556,
      "step": 133640
    },
    {
      "epoch": 0.2784375,
      "grad_norm": 0.7744948267936707,
      "learning_rate": 0.0002472671930611274,
      "loss": 3.9411,
      "step": 133650
    },
    {
      "epoch": 0.2784583333333333,
      "grad_norm": 0.7456602454185486,
      "learning_rate": 0.00024725968793791654,
      "loss": 4.0432,
      "step": 133660
    },
    {
      "epoch": 0.27847916666666667,
      "grad_norm": 0.7471010684967041,
      "learning_rate": 0.0002472521823945824,
      "loss": 3.7779,
      "step": 133670
    },
    {
      "epoch": 0.2785,
      "grad_norm": 0.7852413058280945,
      "learning_rate": 0.0002472446764311572,
      "loss": 3.7147,
      "step": 133680
    },
    {
      "epoch": 0.27852083333333333,
      "grad_norm": 0.7148804664611816,
      "learning_rate": 0.0002472371700476736,
      "loss": 3.8989,
      "step": 133690
    },
    {
      "epoch": 0.2785416666666667,
      "grad_norm": 0.867415726184845,
      "learning_rate": 0.00024722966324416387,
      "loss": 3.939,
      "step": 133700
    },
    {
      "epoch": 0.2785625,
      "grad_norm": 0.7479038238525391,
      "learning_rate": 0.00024722215602066054,
      "loss": 3.7793,
      "step": 133710
    },
    {
      "epoch": 0.27858333333333335,
      "grad_norm": 0.8404342532157898,
      "learning_rate": 0.0002472146483771959,
      "loss": 3.8228,
      "step": 133720
    },
    {
      "epoch": 0.27860416666666665,
      "grad_norm": 0.8289809823036194,
      "learning_rate": 0.0002472071403138025,
      "loss": 3.806,
      "step": 133730
    },
    {
      "epoch": 0.278625,
      "grad_norm": 0.7609227895736694,
      "learning_rate": 0.00024719963183051274,
      "loss": 3.9845,
      "step": 133740
    },
    {
      "epoch": 0.2786458333333333,
      "grad_norm": 0.8049852252006531,
      "learning_rate": 0.000247192122927359,
      "loss": 3.9355,
      "step": 133750
    },
    {
      "epoch": 0.2786666666666667,
      "grad_norm": 0.8076243996620178,
      "learning_rate": 0.0002471846136043738,
      "loss": 3.9156,
      "step": 133760
    },
    {
      "epoch": 0.2786875,
      "grad_norm": 0.6860559582710266,
      "learning_rate": 0.00024717710386158953,
      "loss": 3.9179,
      "step": 133770
    },
    {
      "epoch": 0.27870833333333334,
      "grad_norm": 0.7297862768173218,
      "learning_rate": 0.00024716959369903865,
      "loss": 3.6941,
      "step": 133780
    },
    {
      "epoch": 0.27872916666666664,
      "grad_norm": 0.7276851534843445,
      "learning_rate": 0.00024716208311675354,
      "loss": 3.9759,
      "step": 133790
    },
    {
      "epoch": 0.27875,
      "grad_norm": 0.9661086797714233,
      "learning_rate": 0.0002471545721147667,
      "loss": 3.8396,
      "step": 133800
    },
    {
      "epoch": 0.27877083333333336,
      "grad_norm": 0.7535386681556702,
      "learning_rate": 0.0002471470606931106,
      "loss": 3.8949,
      "step": 133810
    },
    {
      "epoch": 0.27879166666666666,
      "grad_norm": 0.6950332522392273,
      "learning_rate": 0.0002471395488518177,
      "loss": 3.8371,
      "step": 133820
    },
    {
      "epoch": 0.2788125,
      "grad_norm": 0.8685430884361267,
      "learning_rate": 0.0002471320365909203,
      "loss": 3.8148,
      "step": 133830
    },
    {
      "epoch": 0.2788333333333333,
      "grad_norm": 0.7430678009986877,
      "learning_rate": 0.000247124523910451,
      "loss": 3.8313,
      "step": 133840
    },
    {
      "epoch": 0.2788541666666667,
      "grad_norm": 0.6985995173454285,
      "learning_rate": 0.0002471170108104422,
      "loss": 3.9017,
      "step": 133850
    },
    {
      "epoch": 0.278875,
      "grad_norm": 0.7569820284843445,
      "learning_rate": 0.0002471094972909263,
      "loss": 3.8636,
      "step": 133860
    },
    {
      "epoch": 0.27889583333333334,
      "grad_norm": 0.8204565048217773,
      "learning_rate": 0.00024710198335193585,
      "loss": 3.6903,
      "step": 133870
    },
    {
      "epoch": 0.27891666666666665,
      "grad_norm": 0.7291808128356934,
      "learning_rate": 0.00024709446899350327,
      "loss": 4.0672,
      "step": 133880
    },
    {
      "epoch": 0.2789375,
      "grad_norm": 0.7143608331680298,
      "learning_rate": 0.00024708695421566106,
      "loss": 3.8784,
      "step": 133890
    },
    {
      "epoch": 0.2789583333333333,
      "grad_norm": 0.8411667943000793,
      "learning_rate": 0.00024707943901844154,
      "loss": 3.8655,
      "step": 133900
    },
    {
      "epoch": 0.27897916666666667,
      "grad_norm": 0.8257243633270264,
      "learning_rate": 0.0002470719234018774,
      "loss": 4.042,
      "step": 133910
    },
    {
      "epoch": 0.279,
      "grad_norm": 0.71912682056427,
      "learning_rate": 0.0002470644073660008,
      "loss": 3.9267,
      "step": 133920
    },
    {
      "epoch": 0.27902083333333333,
      "grad_norm": 0.8172757625579834,
      "learning_rate": 0.00024705689091084456,
      "loss": 3.8714,
      "step": 133930
    },
    {
      "epoch": 0.2790416666666667,
      "grad_norm": 0.7362871170043945,
      "learning_rate": 0.00024704937403644087,
      "loss": 4.0334,
      "step": 133940
    },
    {
      "epoch": 0.2790625,
      "grad_norm": 0.8331841230392456,
      "learning_rate": 0.0002470418567428223,
      "loss": 3.8644,
      "step": 133950
    },
    {
      "epoch": 0.27908333333333335,
      "grad_norm": 0.7435336112976074,
      "learning_rate": 0.0002470343390300214,
      "loss": 3.7954,
      "step": 133960
    },
    {
      "epoch": 0.27910416666666665,
      "grad_norm": 0.8290193676948547,
      "learning_rate": 0.00024702682089807046,
      "loss": 3.9861,
      "step": 133970
    },
    {
      "epoch": 0.279125,
      "grad_norm": 0.614303469657898,
      "learning_rate": 0.0002470193023470021,
      "loss": 3.8057,
      "step": 133980
    },
    {
      "epoch": 0.2791458333333333,
      "grad_norm": 0.7697263956069946,
      "learning_rate": 0.00024701178337684874,
      "loss": 3.9579,
      "step": 133990
    },
    {
      "epoch": 0.2791666666666667,
      "grad_norm": 0.9671379923820496,
      "learning_rate": 0.00024700426398764294,
      "loss": 3.9137,
      "step": 134000
    },
    {
      "epoch": 0.2791666666666667,
      "eval_loss": 4.245899200439453,
      "eval_runtime": 9.9773,
      "eval_samples_per_second": 1.002,
      "eval_steps_per_second": 0.301,
      "step": 134000
    },
    {
      "epoch": 0.2791875,
      "grad_norm": 0.909746527671814,
      "learning_rate": 0.00024699674417941707,
      "loss": 4.1506,
      "step": 134010
    },
    {
      "epoch": 0.27920833333333334,
      "grad_norm": 0.8989776968955994,
      "learning_rate": 0.00024698922395220365,
      "loss": 3.9303,
      "step": 134020
    },
    {
      "epoch": 0.27922916666666664,
      "grad_norm": 0.6752610802650452,
      "learning_rate": 0.00024698170330603517,
      "loss": 3.8082,
      "step": 134030
    },
    {
      "epoch": 0.27925,
      "grad_norm": 0.7387091517448425,
      "learning_rate": 0.00024697418224094413,
      "loss": 3.9435,
      "step": 134040
    },
    {
      "epoch": 0.27927083333333336,
      "grad_norm": 0.8927291035652161,
      "learning_rate": 0.000246966660756963,
      "loss": 3.8528,
      "step": 134050
    },
    {
      "epoch": 0.27929166666666666,
      "grad_norm": 0.7119011878967285,
      "learning_rate": 0.0002469591388541243,
      "loss": 3.914,
      "step": 134060
    },
    {
      "epoch": 0.2793125,
      "grad_norm": 0.7779905200004578,
      "learning_rate": 0.0002469516165324605,
      "loss": 3.8115,
      "step": 134070
    },
    {
      "epoch": 0.2793333333333333,
      "grad_norm": 0.6846845746040344,
      "learning_rate": 0.0002469440937920041,
      "loss": 3.9762,
      "step": 134080
    },
    {
      "epoch": 0.2793541666666667,
      "grad_norm": 0.8272965550422668,
      "learning_rate": 0.00024693657063278756,
      "loss": 3.9737,
      "step": 134090
    },
    {
      "epoch": 0.279375,
      "grad_norm": 0.8637388348579407,
      "learning_rate": 0.00024692904705484343,
      "loss": 3.9225,
      "step": 134100
    },
    {
      "epoch": 0.27939583333333334,
      "grad_norm": 0.7356088161468506,
      "learning_rate": 0.00024692152305820416,
      "loss": 3.8506,
      "step": 134110
    },
    {
      "epoch": 0.27941666666666665,
      "grad_norm": 0.7476629018783569,
      "learning_rate": 0.00024691399864290223,
      "loss": 3.8466,
      "step": 134120
    },
    {
      "epoch": 0.2794375,
      "grad_norm": 0.7287749648094177,
      "learning_rate": 0.00024690647380897027,
      "loss": 4.0347,
      "step": 134130
    },
    {
      "epoch": 0.2794583333333333,
      "grad_norm": 0.8730844855308533,
      "learning_rate": 0.0002468989485564407,
      "loss": 3.859,
      "step": 134140
    },
    {
      "epoch": 0.27947916666666667,
      "grad_norm": 0.7651601433753967,
      "learning_rate": 0.000246891422885346,
      "loss": 3.8703,
      "step": 134150
    },
    {
      "epoch": 0.2795,
      "grad_norm": 0.7703250050544739,
      "learning_rate": 0.0002468838967957187,
      "loss": 3.8272,
      "step": 134160
    },
    {
      "epoch": 0.27952083333333333,
      "grad_norm": 0.7168813347816467,
      "learning_rate": 0.0002468763702875913,
      "loss": 3.8973,
      "step": 134170
    },
    {
      "epoch": 0.2795416666666667,
      "grad_norm": 0.7636588215827942,
      "learning_rate": 0.00024686884336099635,
      "loss": 4.0207,
      "step": 134180
    },
    {
      "epoch": 0.2795625,
      "grad_norm": 0.7055059671401978,
      "learning_rate": 0.00024686131601596635,
      "loss": 3.9185,
      "step": 134190
    },
    {
      "epoch": 0.27958333333333335,
      "grad_norm": 0.7227670550346375,
      "learning_rate": 0.0002468537882525338,
      "loss": 3.9392,
      "step": 134200
    },
    {
      "epoch": 0.27960416666666665,
      "grad_norm": 0.7951478958129883,
      "learning_rate": 0.0002468462600707312,
      "loss": 3.9474,
      "step": 134210
    },
    {
      "epoch": 0.279625,
      "grad_norm": 0.8108668923377991,
      "learning_rate": 0.0002468387314705911,
      "loss": 3.8839,
      "step": 134220
    },
    {
      "epoch": 0.2796458333333333,
      "grad_norm": 0.7958268523216248,
      "learning_rate": 0.000246831202452146,
      "loss": 3.9115,
      "step": 134230
    },
    {
      "epoch": 0.2796666666666667,
      "grad_norm": 0.7325651049613953,
      "learning_rate": 0.00024682367301542845,
      "loss": 3.9722,
      "step": 134240
    },
    {
      "epoch": 0.2796875,
      "grad_norm": 0.7939375042915344,
      "learning_rate": 0.00024681614316047096,
      "loss": 3.8727,
      "step": 134250
    },
    {
      "epoch": 0.27970833333333334,
      "grad_norm": 0.9299023747444153,
      "learning_rate": 0.00024680861288730606,
      "loss": 3.848,
      "step": 134260
    },
    {
      "epoch": 0.27972916666666664,
      "grad_norm": 0.7630616426467896,
      "learning_rate": 0.0002468010821959663,
      "loss": 3.8453,
      "step": 134270
    },
    {
      "epoch": 0.27975,
      "grad_norm": 0.7500441670417786,
      "learning_rate": 0.0002467935510864841,
      "loss": 3.8254,
      "step": 134280
    },
    {
      "epoch": 0.27977083333333336,
      "grad_norm": 0.8298051357269287,
      "learning_rate": 0.00024678601955889214,
      "loss": 4.0098,
      "step": 134290
    },
    {
      "epoch": 0.27979166666666666,
      "grad_norm": 0.842956006526947,
      "learning_rate": 0.00024677848761322287,
      "loss": 3.7714,
      "step": 134300
    },
    {
      "epoch": 0.2798125,
      "grad_norm": 0.7670019268989563,
      "learning_rate": 0.00024677095524950883,
      "loss": 3.8397,
      "step": 134310
    },
    {
      "epoch": 0.2798333333333333,
      "grad_norm": 0.7444519996643066,
      "learning_rate": 0.00024676342246778254,
      "loss": 3.9703,
      "step": 134320
    },
    {
      "epoch": 0.2798541666666667,
      "grad_norm": 0.711760938167572,
      "learning_rate": 0.00024675588926807663,
      "loss": 3.9238,
      "step": 134330
    },
    {
      "epoch": 0.279875,
      "grad_norm": 0.8552448153495789,
      "learning_rate": 0.00024674835565042353,
      "loss": 3.9923,
      "step": 134340
    },
    {
      "epoch": 0.27989583333333334,
      "grad_norm": 0.7049008011817932,
      "learning_rate": 0.00024674082161485586,
      "loss": 4.0184,
      "step": 134350
    },
    {
      "epoch": 0.27991666666666665,
      "grad_norm": 0.912716269493103,
      "learning_rate": 0.0002467332871614061,
      "loss": 3.9564,
      "step": 134360
    },
    {
      "epoch": 0.2799375,
      "grad_norm": 0.7552905678749084,
      "learning_rate": 0.0002467257522901069,
      "loss": 3.9281,
      "step": 134370
    },
    {
      "epoch": 0.2799583333333333,
      "grad_norm": 0.7481129169464111,
      "learning_rate": 0.00024671821700099063,
      "loss": 3.7751,
      "step": 134380
    },
    {
      "epoch": 0.27997916666666667,
      "grad_norm": 0.8523600101470947,
      "learning_rate": 0.00024671068129409,
      "loss": 3.8498,
      "step": 134390
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9007193446159363,
      "learning_rate": 0.00024670314516943753,
      "loss": 3.8311,
      "step": 134400
    },
    {
      "epoch": 0.28002083333333333,
      "grad_norm": 0.7183635234832764,
      "learning_rate": 0.00024669560862706575,
      "loss": 3.8576,
      "step": 134410
    },
    {
      "epoch": 0.2800416666666667,
      "grad_norm": 0.9791690111160278,
      "learning_rate": 0.0002466880716670072,
      "loss": 3.8467,
      "step": 134420
    },
    {
      "epoch": 0.2800625,
      "grad_norm": 0.8136066198348999,
      "learning_rate": 0.00024668053428929444,
      "loss": 3.7853,
      "step": 134430
    },
    {
      "epoch": 0.28008333333333335,
      "grad_norm": 0.7707487344741821,
      "learning_rate": 0.00024667299649396,
      "loss": 3.895,
      "step": 134440
    },
    {
      "epoch": 0.28010416666666665,
      "grad_norm": 0.8332579731941223,
      "learning_rate": 0.0002466654582810365,
      "loss": 3.8655,
      "step": 134450
    },
    {
      "epoch": 0.280125,
      "grad_norm": 0.7983569502830505,
      "learning_rate": 0.00024665791965055656,
      "loss": 4.0804,
      "step": 134460
    },
    {
      "epoch": 0.2801458333333333,
      "grad_norm": 0.8069074749946594,
      "learning_rate": 0.0002466503806025526,
      "loss": 3.8701,
      "step": 134470
    },
    {
      "epoch": 0.2801666666666667,
      "grad_norm": 0.7925261855125427,
      "learning_rate": 0.0002466428411370573,
      "loss": 3.9058,
      "step": 134480
    },
    {
      "epoch": 0.2801875,
      "grad_norm": 0.705861508846283,
      "learning_rate": 0.00024663530125410314,
      "loss": 3.8601,
      "step": 134490
    },
    {
      "epoch": 0.28020833333333334,
      "grad_norm": 0.8148671984672546,
      "learning_rate": 0.00024662776095372275,
      "loss": 3.9271,
      "step": 134500
    },
    {
      "epoch": 0.28022916666666664,
      "grad_norm": 0.7167771458625793,
      "learning_rate": 0.0002466202202359487,
      "loss": 4.0037,
      "step": 134510
    },
    {
      "epoch": 0.28025,
      "grad_norm": 0.7773129343986511,
      "learning_rate": 0.00024661267910081346,
      "loss": 3.7436,
      "step": 134520
    },
    {
      "epoch": 0.28027083333333336,
      "grad_norm": 0.6956601142883301,
      "learning_rate": 0.00024660513754834983,
      "loss": 3.9117,
      "step": 134530
    },
    {
      "epoch": 0.28029166666666666,
      "grad_norm": 0.8371565937995911,
      "learning_rate": 0.00024659759557859006,
      "loss": 4.0053,
      "step": 134540
    },
    {
      "epoch": 0.2803125,
      "grad_norm": 0.7747480869293213,
      "learning_rate": 0.00024659005319156707,
      "loss": 4.0264,
      "step": 134550
    },
    {
      "epoch": 0.2803333333333333,
      "grad_norm": 0.8306632041931152,
      "learning_rate": 0.0002465825103873132,
      "loss": 3.7768,
      "step": 134560
    },
    {
      "epoch": 0.2803541666666667,
      "grad_norm": 0.9270726442337036,
      "learning_rate": 0.0002465749671658612,
      "loss": 4.0022,
      "step": 134570
    },
    {
      "epoch": 0.280375,
      "grad_norm": 0.7167968153953552,
      "learning_rate": 0.00024656742352724344,
      "loss": 3.7802,
      "step": 134580
    },
    {
      "epoch": 0.28039583333333334,
      "grad_norm": 0.6861337423324585,
      "learning_rate": 0.00024655987947149274,
      "loss": 3.9313,
      "step": 134590
    },
    {
      "epoch": 0.28041666666666665,
      "grad_norm": 0.9111992716789246,
      "learning_rate": 0.0002465523349986415,
      "loss": 3.8889,
      "step": 134600
    },
    {
      "epoch": 0.2804375,
      "grad_norm": 0.7465101480484009,
      "learning_rate": 0.0002465447901087225,
      "loss": 3.7526,
      "step": 134610
    },
    {
      "epoch": 0.2804583333333333,
      "grad_norm": 0.8952368497848511,
      "learning_rate": 0.0002465372448017681,
      "loss": 3.9337,
      "step": 134620
    },
    {
      "epoch": 0.28047916666666667,
      "grad_norm": 0.8151842951774597,
      "learning_rate": 0.0002465296990778111,
      "loss": 3.7215,
      "step": 134630
    },
    {
      "epoch": 0.2805,
      "grad_norm": 0.788152813911438,
      "learning_rate": 0.00024652215293688396,
      "loss": 3.7733,
      "step": 134640
    },
    {
      "epoch": 0.28052083333333333,
      "grad_norm": 0.959462583065033,
      "learning_rate": 0.00024651460637901935,
      "loss": 3.9174,
      "step": 134650
    },
    {
      "epoch": 0.2805416666666667,
      "grad_norm": 0.7358541488647461,
      "learning_rate": 0.00024650705940424983,
      "loss": 3.8842,
      "step": 134660
    },
    {
      "epoch": 0.2805625,
      "grad_norm": 0.7882206439971924,
      "learning_rate": 0.00024649951201260805,
      "loss": 3.852,
      "step": 134670
    },
    {
      "epoch": 0.28058333333333335,
      "grad_norm": 0.725260317325592,
      "learning_rate": 0.0002464919642041266,
      "loss": 4.0749,
      "step": 134680
    },
    {
      "epoch": 0.28060416666666665,
      "grad_norm": 0.8031278252601624,
      "learning_rate": 0.00024648441597883796,
      "loss": 3.9033,
      "step": 134690
    },
    {
      "epoch": 0.280625,
      "grad_norm": 0.81363445520401,
      "learning_rate": 0.00024647686733677486,
      "loss": 3.7258,
      "step": 134700
    },
    {
      "epoch": 0.2806458333333333,
      "grad_norm": 0.7239891886711121,
      "learning_rate": 0.0002464693182779699,
      "loss": 3.9903,
      "step": 134710
    },
    {
      "epoch": 0.2806666666666667,
      "grad_norm": 0.7306421399116516,
      "learning_rate": 0.00024646176880245574,
      "loss": 3.9181,
      "step": 134720
    },
    {
      "epoch": 0.2806875,
      "grad_norm": 0.8823321461677551,
      "learning_rate": 0.0002464542189102648,
      "loss": 3.9185,
      "step": 134730
    },
    {
      "epoch": 0.28070833333333334,
      "grad_norm": 0.7872290015220642,
      "learning_rate": 0.00024644666860142985,
      "loss": 3.7821,
      "step": 134740
    },
    {
      "epoch": 0.28072916666666664,
      "grad_norm": 0.7661877274513245,
      "learning_rate": 0.00024643911787598354,
      "loss": 3.8258,
      "step": 134750
    },
    {
      "epoch": 0.28075,
      "grad_norm": 0.77086341381073,
      "learning_rate": 0.00024643156673395835,
      "loss": 3.8683,
      "step": 134760
    },
    {
      "epoch": 0.28077083333333336,
      "grad_norm": 0.7667698860168457,
      "learning_rate": 0.0002464240151753869,
      "loss": 3.709,
      "step": 134770
    },
    {
      "epoch": 0.28079166666666666,
      "grad_norm": 0.8732684850692749,
      "learning_rate": 0.000246416463200302,
      "loss": 3.9342,
      "step": 134780
    },
    {
      "epoch": 0.2808125,
      "grad_norm": 1.03135347366333,
      "learning_rate": 0.0002464089108087361,
      "loss": 4.0615,
      "step": 134790
    },
    {
      "epoch": 0.2808333333333333,
      "grad_norm": 0.6598926186561584,
      "learning_rate": 0.00024640135800072183,
      "loss": 3.9819,
      "step": 134800
    },
    {
      "epoch": 0.2808541666666667,
      "grad_norm": 0.8123093247413635,
      "learning_rate": 0.0002463938047762919,
      "loss": 3.7303,
      "step": 134810
    },
    {
      "epoch": 0.280875,
      "grad_norm": 0.6905823945999146,
      "learning_rate": 0.00024638625113547886,
      "loss": 3.9113,
      "step": 134820
    },
    {
      "epoch": 0.28089583333333334,
      "grad_norm": 0.8295285105705261,
      "learning_rate": 0.0002463786970783154,
      "loss": 3.989,
      "step": 134830
    },
    {
      "epoch": 0.28091666666666665,
      "grad_norm": 0.7179462313652039,
      "learning_rate": 0.00024637114260483403,
      "loss": 3.896,
      "step": 134840
    },
    {
      "epoch": 0.2809375,
      "grad_norm": 0.8576661944389343,
      "learning_rate": 0.00024636358771506757,
      "loss": 4.0024,
      "step": 134850
    },
    {
      "epoch": 0.2809583333333333,
      "grad_norm": 0.7801895141601562,
      "learning_rate": 0.0002463560324090485,
      "loss": 3.9864,
      "step": 134860
    },
    {
      "epoch": 0.28097916666666667,
      "grad_norm": 0.7190414071083069,
      "learning_rate": 0.0002463484766868095,
      "loss": 3.8678,
      "step": 134870
    },
    {
      "epoch": 0.281,
      "grad_norm": 0.7430031895637512,
      "learning_rate": 0.0002463409205483833,
      "loss": 3.9134,
      "step": 134880
    },
    {
      "epoch": 0.28102083333333333,
      "grad_norm": 0.7835262417793274,
      "learning_rate": 0.0002463333639938024,
      "loss": 3.9247,
      "step": 134890
    },
    {
      "epoch": 0.2810416666666667,
      "grad_norm": 0.892043948173523,
      "learning_rate": 0.0002463258070230995,
      "loss": 3.9352,
      "step": 134900
    },
    {
      "epoch": 0.2810625,
      "grad_norm": 0.7500973343849182,
      "learning_rate": 0.0002463182496363072,
      "loss": 3.8272,
      "step": 134910
    },
    {
      "epoch": 0.28108333333333335,
      "grad_norm": 0.7308000326156616,
      "learning_rate": 0.0002463106918334582,
      "loss": 4.0023,
      "step": 134920
    },
    {
      "epoch": 0.28110416666666665,
      "grad_norm": 1.077051043510437,
      "learning_rate": 0.0002463031336145852,
      "loss": 3.9416,
      "step": 134930
    },
    {
      "epoch": 0.281125,
      "grad_norm": 0.7214117646217346,
      "learning_rate": 0.00024629557497972074,
      "loss": 3.8552,
      "step": 134940
    },
    {
      "epoch": 0.2811458333333333,
      "grad_norm": 0.7460265159606934,
      "learning_rate": 0.0002462880159288975,
      "loss": 3.8411,
      "step": 134950
    },
    {
      "epoch": 0.2811666666666667,
      "grad_norm": 0.7656046748161316,
      "learning_rate": 0.00024628045646214817,
      "loss": 3.835,
      "step": 134960
    },
    {
      "epoch": 0.2811875,
      "grad_norm": 0.87418133020401,
      "learning_rate": 0.00024627289657950537,
      "loss": 3.986,
      "step": 134970
    },
    {
      "epoch": 0.28120833333333334,
      "grad_norm": 0.7578343152999878,
      "learning_rate": 0.00024626533628100176,
      "loss": 3.7863,
      "step": 134980
    },
    {
      "epoch": 0.28122916666666664,
      "grad_norm": 0.6849825382232666,
      "learning_rate": 0.00024625777556667,
      "loss": 3.8321,
      "step": 134990
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.7450081706047058,
      "learning_rate": 0.0002462502144365428,
      "loss": 4.0672,
      "step": 135000
    },
    {
      "epoch": 0.28125,
      "eval_loss": 4.221157550811768,
      "eval_runtime": 9.3993,
      "eval_samples_per_second": 1.064,
      "eval_steps_per_second": 0.319,
      "step": 135000
    },
    {
      "epoch": 0.28127083333333336,
      "grad_norm": 0.8191119432449341,
      "learning_rate": 0.0002462426528906527,
      "loss": 3.8127,
      "step": 135010
    },
    {
      "epoch": 0.28129166666666666,
      "grad_norm": 0.7392029166221619,
      "learning_rate": 0.00024623509092903245,
      "loss": 3.8914,
      "step": 135020
    },
    {
      "epoch": 0.2813125,
      "grad_norm": 0.7667672634124756,
      "learning_rate": 0.0002462275285517147,
      "loss": 3.804,
      "step": 135030
    },
    {
      "epoch": 0.2813333333333333,
      "grad_norm": 0.7549951076507568,
      "learning_rate": 0.00024621996575873215,
      "loss": 3.8415,
      "step": 135040
    },
    {
      "epoch": 0.2813541666666667,
      "grad_norm": 0.8320620656013489,
      "learning_rate": 0.0002462124025501174,
      "loss": 3.7493,
      "step": 135050
    },
    {
      "epoch": 0.281375,
      "grad_norm": 0.721186101436615,
      "learning_rate": 0.0002462048389259032,
      "loss": 3.6958,
      "step": 135060
    },
    {
      "epoch": 0.28139583333333335,
      "grad_norm": 0.7645911574363708,
      "learning_rate": 0.00024619727488612214,
      "loss": 3.7336,
      "step": 135070
    },
    {
      "epoch": 0.28141666666666665,
      "grad_norm": 0.8337659239768982,
      "learning_rate": 0.00024618971043080697,
      "loss": 3.912,
      "step": 135080
    },
    {
      "epoch": 0.2814375,
      "grad_norm": 0.8214209079742432,
      "learning_rate": 0.00024618214555999023,
      "loss": 3.8932,
      "step": 135090
    },
    {
      "epoch": 0.2814583333333333,
      "grad_norm": 0.7396931648254395,
      "learning_rate": 0.0002461745802737048,
      "loss": 4.0749,
      "step": 135100
    },
    {
      "epoch": 0.28147916666666667,
      "grad_norm": 0.6799883246421814,
      "learning_rate": 0.0002461670145719832,
      "loss": 4.0208,
      "step": 135110
    },
    {
      "epoch": 0.2815,
      "grad_norm": 0.918932318687439,
      "learning_rate": 0.0002461594484548582,
      "loss": 3.9587,
      "step": 135120
    },
    {
      "epoch": 0.28152083333333333,
      "grad_norm": 0.7125634551048279,
      "learning_rate": 0.0002461518819223624,
      "loss": 3.963,
      "step": 135130
    },
    {
      "epoch": 0.2815416666666667,
      "grad_norm": 0.7947373390197754,
      "learning_rate": 0.0002461443149745285,
      "loss": 3.7922,
      "step": 135140
    },
    {
      "epoch": 0.2815625,
      "grad_norm": 0.9676728844642639,
      "learning_rate": 0.0002461367476113893,
      "loss": 3.8529,
      "step": 135150
    },
    {
      "epoch": 0.28158333333333335,
      "grad_norm": 0.7215476036071777,
      "learning_rate": 0.00024612917983297733,
      "loss": 3.9207,
      "step": 135160
    },
    {
      "epoch": 0.28160416666666666,
      "grad_norm": 0.8585578799247742,
      "learning_rate": 0.00024612161163932537,
      "loss": 3.9712,
      "step": 135170
    },
    {
      "epoch": 0.281625,
      "grad_norm": 0.7324315905570984,
      "learning_rate": 0.00024611404303046615,
      "loss": 3.9919,
      "step": 135180
    },
    {
      "epoch": 0.2816458333333333,
      "grad_norm": 0.7512481808662415,
      "learning_rate": 0.00024610647400643225,
      "loss": 4.0101,
      "step": 135190
    },
    {
      "epoch": 0.2816666666666667,
      "grad_norm": 0.7292667627334595,
      "learning_rate": 0.0002460989045672565,
      "loss": 3.7814,
      "step": 135200
    },
    {
      "epoch": 0.2816875,
      "grad_norm": 0.8307130336761475,
      "learning_rate": 0.0002460913347129714,
      "loss": 3.7662,
      "step": 135210
    },
    {
      "epoch": 0.28170833333333334,
      "grad_norm": 0.7954584956169128,
      "learning_rate": 0.00024608376444360984,
      "loss": 3.9628,
      "step": 135220
    },
    {
      "epoch": 0.28172916666666664,
      "grad_norm": 0.6350939273834229,
      "learning_rate": 0.00024607619375920445,
      "loss": 4.003,
      "step": 135230
    },
    {
      "epoch": 0.28175,
      "grad_norm": 0.7627553939819336,
      "learning_rate": 0.0002460686226597879,
      "loss": 3.8486,
      "step": 135240
    },
    {
      "epoch": 0.28177083333333336,
      "grad_norm": 0.7690590023994446,
      "learning_rate": 0.000246061051145393,
      "loss": 3.9147,
      "step": 135250
    },
    {
      "epoch": 0.28179166666666666,
      "grad_norm": 0.7204603552818298,
      "learning_rate": 0.0002460534792160523,
      "loss": 3.8089,
      "step": 135260
    },
    {
      "epoch": 0.2818125,
      "grad_norm": 0.728065550327301,
      "learning_rate": 0.0002460459068717986,
      "loss": 3.8829,
      "step": 135270
    },
    {
      "epoch": 0.2818333333333333,
      "grad_norm": 0.7920730710029602,
      "learning_rate": 0.0002460383341126647,
      "loss": 3.8566,
      "step": 135280
    },
    {
      "epoch": 0.2818541666666667,
      "grad_norm": 0.8125127553939819,
      "learning_rate": 0.0002460307609386831,
      "loss": 3.762,
      "step": 135290
    },
    {
      "epoch": 0.281875,
      "grad_norm": 0.7278837561607361,
      "learning_rate": 0.0002460231873498867,
      "loss": 3.9734,
      "step": 135300
    },
    {
      "epoch": 0.28189583333333335,
      "grad_norm": 0.7219279408454895,
      "learning_rate": 0.00024601561334630813,
      "loss": 3.8303,
      "step": 135310
    },
    {
      "epoch": 0.28191666666666665,
      "grad_norm": 0.7353322505950928,
      "learning_rate": 0.00024600803892798,
      "loss": 3.7927,
      "step": 135320
    },
    {
      "epoch": 0.2819375,
      "grad_norm": 1.1231403350830078,
      "learning_rate": 0.0002460004640949353,
      "loss": 4.1187,
      "step": 135330
    },
    {
      "epoch": 0.2819583333333333,
      "grad_norm": 0.8621324896812439,
      "learning_rate": 0.0002459928888472065,
      "loss": 3.9641,
      "step": 135340
    },
    {
      "epoch": 0.28197916666666667,
      "grad_norm": 0.7662733197212219,
      "learning_rate": 0.00024598531318482643,
      "loss": 4.0493,
      "step": 135350
    },
    {
      "epoch": 0.282,
      "grad_norm": 0.803392767906189,
      "learning_rate": 0.0002459777371078278,
      "loss": 3.8111,
      "step": 135360
    },
    {
      "epoch": 0.28202083333333333,
      "grad_norm": 0.6791334748268127,
      "learning_rate": 0.0002459701606162434,
      "loss": 3.9889,
      "step": 135370
    },
    {
      "epoch": 0.2820416666666667,
      "grad_norm": 0.7904629707336426,
      "learning_rate": 0.0002459625837101058,
      "loss": 3.793,
      "step": 135380
    },
    {
      "epoch": 0.2820625,
      "grad_norm": 0.7061792612075806,
      "learning_rate": 0.00024595500638944785,
      "loss": 4.0339,
      "step": 135390
    },
    {
      "epoch": 0.28208333333333335,
      "grad_norm": 0.8004636764526367,
      "learning_rate": 0.0002459474286543023,
      "loss": 3.9321,
      "step": 135400
    },
    {
      "epoch": 0.28210416666666666,
      "grad_norm": 0.6900667548179626,
      "learning_rate": 0.0002459398505047018,
      "loss": 3.7761,
      "step": 135410
    },
    {
      "epoch": 0.282125,
      "grad_norm": 1.2346785068511963,
      "learning_rate": 0.00024593227194067915,
      "loss": 3.8888,
      "step": 135420
    },
    {
      "epoch": 0.2821458333333333,
      "grad_norm": 0.7955517172813416,
      "learning_rate": 0.000245924692962267,
      "loss": 4.0665,
      "step": 135430
    },
    {
      "epoch": 0.2821666666666667,
      "grad_norm": 0.7239528298377991,
      "learning_rate": 0.0002459171135694982,
      "loss": 3.7522,
      "step": 135440
    },
    {
      "epoch": 0.2821875,
      "grad_norm": 0.9383248686790466,
      "learning_rate": 0.0002459095337624054,
      "loss": 3.8179,
      "step": 135450
    },
    {
      "epoch": 0.28220833333333334,
      "grad_norm": 0.9835183620452881,
      "learning_rate": 0.0002459019535410214,
      "loss": 3.9332,
      "step": 135460
    },
    {
      "epoch": 0.28222916666666664,
      "grad_norm": 0.8068369626998901,
      "learning_rate": 0.00024589437290537897,
      "loss": 3.9372,
      "step": 135470
    },
    {
      "epoch": 0.28225,
      "grad_norm": 0.8559551239013672,
      "learning_rate": 0.00024588679185551075,
      "loss": 3.8649,
      "step": 135480
    },
    {
      "epoch": 0.28227083333333336,
      "grad_norm": 0.7521690726280212,
      "learning_rate": 0.00024587921039144955,
      "loss": 3.9958,
      "step": 135490
    },
    {
      "epoch": 0.28229166666666666,
      "grad_norm": 0.8238077759742737,
      "learning_rate": 0.0002458716285132281,
      "loss": 3.7795,
      "step": 135500
    },
    {
      "epoch": 0.2823125,
      "grad_norm": 0.7946140766143799,
      "learning_rate": 0.00024586404622087916,
      "loss": 3.8456,
      "step": 135510
    },
    {
      "epoch": 0.2823333333333333,
      "grad_norm": 0.7648153305053711,
      "learning_rate": 0.00024585646351443546,
      "loss": 3.905,
      "step": 135520
    },
    {
      "epoch": 0.2823541666666667,
      "grad_norm": 0.7741970419883728,
      "learning_rate": 0.00024584888039392986,
      "loss": 3.9183,
      "step": 135530
    },
    {
      "epoch": 0.282375,
      "grad_norm": 0.7711015343666077,
      "learning_rate": 0.00024584129685939504,
      "loss": 3.8413,
      "step": 135540
    },
    {
      "epoch": 0.28239583333333335,
      "grad_norm": 0.7576962113380432,
      "learning_rate": 0.0002458337129108637,
      "loss": 3.7885,
      "step": 135550
    },
    {
      "epoch": 0.28241666666666665,
      "grad_norm": 0.7365676164627075,
      "learning_rate": 0.00024582612854836866,
      "loss": 3.7391,
      "step": 135560
    },
    {
      "epoch": 0.2824375,
      "grad_norm": 0.8267436027526855,
      "learning_rate": 0.0002458185437719427,
      "loss": 3.8644,
      "step": 135570
    },
    {
      "epoch": 0.2824583333333333,
      "grad_norm": 0.9108872413635254,
      "learning_rate": 0.0002458109585816185,
      "loss": 4.013,
      "step": 135580
    },
    {
      "epoch": 0.28247916666666667,
      "grad_norm": 0.7238395810127258,
      "learning_rate": 0.00024580337297742895,
      "loss": 3.8336,
      "step": 135590
    },
    {
      "epoch": 0.2825,
      "grad_norm": 0.8387781977653503,
      "learning_rate": 0.0002457957869594067,
      "loss": 3.9041,
      "step": 135600
    },
    {
      "epoch": 0.28252083333333333,
      "grad_norm": 0.7236524820327759,
      "learning_rate": 0.0002457882005275846,
      "loss": 3.9331,
      "step": 135610
    },
    {
      "epoch": 0.2825416666666667,
      "grad_norm": 0.726824164390564,
      "learning_rate": 0.0002457806136819954,
      "loss": 4.1544,
      "step": 135620
    },
    {
      "epoch": 0.2825625,
      "grad_norm": 0.7713344097137451,
      "learning_rate": 0.00024577302642267185,
      "loss": 3.8191,
      "step": 135630
    },
    {
      "epoch": 0.28258333333333335,
      "grad_norm": 0.739510178565979,
      "learning_rate": 0.0002457654387496467,
      "loss": 3.9173,
      "step": 135640
    },
    {
      "epoch": 0.28260416666666666,
      "grad_norm": 0.8398464918136597,
      "learning_rate": 0.0002457578506629528,
      "loss": 3.8148,
      "step": 135650
    },
    {
      "epoch": 0.282625,
      "grad_norm": 0.7227621674537659,
      "learning_rate": 0.00024575026216262287,
      "loss": 3.8777,
      "step": 135660
    },
    {
      "epoch": 0.2826458333333333,
      "grad_norm": 0.8589826822280884,
      "learning_rate": 0.00024574267324868973,
      "loss": 4.1501,
      "step": 135670
    },
    {
      "epoch": 0.2826666666666667,
      "grad_norm": 0.6851149797439575,
      "learning_rate": 0.00024573508392118615,
      "loss": 3.8898,
      "step": 135680
    },
    {
      "epoch": 0.2826875,
      "grad_norm": 0.8047986626625061,
      "learning_rate": 0.00024572749418014483,
      "loss": 3.8185,
      "step": 135690
    },
    {
      "epoch": 0.28270833333333334,
      "grad_norm": 0.7805941104888916,
      "learning_rate": 0.00024571990402559867,
      "loss": 3.8186,
      "step": 135700
    },
    {
      "epoch": 0.28272916666666664,
      "grad_norm": 0.7202308773994446,
      "learning_rate": 0.00024571231345758046,
      "loss": 3.8741,
      "step": 135710
    },
    {
      "epoch": 0.28275,
      "grad_norm": 0.7143944501876831,
      "learning_rate": 0.0002457047224761229,
      "loss": 3.9587,
      "step": 135720
    },
    {
      "epoch": 0.28277083333333336,
      "grad_norm": 0.8790487051010132,
      "learning_rate": 0.00024569713108125876,
      "loss": 3.8899,
      "step": 135730
    },
    {
      "epoch": 0.28279166666666666,
      "grad_norm": 0.7429547309875488,
      "learning_rate": 0.000245689539273021,
      "loss": 3.926,
      "step": 135740
    },
    {
      "epoch": 0.2828125,
      "grad_norm": 0.7426328659057617,
      "learning_rate": 0.00024568194705144224,
      "loss": 4.0142,
      "step": 135750
    },
    {
      "epoch": 0.2828333333333333,
      "grad_norm": 0.8006240129470825,
      "learning_rate": 0.0002456743544165554,
      "loss": 4.0405,
      "step": 135760
    },
    {
      "epoch": 0.2828541666666667,
      "grad_norm": 0.7483779788017273,
      "learning_rate": 0.00024566676136839315,
      "loss": 3.8462,
      "step": 135770
    },
    {
      "epoch": 0.282875,
      "grad_norm": 0.7957842946052551,
      "learning_rate": 0.0002456591679069884,
      "loss": 3.8605,
      "step": 135780
    },
    {
      "epoch": 0.28289583333333335,
      "grad_norm": 0.7107616066932678,
      "learning_rate": 0.00024565157403237393,
      "loss": 3.895,
      "step": 135790
    },
    {
      "epoch": 0.28291666666666665,
      "grad_norm": 0.7412640452384949,
      "learning_rate": 0.0002456439797445825,
      "loss": 3.9034,
      "step": 135800
    },
    {
      "epoch": 0.2829375,
      "grad_norm": 0.7644924521446228,
      "learning_rate": 0.0002456363850436469,
      "loss": 4.0071,
      "step": 135810
    },
    {
      "epoch": 0.2829583333333333,
      "grad_norm": 0.6774699687957764,
      "learning_rate": 0.0002456287899296,
      "loss": 3.9223,
      "step": 135820
    },
    {
      "epoch": 0.28297916666666667,
      "grad_norm": 0.9337239265441895,
      "learning_rate": 0.00024562119440247454,
      "loss": 3.9222,
      "step": 135830
    },
    {
      "epoch": 0.283,
      "grad_norm": 0.8310664296150208,
      "learning_rate": 0.0002456135984623034,
      "loss": 3.8497,
      "step": 135840
    },
    {
      "epoch": 0.28302083333333333,
      "grad_norm": 0.7038436532020569,
      "learning_rate": 0.0002456060021091194,
      "loss": 3.7372,
      "step": 135850
    },
    {
      "epoch": 0.2830416666666667,
      "grad_norm": 0.765346348285675,
      "learning_rate": 0.0002455984053429553,
      "loss": 3.7963,
      "step": 135860
    },
    {
      "epoch": 0.2830625,
      "grad_norm": 0.8583652377128601,
      "learning_rate": 0.0002455908081638439,
      "loss": 4.0577,
      "step": 135870
    },
    {
      "epoch": 0.28308333333333335,
      "grad_norm": 0.9680270552635193,
      "learning_rate": 0.0002455832105718181,
      "loss": 3.9534,
      "step": 135880
    },
    {
      "epoch": 0.28310416666666666,
      "grad_norm": 0.8744089603424072,
      "learning_rate": 0.0002455756125669106,
      "loss": 3.8176,
      "step": 135890
    },
    {
      "epoch": 0.283125,
      "grad_norm": 0.747541606426239,
      "learning_rate": 0.00024556801414915433,
      "loss": 3.7251,
      "step": 135900
    },
    {
      "epoch": 0.2831458333333333,
      "grad_norm": 0.8393620848655701,
      "learning_rate": 0.000245560415318582,
      "loss": 3.9198,
      "step": 135910
    },
    {
      "epoch": 0.2831666666666667,
      "grad_norm": 0.7578654885292053,
      "learning_rate": 0.0002455528160752266,
      "loss": 3.9151,
      "step": 135920
    },
    {
      "epoch": 0.2831875,
      "grad_norm": 0.7834842205047607,
      "learning_rate": 0.00024554521641912075,
      "loss": 3.8502,
      "step": 135930
    },
    {
      "epoch": 0.28320833333333334,
      "grad_norm": 0.8876955509185791,
      "learning_rate": 0.00024553761635029745,
      "loss": 3.9661,
      "step": 135940
    },
    {
      "epoch": 0.28322916666666664,
      "grad_norm": 0.9934695959091187,
      "learning_rate": 0.00024553001586878945,
      "loss": 3.7369,
      "step": 135950
    },
    {
      "epoch": 0.28325,
      "grad_norm": 0.8776425123214722,
      "learning_rate": 0.00024552241497462966,
      "loss": 3.9641,
      "step": 135960
    },
    {
      "epoch": 0.28327083333333336,
      "grad_norm": 0.7151868939399719,
      "learning_rate": 0.00024551481366785077,
      "loss": 3.9289,
      "step": 135970
    },
    {
      "epoch": 0.28329166666666666,
      "grad_norm": 0.7008922696113586,
      "learning_rate": 0.0002455072119484857,
      "loss": 4.0344,
      "step": 135980
    },
    {
      "epoch": 0.2833125,
      "grad_norm": 0.8747656345367432,
      "learning_rate": 0.0002454996098165673,
      "loss": 3.8825,
      "step": 135990
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 0.7541623711585999,
      "learning_rate": 0.00024549200727212836,
      "loss": 3.949,
      "step": 136000
    },
    {
      "epoch": 0.2833333333333333,
      "eval_loss": 4.239216327667236,
      "eval_runtime": 10.2586,
      "eval_samples_per_second": 0.975,
      "eval_steps_per_second": 0.292,
      "step": 136000
    },
    {
      "epoch": 0.2833541666666667,
      "grad_norm": 0.6402384042739868,
      "learning_rate": 0.0002454844043152018,
      "loss": 3.9987,
      "step": 136010
    },
    {
      "epoch": 0.283375,
      "grad_norm": 0.710842490196228,
      "learning_rate": 0.0002454768009458203,
      "loss": 3.8705,
      "step": 136020
    },
    {
      "epoch": 0.28339583333333335,
      "grad_norm": 0.7603106498718262,
      "learning_rate": 0.0002454691971640169,
      "loss": 3.9416,
      "step": 136030
    },
    {
      "epoch": 0.28341666666666665,
      "grad_norm": 0.6821646690368652,
      "learning_rate": 0.0002454615929698244,
      "loss": 4.1431,
      "step": 136040
    },
    {
      "epoch": 0.2834375,
      "grad_norm": 0.7200095653533936,
      "learning_rate": 0.0002454539883632755,
      "loss": 3.8856,
      "step": 136050
    },
    {
      "epoch": 0.2834583333333333,
      "grad_norm": 0.7259575724601746,
      "learning_rate": 0.00024544638334440317,
      "loss": 3.9209,
      "step": 136060
    },
    {
      "epoch": 0.28347916666666667,
      "grad_norm": 0.7803996801376343,
      "learning_rate": 0.0002454387779132403,
      "loss": 4.0092,
      "step": 136070
    },
    {
      "epoch": 0.2835,
      "grad_norm": 0.7333680987358093,
      "learning_rate": 0.00024543117206981966,
      "loss": 3.9136,
      "step": 136080
    },
    {
      "epoch": 0.28352083333333333,
      "grad_norm": 0.7314035296440125,
      "learning_rate": 0.00024542356581417414,
      "loss": 3.7344,
      "step": 136090
    },
    {
      "epoch": 0.2835416666666667,
      "grad_norm": 0.812635064125061,
      "learning_rate": 0.0002454159591463366,
      "loss": 3.9047,
      "step": 136100
    },
    {
      "epoch": 0.2835625,
      "grad_norm": 0.7930313348770142,
      "learning_rate": 0.0002454083520663398,
      "loss": 3.9513,
      "step": 136110
    },
    {
      "epoch": 0.28358333333333335,
      "grad_norm": 0.8235002160072327,
      "learning_rate": 0.0002454007445742168,
      "loss": 3.7966,
      "step": 136120
    },
    {
      "epoch": 0.28360416666666666,
      "grad_norm": 0.8461391925811768,
      "learning_rate": 0.00024539313667000024,
      "loss": 3.7388,
      "step": 136130
    },
    {
      "epoch": 0.283625,
      "grad_norm": 0.6698418259620667,
      "learning_rate": 0.00024538552835372317,
      "loss": 3.8519,
      "step": 136140
    },
    {
      "epoch": 0.2836458333333333,
      "grad_norm": 0.7026820778846741,
      "learning_rate": 0.00024537791962541837,
      "loss": 3.9424,
      "step": 136150
    },
    {
      "epoch": 0.2836666666666667,
      "grad_norm": 0.7958362698554993,
      "learning_rate": 0.0002453703104851187,
      "loss": 3.9441,
      "step": 136160
    },
    {
      "epoch": 0.2836875,
      "grad_norm": 0.7305551767349243,
      "learning_rate": 0.00024536270093285695,
      "loss": 3.8726,
      "step": 136170
    },
    {
      "epoch": 0.28370833333333334,
      "grad_norm": 0.7101027369499207,
      "learning_rate": 0.0002453550909686662,
      "loss": 3.7515,
      "step": 136180
    },
    {
      "epoch": 0.28372916666666664,
      "grad_norm": 0.7983917593955994,
      "learning_rate": 0.00024534748059257917,
      "loss": 3.8679,
      "step": 136190
    },
    {
      "epoch": 0.28375,
      "grad_norm": 0.8551584482192993,
      "learning_rate": 0.00024533986980462873,
      "loss": 3.9336,
      "step": 136200
    },
    {
      "epoch": 0.28377083333333336,
      "grad_norm": 0.786956787109375,
      "learning_rate": 0.00024533225860484784,
      "loss": 3.895,
      "step": 136210
    },
    {
      "epoch": 0.28379166666666666,
      "grad_norm": 0.7345154285430908,
      "learning_rate": 0.00024532464699326923,
      "loss": 3.9076,
      "step": 136220
    },
    {
      "epoch": 0.2838125,
      "grad_norm": 0.7243973016738892,
      "learning_rate": 0.000245317034969926,
      "loss": 3.7573,
      "step": 136230
    },
    {
      "epoch": 0.2838333333333333,
      "grad_norm": 0.6882497668266296,
      "learning_rate": 0.00024530942253485084,
      "loss": 3.9614,
      "step": 136240
    },
    {
      "epoch": 0.2838541666666667,
      "grad_norm": 0.8284547328948975,
      "learning_rate": 0.00024530180968807675,
      "loss": 3.8469,
      "step": 136250
    },
    {
      "epoch": 0.283875,
      "grad_norm": 0.7433136701583862,
      "learning_rate": 0.00024529419642963646,
      "loss": 3.8087,
      "step": 136260
    },
    {
      "epoch": 0.28389583333333335,
      "grad_norm": 0.684509813785553,
      "learning_rate": 0.00024528658275956304,
      "loss": 4.0304,
      "step": 136270
    },
    {
      "epoch": 0.28391666666666665,
      "grad_norm": 0.8636004328727722,
      "learning_rate": 0.0002452789686778893,
      "loss": 3.9275,
      "step": 136280
    },
    {
      "epoch": 0.2839375,
      "grad_norm": 0.6934372186660767,
      "learning_rate": 0.0002452713541846481,
      "loss": 3.9378,
      "step": 136290
    },
    {
      "epoch": 0.2839583333333333,
      "grad_norm": 0.6777101159095764,
      "learning_rate": 0.0002452637392798724,
      "loss": 3.8538,
      "step": 136300
    },
    {
      "epoch": 0.28397916666666667,
      "grad_norm": 0.9898211359977722,
      "learning_rate": 0.00024525612396359504,
      "loss": 3.9106,
      "step": 136310
    },
    {
      "epoch": 0.284,
      "grad_norm": 0.8057311773300171,
      "learning_rate": 0.00024524850823584896,
      "loss": 3.8389,
      "step": 136320
    },
    {
      "epoch": 0.28402083333333333,
      "grad_norm": 0.780342698097229,
      "learning_rate": 0.00024524089209666697,
      "loss": 3.6754,
      "step": 136330
    },
    {
      "epoch": 0.2840416666666667,
      "grad_norm": 0.7153927683830261,
      "learning_rate": 0.0002452332755460821,
      "loss": 4.0187,
      "step": 136340
    },
    {
      "epoch": 0.2840625,
      "grad_norm": 0.8310948610305786,
      "learning_rate": 0.0002452256585841271,
      "loss": 4.0018,
      "step": 136350
    },
    {
      "epoch": 0.28408333333333335,
      "grad_norm": 0.7660813927650452,
      "learning_rate": 0.00024521804121083494,
      "loss": 3.7891,
      "step": 136360
    },
    {
      "epoch": 0.28410416666666666,
      "grad_norm": 0.7115387320518494,
      "learning_rate": 0.00024521042342623856,
      "loss": 3.86,
      "step": 136370
    },
    {
      "epoch": 0.284125,
      "grad_norm": 0.7969538569450378,
      "learning_rate": 0.00024520280523037085,
      "loss": 3.9243,
      "step": 136380
    },
    {
      "epoch": 0.2841458333333333,
      "grad_norm": 0.9327741861343384,
      "learning_rate": 0.0002451951866232647,
      "loss": 3.9266,
      "step": 136390
    },
    {
      "epoch": 0.2841666666666667,
      "grad_norm": 0.6977324485778809,
      "learning_rate": 0.00024518756760495296,
      "loss": 3.9094,
      "step": 136400
    },
    {
      "epoch": 0.2841875,
      "grad_norm": 0.6368212103843689,
      "learning_rate": 0.0002451799481754687,
      "loss": 3.8754,
      "step": 136410
    },
    {
      "epoch": 0.28420833333333334,
      "grad_norm": 0.7496811151504517,
      "learning_rate": 0.0002451723283348447,
      "loss": 3.9576,
      "step": 136420
    },
    {
      "epoch": 0.28422916666666664,
      "grad_norm": 0.7864912748336792,
      "learning_rate": 0.0002451647080831139,
      "loss": 3.824,
      "step": 136430
    },
    {
      "epoch": 0.28425,
      "grad_norm": 0.6945728659629822,
      "learning_rate": 0.00024515708742030924,
      "loss": 3.9257,
      "step": 136440
    },
    {
      "epoch": 0.2842708333333333,
      "grad_norm": 0.775587260723114,
      "learning_rate": 0.0002451494663464637,
      "loss": 3.912,
      "step": 136450
    },
    {
      "epoch": 0.28429166666666666,
      "grad_norm": 0.7053690552711487,
      "learning_rate": 0.00024514184486161,
      "loss": 4.0474,
      "step": 136460
    },
    {
      "epoch": 0.2843125,
      "grad_norm": 0.713844358921051,
      "learning_rate": 0.0002451342229657813,
      "loss": 3.7112,
      "step": 136470
    },
    {
      "epoch": 0.2843333333333333,
      "grad_norm": 0.7707213759422302,
      "learning_rate": 0.00024512660065901035,
      "loss": 3.955,
      "step": 136480
    },
    {
      "epoch": 0.2843541666666667,
      "grad_norm": 0.766405463218689,
      "learning_rate": 0.0002451189779413302,
      "loss": 3.7751,
      "step": 136490
    },
    {
      "epoch": 0.284375,
      "grad_norm": 0.6748853921890259,
      "learning_rate": 0.0002451113548127736,
      "loss": 3.8307,
      "step": 136500
    },
    {
      "epoch": 0.28439583333333335,
      "grad_norm": 0.7682759165763855,
      "learning_rate": 0.0002451037312733737,
      "loss": 3.8395,
      "step": 136510
    },
    {
      "epoch": 0.28441666666666665,
      "grad_norm": 0.8803014755249023,
      "learning_rate": 0.0002450961073231633,
      "loss": 3.9515,
      "step": 136520
    },
    {
      "epoch": 0.2844375,
      "grad_norm": 0.7665287256240845,
      "learning_rate": 0.0002450884829621753,
      "loss": 3.9371,
      "step": 136530
    },
    {
      "epoch": 0.2844583333333333,
      "grad_norm": 0.927800178527832,
      "learning_rate": 0.00024508085819044276,
      "loss": 4.0647,
      "step": 136540
    },
    {
      "epoch": 0.28447916666666667,
      "grad_norm": 0.7302156686782837,
      "learning_rate": 0.00024507323300799853,
      "loss": 3.7265,
      "step": 136550
    },
    {
      "epoch": 0.2845,
      "grad_norm": 0.9437031745910645,
      "learning_rate": 0.0002450656074148756,
      "loss": 3.763,
      "step": 136560
    },
    {
      "epoch": 0.28452083333333333,
      "grad_norm": 0.7234334349632263,
      "learning_rate": 0.0002450579814111068,
      "loss": 4.1199,
      "step": 136570
    },
    {
      "epoch": 0.2845416666666667,
      "grad_norm": 0.834208071231842,
      "learning_rate": 0.00024505035499672523,
      "loss": 3.7637,
      "step": 136580
    },
    {
      "epoch": 0.2845625,
      "grad_norm": 0.8659419417381287,
      "learning_rate": 0.00024504272817176367,
      "loss": 3.88,
      "step": 136590
    },
    {
      "epoch": 0.28458333333333335,
      "grad_norm": 0.7984698414802551,
      "learning_rate": 0.00024503510093625523,
      "loss": 3.9516,
      "step": 136600
    },
    {
      "epoch": 0.28460416666666666,
      "grad_norm": 0.8526915907859802,
      "learning_rate": 0.00024502747329023267,
      "loss": 3.9445,
      "step": 136610
    },
    {
      "epoch": 0.284625,
      "grad_norm": 0.7919006943702698,
      "learning_rate": 0.0002450198452337291,
      "loss": 3.8639,
      "step": 136620
    },
    {
      "epoch": 0.2846458333333333,
      "grad_norm": 0.8110539317131042,
      "learning_rate": 0.00024501221676677745,
      "loss": 4.0252,
      "step": 136630
    },
    {
      "epoch": 0.2846666666666667,
      "grad_norm": 0.8736828565597534,
      "learning_rate": 0.00024500458788941055,
      "loss": 3.9275,
      "step": 136640
    },
    {
      "epoch": 0.2846875,
      "grad_norm": 0.8536552786827087,
      "learning_rate": 0.00024499695860166147,
      "loss": 4.0089,
      "step": 136650
    },
    {
      "epoch": 0.28470833333333334,
      "grad_norm": 0.8990949392318726,
      "learning_rate": 0.00024498932890356317,
      "loss": 3.9119,
      "step": 136660
    },
    {
      "epoch": 0.28472916666666664,
      "grad_norm": 0.9915972948074341,
      "learning_rate": 0.00024498169879514855,
      "loss": 3.7016,
      "step": 136670
    },
    {
      "epoch": 0.28475,
      "grad_norm": 0.7729864716529846,
      "learning_rate": 0.00024497406827645054,
      "loss": 3.7998,
      "step": 136680
    },
    {
      "epoch": 0.2847708333333333,
      "grad_norm": 0.8087164163589478,
      "learning_rate": 0.0002449664373475022,
      "loss": 3.8034,
      "step": 136690
    },
    {
      "epoch": 0.28479166666666667,
      "grad_norm": 0.7440228462219238,
      "learning_rate": 0.0002449588060083364,
      "loss": 3.973,
      "step": 136700
    },
    {
      "epoch": 0.2848125,
      "grad_norm": 0.9274183511734009,
      "learning_rate": 0.0002449511742589862,
      "loss": 3.9517,
      "step": 136710
    },
    {
      "epoch": 0.2848333333333333,
      "grad_norm": 0.8155286312103271,
      "learning_rate": 0.00024494354209948446,
      "loss": 3.785,
      "step": 136720
    },
    {
      "epoch": 0.2848541666666667,
      "grad_norm": 1.0937007665634155,
      "learning_rate": 0.0002449359095298642,
      "loss": 3.9829,
      "step": 136730
    },
    {
      "epoch": 0.284875,
      "grad_norm": 0.7713371515274048,
      "learning_rate": 0.0002449282765501584,
      "loss": 3.9924,
      "step": 136740
    },
    {
      "epoch": 0.28489583333333335,
      "grad_norm": 0.7449096441268921,
      "learning_rate": 0.0002449206431604001,
      "loss": 3.7998,
      "step": 136750
    },
    {
      "epoch": 0.28491666666666665,
      "grad_norm": 0.8164101243019104,
      "learning_rate": 0.000244913009360622,
      "loss": 3.7971,
      "step": 136760
    },
    {
      "epoch": 0.2849375,
      "grad_norm": 0.7346318364143372,
      "learning_rate": 0.00024490537515085744,
      "loss": 3.8577,
      "step": 136770
    },
    {
      "epoch": 0.2849583333333333,
      "grad_norm": 1.1977342367172241,
      "learning_rate": 0.0002448977405311392,
      "loss": 3.9277,
      "step": 136780
    },
    {
      "epoch": 0.2849791666666667,
      "grad_norm": 0.7212013006210327,
      "learning_rate": 0.0002448901055015002,
      "loss": 3.7761,
      "step": 136790
    },
    {
      "epoch": 0.285,
      "grad_norm": 0.8931235671043396,
      "learning_rate": 0.0002448824700619736,
      "loss": 3.9785,
      "step": 136800
    },
    {
      "epoch": 0.28502083333333333,
      "grad_norm": 0.7123941779136658,
      "learning_rate": 0.0002448748342125922,
      "loss": 3.8037,
      "step": 136810
    },
    {
      "epoch": 0.2850416666666667,
      "grad_norm": 0.9108388423919678,
      "learning_rate": 0.00024486719795338915,
      "loss": 3.8321,
      "step": 136820
    },
    {
      "epoch": 0.2850625,
      "grad_norm": 0.7235055565834045,
      "learning_rate": 0.0002448595612843973,
      "loss": 4.0796,
      "step": 136830
    },
    {
      "epoch": 0.28508333333333336,
      "grad_norm": 0.7296783328056335,
      "learning_rate": 0.00024485192420564976,
      "loss": 3.7726,
      "step": 136840
    },
    {
      "epoch": 0.28510416666666666,
      "grad_norm": 0.7750581502914429,
      "learning_rate": 0.0002448442867171794,
      "loss": 3.7133,
      "step": 136850
    },
    {
      "epoch": 0.285125,
      "grad_norm": 0.8458831906318665,
      "learning_rate": 0.0002448366488190193,
      "loss": 3.9945,
      "step": 136860
    },
    {
      "epoch": 0.2851458333333333,
      "grad_norm": 0.7241488099098206,
      "learning_rate": 0.0002448290105112024,
      "loss": 3.7701,
      "step": 136870
    },
    {
      "epoch": 0.2851666666666667,
      "grad_norm": 0.7744134664535522,
      "learning_rate": 0.0002448213717937616,
      "loss": 3.8955,
      "step": 136880
    },
    {
      "epoch": 0.2851875,
      "grad_norm": 0.7304642796516418,
      "learning_rate": 0.00024481373266673016,
      "loss": 3.8397,
      "step": 136890
    },
    {
      "epoch": 0.28520833333333334,
      "grad_norm": 0.783126711845398,
      "learning_rate": 0.0002448060931301409,
      "loss": 3.9121,
      "step": 136900
    },
    {
      "epoch": 0.28522916666666664,
      "grad_norm": 0.7369124889373779,
      "learning_rate": 0.00024479845318402683,
      "loss": 3.9456,
      "step": 136910
    },
    {
      "epoch": 0.28525,
      "grad_norm": 0.8426327109336853,
      "learning_rate": 0.0002447908128284209,
      "loss": 3.9067,
      "step": 136920
    },
    {
      "epoch": 0.2852708333333333,
      "grad_norm": 0.7436506748199463,
      "learning_rate": 0.00024478317206335623,
      "loss": 3.8531,
      "step": 136930
    },
    {
      "epoch": 0.28529166666666667,
      "grad_norm": 0.7450503706932068,
      "learning_rate": 0.0002447755308888658,
      "loss": 3.8132,
      "step": 136940
    },
    {
      "epoch": 0.2853125,
      "grad_norm": 0.8964552283287048,
      "learning_rate": 0.0002447678893049826,
      "loss": 3.7899,
      "step": 136950
    },
    {
      "epoch": 0.2853333333333333,
      "grad_norm": 0.8717775344848633,
      "learning_rate": 0.00024476024731173956,
      "loss": 4.1012,
      "step": 136960
    },
    {
      "epoch": 0.2853541666666667,
      "grad_norm": 0.8802753686904907,
      "learning_rate": 0.0002447526049091698,
      "loss": 4.2227,
      "step": 136970
    },
    {
      "epoch": 0.285375,
      "grad_norm": 0.9263078570365906,
      "learning_rate": 0.0002447449620973063,
      "loss": 3.9732,
      "step": 136980
    },
    {
      "epoch": 0.28539583333333335,
      "grad_norm": 0.8797346949577332,
      "learning_rate": 0.00024473731887618205,
      "loss": 3.9031,
      "step": 136990
    },
    {
      "epoch": 0.28541666666666665,
      "grad_norm": 0.9999648928642273,
      "learning_rate": 0.00024472967524583007,
      "loss": 3.8779,
      "step": 137000
    },
    {
      "epoch": 0.28541666666666665,
      "eval_loss": 4.235671043395996,
      "eval_runtime": 10.2208,
      "eval_samples_per_second": 0.978,
      "eval_steps_per_second": 0.294,
      "step": 137000
    },
    {
      "epoch": 0.2854375,
      "grad_norm": 1.0022094249725342,
      "learning_rate": 0.0002447220312062834,
      "loss": 3.9631,
      "step": 137010
    },
    {
      "epoch": 0.2854583333333333,
      "grad_norm": 0.7532473206520081,
      "learning_rate": 0.00024471438675757506,
      "loss": 3.6864,
      "step": 137020
    },
    {
      "epoch": 0.2854791666666667,
      "grad_norm": 0.9605657458305359,
      "learning_rate": 0.00024470674189973807,
      "loss": 4.0085,
      "step": 137030
    },
    {
      "epoch": 0.2855,
      "grad_norm": 0.7282142639160156,
      "learning_rate": 0.0002446990966328054,
      "loss": 3.8574,
      "step": 137040
    },
    {
      "epoch": 0.28552083333333333,
      "grad_norm": 0.7058836817741394,
      "learning_rate": 0.00024469145095681015,
      "loss": 3.8468,
      "step": 137050
    },
    {
      "epoch": 0.2855416666666667,
      "grad_norm": 1.0848686695098877,
      "learning_rate": 0.0002446838048717853,
      "loss": 4.0241,
      "step": 137060
    },
    {
      "epoch": 0.2855625,
      "grad_norm": 0.7266920208930969,
      "learning_rate": 0.00024467615837776396,
      "loss": 3.731,
      "step": 137070
    },
    {
      "epoch": 0.28558333333333336,
      "grad_norm": 0.7791388630867004,
      "learning_rate": 0.000244668511474779,
      "loss": 3.8449,
      "step": 137080
    },
    {
      "epoch": 0.28560416666666666,
      "grad_norm": 0.9035462141036987,
      "learning_rate": 0.00024466086416286356,
      "loss": 3.8486,
      "step": 137090
    },
    {
      "epoch": 0.285625,
      "grad_norm": 0.8202222585678101,
      "learning_rate": 0.0002446532164420507,
      "loss": 3.7621,
      "step": 137100
    },
    {
      "epoch": 0.2856458333333333,
      "grad_norm": 0.8017757534980774,
      "learning_rate": 0.0002446455683123734,
      "loss": 3.8887,
      "step": 137110
    },
    {
      "epoch": 0.2856666666666667,
      "grad_norm": 0.674671471118927,
      "learning_rate": 0.0002446379197738647,
      "loss": 3.8451,
      "step": 137120
    },
    {
      "epoch": 0.2856875,
      "grad_norm": 0.6564379930496216,
      "learning_rate": 0.0002446302708265576,
      "loss": 3.8484,
      "step": 137130
    },
    {
      "epoch": 0.28570833333333334,
      "grad_norm": 0.812936007976532,
      "learning_rate": 0.0002446226214704852,
      "loss": 3.9482,
      "step": 137140
    },
    {
      "epoch": 0.28572916666666665,
      "grad_norm": 0.6616566777229309,
      "learning_rate": 0.0002446149717056806,
      "loss": 4.0046,
      "step": 137150
    },
    {
      "epoch": 0.28575,
      "grad_norm": 0.9172353148460388,
      "learning_rate": 0.0002446073215321767,
      "loss": 4.0383,
      "step": 137160
    },
    {
      "epoch": 0.2857708333333333,
      "grad_norm": 0.8429135084152222,
      "learning_rate": 0.0002445996709500067,
      "loss": 3.729,
      "step": 137170
    },
    {
      "epoch": 0.28579166666666667,
      "grad_norm": 0.9286448955535889,
      "learning_rate": 0.00024459201995920347,
      "loss": 3.8731,
      "step": 137180
    },
    {
      "epoch": 0.2858125,
      "grad_norm": 0.7668994665145874,
      "learning_rate": 0.0002445843685598002,
      "loss": 4.1085,
      "step": 137190
    },
    {
      "epoch": 0.28583333333333333,
      "grad_norm": 0.9802369475364685,
      "learning_rate": 0.00024457671675182986,
      "loss": 3.9628,
      "step": 137200
    },
    {
      "epoch": 0.2858541666666667,
      "grad_norm": 0.7626042366027832,
      "learning_rate": 0.0002445690645353256,
      "loss": 3.884,
      "step": 137210
    },
    {
      "epoch": 0.285875,
      "grad_norm": 0.9891412258148193,
      "learning_rate": 0.00024456141191032043,
      "loss": 3.9603,
      "step": 137220
    },
    {
      "epoch": 0.28589583333333335,
      "grad_norm": 0.7996987104415894,
      "learning_rate": 0.0002445537588768473,
      "loss": 4.0008,
      "step": 137230
    },
    {
      "epoch": 0.28591666666666665,
      "grad_norm": 0.7291988730430603,
      "learning_rate": 0.0002445461054349394,
      "loss": 3.9794,
      "step": 137240
    },
    {
      "epoch": 0.2859375,
      "grad_norm": 0.7134636044502258,
      "learning_rate": 0.0002445384515846298,
      "loss": 4.0111,
      "step": 137250
    },
    {
      "epoch": 0.2859583333333333,
      "grad_norm": 0.9032033085823059,
      "learning_rate": 0.00024453079732595143,
      "loss": 3.7017,
      "step": 137260
    },
    {
      "epoch": 0.2859791666666667,
      "grad_norm": 0.8212566375732422,
      "learning_rate": 0.0002445231426589375,
      "loss": 3.9825,
      "step": 137270
    },
    {
      "epoch": 0.286,
      "grad_norm": 0.6934744715690613,
      "learning_rate": 0.000244515487583621,
      "loss": 3.8813,
      "step": 137280
    },
    {
      "epoch": 0.28602083333333334,
      "grad_norm": 0.7895721197128296,
      "learning_rate": 0.00024450783210003496,
      "loss": 4.0059,
      "step": 137290
    },
    {
      "epoch": 0.2860416666666667,
      "grad_norm": 0.7678810954093933,
      "learning_rate": 0.0002445001762082125,
      "loss": 3.9584,
      "step": 137300
    },
    {
      "epoch": 0.2860625,
      "grad_norm": 0.7311771512031555,
      "learning_rate": 0.0002444925199081867,
      "loss": 3.9231,
      "step": 137310
    },
    {
      "epoch": 0.28608333333333336,
      "grad_norm": 0.8574523329734802,
      "learning_rate": 0.00024448486319999065,
      "loss": 3.9868,
      "step": 137320
    },
    {
      "epoch": 0.28610416666666666,
      "grad_norm": 0.881001353263855,
      "learning_rate": 0.00024447720608365735,
      "loss": 3.9325,
      "step": 137330
    },
    {
      "epoch": 0.286125,
      "grad_norm": 0.869366466999054,
      "learning_rate": 0.00024446954855921995,
      "loss": 3.9872,
      "step": 137340
    },
    {
      "epoch": 0.2861458333333333,
      "grad_norm": 0.6884207725524902,
      "learning_rate": 0.00024446189062671145,
      "loss": 4.0171,
      "step": 137350
    },
    {
      "epoch": 0.2861666666666667,
      "grad_norm": 0.7827367186546326,
      "learning_rate": 0.00024445423228616504,
      "loss": 4.0676,
      "step": 137360
    },
    {
      "epoch": 0.2861875,
      "grad_norm": 0.8175660967826843,
      "learning_rate": 0.00024444657353761367,
      "loss": 3.8542,
      "step": 137370
    },
    {
      "epoch": 0.28620833333333334,
      "grad_norm": 0.7950779795646667,
      "learning_rate": 0.00024443891438109046,
      "loss": 3.8679,
      "step": 137380
    },
    {
      "epoch": 0.28622916666666665,
      "grad_norm": 0.9681724309921265,
      "learning_rate": 0.0002444312548166286,
      "loss": 4.0205,
      "step": 137390
    },
    {
      "epoch": 0.28625,
      "grad_norm": 0.7276123762130737,
      "learning_rate": 0.00024442359484426105,
      "loss": 3.6592,
      "step": 137400
    },
    {
      "epoch": 0.2862708333333333,
      "grad_norm": 0.7401350736618042,
      "learning_rate": 0.00024441593446402097,
      "loss": 3.8198,
      "step": 137410
    },
    {
      "epoch": 0.28629166666666667,
      "grad_norm": 0.8060923218727112,
      "learning_rate": 0.00024440827367594144,
      "loss": 3.855,
      "step": 137420
    },
    {
      "epoch": 0.2863125,
      "grad_norm": 0.8754780888557434,
      "learning_rate": 0.00024440061248005553,
      "loss": 3.9173,
      "step": 137430
    },
    {
      "epoch": 0.28633333333333333,
      "grad_norm": 0.7099171280860901,
      "learning_rate": 0.0002443929508763963,
      "loss": 3.9681,
      "step": 137440
    },
    {
      "epoch": 0.2863541666666667,
      "grad_norm": 0.7953276038169861,
      "learning_rate": 0.0002443852888649969,
      "loss": 3.8521,
      "step": 137450
    },
    {
      "epoch": 0.286375,
      "grad_norm": 0.7890026569366455,
      "learning_rate": 0.00024437762644589044,
      "loss": 3.9168,
      "step": 137460
    },
    {
      "epoch": 0.28639583333333335,
      "grad_norm": 0.8757172226905823,
      "learning_rate": 0.00024436996361911,
      "loss": 3.9147,
      "step": 137470
    },
    {
      "epoch": 0.28641666666666665,
      "grad_norm": 0.7503722310066223,
      "learning_rate": 0.00024436230038468856,
      "loss": 3.7692,
      "step": 137480
    },
    {
      "epoch": 0.2864375,
      "grad_norm": 0.6856278777122498,
      "learning_rate": 0.0002443546367426595,
      "loss": 3.8093,
      "step": 137490
    },
    {
      "epoch": 0.2864583333333333,
      "grad_norm": 0.6747648119926453,
      "learning_rate": 0.00024434697269305565,
      "loss": 3.8651,
      "step": 137500
    },
    {
      "epoch": 0.2864791666666667,
      "grad_norm": 0.7176569700241089,
      "learning_rate": 0.00024433930823591026,
      "loss": 3.7198,
      "step": 137510
    },
    {
      "epoch": 0.2865,
      "grad_norm": 0.8360912203788757,
      "learning_rate": 0.00024433164337125636,
      "loss": 4.1612,
      "step": 137520
    },
    {
      "epoch": 0.28652083333333334,
      "grad_norm": 0.8770419359207153,
      "learning_rate": 0.00024432397809912715,
      "loss": 3.7983,
      "step": 137530
    },
    {
      "epoch": 0.28654166666666664,
      "grad_norm": 0.7029489278793335,
      "learning_rate": 0.0002443163124195556,
      "loss": 3.9357,
      "step": 137540
    },
    {
      "epoch": 0.2865625,
      "grad_norm": 0.7894578576087952,
      "learning_rate": 0.000244308646332575,
      "loss": 3.9978,
      "step": 137550
    },
    {
      "epoch": 0.28658333333333336,
      "grad_norm": 0.7583858370780945,
      "learning_rate": 0.0002443009798382184,
      "loss": 3.9795,
      "step": 137560
    },
    {
      "epoch": 0.28660416666666666,
      "grad_norm": 0.8458813428878784,
      "learning_rate": 0.00024429331293651885,
      "loss": 4.0591,
      "step": 137570
    },
    {
      "epoch": 0.286625,
      "grad_norm": 0.8018326163291931,
      "learning_rate": 0.00024428564562750947,
      "loss": 4.0016,
      "step": 137580
    },
    {
      "epoch": 0.2866458333333333,
      "grad_norm": 0.8527501225471497,
      "learning_rate": 0.0002442779779112235,
      "loss": 3.9345,
      "step": 137590
    },
    {
      "epoch": 0.2866666666666667,
      "grad_norm": 0.7853625416755676,
      "learning_rate": 0.00024427030978769397,
      "loss": 4.0211,
      "step": 137600
    },
    {
      "epoch": 0.2866875,
      "grad_norm": 0.7637893557548523,
      "learning_rate": 0.000244262641256954,
      "loss": 3.8982,
      "step": 137610
    },
    {
      "epoch": 0.28670833333333334,
      "grad_norm": 0.7223815321922302,
      "learning_rate": 0.0002442549723190367,
      "loss": 3.9456,
      "step": 137620
    },
    {
      "epoch": 0.28672916666666665,
      "grad_norm": 0.8220368027687073,
      "learning_rate": 0.0002442473029739753,
      "loss": 3.883,
      "step": 137630
    },
    {
      "epoch": 0.28675,
      "grad_norm": 0.8349913954734802,
      "learning_rate": 0.0002442396332218028,
      "loss": 4.0064,
      "step": 137640
    },
    {
      "epoch": 0.2867708333333333,
      "grad_norm": 0.9125717878341675,
      "learning_rate": 0.00024423196306255237,
      "loss": 4.0962,
      "step": 137650
    },
    {
      "epoch": 0.28679166666666667,
      "grad_norm": 0.7998833060264587,
      "learning_rate": 0.0002442242924962572,
      "loss": 3.967,
      "step": 137660
    },
    {
      "epoch": 0.2868125,
      "grad_norm": 0.828202486038208,
      "learning_rate": 0.0002442166215229504,
      "loss": 3.778,
      "step": 137670
    },
    {
      "epoch": 0.28683333333333333,
      "grad_norm": 0.6969061493873596,
      "learning_rate": 0.00024420895014266506,
      "loss": 3.955,
      "step": 137680
    },
    {
      "epoch": 0.2868541666666667,
      "grad_norm": 0.6536150574684143,
      "learning_rate": 0.0002442012783554343,
      "loss": 3.888,
      "step": 137690
    },
    {
      "epoch": 0.286875,
      "grad_norm": 0.8378776907920837,
      "learning_rate": 0.0002441936061612914,
      "loss": 3.88,
      "step": 137700
    },
    {
      "epoch": 0.28689583333333335,
      "grad_norm": 0.8568518757820129,
      "learning_rate": 0.0002441859335602693,
      "loss": 3.9241,
      "step": 137710
    },
    {
      "epoch": 0.28691666666666665,
      "grad_norm": 0.8199082612991333,
      "learning_rate": 0.00024417826055240133,
      "loss": 3.8147,
      "step": 137720
    },
    {
      "epoch": 0.2869375,
      "grad_norm": 0.7390370965003967,
      "learning_rate": 0.0002441705871377206,
      "loss": 3.937,
      "step": 137730
    },
    {
      "epoch": 0.2869583333333333,
      "grad_norm": 0.7011817097663879,
      "learning_rate": 0.0002441629133162601,
      "loss": 3.827,
      "step": 137740
    },
    {
      "epoch": 0.2869791666666667,
      "grad_norm": 0.805828869342804,
      "learning_rate": 0.00024415523908805314,
      "loss": 4.0495,
      "step": 137750
    },
    {
      "epoch": 0.287,
      "grad_norm": 0.7849783897399902,
      "learning_rate": 0.0002441475644531328,
      "loss": 3.7998,
      "step": 137760
    },
    {
      "epoch": 0.28702083333333334,
      "grad_norm": 0.7454816699028015,
      "learning_rate": 0.00024413988941153223,
      "loss": 3.7777,
      "step": 137770
    },
    {
      "epoch": 0.28704166666666664,
      "grad_norm": 0.8828131556510925,
      "learning_rate": 0.00024413221396328463,
      "loss": 4.0438,
      "step": 137780
    },
    {
      "epoch": 0.2870625,
      "grad_norm": 0.9968777298927307,
      "learning_rate": 0.0002441245381084231,
      "loss": 3.8237,
      "step": 137790
    },
    {
      "epoch": 0.28708333333333336,
      "grad_norm": 0.7923646569252014,
      "learning_rate": 0.00024411686184698083,
      "loss": 3.8271,
      "step": 137800
    },
    {
      "epoch": 0.28710416666666666,
      "grad_norm": 0.7095107436180115,
      "learning_rate": 0.00024410918517899101,
      "loss": 4.0117,
      "step": 137810
    },
    {
      "epoch": 0.287125,
      "grad_norm": 0.8674741983413696,
      "learning_rate": 0.0002441015081044867,
      "loss": 3.8683,
      "step": 137820
    },
    {
      "epoch": 0.2871458333333333,
      "grad_norm": 0.7278321981430054,
      "learning_rate": 0.00024409383062350113,
      "loss": 3.8588,
      "step": 137830
    },
    {
      "epoch": 0.2871666666666667,
      "grad_norm": 0.7342334389686584,
      "learning_rate": 0.00024408615273606752,
      "loss": 3.7566,
      "step": 137840
    },
    {
      "epoch": 0.2871875,
      "grad_norm": 0.8908171057701111,
      "learning_rate": 0.0002440784744422189,
      "loss": 3.8713,
      "step": 137850
    },
    {
      "epoch": 0.28720833333333334,
      "grad_norm": 0.8141641616821289,
      "learning_rate": 0.0002440707957419886,
      "loss": 3.9799,
      "step": 137860
    },
    {
      "epoch": 0.28722916666666665,
      "grad_norm": 0.6700426936149597,
      "learning_rate": 0.00024406311663540962,
      "loss": 3.9001,
      "step": 137870
    },
    {
      "epoch": 0.28725,
      "grad_norm": 0.7422057390213013,
      "learning_rate": 0.00024405543712251523,
      "loss": 3.9559,
      "step": 137880
    },
    {
      "epoch": 0.2872708333333333,
      "grad_norm": 0.8203904628753662,
      "learning_rate": 0.00024404775720333855,
      "loss": 3.8718,
      "step": 137890
    },
    {
      "epoch": 0.28729166666666667,
      "grad_norm": 0.7694631814956665,
      "learning_rate": 0.00024404007687791284,
      "loss": 3.8549,
      "step": 137900
    },
    {
      "epoch": 0.2873125,
      "grad_norm": 0.7284468412399292,
      "learning_rate": 0.00024403239614627118,
      "loss": 3.8038,
      "step": 137910
    },
    {
      "epoch": 0.28733333333333333,
      "grad_norm": 0.7546306848526001,
      "learning_rate": 0.0002440247150084468,
      "loss": 3.8782,
      "step": 137920
    },
    {
      "epoch": 0.2873541666666667,
      "grad_norm": 0.8255327343940735,
      "learning_rate": 0.00024401703346447288,
      "loss": 3.9408,
      "step": 137930
    },
    {
      "epoch": 0.287375,
      "grad_norm": 0.9647824764251709,
      "learning_rate": 0.0002440093515143826,
      "loss": 3.7499,
      "step": 137940
    },
    {
      "epoch": 0.28739583333333335,
      "grad_norm": 0.7503395676612854,
      "learning_rate": 0.00024400166915820913,
      "loss": 3.8692,
      "step": 137950
    },
    {
      "epoch": 0.28741666666666665,
      "grad_norm": 0.6001267433166504,
      "learning_rate": 0.00024399398639598564,
      "loss": 3.8996,
      "step": 137960
    },
    {
      "epoch": 0.2874375,
      "grad_norm": 0.8089949488639832,
      "learning_rate": 0.0002439863032277453,
      "loss": 3.8402,
      "step": 137970
    },
    {
      "epoch": 0.2874583333333333,
      "grad_norm": 0.7668039202690125,
      "learning_rate": 0.00024397861965352145,
      "loss": 3.8409,
      "step": 137980
    },
    {
      "epoch": 0.2874791666666667,
      "grad_norm": 0.6709935665130615,
      "learning_rate": 0.00024397093567334703,
      "loss": 3.8844,
      "step": 137990
    },
    {
      "epoch": 0.2875,
      "grad_norm": 0.7303364872932434,
      "learning_rate": 0.00024396325128725542,
      "loss": 3.6715,
      "step": 138000
    },
    {
      "epoch": 0.2875,
      "eval_loss": 4.233199119567871,
      "eval_runtime": 10.0669,
      "eval_samples_per_second": 0.993,
      "eval_steps_per_second": 0.298,
      "step": 138000
    },
    {
      "epoch": 0.28752083333333334,
      "grad_norm": 0.9137221574783325,
      "learning_rate": 0.00024395556649527974,
      "loss": 3.9596,
      "step": 138010
    },
    {
      "epoch": 0.28754166666666664,
      "grad_norm": 0.8966299891471863,
      "learning_rate": 0.00024394788129745326,
      "loss": 3.6356,
      "step": 138020
    },
    {
      "epoch": 0.2875625,
      "grad_norm": 0.7598316073417664,
      "learning_rate": 0.00024394019569380906,
      "loss": 4.0762,
      "step": 138030
    },
    {
      "epoch": 0.28758333333333336,
      "grad_norm": 0.8202336430549622,
      "learning_rate": 0.0002439325096843804,
      "loss": 3.8487,
      "step": 138040
    },
    {
      "epoch": 0.28760416666666666,
      "grad_norm": 0.7815547585487366,
      "learning_rate": 0.00024392482326920052,
      "loss": 4.0053,
      "step": 138050
    },
    {
      "epoch": 0.287625,
      "grad_norm": 0.8336294889450073,
      "learning_rate": 0.00024391713644830257,
      "loss": 3.8189,
      "step": 138060
    },
    {
      "epoch": 0.2876458333333333,
      "grad_norm": 0.7568764686584473,
      "learning_rate": 0.00024390944922171974,
      "loss": 3.8981,
      "step": 138070
    },
    {
      "epoch": 0.2876666666666667,
      "grad_norm": 0.7605885863304138,
      "learning_rate": 0.00024390176158948525,
      "loss": 3.8865,
      "step": 138080
    },
    {
      "epoch": 0.2876875,
      "grad_norm": 0.8164055347442627,
      "learning_rate": 0.00024389407355163237,
      "loss": 3.9136,
      "step": 138090
    },
    {
      "epoch": 0.28770833333333334,
      "grad_norm": 0.7356888651847839,
      "learning_rate": 0.00024388638510819424,
      "loss": 3.8412,
      "step": 138100
    },
    {
      "epoch": 0.28772916666666665,
      "grad_norm": 0.7765897512435913,
      "learning_rate": 0.00024387869625920407,
      "loss": 3.9183,
      "step": 138110
    },
    {
      "epoch": 0.28775,
      "grad_norm": 0.8178598880767822,
      "learning_rate": 0.00024387100700469513,
      "loss": 3.7919,
      "step": 138120
    },
    {
      "epoch": 0.2877708333333333,
      "grad_norm": 0.7296810150146484,
      "learning_rate": 0.00024386331734470057,
      "loss": 3.8515,
      "step": 138130
    },
    {
      "epoch": 0.28779166666666667,
      "grad_norm": 0.8105780482292175,
      "learning_rate": 0.0002438556272792536,
      "loss": 3.8384,
      "step": 138140
    },
    {
      "epoch": 0.2878125,
      "grad_norm": 0.8521139025688171,
      "learning_rate": 0.00024384793680838754,
      "loss": 3.876,
      "step": 138150
    },
    {
      "epoch": 0.28783333333333333,
      "grad_norm": 0.8376750349998474,
      "learning_rate": 0.0002438402459321355,
      "loss": 3.7255,
      "step": 138160
    },
    {
      "epoch": 0.2878541666666667,
      "grad_norm": 0.6736060380935669,
      "learning_rate": 0.00024383255465053072,
      "loss": 3.9398,
      "step": 138170
    },
    {
      "epoch": 0.287875,
      "grad_norm": 0.7400938272476196,
      "learning_rate": 0.00024382486296360651,
      "loss": 3.9649,
      "step": 138180
    },
    {
      "epoch": 0.28789583333333335,
      "grad_norm": 0.8239027857780457,
      "learning_rate": 0.00024381717087139599,
      "loss": 3.9346,
      "step": 138190
    },
    {
      "epoch": 0.28791666666666665,
      "grad_norm": 0.7697859406471252,
      "learning_rate": 0.00024380947837393237,
      "loss": 3.8633,
      "step": 138200
    },
    {
      "epoch": 0.2879375,
      "grad_norm": 0.6768129467964172,
      "learning_rate": 0.00024380178547124903,
      "loss": 3.7374,
      "step": 138210
    },
    {
      "epoch": 0.2879583333333333,
      "grad_norm": 0.814587414264679,
      "learning_rate": 0.00024379409216337906,
      "loss": 3.9828,
      "step": 138220
    },
    {
      "epoch": 0.2879791666666667,
      "grad_norm": 0.7929084300994873,
      "learning_rate": 0.00024378639845035579,
      "loss": 4.0145,
      "step": 138230
    },
    {
      "epoch": 0.288,
      "grad_norm": 0.811228334903717,
      "learning_rate": 0.00024377870433221231,
      "loss": 3.9296,
      "step": 138240
    },
    {
      "epoch": 0.28802083333333334,
      "grad_norm": 0.7263697981834412,
      "learning_rate": 0.00024377100980898202,
      "loss": 3.9456,
      "step": 138250
    },
    {
      "epoch": 0.28804166666666664,
      "grad_norm": 0.9458587169647217,
      "learning_rate": 0.00024376331488069804,
      "loss": 3.9159,
      "step": 138260
    },
    {
      "epoch": 0.2880625,
      "grad_norm": 0.7172942161560059,
      "learning_rate": 0.0002437556195473937,
      "loss": 3.8626,
      "step": 138270
    },
    {
      "epoch": 0.28808333333333336,
      "grad_norm": 0.7410629987716675,
      "learning_rate": 0.00024374792380910218,
      "loss": 3.8212,
      "step": 138280
    },
    {
      "epoch": 0.28810416666666666,
      "grad_norm": 0.7655424475669861,
      "learning_rate": 0.00024374022766585676,
      "loss": 4.0485,
      "step": 138290
    },
    {
      "epoch": 0.288125,
      "grad_norm": 0.8554345369338989,
      "learning_rate": 0.00024373253111769058,
      "loss": 3.9104,
      "step": 138300
    },
    {
      "epoch": 0.2881458333333333,
      "grad_norm": 0.7116037011146545,
      "learning_rate": 0.00024372483416463704,
      "loss": 3.9545,
      "step": 138310
    },
    {
      "epoch": 0.2881666666666667,
      "grad_norm": 0.7995613217353821,
      "learning_rate": 0.00024371713680672931,
      "loss": 3.8832,
      "step": 138320
    },
    {
      "epoch": 0.2881875,
      "grad_norm": 0.7025057077407837,
      "learning_rate": 0.0002437094390440006,
      "loss": 3.9043,
      "step": 138330
    },
    {
      "epoch": 0.28820833333333334,
      "grad_norm": 0.7854443788528442,
      "learning_rate": 0.00024370174087648422,
      "loss": 3.7922,
      "step": 138340
    },
    {
      "epoch": 0.28822916666666665,
      "grad_norm": 0.7425994873046875,
      "learning_rate": 0.00024369404230421344,
      "loss": 3.9535,
      "step": 138350
    },
    {
      "epoch": 0.28825,
      "grad_norm": 0.8156178593635559,
      "learning_rate": 0.00024368634332722148,
      "loss": 3.8015,
      "step": 138360
    },
    {
      "epoch": 0.2882708333333333,
      "grad_norm": 0.748370885848999,
      "learning_rate": 0.0002436786439455416,
      "loss": 3.952,
      "step": 138370
    },
    {
      "epoch": 0.28829166666666667,
      "grad_norm": 0.7881497144699097,
      "learning_rate": 0.000243670944159207,
      "loss": 3.8764,
      "step": 138380
    },
    {
      "epoch": 0.2883125,
      "grad_norm": 0.7540528774261475,
      "learning_rate": 0.00024366324396825107,
      "loss": 4.0767,
      "step": 138390
    },
    {
      "epoch": 0.28833333333333333,
      "grad_norm": 0.9541378617286682,
      "learning_rate": 0.00024365554337270697,
      "loss": 3.873,
      "step": 138400
    },
    {
      "epoch": 0.2883541666666667,
      "grad_norm": 0.80631023645401,
      "learning_rate": 0.000243647842372608,
      "loss": 3.8421,
      "step": 138410
    },
    {
      "epoch": 0.288375,
      "grad_norm": 0.7156879901885986,
      "learning_rate": 0.0002436401409679874,
      "loss": 3.95,
      "step": 138420
    },
    {
      "epoch": 0.28839583333333335,
      "grad_norm": 0.7454984784126282,
      "learning_rate": 0.0002436324391588785,
      "loss": 3.789,
      "step": 138430
    },
    {
      "epoch": 0.28841666666666665,
      "grad_norm": 1.0581188201904297,
      "learning_rate": 0.00024362473694531452,
      "loss": 4.1436,
      "step": 138440
    },
    {
      "epoch": 0.2884375,
      "grad_norm": 0.8336156606674194,
      "learning_rate": 0.0002436170343273287,
      "loss": 3.8365,
      "step": 138450
    },
    {
      "epoch": 0.2884583333333333,
      "grad_norm": 0.7886384725570679,
      "learning_rate": 0.00024360933130495436,
      "loss": 3.994,
      "step": 138460
    },
    {
      "epoch": 0.2884791666666667,
      "grad_norm": 0.8110909461975098,
      "learning_rate": 0.00024360162787822476,
      "loss": 3.9957,
      "step": 138470
    },
    {
      "epoch": 0.2885,
      "grad_norm": 0.7616660594940186,
      "learning_rate": 0.0002435939240471732,
      "loss": 3.8519,
      "step": 138480
    },
    {
      "epoch": 0.28852083333333334,
      "grad_norm": 0.779921293258667,
      "learning_rate": 0.00024358621981183292,
      "loss": 4.0754,
      "step": 138490
    },
    {
      "epoch": 0.28854166666666664,
      "grad_norm": 0.7675566077232361,
      "learning_rate": 0.0002435785151722372,
      "loss": 3.7156,
      "step": 138500
    },
    {
      "epoch": 0.2885625,
      "grad_norm": 0.7765588164329529,
      "learning_rate": 0.00024357081012841935,
      "loss": 3.8746,
      "step": 138510
    },
    {
      "epoch": 0.28858333333333336,
      "grad_norm": 0.6873660087585449,
      "learning_rate": 0.0002435631046804126,
      "loss": 3.8763,
      "step": 138520
    },
    {
      "epoch": 0.28860416666666666,
      "grad_norm": 0.6998744010925293,
      "learning_rate": 0.00024355539882825033,
      "loss": 3.8499,
      "step": 138530
    },
    {
      "epoch": 0.288625,
      "grad_norm": 0.6702480912208557,
      "learning_rate": 0.00024354769257196578,
      "loss": 3.9702,
      "step": 138540
    },
    {
      "epoch": 0.2886458333333333,
      "grad_norm": 0.7236742973327637,
      "learning_rate": 0.00024353998591159217,
      "loss": 3.9394,
      "step": 138550
    },
    {
      "epoch": 0.2886666666666667,
      "grad_norm": 0.8520685434341431,
      "learning_rate": 0.00024353227884716292,
      "loss": 3.8283,
      "step": 138560
    },
    {
      "epoch": 0.2886875,
      "grad_norm": 0.6604772210121155,
      "learning_rate": 0.00024352457137871117,
      "loss": 4.0221,
      "step": 138570
    },
    {
      "epoch": 0.28870833333333334,
      "grad_norm": 0.8402461409568787,
      "learning_rate": 0.00024351686350627033,
      "loss": 4.0024,
      "step": 138580
    },
    {
      "epoch": 0.28872916666666665,
      "grad_norm": 0.7435330748558044,
      "learning_rate": 0.00024350915522987362,
      "loss": 3.937,
      "step": 138590
    },
    {
      "epoch": 0.28875,
      "grad_norm": 0.7281457185745239,
      "learning_rate": 0.0002435014465495544,
      "loss": 3.8474,
      "step": 138600
    },
    {
      "epoch": 0.2887708333333333,
      "grad_norm": 0.8635866641998291,
      "learning_rate": 0.00024349373746534596,
      "loss": 3.9343,
      "step": 138610
    },
    {
      "epoch": 0.28879166666666667,
      "grad_norm": 0.8438203930854797,
      "learning_rate": 0.00024348602797728155,
      "loss": 3.7866,
      "step": 138620
    },
    {
      "epoch": 0.2888125,
      "grad_norm": 0.7604734897613525,
      "learning_rate": 0.00024347831808539455,
      "loss": 3.9152,
      "step": 138630
    },
    {
      "epoch": 0.28883333333333333,
      "grad_norm": 0.8482592701911926,
      "learning_rate": 0.00024347060778971816,
      "loss": 3.891,
      "step": 138640
    },
    {
      "epoch": 0.2888541666666667,
      "grad_norm": 0.7200841307640076,
      "learning_rate": 0.00024346289709028577,
      "loss": 3.8242,
      "step": 138650
    },
    {
      "epoch": 0.288875,
      "grad_norm": 0.7947090268135071,
      "learning_rate": 0.00024345518598713068,
      "loss": 3.8294,
      "step": 138660
    },
    {
      "epoch": 0.28889583333333335,
      "grad_norm": 0.7065472602844238,
      "learning_rate": 0.00024344747448028613,
      "loss": 3.9013,
      "step": 138670
    },
    {
      "epoch": 0.28891666666666665,
      "grad_norm": 0.8082665205001831,
      "learning_rate": 0.00024343976256978553,
      "loss": 4.0207,
      "step": 138680
    },
    {
      "epoch": 0.2889375,
      "grad_norm": 0.7134546637535095,
      "learning_rate": 0.0002434320502556621,
      "loss": 3.9117,
      "step": 138690
    },
    {
      "epoch": 0.2889583333333333,
      "grad_norm": 0.8335888981819153,
      "learning_rate": 0.0002434243375379492,
      "loss": 3.8998,
      "step": 138700
    },
    {
      "epoch": 0.2889791666666667,
      "grad_norm": 0.7324604988098145,
      "learning_rate": 0.00024341662441668016,
      "loss": 3.911,
      "step": 138710
    },
    {
      "epoch": 0.289,
      "grad_norm": 0.933992862701416,
      "learning_rate": 0.00024340891089188826,
      "loss": 3.8421,
      "step": 138720
    },
    {
      "epoch": 0.28902083333333334,
      "grad_norm": 0.8163931369781494,
      "learning_rate": 0.00024340119696360685,
      "loss": 4.0282,
      "step": 138730
    },
    {
      "epoch": 0.28904166666666664,
      "grad_norm": 0.7582767009735107,
      "learning_rate": 0.00024339348263186924,
      "loss": 3.8298,
      "step": 138740
    },
    {
      "epoch": 0.2890625,
      "grad_norm": 0.7494589686393738,
      "learning_rate": 0.00024338576789670875,
      "loss": 3.6335,
      "step": 138750
    },
    {
      "epoch": 0.28908333333333336,
      "grad_norm": 0.7401353120803833,
      "learning_rate": 0.00024337805275815872,
      "loss": 3.9844,
      "step": 138760
    },
    {
      "epoch": 0.28910416666666666,
      "grad_norm": 0.6799216270446777,
      "learning_rate": 0.00024337033721625248,
      "loss": 3.7603,
      "step": 138770
    },
    {
      "epoch": 0.289125,
      "grad_norm": 0.6818804144859314,
      "learning_rate": 0.0002433626212710233,
      "loss": 3.9087,
      "step": 138780
    },
    {
      "epoch": 0.2891458333333333,
      "grad_norm": 0.905340850353241,
      "learning_rate": 0.00024335490492250457,
      "loss": 3.7912,
      "step": 138790
    },
    {
      "epoch": 0.2891666666666667,
      "grad_norm": 0.7088428735733032,
      "learning_rate": 0.0002433471881707296,
      "loss": 3.9167,
      "step": 138800
    },
    {
      "epoch": 0.2891875,
      "grad_norm": 0.8036535382270813,
      "learning_rate": 0.00024333947101573173,
      "loss": 3.7204,
      "step": 138810
    },
    {
      "epoch": 0.28920833333333335,
      "grad_norm": 0.7365301251411438,
      "learning_rate": 0.00024333175345754433,
      "loss": 3.8002,
      "step": 138820
    },
    {
      "epoch": 0.28922916666666665,
      "grad_norm": 0.6981449127197266,
      "learning_rate": 0.00024332403549620063,
      "loss": 4.1126,
      "step": 138830
    },
    {
      "epoch": 0.28925,
      "grad_norm": 0.7617499828338623,
      "learning_rate": 0.00024331631713173408,
      "loss": 3.9132,
      "step": 138840
    },
    {
      "epoch": 0.2892708333333333,
      "grad_norm": 0.8825634717941284,
      "learning_rate": 0.00024330859836417794,
      "loss": 3.8703,
      "step": 138850
    },
    {
      "epoch": 0.28929166666666667,
      "grad_norm": 0.7540954947471619,
      "learning_rate": 0.0002433008791935656,
      "loss": 3.936,
      "step": 138860
    },
    {
      "epoch": 0.2893125,
      "grad_norm": 0.7066934704780579,
      "learning_rate": 0.0002432931596199304,
      "loss": 3.9864,
      "step": 138870
    },
    {
      "epoch": 0.28933333333333333,
      "grad_norm": 1.0368306636810303,
      "learning_rate": 0.0002432854396433057,
      "loss": 4.0013,
      "step": 138880
    },
    {
      "epoch": 0.2893541666666667,
      "grad_norm": 0.7925239205360413,
      "learning_rate": 0.0002432777192637248,
      "loss": 3.8993,
      "step": 138890
    },
    {
      "epoch": 0.289375,
      "grad_norm": 0.757136881351471,
      "learning_rate": 0.00024326999848122108,
      "loss": 3.9387,
      "step": 138900
    },
    {
      "epoch": 0.28939583333333335,
      "grad_norm": 0.7672238945960999,
      "learning_rate": 0.0002432622772958279,
      "loss": 3.8106,
      "step": 138910
    },
    {
      "epoch": 0.28941666666666666,
      "grad_norm": 0.7652164101600647,
      "learning_rate": 0.00024325455570757857,
      "loss": 3.931,
      "step": 138920
    },
    {
      "epoch": 0.2894375,
      "grad_norm": 0.7633220553398132,
      "learning_rate": 0.0002432468337165065,
      "loss": 3.9686,
      "step": 138930
    },
    {
      "epoch": 0.2894583333333333,
      "grad_norm": 0.8511950969696045,
      "learning_rate": 0.000243239111322645,
      "loss": 4.046,
      "step": 138940
    },
    {
      "epoch": 0.2894791666666667,
      "grad_norm": 0.7012831568717957,
      "learning_rate": 0.00024323138852602746,
      "loss": 3.843,
      "step": 138950
    },
    {
      "epoch": 0.2895,
      "grad_norm": 0.7629197835922241,
      "learning_rate": 0.0002432236653266872,
      "loss": 3.7015,
      "step": 138960
    },
    {
      "epoch": 0.28952083333333334,
      "grad_norm": 0.8124876618385315,
      "learning_rate": 0.00024321594172465767,
      "loss": 3.9478,
      "step": 138970
    },
    {
      "epoch": 0.28954166666666664,
      "grad_norm": 0.9912405014038086,
      "learning_rate": 0.0002432082177199721,
      "loss": 4.0004,
      "step": 138980
    },
    {
      "epoch": 0.2895625,
      "grad_norm": 0.741025447845459,
      "learning_rate": 0.00024320049331266397,
      "loss": 3.9261,
      "step": 138990
    },
    {
      "epoch": 0.28958333333333336,
      "grad_norm": 0.8794702887535095,
      "learning_rate": 0.00024319276850276654,
      "loss": 3.8978,
      "step": 139000
    },
    {
      "epoch": 0.28958333333333336,
      "eval_loss": 4.2228240966796875,
      "eval_runtime": 9.6355,
      "eval_samples_per_second": 1.038,
      "eval_steps_per_second": 0.311,
      "step": 139000
    },
    {
      "epoch": 0.28960416666666666,
      "grad_norm": 0.7391228079795837,
      "learning_rate": 0.00024318504329031327,
      "loss": 4.0501,
      "step": 139010
    },
    {
      "epoch": 0.289625,
      "grad_norm": 0.8324344158172607,
      "learning_rate": 0.00024317731767533753,
      "loss": 3.8247,
      "step": 139020
    },
    {
      "epoch": 0.2896458333333333,
      "grad_norm": 0.7874330282211304,
      "learning_rate": 0.0002431695916578726,
      "loss": 3.9537,
      "step": 139030
    },
    {
      "epoch": 0.2896666666666667,
      "grad_norm": 0.7439632415771484,
      "learning_rate": 0.00024316186523795194,
      "loss": 3.9294,
      "step": 139040
    },
    {
      "epoch": 0.2896875,
      "grad_norm": 0.7588322162628174,
      "learning_rate": 0.0002431541384156089,
      "loss": 3.8563,
      "step": 139050
    },
    {
      "epoch": 0.28970833333333335,
      "grad_norm": 0.7288442254066467,
      "learning_rate": 0.0002431464111908769,
      "loss": 3.8733,
      "step": 139060
    },
    {
      "epoch": 0.28972916666666665,
      "grad_norm": 0.9014606475830078,
      "learning_rate": 0.0002431386835637892,
      "loss": 3.8691,
      "step": 139070
    },
    {
      "epoch": 0.28975,
      "grad_norm": 0.9198623895645142,
      "learning_rate": 0.0002431309555343793,
      "loss": 3.7973,
      "step": 139080
    },
    {
      "epoch": 0.2897708333333333,
      "grad_norm": 0.9705918431282043,
      "learning_rate": 0.00024312322710268053,
      "loss": 3.9326,
      "step": 139090
    },
    {
      "epoch": 0.28979166666666667,
      "grad_norm": 0.7144233584403992,
      "learning_rate": 0.0002431154982687263,
      "loss": 3.8128,
      "step": 139100
    },
    {
      "epoch": 0.2898125,
      "grad_norm": 0.7525800466537476,
      "learning_rate": 0.00024310776903254994,
      "loss": 3.9954,
      "step": 139110
    },
    {
      "epoch": 0.28983333333333333,
      "grad_norm": 0.7880812883377075,
      "learning_rate": 0.00024310003939418483,
      "loss": 4.0431,
      "step": 139120
    },
    {
      "epoch": 0.2898541666666667,
      "grad_norm": 0.7065567970275879,
      "learning_rate": 0.0002430923093536645,
      "loss": 3.6964,
      "step": 139130
    },
    {
      "epoch": 0.289875,
      "grad_norm": 0.8250817060470581,
      "learning_rate": 0.0002430845789110222,
      "loss": 3.8479,
      "step": 139140
    },
    {
      "epoch": 0.28989583333333335,
      "grad_norm": 0.7421286106109619,
      "learning_rate": 0.00024307684806629132,
      "loss": 3.8247,
      "step": 139150
    },
    {
      "epoch": 0.28991666666666666,
      "grad_norm": 0.7329800724983215,
      "learning_rate": 0.00024306911681950538,
      "loss": 3.9922,
      "step": 139160
    },
    {
      "epoch": 0.2899375,
      "grad_norm": 0.6905834674835205,
      "learning_rate": 0.0002430613851706976,
      "loss": 3.9167,
      "step": 139170
    },
    {
      "epoch": 0.2899583333333333,
      "grad_norm": 0.8320784568786621,
      "learning_rate": 0.00024305365311990152,
      "loss": 3.892,
      "step": 139180
    },
    {
      "epoch": 0.2899791666666667,
      "grad_norm": 0.8663868308067322,
      "learning_rate": 0.00024304592066715054,
      "loss": 4.0935,
      "step": 139190
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.760932207107544,
      "learning_rate": 0.00024303818781247794,
      "loss": 3.9881,
      "step": 139200
    },
    {
      "epoch": 0.29002083333333334,
      "grad_norm": 0.6820330619812012,
      "learning_rate": 0.00024303045455591722,
      "loss": 3.7704,
      "step": 139210
    },
    {
      "epoch": 0.29004166666666664,
      "grad_norm": 0.7649697065353394,
      "learning_rate": 0.00024302272089750176,
      "loss": 3.8319,
      "step": 139220
    },
    {
      "epoch": 0.2900625,
      "grad_norm": 0.7723069190979004,
      "learning_rate": 0.00024301498683726498,
      "loss": 3.8582,
      "step": 139230
    },
    {
      "epoch": 0.29008333333333336,
      "grad_norm": 1.1185102462768555,
      "learning_rate": 0.00024300725237524028,
      "loss": 3.8577,
      "step": 139240
    },
    {
      "epoch": 0.29010416666666666,
      "grad_norm": 0.8294806480407715,
      "learning_rate": 0.00024299951751146105,
      "loss": 3.8833,
      "step": 139250
    },
    {
      "epoch": 0.290125,
      "grad_norm": 0.8288686871528625,
      "learning_rate": 0.0002429917822459607,
      "loss": 4.0347,
      "step": 139260
    },
    {
      "epoch": 0.2901458333333333,
      "grad_norm": 0.8807134032249451,
      "learning_rate": 0.0002429840465787727,
      "loss": 3.9047,
      "step": 139270
    },
    {
      "epoch": 0.2901666666666667,
      "grad_norm": 0.8035954833030701,
      "learning_rate": 0.0002429763105099304,
      "loss": 3.9942,
      "step": 139280
    },
    {
      "epoch": 0.2901875,
      "grad_norm": 0.6625998020172119,
      "learning_rate": 0.0002429685740394672,
      "loss": 3.9431,
      "step": 139290
    },
    {
      "epoch": 0.29020833333333335,
      "grad_norm": 0.6758374571800232,
      "learning_rate": 0.00024296083716741665,
      "loss": 3.8406,
      "step": 139300
    },
    {
      "epoch": 0.29022916666666665,
      "grad_norm": 0.7225494980812073,
      "learning_rate": 0.00024295309989381202,
      "loss": 3.8456,
      "step": 139310
    },
    {
      "epoch": 0.29025,
      "grad_norm": 0.8294796347618103,
      "learning_rate": 0.00024294536221868677,
      "loss": 3.941,
      "step": 139320
    },
    {
      "epoch": 0.2902708333333333,
      "grad_norm": 0.7418457269668579,
      "learning_rate": 0.0002429376241420744,
      "loss": 3.8107,
      "step": 139330
    },
    {
      "epoch": 0.29029166666666667,
      "grad_norm": 0.9185358285903931,
      "learning_rate": 0.00024292988566400827,
      "loss": 4.0247,
      "step": 139340
    },
    {
      "epoch": 0.2903125,
      "grad_norm": 0.7436439394950867,
      "learning_rate": 0.00024292214678452178,
      "loss": 3.7269,
      "step": 139350
    },
    {
      "epoch": 0.29033333333333333,
      "grad_norm": 0.7694467306137085,
      "learning_rate": 0.00024291440750364845,
      "loss": 3.8515,
      "step": 139360
    },
    {
      "epoch": 0.2903541666666667,
      "grad_norm": 0.7273733615875244,
      "learning_rate": 0.0002429066678214216,
      "loss": 3.7592,
      "step": 139370
    },
    {
      "epoch": 0.290375,
      "grad_norm": 0.7251418828964233,
      "learning_rate": 0.0002428989277378748,
      "loss": 3.9555,
      "step": 139380
    },
    {
      "epoch": 0.29039583333333335,
      "grad_norm": 1.4593943357467651,
      "learning_rate": 0.00024289118725304135,
      "loss": 4.0245,
      "step": 139390
    },
    {
      "epoch": 0.29041666666666666,
      "grad_norm": 0.8345019221305847,
      "learning_rate": 0.00024288344636695474,
      "loss": 3.8861,
      "step": 139400
    },
    {
      "epoch": 0.2904375,
      "grad_norm": 0.775587260723114,
      "learning_rate": 0.0002428757050796484,
      "loss": 3.8781,
      "step": 139410
    },
    {
      "epoch": 0.2904583333333333,
      "grad_norm": 1.2068963050842285,
      "learning_rate": 0.00024286796339115577,
      "loss": 3.8327,
      "step": 139420
    },
    {
      "epoch": 0.2904791666666667,
      "grad_norm": 0.8619191646575928,
      "learning_rate": 0.00024286022130151034,
      "loss": 4.0567,
      "step": 139430
    },
    {
      "epoch": 0.2905,
      "grad_norm": 0.7086812853813171,
      "learning_rate": 0.00024285247881074547,
      "loss": 4.0826,
      "step": 139440
    },
    {
      "epoch": 0.29052083333333334,
      "grad_norm": 0.7968381643295288,
      "learning_rate": 0.00024284473591889465,
      "loss": 3.8205,
      "step": 139450
    },
    {
      "epoch": 0.29054166666666664,
      "grad_norm": 0.6958435773849487,
      "learning_rate": 0.00024283699262599135,
      "loss": 3.9502,
      "step": 139460
    },
    {
      "epoch": 0.2905625,
      "grad_norm": 0.7479767799377441,
      "learning_rate": 0.000242829248932069,
      "loss": 4.0896,
      "step": 139470
    },
    {
      "epoch": 0.29058333333333336,
      "grad_norm": 0.7893520593643188,
      "learning_rate": 0.00024282150483716103,
      "loss": 3.8385,
      "step": 139480
    },
    {
      "epoch": 0.29060416666666666,
      "grad_norm": 0.7672897577285767,
      "learning_rate": 0.00024281376034130086,
      "loss": 3.9549,
      "step": 139490
    },
    {
      "epoch": 0.290625,
      "grad_norm": 0.7214065194129944,
      "learning_rate": 0.00024280601544452202,
      "loss": 3.9465,
      "step": 139500
    },
    {
      "epoch": 0.2906458333333333,
      "grad_norm": 0.7052217125892639,
      "learning_rate": 0.0002427982701468579,
      "loss": 3.9064,
      "step": 139510
    },
    {
      "epoch": 0.2906666666666667,
      "grad_norm": 0.7610352635383606,
      "learning_rate": 0.00024279052444834198,
      "loss": 3.7076,
      "step": 139520
    },
    {
      "epoch": 0.2906875,
      "grad_norm": 0.9277464747428894,
      "learning_rate": 0.00024278277834900776,
      "loss": 3.9186,
      "step": 139530
    },
    {
      "epoch": 0.29070833333333335,
      "grad_norm": 0.8436184525489807,
      "learning_rate": 0.00024277503184888866,
      "loss": 3.8411,
      "step": 139540
    },
    {
      "epoch": 0.29072916666666665,
      "grad_norm": 0.7597026228904724,
      "learning_rate": 0.0002427672849480181,
      "loss": 3.9572,
      "step": 139550
    },
    {
      "epoch": 0.29075,
      "grad_norm": 0.7921634316444397,
      "learning_rate": 0.00024275953764642965,
      "loss": 3.7187,
      "step": 139560
    },
    {
      "epoch": 0.2907708333333333,
      "grad_norm": 0.7389621138572693,
      "learning_rate": 0.00024275178994415667,
      "loss": 3.7739,
      "step": 139570
    },
    {
      "epoch": 0.29079166666666667,
      "grad_norm": 0.8657936453819275,
      "learning_rate": 0.00024274404184123274,
      "loss": 3.8601,
      "step": 139580
    },
    {
      "epoch": 0.2908125,
      "grad_norm": 0.6853923797607422,
      "learning_rate": 0.0002427362933376912,
      "loss": 3.8552,
      "step": 139590
    },
    {
      "epoch": 0.29083333333333333,
      "grad_norm": 0.7559031844139099,
      "learning_rate": 0.00024272854443356558,
      "loss": 3.9364,
      "step": 139600
    },
    {
      "epoch": 0.2908541666666667,
      "grad_norm": 0.8418224453926086,
      "learning_rate": 0.00024272079512888936,
      "loss": 3.7833,
      "step": 139610
    },
    {
      "epoch": 0.290875,
      "grad_norm": 0.6778672933578491,
      "learning_rate": 0.00024271304542369598,
      "loss": 3.99,
      "step": 139620
    },
    {
      "epoch": 0.29089583333333335,
      "grad_norm": 0.8276544213294983,
      "learning_rate": 0.00024270529531801897,
      "loss": 4.1308,
      "step": 139630
    },
    {
      "epoch": 0.29091666666666666,
      "grad_norm": 0.678786039352417,
      "learning_rate": 0.0002426975448118918,
      "loss": 3.9115,
      "step": 139640
    },
    {
      "epoch": 0.2909375,
      "grad_norm": 0.8815476894378662,
      "learning_rate": 0.00024268979390534788,
      "loss": 3.8164,
      "step": 139650
    },
    {
      "epoch": 0.2909583333333333,
      "grad_norm": 0.8104515075683594,
      "learning_rate": 0.00024268204259842075,
      "loss": 3.7692,
      "step": 139660
    },
    {
      "epoch": 0.2909791666666667,
      "grad_norm": 0.836234986782074,
      "learning_rate": 0.00024267429089114392,
      "loss": 3.9873,
      "step": 139670
    },
    {
      "epoch": 0.291,
      "grad_norm": 0.8029583692550659,
      "learning_rate": 0.00024266653878355084,
      "loss": 3.6843,
      "step": 139680
    },
    {
      "epoch": 0.29102083333333334,
      "grad_norm": 0.827995240688324,
      "learning_rate": 0.000242658786275675,
      "loss": 3.9371,
      "step": 139690
    },
    {
      "epoch": 0.29104166666666664,
      "grad_norm": 0.9397084712982178,
      "learning_rate": 0.0002426510333675498,
      "loss": 4.0426,
      "step": 139700
    },
    {
      "epoch": 0.2910625,
      "grad_norm": 0.8838071823120117,
      "learning_rate": 0.00024264328005920888,
      "loss": 3.7967,
      "step": 139710
    },
    {
      "epoch": 0.29108333333333336,
      "grad_norm": 0.69487464427948,
      "learning_rate": 0.00024263552635068564,
      "loss": 3.8016,
      "step": 139720
    },
    {
      "epoch": 0.29110416666666666,
      "grad_norm": 1.0179634094238281,
      "learning_rate": 0.00024262777224201356,
      "loss": 3.9496,
      "step": 139730
    },
    {
      "epoch": 0.291125,
      "grad_norm": 0.6741147041320801,
      "learning_rate": 0.0002426200177332262,
      "loss": 3.9841,
      "step": 139740
    },
    {
      "epoch": 0.2911458333333333,
      "grad_norm": 0.6658675074577332,
      "learning_rate": 0.00024261226282435707,
      "loss": 3.7463,
      "step": 139750
    },
    {
      "epoch": 0.2911666666666667,
      "grad_norm": 0.787595272064209,
      "learning_rate": 0.00024260450751543953,
      "loss": 3.8626,
      "step": 139760
    },
    {
      "epoch": 0.2911875,
      "grad_norm": 0.7410524487495422,
      "learning_rate": 0.00024259675180650722,
      "loss": 3.8001,
      "step": 139770
    },
    {
      "epoch": 0.29120833333333335,
      "grad_norm": 0.8427249193191528,
      "learning_rate": 0.0002425889956975936,
      "loss": 3.8557,
      "step": 139780
    },
    {
      "epoch": 0.29122916666666665,
      "grad_norm": 0.8283651471138,
      "learning_rate": 0.00024258123918873218,
      "loss": 3.9295,
      "step": 139790
    },
    {
      "epoch": 0.29125,
      "grad_norm": 0.8194693922996521,
      "learning_rate": 0.00024257348227995645,
      "loss": 3.9392,
      "step": 139800
    },
    {
      "epoch": 0.2912708333333333,
      "grad_norm": 0.9101590514183044,
      "learning_rate": 0.0002425657249712999,
      "loss": 4.0404,
      "step": 139810
    },
    {
      "epoch": 0.29129166666666667,
      "grad_norm": 0.81870436668396,
      "learning_rate": 0.00024255796726279605,
      "loss": 3.6795,
      "step": 139820
    },
    {
      "epoch": 0.2913125,
      "grad_norm": 0.7196553349494934,
      "learning_rate": 0.00024255020915447845,
      "loss": 3.7688,
      "step": 139830
    },
    {
      "epoch": 0.29133333333333333,
      "grad_norm": 0.9259107708930969,
      "learning_rate": 0.00024254245064638053,
      "loss": 3.8718,
      "step": 139840
    },
    {
      "epoch": 0.2913541666666667,
      "grad_norm": 0.7573955059051514,
      "learning_rate": 0.0002425346917385359,
      "loss": 3.8146,
      "step": 139850
    },
    {
      "epoch": 0.291375,
      "grad_norm": 0.7890813946723938,
      "learning_rate": 0.00024252693243097804,
      "loss": 3.941,
      "step": 139860
    },
    {
      "epoch": 0.29139583333333335,
      "grad_norm": 0.775662362575531,
      "learning_rate": 0.0002425191727237404,
      "loss": 4.0711,
      "step": 139870
    },
    {
      "epoch": 0.29141666666666666,
      "grad_norm": 0.8355532288551331,
      "learning_rate": 0.0002425114126168566,
      "loss": 3.7578,
      "step": 139880
    },
    {
      "epoch": 0.2914375,
      "grad_norm": 0.6753919124603271,
      "learning_rate": 0.0002425036521103601,
      "loss": 3.6461,
      "step": 139890
    },
    {
      "epoch": 0.2914583333333333,
      "grad_norm": 0.7622658610343933,
      "learning_rate": 0.00024249589120428446,
      "loss": 3.7644,
      "step": 139900
    },
    {
      "epoch": 0.2914791666666667,
      "grad_norm": 0.8089773654937744,
      "learning_rate": 0.00024248812989866316,
      "loss": 3.8965,
      "step": 139910
    },
    {
      "epoch": 0.2915,
      "grad_norm": 0.692693293094635,
      "learning_rate": 0.00024248036819352978,
      "loss": 3.8677,
      "step": 139920
    },
    {
      "epoch": 0.29152083333333334,
      "grad_norm": 0.7138315439224243,
      "learning_rate": 0.00024247260608891777,
      "loss": 3.6998,
      "step": 139930
    },
    {
      "epoch": 0.29154166666666664,
      "grad_norm": 0.6978611350059509,
      "learning_rate": 0.00024246484358486073,
      "loss": 3.9194,
      "step": 139940
    },
    {
      "epoch": 0.2915625,
      "grad_norm": 0.7414955496788025,
      "learning_rate": 0.00024245708068139214,
      "loss": 3.8353,
      "step": 139950
    },
    {
      "epoch": 0.29158333333333336,
      "grad_norm": 0.9586357474327087,
      "learning_rate": 0.0002424493173785456,
      "loss": 3.8513,
      "step": 139960
    },
    {
      "epoch": 0.29160416666666666,
      "grad_norm": 0.7471902370452881,
      "learning_rate": 0.00024244155367635455,
      "loss": 3.8507,
      "step": 139970
    },
    {
      "epoch": 0.291625,
      "grad_norm": 0.7904173731803894,
      "learning_rate": 0.00024243378957485264,
      "loss": 3.7043,
      "step": 139980
    },
    {
      "epoch": 0.2916458333333333,
      "grad_norm": 0.7731053829193115,
      "learning_rate": 0.0002424260250740733,
      "loss": 3.9605,
      "step": 139990
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 0.7772955298423767,
      "learning_rate": 0.00024241826017405016,
      "loss": 3.8223,
      "step": 140000
    },
    {
      "epoch": 0.2916666666666667,
      "eval_loss": 4.210299015045166,
      "eval_runtime": 10.7157,
      "eval_samples_per_second": 0.933,
      "eval_steps_per_second": 0.28,
      "step": 140000
    },
    {
      "epoch": 0.2916875,
      "grad_norm": 0.8672594428062439,
      "learning_rate": 0.0002424104948748167,
      "loss": 3.7792,
      "step": 140010
    },
    {
      "epoch": 0.29170833333333335,
      "grad_norm": 0.9462454319000244,
      "learning_rate": 0.00024240272917640647,
      "loss": 3.8392,
      "step": 140020
    },
    {
      "epoch": 0.29172916666666665,
      "grad_norm": 0.8573209643363953,
      "learning_rate": 0.00024239496307885302,
      "loss": 3.8792,
      "step": 140030
    },
    {
      "epoch": 0.29175,
      "grad_norm": 0.9693619608879089,
      "learning_rate": 0.0002423871965821899,
      "loss": 4.0628,
      "step": 140040
    },
    {
      "epoch": 0.2917708333333333,
      "grad_norm": 0.7640627026557922,
      "learning_rate": 0.00024237942968645068,
      "loss": 3.7325,
      "step": 140050
    },
    {
      "epoch": 0.29179166666666667,
      "grad_norm": 0.838090181350708,
      "learning_rate": 0.00024237166239166887,
      "loss": 3.7158,
      "step": 140060
    },
    {
      "epoch": 0.2918125,
      "grad_norm": 0.7937096953392029,
      "learning_rate": 0.00024236389469787806,
      "loss": 3.8602,
      "step": 140070
    },
    {
      "epoch": 0.29183333333333333,
      "grad_norm": 0.7938105463981628,
      "learning_rate": 0.00024235612660511178,
      "loss": 3.9947,
      "step": 140080
    },
    {
      "epoch": 0.2918541666666667,
      "grad_norm": 0.7963412404060364,
      "learning_rate": 0.00024234835811340357,
      "loss": 3.8866,
      "step": 140090
    },
    {
      "epoch": 0.291875,
      "grad_norm": 0.6854256391525269,
      "learning_rate": 0.00024234058922278703,
      "loss": 3.828,
      "step": 140100
    },
    {
      "epoch": 0.29189583333333335,
      "grad_norm": 0.780472457408905,
      "learning_rate": 0.00024233281993329568,
      "loss": 3.8118,
      "step": 140110
    },
    {
      "epoch": 0.29191666666666666,
      "grad_norm": 0.7564768195152283,
      "learning_rate": 0.00024232505024496313,
      "loss": 3.9585,
      "step": 140120
    },
    {
      "epoch": 0.2919375,
      "grad_norm": 0.7395073175430298,
      "learning_rate": 0.00024231728015782286,
      "loss": 4.0229,
      "step": 140130
    },
    {
      "epoch": 0.2919583333333333,
      "grad_norm": 0.7212137579917908,
      "learning_rate": 0.00024230950967190853,
      "loss": 3.7174,
      "step": 140140
    },
    {
      "epoch": 0.2919791666666667,
      "grad_norm": 0.7529579997062683,
      "learning_rate": 0.00024230173878725362,
      "loss": 3.8618,
      "step": 140150
    },
    {
      "epoch": 0.292,
      "grad_norm": 0.7031762003898621,
      "learning_rate": 0.00024229396750389176,
      "loss": 3.9088,
      "step": 140160
    },
    {
      "epoch": 0.29202083333333334,
      "grad_norm": 0.9343055486679077,
      "learning_rate": 0.00024228619582185648,
      "loss": 3.8402,
      "step": 140170
    },
    {
      "epoch": 0.29204166666666664,
      "grad_norm": 0.7840060591697693,
      "learning_rate": 0.00024227842374118134,
      "loss": 3.8272,
      "step": 140180
    },
    {
      "epoch": 0.2920625,
      "grad_norm": 0.8061947822570801,
      "learning_rate": 0.00024227065126189996,
      "loss": 4.0183,
      "step": 140190
    },
    {
      "epoch": 0.2920833333333333,
      "grad_norm": 0.8937455415725708,
      "learning_rate": 0.0002422628783840459,
      "loss": 3.8585,
      "step": 140200
    },
    {
      "epoch": 0.29210416666666666,
      "grad_norm": 0.8992366194725037,
      "learning_rate": 0.0002422551051076527,
      "loss": 3.9424,
      "step": 140210
    },
    {
      "epoch": 0.292125,
      "grad_norm": 0.6362965703010559,
      "learning_rate": 0.00024224733143275398,
      "loss": 3.7378,
      "step": 140220
    },
    {
      "epoch": 0.2921458333333333,
      "grad_norm": 0.7393621206283569,
      "learning_rate": 0.0002422395573593833,
      "loss": 3.8551,
      "step": 140230
    },
    {
      "epoch": 0.2921666666666667,
      "grad_norm": 0.7637709379196167,
      "learning_rate": 0.00024223178288757425,
      "loss": 3.8489,
      "step": 140240
    },
    {
      "epoch": 0.2921875,
      "grad_norm": 0.924167275428772,
      "learning_rate": 0.00024222400801736038,
      "loss": 3.9437,
      "step": 140250
    },
    {
      "epoch": 0.29220833333333335,
      "grad_norm": 0.8150623440742493,
      "learning_rate": 0.00024221623274877532,
      "loss": 3.8933,
      "step": 140260
    },
    {
      "epoch": 0.29222916666666665,
      "grad_norm": 0.7975591421127319,
      "learning_rate": 0.00024220845708185264,
      "loss": 3.8623,
      "step": 140270
    },
    {
      "epoch": 0.29225,
      "grad_norm": 0.7030617594718933,
      "learning_rate": 0.0002422006810166259,
      "loss": 4.0527,
      "step": 140280
    },
    {
      "epoch": 0.2922708333333333,
      "grad_norm": 0.8369157314300537,
      "learning_rate": 0.00024219290455312876,
      "loss": 3.8195,
      "step": 140290
    },
    {
      "epoch": 0.29229166666666667,
      "grad_norm": 0.7187013030052185,
      "learning_rate": 0.00024218512769139472,
      "loss": 3.9683,
      "step": 140300
    },
    {
      "epoch": 0.2923125,
      "grad_norm": 0.8017318248748779,
      "learning_rate": 0.00024217735043145745,
      "loss": 3.6698,
      "step": 140310
    },
    {
      "epoch": 0.29233333333333333,
      "grad_norm": 0.7788828611373901,
      "learning_rate": 0.00024216957277335048,
      "loss": 3.9533,
      "step": 140320
    },
    {
      "epoch": 0.2923541666666667,
      "grad_norm": 0.8362429141998291,
      "learning_rate": 0.00024216179471710746,
      "loss": 3.9234,
      "step": 140330
    },
    {
      "epoch": 0.292375,
      "grad_norm": 0.7219166159629822,
      "learning_rate": 0.00024215401626276198,
      "loss": 3.8954,
      "step": 140340
    },
    {
      "epoch": 0.29239583333333335,
      "grad_norm": 0.7450678944587708,
      "learning_rate": 0.0002421462374103476,
      "loss": 3.8519,
      "step": 140350
    },
    {
      "epoch": 0.29241666666666666,
      "grad_norm": 0.7859037518501282,
      "learning_rate": 0.00024213845815989796,
      "loss": 3.8451,
      "step": 140360
    },
    {
      "epoch": 0.2924375,
      "grad_norm": 0.7762590050697327,
      "learning_rate": 0.00024213067851144664,
      "loss": 3.762,
      "step": 140370
    },
    {
      "epoch": 0.2924583333333333,
      "grad_norm": 0.7464417219161987,
      "learning_rate": 0.00024212289846502728,
      "loss": 3.7383,
      "step": 140380
    },
    {
      "epoch": 0.2924791666666667,
      "grad_norm": 0.9084646701812744,
      "learning_rate": 0.00024211511802067342,
      "loss": 3.935,
      "step": 140390
    },
    {
      "epoch": 0.2925,
      "grad_norm": 0.7809122204780579,
      "learning_rate": 0.00024210733717841876,
      "loss": 3.9926,
      "step": 140400
    },
    {
      "epoch": 0.29252083333333334,
      "grad_norm": 1.1722034215927124,
      "learning_rate": 0.00024209955593829682,
      "loss": 3.7039,
      "step": 140410
    },
    {
      "epoch": 0.29254166666666664,
      "grad_norm": 0.7986706495285034,
      "learning_rate": 0.00024209177430034132,
      "loss": 3.8851,
      "step": 140420
    },
    {
      "epoch": 0.2925625,
      "grad_norm": 0.9715280532836914,
      "learning_rate": 0.00024208399226458574,
      "loss": 3.8992,
      "step": 140430
    },
    {
      "epoch": 0.2925833333333333,
      "grad_norm": 0.7860935926437378,
      "learning_rate": 0.0002420762098310638,
      "loss": 3.97,
      "step": 140440
    },
    {
      "epoch": 0.29260416666666667,
      "grad_norm": 0.8264633417129517,
      "learning_rate": 0.00024206842699980906,
      "loss": 3.9209,
      "step": 140450
    },
    {
      "epoch": 0.292625,
      "grad_norm": 0.7512417435646057,
      "learning_rate": 0.00024206064377085514,
      "loss": 3.8511,
      "step": 140460
    },
    {
      "epoch": 0.2926458333333333,
      "grad_norm": 0.773978054523468,
      "learning_rate": 0.0002420528601442357,
      "loss": 3.8922,
      "step": 140470
    },
    {
      "epoch": 0.2926666666666667,
      "grad_norm": 0.8625437617301941,
      "learning_rate": 0.00024204507611998437,
      "loss": 4.0569,
      "step": 140480
    },
    {
      "epoch": 0.2926875,
      "grad_norm": 0.7144834995269775,
      "learning_rate": 0.00024203729169813474,
      "loss": 3.7763,
      "step": 140490
    },
    {
      "epoch": 0.29270833333333335,
      "grad_norm": 0.8195334672927856,
      "learning_rate": 0.00024202950687872042,
      "loss": 3.8398,
      "step": 140500
    },
    {
      "epoch": 0.29272916666666665,
      "grad_norm": 0.8074634671211243,
      "learning_rate": 0.00024202172166177505,
      "loss": 3.9547,
      "step": 140510
    },
    {
      "epoch": 0.29275,
      "grad_norm": 0.7575667500495911,
      "learning_rate": 0.00024201393604733227,
      "loss": 3.6875,
      "step": 140520
    },
    {
      "epoch": 0.2927708333333333,
      "grad_norm": 0.7886084318161011,
      "learning_rate": 0.0002420061500354257,
      "loss": 3.913,
      "step": 140530
    },
    {
      "epoch": 0.2927916666666667,
      "grad_norm": 0.7569853067398071,
      "learning_rate": 0.000241998363626089,
      "loss": 3.9521,
      "step": 140540
    },
    {
      "epoch": 0.2928125,
      "grad_norm": 0.8806144595146179,
      "learning_rate": 0.0002419905768193558,
      "loss": 3.9615,
      "step": 140550
    },
    {
      "epoch": 0.29283333333333333,
      "grad_norm": 0.8063396215438843,
      "learning_rate": 0.0002419827896152597,
      "loss": 3.9406,
      "step": 140560
    },
    {
      "epoch": 0.2928541666666667,
      "grad_norm": 0.7073752880096436,
      "learning_rate": 0.00024197500201383437,
      "loss": 3.8253,
      "step": 140570
    },
    {
      "epoch": 0.292875,
      "grad_norm": 0.6913853287696838,
      "learning_rate": 0.00024196721401511338,
      "loss": 3.8047,
      "step": 140580
    },
    {
      "epoch": 0.29289583333333336,
      "grad_norm": 0.706533670425415,
      "learning_rate": 0.00024195942561913052,
      "loss": 3.7884,
      "step": 140590
    },
    {
      "epoch": 0.29291666666666666,
      "grad_norm": 0.71084064245224,
      "learning_rate": 0.00024195163682591927,
      "loss": 3.7556,
      "step": 140600
    },
    {
      "epoch": 0.2929375,
      "grad_norm": 0.8254727721214294,
      "learning_rate": 0.00024194384763551337,
      "loss": 3.8469,
      "step": 140610
    },
    {
      "epoch": 0.2929583333333333,
      "grad_norm": 0.7599241733551025,
      "learning_rate": 0.00024193605804794646,
      "loss": 3.8028,
      "step": 140620
    },
    {
      "epoch": 0.2929791666666667,
      "grad_norm": 0.8286991715431213,
      "learning_rate": 0.00024192826806325216,
      "loss": 3.846,
      "step": 140630
    },
    {
      "epoch": 0.293,
      "grad_norm": 0.8125946521759033,
      "learning_rate": 0.0002419204776814641,
      "loss": 4.007,
      "step": 140640
    },
    {
      "epoch": 0.29302083333333334,
      "grad_norm": 0.8086634278297424,
      "learning_rate": 0.00024191268690261597,
      "loss": 3.8094,
      "step": 140650
    },
    {
      "epoch": 0.29304166666666664,
      "grad_norm": 0.7814898490905762,
      "learning_rate": 0.00024190489572674146,
      "loss": 3.8085,
      "step": 140660
    },
    {
      "epoch": 0.2930625,
      "grad_norm": 0.8213218450546265,
      "learning_rate": 0.00024189710415387414,
      "loss": 4.0957,
      "step": 140670
    },
    {
      "epoch": 0.2930833333333333,
      "grad_norm": 0.7583511471748352,
      "learning_rate": 0.00024188931218404772,
      "loss": 3.9333,
      "step": 140680
    },
    {
      "epoch": 0.29310416666666667,
      "grad_norm": 0.9542106986045837,
      "learning_rate": 0.00024188151981729584,
      "loss": 3.9097,
      "step": 140690
    },
    {
      "epoch": 0.293125,
      "grad_norm": 0.6417637467384338,
      "learning_rate": 0.00024187372705365215,
      "loss": 3.9274,
      "step": 140700
    },
    {
      "epoch": 0.2931458333333333,
      "grad_norm": 0.711083173751831,
      "learning_rate": 0.00024186593389315036,
      "loss": 3.7238,
      "step": 140710
    },
    {
      "epoch": 0.2931666666666667,
      "grad_norm": 0.763844907283783,
      "learning_rate": 0.00024185814033582406,
      "loss": 3.9527,
      "step": 140720
    },
    {
      "epoch": 0.2931875,
      "grad_norm": 0.6773337721824646,
      "learning_rate": 0.00024185034638170698,
      "loss": 3.8584,
      "step": 140730
    },
    {
      "epoch": 0.29320833333333335,
      "grad_norm": 0.8581071496009827,
      "learning_rate": 0.00024184255203083275,
      "loss": 3.839,
      "step": 140740
    },
    {
      "epoch": 0.29322916666666665,
      "grad_norm": 0.713061511516571,
      "learning_rate": 0.00024183475728323502,
      "loss": 3.8168,
      "step": 140750
    },
    {
      "epoch": 0.29325,
      "grad_norm": 0.703161895275116,
      "learning_rate": 0.00024182696213894753,
      "loss": 3.8321,
      "step": 140760
    },
    {
      "epoch": 0.2932708333333333,
      "grad_norm": 0.7313702702522278,
      "learning_rate": 0.00024181916659800392,
      "loss": 3.9087,
      "step": 140770
    },
    {
      "epoch": 0.2932916666666667,
      "grad_norm": 0.8215851187705994,
      "learning_rate": 0.00024181137066043781,
      "loss": 3.9761,
      "step": 140780
    },
    {
      "epoch": 0.2933125,
      "grad_norm": 0.7274200916290283,
      "learning_rate": 0.00024180357432628294,
      "loss": 3.9079,
      "step": 140790
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 0.7217288017272949,
      "learning_rate": 0.000241795777595573,
      "loss": 3.9277,
      "step": 140800
    },
    {
      "epoch": 0.2933541666666667,
      "grad_norm": 1.1992197036743164,
      "learning_rate": 0.00024178798046834156,
      "loss": 4.0507,
      "step": 140810
    },
    {
      "epoch": 0.293375,
      "grad_norm": 0.8396426439285278,
      "learning_rate": 0.00024178018294462246,
      "loss": 3.7647,
      "step": 140820
    },
    {
      "epoch": 0.29339583333333336,
      "grad_norm": 0.9720112681388855,
      "learning_rate": 0.00024177238502444927,
      "loss": 3.9297,
      "step": 140830
    },
    {
      "epoch": 0.29341666666666666,
      "grad_norm": 0.8591843843460083,
      "learning_rate": 0.00024176458670785566,
      "loss": 3.77,
      "step": 140840
    },
    {
      "epoch": 0.2934375,
      "grad_norm": 0.7403445839881897,
      "learning_rate": 0.00024175678799487539,
      "loss": 3.9584,
      "step": 140850
    },
    {
      "epoch": 0.2934583333333333,
      "grad_norm": 0.7289806008338928,
      "learning_rate": 0.00024174898888554213,
      "loss": 3.6654,
      "step": 140860
    },
    {
      "epoch": 0.2934791666666667,
      "grad_norm": 0.7734667658805847,
      "learning_rate": 0.00024174118937988958,
      "loss": 3.9344,
      "step": 140870
    },
    {
      "epoch": 0.2935,
      "grad_norm": 1.0379374027252197,
      "learning_rate": 0.00024173338947795138,
      "loss": 3.9826,
      "step": 140880
    },
    {
      "epoch": 0.29352083333333334,
      "grad_norm": 0.7828955054283142,
      "learning_rate": 0.00024172558917976122,
      "loss": 3.8356,
      "step": 140890
    },
    {
      "epoch": 0.29354166666666665,
      "grad_norm": 0.8145968317985535,
      "learning_rate": 0.00024171778848535282,
      "loss": 3.6822,
      "step": 140900
    },
    {
      "epoch": 0.2935625,
      "grad_norm": 0.7913343906402588,
      "learning_rate": 0.0002417099873947599,
      "loss": 3.9093,
      "step": 140910
    },
    {
      "epoch": 0.2935833333333333,
      "grad_norm": 0.7835724949836731,
      "learning_rate": 0.00024170218590801614,
      "loss": 3.7403,
      "step": 140920
    },
    {
      "epoch": 0.29360416666666667,
      "grad_norm": 0.934645414352417,
      "learning_rate": 0.00024169438402515524,
      "loss": 3.9545,
      "step": 140930
    },
    {
      "epoch": 0.293625,
      "grad_norm": 0.7800664901733398,
      "learning_rate": 0.00024168658174621085,
      "loss": 3.8942,
      "step": 140940
    },
    {
      "epoch": 0.29364583333333333,
      "grad_norm": 0.765688419342041,
      "learning_rate": 0.00024167877907121677,
      "loss": 3.9399,
      "step": 140950
    },
    {
      "epoch": 0.2936666666666667,
      "grad_norm": 0.7333962917327881,
      "learning_rate": 0.00024167097600020666,
      "loss": 3.7899,
      "step": 140960
    },
    {
      "epoch": 0.2936875,
      "grad_norm": 0.776090145111084,
      "learning_rate": 0.00024166317253321418,
      "loss": 3.9789,
      "step": 140970
    },
    {
      "epoch": 0.29370833333333335,
      "grad_norm": 0.8061639666557312,
      "learning_rate": 0.0002416553686702731,
      "loss": 3.7807,
      "step": 140980
    },
    {
      "epoch": 0.29372916666666665,
      "grad_norm": 0.8103238940238953,
      "learning_rate": 0.0002416475644114171,
      "loss": 3.7565,
      "step": 140990
    },
    {
      "epoch": 0.29375,
      "grad_norm": 0.7426366209983826,
      "learning_rate": 0.00024163975975667991,
      "loss": 3.7498,
      "step": 141000
    },
    {
      "epoch": 0.29375,
      "eval_loss": 4.217345237731934,
      "eval_runtime": 10.6056,
      "eval_samples_per_second": 0.943,
      "eval_steps_per_second": 0.283,
      "step": 141000
    },
    {
      "epoch": 0.2937708333333333,
      "grad_norm": 0.6640775799751282,
      "learning_rate": 0.0002416319547060952,
      "loss": 3.8282,
      "step": 141010
    },
    {
      "epoch": 0.2937916666666667,
      "grad_norm": 0.7517673969268799,
      "learning_rate": 0.00024162414925969674,
      "loss": 3.8696,
      "step": 141020
    },
    {
      "epoch": 0.2938125,
      "grad_norm": 0.8378080129623413,
      "learning_rate": 0.00024161634341751822,
      "loss": 3.9331,
      "step": 141030
    },
    {
      "epoch": 0.29383333333333334,
      "grad_norm": 0.7804750800132751,
      "learning_rate": 0.00024160853717959338,
      "loss": 3.9349,
      "step": 141040
    },
    {
      "epoch": 0.2938541666666667,
      "grad_norm": 0.7973634004592896,
      "learning_rate": 0.0002416007305459559,
      "loss": 4.0331,
      "step": 141050
    },
    {
      "epoch": 0.293875,
      "grad_norm": 0.8318438529968262,
      "learning_rate": 0.00024159292351663952,
      "loss": 3.9709,
      "step": 141060
    },
    {
      "epoch": 0.29389583333333336,
      "grad_norm": 0.7358540892601013,
      "learning_rate": 0.000241585116091678,
      "loss": 3.9502,
      "step": 141070
    },
    {
      "epoch": 0.29391666666666666,
      "grad_norm": 0.6947616338729858,
      "learning_rate": 0.00024157730827110497,
      "loss": 3.9331,
      "step": 141080
    },
    {
      "epoch": 0.2939375,
      "grad_norm": 0.7555621266365051,
      "learning_rate": 0.00024156950005495422,
      "loss": 3.8398,
      "step": 141090
    },
    {
      "epoch": 0.2939583333333333,
      "grad_norm": 0.7851009964942932,
      "learning_rate": 0.00024156169144325955,
      "loss": 3.9111,
      "step": 141100
    },
    {
      "epoch": 0.2939791666666667,
      "grad_norm": 0.7387374043464661,
      "learning_rate": 0.00024155388243605455,
      "loss": 4.0309,
      "step": 141110
    },
    {
      "epoch": 0.294,
      "grad_norm": 0.8894721269607544,
      "learning_rate": 0.000241546073033373,
      "loss": 3.9851,
      "step": 141120
    },
    {
      "epoch": 0.29402083333333334,
      "grad_norm": 0.7146965265274048,
      "learning_rate": 0.00024153826323524872,
      "loss": 3.7712,
      "step": 141130
    },
    {
      "epoch": 0.29404166666666665,
      "grad_norm": 0.9076192378997803,
      "learning_rate": 0.0002415304530417153,
      "loss": 3.9627,
      "step": 141140
    },
    {
      "epoch": 0.2940625,
      "grad_norm": 0.7168048620223999,
      "learning_rate": 0.00024152264245280662,
      "loss": 3.7656,
      "step": 141150
    },
    {
      "epoch": 0.2940833333333333,
      "grad_norm": 0.9284773468971252,
      "learning_rate": 0.00024151483146855632,
      "loss": 4.1061,
      "step": 141160
    },
    {
      "epoch": 0.29410416666666667,
      "grad_norm": 0.8223463296890259,
      "learning_rate": 0.00024150702008899822,
      "loss": 3.9335,
      "step": 141170
    },
    {
      "epoch": 0.294125,
      "grad_norm": 0.8546029329299927,
      "learning_rate": 0.00024149920831416594,
      "loss": 3.836,
      "step": 141180
    },
    {
      "epoch": 0.29414583333333333,
      "grad_norm": 0.8207334876060486,
      "learning_rate": 0.00024149139614409334,
      "loss": 3.8236,
      "step": 141190
    },
    {
      "epoch": 0.2941666666666667,
      "grad_norm": 0.8574368953704834,
      "learning_rate": 0.00024148358357881412,
      "loss": 3.7652,
      "step": 141200
    },
    {
      "epoch": 0.2941875,
      "grad_norm": 0.7125202417373657,
      "learning_rate": 0.000241475770618362,
      "loss": 3.8733,
      "step": 141210
    },
    {
      "epoch": 0.29420833333333335,
      "grad_norm": 0.7358430624008179,
      "learning_rate": 0.0002414679572627708,
      "loss": 3.7297,
      "step": 141220
    },
    {
      "epoch": 0.29422916666666665,
      "grad_norm": 0.6912760734558105,
      "learning_rate": 0.0002414601435120742,
      "loss": 3.7982,
      "step": 141230
    },
    {
      "epoch": 0.29425,
      "grad_norm": 0.8697095513343811,
      "learning_rate": 0.000241452329366306,
      "loss": 3.8291,
      "step": 141240
    },
    {
      "epoch": 0.2942708333333333,
      "grad_norm": 0.9185816645622253,
      "learning_rate": 0.00024144451482549997,
      "loss": 3.8706,
      "step": 141250
    },
    {
      "epoch": 0.2942916666666667,
      "grad_norm": 0.7468439936637878,
      "learning_rate": 0.00024143669988968975,
      "loss": 3.9374,
      "step": 141260
    },
    {
      "epoch": 0.2943125,
      "grad_norm": 0.7520104050636292,
      "learning_rate": 0.00024142888455890924,
      "loss": 3.8655,
      "step": 141270
    },
    {
      "epoch": 0.29433333333333334,
      "grad_norm": 0.7538866400718689,
      "learning_rate": 0.00024142106883319212,
      "loss": 3.9224,
      "step": 141280
    },
    {
      "epoch": 0.29435416666666664,
      "grad_norm": 0.8627321124076843,
      "learning_rate": 0.0002414132527125722,
      "loss": 3.843,
      "step": 141290
    },
    {
      "epoch": 0.294375,
      "grad_norm": 0.7860305309295654,
      "learning_rate": 0.00024140543619708318,
      "loss": 3.7202,
      "step": 141300
    },
    {
      "epoch": 0.29439583333333336,
      "grad_norm": 0.892854630947113,
      "learning_rate": 0.00024139761928675883,
      "loss": 3.8729,
      "step": 141310
    },
    {
      "epoch": 0.29441666666666666,
      "grad_norm": 0.7905489206314087,
      "learning_rate": 0.00024138980198163302,
      "loss": 3.9802,
      "step": 141320
    },
    {
      "epoch": 0.2944375,
      "grad_norm": 0.7345721125602722,
      "learning_rate": 0.00024138198428173935,
      "loss": 3.7476,
      "step": 141330
    },
    {
      "epoch": 0.2944583333333333,
      "grad_norm": 0.7854174971580505,
      "learning_rate": 0.00024137416618711174,
      "loss": 3.6736,
      "step": 141340
    },
    {
      "epoch": 0.2944791666666667,
      "grad_norm": 0.8046505451202393,
      "learning_rate": 0.00024136634769778391,
      "loss": 3.9465,
      "step": 141350
    },
    {
      "epoch": 0.2945,
      "grad_norm": 0.7580924034118652,
      "learning_rate": 0.00024135852881378958,
      "loss": 3.8767,
      "step": 141360
    },
    {
      "epoch": 0.29452083333333334,
      "grad_norm": 0.7397891879081726,
      "learning_rate": 0.0002413507095351626,
      "loss": 3.8884,
      "step": 141370
    },
    {
      "epoch": 0.29454166666666665,
      "grad_norm": 0.807373583316803,
      "learning_rate": 0.00024134288986193668,
      "loss": 3.9122,
      "step": 141380
    },
    {
      "epoch": 0.2945625,
      "grad_norm": 0.6602598428726196,
      "learning_rate": 0.00024133506979414566,
      "loss": 3.8287,
      "step": 141390
    },
    {
      "epoch": 0.2945833333333333,
      "grad_norm": 0.793376088142395,
      "learning_rate": 0.00024132724933182328,
      "loss": 4.0321,
      "step": 141400
    },
    {
      "epoch": 0.29460416666666667,
      "grad_norm": 0.6929689049720764,
      "learning_rate": 0.00024131942847500335,
      "loss": 3.8667,
      "step": 141410
    },
    {
      "epoch": 0.294625,
      "grad_norm": 0.7729184627532959,
      "learning_rate": 0.00024131160722371962,
      "loss": 3.9342,
      "step": 141420
    },
    {
      "epoch": 0.29464583333333333,
      "grad_norm": 0.6764984726905823,
      "learning_rate": 0.0002413037855780059,
      "loss": 3.8415,
      "step": 141430
    },
    {
      "epoch": 0.2946666666666667,
      "grad_norm": 0.879420280456543,
      "learning_rate": 0.00024129596353789594,
      "loss": 3.8359,
      "step": 141440
    },
    {
      "epoch": 0.2946875,
      "grad_norm": 0.8166232109069824,
      "learning_rate": 0.00024128814110342358,
      "loss": 3.8134,
      "step": 141450
    },
    {
      "epoch": 0.29470833333333335,
      "grad_norm": 0.7488299608230591,
      "learning_rate": 0.00024128031827462258,
      "loss": 3.907,
      "step": 141460
    },
    {
      "epoch": 0.29472916666666665,
      "grad_norm": 0.8366159200668335,
      "learning_rate": 0.0002412724950515267,
      "loss": 3.9853,
      "step": 141470
    },
    {
      "epoch": 0.29475,
      "grad_norm": 0.8554993867874146,
      "learning_rate": 0.0002412646714341698,
      "loss": 3.9558,
      "step": 141480
    },
    {
      "epoch": 0.2947708333333333,
      "grad_norm": 0.7381215691566467,
      "learning_rate": 0.00024125684742258569,
      "loss": 3.9416,
      "step": 141490
    },
    {
      "epoch": 0.2947916666666667,
      "grad_norm": 0.7350212931632996,
      "learning_rate": 0.00024124902301680807,
      "loss": 3.9187,
      "step": 141500
    },
    {
      "epoch": 0.2948125,
      "grad_norm": 0.6916520595550537,
      "learning_rate": 0.0002412411982168708,
      "loss": 3.834,
      "step": 141510
    },
    {
      "epoch": 0.29483333333333334,
      "grad_norm": 0.7851690053939819,
      "learning_rate": 0.00024123337302280764,
      "loss": 3.9623,
      "step": 141520
    },
    {
      "epoch": 0.29485416666666664,
      "grad_norm": 0.6249490976333618,
      "learning_rate": 0.0002412255474346525,
      "loss": 3.912,
      "step": 141530
    },
    {
      "epoch": 0.294875,
      "grad_norm": 0.8368352651596069,
      "learning_rate": 0.00024121772145243903,
      "loss": 3.8058,
      "step": 141540
    },
    {
      "epoch": 0.29489583333333336,
      "grad_norm": 0.8589141368865967,
      "learning_rate": 0.00024120989507620113,
      "loss": 3.8729,
      "step": 141550
    },
    {
      "epoch": 0.29491666666666666,
      "grad_norm": 0.9143207669258118,
      "learning_rate": 0.00024120206830597263,
      "loss": 3.9737,
      "step": 141560
    },
    {
      "epoch": 0.2949375,
      "grad_norm": 0.78697270154953,
      "learning_rate": 0.00024119424114178722,
      "loss": 3.9372,
      "step": 141570
    },
    {
      "epoch": 0.2949583333333333,
      "grad_norm": 0.7533753514289856,
      "learning_rate": 0.00024118641358367884,
      "loss": 3.8673,
      "step": 141580
    },
    {
      "epoch": 0.2949791666666667,
      "grad_norm": 0.7752100229263306,
      "learning_rate": 0.0002411785856316812,
      "loss": 3.8575,
      "step": 141590
    },
    {
      "epoch": 0.295,
      "grad_norm": 0.6848317980766296,
      "learning_rate": 0.0002411707572858282,
      "loss": 3.9799,
      "step": 141600
    },
    {
      "epoch": 0.29502083333333334,
      "grad_norm": 0.9810097813606262,
      "learning_rate": 0.00024116292854615366,
      "loss": 3.7558,
      "step": 141610
    },
    {
      "epoch": 0.29504166666666665,
      "grad_norm": 0.8673974275588989,
      "learning_rate": 0.00024115509941269125,
      "loss": 4.0615,
      "step": 141620
    },
    {
      "epoch": 0.2950625,
      "grad_norm": 0.7933180332183838,
      "learning_rate": 0.00024114726988547496,
      "loss": 3.9647,
      "step": 141630
    },
    {
      "epoch": 0.2950833333333333,
      "grad_norm": 0.7834346890449524,
      "learning_rate": 0.00024113943996453854,
      "loss": 3.9263,
      "step": 141640
    },
    {
      "epoch": 0.29510416666666667,
      "grad_norm": 0.7808367013931274,
      "learning_rate": 0.00024113160964991576,
      "loss": 3.9668,
      "step": 141650
    },
    {
      "epoch": 0.295125,
      "grad_norm": 0.8459610342979431,
      "learning_rate": 0.00024112377894164053,
      "loss": 3.9296,
      "step": 141660
    },
    {
      "epoch": 0.29514583333333333,
      "grad_norm": 0.7524875998497009,
      "learning_rate": 0.00024111594783974668,
      "loss": 3.9822,
      "step": 141670
    },
    {
      "epoch": 0.2951666666666667,
      "grad_norm": 0.7343438863754272,
      "learning_rate": 0.00024110811634426796,
      "loss": 4.1146,
      "step": 141680
    },
    {
      "epoch": 0.2951875,
      "grad_norm": 0.7956542372703552,
      "learning_rate": 0.00024110028445523826,
      "loss": 3.7756,
      "step": 141690
    },
    {
      "epoch": 0.29520833333333335,
      "grad_norm": 0.9538717269897461,
      "learning_rate": 0.00024109245217269137,
      "loss": 3.8083,
      "step": 141700
    },
    {
      "epoch": 0.29522916666666665,
      "grad_norm": 0.7750533819198608,
      "learning_rate": 0.00024108461949666116,
      "loss": 3.9174,
      "step": 141710
    },
    {
      "epoch": 0.29525,
      "grad_norm": 0.7755551338195801,
      "learning_rate": 0.0002410767864271815,
      "loss": 3.7011,
      "step": 141720
    },
    {
      "epoch": 0.2952708333333333,
      "grad_norm": 0.8519576787948608,
      "learning_rate": 0.00024106895296428609,
      "loss": 3.9597,
      "step": 141730
    },
    {
      "epoch": 0.2952916666666667,
      "grad_norm": 0.8185394406318665,
      "learning_rate": 0.00024106111910800887,
      "loss": 3.9643,
      "step": 141740
    },
    {
      "epoch": 0.2953125,
      "grad_norm": 0.8626194596290588,
      "learning_rate": 0.0002410532848583837,
      "loss": 3.8806,
      "step": 141750
    },
    {
      "epoch": 0.29533333333333334,
      "grad_norm": 0.791012167930603,
      "learning_rate": 0.00024104545021544433,
      "loss": 3.8974,
      "step": 141760
    },
    {
      "epoch": 0.29535416666666664,
      "grad_norm": 0.7463192343711853,
      "learning_rate": 0.0002410376151792247,
      "loss": 4.0736,
      "step": 141770
    },
    {
      "epoch": 0.295375,
      "grad_norm": 0.6611722111701965,
      "learning_rate": 0.00024102977974975858,
      "loss": 4.0459,
      "step": 141780
    },
    {
      "epoch": 0.29539583333333336,
      "grad_norm": 0.7366801500320435,
      "learning_rate": 0.00024102194392707982,
      "loss": 3.8807,
      "step": 141790
    },
    {
      "epoch": 0.29541666666666666,
      "grad_norm": 0.8059824109077454,
      "learning_rate": 0.00024101410771122235,
      "loss": 3.7181,
      "step": 141800
    },
    {
      "epoch": 0.2954375,
      "grad_norm": 0.7922457456588745,
      "learning_rate": 0.00024100627110221993,
      "loss": 3.9018,
      "step": 141810
    },
    {
      "epoch": 0.2954583333333333,
      "grad_norm": 0.7514328360557556,
      "learning_rate": 0.0002409984341001064,
      "loss": 3.955,
      "step": 141820
    },
    {
      "epoch": 0.2954791666666667,
      "grad_norm": 0.7489309906959534,
      "learning_rate": 0.00024099059670491574,
      "loss": 3.9027,
      "step": 141830
    },
    {
      "epoch": 0.2955,
      "grad_norm": 0.8164059519767761,
      "learning_rate": 0.00024098275891668166,
      "loss": 3.9306,
      "step": 141840
    },
    {
      "epoch": 0.29552083333333334,
      "grad_norm": 0.8002371191978455,
      "learning_rate": 0.00024097492073543806,
      "loss": 3.7451,
      "step": 141850
    },
    {
      "epoch": 0.29554166666666665,
      "grad_norm": 0.8503592014312744,
      "learning_rate": 0.00024096708216121885,
      "loss": 3.8631,
      "step": 141860
    },
    {
      "epoch": 0.2955625,
      "grad_norm": 0.7028999328613281,
      "learning_rate": 0.00024095924319405784,
      "loss": 3.7959,
      "step": 141870
    },
    {
      "epoch": 0.2955833333333333,
      "grad_norm": 0.7650256752967834,
      "learning_rate": 0.00024095140383398892,
      "loss": 3.7372,
      "step": 141880
    },
    {
      "epoch": 0.29560416666666667,
      "grad_norm": 0.7171978950500488,
      "learning_rate": 0.00024094356408104592,
      "loss": 3.7044,
      "step": 141890
    },
    {
      "epoch": 0.295625,
      "grad_norm": 0.8826782703399658,
      "learning_rate": 0.00024093572393526274,
      "loss": 3.9929,
      "step": 141900
    },
    {
      "epoch": 0.29564583333333333,
      "grad_norm": 0.8456931114196777,
      "learning_rate": 0.00024092788339667321,
      "loss": 3.7233,
      "step": 141910
    },
    {
      "epoch": 0.2956666666666667,
      "grad_norm": 0.8248717784881592,
      "learning_rate": 0.00024092004246531123,
      "loss": 3.8368,
      "step": 141920
    },
    {
      "epoch": 0.2956875,
      "grad_norm": 0.721526563167572,
      "learning_rate": 0.0002409122011412106,
      "loss": 3.783,
      "step": 141930
    },
    {
      "epoch": 0.29570833333333335,
      "grad_norm": 0.6893012523651123,
      "learning_rate": 0.00024090435942440531,
      "loss": 3.9946,
      "step": 141940
    },
    {
      "epoch": 0.29572916666666665,
      "grad_norm": 0.7330619692802429,
      "learning_rate": 0.00024089651731492917,
      "loss": 3.8564,
      "step": 141950
    },
    {
      "epoch": 0.29575,
      "grad_norm": 0.7180487513542175,
      "learning_rate": 0.000240888674812816,
      "loss": 3.7282,
      "step": 141960
    },
    {
      "epoch": 0.2957708333333333,
      "grad_norm": 1.0977202653884888,
      "learning_rate": 0.00024088083191809977,
      "loss": 3.808,
      "step": 141970
    },
    {
      "epoch": 0.2957916666666667,
      "grad_norm": 1.013430118560791,
      "learning_rate": 0.00024087298863081433,
      "loss": 3.9321,
      "step": 141980
    },
    {
      "epoch": 0.2958125,
      "grad_norm": 0.9269954562187195,
      "learning_rate": 0.00024086514495099353,
      "loss": 3.8276,
      "step": 141990
    },
    {
      "epoch": 0.29583333333333334,
      "grad_norm": 0.8560387492179871,
      "learning_rate": 0.0002408573008786713,
      "loss": 3.9105,
      "step": 142000
    },
    {
      "epoch": 0.29583333333333334,
      "eval_loss": 4.208868503570557,
      "eval_runtime": 10.5579,
      "eval_samples_per_second": 0.947,
      "eval_steps_per_second": 0.284,
      "step": 142000
    },
    {
      "epoch": 0.29585416666666664,
      "grad_norm": 0.7532480955123901,
      "learning_rate": 0.00024084945641388144,
      "loss": 3.8282,
      "step": 142010
    },
    {
      "epoch": 0.295875,
      "grad_norm": 0.669823944568634,
      "learning_rate": 0.00024084161155665787,
      "loss": 3.7966,
      "step": 142020
    },
    {
      "epoch": 0.29589583333333336,
      "grad_norm": 0.8504632115364075,
      "learning_rate": 0.00024083376630703462,
      "loss": 3.8286,
      "step": 142030
    },
    {
      "epoch": 0.29591666666666666,
      "grad_norm": 0.8523635268211365,
      "learning_rate": 0.00024082592066504533,
      "loss": 4.0275,
      "step": 142040
    },
    {
      "epoch": 0.2959375,
      "grad_norm": 0.6714911460876465,
      "learning_rate": 0.00024081807463072408,
      "loss": 3.9144,
      "step": 142050
    },
    {
      "epoch": 0.2959583333333333,
      "grad_norm": 0.7867368459701538,
      "learning_rate": 0.00024081022820410464,
      "loss": 3.9102,
      "step": 142060
    },
    {
      "epoch": 0.2959791666666667,
      "grad_norm": 0.7639283537864685,
      "learning_rate": 0.00024080238138522101,
      "loss": 3.8162,
      "step": 142070
    },
    {
      "epoch": 0.296,
      "grad_norm": 0.7971590757369995,
      "learning_rate": 0.00024079453417410703,
      "loss": 3.8846,
      "step": 142080
    },
    {
      "epoch": 0.29602083333333334,
      "grad_norm": 0.7020189166069031,
      "learning_rate": 0.0002407866865707966,
      "loss": 3.7941,
      "step": 142090
    },
    {
      "epoch": 0.29604166666666665,
      "grad_norm": 0.8212747573852539,
      "learning_rate": 0.0002407788385753236,
      "loss": 4.0216,
      "step": 142100
    },
    {
      "epoch": 0.2960625,
      "grad_norm": 0.9827830195426941,
      "learning_rate": 0.00024077099018772198,
      "loss": 3.6725,
      "step": 142110
    },
    {
      "epoch": 0.2960833333333333,
      "grad_norm": 0.7668375968933105,
      "learning_rate": 0.00024076314140802563,
      "loss": 3.9323,
      "step": 142120
    },
    {
      "epoch": 0.29610416666666667,
      "grad_norm": 0.833960771560669,
      "learning_rate": 0.00024075529223626833,
      "loss": 3.7736,
      "step": 142130
    },
    {
      "epoch": 0.296125,
      "grad_norm": 0.736834704875946,
      "learning_rate": 0.0002407474426724842,
      "loss": 3.9314,
      "step": 142140
    },
    {
      "epoch": 0.29614583333333333,
      "grad_norm": 0.7131876945495605,
      "learning_rate": 0.00024073959271670697,
      "loss": 3.811,
      "step": 142150
    },
    {
      "epoch": 0.2961666666666667,
      "grad_norm": 0.735802412033081,
      "learning_rate": 0.00024073174236897065,
      "loss": 3.9013,
      "step": 142160
    },
    {
      "epoch": 0.2961875,
      "grad_norm": 0.8204641938209534,
      "learning_rate": 0.00024072389162930913,
      "loss": 3.8905,
      "step": 142170
    },
    {
      "epoch": 0.29620833333333335,
      "grad_norm": 0.7033344507217407,
      "learning_rate": 0.0002407160404977563,
      "loss": 4.0879,
      "step": 142180
    },
    {
      "epoch": 0.29622916666666665,
      "grad_norm": 0.8186962604522705,
      "learning_rate": 0.00024070818897434606,
      "loss": 3.8509,
      "step": 142190
    },
    {
      "epoch": 0.29625,
      "grad_norm": 0.7887150049209595,
      "learning_rate": 0.00024070033705911236,
      "loss": 3.9576,
      "step": 142200
    },
    {
      "epoch": 0.2962708333333333,
      "grad_norm": 0.7579504251480103,
      "learning_rate": 0.0002406924847520891,
      "loss": 3.7415,
      "step": 142210
    },
    {
      "epoch": 0.2962916666666667,
      "grad_norm": 0.737472653388977,
      "learning_rate": 0.00024068463205331023,
      "loss": 3.9991,
      "step": 142220
    },
    {
      "epoch": 0.2963125,
      "grad_norm": 0.7405239343643188,
      "learning_rate": 0.00024067677896280962,
      "loss": 3.8221,
      "step": 142230
    },
    {
      "epoch": 0.29633333333333334,
      "grad_norm": 0.806215763092041,
      "learning_rate": 0.00024066892548062124,
      "loss": 3.675,
      "step": 142240
    },
    {
      "epoch": 0.29635416666666664,
      "grad_norm": 0.7775173187255859,
      "learning_rate": 0.00024066107160677897,
      "loss": 3.7548,
      "step": 142250
    },
    {
      "epoch": 0.296375,
      "grad_norm": 0.7418007850646973,
      "learning_rate": 0.00024065321734131675,
      "loss": 3.6782,
      "step": 142260
    },
    {
      "epoch": 0.29639583333333336,
      "grad_norm": 0.7163615226745605,
      "learning_rate": 0.0002406453626842685,
      "loss": 3.8068,
      "step": 142270
    },
    {
      "epoch": 0.29641666666666666,
      "grad_norm": 0.7844934463500977,
      "learning_rate": 0.00024063750763566824,
      "loss": 3.7078,
      "step": 142280
    },
    {
      "epoch": 0.2964375,
      "grad_norm": 0.859001874923706,
      "learning_rate": 0.00024062965219554975,
      "loss": 3.9052,
      "step": 142290
    },
    {
      "epoch": 0.2964583333333333,
      "grad_norm": 0.7622842788696289,
      "learning_rate": 0.00024062179636394706,
      "loss": 3.8388,
      "step": 142300
    },
    {
      "epoch": 0.2964791666666667,
      "grad_norm": 0.7675563097000122,
      "learning_rate": 0.00024061394014089407,
      "loss": 3.7715,
      "step": 142310
    },
    {
      "epoch": 0.2965,
      "grad_norm": 0.6957120895385742,
      "learning_rate": 0.00024060608352642474,
      "loss": 3.9384,
      "step": 142320
    },
    {
      "epoch": 0.29652083333333334,
      "grad_norm": 0.7532066106796265,
      "learning_rate": 0.000240598226520573,
      "loss": 3.7027,
      "step": 142330
    },
    {
      "epoch": 0.29654166666666665,
      "grad_norm": 0.8184198141098022,
      "learning_rate": 0.0002405903691233728,
      "loss": 3.7474,
      "step": 142340
    },
    {
      "epoch": 0.2965625,
      "grad_norm": 0.8469700813293457,
      "learning_rate": 0.000240582511334858,
      "loss": 3.8338,
      "step": 142350
    },
    {
      "epoch": 0.2965833333333333,
      "grad_norm": 0.7744404077529907,
      "learning_rate": 0.00024057465315506266,
      "loss": 3.8823,
      "step": 142360
    },
    {
      "epoch": 0.29660416666666667,
      "grad_norm": 0.7721949815750122,
      "learning_rate": 0.00024056679458402068,
      "loss": 3.9053,
      "step": 142370
    },
    {
      "epoch": 0.296625,
      "grad_norm": 0.7477405071258545,
      "learning_rate": 0.00024055893562176592,
      "loss": 3.9957,
      "step": 142380
    },
    {
      "epoch": 0.29664583333333333,
      "grad_norm": 0.7738804817199707,
      "learning_rate": 0.00024055107626833245,
      "loss": 4.0451,
      "step": 142390
    },
    {
      "epoch": 0.2966666666666667,
      "grad_norm": 0.8903459906578064,
      "learning_rate": 0.0002405432165237542,
      "loss": 3.8819,
      "step": 142400
    },
    {
      "epoch": 0.2966875,
      "grad_norm": 0.7081618309020996,
      "learning_rate": 0.00024053535638806506,
      "loss": 3.6315,
      "step": 142410
    },
    {
      "epoch": 0.29670833333333335,
      "grad_norm": 0.7210261225700378,
      "learning_rate": 0.00024052749586129908,
      "loss": 3.6548,
      "step": 142420
    },
    {
      "epoch": 0.29672916666666665,
      "grad_norm": 0.7552427649497986,
      "learning_rate": 0.00024051963494349006,
      "loss": 3.8905,
      "step": 142430
    },
    {
      "epoch": 0.29675,
      "grad_norm": 0.7781370878219604,
      "learning_rate": 0.00024051177363467206,
      "loss": 3.8336,
      "step": 142440
    },
    {
      "epoch": 0.2967708333333333,
      "grad_norm": 0.7458909153938293,
      "learning_rate": 0.0002405039119348791,
      "loss": 3.8927,
      "step": 142450
    },
    {
      "epoch": 0.2967916666666667,
      "grad_norm": 0.7027264833450317,
      "learning_rate": 0.000240496049844145,
      "loss": 4.0941,
      "step": 142460
    },
    {
      "epoch": 0.2968125,
      "grad_norm": 0.6746301651000977,
      "learning_rate": 0.00024048818736250376,
      "loss": 3.7774,
      "step": 142470
    },
    {
      "epoch": 0.29683333333333334,
      "grad_norm": 0.8510965704917908,
      "learning_rate": 0.0002404803244899894,
      "loss": 3.8966,
      "step": 142480
    },
    {
      "epoch": 0.29685416666666664,
      "grad_norm": 0.7333560585975647,
      "learning_rate": 0.00024047246122663592,
      "loss": 4.017,
      "step": 142490
    },
    {
      "epoch": 0.296875,
      "grad_norm": 0.8176580667495728,
      "learning_rate": 0.00024046459757247714,
      "loss": 3.8584,
      "step": 142500
    },
    {
      "epoch": 0.29689583333333336,
      "grad_norm": 0.7123785018920898,
      "learning_rate": 0.0002404567335275471,
      "loss": 3.8442,
      "step": 142510
    },
    {
      "epoch": 0.29691666666666666,
      "grad_norm": 0.7650035619735718,
      "learning_rate": 0.00024044886909187983,
      "loss": 3.9413,
      "step": 142520
    },
    {
      "epoch": 0.2969375,
      "grad_norm": 0.7065532803535461,
      "learning_rate": 0.00024044100426550923,
      "loss": 3.8154,
      "step": 142530
    },
    {
      "epoch": 0.2969583333333333,
      "grad_norm": 0.8062930107116699,
      "learning_rate": 0.00024043313904846927,
      "loss": 3.9168,
      "step": 142540
    },
    {
      "epoch": 0.2969791666666667,
      "grad_norm": 0.666556179523468,
      "learning_rate": 0.00024042527344079396,
      "loss": 3.7148,
      "step": 142550
    },
    {
      "epoch": 0.297,
      "grad_norm": 0.8751487135887146,
      "learning_rate": 0.00024041740744251726,
      "loss": 3.7463,
      "step": 142560
    },
    {
      "epoch": 0.29702083333333335,
      "grad_norm": 0.7855331301689148,
      "learning_rate": 0.00024040954105367313,
      "loss": 3.7883,
      "step": 142570
    },
    {
      "epoch": 0.29704166666666665,
      "grad_norm": 0.7697669267654419,
      "learning_rate": 0.00024040167427429558,
      "loss": 3.7721,
      "step": 142580
    },
    {
      "epoch": 0.2970625,
      "grad_norm": 0.7571374773979187,
      "learning_rate": 0.0002403938071044186,
      "loss": 3.8391,
      "step": 142590
    },
    {
      "epoch": 0.2970833333333333,
      "grad_norm": 0.8206276893615723,
      "learning_rate": 0.00024038593954407616,
      "loss": 3.9106,
      "step": 142600
    },
    {
      "epoch": 0.29710416666666667,
      "grad_norm": 0.8063560724258423,
      "learning_rate": 0.0002403780715933022,
      "loss": 4.0098,
      "step": 142610
    },
    {
      "epoch": 0.297125,
      "grad_norm": 0.8712083101272583,
      "learning_rate": 0.0002403702032521308,
      "loss": 3.8116,
      "step": 142620
    },
    {
      "epoch": 0.29714583333333333,
      "grad_norm": 0.7385857105255127,
      "learning_rate": 0.00024036233452059584,
      "loss": 3.8829,
      "step": 142630
    },
    {
      "epoch": 0.2971666666666667,
      "grad_norm": 0.775091826915741,
      "learning_rate": 0.0002403544653987314,
      "loss": 3.9962,
      "step": 142640
    },
    {
      "epoch": 0.2971875,
      "grad_norm": 0.7643676400184631,
      "learning_rate": 0.0002403465958865714,
      "loss": 3.9646,
      "step": 142650
    },
    {
      "epoch": 0.29720833333333335,
      "grad_norm": 0.8644020557403564,
      "learning_rate": 0.00024033872598414987,
      "loss": 3.8312,
      "step": 142660
    },
    {
      "epoch": 0.29722916666666666,
      "grad_norm": 1.1989870071411133,
      "learning_rate": 0.0002403308556915008,
      "loss": 3.8939,
      "step": 142670
    },
    {
      "epoch": 0.29725,
      "grad_norm": 0.704155445098877,
      "learning_rate": 0.0002403229850086582,
      "loss": 3.7464,
      "step": 142680
    },
    {
      "epoch": 0.2972708333333333,
      "grad_norm": 0.7560657262802124,
      "learning_rate": 0.0002403151139356561,
      "loss": 3.772,
      "step": 142690
    },
    {
      "epoch": 0.2972916666666667,
      "grad_norm": 0.7802797555923462,
      "learning_rate": 0.0002403072424725284,
      "loss": 3.8669,
      "step": 142700
    },
    {
      "epoch": 0.2973125,
      "grad_norm": 0.9592667818069458,
      "learning_rate": 0.0002402993706193092,
      "loss": 3.8461,
      "step": 142710
    },
    {
      "epoch": 0.29733333333333334,
      "grad_norm": 0.7410505414009094,
      "learning_rate": 0.0002402914983760324,
      "loss": 3.7635,
      "step": 142720
    },
    {
      "epoch": 0.29735416666666664,
      "grad_norm": 0.9048067927360535,
      "learning_rate": 0.00024028362574273214,
      "loss": 3.8158,
      "step": 142730
    },
    {
      "epoch": 0.297375,
      "grad_norm": 0.8481195569038391,
      "learning_rate": 0.0002402757527194423,
      "loss": 4.0178,
      "step": 142740
    },
    {
      "epoch": 0.29739583333333336,
      "grad_norm": 0.9598065614700317,
      "learning_rate": 0.00024026787930619693,
      "loss": 3.8324,
      "step": 142750
    },
    {
      "epoch": 0.29741666666666666,
      "grad_norm": 0.8239943385124207,
      "learning_rate": 0.00024026000550303014,
      "loss": 3.789,
      "step": 142760
    },
    {
      "epoch": 0.2974375,
      "grad_norm": 0.7778174877166748,
      "learning_rate": 0.00024025213130997577,
      "loss": 3.9275,
      "step": 142770
    },
    {
      "epoch": 0.2974583333333333,
      "grad_norm": 0.8203853964805603,
      "learning_rate": 0.00024024425672706793,
      "loss": 3.973,
      "step": 142780
    },
    {
      "epoch": 0.2974791666666667,
      "grad_norm": 0.6867310404777527,
      "learning_rate": 0.00024023638175434066,
      "loss": 3.7403,
      "step": 142790
    },
    {
      "epoch": 0.2975,
      "grad_norm": 0.7706397175788879,
      "learning_rate": 0.0002402285063918279,
      "loss": 3.8747,
      "step": 142800
    },
    {
      "epoch": 0.29752083333333335,
      "grad_norm": 0.8105576038360596,
      "learning_rate": 0.00024022063063956374,
      "loss": 3.8448,
      "step": 142810
    },
    {
      "epoch": 0.29754166666666665,
      "grad_norm": 0.7678748369216919,
      "learning_rate": 0.00024021275449758212,
      "loss": 3.8812,
      "step": 142820
    },
    {
      "epoch": 0.2975625,
      "grad_norm": 0.7547206878662109,
      "learning_rate": 0.00024020487796591714,
      "loss": 4.0026,
      "step": 142830
    },
    {
      "epoch": 0.2975833333333333,
      "grad_norm": 0.8681719303131104,
      "learning_rate": 0.00024019700104460282,
      "loss": 3.7746,
      "step": 142840
    },
    {
      "epoch": 0.29760416666666667,
      "grad_norm": 0.7375267744064331,
      "learning_rate": 0.0002401891237336731,
      "loss": 3.9287,
      "step": 142850
    },
    {
      "epoch": 0.297625,
      "grad_norm": 0.783271312713623,
      "learning_rate": 0.0002401812460331621,
      "loss": 3.8416,
      "step": 142860
    },
    {
      "epoch": 0.29764583333333333,
      "grad_norm": 0.7762700915336609,
      "learning_rate": 0.00024017336794310382,
      "loss": 3.8337,
      "step": 142870
    },
    {
      "epoch": 0.2976666666666667,
      "grad_norm": 0.825272262096405,
      "learning_rate": 0.00024016548946353223,
      "loss": 3.9032,
      "step": 142880
    },
    {
      "epoch": 0.2976875,
      "grad_norm": 0.8174690008163452,
      "learning_rate": 0.00024015761059448145,
      "loss": 3.7184,
      "step": 142890
    },
    {
      "epoch": 0.29770833333333335,
      "grad_norm": 0.925254225730896,
      "learning_rate": 0.00024014973133598555,
      "loss": 3.8273,
      "step": 142900
    },
    {
      "epoch": 0.29772916666666666,
      "grad_norm": 0.9827408194541931,
      "learning_rate": 0.00024014185168807838,
      "loss": 3.8991,
      "step": 142910
    },
    {
      "epoch": 0.29775,
      "grad_norm": 0.8028187155723572,
      "learning_rate": 0.00024013397165079415,
      "loss": 3.8823,
      "step": 142920
    },
    {
      "epoch": 0.2977708333333333,
      "grad_norm": 0.7825886011123657,
      "learning_rate": 0.00024012609122416685,
      "loss": 3.7475,
      "step": 142930
    },
    {
      "epoch": 0.2977916666666667,
      "grad_norm": 0.7114209532737732,
      "learning_rate": 0.00024011821040823046,
      "loss": 3.8187,
      "step": 142940
    },
    {
      "epoch": 0.2978125,
      "grad_norm": 0.833908200263977,
      "learning_rate": 0.00024011032920301912,
      "loss": 3.9733,
      "step": 142950
    },
    {
      "epoch": 0.29783333333333334,
      "grad_norm": 0.8018801212310791,
      "learning_rate": 0.00024010244760856682,
      "loss": 3.9312,
      "step": 142960
    },
    {
      "epoch": 0.29785416666666664,
      "grad_norm": 0.7183029055595398,
      "learning_rate": 0.00024009456562490758,
      "loss": 3.968,
      "step": 142970
    },
    {
      "epoch": 0.297875,
      "grad_norm": 0.7013893723487854,
      "learning_rate": 0.0002400866832520755,
      "loss": 3.8652,
      "step": 142980
    },
    {
      "epoch": 0.29789583333333336,
      "grad_norm": 0.9590338468551636,
      "learning_rate": 0.00024007880049010464,
      "loss": 3.7753,
      "step": 142990
    },
    {
      "epoch": 0.29791666666666666,
      "grad_norm": 0.6982789635658264,
      "learning_rate": 0.00024007091733902895,
      "loss": 3.6953,
      "step": 143000
    },
    {
      "epoch": 0.29791666666666666,
      "eval_loss": 4.204442024230957,
      "eval_runtime": 10.935,
      "eval_samples_per_second": 0.914,
      "eval_steps_per_second": 0.274,
      "step": 143000
    },
    {
      "epoch": 0.2979375,
      "grad_norm": 0.7130032181739807,
      "learning_rate": 0.0002400630337988826,
      "loss": 3.933,
      "step": 143010
    },
    {
      "epoch": 0.2979583333333333,
      "grad_norm": 0.7911947965621948,
      "learning_rate": 0.00024005514986969958,
      "loss": 3.7847,
      "step": 143020
    },
    {
      "epoch": 0.2979791666666667,
      "grad_norm": 0.8167963624000549,
      "learning_rate": 0.00024004726555151395,
      "loss": 3.9054,
      "step": 143030
    },
    {
      "epoch": 0.298,
      "grad_norm": 0.7938100695610046,
      "learning_rate": 0.00024003938084435976,
      "loss": 3.8911,
      "step": 143040
    },
    {
      "epoch": 0.29802083333333335,
      "grad_norm": 0.8689572811126709,
      "learning_rate": 0.0002400314957482711,
      "loss": 3.8963,
      "step": 143050
    },
    {
      "epoch": 0.29804166666666665,
      "grad_norm": 0.7823813557624817,
      "learning_rate": 0.00024002361026328206,
      "loss": 3.686,
      "step": 143060
    },
    {
      "epoch": 0.2980625,
      "grad_norm": 0.7494820356369019,
      "learning_rate": 0.0002400157243894266,
      "loss": 3.9981,
      "step": 143070
    },
    {
      "epoch": 0.2980833333333333,
      "grad_norm": 0.6734172105789185,
      "learning_rate": 0.00024000783812673884,
      "loss": 4.0629,
      "step": 143080
    },
    {
      "epoch": 0.29810416666666667,
      "grad_norm": 0.7274554371833801,
      "learning_rate": 0.0002399999514752529,
      "loss": 3.9183,
      "step": 143090
    },
    {
      "epoch": 0.298125,
      "grad_norm": 0.768528163433075,
      "learning_rate": 0.00023999206443500273,
      "loss": 3.8636,
      "step": 143100
    },
    {
      "epoch": 0.29814583333333333,
      "grad_norm": 0.7654592990875244,
      "learning_rate": 0.00023998417700602252,
      "loss": 3.8754,
      "step": 143110
    },
    {
      "epoch": 0.2981666666666667,
      "grad_norm": 0.8371890187263489,
      "learning_rate": 0.00023997628918834626,
      "loss": 3.6181,
      "step": 143120
    },
    {
      "epoch": 0.2981875,
      "grad_norm": 1.0312129259109497,
      "learning_rate": 0.00023996840098200806,
      "loss": 3.8531,
      "step": 143130
    },
    {
      "epoch": 0.29820833333333335,
      "grad_norm": 0.7667146325111389,
      "learning_rate": 0.00023996051238704192,
      "loss": 3.8755,
      "step": 143140
    },
    {
      "epoch": 0.29822916666666666,
      "grad_norm": 0.7941297292709351,
      "learning_rate": 0.00023995262340348206,
      "loss": 3.8169,
      "step": 143150
    },
    {
      "epoch": 0.29825,
      "grad_norm": 0.7266224026679993,
      "learning_rate": 0.00023994473403136238,
      "loss": 4.0118,
      "step": 143160
    },
    {
      "epoch": 0.2982708333333333,
      "grad_norm": 0.7759219408035278,
      "learning_rate": 0.00023993684427071711,
      "loss": 3.762,
      "step": 143170
    },
    {
      "epoch": 0.2982916666666667,
      "grad_norm": 0.8343052268028259,
      "learning_rate": 0.00023992895412158028,
      "loss": 3.9807,
      "step": 143180
    },
    {
      "epoch": 0.2983125,
      "grad_norm": 1.145581841468811,
      "learning_rate": 0.00023992106358398596,
      "loss": 3.7653,
      "step": 143190
    },
    {
      "epoch": 0.29833333333333334,
      "grad_norm": 0.7514909505844116,
      "learning_rate": 0.0002399131726579682,
      "loss": 3.8004,
      "step": 143200
    },
    {
      "epoch": 0.29835416666666664,
      "grad_norm": 0.7333863973617554,
      "learning_rate": 0.0002399052813435612,
      "loss": 3.8022,
      "step": 143210
    },
    {
      "epoch": 0.298375,
      "grad_norm": 0.745380163192749,
      "learning_rate": 0.00023989738964079888,
      "loss": 3.8969,
      "step": 143220
    },
    {
      "epoch": 0.29839583333333336,
      "grad_norm": 0.7043828368186951,
      "learning_rate": 0.0002398894975497155,
      "loss": 3.8707,
      "step": 143230
    },
    {
      "epoch": 0.29841666666666666,
      "grad_norm": 0.6991416811943054,
      "learning_rate": 0.00023988160507034504,
      "loss": 3.8276,
      "step": 143240
    },
    {
      "epoch": 0.2984375,
      "grad_norm": 0.8049972057342529,
      "learning_rate": 0.0002398737122027216,
      "loss": 3.8412,
      "step": 143250
    },
    {
      "epoch": 0.2984583333333333,
      "grad_norm": 0.7084864377975464,
      "learning_rate": 0.00023986581894687933,
      "loss": 3.9498,
      "step": 143260
    },
    {
      "epoch": 0.2984791666666667,
      "grad_norm": 0.6952663660049438,
      "learning_rate": 0.00023985792530285225,
      "loss": 3.8311,
      "step": 143270
    },
    {
      "epoch": 0.2985,
      "grad_norm": 0.8309416770935059,
      "learning_rate": 0.00023985003127067453,
      "loss": 3.8816,
      "step": 143280
    },
    {
      "epoch": 0.29852083333333335,
      "grad_norm": 0.9307279586791992,
      "learning_rate": 0.00023984213685038024,
      "loss": 3.9748,
      "step": 143290
    },
    {
      "epoch": 0.29854166666666665,
      "grad_norm": 0.7182081341743469,
      "learning_rate": 0.0002398342420420035,
      "loss": 4.0329,
      "step": 143300
    },
    {
      "epoch": 0.2985625,
      "grad_norm": 0.8063571453094482,
      "learning_rate": 0.00023982634684557839,
      "loss": 3.884,
      "step": 143310
    },
    {
      "epoch": 0.2985833333333333,
      "grad_norm": 0.7549446821212769,
      "learning_rate": 0.00023981845126113898,
      "loss": 3.8881,
      "step": 143320
    },
    {
      "epoch": 0.29860416666666667,
      "grad_norm": 0.7458600997924805,
      "learning_rate": 0.00023981055528871946,
      "loss": 3.8989,
      "step": 143330
    },
    {
      "epoch": 0.298625,
      "grad_norm": 0.7047514319419861,
      "learning_rate": 0.00023980265892835383,
      "loss": 4.0266,
      "step": 143340
    },
    {
      "epoch": 0.29864583333333333,
      "grad_norm": 0.7286339998245239,
      "learning_rate": 0.00023979476218007634,
      "loss": 3.8546,
      "step": 143350
    },
    {
      "epoch": 0.2986666666666667,
      "grad_norm": 0.6967998147010803,
      "learning_rate": 0.00023978686504392096,
      "loss": 3.7904,
      "step": 143360
    },
    {
      "epoch": 0.2986875,
      "grad_norm": 0.6917837262153625,
      "learning_rate": 0.0002397789675199219,
      "loss": 3.9618,
      "step": 143370
    },
    {
      "epoch": 0.29870833333333335,
      "grad_norm": 0.743219792842865,
      "learning_rate": 0.0002397710696081132,
      "loss": 4.1029,
      "step": 143380
    },
    {
      "epoch": 0.29872916666666666,
      "grad_norm": 0.7349467873573303,
      "learning_rate": 0.00023976317130852904,
      "loss": 3.9119,
      "step": 143390
    },
    {
      "epoch": 0.29875,
      "grad_norm": 0.866553783416748,
      "learning_rate": 0.00023975527262120352,
      "loss": 3.878,
      "step": 143400
    },
    {
      "epoch": 0.2987708333333333,
      "grad_norm": 0.8215396404266357,
      "learning_rate": 0.00023974737354617073,
      "loss": 3.8187,
      "step": 143410
    },
    {
      "epoch": 0.2987916666666667,
      "grad_norm": 0.8764412999153137,
      "learning_rate": 0.00023973947408346478,
      "loss": 3.8098,
      "step": 143420
    },
    {
      "epoch": 0.2988125,
      "grad_norm": 0.9412057995796204,
      "learning_rate": 0.00023973157423311987,
      "loss": 3.7771,
      "step": 143430
    },
    {
      "epoch": 0.29883333333333334,
      "grad_norm": 0.786922812461853,
      "learning_rate": 0.00023972367399517004,
      "loss": 3.8542,
      "step": 143440
    },
    {
      "epoch": 0.29885416666666664,
      "grad_norm": 0.6840950846672058,
      "learning_rate": 0.0002397157733696495,
      "loss": 3.6552,
      "step": 143450
    },
    {
      "epoch": 0.298875,
      "grad_norm": 0.7778063416481018,
      "learning_rate": 0.0002397078723565923,
      "loss": 3.7833,
      "step": 143460
    },
    {
      "epoch": 0.29889583333333336,
      "grad_norm": 0.8713643550872803,
      "learning_rate": 0.0002396999709560326,
      "loss": 3.6385,
      "step": 143470
    },
    {
      "epoch": 0.29891666666666666,
      "grad_norm": 0.9960650205612183,
      "learning_rate": 0.00023969206916800453,
      "loss": 3.9976,
      "step": 143480
    },
    {
      "epoch": 0.2989375,
      "grad_norm": 0.6345992088317871,
      "learning_rate": 0.00023968416699254224,
      "loss": 3.9774,
      "step": 143490
    },
    {
      "epoch": 0.2989583333333333,
      "grad_norm": 0.7897392511367798,
      "learning_rate": 0.00023967626442967987,
      "loss": 3.9176,
      "step": 143500
    },
    {
      "epoch": 0.2989791666666667,
      "grad_norm": 0.7337696552276611,
      "learning_rate": 0.00023966836147945152,
      "loss": 3.9026,
      "step": 143510
    },
    {
      "epoch": 0.299,
      "grad_norm": 1.0054527521133423,
      "learning_rate": 0.00023966045814189133,
      "loss": 3.877,
      "step": 143520
    },
    {
      "epoch": 0.29902083333333335,
      "grad_norm": 0.7415539622306824,
      "learning_rate": 0.0002396525544170334,
      "loss": 3.8781,
      "step": 143530
    },
    {
      "epoch": 0.29904166666666665,
      "grad_norm": 0.8891953825950623,
      "learning_rate": 0.00023964465030491198,
      "loss": 3.9911,
      "step": 143540
    },
    {
      "epoch": 0.2990625,
      "grad_norm": 0.8283354043960571,
      "learning_rate": 0.00023963674580556116,
      "loss": 3.8546,
      "step": 143550
    },
    {
      "epoch": 0.2990833333333333,
      "grad_norm": 0.7903530597686768,
      "learning_rate": 0.00023962884091901503,
      "loss": 3.9196,
      "step": 143560
    },
    {
      "epoch": 0.29910416666666667,
      "grad_norm": 0.8839898705482483,
      "learning_rate": 0.00023962093564530785,
      "loss": 3.6342,
      "step": 143570
    },
    {
      "epoch": 0.299125,
      "grad_norm": 0.7028751969337463,
      "learning_rate": 0.00023961302998447366,
      "loss": 3.826,
      "step": 143580
    },
    {
      "epoch": 0.29914583333333333,
      "grad_norm": 0.738987922668457,
      "learning_rate": 0.00023960512393654667,
      "loss": 3.8847,
      "step": 143590
    },
    {
      "epoch": 0.2991666666666667,
      "grad_norm": 0.7846412658691406,
      "learning_rate": 0.00023959721750156098,
      "loss": 3.9436,
      "step": 143600
    },
    {
      "epoch": 0.2991875,
      "grad_norm": 0.8081308603286743,
      "learning_rate": 0.0002395893106795508,
      "loss": 3.851,
      "step": 143610
    },
    {
      "epoch": 0.29920833333333335,
      "grad_norm": 0.7400113344192505,
      "learning_rate": 0.0002395814034705503,
      "loss": 3.9926,
      "step": 143620
    },
    {
      "epoch": 0.29922916666666666,
      "grad_norm": 0.9014293551445007,
      "learning_rate": 0.0002395734958745935,
      "loss": 3.8128,
      "step": 143630
    },
    {
      "epoch": 0.29925,
      "grad_norm": 0.7789514660835266,
      "learning_rate": 0.0002395655878917147,
      "loss": 3.8254,
      "step": 143640
    },
    {
      "epoch": 0.2992708333333333,
      "grad_norm": 0.7082439661026001,
      "learning_rate": 0.00023955767952194807,
      "loss": 3.8111,
      "step": 143650
    },
    {
      "epoch": 0.2992916666666667,
      "grad_norm": 0.7504194378852844,
      "learning_rate": 0.00023954977076532765,
      "loss": 3.7283,
      "step": 143660
    },
    {
      "epoch": 0.2993125,
      "grad_norm": 0.757258951663971,
      "learning_rate": 0.00023954186162188768,
      "loss": 3.9295,
      "step": 143670
    },
    {
      "epoch": 0.29933333333333334,
      "grad_norm": 0.8250530958175659,
      "learning_rate": 0.00023953395209166232,
      "loss": 3.755,
      "step": 143680
    },
    {
      "epoch": 0.29935416666666664,
      "grad_norm": 0.7597730159759521,
      "learning_rate": 0.00023952604217468572,
      "loss": 3.715,
      "step": 143690
    },
    {
      "epoch": 0.299375,
      "grad_norm": 0.8059885501861572,
      "learning_rate": 0.00023951813187099202,
      "loss": 3.801,
      "step": 143700
    },
    {
      "epoch": 0.29939583333333336,
      "grad_norm": 0.8491482734680176,
      "learning_rate": 0.0002395102211806155,
      "loss": 3.7962,
      "step": 143710
    },
    {
      "epoch": 0.29941666666666666,
      "grad_norm": 0.7517129778862,
      "learning_rate": 0.0002395023101035902,
      "loss": 3.8547,
      "step": 143720
    },
    {
      "epoch": 0.2994375,
      "grad_norm": 0.7200613617897034,
      "learning_rate": 0.00023949439863995035,
      "loss": 3.9338,
      "step": 143730
    },
    {
      "epoch": 0.2994583333333333,
      "grad_norm": 0.8986267447471619,
      "learning_rate": 0.00023948648678973015,
      "loss": 3.7648,
      "step": 143740
    },
    {
      "epoch": 0.2994791666666667,
      "grad_norm": 0.8356074094772339,
      "learning_rate": 0.00023947857455296372,
      "loss": 3.8775,
      "step": 143750
    },
    {
      "epoch": 0.2995,
      "grad_norm": 0.9493493437767029,
      "learning_rate": 0.00023947066192968528,
      "loss": 3.6651,
      "step": 143760
    },
    {
      "epoch": 0.29952083333333335,
      "grad_norm": 0.69754958152771,
      "learning_rate": 0.000239462748919929,
      "loss": 3.8758,
      "step": 143770
    },
    {
      "epoch": 0.29954166666666665,
      "grad_norm": 0.717810869216919,
      "learning_rate": 0.00023945483552372906,
      "loss": 4.0206,
      "step": 143780
    },
    {
      "epoch": 0.2995625,
      "grad_norm": 0.8606691956520081,
      "learning_rate": 0.0002394469217411196,
      "loss": 3.8118,
      "step": 143790
    },
    {
      "epoch": 0.2995833333333333,
      "grad_norm": 0.7894060015678406,
      "learning_rate": 0.0002394390075721349,
      "loss": 3.8696,
      "step": 143800
    },
    {
      "epoch": 0.29960416666666667,
      "grad_norm": 0.7285727262496948,
      "learning_rate": 0.00023943109301680906,
      "loss": 3.9511,
      "step": 143810
    },
    {
      "epoch": 0.299625,
      "grad_norm": 0.8208957314491272,
      "learning_rate": 0.00023942317807517632,
      "loss": 3.8754,
      "step": 143820
    },
    {
      "epoch": 0.29964583333333333,
      "grad_norm": 0.7618768215179443,
      "learning_rate": 0.00023941526274727084,
      "loss": 3.7803,
      "step": 143830
    },
    {
      "epoch": 0.2996666666666667,
      "grad_norm": 1.1218352317810059,
      "learning_rate": 0.00023940734703312678,
      "loss": 3.8804,
      "step": 143840
    },
    {
      "epoch": 0.2996875,
      "grad_norm": 0.8502419590950012,
      "learning_rate": 0.00023939943093277837,
      "loss": 3.8202,
      "step": 143850
    },
    {
      "epoch": 0.29970833333333335,
      "grad_norm": 0.6353287100791931,
      "learning_rate": 0.00023939151444625986,
      "loss": 3.794,
      "step": 143860
    },
    {
      "epoch": 0.29972916666666666,
      "grad_norm": 0.845636785030365,
      "learning_rate": 0.00023938359757360534,
      "loss": 3.8411,
      "step": 143870
    },
    {
      "epoch": 0.29975,
      "grad_norm": 1.2195243835449219,
      "learning_rate": 0.00023937568031484908,
      "loss": 3.8249,
      "step": 143880
    },
    {
      "epoch": 0.2997708333333333,
      "grad_norm": 0.6827825307846069,
      "learning_rate": 0.00023936776267002527,
      "loss": 3.7319,
      "step": 143890
    },
    {
      "epoch": 0.2997916666666667,
      "grad_norm": 0.7157270312309265,
      "learning_rate": 0.00023935984463916807,
      "loss": 3.8859,
      "step": 143900
    },
    {
      "epoch": 0.2998125,
      "grad_norm": 0.7898781299591064,
      "learning_rate": 0.00023935192622231174,
      "loss": 3.9058,
      "step": 143910
    },
    {
      "epoch": 0.29983333333333334,
      "grad_norm": 0.837833821773529,
      "learning_rate": 0.00023934400741949045,
      "loss": 3.8408,
      "step": 143920
    },
    {
      "epoch": 0.29985416666666664,
      "grad_norm": 0.8024502396583557,
      "learning_rate": 0.00023933608823073843,
      "loss": 3.8672,
      "step": 143930
    },
    {
      "epoch": 0.299875,
      "grad_norm": 0.8315938711166382,
      "learning_rate": 0.00023932816865608985,
      "loss": 3.9214,
      "step": 143940
    },
    {
      "epoch": 0.2998958333333333,
      "grad_norm": 0.9916331768035889,
      "learning_rate": 0.00023932024869557892,
      "loss": 3.8075,
      "step": 143950
    },
    {
      "epoch": 0.29991666666666666,
      "grad_norm": 0.737503707408905,
      "learning_rate": 0.0002393123283492399,
      "loss": 3.9146,
      "step": 143960
    },
    {
      "epoch": 0.2999375,
      "grad_norm": 0.8438079357147217,
      "learning_rate": 0.00023930440761710698,
      "loss": 3.9427,
      "step": 143970
    },
    {
      "epoch": 0.2999583333333333,
      "grad_norm": 1.3569053411483765,
      "learning_rate": 0.00023929648649921435,
      "loss": 3.9017,
      "step": 143980
    },
    {
      "epoch": 0.2999791666666667,
      "grad_norm": 0.7439873218536377,
      "learning_rate": 0.00023928856499559622,
      "loss": 3.9444,
      "step": 143990
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8077776432037354,
      "learning_rate": 0.0002392806431062869,
      "loss": 3.9106,
      "step": 144000
    },
    {
      "epoch": 0.3,
      "eval_loss": 4.207973480224609,
      "eval_runtime": 9.8754,
      "eval_samples_per_second": 1.013,
      "eval_steps_per_second": 0.304,
      "step": 144000
    },
    {
      "epoch": 0.30002083333333335,
      "grad_norm": 0.6806378960609436,
      "learning_rate": 0.00023927272083132048,
      "loss": 3.8688,
      "step": 144010
    },
    {
      "epoch": 0.30004166666666665,
      "grad_norm": 0.7215505242347717,
      "learning_rate": 0.00023926479817073127,
      "loss": 3.8272,
      "step": 144020
    },
    {
      "epoch": 0.3000625,
      "grad_norm": 0.8021240234375,
      "learning_rate": 0.00023925687512455347,
      "loss": 3.8006,
      "step": 144030
    },
    {
      "epoch": 0.3000833333333333,
      "grad_norm": 0.8563167452812195,
      "learning_rate": 0.00023924895169282127,
      "loss": 3.8309,
      "step": 144040
    },
    {
      "epoch": 0.30010416666666667,
      "grad_norm": 0.8607861399650574,
      "learning_rate": 0.00023924102787556894,
      "loss": 3.9877,
      "step": 144050
    },
    {
      "epoch": 0.300125,
      "grad_norm": 1.009454607963562,
      "learning_rate": 0.00023923310367283073,
      "loss": 3.8869,
      "step": 144060
    },
    {
      "epoch": 0.30014583333333333,
      "grad_norm": 0.6760945320129395,
      "learning_rate": 0.00023922517908464075,
      "loss": 3.8771,
      "step": 144070
    },
    {
      "epoch": 0.3001666666666667,
      "grad_norm": 0.9272179007530212,
      "learning_rate": 0.00023921725411103341,
      "loss": 3.8672,
      "step": 144080
    },
    {
      "epoch": 0.3001875,
      "grad_norm": 0.7456073760986328,
      "learning_rate": 0.0002392093287520428,
      "loss": 3.9842,
      "step": 144090
    },
    {
      "epoch": 0.30020833333333335,
      "grad_norm": 0.9807628393173218,
      "learning_rate": 0.00023920140300770322,
      "loss": 3.8141,
      "step": 144100
    },
    {
      "epoch": 0.30022916666666666,
      "grad_norm": 0.7706500887870789,
      "learning_rate": 0.0002391934768780489,
      "loss": 3.8182,
      "step": 144110
    },
    {
      "epoch": 0.30025,
      "grad_norm": 0.7258104681968689,
      "learning_rate": 0.000239185550363114,
      "loss": 3.9141,
      "step": 144120
    },
    {
      "epoch": 0.3002708333333333,
      "grad_norm": 0.8803821206092834,
      "learning_rate": 0.00023917762346293287,
      "loss": 3.7459,
      "step": 144130
    },
    {
      "epoch": 0.3002916666666667,
      "grad_norm": 0.7058150172233582,
      "learning_rate": 0.0002391696961775397,
      "loss": 3.7574,
      "step": 144140
    },
    {
      "epoch": 0.3003125,
      "grad_norm": 1.1487452983856201,
      "learning_rate": 0.0002391617685069687,
      "loss": 3.9332,
      "step": 144150
    },
    {
      "epoch": 0.30033333333333334,
      "grad_norm": 0.734576404094696,
      "learning_rate": 0.0002391538404512542,
      "loss": 3.8756,
      "step": 144160
    },
    {
      "epoch": 0.30035416666666664,
      "grad_norm": 0.753862738609314,
      "learning_rate": 0.0002391459120104304,
      "loss": 3.651,
      "step": 144170
    },
    {
      "epoch": 0.300375,
      "grad_norm": 0.882390558719635,
      "learning_rate": 0.00023913798318453153,
      "loss": 3.9628,
      "step": 144180
    },
    {
      "epoch": 0.3003958333333333,
      "grad_norm": 0.6893458366394043,
      "learning_rate": 0.0002391300539735919,
      "loss": 3.7561,
      "step": 144190
    },
    {
      "epoch": 0.30041666666666667,
      "grad_norm": 0.7750949859619141,
      "learning_rate": 0.0002391221243776456,
      "loss": 3.7684,
      "step": 144200
    },
    {
      "epoch": 0.3004375,
      "grad_norm": 0.7092562913894653,
      "learning_rate": 0.0002391141943967271,
      "loss": 3.8474,
      "step": 144210
    },
    {
      "epoch": 0.3004583333333333,
      "grad_norm": 0.7367722988128662,
      "learning_rate": 0.00023910626403087057,
      "loss": 3.9434,
      "step": 144220
    },
    {
      "epoch": 0.3004791666666667,
      "grad_norm": 0.74408358335495,
      "learning_rate": 0.0002390983332801102,
      "loss": 3.8985,
      "step": 144230
    },
    {
      "epoch": 0.3005,
      "grad_norm": 0.7502219080924988,
      "learning_rate": 0.00023909040214448028,
      "loss": 3.8609,
      "step": 144240
    },
    {
      "epoch": 0.30052083333333335,
      "grad_norm": 0.6945114731788635,
      "learning_rate": 0.00023908247062401513,
      "loss": 3.9597,
      "step": 144250
    },
    {
      "epoch": 0.30054166666666665,
      "grad_norm": 0.8239765763282776,
      "learning_rate": 0.00023907453871874893,
      "loss": 3.7949,
      "step": 144260
    },
    {
      "epoch": 0.3005625,
      "grad_norm": 0.8167003393173218,
      "learning_rate": 0.00023906660642871605,
      "loss": 3.8673,
      "step": 144270
    },
    {
      "epoch": 0.3005833333333333,
      "grad_norm": 0.6605620980262756,
      "learning_rate": 0.00023905867375395058,
      "loss": 3.989,
      "step": 144280
    },
    {
      "epoch": 0.3006041666666667,
      "grad_norm": 0.7330933809280396,
      "learning_rate": 0.00023905074069448698,
      "loss": 3.9431,
      "step": 144290
    },
    {
      "epoch": 0.300625,
      "grad_norm": 0.775764524936676,
      "learning_rate": 0.0002390428072503594,
      "loss": 3.8536,
      "step": 144300
    },
    {
      "epoch": 0.30064583333333333,
      "grad_norm": 0.8837016820907593,
      "learning_rate": 0.00023903487342160214,
      "loss": 3.853,
      "step": 144310
    },
    {
      "epoch": 0.3006666666666667,
      "grad_norm": 0.6818842887878418,
      "learning_rate": 0.00023902693920824943,
      "loss": 3.7399,
      "step": 144320
    },
    {
      "epoch": 0.3006875,
      "grad_norm": 0.7746905088424683,
      "learning_rate": 0.00023901900461033567,
      "loss": 3.738,
      "step": 144330
    },
    {
      "epoch": 0.30070833333333336,
      "grad_norm": 0.8371122479438782,
      "learning_rate": 0.00023901106962789497,
      "loss": 3.7083,
      "step": 144340
    },
    {
      "epoch": 0.30072916666666666,
      "grad_norm": 0.8236258029937744,
      "learning_rate": 0.0002390031342609617,
      "loss": 3.937,
      "step": 144350
    },
    {
      "epoch": 0.30075,
      "grad_norm": 0.9318874478340149,
      "learning_rate": 0.00023899519850957015,
      "loss": 4.0338,
      "step": 144360
    },
    {
      "epoch": 0.3007708333333333,
      "grad_norm": 0.739285409450531,
      "learning_rate": 0.00023898726237375455,
      "loss": 3.9675,
      "step": 144370
    },
    {
      "epoch": 0.3007916666666667,
      "grad_norm": 0.8675568103790283,
      "learning_rate": 0.00023897932585354917,
      "loss": 3.8704,
      "step": 144380
    },
    {
      "epoch": 0.3008125,
      "grad_norm": 0.7479971647262573,
      "learning_rate": 0.00023897138894898837,
      "loss": 3.7963,
      "step": 144390
    },
    {
      "epoch": 0.30083333333333334,
      "grad_norm": 0.6939820647239685,
      "learning_rate": 0.00023896345166010636,
      "loss": 3.8451,
      "step": 144400
    },
    {
      "epoch": 0.30085416666666664,
      "grad_norm": 0.7528862357139587,
      "learning_rate": 0.0002389555139869375,
      "loss": 3.9501,
      "step": 144410
    },
    {
      "epoch": 0.300875,
      "grad_norm": 0.8270570635795593,
      "learning_rate": 0.00023894757592951598,
      "loss": 3.9371,
      "step": 144420
    },
    {
      "epoch": 0.3008958333333333,
      "grad_norm": 0.7658125162124634,
      "learning_rate": 0.00023893963748787612,
      "loss": 3.9017,
      "step": 144430
    },
    {
      "epoch": 0.30091666666666667,
      "grad_norm": 0.7172747254371643,
      "learning_rate": 0.00023893169866205226,
      "loss": 3.9452,
      "step": 144440
    },
    {
      "epoch": 0.3009375,
      "grad_norm": 0.6606281995773315,
      "learning_rate": 0.00023892375945207866,
      "loss": 3.5813,
      "step": 144450
    },
    {
      "epoch": 0.3009583333333333,
      "grad_norm": 0.8190031051635742,
      "learning_rate": 0.00023891581985798966,
      "loss": 3.9854,
      "step": 144460
    },
    {
      "epoch": 0.3009791666666667,
      "grad_norm": 0.8217292428016663,
      "learning_rate": 0.00023890787987981943,
      "loss": 3.969,
      "step": 144470
    },
    {
      "epoch": 0.301,
      "grad_norm": 0.7868209481239319,
      "learning_rate": 0.00023889993951760243,
      "loss": 4.0967,
      "step": 144480
    },
    {
      "epoch": 0.30102083333333335,
      "grad_norm": 0.6819100379943848,
      "learning_rate": 0.0002388919987713728,
      "loss": 3.8362,
      "step": 144490
    },
    {
      "epoch": 0.30104166666666665,
      "grad_norm": 0.7580822706222534,
      "learning_rate": 0.00023888405764116498,
      "loss": 3.8864,
      "step": 144500
    },
    {
      "epoch": 0.3010625,
      "grad_norm": 0.7104545831680298,
      "learning_rate": 0.00023887611612701323,
      "loss": 3.9249,
      "step": 144510
    },
    {
      "epoch": 0.3010833333333333,
      "grad_norm": 0.7777594327926636,
      "learning_rate": 0.00023886817422895176,
      "loss": 3.8978,
      "step": 144520
    },
    {
      "epoch": 0.3011041666666667,
      "grad_norm": 0.7855724692344666,
      "learning_rate": 0.00023886023194701503,
      "loss": 3.6771,
      "step": 144530
    },
    {
      "epoch": 0.301125,
      "grad_norm": 0.7070623636245728,
      "learning_rate": 0.00023885228928123724,
      "loss": 3.7605,
      "step": 144540
    },
    {
      "epoch": 0.30114583333333333,
      "grad_norm": 0.8694538474082947,
      "learning_rate": 0.00023884434623165277,
      "loss": 3.9132,
      "step": 144550
    },
    {
      "epoch": 0.3011666666666667,
      "grad_norm": 0.8471153378486633,
      "learning_rate": 0.00023883640279829583,
      "loss": 3.8734,
      "step": 144560
    },
    {
      "epoch": 0.3011875,
      "grad_norm": 1.522042155265808,
      "learning_rate": 0.00023882845898120082,
      "loss": 3.8732,
      "step": 144570
    },
    {
      "epoch": 0.30120833333333336,
      "grad_norm": 0.7706943154335022,
      "learning_rate": 0.00023882051478040203,
      "loss": 3.8847,
      "step": 144580
    },
    {
      "epoch": 0.30122916666666666,
      "grad_norm": 0.82469642162323,
      "learning_rate": 0.0002388125701959338,
      "loss": 3.8743,
      "step": 144590
    },
    {
      "epoch": 0.30125,
      "grad_norm": 0.824709415435791,
      "learning_rate": 0.00023880462522783035,
      "loss": 3.833,
      "step": 144600
    },
    {
      "epoch": 0.3012708333333333,
      "grad_norm": 0.6941375732421875,
      "learning_rate": 0.00023879667987612615,
      "loss": 3.8958,
      "step": 144610
    },
    {
      "epoch": 0.3012916666666667,
      "grad_norm": 0.7472121119499207,
      "learning_rate": 0.0002387887341408554,
      "loss": 3.9729,
      "step": 144620
    },
    {
      "epoch": 0.3013125,
      "grad_norm": 0.8350520730018616,
      "learning_rate": 0.00023878078802205247,
      "loss": 3.7717,
      "step": 144630
    },
    {
      "epoch": 0.30133333333333334,
      "grad_norm": 0.8087494373321533,
      "learning_rate": 0.0002387728415197517,
      "loss": 3.823,
      "step": 144640
    },
    {
      "epoch": 0.30135416666666665,
      "grad_norm": 0.7782270908355713,
      "learning_rate": 0.00023876489463398731,
      "loss": 3.6618,
      "step": 144650
    },
    {
      "epoch": 0.301375,
      "grad_norm": 0.7508445382118225,
      "learning_rate": 0.00023875694736479378,
      "loss": 3.7868,
      "step": 144660
    },
    {
      "epoch": 0.3013958333333333,
      "grad_norm": 0.8869382739067078,
      "learning_rate": 0.0002387489997122054,
      "loss": 3.7941,
      "step": 144670
    },
    {
      "epoch": 0.30141666666666667,
      "grad_norm": 0.7644484043121338,
      "learning_rate": 0.00023874105167625642,
      "loss": 3.8849,
      "step": 144680
    },
    {
      "epoch": 0.3014375,
      "grad_norm": 1.1368978023529053,
      "learning_rate": 0.00023873310325698126,
      "loss": 3.9126,
      "step": 144690
    },
    {
      "epoch": 0.30145833333333333,
      "grad_norm": 0.9974356293678284,
      "learning_rate": 0.00023872515445441415,
      "loss": 3.7922,
      "step": 144700
    },
    {
      "epoch": 0.3014791666666667,
      "grad_norm": 1.0709388256072998,
      "learning_rate": 0.0002387172052685895,
      "loss": 3.804,
      "step": 144710
    },
    {
      "epoch": 0.3015,
      "grad_norm": 0.8923956751823425,
      "learning_rate": 0.00023870925569954173,
      "loss": 3.9015,
      "step": 144720
    },
    {
      "epoch": 0.30152083333333335,
      "grad_norm": 0.7109980583190918,
      "learning_rate": 0.00023870130574730501,
      "loss": 3.9328,
      "step": 144730
    },
    {
      "epoch": 0.30154166666666665,
      "grad_norm": 0.7254295945167542,
      "learning_rate": 0.0002386933554119138,
      "loss": 3.8047,
      "step": 144740
    },
    {
      "epoch": 0.3015625,
      "grad_norm": 0.8026019930839539,
      "learning_rate": 0.00023868540469340236,
      "loss": 3.9334,
      "step": 144750
    },
    {
      "epoch": 0.3015833333333333,
      "grad_norm": 0.8063021302223206,
      "learning_rate": 0.0002386774535918051,
      "loss": 3.7075,
      "step": 144760
    },
    {
      "epoch": 0.3016041666666667,
      "grad_norm": 0.6624611616134644,
      "learning_rate": 0.0002386695021071563,
      "loss": 3.8675,
      "step": 144770
    },
    {
      "epoch": 0.301625,
      "grad_norm": 0.6828374862670898,
      "learning_rate": 0.00023866155023949046,
      "loss": 3.9175,
      "step": 144780
    },
    {
      "epoch": 0.30164583333333334,
      "grad_norm": 0.7393388152122498,
      "learning_rate": 0.00023865359798884173,
      "loss": 4.0119,
      "step": 144790
    },
    {
      "epoch": 0.3016666666666667,
      "grad_norm": 0.7230608463287354,
      "learning_rate": 0.00023864564535524456,
      "loss": 3.7687,
      "step": 144800
    },
    {
      "epoch": 0.3016875,
      "grad_norm": 0.7515804767608643,
      "learning_rate": 0.0002386376923387333,
      "loss": 3.8299,
      "step": 144810
    },
    {
      "epoch": 0.30170833333333336,
      "grad_norm": 0.7810375094413757,
      "learning_rate": 0.00023862973893934225,
      "loss": 3.8954,
      "step": 144820
    },
    {
      "epoch": 0.30172916666666666,
      "grad_norm": 0.765582263469696,
      "learning_rate": 0.0002386217851571059,
      "loss": 3.8744,
      "step": 144830
    },
    {
      "epoch": 0.30175,
      "grad_norm": 0.8854968547821045,
      "learning_rate": 0.00023861383099205846,
      "loss": 3.886,
      "step": 144840
    },
    {
      "epoch": 0.3017708333333333,
      "grad_norm": 0.7710736989974976,
      "learning_rate": 0.00023860587644423432,
      "loss": 3.9835,
      "step": 144850
    },
    {
      "epoch": 0.3017916666666667,
      "grad_norm": 0.7341399788856506,
      "learning_rate": 0.00023859792151366792,
      "loss": 3.9303,
      "step": 144860
    },
    {
      "epoch": 0.3018125,
      "grad_norm": 0.7687222361564636,
      "learning_rate": 0.00023858996620039358,
      "loss": 3.755,
      "step": 144870
    },
    {
      "epoch": 0.30183333333333334,
      "grad_norm": 0.8096523284912109,
      "learning_rate": 0.0002385820105044456,
      "loss": 3.79,
      "step": 144880
    },
    {
      "epoch": 0.30185416666666665,
      "grad_norm": 0.7443678975105286,
      "learning_rate": 0.0002385740544258584,
      "loss": 3.7896,
      "step": 144890
    },
    {
      "epoch": 0.301875,
      "grad_norm": 0.8121930956840515,
      "learning_rate": 0.00023856609796466636,
      "loss": 4.0531,
      "step": 144900
    },
    {
      "epoch": 0.3018958333333333,
      "grad_norm": 0.7064416408538818,
      "learning_rate": 0.00023855814112090382,
      "loss": 3.8112,
      "step": 144910
    },
    {
      "epoch": 0.30191666666666667,
      "grad_norm": 0.7315133810043335,
      "learning_rate": 0.00023855018389460522,
      "loss": 3.8741,
      "step": 144920
    },
    {
      "epoch": 0.3019375,
      "grad_norm": 0.7856366634368896,
      "learning_rate": 0.00023854222628580483,
      "loss": 3.8976,
      "step": 144930
    },
    {
      "epoch": 0.30195833333333333,
      "grad_norm": 0.7194135189056396,
      "learning_rate": 0.00023853426829453702,
      "loss": 3.7618,
      "step": 144940
    },
    {
      "epoch": 0.3019791666666667,
      "grad_norm": 0.8751430511474609,
      "learning_rate": 0.00023852630992083634,
      "loss": 3.88,
      "step": 144950
    },
    {
      "epoch": 0.302,
      "grad_norm": 0.7712580561637878,
      "learning_rate": 0.00023851835116473697,
      "loss": 3.8739,
      "step": 144960
    },
    {
      "epoch": 0.30202083333333335,
      "grad_norm": 0.8620997667312622,
      "learning_rate": 0.00023851039202627333,
      "loss": 3.8636,
      "step": 144970
    },
    {
      "epoch": 0.30204166666666665,
      "grad_norm": 0.7990202903747559,
      "learning_rate": 0.00023850243250547986,
      "loss": 3.8074,
      "step": 144980
    },
    {
      "epoch": 0.3020625,
      "grad_norm": 0.6923763155937195,
      "learning_rate": 0.00023849447260239093,
      "loss": 3.9186,
      "step": 144990
    },
    {
      "epoch": 0.3020833333333333,
      "grad_norm": 0.7353179454803467,
      "learning_rate": 0.00023848651231704092,
      "loss": 3.926,
      "step": 145000
    },
    {
      "epoch": 0.3020833333333333,
      "eval_loss": 4.194943428039551,
      "eval_runtime": 9.6372,
      "eval_samples_per_second": 1.038,
      "eval_steps_per_second": 0.311,
      "step": 145000
    },
    {
      "epoch": 0.3021041666666667,
      "grad_norm": 0.7132719159126282,
      "learning_rate": 0.00023847855164946418,
      "loss": 3.9202,
      "step": 145010
    },
    {
      "epoch": 0.302125,
      "grad_norm": 0.7339701056480408,
      "learning_rate": 0.0002384705905996951,
      "loss": 3.9969,
      "step": 145020
    },
    {
      "epoch": 0.30214583333333334,
      "grad_norm": 0.829753041267395,
      "learning_rate": 0.00023846262916776812,
      "loss": 3.723,
      "step": 145030
    },
    {
      "epoch": 0.30216666666666664,
      "grad_norm": 0.7376500964164734,
      "learning_rate": 0.00023845466735371757,
      "loss": 3.741,
      "step": 145040
    },
    {
      "epoch": 0.3021875,
      "grad_norm": 0.7616551518440247,
      "learning_rate": 0.00023844670515757788,
      "loss": 3.9115,
      "step": 145050
    },
    {
      "epoch": 0.30220833333333336,
      "grad_norm": 0.8796248435974121,
      "learning_rate": 0.00023843874257938348,
      "loss": 3.8438,
      "step": 145060
    },
    {
      "epoch": 0.30222916666666666,
      "grad_norm": 1.015673279762268,
      "learning_rate": 0.00023843077961916865,
      "loss": 3.9144,
      "step": 145070
    },
    {
      "epoch": 0.30225,
      "grad_norm": 0.8659214377403259,
      "learning_rate": 0.00023842281627696785,
      "loss": 3.982,
      "step": 145080
    },
    {
      "epoch": 0.3022708333333333,
      "grad_norm": 0.6880617141723633,
      "learning_rate": 0.00023841485255281553,
      "loss": 3.8402,
      "step": 145090
    },
    {
      "epoch": 0.3022916666666667,
      "grad_norm": 0.7831322550773621,
      "learning_rate": 0.00023840688844674606,
      "loss": 3.8561,
      "step": 145100
    },
    {
      "epoch": 0.3023125,
      "grad_norm": 0.7872735857963562,
      "learning_rate": 0.00023839892395879377,
      "loss": 3.7407,
      "step": 145110
    },
    {
      "epoch": 0.30233333333333334,
      "grad_norm": 0.6855437755584717,
      "learning_rate": 0.00023839095908899312,
      "loss": 3.9114,
      "step": 145120
    },
    {
      "epoch": 0.30235416666666665,
      "grad_norm": 0.9450392723083496,
      "learning_rate": 0.00023838299383737859,
      "loss": 3.9512,
      "step": 145130
    },
    {
      "epoch": 0.302375,
      "grad_norm": 0.9042472243309021,
      "learning_rate": 0.00023837502820398446,
      "loss": 3.9335,
      "step": 145140
    },
    {
      "epoch": 0.3023958333333333,
      "grad_norm": 0.7507637739181519,
      "learning_rate": 0.00023836706218884515,
      "loss": 3.7514,
      "step": 145150
    },
    {
      "epoch": 0.30241666666666667,
      "grad_norm": 0.7113288640975952,
      "learning_rate": 0.00023835909579199516,
      "loss": 3.896,
      "step": 145160
    },
    {
      "epoch": 0.3024375,
      "grad_norm": 0.9722683429718018,
      "learning_rate": 0.00023835112901346884,
      "loss": 3.8384,
      "step": 145170
    },
    {
      "epoch": 0.30245833333333333,
      "grad_norm": 1.0564848184585571,
      "learning_rate": 0.00023834316185330064,
      "loss": 3.6977,
      "step": 145180
    },
    {
      "epoch": 0.3024791666666667,
      "grad_norm": 0.9306841492652893,
      "learning_rate": 0.00023833519431152488,
      "loss": 3.834,
      "step": 145190
    },
    {
      "epoch": 0.3025,
      "grad_norm": 0.8280419111251831,
      "learning_rate": 0.0002383272263881761,
      "loss": 3.7265,
      "step": 145200
    },
    {
      "epoch": 0.30252083333333335,
      "grad_norm": 1.480007529258728,
      "learning_rate": 0.00023831925808328865,
      "loss": 3.8991,
      "step": 145210
    },
    {
      "epoch": 0.30254166666666665,
      "grad_norm": 0.789969801902771,
      "learning_rate": 0.00023831128939689697,
      "loss": 3.9174,
      "step": 145220
    },
    {
      "epoch": 0.3025625,
      "grad_norm": 0.7585822343826294,
      "learning_rate": 0.0002383033203290355,
      "loss": 3.9441,
      "step": 145230
    },
    {
      "epoch": 0.3025833333333333,
      "grad_norm": 0.821909487247467,
      "learning_rate": 0.00023829535087973862,
      "loss": 3.8961,
      "step": 145240
    },
    {
      "epoch": 0.3026041666666667,
      "grad_norm": 0.8092669248580933,
      "learning_rate": 0.00023828738104904074,
      "loss": 3.6996,
      "step": 145250
    },
    {
      "epoch": 0.302625,
      "grad_norm": 0.8446753025054932,
      "learning_rate": 0.00023827941083697635,
      "loss": 3.8314,
      "step": 145260
    },
    {
      "epoch": 0.30264583333333334,
      "grad_norm": 0.9000470042228699,
      "learning_rate": 0.00023827144024357984,
      "loss": 3.8092,
      "step": 145270
    },
    {
      "epoch": 0.30266666666666664,
      "grad_norm": 0.7461115121841431,
      "learning_rate": 0.00023826346926888566,
      "loss": 3.8471,
      "step": 145280
    },
    {
      "epoch": 0.3026875,
      "grad_norm": 0.8031692504882812,
      "learning_rate": 0.00023825549791292824,
      "loss": 3.8477,
      "step": 145290
    },
    {
      "epoch": 0.30270833333333336,
      "grad_norm": 0.7476813197135925,
      "learning_rate": 0.00023824752617574195,
      "loss": 3.879,
      "step": 145300
    },
    {
      "epoch": 0.30272916666666666,
      "grad_norm": 0.8686798810958862,
      "learning_rate": 0.00023823955405736133,
      "loss": 3.7811,
      "step": 145310
    },
    {
      "epoch": 0.30275,
      "grad_norm": 0.7194390296936035,
      "learning_rate": 0.00023823158155782077,
      "loss": 4.0595,
      "step": 145320
    },
    {
      "epoch": 0.3027708333333333,
      "grad_norm": 0.7294697761535645,
      "learning_rate": 0.00023822360867715466,
      "loss": 3.7858,
      "step": 145330
    },
    {
      "epoch": 0.3027916666666667,
      "grad_norm": 0.767808198928833,
      "learning_rate": 0.00023821563541539753,
      "loss": 3.8964,
      "step": 145340
    },
    {
      "epoch": 0.3028125,
      "grad_norm": 0.6958758234977722,
      "learning_rate": 0.0002382076617725837,
      "loss": 3.9511,
      "step": 145350
    },
    {
      "epoch": 0.30283333333333334,
      "grad_norm": 0.781335175037384,
      "learning_rate": 0.00023819968774874774,
      "loss": 3.8644,
      "step": 145360
    },
    {
      "epoch": 0.30285416666666665,
      "grad_norm": 0.8721707463264465,
      "learning_rate": 0.00023819171334392406,
      "loss": 3.8309,
      "step": 145370
    },
    {
      "epoch": 0.302875,
      "grad_norm": 0.8298215866088867,
      "learning_rate": 0.00023818373855814706,
      "loss": 3.8869,
      "step": 145380
    },
    {
      "epoch": 0.3028958333333333,
      "grad_norm": 0.721272349357605,
      "learning_rate": 0.00023817576339145118,
      "loss": 3.9934,
      "step": 145390
    },
    {
      "epoch": 0.30291666666666667,
      "grad_norm": 1.1052157878875732,
      "learning_rate": 0.00023816778784387094,
      "loss": 4.0931,
      "step": 145400
    },
    {
      "epoch": 0.3029375,
      "grad_norm": 0.9173746705055237,
      "learning_rate": 0.00023815981191544077,
      "loss": 3.7974,
      "step": 145410
    },
    {
      "epoch": 0.30295833333333333,
      "grad_norm": 0.766799807548523,
      "learning_rate": 0.0002381518356061951,
      "loss": 3.8671,
      "step": 145420
    },
    {
      "epoch": 0.3029791666666667,
      "grad_norm": 0.7615378499031067,
      "learning_rate": 0.0002381438589161684,
      "loss": 3.9822,
      "step": 145430
    },
    {
      "epoch": 0.303,
      "grad_norm": 0.8090512752532959,
      "learning_rate": 0.00023813588184539507,
      "loss": 3.8303,
      "step": 145440
    },
    {
      "epoch": 0.30302083333333335,
      "grad_norm": 0.7665280699729919,
      "learning_rate": 0.00023812790439390968,
      "loss": 3.7811,
      "step": 145450
    },
    {
      "epoch": 0.30304166666666665,
      "grad_norm": 0.7542485594749451,
      "learning_rate": 0.0002381199265617466,
      "loss": 3.822,
      "step": 145460
    },
    {
      "epoch": 0.3030625,
      "grad_norm": 0.7917741537094116,
      "learning_rate": 0.00023811194834894028,
      "loss": 3.7787,
      "step": 145470
    },
    {
      "epoch": 0.3030833333333333,
      "grad_norm": 0.7979975938796997,
      "learning_rate": 0.0002381039697555253,
      "loss": 3.998,
      "step": 145480
    },
    {
      "epoch": 0.3031041666666667,
      "grad_norm": 0.7825496196746826,
      "learning_rate": 0.000238095990781536,
      "loss": 3.8032,
      "step": 145490
    },
    {
      "epoch": 0.303125,
      "grad_norm": 0.8457150459289551,
      "learning_rate": 0.00023808801142700687,
      "loss": 3.8818,
      "step": 145500
    },
    {
      "epoch": 0.30314583333333334,
      "grad_norm": 0.7138910889625549,
      "learning_rate": 0.00023808003169197245,
      "loss": 4.1249,
      "step": 145510
    },
    {
      "epoch": 0.30316666666666664,
      "grad_norm": 0.7754994630813599,
      "learning_rate": 0.00023807205157646712,
      "loss": 3.8313,
      "step": 145520
    },
    {
      "epoch": 0.3031875,
      "grad_norm": 0.9729934334754944,
      "learning_rate": 0.00023806407108052535,
      "loss": 3.8261,
      "step": 145530
    },
    {
      "epoch": 0.30320833333333336,
      "grad_norm": 0.9809054732322693,
      "learning_rate": 0.00023805609020418174,
      "loss": 3.9042,
      "step": 145540
    },
    {
      "epoch": 0.30322916666666666,
      "grad_norm": 0.6893020868301392,
      "learning_rate": 0.0002380481089474706,
      "loss": 3.8545,
      "step": 145550
    },
    {
      "epoch": 0.30325,
      "grad_norm": 0.7618590593338013,
      "learning_rate": 0.00023804012731042654,
      "loss": 3.821,
      "step": 145560
    },
    {
      "epoch": 0.3032708333333333,
      "grad_norm": 0.8219773769378662,
      "learning_rate": 0.00023803214529308396,
      "loss": 3.7603,
      "step": 145570
    },
    {
      "epoch": 0.3032916666666667,
      "grad_norm": 0.7673689126968384,
      "learning_rate": 0.00023802416289547734,
      "loss": 3.9056,
      "step": 145580
    },
    {
      "epoch": 0.3033125,
      "grad_norm": 0.7814705967903137,
      "learning_rate": 0.0002380161801176412,
      "loss": 3.941,
      "step": 145590
    },
    {
      "epoch": 0.30333333333333334,
      "grad_norm": 0.7791249752044678,
      "learning_rate": 0.00023800819695960995,
      "loss": 3.9081,
      "step": 145600
    },
    {
      "epoch": 0.30335416666666665,
      "grad_norm": 0.763895571231842,
      "learning_rate": 0.00023800021342141822,
      "loss": 3.8139,
      "step": 145610
    },
    {
      "epoch": 0.303375,
      "grad_norm": 0.7966832518577576,
      "learning_rate": 0.00023799222950310036,
      "loss": 3.8443,
      "step": 145620
    },
    {
      "epoch": 0.3033958333333333,
      "grad_norm": 0.7024399638175964,
      "learning_rate": 0.00023798424520469087,
      "loss": 3.8642,
      "step": 145630
    },
    {
      "epoch": 0.30341666666666667,
      "grad_norm": 0.7514329552650452,
      "learning_rate": 0.00023797626052622425,
      "loss": 3.8958,
      "step": 145640
    },
    {
      "epoch": 0.3034375,
      "grad_norm": 0.7568515539169312,
      "learning_rate": 0.00023796827546773507,
      "loss": 3.9873,
      "step": 145650
    },
    {
      "epoch": 0.30345833333333333,
      "grad_norm": 0.9554162621498108,
      "learning_rate": 0.0002379602900292577,
      "loss": 3.7546,
      "step": 145660
    },
    {
      "epoch": 0.3034791666666667,
      "grad_norm": 0.7092667818069458,
      "learning_rate": 0.00023795230421082674,
      "loss": 3.7677,
      "step": 145670
    },
    {
      "epoch": 0.3035,
      "grad_norm": 0.7954487204551697,
      "learning_rate": 0.00023794431801247662,
      "loss": 3.9024,
      "step": 145680
    },
    {
      "epoch": 0.30352083333333335,
      "grad_norm": 0.6973913311958313,
      "learning_rate": 0.00023793633143424185,
      "loss": 4.0256,
      "step": 145690
    },
    {
      "epoch": 0.30354166666666665,
      "grad_norm": 0.7734307646751404,
      "learning_rate": 0.00023792834447615695,
      "loss": 4.0893,
      "step": 145700
    },
    {
      "epoch": 0.3035625,
      "grad_norm": 0.7930691838264465,
      "learning_rate": 0.0002379203571382564,
      "loss": 3.8484,
      "step": 145710
    },
    {
      "epoch": 0.3035833333333333,
      "grad_norm": 0.8949413299560547,
      "learning_rate": 0.0002379123694205747,
      "loss": 3.8947,
      "step": 145720
    },
    {
      "epoch": 0.3036041666666667,
      "grad_norm": 0.8239091634750366,
      "learning_rate": 0.00023790438132314642,
      "loss": 3.952,
      "step": 145730
    },
    {
      "epoch": 0.303625,
      "grad_norm": 0.8216238617897034,
      "learning_rate": 0.00023789639284600594,
      "loss": 3.9436,
      "step": 145740
    },
    {
      "epoch": 0.30364583333333334,
      "grad_norm": 0.8317955732345581,
      "learning_rate": 0.00023788840398918784,
      "loss": 3.9699,
      "step": 145750
    },
    {
      "epoch": 0.30366666666666664,
      "grad_norm": 0.7960470914840698,
      "learning_rate": 0.00023788041475272665,
      "loss": 3.9523,
      "step": 145760
    },
    {
      "epoch": 0.3036875,
      "grad_norm": 0.8228244781494141,
      "learning_rate": 0.00023787242513665686,
      "loss": 3.8149,
      "step": 145770
    },
    {
      "epoch": 0.30370833333333336,
      "grad_norm": 0.7506967186927795,
      "learning_rate": 0.00023786443514101294,
      "loss": 3.8622,
      "step": 145780
    },
    {
      "epoch": 0.30372916666666666,
      "grad_norm": 0.7309131026268005,
      "learning_rate": 0.0002378564447658295,
      "loss": 3.9126,
      "step": 145790
    },
    {
      "epoch": 0.30375,
      "grad_norm": 0.7873731851577759,
      "learning_rate": 0.0002378484540111409,
      "loss": 3.8658,
      "step": 145800
    },
    {
      "epoch": 0.3037708333333333,
      "grad_norm": 0.7642212510108948,
      "learning_rate": 0.00023784046287698185,
      "loss": 3.841,
      "step": 145810
    },
    {
      "epoch": 0.3037916666666667,
      "grad_norm": 0.8989098072052002,
      "learning_rate": 0.0002378324713633867,
      "loss": 3.9201,
      "step": 145820
    },
    {
      "epoch": 0.3038125,
      "grad_norm": 0.7195176482200623,
      "learning_rate": 0.00023782447947039007,
      "loss": 3.8692,
      "step": 145830
    },
    {
      "epoch": 0.30383333333333334,
      "grad_norm": 1.0409226417541504,
      "learning_rate": 0.00023781648719802646,
      "loss": 3.8021,
      "step": 145840
    },
    {
      "epoch": 0.30385416666666665,
      "grad_norm": 0.7544339299201965,
      "learning_rate": 0.00023780849454633037,
      "loss": 3.9476,
      "step": 145850
    },
    {
      "epoch": 0.303875,
      "grad_norm": 0.7585080862045288,
      "learning_rate": 0.00023780050151533637,
      "loss": 4.0394,
      "step": 145860
    },
    {
      "epoch": 0.3038958333333333,
      "grad_norm": 0.9763761758804321,
      "learning_rate": 0.00023779250810507892,
      "loss": 3.8892,
      "step": 145870
    },
    {
      "epoch": 0.30391666666666667,
      "grad_norm": 0.7358185052871704,
      "learning_rate": 0.00023778451431559258,
      "loss": 3.8684,
      "step": 145880
    },
    {
      "epoch": 0.3039375,
      "grad_norm": 0.7472379207611084,
      "learning_rate": 0.00023777652014691188,
      "loss": 3.917,
      "step": 145890
    },
    {
      "epoch": 0.30395833333333333,
      "grad_norm": 0.7997827529907227,
      "learning_rate": 0.00023776852559907142,
      "loss": 3.9657,
      "step": 145900
    },
    {
      "epoch": 0.3039791666666667,
      "grad_norm": 0.7514731884002686,
      "learning_rate": 0.00023776053067210562,
      "loss": 3.6327,
      "step": 145910
    },
    {
      "epoch": 0.304,
      "grad_norm": 0.9771389365196228,
      "learning_rate": 0.00023775253536604906,
      "loss": 3.967,
      "step": 145920
    },
    {
      "epoch": 0.30402083333333335,
      "grad_norm": 0.7748810052871704,
      "learning_rate": 0.00023774453968093635,
      "loss": 3.7169,
      "step": 145930
    },
    {
      "epoch": 0.30404166666666665,
      "grad_norm": 0.8467433452606201,
      "learning_rate": 0.00023773654361680186,
      "loss": 3.9592,
      "step": 145940
    },
    {
      "epoch": 0.3040625,
      "grad_norm": 0.7784207463264465,
      "learning_rate": 0.00023772854717368026,
      "loss": 4.0111,
      "step": 145950
    },
    {
      "epoch": 0.3040833333333333,
      "grad_norm": 0.6810412406921387,
      "learning_rate": 0.00023772055035160613,
      "loss": 3.6101,
      "step": 145960
    },
    {
      "epoch": 0.3041041666666667,
      "grad_norm": 0.794707715511322,
      "learning_rate": 0.00023771255315061383,
      "loss": 3.8686,
      "step": 145970
    },
    {
      "epoch": 0.304125,
      "grad_norm": 0.7588071823120117,
      "learning_rate": 0.00023770455557073808,
      "loss": 3.7307,
      "step": 145980
    },
    {
      "epoch": 0.30414583333333334,
      "grad_norm": 0.7558777332305908,
      "learning_rate": 0.00023769655761201342,
      "loss": 4.0171,
      "step": 145990
    },
    {
      "epoch": 0.30416666666666664,
      "grad_norm": 0.658135712146759,
      "learning_rate": 0.0002376885592744743,
      "loss": 3.731,
      "step": 146000
    },
    {
      "epoch": 0.30416666666666664,
      "eval_loss": 4.203877925872803,
      "eval_runtime": 9.1088,
      "eval_samples_per_second": 1.098,
      "eval_steps_per_second": 0.329,
      "step": 146000
    },
    {
      "epoch": 0.3041875,
      "grad_norm": 0.7093698978424072,
      "learning_rate": 0.0002376805605581553,
      "loss": 3.7373,
      "step": 146010
    },
    {
      "epoch": 0.30420833333333336,
      "grad_norm": 0.7444466352462769,
      "learning_rate": 0.00023767256146309097,
      "loss": 3.7672,
      "step": 146020
    },
    {
      "epoch": 0.30422916666666666,
      "grad_norm": 0.7669335007667542,
      "learning_rate": 0.0002376645619893159,
      "loss": 3.853,
      "step": 146030
    },
    {
      "epoch": 0.30425,
      "grad_norm": 0.8729991912841797,
      "learning_rate": 0.00023765656213686466,
      "loss": 3.9257,
      "step": 146040
    },
    {
      "epoch": 0.3042708333333333,
      "grad_norm": 0.8649126291275024,
      "learning_rate": 0.0002376485619057717,
      "loss": 4.0789,
      "step": 146050
    },
    {
      "epoch": 0.3042916666666667,
      "grad_norm": 0.6707345843315125,
      "learning_rate": 0.00023764056129607167,
      "loss": 3.9932,
      "step": 146060
    },
    {
      "epoch": 0.3043125,
      "grad_norm": 0.8929072022438049,
      "learning_rate": 0.00023763256030779912,
      "loss": 3.9476,
      "step": 146070
    },
    {
      "epoch": 0.30433333333333334,
      "grad_norm": 0.7620285749435425,
      "learning_rate": 0.00023762455894098857,
      "loss": 4.0071,
      "step": 146080
    },
    {
      "epoch": 0.30435416666666665,
      "grad_norm": 1.029357671737671,
      "learning_rate": 0.00023761655719567462,
      "loss": 3.671,
      "step": 146090
    },
    {
      "epoch": 0.304375,
      "grad_norm": 0.7855995893478394,
      "learning_rate": 0.00023760855507189187,
      "loss": 3.68,
      "step": 146100
    },
    {
      "epoch": 0.3043958333333333,
      "grad_norm": 0.7437074780464172,
      "learning_rate": 0.0002376005525696748,
      "loss": 3.94,
      "step": 146110
    },
    {
      "epoch": 0.30441666666666667,
      "grad_norm": 0.807034432888031,
      "learning_rate": 0.000237592549689058,
      "loss": 3.7362,
      "step": 146120
    },
    {
      "epoch": 0.3044375,
      "grad_norm": 0.6954174041748047,
      "learning_rate": 0.0002375845464300761,
      "loss": 3.9004,
      "step": 146130
    },
    {
      "epoch": 0.30445833333333333,
      "grad_norm": 0.7250836491584778,
      "learning_rate": 0.00023757654279276357,
      "loss": 3.7487,
      "step": 146140
    },
    {
      "epoch": 0.3044791666666667,
      "grad_norm": 0.8759089708328247,
      "learning_rate": 0.00023756853877715506,
      "loss": 3.9645,
      "step": 146150
    },
    {
      "epoch": 0.3045,
      "grad_norm": 0.7795436382293701,
      "learning_rate": 0.00023756053438328518,
      "loss": 3.7961,
      "step": 146160
    },
    {
      "epoch": 0.30452083333333335,
      "grad_norm": 0.858585000038147,
      "learning_rate": 0.00023755252961118838,
      "loss": 3.9288,
      "step": 146170
    },
    {
      "epoch": 0.30454166666666665,
      "grad_norm": 0.7543147802352905,
      "learning_rate": 0.0002375445244608994,
      "loss": 3.8506,
      "step": 146180
    },
    {
      "epoch": 0.3045625,
      "grad_norm": 0.8292945623397827,
      "learning_rate": 0.00023753651893245264,
      "loss": 4.0725,
      "step": 146190
    },
    {
      "epoch": 0.3045833333333333,
      "grad_norm": 0.7513867616653442,
      "learning_rate": 0.00023752851302588277,
      "loss": 3.8039,
      "step": 146200
    },
    {
      "epoch": 0.3046041666666667,
      "grad_norm": 0.7570915222167969,
      "learning_rate": 0.0002375205067412244,
      "loss": 3.9014,
      "step": 146210
    },
    {
      "epoch": 0.304625,
      "grad_norm": 0.7749675512313843,
      "learning_rate": 0.00023751250007851207,
      "loss": 3.9437,
      "step": 146220
    },
    {
      "epoch": 0.30464583333333334,
      "grad_norm": 0.694110631942749,
      "learning_rate": 0.0002375044930377804,
      "loss": 3.9478,
      "step": 146230
    },
    {
      "epoch": 0.30466666666666664,
      "grad_norm": 0.7726214528083801,
      "learning_rate": 0.00023749648561906394,
      "loss": 4.0961,
      "step": 146240
    },
    {
      "epoch": 0.3046875,
      "grad_norm": 0.7725178003311157,
      "learning_rate": 0.00023748847782239732,
      "loss": 3.8292,
      "step": 146250
    },
    {
      "epoch": 0.30470833333333336,
      "grad_norm": 1.0555508136749268,
      "learning_rate": 0.00023748046964781503,
      "loss": 3.67,
      "step": 146260
    },
    {
      "epoch": 0.30472916666666666,
      "grad_norm": 0.8537115454673767,
      "learning_rate": 0.00023747246109535186,
      "loss": 3.7217,
      "step": 146270
    },
    {
      "epoch": 0.30475,
      "grad_norm": 0.7361416816711426,
      "learning_rate": 0.00023746445216504217,
      "loss": 3.9445,
      "step": 146280
    },
    {
      "epoch": 0.3047708333333333,
      "grad_norm": 0.805757462978363,
      "learning_rate": 0.00023745644285692072,
      "loss": 3.7576,
      "step": 146290
    },
    {
      "epoch": 0.3047916666666667,
      "grad_norm": 0.7630473375320435,
      "learning_rate": 0.00023744843317102205,
      "loss": 3.9497,
      "step": 146300
    },
    {
      "epoch": 0.3048125,
      "grad_norm": 0.8429068922996521,
      "learning_rate": 0.00023744042310738073,
      "loss": 3.9731,
      "step": 146310
    },
    {
      "epoch": 0.30483333333333335,
      "grad_norm": 1.0734814405441284,
      "learning_rate": 0.00023743241266603143,
      "loss": 4.016,
      "step": 146320
    },
    {
      "epoch": 0.30485416666666665,
      "grad_norm": 0.8379833698272705,
      "learning_rate": 0.00023742440184700873,
      "loss": 3.9436,
      "step": 146330
    },
    {
      "epoch": 0.304875,
      "grad_norm": 0.9987636804580688,
      "learning_rate": 0.0002374163906503472,
      "loss": 4.0373,
      "step": 146340
    },
    {
      "epoch": 0.3048958333333333,
      "grad_norm": 0.8252369165420532,
      "learning_rate": 0.00023740837907608147,
      "loss": 3.878,
      "step": 146350
    },
    {
      "epoch": 0.30491666666666667,
      "grad_norm": 0.8181220293045044,
      "learning_rate": 0.00023740036712424612,
      "loss": 4.0181,
      "step": 146360
    },
    {
      "epoch": 0.3049375,
      "grad_norm": 0.734288215637207,
      "learning_rate": 0.00023739235479487578,
      "loss": 3.7916,
      "step": 146370
    },
    {
      "epoch": 0.30495833333333333,
      "grad_norm": 0.8540281653404236,
      "learning_rate": 0.0002373843420880051,
      "loss": 3.9146,
      "step": 146380
    },
    {
      "epoch": 0.3049791666666667,
      "grad_norm": 0.6605208516120911,
      "learning_rate": 0.0002373763290036686,
      "loss": 3.7097,
      "step": 146390
    },
    {
      "epoch": 0.305,
      "grad_norm": 0.7170944809913635,
      "learning_rate": 0.00023736831554190097,
      "loss": 3.7453,
      "step": 146400
    },
    {
      "epoch": 0.30502083333333335,
      "grad_norm": 1.1980286836624146,
      "learning_rate": 0.0002373603017027368,
      "loss": 3.7464,
      "step": 146410
    },
    {
      "epoch": 0.30504166666666666,
      "grad_norm": 0.7371343970298767,
      "learning_rate": 0.0002373522874862107,
      "loss": 3.7126,
      "step": 146420
    },
    {
      "epoch": 0.3050625,
      "grad_norm": 0.8457094430923462,
      "learning_rate": 0.0002373442728923573,
      "loss": 3.7627,
      "step": 146430
    },
    {
      "epoch": 0.3050833333333333,
      "grad_norm": 0.7171273231506348,
      "learning_rate": 0.0002373362579212112,
      "loss": 3.8536,
      "step": 146440
    },
    {
      "epoch": 0.3051041666666667,
      "grad_norm": 0.7221585512161255,
      "learning_rate": 0.00023732824257280706,
      "loss": 3.9475,
      "step": 146450
    },
    {
      "epoch": 0.305125,
      "grad_norm": 1.099829912185669,
      "learning_rate": 0.0002373202268471795,
      "loss": 3.7014,
      "step": 146460
    },
    {
      "epoch": 0.30514583333333334,
      "grad_norm": 0.6939398050308228,
      "learning_rate": 0.00023731221074436306,
      "loss": 3.9524,
      "step": 146470
    },
    {
      "epoch": 0.30516666666666664,
      "grad_norm": 0.8177820444107056,
      "learning_rate": 0.00023730419426439244,
      "loss": 3.8433,
      "step": 146480
    },
    {
      "epoch": 0.3051875,
      "grad_norm": 0.7138102054595947,
      "learning_rate": 0.00023729617740730232,
      "loss": 3.9675,
      "step": 146490
    },
    {
      "epoch": 0.30520833333333336,
      "grad_norm": 0.7249690890312195,
      "learning_rate": 0.00023728816017312725,
      "loss": 3.8109,
      "step": 146500
    },
    {
      "epoch": 0.30522916666666666,
      "grad_norm": 0.6483832001686096,
      "learning_rate": 0.0002372801425619018,
      "loss": 3.7413,
      "step": 146510
    },
    {
      "epoch": 0.30525,
      "grad_norm": 0.8889363408088684,
      "learning_rate": 0.00023727212457366075,
      "loss": 3.861,
      "step": 146520
    },
    {
      "epoch": 0.3052708333333333,
      "grad_norm": 0.9773115515708923,
      "learning_rate": 0.00023726410620843866,
      "loss": 3.8579,
      "step": 146530
    },
    {
      "epoch": 0.3052916666666667,
      "grad_norm": 0.8280059695243835,
      "learning_rate": 0.00023725608746627015,
      "loss": 3.6728,
      "step": 146540
    },
    {
      "epoch": 0.3053125,
      "grad_norm": 0.7845858335494995,
      "learning_rate": 0.00023724806834718993,
      "loss": 3.8357,
      "step": 146550
    },
    {
      "epoch": 0.30533333333333335,
      "grad_norm": 0.7972192764282227,
      "learning_rate": 0.00023724004885123255,
      "loss": 3.7732,
      "step": 146560
    },
    {
      "epoch": 0.30535416666666665,
      "grad_norm": 0.7456203699111938,
      "learning_rate": 0.0002372320289784327,
      "loss": 3.9454,
      "step": 146570
    },
    {
      "epoch": 0.305375,
      "grad_norm": 0.7026063203811646,
      "learning_rate": 0.00023722400872882503,
      "loss": 4.072,
      "step": 146580
    },
    {
      "epoch": 0.3053958333333333,
      "grad_norm": 0.6703851222991943,
      "learning_rate": 0.00023721598810244414,
      "loss": 3.7986,
      "step": 146590
    },
    {
      "epoch": 0.30541666666666667,
      "grad_norm": 0.7194440364837646,
      "learning_rate": 0.00023720796709932472,
      "loss": 3.8932,
      "step": 146600
    },
    {
      "epoch": 0.3054375,
      "grad_norm": 0.6981797218322754,
      "learning_rate": 0.0002371999457195014,
      "loss": 3.9236,
      "step": 146610
    },
    {
      "epoch": 0.30545833333333333,
      "grad_norm": 1.0410878658294678,
      "learning_rate": 0.00023719192396300882,
      "loss": 4.0548,
      "step": 146620
    },
    {
      "epoch": 0.3054791666666667,
      "grad_norm": 0.6855394840240479,
      "learning_rate": 0.00023718390182988163,
      "loss": 3.7228,
      "step": 146630
    },
    {
      "epoch": 0.3055,
      "grad_norm": 0.7406545877456665,
      "learning_rate": 0.00023717587932015448,
      "loss": 3.8578,
      "step": 146640
    },
    {
      "epoch": 0.30552083333333335,
      "grad_norm": 0.7424784302711487,
      "learning_rate": 0.0002371678564338621,
      "loss": 4.0094,
      "step": 146650
    },
    {
      "epoch": 0.30554166666666666,
      "grad_norm": 0.7036724090576172,
      "learning_rate": 0.00023715983317103905,
      "loss": 3.8531,
      "step": 146660
    },
    {
      "epoch": 0.3055625,
      "grad_norm": 0.7908938527107239,
      "learning_rate": 0.00023715180953172004,
      "loss": 4.0579,
      "step": 146670
    },
    {
      "epoch": 0.3055833333333333,
      "grad_norm": 0.7332785725593567,
      "learning_rate": 0.0002371437855159397,
      "loss": 3.8747,
      "step": 146680
    },
    {
      "epoch": 0.3056041666666667,
      "grad_norm": 0.9903410077095032,
      "learning_rate": 0.00023713576112373272,
      "loss": 3.9329,
      "step": 146690
    },
    {
      "epoch": 0.305625,
      "grad_norm": 0.7497871518135071,
      "learning_rate": 0.0002371277363551337,
      "loss": 3.8712,
      "step": 146700
    },
    {
      "epoch": 0.30564583333333334,
      "grad_norm": 0.6716696619987488,
      "learning_rate": 0.00023711971121017733,
      "loss": 3.9318,
      "step": 146710
    },
    {
      "epoch": 0.30566666666666664,
      "grad_norm": 0.7599642872810364,
      "learning_rate": 0.00023711168568889835,
      "loss": 3.8795,
      "step": 146720
    },
    {
      "epoch": 0.3056875,
      "grad_norm": 0.7396661639213562,
      "learning_rate": 0.00023710365979133133,
      "loss": 3.9044,
      "step": 146730
    },
    {
      "epoch": 0.30570833333333336,
      "grad_norm": 0.6856889128684998,
      "learning_rate": 0.00023709563351751099,
      "loss": 3.6752,
      "step": 146740
    },
    {
      "epoch": 0.30572916666666666,
      "grad_norm": 0.920871913433075,
      "learning_rate": 0.00023708760686747205,
      "loss": 3.9044,
      "step": 146750
    },
    {
      "epoch": 0.30575,
      "grad_norm": 0.7206063866615295,
      "learning_rate": 0.000237079579841249,
      "loss": 3.887,
      "step": 146760
    },
    {
      "epoch": 0.3057708333333333,
      "grad_norm": 0.8709102272987366,
      "learning_rate": 0.0002370715524388767,
      "loss": 3.8972,
      "step": 146770
    },
    {
      "epoch": 0.3057916666666667,
      "grad_norm": 0.9105335474014282,
      "learning_rate": 0.00023706352466038976,
      "loss": 3.8782,
      "step": 146780
    },
    {
      "epoch": 0.3058125,
      "grad_norm": 0.7146595120429993,
      "learning_rate": 0.00023705549650582285,
      "loss": 3.9447,
      "step": 146790
    },
    {
      "epoch": 0.30583333333333335,
      "grad_norm": 0.8480615615844727,
      "learning_rate": 0.0002370474679752107,
      "loss": 3.813,
      "step": 146800
    },
    {
      "epoch": 0.30585416666666665,
      "grad_norm": 0.7695775032043457,
      "learning_rate": 0.00023703943906858786,
      "loss": 3.9115,
      "step": 146810
    },
    {
      "epoch": 0.305875,
      "grad_norm": 0.8720338940620422,
      "learning_rate": 0.00023703140978598915,
      "loss": 3.8392,
      "step": 146820
    },
    {
      "epoch": 0.3058958333333333,
      "grad_norm": 0.7190201878547668,
      "learning_rate": 0.00023702338012744915,
      "loss": 3.8996,
      "step": 146830
    },
    {
      "epoch": 0.30591666666666667,
      "grad_norm": 0.8065264821052551,
      "learning_rate": 0.0002370153500930026,
      "loss": 3.6948,
      "step": 146840
    },
    {
      "epoch": 0.3059375,
      "grad_norm": 0.9224130511283875,
      "learning_rate": 0.00023700731968268423,
      "loss": 3.8637,
      "step": 146850
    },
    {
      "epoch": 0.30595833333333333,
      "grad_norm": 0.7642867565155029,
      "learning_rate": 0.0002369992888965287,
      "loss": 3.7398,
      "step": 146860
    },
    {
      "epoch": 0.3059791666666667,
      "grad_norm": 0.7604333162307739,
      "learning_rate": 0.00023699125773457062,
      "loss": 3.9561,
      "step": 146870
    },
    {
      "epoch": 0.306,
      "grad_norm": 0.9165272116661072,
      "learning_rate": 0.00023698322619684472,
      "loss": 3.7538,
      "step": 146880
    },
    {
      "epoch": 0.30602083333333335,
      "grad_norm": 0.7782411575317383,
      "learning_rate": 0.00023697519428338574,
      "loss": 3.8094,
      "step": 146890
    },
    {
      "epoch": 0.30604166666666666,
      "grad_norm": 0.87968909740448,
      "learning_rate": 0.00023696716199422837,
      "loss": 3.8006,
      "step": 146900
    },
    {
      "epoch": 0.3060625,
      "grad_norm": 0.8726801872253418,
      "learning_rate": 0.0002369591293294073,
      "loss": 3.8821,
      "step": 146910
    },
    {
      "epoch": 0.3060833333333333,
      "grad_norm": 0.7426633238792419,
      "learning_rate": 0.00023695109628895714,
      "loss": 3.9222,
      "step": 146920
    },
    {
      "epoch": 0.3061041666666667,
      "grad_norm": 0.9309849739074707,
      "learning_rate": 0.0002369430628729127,
      "loss": 3.9618,
      "step": 146930
    },
    {
      "epoch": 0.306125,
      "grad_norm": 0.7391186952590942,
      "learning_rate": 0.00023693502908130867,
      "loss": 3.8552,
      "step": 146940
    },
    {
      "epoch": 0.30614583333333334,
      "grad_norm": 0.8871476650238037,
      "learning_rate": 0.00023692699491417968,
      "loss": 3.8102,
      "step": 146950
    },
    {
      "epoch": 0.30616666666666664,
      "grad_norm": 0.769186794757843,
      "learning_rate": 0.00023691896037156054,
      "loss": 3.9194,
      "step": 146960
    },
    {
      "epoch": 0.3061875,
      "grad_norm": 0.8230776190757751,
      "learning_rate": 0.00023691092545348585,
      "loss": 3.9646,
      "step": 146970
    },
    {
      "epoch": 0.30620833333333336,
      "grad_norm": 0.9378825426101685,
      "learning_rate": 0.00023690289015999036,
      "loss": 3.9569,
      "step": 146980
    },
    {
      "epoch": 0.30622916666666666,
      "grad_norm": 0.766800582408905,
      "learning_rate": 0.00023689485449110876,
      "loss": 3.9713,
      "step": 146990
    },
    {
      "epoch": 0.30625,
      "grad_norm": 0.7520609498023987,
      "learning_rate": 0.00023688681844687585,
      "loss": 3.8684,
      "step": 147000
    },
    {
      "epoch": 0.30625,
      "eval_loss": 4.190521240234375,
      "eval_runtime": 11.9421,
      "eval_samples_per_second": 0.837,
      "eval_steps_per_second": 0.251,
      "step": 147000
    },
    {
      "epoch": 0.3062708333333333,
      "grad_norm": 0.7198500037193298,
      "learning_rate": 0.00023687878202732624,
      "loss": 3.7822,
      "step": 147010
    },
    {
      "epoch": 0.3062916666666667,
      "grad_norm": 0.7783270478248596,
      "learning_rate": 0.0002368707452324947,
      "loss": 3.8508,
      "step": 147020
    },
    {
      "epoch": 0.3063125,
      "grad_norm": 0.9086983799934387,
      "learning_rate": 0.00023686270806241592,
      "loss": 4.032,
      "step": 147030
    },
    {
      "epoch": 0.30633333333333335,
      "grad_norm": 1.3279772996902466,
      "learning_rate": 0.0002368546705171246,
      "loss": 4.0287,
      "step": 147040
    },
    {
      "epoch": 0.30635416666666665,
      "grad_norm": 0.8180417418479919,
      "learning_rate": 0.0002368466325966555,
      "loss": 3.7482,
      "step": 147050
    },
    {
      "epoch": 0.306375,
      "grad_norm": 0.7306908369064331,
      "learning_rate": 0.0002368385943010433,
      "loss": 3.7627,
      "step": 147060
    },
    {
      "epoch": 0.3063958333333333,
      "grad_norm": 0.7329029440879822,
      "learning_rate": 0.0002368305556303228,
      "loss": 3.93,
      "step": 147070
    },
    {
      "epoch": 0.30641666666666667,
      "grad_norm": 0.6979579925537109,
      "learning_rate": 0.00023682251658452866,
      "loss": 3.8215,
      "step": 147080
    },
    {
      "epoch": 0.3064375,
      "grad_norm": 0.722687840461731,
      "learning_rate": 0.00023681447716369556,
      "loss": 3.7699,
      "step": 147090
    },
    {
      "epoch": 0.30645833333333333,
      "grad_norm": 0.7271130084991455,
      "learning_rate": 0.00023680643736785832,
      "loss": 3.7912,
      "step": 147100
    },
    {
      "epoch": 0.3064791666666667,
      "grad_norm": 0.8155853748321533,
      "learning_rate": 0.00023679839719705165,
      "loss": 3.7238,
      "step": 147110
    },
    {
      "epoch": 0.3065,
      "grad_norm": 1.1400322914123535,
      "learning_rate": 0.00023679035665131022,
      "loss": 3.901,
      "step": 147120
    },
    {
      "epoch": 0.30652083333333335,
      "grad_norm": 0.8223910331726074,
      "learning_rate": 0.0002367823157306688,
      "loss": 3.7328,
      "step": 147130
    },
    {
      "epoch": 0.30654166666666666,
      "grad_norm": 0.7298850417137146,
      "learning_rate": 0.00023677427443516218,
      "loss": 3.7245,
      "step": 147140
    },
    {
      "epoch": 0.3065625,
      "grad_norm": 0.9859219789505005,
      "learning_rate": 0.000236766232764825,
      "loss": 3.9733,
      "step": 147150
    },
    {
      "epoch": 0.3065833333333333,
      "grad_norm": 0.7493774890899658,
      "learning_rate": 0.00023675819071969205,
      "loss": 3.8491,
      "step": 147160
    },
    {
      "epoch": 0.3066041666666667,
      "grad_norm": 0.7213714718818665,
      "learning_rate": 0.00023675014829979807,
      "loss": 3.79,
      "step": 147170
    },
    {
      "epoch": 0.306625,
      "grad_norm": 0.8249627351760864,
      "learning_rate": 0.00023674210550517775,
      "loss": 3.8907,
      "step": 147180
    },
    {
      "epoch": 0.30664583333333334,
      "grad_norm": 0.9624618887901306,
      "learning_rate": 0.0002367340623358659,
      "loss": 3.9244,
      "step": 147190
    },
    {
      "epoch": 0.30666666666666664,
      "grad_norm": 0.7160682082176208,
      "learning_rate": 0.00023672601879189722,
      "loss": 3.9026,
      "step": 147200
    },
    {
      "epoch": 0.3066875,
      "grad_norm": 0.7847981452941895,
      "learning_rate": 0.0002367179748733065,
      "loss": 3.8647,
      "step": 147210
    },
    {
      "epoch": 0.30670833333333336,
      "grad_norm": 0.8025715351104736,
      "learning_rate": 0.0002367099305801284,
      "loss": 3.8539,
      "step": 147220
    },
    {
      "epoch": 0.30672916666666666,
      "grad_norm": 0.842384397983551,
      "learning_rate": 0.00023670188591239774,
      "loss": 3.819,
      "step": 147230
    },
    {
      "epoch": 0.30675,
      "grad_norm": 0.8708718419075012,
      "learning_rate": 0.00023669384087014926,
      "loss": 3.8169,
      "step": 147240
    },
    {
      "epoch": 0.3067708333333333,
      "grad_norm": 0.7636668086051941,
      "learning_rate": 0.00023668579545341772,
      "loss": 3.9654,
      "step": 147250
    },
    {
      "epoch": 0.3067916666666667,
      "grad_norm": 0.7172880172729492,
      "learning_rate": 0.00023667774966223783,
      "loss": 3.6687,
      "step": 147260
    },
    {
      "epoch": 0.3068125,
      "grad_norm": 0.6791507601737976,
      "learning_rate": 0.00023666970349664435,
      "loss": 3.9577,
      "step": 147270
    },
    {
      "epoch": 0.30683333333333335,
      "grad_norm": 0.7296807169914246,
      "learning_rate": 0.00023666165695667213,
      "loss": 3.8314,
      "step": 147280
    },
    {
      "epoch": 0.30685416666666665,
      "grad_norm": 0.6853737831115723,
      "learning_rate": 0.00023665361004235582,
      "loss": 3.8661,
      "step": 147290
    },
    {
      "epoch": 0.306875,
      "grad_norm": 0.7926296591758728,
      "learning_rate": 0.00023664556275373018,
      "loss": 4.0708,
      "step": 147300
    },
    {
      "epoch": 0.3068958333333333,
      "grad_norm": 1.0388786792755127,
      "learning_rate": 0.00023663751509083006,
      "loss": 3.8681,
      "step": 147310
    },
    {
      "epoch": 0.30691666666666667,
      "grad_norm": 0.8910284638404846,
      "learning_rate": 0.0002366294670536901,
      "loss": 3.7494,
      "step": 147320
    },
    {
      "epoch": 0.3069375,
      "grad_norm": 1.4273972511291504,
      "learning_rate": 0.00023662141864234522,
      "loss": 3.8956,
      "step": 147330
    },
    {
      "epoch": 0.30695833333333333,
      "grad_norm": 0.7825724482536316,
      "learning_rate": 0.00023661336985683002,
      "loss": 3.851,
      "step": 147340
    },
    {
      "epoch": 0.3069791666666667,
      "grad_norm": 0.7656921148300171,
      "learning_rate": 0.00023660532069717937,
      "loss": 3.9355,
      "step": 147350
    },
    {
      "epoch": 0.307,
      "grad_norm": 0.8630780577659607,
      "learning_rate": 0.00023659727116342807,
      "loss": 3.9985,
      "step": 147360
    },
    {
      "epoch": 0.30702083333333335,
      "grad_norm": 0.7826002836227417,
      "learning_rate": 0.00023658922125561075,
      "loss": 3.8387,
      "step": 147370
    },
    {
      "epoch": 0.30704166666666666,
      "grad_norm": 0.744835615158081,
      "learning_rate": 0.00023658117097376233,
      "loss": 3.9437,
      "step": 147380
    },
    {
      "epoch": 0.3070625,
      "grad_norm": 1.1145100593566895,
      "learning_rate": 0.00023657312031791748,
      "loss": 3.9273,
      "step": 147390
    },
    {
      "epoch": 0.3070833333333333,
      "grad_norm": 0.8582687973976135,
      "learning_rate": 0.00023656506928811105,
      "loss": 3.9162,
      "step": 147400
    },
    {
      "epoch": 0.3071041666666667,
      "grad_norm": 1.0363463163375854,
      "learning_rate": 0.00023655701788437777,
      "loss": 3.6383,
      "step": 147410
    },
    {
      "epoch": 0.307125,
      "grad_norm": 1.048701524734497,
      "learning_rate": 0.00023654896610675243,
      "loss": 3.8496,
      "step": 147420
    },
    {
      "epoch": 0.30714583333333334,
      "grad_norm": 0.7919004559516907,
      "learning_rate": 0.00023654091395526985,
      "loss": 3.9562,
      "step": 147430
    },
    {
      "epoch": 0.30716666666666664,
      "grad_norm": 0.7274442911148071,
      "learning_rate": 0.00023653286142996476,
      "loss": 4.058,
      "step": 147440
    },
    {
      "epoch": 0.3071875,
      "grad_norm": 0.7391433119773865,
      "learning_rate": 0.00023652480853087192,
      "loss": 3.8438,
      "step": 147450
    },
    {
      "epoch": 0.30720833333333336,
      "grad_norm": 0.7041447758674622,
      "learning_rate": 0.00023651675525802621,
      "loss": 3.8975,
      "step": 147460
    },
    {
      "epoch": 0.30722916666666666,
      "grad_norm": 0.7353554368019104,
      "learning_rate": 0.00023650870161146233,
      "loss": 3.8574,
      "step": 147470
    },
    {
      "epoch": 0.30725,
      "grad_norm": 1.0210734605789185,
      "learning_rate": 0.00023650064759121508,
      "loss": 3.9126,
      "step": 147480
    },
    {
      "epoch": 0.3072708333333333,
      "grad_norm": 0.7986685633659363,
      "learning_rate": 0.00023649259319731932,
      "loss": 4.0415,
      "step": 147490
    },
    {
      "epoch": 0.3072916666666667,
      "grad_norm": 0.6663190722465515,
      "learning_rate": 0.00023648453842980982,
      "loss": 3.8245,
      "step": 147500
    },
    {
      "epoch": 0.3073125,
      "grad_norm": 0.7578383088111877,
      "learning_rate": 0.00023647648328872128,
      "loss": 3.9264,
      "step": 147510
    },
    {
      "epoch": 0.30733333333333335,
      "grad_norm": 0.712735652923584,
      "learning_rate": 0.0002364684277740886,
      "loss": 4.0241,
      "step": 147520
    },
    {
      "epoch": 0.30735416666666665,
      "grad_norm": 0.9109177589416504,
      "learning_rate": 0.0002364603718859465,
      "loss": 3.8951,
      "step": 147530
    },
    {
      "epoch": 0.307375,
      "grad_norm": 0.7773535251617432,
      "learning_rate": 0.00023645231562432987,
      "loss": 3.7872,
      "step": 147540
    },
    {
      "epoch": 0.3073958333333333,
      "grad_norm": 0.7479085326194763,
      "learning_rate": 0.0002364442589892734,
      "loss": 3.8512,
      "step": 147550
    },
    {
      "epoch": 0.30741666666666667,
      "grad_norm": 0.789775550365448,
      "learning_rate": 0.00023643620198081196,
      "loss": 3.9937,
      "step": 147560
    },
    {
      "epoch": 0.3074375,
      "grad_norm": 0.9188342690467834,
      "learning_rate": 0.0002364281445989804,
      "loss": 3.8356,
      "step": 147570
    },
    {
      "epoch": 0.30745833333333333,
      "grad_norm": 0.8512523174285889,
      "learning_rate": 0.0002364200868438134,
      "loss": 3.808,
      "step": 147580
    },
    {
      "epoch": 0.3074791666666667,
      "grad_norm": 0.7730846405029297,
      "learning_rate": 0.00023641202871534588,
      "loss": 3.7097,
      "step": 147590
    },
    {
      "epoch": 0.3075,
      "grad_norm": 0.7675027847290039,
      "learning_rate": 0.00023640397021361257,
      "loss": 4.0241,
      "step": 147600
    },
    {
      "epoch": 0.30752083333333335,
      "grad_norm": 0.8290091156959534,
      "learning_rate": 0.0002363959113386483,
      "loss": 3.8278,
      "step": 147610
    },
    {
      "epoch": 0.30754166666666666,
      "grad_norm": 0.7532251477241516,
      "learning_rate": 0.00023638785209048794,
      "loss": 4.0017,
      "step": 147620
    },
    {
      "epoch": 0.3075625,
      "grad_norm": 0.6470028162002563,
      "learning_rate": 0.0002363797924691662,
      "loss": 3.7567,
      "step": 147630
    },
    {
      "epoch": 0.3075833333333333,
      "grad_norm": 0.8728337287902832,
      "learning_rate": 0.00023637173247471798,
      "loss": 3.9599,
      "step": 147640
    },
    {
      "epoch": 0.3076041666666667,
      "grad_norm": 0.6435649991035461,
      "learning_rate": 0.00023636367210717806,
      "loss": 3.7629,
      "step": 147650
    },
    {
      "epoch": 0.307625,
      "grad_norm": 0.7571823000907898,
      "learning_rate": 0.00023635561136658122,
      "loss": 3.9034,
      "step": 147660
    },
    {
      "epoch": 0.30764583333333334,
      "grad_norm": 0.7613441348075867,
      "learning_rate": 0.00023634755025296237,
      "loss": 3.8768,
      "step": 147670
    },
    {
      "epoch": 0.30766666666666664,
      "grad_norm": 0.7622079849243164,
      "learning_rate": 0.00023633948876635623,
      "loss": 3.6811,
      "step": 147680
    },
    {
      "epoch": 0.3076875,
      "grad_norm": 0.8646845817565918,
      "learning_rate": 0.00023633142690679775,
      "loss": 3.8362,
      "step": 147690
    },
    {
      "epoch": 0.3077083333333333,
      "grad_norm": 0.8508139252662659,
      "learning_rate": 0.00023632336467432162,
      "loss": 3.9159,
      "step": 147700
    },
    {
      "epoch": 0.30772916666666666,
      "grad_norm": 0.8487205505371094,
      "learning_rate": 0.00023631530206896274,
      "loss": 3.9231,
      "step": 147710
    },
    {
      "epoch": 0.30775,
      "grad_norm": 0.750313401222229,
      "learning_rate": 0.00023630723909075593,
      "loss": 3.9704,
      "step": 147720
    },
    {
      "epoch": 0.3077708333333333,
      "grad_norm": 0.8345775008201599,
      "learning_rate": 0.00023629917573973603,
      "loss": 3.7375,
      "step": 147730
    },
    {
      "epoch": 0.3077916666666667,
      "grad_norm": 0.7548708319664001,
      "learning_rate": 0.0002362911120159378,
      "loss": 3.7458,
      "step": 147740
    },
    {
      "epoch": 0.3078125,
      "grad_norm": 0.6999832987785339,
      "learning_rate": 0.00023628304791939613,
      "loss": 3.9811,
      "step": 147750
    },
    {
      "epoch": 0.30783333333333335,
      "grad_norm": 0.7694923877716064,
      "learning_rate": 0.00023627498345014589,
      "loss": 3.9405,
      "step": 147760
    },
    {
      "epoch": 0.30785416666666665,
      "grad_norm": 0.8521038889884949,
      "learning_rate": 0.00023626691860822186,
      "loss": 3.8613,
      "step": 147770
    },
    {
      "epoch": 0.307875,
      "grad_norm": 0.6800606846809387,
      "learning_rate": 0.00023625885339365887,
      "loss": 3.7413,
      "step": 147780
    },
    {
      "epoch": 0.3078958333333333,
      "grad_norm": 0.8624712824821472,
      "learning_rate": 0.00023625078780649178,
      "loss": 3.7955,
      "step": 147790
    },
    {
      "epoch": 0.30791666666666667,
      "grad_norm": 0.7247698903083801,
      "learning_rate": 0.0002362427218467554,
      "loss": 3.8068,
      "step": 147800
    },
    {
      "epoch": 0.3079375,
      "grad_norm": 0.7757026553153992,
      "learning_rate": 0.00023623465551448467,
      "loss": 3.945,
      "step": 147810
    },
    {
      "epoch": 0.30795833333333333,
      "grad_norm": 0.8926354050636292,
      "learning_rate": 0.0002362265888097143,
      "loss": 3.8015,
      "step": 147820
    },
    {
      "epoch": 0.3079791666666667,
      "grad_norm": 0.8031293749809265,
      "learning_rate": 0.00023621852173247922,
      "loss": 3.9509,
      "step": 147830
    },
    {
      "epoch": 0.308,
      "grad_norm": 0.7321346998214722,
      "learning_rate": 0.00023621045428281424,
      "loss": 3.7994,
      "step": 147840
    },
    {
      "epoch": 0.30802083333333335,
      "grad_norm": 0.7682033181190491,
      "learning_rate": 0.0002362023864607542,
      "loss": 3.9382,
      "step": 147850
    },
    {
      "epoch": 0.30804166666666666,
      "grad_norm": 0.7321985960006714,
      "learning_rate": 0.000236194318266334,
      "loss": 3.8441,
      "step": 147860
    },
    {
      "epoch": 0.3080625,
      "grad_norm": 1.0059040784835815,
      "learning_rate": 0.00023618624969958853,
      "loss": 3.9388,
      "step": 147870
    },
    {
      "epoch": 0.3080833333333333,
      "grad_norm": 0.7104911208152771,
      "learning_rate": 0.00023617818076055247,
      "loss": 3.8601,
      "step": 147880
    },
    {
      "epoch": 0.3081041666666667,
      "grad_norm": 0.849183976650238,
      "learning_rate": 0.00023617011144926083,
      "loss": 3.8332,
      "step": 147890
    },
    {
      "epoch": 0.308125,
      "grad_norm": 0.8052178025245667,
      "learning_rate": 0.00023616204176574843,
      "loss": 3.818,
      "step": 147900
    },
    {
      "epoch": 0.30814583333333334,
      "grad_norm": 0.6981068253517151,
      "learning_rate": 0.00023615397171005006,
      "loss": 3.771,
      "step": 147910
    },
    {
      "epoch": 0.30816666666666664,
      "grad_norm": 0.7135525345802307,
      "learning_rate": 0.0002361459012822007,
      "loss": 3.9281,
      "step": 147920
    },
    {
      "epoch": 0.3081875,
      "grad_norm": 0.7654672861099243,
      "learning_rate": 0.00023613783048223512,
      "loss": 3.668,
      "step": 147930
    },
    {
      "epoch": 0.3082083333333333,
      "grad_norm": 0.8812724351882935,
      "learning_rate": 0.0002361297593101882,
      "loss": 3.9837,
      "step": 147940
    },
    {
      "epoch": 0.30822916666666667,
      "grad_norm": 0.782297670841217,
      "learning_rate": 0.0002361216877660948,
      "loss": 3.8941,
      "step": 147950
    },
    {
      "epoch": 0.30825,
      "grad_norm": 0.7563154697418213,
      "learning_rate": 0.0002361136158499898,
      "loss": 3.9235,
      "step": 147960
    },
    {
      "epoch": 0.3082708333333333,
      "grad_norm": 1.022866129875183,
      "learning_rate": 0.00023610554356190807,
      "loss": 3.8931,
      "step": 147970
    },
    {
      "epoch": 0.3082916666666667,
      "grad_norm": 0.8266940712928772,
      "learning_rate": 0.0002360974709018845,
      "loss": 3.8686,
      "step": 147980
    },
    {
      "epoch": 0.3083125,
      "grad_norm": 0.7949098944664001,
      "learning_rate": 0.00023608939786995392,
      "loss": 3.8296,
      "step": 147990
    },
    {
      "epoch": 0.30833333333333335,
      "grad_norm": 0.9426050782203674,
      "learning_rate": 0.0002360813244661512,
      "loss": 3.8938,
      "step": 148000
    },
    {
      "epoch": 0.30833333333333335,
      "eval_loss": 4.207257270812988,
      "eval_runtime": 10.4689,
      "eval_samples_per_second": 0.955,
      "eval_steps_per_second": 0.287,
      "step": 148000
    },
    {
      "epoch": 0.30835416666666665,
      "grad_norm": 0.7341536283493042,
      "learning_rate": 0.00023607325069051127,
      "loss": 3.9209,
      "step": 148010
    },
    {
      "epoch": 0.308375,
      "grad_norm": 0.766869306564331,
      "learning_rate": 0.00023606517654306897,
      "loss": 3.8833,
      "step": 148020
    },
    {
      "epoch": 0.3083958333333333,
      "grad_norm": 0.9756490588188171,
      "learning_rate": 0.0002360571020238591,
      "loss": 3.7247,
      "step": 148030
    },
    {
      "epoch": 0.3084166666666667,
      "grad_norm": 0.755780816078186,
      "learning_rate": 0.00023604902713291666,
      "loss": 3.7806,
      "step": 148040
    },
    {
      "epoch": 0.3084375,
      "grad_norm": 0.9452468156814575,
      "learning_rate": 0.0002360409518702765,
      "loss": 3.8924,
      "step": 148050
    },
    {
      "epoch": 0.30845833333333333,
      "grad_norm": 0.8175269365310669,
      "learning_rate": 0.0002360328762359735,
      "loss": 3.902,
      "step": 148060
    },
    {
      "epoch": 0.3084791666666667,
      "grad_norm": 0.749755322933197,
      "learning_rate": 0.00023602480023004248,
      "loss": 3.7763,
      "step": 148070
    },
    {
      "epoch": 0.3085,
      "grad_norm": 0.82233065366745,
      "learning_rate": 0.0002360167238525184,
      "loss": 3.9597,
      "step": 148080
    },
    {
      "epoch": 0.30852083333333336,
      "grad_norm": 1.0292596817016602,
      "learning_rate": 0.0002360086471034361,
      "loss": 3.8782,
      "step": 148090
    },
    {
      "epoch": 0.30854166666666666,
      "grad_norm": 0.9014490246772766,
      "learning_rate": 0.0002360005699828305,
      "loss": 3.7735,
      "step": 148100
    },
    {
      "epoch": 0.3085625,
      "grad_norm": 0.8383644223213196,
      "learning_rate": 0.0002359924924907365,
      "loss": 3.9011,
      "step": 148110
    },
    {
      "epoch": 0.3085833333333333,
      "grad_norm": 0.7569946646690369,
      "learning_rate": 0.00023598441462718898,
      "loss": 3.9531,
      "step": 148120
    },
    {
      "epoch": 0.3086041666666667,
      "grad_norm": 0.7897003889083862,
      "learning_rate": 0.00023597633639222274,
      "loss": 3.7942,
      "step": 148130
    },
    {
      "epoch": 0.308625,
      "grad_norm": 0.8313112854957581,
      "learning_rate": 0.00023596825778587284,
      "loss": 3.8597,
      "step": 148140
    },
    {
      "epoch": 0.30864583333333334,
      "grad_norm": 0.7466734647750854,
      "learning_rate": 0.00023596017880817412,
      "loss": 3.9002,
      "step": 148150
    },
    {
      "epoch": 0.30866666666666664,
      "grad_norm": 0.7720811367034912,
      "learning_rate": 0.00023595209945916136,
      "loss": 3.807,
      "step": 148160
    },
    {
      "epoch": 0.3086875,
      "grad_norm": 0.9609342217445374,
      "learning_rate": 0.0002359440197388696,
      "loss": 3.7612,
      "step": 148170
    },
    {
      "epoch": 0.3087083333333333,
      "grad_norm": 0.8341074585914612,
      "learning_rate": 0.00023593593964733368,
      "loss": 3.8833,
      "step": 148180
    },
    {
      "epoch": 0.30872916666666667,
      "grad_norm": 0.6949076652526855,
      "learning_rate": 0.00023592785918458855,
      "loss": 3.9034,
      "step": 148190
    },
    {
      "epoch": 0.30875,
      "grad_norm": 0.9843272566795349,
      "learning_rate": 0.000235919778350669,
      "loss": 3.8704,
      "step": 148200
    },
    {
      "epoch": 0.3087708333333333,
      "grad_norm": 0.8593311309814453,
      "learning_rate": 0.00023591169714561012,
      "loss": 3.9996,
      "step": 148210
    },
    {
      "epoch": 0.3087916666666667,
      "grad_norm": 0.873738169670105,
      "learning_rate": 0.0002359036155694467,
      "loss": 3.704,
      "step": 148220
    },
    {
      "epoch": 0.3088125,
      "grad_norm": 0.8430051803588867,
      "learning_rate": 0.00023589553362221363,
      "loss": 3.95,
      "step": 148230
    },
    {
      "epoch": 0.30883333333333335,
      "grad_norm": 0.7303117513656616,
      "learning_rate": 0.00023588745130394585,
      "loss": 3.8334,
      "step": 148240
    },
    {
      "epoch": 0.30885416666666665,
      "grad_norm": 0.7665563821792603,
      "learning_rate": 0.00023587936861467826,
      "loss": 4.131,
      "step": 148250
    },
    {
      "epoch": 0.308875,
      "grad_norm": 0.8172420263290405,
      "learning_rate": 0.0002358712855544458,
      "loss": 3.7938,
      "step": 148260
    },
    {
      "epoch": 0.3088958333333333,
      "grad_norm": 0.9174598455429077,
      "learning_rate": 0.00023586320212328342,
      "loss": 3.8567,
      "step": 148270
    },
    {
      "epoch": 0.3089166666666667,
      "grad_norm": 0.7554885745048523,
      "learning_rate": 0.00023585511832122596,
      "loss": 3.7719,
      "step": 148280
    },
    {
      "epoch": 0.3089375,
      "grad_norm": 0.7380260825157166,
      "learning_rate": 0.0002358470341483084,
      "loss": 3.9367,
      "step": 148290
    },
    {
      "epoch": 0.30895833333333333,
      "grad_norm": 0.7445772886276245,
      "learning_rate": 0.0002358389496045656,
      "loss": 3.8459,
      "step": 148300
    },
    {
      "epoch": 0.3089791666666667,
      "grad_norm": 0.8220552802085876,
      "learning_rate": 0.0002358308646900325,
      "loss": 3.8923,
      "step": 148310
    },
    {
      "epoch": 0.309,
      "grad_norm": 0.7028809189796448,
      "learning_rate": 0.00023582277940474407,
      "loss": 3.6258,
      "step": 148320
    },
    {
      "epoch": 0.30902083333333336,
      "grad_norm": 0.7007351517677307,
      "learning_rate": 0.0002358146937487352,
      "loss": 3.9672,
      "step": 148330
    },
    {
      "epoch": 0.30904166666666666,
      "grad_norm": 0.706938624382019,
      "learning_rate": 0.00023580660772204085,
      "loss": 3.9106,
      "step": 148340
    },
    {
      "epoch": 0.3090625,
      "grad_norm": 1.006561040878296,
      "learning_rate": 0.00023579852132469588,
      "loss": 3.9006,
      "step": 148350
    },
    {
      "epoch": 0.3090833333333333,
      "grad_norm": 0.728251576423645,
      "learning_rate": 0.00023579043455673526,
      "loss": 3.8202,
      "step": 148360
    },
    {
      "epoch": 0.3091041666666667,
      "grad_norm": 0.8322093486785889,
      "learning_rate": 0.00023578234741819396,
      "loss": 3.6938,
      "step": 148370
    },
    {
      "epoch": 0.309125,
      "grad_norm": 0.7795112729072571,
      "learning_rate": 0.00023577425990910683,
      "loss": 3.9345,
      "step": 148380
    },
    {
      "epoch": 0.30914583333333334,
      "grad_norm": 0.7506383657455444,
      "learning_rate": 0.00023576617202950888,
      "loss": 3.8837,
      "step": 148390
    },
    {
      "epoch": 0.30916666666666665,
      "grad_norm": 0.7040326595306396,
      "learning_rate": 0.00023575808377943497,
      "loss": 3.9751,
      "step": 148400
    },
    {
      "epoch": 0.3091875,
      "grad_norm": 0.7039561867713928,
      "learning_rate": 0.00023574999515892014,
      "loss": 3.8895,
      "step": 148410
    },
    {
      "epoch": 0.3092083333333333,
      "grad_norm": 0.7880781292915344,
      "learning_rate": 0.0002357419061679992,
      "loss": 3.8714,
      "step": 148420
    },
    {
      "epoch": 0.30922916666666667,
      "grad_norm": 0.7705137133598328,
      "learning_rate": 0.00023573381680670722,
      "loss": 3.7989,
      "step": 148430
    },
    {
      "epoch": 0.30925,
      "grad_norm": 0.8161779642105103,
      "learning_rate": 0.0002357257270750791,
      "loss": 3.8017,
      "step": 148440
    },
    {
      "epoch": 0.30927083333333333,
      "grad_norm": 0.7286084890365601,
      "learning_rate": 0.00023571763697314974,
      "loss": 3.9414,
      "step": 148450
    },
    {
      "epoch": 0.3092916666666667,
      "grad_norm": 0.7858800292015076,
      "learning_rate": 0.00023570954650095413,
      "loss": 3.7242,
      "step": 148460
    },
    {
      "epoch": 0.3093125,
      "grad_norm": 0.8050426840782166,
      "learning_rate": 0.00023570145565852718,
      "loss": 3.8572,
      "step": 148470
    },
    {
      "epoch": 0.30933333333333335,
      "grad_norm": 0.6988584399223328,
      "learning_rate": 0.00023569336444590388,
      "loss": 3.7809,
      "step": 148480
    },
    {
      "epoch": 0.30935416666666665,
      "grad_norm": 0.8128166794776917,
      "learning_rate": 0.0002356852728631192,
      "loss": 3.7764,
      "step": 148490
    },
    {
      "epoch": 0.309375,
      "grad_norm": 0.8338506817817688,
      "learning_rate": 0.00023567718091020798,
      "loss": 3.8963,
      "step": 148500
    },
    {
      "epoch": 0.3093958333333333,
      "grad_norm": 0.8726336359977722,
      "learning_rate": 0.00023566908858720537,
      "loss": 3.7502,
      "step": 148510
    },
    {
      "epoch": 0.3094166666666667,
      "grad_norm": 0.8954122066497803,
      "learning_rate": 0.00023566099589414612,
      "loss": 3.9393,
      "step": 148520
    },
    {
      "epoch": 0.3094375,
      "grad_norm": 0.6867149472236633,
      "learning_rate": 0.00023565290283106527,
      "loss": 3.8661,
      "step": 148530
    },
    {
      "epoch": 0.30945833333333334,
      "grad_norm": 0.7179962992668152,
      "learning_rate": 0.0002356448093979978,
      "loss": 3.799,
      "step": 148540
    },
    {
      "epoch": 0.3094791666666667,
      "grad_norm": 1.0538922548294067,
      "learning_rate": 0.00023563671559497868,
      "loss": 3.9468,
      "step": 148550
    },
    {
      "epoch": 0.3095,
      "grad_norm": 0.814246416091919,
      "learning_rate": 0.00023562862142204283,
      "loss": 3.7249,
      "step": 148560
    },
    {
      "epoch": 0.30952083333333336,
      "grad_norm": 0.8280114531517029,
      "learning_rate": 0.00023562052687922525,
      "loss": 3.8379,
      "step": 148570
    },
    {
      "epoch": 0.30954166666666666,
      "grad_norm": 0.7510501742362976,
      "learning_rate": 0.0002356124319665608,
      "loss": 3.8357,
      "step": 148580
    },
    {
      "epoch": 0.3095625,
      "grad_norm": 0.7967499494552612,
      "learning_rate": 0.00023560433668408463,
      "loss": 3.8317,
      "step": 148590
    },
    {
      "epoch": 0.3095833333333333,
      "grad_norm": 0.7575317025184631,
      "learning_rate": 0.0002355962410318316,
      "loss": 3.7675,
      "step": 148600
    },
    {
      "epoch": 0.3096041666666667,
      "grad_norm": 0.7807244658470154,
      "learning_rate": 0.0002355881450098366,
      "loss": 3.7196,
      "step": 148610
    },
    {
      "epoch": 0.309625,
      "grad_norm": 0.8266279697418213,
      "learning_rate": 0.0002355800486181348,
      "loss": 3.751,
      "step": 148620
    },
    {
      "epoch": 0.30964583333333334,
      "grad_norm": 0.7833642363548279,
      "learning_rate": 0.00023557195185676104,
      "loss": 4.0112,
      "step": 148630
    },
    {
      "epoch": 0.30966666666666665,
      "grad_norm": 0.744142472743988,
      "learning_rate": 0.00023556385472575027,
      "loss": 3.8194,
      "step": 148640
    },
    {
      "epoch": 0.3096875,
      "grad_norm": 0.756466269493103,
      "learning_rate": 0.0002355557572251375,
      "loss": 3.9064,
      "step": 148650
    },
    {
      "epoch": 0.3097083333333333,
      "grad_norm": 0.7661104798316956,
      "learning_rate": 0.00023554765935495783,
      "loss": 3.8311,
      "step": 148660
    },
    {
      "epoch": 0.30972916666666667,
      "grad_norm": 0.7248517274856567,
      "learning_rate": 0.00023553956111524603,
      "loss": 4.0595,
      "step": 148670
    },
    {
      "epoch": 0.30975,
      "grad_norm": 0.8092121481895447,
      "learning_rate": 0.00023553146250603727,
      "loss": 3.7588,
      "step": 148680
    },
    {
      "epoch": 0.30977083333333333,
      "grad_norm": 0.8492959141731262,
      "learning_rate": 0.00023552336352736637,
      "loss": 3.8879,
      "step": 148690
    },
    {
      "epoch": 0.3097916666666667,
      "grad_norm": 0.6656467318534851,
      "learning_rate": 0.00023551526417926844,
      "loss": 3.8592,
      "step": 148700
    },
    {
      "epoch": 0.3098125,
      "grad_norm": 0.7673473954200745,
      "learning_rate": 0.0002355071644617784,
      "loss": 3.8763,
      "step": 148710
    },
    {
      "epoch": 0.30983333333333335,
      "grad_norm": 0.8472395539283752,
      "learning_rate": 0.00023549906437493126,
      "loss": 3.5778,
      "step": 148720
    },
    {
      "epoch": 0.30985416666666665,
      "grad_norm": 0.8320297598838806,
      "learning_rate": 0.000235490963918762,
      "loss": 3.8774,
      "step": 148730
    },
    {
      "epoch": 0.309875,
      "grad_norm": 0.6928314566612244,
      "learning_rate": 0.00023548286309330567,
      "loss": 3.7498,
      "step": 148740
    },
    {
      "epoch": 0.3098958333333333,
      "grad_norm": 0.7816563844680786,
      "learning_rate": 0.00023547476189859714,
      "loss": 3.8441,
      "step": 148750
    },
    {
      "epoch": 0.3099166666666667,
      "grad_norm": 0.8611055612564087,
      "learning_rate": 0.00023546666033467148,
      "loss": 3.8241,
      "step": 148760
    },
    {
      "epoch": 0.3099375,
      "grad_norm": 0.8162978887557983,
      "learning_rate": 0.0002354585584015637,
      "loss": 3.8181,
      "step": 148770
    },
    {
      "epoch": 0.30995833333333334,
      "grad_norm": 0.7094116806983948,
      "learning_rate": 0.00023545045609930874,
      "loss": 3.7466,
      "step": 148780
    },
    {
      "epoch": 0.30997916666666664,
      "grad_norm": 0.8113015294075012,
      "learning_rate": 0.00023544235342794168,
      "loss": 3.7936,
      "step": 148790
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9135077595710754,
      "learning_rate": 0.00023543425038749746,
      "loss": 3.7712,
      "step": 148800
    },
    {
      "epoch": 0.31002083333333336,
      "grad_norm": 0.759608805179596,
      "learning_rate": 0.00023542614697801107,
      "loss": 3.8406,
      "step": 148810
    },
    {
      "epoch": 0.31004166666666666,
      "grad_norm": 0.7916034460067749,
      "learning_rate": 0.00023541804319951757,
      "loss": 3.6867,
      "step": 148820
    },
    {
      "epoch": 0.3100625,
      "grad_norm": 0.6871963739395142,
      "learning_rate": 0.00023540993905205192,
      "loss": 3.9326,
      "step": 148830
    },
    {
      "epoch": 0.3100833333333333,
      "grad_norm": 0.7105778455734253,
      "learning_rate": 0.00023540183453564913,
      "loss": 3.8846,
      "step": 148840
    },
    {
      "epoch": 0.3101041666666667,
      "grad_norm": 0.8227768540382385,
      "learning_rate": 0.00023539372965034424,
      "loss": 3.9761,
      "step": 148850
    },
    {
      "epoch": 0.310125,
      "grad_norm": 0.831312894821167,
      "learning_rate": 0.0002353856243961722,
      "loss": 3.736,
      "step": 148860
    },
    {
      "epoch": 0.31014583333333334,
      "grad_norm": 0.7564826607704163,
      "learning_rate": 0.0002353775187731681,
      "loss": 3.8161,
      "step": 148870
    },
    {
      "epoch": 0.31016666666666665,
      "grad_norm": 0.7455343008041382,
      "learning_rate": 0.00023536941278136692,
      "loss": 4.0404,
      "step": 148880
    },
    {
      "epoch": 0.3101875,
      "grad_norm": 0.8165285587310791,
      "learning_rate": 0.00023536130642080365,
      "loss": 3.9373,
      "step": 148890
    },
    {
      "epoch": 0.3102083333333333,
      "grad_norm": 0.7908169031143188,
      "learning_rate": 0.00023535319969151332,
      "loss": 3.8052,
      "step": 148900
    },
    {
      "epoch": 0.31022916666666667,
      "grad_norm": 0.8558760285377502,
      "learning_rate": 0.00023534509259353094,
      "loss": 3.6137,
      "step": 148910
    },
    {
      "epoch": 0.31025,
      "grad_norm": 0.9535863995552063,
      "learning_rate": 0.00023533698512689157,
      "loss": 4.0607,
      "step": 148920
    },
    {
      "epoch": 0.31027083333333333,
      "grad_norm": 0.6787382960319519,
      "learning_rate": 0.00023532887729163016,
      "loss": 3.7525,
      "step": 148930
    },
    {
      "epoch": 0.3102916666666667,
      "grad_norm": 0.7809671759605408,
      "learning_rate": 0.00023532076908778184,
      "loss": 3.8212,
      "step": 148940
    },
    {
      "epoch": 0.3103125,
      "grad_norm": 0.8263019323348999,
      "learning_rate": 0.0002353126605153815,
      "loss": 3.9215,
      "step": 148950
    },
    {
      "epoch": 0.31033333333333335,
      "grad_norm": 0.7585077881813049,
      "learning_rate": 0.0002353045515744643,
      "loss": 3.8608,
      "step": 148960
    },
    {
      "epoch": 0.31035416666666665,
      "grad_norm": 0.7656912207603455,
      "learning_rate": 0.0002352964422650652,
      "loss": 4.0039,
      "step": 148970
    },
    {
      "epoch": 0.310375,
      "grad_norm": 0.7157415747642517,
      "learning_rate": 0.0002352883325872192,
      "loss": 3.8877,
      "step": 148980
    },
    {
      "epoch": 0.3103958333333333,
      "grad_norm": 0.8016668558120728,
      "learning_rate": 0.00023528022254096136,
      "loss": 3.7284,
      "step": 148990
    },
    {
      "epoch": 0.3104166666666667,
      "grad_norm": 0.7740583419799805,
      "learning_rate": 0.00023527211212632674,
      "loss": 4.0697,
      "step": 149000
    },
    {
      "epoch": 0.3104166666666667,
      "eval_loss": 4.201578617095947,
      "eval_runtime": 10.2365,
      "eval_samples_per_second": 0.977,
      "eval_steps_per_second": 0.293,
      "step": 149000
    },
    {
      "epoch": 0.3104375,
      "grad_norm": 0.8321056962013245,
      "learning_rate": 0.00023526400134335035,
      "loss": 3.8088,
      "step": 149010
    },
    {
      "epoch": 0.31045833333333334,
      "grad_norm": 0.6839714646339417,
      "learning_rate": 0.00023525589019206722,
      "loss": 3.9453,
      "step": 149020
    },
    {
      "epoch": 0.31047916666666664,
      "grad_norm": 0.7635685801506042,
      "learning_rate": 0.00023524777867251235,
      "loss": 3.9154,
      "step": 149030
    },
    {
      "epoch": 0.3105,
      "grad_norm": 0.6910764575004578,
      "learning_rate": 0.00023523966678472085,
      "loss": 4.007,
      "step": 149040
    },
    {
      "epoch": 0.31052083333333336,
      "grad_norm": 0.7861680388450623,
      "learning_rate": 0.00023523155452872773,
      "loss": 3.9799,
      "step": 149050
    },
    {
      "epoch": 0.31054166666666666,
      "grad_norm": 0.8286615610122681,
      "learning_rate": 0.00023522344190456804,
      "loss": 3.9691,
      "step": 149060
    },
    {
      "epoch": 0.3105625,
      "grad_norm": 0.7605079412460327,
      "learning_rate": 0.00023521532891227677,
      "loss": 3.7217,
      "step": 149070
    },
    {
      "epoch": 0.3105833333333333,
      "grad_norm": 0.7576153874397278,
      "learning_rate": 0.00023520721555188908,
      "loss": 3.7823,
      "step": 149080
    },
    {
      "epoch": 0.3106041666666667,
      "grad_norm": 0.6908245086669922,
      "learning_rate": 0.00023519910182343993,
      "loss": 3.9525,
      "step": 149090
    },
    {
      "epoch": 0.310625,
      "grad_norm": 0.860221803188324,
      "learning_rate": 0.00023519098772696435,
      "loss": 3.7341,
      "step": 149100
    },
    {
      "epoch": 0.31064583333333334,
      "grad_norm": 0.8470463752746582,
      "learning_rate": 0.00023518287326249746,
      "loss": 3.8161,
      "step": 149110
    },
    {
      "epoch": 0.31066666666666665,
      "grad_norm": 0.7348676323890686,
      "learning_rate": 0.00023517475843007422,
      "loss": 3.7691,
      "step": 149120
    },
    {
      "epoch": 0.3106875,
      "grad_norm": 0.8482905030250549,
      "learning_rate": 0.00023516664322972977,
      "loss": 3.9944,
      "step": 149130
    },
    {
      "epoch": 0.3107083333333333,
      "grad_norm": 0.7754638195037842,
      "learning_rate": 0.00023515852766149914,
      "loss": 3.8807,
      "step": 149140
    },
    {
      "epoch": 0.31072916666666667,
      "grad_norm": 0.9429773092269897,
      "learning_rate": 0.00023515041172541735,
      "loss": 3.8578,
      "step": 149150
    },
    {
      "epoch": 0.31075,
      "grad_norm": 0.7802019715309143,
      "learning_rate": 0.00023514229542151956,
      "loss": 4.0433,
      "step": 149160
    },
    {
      "epoch": 0.31077083333333333,
      "grad_norm": 0.7548902630805969,
      "learning_rate": 0.00023513417874984068,
      "loss": 3.8868,
      "step": 149170
    },
    {
      "epoch": 0.3107916666666667,
      "grad_norm": 0.8527351021766663,
      "learning_rate": 0.00023512606171041588,
      "loss": 3.9426,
      "step": 149180
    },
    {
      "epoch": 0.3108125,
      "grad_norm": 0.7857971787452698,
      "learning_rate": 0.0002351179443032802,
      "loss": 3.8335,
      "step": 149190
    },
    {
      "epoch": 0.31083333333333335,
      "grad_norm": 0.8805367350578308,
      "learning_rate": 0.00023510982652846866,
      "loss": 3.6943,
      "step": 149200
    },
    {
      "epoch": 0.31085416666666665,
      "grad_norm": 0.7022283673286438,
      "learning_rate": 0.0002351017083860164,
      "loss": 3.8529,
      "step": 149210
    },
    {
      "epoch": 0.310875,
      "grad_norm": 0.8903633952140808,
      "learning_rate": 0.0002350935898759584,
      "loss": 3.8655,
      "step": 149220
    },
    {
      "epoch": 0.3108958333333333,
      "grad_norm": 0.7202417850494385,
      "learning_rate": 0.00023508547099832978,
      "loss": 3.9061,
      "step": 149230
    },
    {
      "epoch": 0.3109166666666667,
      "grad_norm": 0.8465707898139954,
      "learning_rate": 0.00023507735175316562,
      "loss": 3.8255,
      "step": 149240
    },
    {
      "epoch": 0.3109375,
      "grad_norm": 0.7075151801109314,
      "learning_rate": 0.00023506923214050096,
      "loss": 3.9825,
      "step": 149250
    },
    {
      "epoch": 0.31095833333333334,
      "grad_norm": 0.7255030274391174,
      "learning_rate": 0.00023506111216037095,
      "loss": 3.8556,
      "step": 149260
    },
    {
      "epoch": 0.31097916666666664,
      "grad_norm": 0.7427261471748352,
      "learning_rate": 0.00023505299181281054,
      "loss": 3.9561,
      "step": 149270
    },
    {
      "epoch": 0.311,
      "grad_norm": 0.7715480327606201,
      "learning_rate": 0.00023504487109785488,
      "loss": 3.6987,
      "step": 149280
    },
    {
      "epoch": 0.31102083333333336,
      "grad_norm": 0.7938768267631531,
      "learning_rate": 0.00023503675001553906,
      "loss": 3.6793,
      "step": 149290
    },
    {
      "epoch": 0.31104166666666666,
      "grad_norm": 0.7547907829284668,
      "learning_rate": 0.00023502862856589812,
      "loss": 3.8711,
      "step": 149300
    },
    {
      "epoch": 0.3110625,
      "grad_norm": 0.7566395998001099,
      "learning_rate": 0.00023502050674896715,
      "loss": 3.8651,
      "step": 149310
    },
    {
      "epoch": 0.3110833333333333,
      "grad_norm": 0.8750239014625549,
      "learning_rate": 0.00023501238456478124,
      "loss": 3.7891,
      "step": 149320
    },
    {
      "epoch": 0.3111041666666667,
      "grad_norm": 0.7096672654151917,
      "learning_rate": 0.00023500426201337554,
      "loss": 3.8353,
      "step": 149330
    },
    {
      "epoch": 0.311125,
      "grad_norm": 0.8511390089988708,
      "learning_rate": 0.00023499613909478504,
      "loss": 3.7897,
      "step": 149340
    },
    {
      "epoch": 0.31114583333333334,
      "grad_norm": 0.7579299807548523,
      "learning_rate": 0.00023498801580904485,
      "loss": 3.9311,
      "step": 149350
    },
    {
      "epoch": 0.31116666666666665,
      "grad_norm": 1.019452691078186,
      "learning_rate": 0.00023497989215619006,
      "loss": 4.0646,
      "step": 149360
    },
    {
      "epoch": 0.3111875,
      "grad_norm": 0.7063214182853699,
      "learning_rate": 0.00023497176813625583,
      "loss": 3.582,
      "step": 149370
    },
    {
      "epoch": 0.3112083333333333,
      "grad_norm": 0.7881917357444763,
      "learning_rate": 0.00023496364374927714,
      "loss": 3.9476,
      "step": 149380
    },
    {
      "epoch": 0.31122916666666667,
      "grad_norm": 0.6649103164672852,
      "learning_rate": 0.0002349555189952892,
      "loss": 3.8806,
      "step": 149390
    },
    {
      "epoch": 0.31125,
      "grad_norm": 0.8177562355995178,
      "learning_rate": 0.00023494739387432698,
      "loss": 3.9237,
      "step": 149400
    },
    {
      "epoch": 0.31127083333333333,
      "grad_norm": 0.7172955274581909,
      "learning_rate": 0.0002349392683864257,
      "loss": 3.957,
      "step": 149410
    },
    {
      "epoch": 0.3112916666666667,
      "grad_norm": 0.8409459590911865,
      "learning_rate": 0.00023493114253162034,
      "loss": 3.9091,
      "step": 149420
    },
    {
      "epoch": 0.3113125,
      "grad_norm": 0.8018367886543274,
      "learning_rate": 0.0002349230163099461,
      "loss": 3.786,
      "step": 149430
    },
    {
      "epoch": 0.31133333333333335,
      "grad_norm": 0.7449060678482056,
      "learning_rate": 0.00023491488972143804,
      "loss": 3.9754,
      "step": 149440
    },
    {
      "epoch": 0.31135416666666665,
      "grad_norm": 0.7210964560508728,
      "learning_rate": 0.00023490676276613124,
      "loss": 4.0012,
      "step": 149450
    },
    {
      "epoch": 0.311375,
      "grad_norm": 0.9360355138778687,
      "learning_rate": 0.0002348986354440609,
      "loss": 3.6509,
      "step": 149460
    },
    {
      "epoch": 0.3113958333333333,
      "grad_norm": 0.7252681255340576,
      "learning_rate": 0.000234890507755262,
      "loss": 3.947,
      "step": 149470
    },
    {
      "epoch": 0.3114166666666667,
      "grad_norm": 0.720306932926178,
      "learning_rate": 0.00023488237969976973,
      "loss": 3.6732,
      "step": 149480
    },
    {
      "epoch": 0.3114375,
      "grad_norm": 0.6817887425422668,
      "learning_rate": 0.00023487425127761917,
      "loss": 3.9169,
      "step": 149490
    },
    {
      "epoch": 0.31145833333333334,
      "grad_norm": 0.777643084526062,
      "learning_rate": 0.00023486612248884545,
      "loss": 3.8156,
      "step": 149500
    },
    {
      "epoch": 0.31147916666666664,
      "grad_norm": 1.4565786123275757,
      "learning_rate": 0.00023485799333348368,
      "loss": 3.9156,
      "step": 149510
    },
    {
      "epoch": 0.3115,
      "grad_norm": 0.7257287502288818,
      "learning_rate": 0.00023484986381156896,
      "loss": 3.776,
      "step": 149520
    },
    {
      "epoch": 0.31152083333333336,
      "grad_norm": 0.6884384155273438,
      "learning_rate": 0.00023484173392313644,
      "loss": 3.9426,
      "step": 149530
    },
    {
      "epoch": 0.31154166666666666,
      "grad_norm": 0.7069519758224487,
      "learning_rate": 0.0002348336036682212,
      "loss": 3.8694,
      "step": 149540
    },
    {
      "epoch": 0.3115625,
      "grad_norm": 1.1558600664138794,
      "learning_rate": 0.00023482547304685836,
      "loss": 3.8552,
      "step": 149550
    },
    {
      "epoch": 0.3115833333333333,
      "grad_norm": 0.7138083577156067,
      "learning_rate": 0.00023481734205908303,
      "loss": 3.7657,
      "step": 149560
    },
    {
      "epoch": 0.3116041666666667,
      "grad_norm": 0.7581455707550049,
      "learning_rate": 0.00023480921070493036,
      "loss": 3.8361,
      "step": 149570
    },
    {
      "epoch": 0.311625,
      "grad_norm": 0.8295230865478516,
      "learning_rate": 0.0002348010789844355,
      "loss": 3.8952,
      "step": 149580
    },
    {
      "epoch": 0.31164583333333334,
      "grad_norm": 0.7868367433547974,
      "learning_rate": 0.00023479294689763352,
      "loss": 4.0976,
      "step": 149590
    },
    {
      "epoch": 0.31166666666666665,
      "grad_norm": 0.8064396381378174,
      "learning_rate": 0.0002347848144445596,
      "loss": 3.9204,
      "step": 149600
    },
    {
      "epoch": 0.3116875,
      "grad_norm": 0.8082475066184998,
      "learning_rate": 0.00023477668162524877,
      "loss": 3.8457,
      "step": 149610
    },
    {
      "epoch": 0.3117083333333333,
      "grad_norm": 0.8306107521057129,
      "learning_rate": 0.0002347685484397363,
      "loss": 4.0155,
      "step": 149620
    },
    {
      "epoch": 0.31172916666666667,
      "grad_norm": 0.7173776030540466,
      "learning_rate": 0.00023476041488805727,
      "loss": 3.9655,
      "step": 149630
    },
    {
      "epoch": 0.31175,
      "grad_norm": 0.6878712177276611,
      "learning_rate": 0.0002347522809702468,
      "loss": 3.9094,
      "step": 149640
    },
    {
      "epoch": 0.31177083333333333,
      "grad_norm": 0.6985025405883789,
      "learning_rate": 0.00023474414668633994,
      "loss": 3.9201,
      "step": 149650
    },
    {
      "epoch": 0.3117916666666667,
      "grad_norm": 0.7829439043998718,
      "learning_rate": 0.000234736012036372,
      "loss": 3.8852,
      "step": 149660
    },
    {
      "epoch": 0.3118125,
      "grad_norm": 0.8119215369224548,
      "learning_rate": 0.00023472787702037798,
      "loss": 3.726,
      "step": 149670
    },
    {
      "epoch": 0.31183333333333335,
      "grad_norm": 0.8100839257240295,
      "learning_rate": 0.00023471974163839307,
      "loss": 3.8004,
      "step": 149680
    },
    {
      "epoch": 0.31185416666666665,
      "grad_norm": 0.8940759897232056,
      "learning_rate": 0.00023471160589045247,
      "loss": 3.8642,
      "step": 149690
    },
    {
      "epoch": 0.311875,
      "grad_norm": 0.7174542546272278,
      "learning_rate": 0.00023470346977659117,
      "loss": 3.7547,
      "step": 149700
    },
    {
      "epoch": 0.3118958333333333,
      "grad_norm": 0.6955791711807251,
      "learning_rate": 0.00023469533329684446,
      "loss": 4.0621,
      "step": 149710
    },
    {
      "epoch": 0.3119166666666667,
      "grad_norm": 0.9161574840545654,
      "learning_rate": 0.00023468719645124744,
      "loss": 3.8972,
      "step": 149720
    },
    {
      "epoch": 0.3119375,
      "grad_norm": 0.8533430695533752,
      "learning_rate": 0.0002346790592398352,
      "loss": 3.83,
      "step": 149730
    },
    {
      "epoch": 0.31195833333333334,
      "grad_norm": 0.79462069272995,
      "learning_rate": 0.000234670921662643,
      "loss": 3.9513,
      "step": 149740
    },
    {
      "epoch": 0.31197916666666664,
      "grad_norm": 0.7633882761001587,
      "learning_rate": 0.00023466278371970592,
      "loss": 3.8999,
      "step": 149750
    },
    {
      "epoch": 0.312,
      "grad_norm": 0.8135151267051697,
      "learning_rate": 0.00023465464541105914,
      "loss": 3.6513,
      "step": 149760
    },
    {
      "epoch": 0.31202083333333336,
      "grad_norm": 0.7338120937347412,
      "learning_rate": 0.0002346465067367378,
      "loss": 3.7528,
      "step": 149770
    },
    {
      "epoch": 0.31204166666666666,
      "grad_norm": 0.7814091444015503,
      "learning_rate": 0.00023463836769677704,
      "loss": 3.8081,
      "step": 149780
    },
    {
      "epoch": 0.3120625,
      "grad_norm": 0.7694616317749023,
      "learning_rate": 0.00023463022829121202,
      "loss": 3.8848,
      "step": 149790
    },
    {
      "epoch": 0.3120833333333333,
      "grad_norm": 0.7115181684494019,
      "learning_rate": 0.00023462208852007794,
      "loss": 3.7659,
      "step": 149800
    },
    {
      "epoch": 0.3121041666666667,
      "grad_norm": 1.1398409605026245,
      "learning_rate": 0.00023461394838340992,
      "loss": 3.9632,
      "step": 149810
    },
    {
      "epoch": 0.312125,
      "grad_norm": 0.7169707417488098,
      "learning_rate": 0.0002346058078812431,
      "loss": 3.7088,
      "step": 149820
    },
    {
      "epoch": 0.31214583333333334,
      "grad_norm": 0.9930000901222229,
      "learning_rate": 0.00023459766701361274,
      "loss": 3.7275,
      "step": 149830
    },
    {
      "epoch": 0.31216666666666665,
      "grad_norm": 0.7352747321128845,
      "learning_rate": 0.00023458952578055394,
      "loss": 3.8252,
      "step": 149840
    },
    {
      "epoch": 0.3121875,
      "grad_norm": 0.6530440449714661,
      "learning_rate": 0.0002345813841821018,
      "loss": 3.722,
      "step": 149850
    },
    {
      "epoch": 0.3122083333333333,
      "grad_norm": 0.9105616807937622,
      "learning_rate": 0.00023457324221829164,
      "loss": 4.0075,
      "step": 149860
    },
    {
      "epoch": 0.31222916666666667,
      "grad_norm": 0.8865585327148438,
      "learning_rate": 0.0002345650998891585,
      "loss": 3.9074,
      "step": 149870
    },
    {
      "epoch": 0.31225,
      "grad_norm": 0.704622209072113,
      "learning_rate": 0.00023455695719473764,
      "loss": 3.9968,
      "step": 149880
    },
    {
      "epoch": 0.31227083333333333,
      "grad_norm": 0.7930744290351868,
      "learning_rate": 0.00023454881413506422,
      "loss": 3.9743,
      "step": 149890
    },
    {
      "epoch": 0.3122916666666667,
      "grad_norm": 0.710952639579773,
      "learning_rate": 0.00023454067071017334,
      "loss": 3.8489,
      "step": 149900
    },
    {
      "epoch": 0.3123125,
      "grad_norm": 0.8279070258140564,
      "learning_rate": 0.0002345325269201002,
      "loss": 4.0267,
      "step": 149910
    },
    {
      "epoch": 0.31233333333333335,
      "grad_norm": 0.7468821406364441,
      "learning_rate": 0.00023452438276488005,
      "loss": 4.0269,
      "step": 149920
    },
    {
      "epoch": 0.31235416666666665,
      "grad_norm": 0.7944055795669556,
      "learning_rate": 0.000234516238244548,
      "loss": 3.8382,
      "step": 149930
    },
    {
      "epoch": 0.312375,
      "grad_norm": 0.8884439468383789,
      "learning_rate": 0.00023450809335913927,
      "loss": 3.7443,
      "step": 149940
    },
    {
      "epoch": 0.3123958333333333,
      "grad_norm": 0.9039425849914551,
      "learning_rate": 0.00023449994810868902,
      "loss": 3.9954,
      "step": 149950
    },
    {
      "epoch": 0.3124166666666667,
      "grad_norm": 0.8432046175003052,
      "learning_rate": 0.00023449180249323243,
      "loss": 3.7948,
      "step": 149960
    },
    {
      "epoch": 0.3124375,
      "grad_norm": 1.0496952533721924,
      "learning_rate": 0.00023448365651280472,
      "loss": 3.901,
      "step": 149970
    },
    {
      "epoch": 0.31245833333333334,
      "grad_norm": 0.7715217471122742,
      "learning_rate": 0.00023447551016744106,
      "loss": 3.803,
      "step": 149980
    },
    {
      "epoch": 0.31247916666666664,
      "grad_norm": 0.7916427850723267,
      "learning_rate": 0.0002344673634571766,
      "loss": 3.8095,
      "step": 149990
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.8263709545135498,
      "learning_rate": 0.0002344592163820466,
      "loss": 3.9828,
      "step": 150000
    },
    {
      "epoch": 0.3125,
      "eval_loss": 4.20870304107666,
      "eval_runtime": 11.0197,
      "eval_samples_per_second": 0.907,
      "eval_steps_per_second": 0.272,
      "step": 150000
    },
    {
      "epoch": 0.31252083333333336,
      "grad_norm": 0.7902944684028625,
      "learning_rate": 0.00023445106894208622,
      "loss": 3.8976,
      "step": 150010
    },
    {
      "epoch": 0.31254166666666666,
      "grad_norm": 0.7717652916908264,
      "learning_rate": 0.00023444292113733063,
      "loss": 3.9246,
      "step": 150020
    },
    {
      "epoch": 0.3125625,
      "grad_norm": 0.7132194638252258,
      "learning_rate": 0.00023443477296781505,
      "loss": 3.9778,
      "step": 150030
    },
    {
      "epoch": 0.3125833333333333,
      "grad_norm": 0.8409616351127625,
      "learning_rate": 0.00023442662443357465,
      "loss": 3.865,
      "step": 150040
    },
    {
      "epoch": 0.3126041666666667,
      "grad_norm": 0.8054368495941162,
      "learning_rate": 0.00023441847553464467,
      "loss": 3.7809,
      "step": 150050
    },
    {
      "epoch": 0.312625,
      "grad_norm": 1.2198190689086914,
      "learning_rate": 0.0002344103262710603,
      "loss": 3.842,
      "step": 150060
    },
    {
      "epoch": 0.31264583333333335,
      "grad_norm": 0.8407183885574341,
      "learning_rate": 0.0002344021766428567,
      "loss": 3.9108,
      "step": 150070
    },
    {
      "epoch": 0.31266666666666665,
      "grad_norm": 0.9057486057281494,
      "learning_rate": 0.00023439402665006913,
      "loss": 3.7524,
      "step": 150080
    },
    {
      "epoch": 0.3126875,
      "grad_norm": 0.7903375625610352,
      "learning_rate": 0.00023438587629273278,
      "loss": 3.852,
      "step": 150090
    },
    {
      "epoch": 0.3127083333333333,
      "grad_norm": 0.7914307713508606,
      "learning_rate": 0.00023437772557088283,
      "loss": 3.8981,
      "step": 150100
    },
    {
      "epoch": 0.31272916666666667,
      "grad_norm": 0.7460343241691589,
      "learning_rate": 0.00023436957448455452,
      "loss": 3.9612,
      "step": 150110
    },
    {
      "epoch": 0.31275,
      "grad_norm": 0.7286447286605835,
      "learning_rate": 0.000234361423033783,
      "loss": 3.9391,
      "step": 150120
    },
    {
      "epoch": 0.31277083333333333,
      "grad_norm": 0.8660678267478943,
      "learning_rate": 0.00023435327121860362,
      "loss": 3.8459,
      "step": 150130
    },
    {
      "epoch": 0.3127916666666667,
      "grad_norm": 0.7472611665725708,
      "learning_rate": 0.00023434511903905144,
      "loss": 3.7617,
      "step": 150140
    },
    {
      "epoch": 0.3128125,
      "grad_norm": 0.837967574596405,
      "learning_rate": 0.00023433696649516168,
      "loss": 3.765,
      "step": 150150
    },
    {
      "epoch": 0.31283333333333335,
      "grad_norm": 0.951878011226654,
      "learning_rate": 0.00023432881358696967,
      "loss": 3.8282,
      "step": 150160
    },
    {
      "epoch": 0.31285416666666666,
      "grad_norm": 0.8337476253509521,
      "learning_rate": 0.00023432066031451056,
      "loss": 3.8528,
      "step": 150170
    },
    {
      "epoch": 0.312875,
      "grad_norm": 0.8074238300323486,
      "learning_rate": 0.00023431250667781958,
      "loss": 3.8378,
      "step": 150180
    },
    {
      "epoch": 0.3128958333333333,
      "grad_norm": 0.7832789421081543,
      "learning_rate": 0.00023430435267693191,
      "loss": 3.9533,
      "step": 150190
    },
    {
      "epoch": 0.3129166666666667,
      "grad_norm": 0.7838262319564819,
      "learning_rate": 0.00023429619831188283,
      "loss": 3.9086,
      "step": 150200
    },
    {
      "epoch": 0.3129375,
      "grad_norm": 0.7804915904998779,
      "learning_rate": 0.00023428804358270754,
      "loss": 4.0208,
      "step": 150210
    },
    {
      "epoch": 0.31295833333333334,
      "grad_norm": 0.7998875379562378,
      "learning_rate": 0.00023427988848944122,
      "loss": 3.6752,
      "step": 150220
    },
    {
      "epoch": 0.31297916666666664,
      "grad_norm": 0.9584560990333557,
      "learning_rate": 0.00023427173303211922,
      "loss": 3.9403,
      "step": 150230
    },
    {
      "epoch": 0.313,
      "grad_norm": 0.8235063552856445,
      "learning_rate": 0.0002342635772107767,
      "loss": 3.8762,
      "step": 150240
    },
    {
      "epoch": 0.31302083333333336,
      "grad_norm": 0.7682621479034424,
      "learning_rate": 0.00023425542102544877,
      "loss": 3.8021,
      "step": 150250
    },
    {
      "epoch": 0.31304166666666666,
      "grad_norm": 0.7656262516975403,
      "learning_rate": 0.0002342472644761709,
      "loss": 3.88,
      "step": 150260
    },
    {
      "epoch": 0.3130625,
      "grad_norm": 0.8191246390342712,
      "learning_rate": 0.00023423910756297807,
      "loss": 4.1385,
      "step": 150270
    },
    {
      "epoch": 0.3130833333333333,
      "grad_norm": 0.786157488822937,
      "learning_rate": 0.00023423095028590572,
      "loss": 3.8109,
      "step": 150280
    },
    {
      "epoch": 0.3131041666666667,
      "grad_norm": 0.9636287093162537,
      "learning_rate": 0.00023422279264498903,
      "loss": 3.8392,
      "step": 150290
    },
    {
      "epoch": 0.313125,
      "grad_norm": 0.7230552434921265,
      "learning_rate": 0.00023421463464026314,
      "loss": 3.7636,
      "step": 150300
    },
    {
      "epoch": 0.31314583333333335,
      "grad_norm": 0.7739553451538086,
      "learning_rate": 0.00023420647627176344,
      "loss": 3.915,
      "step": 150310
    },
    {
      "epoch": 0.31316666666666665,
      "grad_norm": 0.7346723079681396,
      "learning_rate": 0.000234198317539525,
      "loss": 3.9225,
      "step": 150320
    },
    {
      "epoch": 0.3131875,
      "grad_norm": 0.8155130743980408,
      "learning_rate": 0.0002341901584435832,
      "loss": 3.838,
      "step": 150330
    },
    {
      "epoch": 0.3132083333333333,
      "grad_norm": 0.6821978688240051,
      "learning_rate": 0.00023418199898397326,
      "loss": 3.9032,
      "step": 150340
    },
    {
      "epoch": 0.31322916666666667,
      "grad_norm": 0.6989527344703674,
      "learning_rate": 0.00023417383916073036,
      "loss": 3.8883,
      "step": 150350
    },
    {
      "epoch": 0.31325,
      "grad_norm": 0.6972786784172058,
      "learning_rate": 0.00023416567897388985,
      "loss": 3.8305,
      "step": 150360
    },
    {
      "epoch": 0.31327083333333333,
      "grad_norm": 0.9383766055107117,
      "learning_rate": 0.0002341575184234869,
      "loss": 3.9844,
      "step": 150370
    },
    {
      "epoch": 0.3132916666666667,
      "grad_norm": 1.0584620237350464,
      "learning_rate": 0.0002341493575095568,
      "loss": 3.8204,
      "step": 150380
    },
    {
      "epoch": 0.3133125,
      "grad_norm": 0.7849805951118469,
      "learning_rate": 0.00023414119623213473,
      "loss": 3.8885,
      "step": 150390
    },
    {
      "epoch": 0.31333333333333335,
      "grad_norm": 0.6669514775276184,
      "learning_rate": 0.00023413303459125602,
      "loss": 3.8183,
      "step": 150400
    },
    {
      "epoch": 0.31335416666666666,
      "grad_norm": 0.9220631718635559,
      "learning_rate": 0.0002341248725869559,
      "loss": 3.7256,
      "step": 150410
    },
    {
      "epoch": 0.313375,
      "grad_norm": 0.7554983496665955,
      "learning_rate": 0.00023411671021926969,
      "loss": 3.8953,
      "step": 150420
    },
    {
      "epoch": 0.3133958333333333,
      "grad_norm": 0.7705110311508179,
      "learning_rate": 0.0002341085474882325,
      "loss": 3.9809,
      "step": 150430
    },
    {
      "epoch": 0.3134166666666667,
      "grad_norm": 0.7235067486763,
      "learning_rate": 0.0002341003843938797,
      "loss": 3.8796,
      "step": 150440
    },
    {
      "epoch": 0.3134375,
      "grad_norm": 0.7197960615158081,
      "learning_rate": 0.00023409222093624655,
      "loss": 3.8565,
      "step": 150450
    },
    {
      "epoch": 0.31345833333333334,
      "grad_norm": 0.7510572671890259,
      "learning_rate": 0.0002340840571153683,
      "loss": 3.9254,
      "step": 150460
    },
    {
      "epoch": 0.31347916666666664,
      "grad_norm": 0.7345244884490967,
      "learning_rate": 0.0002340758929312802,
      "loss": 3.6252,
      "step": 150470
    },
    {
      "epoch": 0.3135,
      "grad_norm": 0.7594490051269531,
      "learning_rate": 0.00023406772838401754,
      "loss": 3.9226,
      "step": 150480
    },
    {
      "epoch": 0.31352083333333336,
      "grad_norm": 0.7665515542030334,
      "learning_rate": 0.0002340595634736155,
      "loss": 3.9076,
      "step": 150490
    },
    {
      "epoch": 0.31354166666666666,
      "grad_norm": 0.7433122396469116,
      "learning_rate": 0.00023405139820010948,
      "loss": 3.7907,
      "step": 150500
    },
    {
      "epoch": 0.3135625,
      "grad_norm": 0.6759931445121765,
      "learning_rate": 0.00023404323256353467,
      "loss": 3.9287,
      "step": 150510
    },
    {
      "epoch": 0.3135833333333333,
      "grad_norm": 0.7139696478843689,
      "learning_rate": 0.00023403506656392636,
      "loss": 3.9665,
      "step": 150520
    },
    {
      "epoch": 0.3136041666666667,
      "grad_norm": 0.7955859899520874,
      "learning_rate": 0.00023402690020131982,
      "loss": 4.1217,
      "step": 150530
    },
    {
      "epoch": 0.313625,
      "grad_norm": 0.9111461639404297,
      "learning_rate": 0.00023401873347575033,
      "loss": 3.7041,
      "step": 150540
    },
    {
      "epoch": 0.31364583333333335,
      "grad_norm": 0.7722597718238831,
      "learning_rate": 0.0002340105663872532,
      "loss": 3.8502,
      "step": 150550
    },
    {
      "epoch": 0.31366666666666665,
      "grad_norm": 0.7175629138946533,
      "learning_rate": 0.00023400239893586365,
      "loss": 3.9579,
      "step": 150560
    },
    {
      "epoch": 0.3136875,
      "grad_norm": 0.745150089263916,
      "learning_rate": 0.000233994231121617,
      "loss": 3.8313,
      "step": 150570
    },
    {
      "epoch": 0.3137083333333333,
      "grad_norm": 0.8045585751533508,
      "learning_rate": 0.0002339860629445485,
      "loss": 3.8294,
      "step": 150580
    },
    {
      "epoch": 0.31372916666666667,
      "grad_norm": 0.678386390209198,
      "learning_rate": 0.00023397789440469347,
      "loss": 3.8322,
      "step": 150590
    },
    {
      "epoch": 0.31375,
      "grad_norm": 0.8445745706558228,
      "learning_rate": 0.0002339697255020872,
      "loss": 3.7841,
      "step": 150600
    },
    {
      "epoch": 0.31377083333333333,
      "grad_norm": 0.8154638409614563,
      "learning_rate": 0.0002339615562367649,
      "loss": 3.8536,
      "step": 150610
    },
    {
      "epoch": 0.3137916666666667,
      "grad_norm": 0.7746121287345886,
      "learning_rate": 0.00023395338660876195,
      "loss": 3.9898,
      "step": 150620
    },
    {
      "epoch": 0.3138125,
      "grad_norm": 0.9071253538131714,
      "learning_rate": 0.00023394521661811358,
      "loss": 3.8381,
      "step": 150630
    },
    {
      "epoch": 0.31383333333333335,
      "grad_norm": 0.9453405141830444,
      "learning_rate": 0.0002339370462648551,
      "loss": 3.799,
      "step": 150640
    },
    {
      "epoch": 0.31385416666666666,
      "grad_norm": 0.8983124494552612,
      "learning_rate": 0.0002339288755490218,
      "loss": 3.6653,
      "step": 150650
    },
    {
      "epoch": 0.313875,
      "grad_norm": 0.7719236016273499,
      "learning_rate": 0.000233920704470649,
      "loss": 3.892,
      "step": 150660
    },
    {
      "epoch": 0.3138958333333333,
      "grad_norm": 0.842664897441864,
      "learning_rate": 0.00023391253302977192,
      "loss": 3.8142,
      "step": 150670
    },
    {
      "epoch": 0.3139166666666667,
      "grad_norm": 0.816099226474762,
      "learning_rate": 0.000233904361226426,
      "loss": 3.8996,
      "step": 150680
    },
    {
      "epoch": 0.3139375,
      "grad_norm": 0.9059946537017822,
      "learning_rate": 0.0002338961890606464,
      "loss": 3.841,
      "step": 150690
    },
    {
      "epoch": 0.31395833333333334,
      "grad_norm": 0.6891095042228699,
      "learning_rate": 0.0002338880165324685,
      "loss": 3.7029,
      "step": 150700
    },
    {
      "epoch": 0.31397916666666664,
      "grad_norm": 0.7129541039466858,
      "learning_rate": 0.00023387984364192757,
      "loss": 3.9402,
      "step": 150710
    },
    {
      "epoch": 0.314,
      "grad_norm": 0.8540549874305725,
      "learning_rate": 0.00023387167038905888,
      "loss": 4.0575,
      "step": 150720
    },
    {
      "epoch": 0.31402083333333336,
      "grad_norm": 0.9445596933364868,
      "learning_rate": 0.0002338634967738978,
      "loss": 3.8259,
      "step": 150730
    },
    {
      "epoch": 0.31404166666666666,
      "grad_norm": 0.8094345331192017,
      "learning_rate": 0.0002338553227964796,
      "loss": 3.8423,
      "step": 150740
    },
    {
      "epoch": 0.3140625,
      "grad_norm": 0.7339176535606384,
      "learning_rate": 0.0002338471484568396,
      "loss": 3.9803,
      "step": 150750
    },
    {
      "epoch": 0.3140833333333333,
      "grad_norm": 1.0422704219818115,
      "learning_rate": 0.00023383897375501314,
      "loss": 3.6711,
      "step": 150760
    },
    {
      "epoch": 0.3141041666666667,
      "grad_norm": 0.7605181336402893,
      "learning_rate": 0.00023383079869103546,
      "loss": 3.8635,
      "step": 150770
    },
    {
      "epoch": 0.314125,
      "grad_norm": 0.8287238478660583,
      "learning_rate": 0.00023382262326494192,
      "loss": 3.7781,
      "step": 150780
    },
    {
      "epoch": 0.31414583333333335,
      "grad_norm": 0.7087110877037048,
      "learning_rate": 0.00023381444747676785,
      "loss": 3.8319,
      "step": 150790
    },
    {
      "epoch": 0.31416666666666665,
      "grad_norm": 0.8143080472946167,
      "learning_rate": 0.00023380627132654847,
      "loss": 3.9559,
      "step": 150800
    },
    {
      "epoch": 0.3141875,
      "grad_norm": 0.8767675757408142,
      "learning_rate": 0.00023379809481431925,
      "loss": 3.9052,
      "step": 150810
    },
    {
      "epoch": 0.3142083333333333,
      "grad_norm": 1.0529382228851318,
      "learning_rate": 0.0002337899179401154,
      "loss": 3.7735,
      "step": 150820
    },
    {
      "epoch": 0.31422916666666667,
      "grad_norm": 1.3954741954803467,
      "learning_rate": 0.00023378174070397227,
      "loss": 3.838,
      "step": 150830
    },
    {
      "epoch": 0.31425,
      "grad_norm": 0.7341136932373047,
      "learning_rate": 0.0002337735631059252,
      "loss": 3.6858,
      "step": 150840
    },
    {
      "epoch": 0.31427083333333333,
      "grad_norm": 0.8148643374443054,
      "learning_rate": 0.00023376538514600947,
      "loss": 3.7475,
      "step": 150850
    },
    {
      "epoch": 0.3142916666666667,
      "grad_norm": 0.7123426198959351,
      "learning_rate": 0.00023375720682426045,
      "loss": 3.8564,
      "step": 150860
    },
    {
      "epoch": 0.3143125,
      "grad_norm": 0.7712666392326355,
      "learning_rate": 0.00023374902814071347,
      "loss": 4.0115,
      "step": 150870
    },
    {
      "epoch": 0.31433333333333335,
      "grad_norm": 0.7535183429718018,
      "learning_rate": 0.0002337408490954038,
      "loss": 3.8261,
      "step": 150880
    },
    {
      "epoch": 0.31435416666666666,
      "grad_norm": 0.7282854914665222,
      "learning_rate": 0.00023373266968836683,
      "loss": 3.7931,
      "step": 150890
    },
    {
      "epoch": 0.314375,
      "grad_norm": 0.8204723596572876,
      "learning_rate": 0.00023372448991963786,
      "loss": 3.961,
      "step": 150900
    },
    {
      "epoch": 0.3143958333333333,
      "grad_norm": 1.1477798223495483,
      "learning_rate": 0.00023371630978925224,
      "loss": 3.8656,
      "step": 150910
    },
    {
      "epoch": 0.3144166666666667,
      "grad_norm": 0.8337600827217102,
      "learning_rate": 0.00023370812929724528,
      "loss": 3.8099,
      "step": 150920
    },
    {
      "epoch": 0.3144375,
      "grad_norm": 0.8454759120941162,
      "learning_rate": 0.00023369994844365236,
      "loss": 3.8685,
      "step": 150930
    },
    {
      "epoch": 0.31445833333333334,
      "grad_norm": 0.6578409075737,
      "learning_rate": 0.00023369176722850882,
      "loss": 3.7595,
      "step": 150940
    },
    {
      "epoch": 0.31447916666666664,
      "grad_norm": 0.7084928750991821,
      "learning_rate": 0.00023368358565184992,
      "loss": 3.8249,
      "step": 150950
    },
    {
      "epoch": 0.3145,
      "grad_norm": 0.7387771010398865,
      "learning_rate": 0.0002336754037137111,
      "loss": 3.6965,
      "step": 150960
    },
    {
      "epoch": 0.31452083333333336,
      "grad_norm": 0.8136919140815735,
      "learning_rate": 0.00023366722141412758,
      "loss": 3.7705,
      "step": 150970
    },
    {
      "epoch": 0.31454166666666666,
      "grad_norm": 0.7011526823043823,
      "learning_rate": 0.00023365903875313486,
      "loss": 3.834,
      "step": 150980
    },
    {
      "epoch": 0.3145625,
      "grad_norm": 0.6859911680221558,
      "learning_rate": 0.00023365085573076816,
      "loss": 3.7082,
      "step": 150990
    },
    {
      "epoch": 0.3145833333333333,
      "grad_norm": 0.7424619197845459,
      "learning_rate": 0.0002336426723470629,
      "loss": 3.8982,
      "step": 151000
    },
    {
      "epoch": 0.3145833333333333,
      "eval_loss": 4.1982855796813965,
      "eval_runtime": 9.5154,
      "eval_samples_per_second": 1.051,
      "eval_steps_per_second": 0.315,
      "step": 151000
    },
    {
      "epoch": 0.3146041666666667,
      "grad_norm": 0.7024324536323547,
      "learning_rate": 0.0002336344886020544,
      "loss": 3.9224,
      "step": 151010
    },
    {
      "epoch": 0.314625,
      "grad_norm": 0.7646450996398926,
      "learning_rate": 0.000233626304495778,
      "loss": 3.9265,
      "step": 151020
    },
    {
      "epoch": 0.31464583333333335,
      "grad_norm": 0.7489520311355591,
      "learning_rate": 0.00023361812002826906,
      "loss": 3.7393,
      "step": 151030
    },
    {
      "epoch": 0.31466666666666665,
      "grad_norm": 0.8670371174812317,
      "learning_rate": 0.00023360993519956302,
      "loss": 3.8303,
      "step": 151040
    },
    {
      "epoch": 0.3146875,
      "grad_norm": 0.7913562059402466,
      "learning_rate": 0.00023360175000969506,
      "loss": 3.9296,
      "step": 151050
    },
    {
      "epoch": 0.3147083333333333,
      "grad_norm": 0.704959511756897,
      "learning_rate": 0.00023359356445870066,
      "loss": 3.843,
      "step": 151060
    },
    {
      "epoch": 0.31472916666666667,
      "grad_norm": 0.8719009160995483,
      "learning_rate": 0.0002335853785466152,
      "loss": 3.8739,
      "step": 151070
    },
    {
      "epoch": 0.31475,
      "grad_norm": 0.8624561429023743,
      "learning_rate": 0.0002335771922734739,
      "loss": 3.9322,
      "step": 151080
    },
    {
      "epoch": 0.31477083333333333,
      "grad_norm": 0.7128013968467712,
      "learning_rate": 0.00023356900563931225,
      "loss": 4.0919,
      "step": 151090
    },
    {
      "epoch": 0.3147916666666667,
      "grad_norm": 0.8827458024024963,
      "learning_rate": 0.0002335608186441656,
      "loss": 3.9295,
      "step": 151100
    },
    {
      "epoch": 0.3148125,
      "grad_norm": 0.7974872589111328,
      "learning_rate": 0.00023355263128806928,
      "loss": 3.9604,
      "step": 151110
    },
    {
      "epoch": 0.31483333333333335,
      "grad_norm": 0.8588837385177612,
      "learning_rate": 0.00023354444357105863,
      "loss": 3.8367,
      "step": 151120
    },
    {
      "epoch": 0.31485416666666666,
      "grad_norm": 0.7566356658935547,
      "learning_rate": 0.0002335362554931691,
      "loss": 3.8973,
      "step": 151130
    },
    {
      "epoch": 0.314875,
      "grad_norm": 0.7943249940872192,
      "learning_rate": 0.00023352806705443597,
      "loss": 3.8747,
      "step": 151140
    },
    {
      "epoch": 0.3148958333333333,
      "grad_norm": 0.7710323333740234,
      "learning_rate": 0.00023351987825489468,
      "loss": 3.8395,
      "step": 151150
    },
    {
      "epoch": 0.3149166666666667,
      "grad_norm": 0.7983974814414978,
      "learning_rate": 0.00023351168909458057,
      "loss": 3.9213,
      "step": 151160
    },
    {
      "epoch": 0.3149375,
      "grad_norm": 0.6463222503662109,
      "learning_rate": 0.000233503499573529,
      "loss": 3.7507,
      "step": 151170
    },
    {
      "epoch": 0.31495833333333334,
      "grad_norm": 0.8657107353210449,
      "learning_rate": 0.0002334953096917754,
      "loss": 3.9802,
      "step": 151180
    },
    {
      "epoch": 0.31497916666666664,
      "grad_norm": 0.723785400390625,
      "learning_rate": 0.0002334871194493551,
      "loss": 3.7112,
      "step": 151190
    },
    {
      "epoch": 0.315,
      "grad_norm": 0.7940256595611572,
      "learning_rate": 0.0002334789288463035,
      "loss": 3.9523,
      "step": 151200
    },
    {
      "epoch": 0.31502083333333336,
      "grad_norm": 0.7147349119186401,
      "learning_rate": 0.00023347073788265596,
      "loss": 3.7966,
      "step": 151210
    },
    {
      "epoch": 0.31504166666666666,
      "grad_norm": 0.7837753891944885,
      "learning_rate": 0.00023346254655844781,
      "loss": 3.8653,
      "step": 151220
    },
    {
      "epoch": 0.3150625,
      "grad_norm": 0.7441526651382446,
      "learning_rate": 0.00023345435487371458,
      "loss": 3.7798,
      "step": 151230
    },
    {
      "epoch": 0.3150833333333333,
      "grad_norm": 0.8230660557746887,
      "learning_rate": 0.00023344616282849158,
      "loss": 3.9432,
      "step": 151240
    },
    {
      "epoch": 0.3151041666666667,
      "grad_norm": 0.7735162973403931,
      "learning_rate": 0.00023343797042281412,
      "loss": 3.9844,
      "step": 151250
    },
    {
      "epoch": 0.315125,
      "grad_norm": 0.7037950158119202,
      "learning_rate": 0.00023342977765671767,
      "loss": 3.9649,
      "step": 151260
    },
    {
      "epoch": 0.31514583333333335,
      "grad_norm": 0.873993992805481,
      "learning_rate": 0.00023342158453023765,
      "loss": 3.8266,
      "step": 151270
    },
    {
      "epoch": 0.31516666666666665,
      "grad_norm": 0.8835626840591431,
      "learning_rate": 0.0002334133910434094,
      "loss": 3.8713,
      "step": 151280
    },
    {
      "epoch": 0.3151875,
      "grad_norm": 0.7457172870635986,
      "learning_rate": 0.00023340519719626827,
      "loss": 3.8019,
      "step": 151290
    },
    {
      "epoch": 0.3152083333333333,
      "grad_norm": 0.6892435550689697,
      "learning_rate": 0.00023339700298884974,
      "loss": 3.8082,
      "step": 151300
    },
    {
      "epoch": 0.31522916666666667,
      "grad_norm": 0.7663757801055908,
      "learning_rate": 0.00023338880842118913,
      "loss": 3.9558,
      "step": 151310
    },
    {
      "epoch": 0.31525,
      "grad_norm": 0.9891905188560486,
      "learning_rate": 0.00023338061349332194,
      "loss": 3.9757,
      "step": 151320
    },
    {
      "epoch": 0.31527083333333333,
      "grad_norm": 0.7543525099754333,
      "learning_rate": 0.00023337241820528342,
      "loss": 3.7756,
      "step": 151330
    },
    {
      "epoch": 0.3152916666666667,
      "grad_norm": 0.72469162940979,
      "learning_rate": 0.0002333642225571091,
      "loss": 3.6469,
      "step": 151340
    },
    {
      "epoch": 0.3153125,
      "grad_norm": 0.7579711079597473,
      "learning_rate": 0.00023335602654883436,
      "loss": 3.8522,
      "step": 151350
    },
    {
      "epoch": 0.31533333333333335,
      "grad_norm": 0.8387093544006348,
      "learning_rate": 0.0002333478301804945,
      "loss": 3.7865,
      "step": 151360
    },
    {
      "epoch": 0.31535416666666666,
      "grad_norm": 0.9158128499984741,
      "learning_rate": 0.0002333396334521251,
      "loss": 3.875,
      "step": 151370
    },
    {
      "epoch": 0.315375,
      "grad_norm": 0.8171905875205994,
      "learning_rate": 0.00023333143636376143,
      "loss": 3.9804,
      "step": 151380
    },
    {
      "epoch": 0.3153958333333333,
      "grad_norm": 0.664546549320221,
      "learning_rate": 0.0002333232389154389,
      "loss": 3.9558,
      "step": 151390
    },
    {
      "epoch": 0.3154166666666667,
      "grad_norm": 0.7992625832557678,
      "learning_rate": 0.000233315041107193,
      "loss": 3.7929,
      "step": 151400
    },
    {
      "epoch": 0.3154375,
      "grad_norm": 0.8358998894691467,
      "learning_rate": 0.00023330684293905912,
      "loss": 3.9356,
      "step": 151410
    },
    {
      "epoch": 0.31545833333333334,
      "grad_norm": 0.7349628806114197,
      "learning_rate": 0.00023329864441107263,
      "loss": 3.8082,
      "step": 151420
    },
    {
      "epoch": 0.31547916666666664,
      "grad_norm": 0.7704955339431763,
      "learning_rate": 0.00023329044552326898,
      "loss": 3.761,
      "step": 151430
    },
    {
      "epoch": 0.3155,
      "grad_norm": 0.6980483531951904,
      "learning_rate": 0.0002332822462756836,
      "loss": 3.8368,
      "step": 151440
    },
    {
      "epoch": 0.3155208333333333,
      "grad_norm": 0.7969517111778259,
      "learning_rate": 0.0002332740466683518,
      "loss": 3.953,
      "step": 151450
    },
    {
      "epoch": 0.31554166666666666,
      "grad_norm": 0.7456811666488647,
      "learning_rate": 0.00023326584670130916,
      "loss": 3.7516,
      "step": 151460
    },
    {
      "epoch": 0.3155625,
      "grad_norm": 0.749900221824646,
      "learning_rate": 0.00023325764637459096,
      "loss": 3.9289,
      "step": 151470
    },
    {
      "epoch": 0.3155833333333333,
      "grad_norm": 0.7648156881332397,
      "learning_rate": 0.00023324944568823273,
      "loss": 3.7897,
      "step": 151480
    },
    {
      "epoch": 0.3156041666666667,
      "grad_norm": 0.7494857311248779,
      "learning_rate": 0.00023324124464226985,
      "loss": 3.7166,
      "step": 151490
    },
    {
      "epoch": 0.315625,
      "grad_norm": 0.758321225643158,
      "learning_rate": 0.0002332330432367377,
      "loss": 3.7329,
      "step": 151500
    },
    {
      "epoch": 0.31564583333333335,
      "grad_norm": 0.8307160139083862,
      "learning_rate": 0.00023322484147167178,
      "loss": 4.0275,
      "step": 151510
    },
    {
      "epoch": 0.31566666666666665,
      "grad_norm": 0.6970913410186768,
      "learning_rate": 0.00023321663934710747,
      "loss": 3.5621,
      "step": 151520
    },
    {
      "epoch": 0.3156875,
      "grad_norm": 0.79633629322052,
      "learning_rate": 0.00023320843686308024,
      "loss": 3.8965,
      "step": 151530
    },
    {
      "epoch": 0.3157083333333333,
      "grad_norm": 0.8782520890235901,
      "learning_rate": 0.00023320023401962546,
      "loss": 4.0307,
      "step": 151540
    },
    {
      "epoch": 0.31572916666666667,
      "grad_norm": 0.7688580751419067,
      "learning_rate": 0.0002331920308167786,
      "loss": 3.8222,
      "step": 151550
    },
    {
      "epoch": 0.31575,
      "grad_norm": 0.820559024810791,
      "learning_rate": 0.00023318382725457515,
      "loss": 3.9214,
      "step": 151560
    },
    {
      "epoch": 0.31577083333333333,
      "grad_norm": 0.9367815256118774,
      "learning_rate": 0.00023317562333305048,
      "loss": 3.9761,
      "step": 151570
    },
    {
      "epoch": 0.3157916666666667,
      "grad_norm": 0.7321906089782715,
      "learning_rate": 0.00023316741905224004,
      "loss": 3.7805,
      "step": 151580
    },
    {
      "epoch": 0.3158125,
      "grad_norm": 0.7270877957344055,
      "learning_rate": 0.0002331592144121792,
      "loss": 4.0159,
      "step": 151590
    },
    {
      "epoch": 0.31583333333333335,
      "grad_norm": 0.7482393980026245,
      "learning_rate": 0.00023315100941290358,
      "loss": 3.7186,
      "step": 151600
    },
    {
      "epoch": 0.31585416666666666,
      "grad_norm": 0.8527817726135254,
      "learning_rate": 0.00023314280405444844,
      "loss": 3.7993,
      "step": 151610
    },
    {
      "epoch": 0.315875,
      "grad_norm": 0.789283275604248,
      "learning_rate": 0.0002331345983368493,
      "loss": 3.7945,
      "step": 151620
    },
    {
      "epoch": 0.3158958333333333,
      "grad_norm": 0.7456440925598145,
      "learning_rate": 0.00023312639226014166,
      "loss": 3.8788,
      "step": 151630
    },
    {
      "epoch": 0.3159166666666667,
      "grad_norm": 0.7145617008209229,
      "learning_rate": 0.00023311818582436085,
      "loss": 3.837,
      "step": 151640
    },
    {
      "epoch": 0.3159375,
      "grad_norm": 0.7676244974136353,
      "learning_rate": 0.0002331099790295424,
      "loss": 3.8259,
      "step": 151650
    },
    {
      "epoch": 0.31595833333333334,
      "grad_norm": 0.6747973561286926,
      "learning_rate": 0.00023310177187572178,
      "loss": 3.8595,
      "step": 151660
    },
    {
      "epoch": 0.31597916666666664,
      "grad_norm": 0.8647820949554443,
      "learning_rate": 0.0002330935643629343,
      "loss": 3.7583,
      "step": 151670
    },
    {
      "epoch": 0.316,
      "grad_norm": 0.7635725140571594,
      "learning_rate": 0.00023308535649121557,
      "loss": 3.8563,
      "step": 151680
    },
    {
      "epoch": 0.3160208333333333,
      "grad_norm": 0.7846499085426331,
      "learning_rate": 0.000233077148260601,
      "loss": 3.8028,
      "step": 151690
    },
    {
      "epoch": 0.31604166666666667,
      "grad_norm": 0.8289790749549866,
      "learning_rate": 0.000233068939671126,
      "loss": 3.8462,
      "step": 151700
    },
    {
      "epoch": 0.3160625,
      "grad_norm": 0.693728506565094,
      "learning_rate": 0.00023306073072282607,
      "loss": 3.8452,
      "step": 151710
    },
    {
      "epoch": 0.3160833333333333,
      "grad_norm": 0.7703974843025208,
      "learning_rate": 0.00023305252141573668,
      "loss": 3.9783,
      "step": 151720
    },
    {
      "epoch": 0.3161041666666667,
      "grad_norm": 0.7855525612831116,
      "learning_rate": 0.00023304431174989325,
      "loss": 3.9999,
      "step": 151730
    },
    {
      "epoch": 0.316125,
      "grad_norm": 0.7647960782051086,
      "learning_rate": 0.00023303610172533125,
      "loss": 3.8659,
      "step": 151740
    },
    {
      "epoch": 0.31614583333333335,
      "grad_norm": 0.9936515092849731,
      "learning_rate": 0.0002330278913420862,
      "loss": 3.7382,
      "step": 151750
    },
    {
      "epoch": 0.31616666666666665,
      "grad_norm": 0.8294306993484497,
      "learning_rate": 0.00023301968060019353,
      "loss": 3.8039,
      "step": 151760
    },
    {
      "epoch": 0.3161875,
      "grad_norm": 0.7103832960128784,
      "learning_rate": 0.0002330114694996887,
      "loss": 4.0614,
      "step": 151770
    },
    {
      "epoch": 0.3162083333333333,
      "grad_norm": 0.734477162361145,
      "learning_rate": 0.00023300325804060713,
      "loss": 3.7574,
      "step": 151780
    },
    {
      "epoch": 0.3162291666666667,
      "grad_norm": 0.6796813011169434,
      "learning_rate": 0.00023299504622298437,
      "loss": 3.805,
      "step": 151790
    },
    {
      "epoch": 0.31625,
      "grad_norm": 0.7599644064903259,
      "learning_rate": 0.00023298683404685585,
      "loss": 3.8507,
      "step": 151800
    },
    {
      "epoch": 0.31627083333333333,
      "grad_norm": 0.6889173984527588,
      "learning_rate": 0.00023297862151225708,
      "loss": 3.8518,
      "step": 151810
    },
    {
      "epoch": 0.3162916666666667,
      "grad_norm": 0.7411337494850159,
      "learning_rate": 0.0002329704086192235,
      "loss": 3.8175,
      "step": 151820
    },
    {
      "epoch": 0.3163125,
      "grad_norm": 0.7311769723892212,
      "learning_rate": 0.0002329621953677906,
      "loss": 3.8809,
      "step": 151830
    },
    {
      "epoch": 0.31633333333333336,
      "grad_norm": 0.9456633925437927,
      "learning_rate": 0.00023295398175799382,
      "loss": 3.7896,
      "step": 151840
    },
    {
      "epoch": 0.31635416666666666,
      "grad_norm": 0.829797625541687,
      "learning_rate": 0.0002329457677898687,
      "loss": 4.0437,
      "step": 151850
    },
    {
      "epoch": 0.316375,
      "grad_norm": 0.726518452167511,
      "learning_rate": 0.00023293755346345072,
      "loss": 3.6944,
      "step": 151860
    },
    {
      "epoch": 0.3163958333333333,
      "grad_norm": 0.7466214895248413,
      "learning_rate": 0.00023292933877877534,
      "loss": 3.8812,
      "step": 151870
    },
    {
      "epoch": 0.3164166666666667,
      "grad_norm": 0.7555304169654846,
      "learning_rate": 0.000232921123735878,
      "loss": 3.9751,
      "step": 151880
    },
    {
      "epoch": 0.3164375,
      "grad_norm": 0.6799297332763672,
      "learning_rate": 0.00023291290833479423,
      "loss": 3.9246,
      "step": 151890
    },
    {
      "epoch": 0.31645833333333334,
      "grad_norm": 0.7447550296783447,
      "learning_rate": 0.00023290469257555957,
      "loss": 3.6058,
      "step": 151900
    },
    {
      "epoch": 0.31647916666666664,
      "grad_norm": 0.787900447845459,
      "learning_rate": 0.0002328964764582094,
      "loss": 3.8842,
      "step": 151910
    },
    {
      "epoch": 0.3165,
      "grad_norm": 0.7767718434333801,
      "learning_rate": 0.00023288825998277928,
      "loss": 3.8952,
      "step": 151920
    },
    {
      "epoch": 0.3165208333333333,
      "grad_norm": 0.8005468249320984,
      "learning_rate": 0.00023288004314930467,
      "loss": 3.8078,
      "step": 151930
    },
    {
      "epoch": 0.31654166666666667,
      "grad_norm": 0.8148780465126038,
      "learning_rate": 0.00023287182595782113,
      "loss": 3.7226,
      "step": 151940
    },
    {
      "epoch": 0.3165625,
      "grad_norm": 0.7264312505722046,
      "learning_rate": 0.00023286360840836406,
      "loss": 3.8354,
      "step": 151950
    },
    {
      "epoch": 0.3165833333333333,
      "grad_norm": 0.8257478475570679,
      "learning_rate": 0.00023285539050096898,
      "loss": 3.7681,
      "step": 151960
    },
    {
      "epoch": 0.3166041666666667,
      "grad_norm": 1.106675148010254,
      "learning_rate": 0.00023284717223567147,
      "loss": 3.6706,
      "step": 151970
    },
    {
      "epoch": 0.316625,
      "grad_norm": 0.754867434501648,
      "learning_rate": 0.00023283895361250694,
      "loss": 3.9488,
      "step": 151980
    },
    {
      "epoch": 0.31664583333333335,
      "grad_norm": 0.7331335544586182,
      "learning_rate": 0.0002328307346315109,
      "loss": 3.8048,
      "step": 151990
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 0.8594196438789368,
      "learning_rate": 0.00023282251529271894,
      "loss": 3.8948,
      "step": 152000
    },
    {
      "epoch": 0.31666666666666665,
      "eval_loss": 4.2069878578186035,
      "eval_runtime": 10.0873,
      "eval_samples_per_second": 0.991,
      "eval_steps_per_second": 0.297,
      "step": 152000
    },
    {
      "epoch": 0.3166875,
      "grad_norm": 1.2467982769012451,
      "learning_rate": 0.0002328142955961664,
      "loss": 4.0505,
      "step": 152010
    },
    {
      "epoch": 0.3167083333333333,
      "grad_norm": 0.7637702226638794,
      "learning_rate": 0.00023280607554188897,
      "loss": 4.0975,
      "step": 152020
    },
    {
      "epoch": 0.3167291666666667,
      "grad_norm": 0.8185112476348877,
      "learning_rate": 0.00023279785512992203,
      "loss": 3.9331,
      "step": 152030
    },
    {
      "epoch": 0.31675,
      "grad_norm": 0.7777849435806274,
      "learning_rate": 0.00023278963436030114,
      "loss": 3.7323,
      "step": 152040
    },
    {
      "epoch": 0.31677083333333333,
      "grad_norm": 0.724851667881012,
      "learning_rate": 0.00023278141323306178,
      "loss": 3.7804,
      "step": 152050
    },
    {
      "epoch": 0.3167916666666667,
      "grad_norm": 0.8482555747032166,
      "learning_rate": 0.0002327731917482395,
      "loss": 3.9217,
      "step": 152060
    },
    {
      "epoch": 0.3168125,
      "grad_norm": 0.7185048460960388,
      "learning_rate": 0.00023276496990586978,
      "loss": 3.8578,
      "step": 152070
    },
    {
      "epoch": 0.31683333333333336,
      "grad_norm": 0.7371682524681091,
      "learning_rate": 0.0002327567477059882,
      "loss": 3.7656,
      "step": 152080
    },
    {
      "epoch": 0.31685416666666666,
      "grad_norm": 0.8220227360725403,
      "learning_rate": 0.00023274852514863016,
      "loss": 3.8834,
      "step": 152090
    },
    {
      "epoch": 0.316875,
      "grad_norm": 0.8782500624656677,
      "learning_rate": 0.00023274030223383128,
      "loss": 3.8132,
      "step": 152100
    },
    {
      "epoch": 0.3168958333333333,
      "grad_norm": 0.747117280960083,
      "learning_rate": 0.00023273207896162704,
      "loss": 3.914,
      "step": 152110
    },
    {
      "epoch": 0.3169166666666667,
      "grad_norm": 0.7064355611801147,
      "learning_rate": 0.00023272385533205296,
      "loss": 3.9091,
      "step": 152120
    },
    {
      "epoch": 0.3169375,
      "grad_norm": 0.8402114510536194,
      "learning_rate": 0.0002327156313451446,
      "loss": 3.7035,
      "step": 152130
    },
    {
      "epoch": 0.31695833333333334,
      "grad_norm": 0.7256265878677368,
      "learning_rate": 0.00023270740700093742,
      "loss": 3.8452,
      "step": 152140
    },
    {
      "epoch": 0.31697916666666665,
      "grad_norm": 0.854674220085144,
      "learning_rate": 0.00023269918229946697,
      "loss": 3.9411,
      "step": 152150
    },
    {
      "epoch": 0.317,
      "grad_norm": 0.6776253581047058,
      "learning_rate": 0.00023269095724076882,
      "loss": 3.9162,
      "step": 152160
    },
    {
      "epoch": 0.3170208333333333,
      "grad_norm": 0.9236322045326233,
      "learning_rate": 0.00023268273182487845,
      "loss": 3.886,
      "step": 152170
    },
    {
      "epoch": 0.31704166666666667,
      "grad_norm": 0.7684481739997864,
      "learning_rate": 0.0002326745060518314,
      "loss": 3.7793,
      "step": 152180
    },
    {
      "epoch": 0.3170625,
      "grad_norm": 0.851041316986084,
      "learning_rate": 0.0002326662799216632,
      "loss": 3.7657,
      "step": 152190
    },
    {
      "epoch": 0.31708333333333333,
      "grad_norm": 0.8492724895477295,
      "learning_rate": 0.00023265805343440947,
      "loss": 3.939,
      "step": 152200
    },
    {
      "epoch": 0.3171041666666667,
      "grad_norm": 0.7307162880897522,
      "learning_rate": 0.00023264982659010555,
      "loss": 3.8299,
      "step": 152210
    },
    {
      "epoch": 0.317125,
      "grad_norm": 0.7926234006881714,
      "learning_rate": 0.0002326415993887872,
      "loss": 4.0176,
      "step": 152220
    },
    {
      "epoch": 0.31714583333333335,
      "grad_norm": 0.8303039073944092,
      "learning_rate": 0.0002326333718304898,
      "loss": 3.9185,
      "step": 152230
    },
    {
      "epoch": 0.31716666666666665,
      "grad_norm": 0.7410264611244202,
      "learning_rate": 0.00023262514391524897,
      "loss": 3.801,
      "step": 152240
    },
    {
      "epoch": 0.3171875,
      "grad_norm": 0.7599391937255859,
      "learning_rate": 0.00023261691564310018,
      "loss": 3.705,
      "step": 152250
    },
    {
      "epoch": 0.3172083333333333,
      "grad_norm": 0.8570228815078735,
      "learning_rate": 0.00023260868701407901,
      "loss": 3.9619,
      "step": 152260
    },
    {
      "epoch": 0.3172291666666667,
      "grad_norm": 0.7669985294342041,
      "learning_rate": 0.00023260045802822105,
      "loss": 3.9201,
      "step": 152270
    },
    {
      "epoch": 0.31725,
      "grad_norm": 0.730521023273468,
      "learning_rate": 0.0002325922286855618,
      "loss": 3.686,
      "step": 152280
    },
    {
      "epoch": 0.31727083333333334,
      "grad_norm": 0.6571686863899231,
      "learning_rate": 0.0002325839989861368,
      "loss": 3.8462,
      "step": 152290
    },
    {
      "epoch": 0.3172916666666667,
      "grad_norm": 0.9025302529335022,
      "learning_rate": 0.00023257576892998162,
      "loss": 3.9971,
      "step": 152300
    },
    {
      "epoch": 0.3173125,
      "grad_norm": 0.6693122982978821,
      "learning_rate": 0.0002325675385171318,
      "loss": 3.8388,
      "step": 152310
    },
    {
      "epoch": 0.31733333333333336,
      "grad_norm": 0.998725414276123,
      "learning_rate": 0.00023255930774762292,
      "loss": 3.9305,
      "step": 152320
    },
    {
      "epoch": 0.31735416666666666,
      "grad_norm": 1.030573844909668,
      "learning_rate": 0.00023255107662149051,
      "loss": 3.8101,
      "step": 152330
    },
    {
      "epoch": 0.317375,
      "grad_norm": 0.8756263256072998,
      "learning_rate": 0.0002325428451387701,
      "loss": 3.9094,
      "step": 152340
    },
    {
      "epoch": 0.3173958333333333,
      "grad_norm": 0.6481781005859375,
      "learning_rate": 0.0002325346132994973,
      "loss": 3.7139,
      "step": 152350
    },
    {
      "epoch": 0.3174166666666667,
      "grad_norm": 0.9117478132247925,
      "learning_rate": 0.0002325263811037076,
      "loss": 3.9855,
      "step": 152360
    },
    {
      "epoch": 0.3174375,
      "grad_norm": 0.7920994758605957,
      "learning_rate": 0.0002325181485514366,
      "loss": 3.6833,
      "step": 152370
    },
    {
      "epoch": 0.31745833333333334,
      "grad_norm": 0.7833698987960815,
      "learning_rate": 0.0002325099156427199,
      "loss": 3.7656,
      "step": 152380
    },
    {
      "epoch": 0.31747916666666665,
      "grad_norm": 0.7671855092048645,
      "learning_rate": 0.000232501682377593,
      "loss": 3.7416,
      "step": 152390
    },
    {
      "epoch": 0.3175,
      "grad_norm": 0.8067406415939331,
      "learning_rate": 0.00023249344875609152,
      "loss": 3.8207,
      "step": 152400
    },
    {
      "epoch": 0.3175208333333333,
      "grad_norm": 0.7057296633720398,
      "learning_rate": 0.00023248521477825095,
      "loss": 4.0468,
      "step": 152410
    },
    {
      "epoch": 0.31754166666666667,
      "grad_norm": 0.8462598323822021,
      "learning_rate": 0.00023247698044410688,
      "loss": 4.0326,
      "step": 152420
    },
    {
      "epoch": 0.3175625,
      "grad_norm": 0.7799827456474304,
      "learning_rate": 0.00023246874575369496,
      "loss": 3.8765,
      "step": 152430
    },
    {
      "epoch": 0.31758333333333333,
      "grad_norm": 0.9535436034202576,
      "learning_rate": 0.00023246051070705069,
      "loss": 3.77,
      "step": 152440
    },
    {
      "epoch": 0.3176041666666667,
      "grad_norm": 0.8123494386672974,
      "learning_rate": 0.00023245227530420968,
      "loss": 3.9122,
      "step": 152450
    },
    {
      "epoch": 0.317625,
      "grad_norm": 0.7011725306510925,
      "learning_rate": 0.00023244403954520744,
      "loss": 3.659,
      "step": 152460
    },
    {
      "epoch": 0.31764583333333335,
      "grad_norm": 0.7760283946990967,
      "learning_rate": 0.00023243580343007957,
      "loss": 3.7377,
      "step": 152470
    },
    {
      "epoch": 0.31766666666666665,
      "grad_norm": 0.8513492345809937,
      "learning_rate": 0.00023242756695886167,
      "loss": 3.8196,
      "step": 152480
    },
    {
      "epoch": 0.3176875,
      "grad_norm": 0.7398154139518738,
      "learning_rate": 0.00023241933013158931,
      "loss": 3.757,
      "step": 152490
    },
    {
      "epoch": 0.3177083333333333,
      "grad_norm": 0.759492039680481,
      "learning_rate": 0.0002324110929482981,
      "loss": 3.7363,
      "step": 152500
    },
    {
      "epoch": 0.3177291666666667,
      "grad_norm": 0.8535280227661133,
      "learning_rate": 0.00023240285540902352,
      "loss": 3.7564,
      "step": 152510
    },
    {
      "epoch": 0.31775,
      "grad_norm": 0.8507699966430664,
      "learning_rate": 0.0002323946175138013,
      "loss": 3.934,
      "step": 152520
    },
    {
      "epoch": 0.31777083333333334,
      "grad_norm": 0.9735710620880127,
      "learning_rate": 0.0002323863792626669,
      "loss": 3.831,
      "step": 152530
    },
    {
      "epoch": 0.31779166666666664,
      "grad_norm": 0.7126137614250183,
      "learning_rate": 0.00023237814065565595,
      "loss": 3.837,
      "step": 152540
    },
    {
      "epoch": 0.3178125,
      "grad_norm": 0.7686307430267334,
      "learning_rate": 0.00023236990169280404,
      "loss": 3.9119,
      "step": 152550
    },
    {
      "epoch": 0.31783333333333336,
      "grad_norm": 0.7019957900047302,
      "learning_rate": 0.00023236166237414682,
      "loss": 3.9276,
      "step": 152560
    },
    {
      "epoch": 0.31785416666666666,
      "grad_norm": 0.7135709524154663,
      "learning_rate": 0.00023235342269971974,
      "loss": 3.9488,
      "step": 152570
    },
    {
      "epoch": 0.317875,
      "grad_norm": 0.724097490310669,
      "learning_rate": 0.00023234518266955847,
      "loss": 3.8218,
      "step": 152580
    },
    {
      "epoch": 0.3178958333333333,
      "grad_norm": 0.8006632924079895,
      "learning_rate": 0.0002323369422836987,
      "loss": 3.8307,
      "step": 152590
    },
    {
      "epoch": 0.3179166666666667,
      "grad_norm": 0.7551007270812988,
      "learning_rate": 0.00023232870154217585,
      "loss": 3.8751,
      "step": 152600
    },
    {
      "epoch": 0.3179375,
      "grad_norm": 0.9315972924232483,
      "learning_rate": 0.0002323204604450256,
      "loss": 3.8007,
      "step": 152610
    },
    {
      "epoch": 0.31795833333333334,
      "grad_norm": 0.8289197683334351,
      "learning_rate": 0.00023231221899228357,
      "loss": 3.611,
      "step": 152620
    },
    {
      "epoch": 0.31797916666666665,
      "grad_norm": 0.97056645154953,
      "learning_rate": 0.00023230397718398531,
      "loss": 3.6678,
      "step": 152630
    },
    {
      "epoch": 0.318,
      "grad_norm": 0.7865894436836243,
      "learning_rate": 0.00023229573502016646,
      "loss": 3.9138,
      "step": 152640
    },
    {
      "epoch": 0.3180208333333333,
      "grad_norm": 0.6588075757026672,
      "learning_rate": 0.00023228749250086265,
      "loss": 3.8221,
      "step": 152650
    },
    {
      "epoch": 0.31804166666666667,
      "grad_norm": 0.7986778020858765,
      "learning_rate": 0.0002322792496261094,
      "loss": 3.9081,
      "step": 152660
    },
    {
      "epoch": 0.3180625,
      "grad_norm": 0.9574781060218811,
      "learning_rate": 0.00023227100639594236,
      "loss": 3.7735,
      "step": 152670
    },
    {
      "epoch": 0.31808333333333333,
      "grad_norm": 0.8105590343475342,
      "learning_rate": 0.00023226276281039713,
      "loss": 3.8727,
      "step": 152680
    },
    {
      "epoch": 0.3181041666666667,
      "grad_norm": 0.743361234664917,
      "learning_rate": 0.00023225451886950933,
      "loss": 3.6962,
      "step": 152690
    },
    {
      "epoch": 0.318125,
      "grad_norm": 0.9937542676925659,
      "learning_rate": 0.0002322462745733146,
      "loss": 3.8936,
      "step": 152700
    },
    {
      "epoch": 0.31814583333333335,
      "grad_norm": 1.0186142921447754,
      "learning_rate": 0.0002322380299218485,
      "loss": 3.8342,
      "step": 152710
    },
    {
      "epoch": 0.31816666666666665,
      "grad_norm": 0.7512672543525696,
      "learning_rate": 0.00023222978491514666,
      "loss": 3.9588,
      "step": 152720
    },
    {
      "epoch": 0.3181875,
      "grad_norm": 0.6972907185554504,
      "learning_rate": 0.0002322215395532447,
      "loss": 3.8642,
      "step": 152730
    },
    {
      "epoch": 0.3182083333333333,
      "grad_norm": 0.7276983857154846,
      "learning_rate": 0.00023221329383617823,
      "loss": 3.8109,
      "step": 152740
    },
    {
      "epoch": 0.3182291666666667,
      "grad_norm": 0.8779779076576233,
      "learning_rate": 0.00023220504776398285,
      "loss": 4.0906,
      "step": 152750
    },
    {
      "epoch": 0.31825,
      "grad_norm": 0.7228793501853943,
      "learning_rate": 0.00023219680133669426,
      "loss": 3.8264,
      "step": 152760
    },
    {
      "epoch": 0.31827083333333334,
      "grad_norm": 0.7947472333908081,
      "learning_rate": 0.00023218855455434798,
      "loss": 3.6877,
      "step": 152770
    },
    {
      "epoch": 0.31829166666666664,
      "grad_norm": 0.7600554823875427,
      "learning_rate": 0.00023218030741697972,
      "loss": 3.943,
      "step": 152780
    },
    {
      "epoch": 0.3183125,
      "grad_norm": 0.8243163824081421,
      "learning_rate": 0.000232172059924625,
      "loss": 3.8091,
      "step": 152790
    },
    {
      "epoch": 0.31833333333333336,
      "grad_norm": 0.8211700916290283,
      "learning_rate": 0.00023216381207731953,
      "loss": 3.7239,
      "step": 152800
    },
    {
      "epoch": 0.31835416666666666,
      "grad_norm": 0.7929577827453613,
      "learning_rate": 0.00023215556387509893,
      "loss": 3.915,
      "step": 152810
    },
    {
      "epoch": 0.318375,
      "grad_norm": 0.7088143825531006,
      "learning_rate": 0.00023214731531799883,
      "loss": 3.7092,
      "step": 152820
    },
    {
      "epoch": 0.3183958333333333,
      "grad_norm": 0.742936372756958,
      "learning_rate": 0.00023213906640605478,
      "loss": 3.8477,
      "step": 152830
    },
    {
      "epoch": 0.3184166666666667,
      "grad_norm": 0.8452008962631226,
      "learning_rate": 0.00023213081713930255,
      "loss": 3.9902,
      "step": 152840
    },
    {
      "epoch": 0.3184375,
      "grad_norm": 0.8890305757522583,
      "learning_rate": 0.00023212256751777764,
      "loss": 3.9811,
      "step": 152850
    },
    {
      "epoch": 0.31845833333333334,
      "grad_norm": 0.6218227744102478,
      "learning_rate": 0.00023211431754151577,
      "loss": 3.7984,
      "step": 152860
    },
    {
      "epoch": 0.31847916666666665,
      "grad_norm": 0.7028873562812805,
      "learning_rate": 0.00023210606721055257,
      "loss": 3.7931,
      "step": 152870
    },
    {
      "epoch": 0.3185,
      "grad_norm": 0.8684747219085693,
      "learning_rate": 0.0002320978165249236,
      "loss": 3.8347,
      "step": 152880
    },
    {
      "epoch": 0.3185208333333333,
      "grad_norm": 0.7231370210647583,
      "learning_rate": 0.00023208956548466462,
      "loss": 3.7601,
      "step": 152890
    },
    {
      "epoch": 0.31854166666666667,
      "grad_norm": 0.822630763053894,
      "learning_rate": 0.0002320813140898112,
      "loss": 3.8159,
      "step": 152900
    },
    {
      "epoch": 0.3185625,
      "grad_norm": 0.8696355223655701,
      "learning_rate": 0.00023207306234039897,
      "loss": 3.8408,
      "step": 152910
    },
    {
      "epoch": 0.31858333333333333,
      "grad_norm": 0.7410659790039062,
      "learning_rate": 0.00023206481023646362,
      "loss": 4.0499,
      "step": 152920
    },
    {
      "epoch": 0.3186041666666667,
      "grad_norm": 0.7841929197311401,
      "learning_rate": 0.00023205655777804076,
      "loss": 3.9488,
      "step": 152930
    },
    {
      "epoch": 0.318625,
      "grad_norm": 0.7457680106163025,
      "learning_rate": 0.00023204830496516605,
      "loss": 3.7414,
      "step": 152940
    },
    {
      "epoch": 0.31864583333333335,
      "grad_norm": 0.6637429594993591,
      "learning_rate": 0.00023204005179787516,
      "loss": 3.9069,
      "step": 152950
    },
    {
      "epoch": 0.31866666666666665,
      "grad_norm": 0.8713077902793884,
      "learning_rate": 0.00023203179827620369,
      "loss": 3.9516,
      "step": 152960
    },
    {
      "epoch": 0.3186875,
      "grad_norm": 0.6804805994033813,
      "learning_rate": 0.00023202354440018735,
      "loss": 3.7888,
      "step": 152970
    },
    {
      "epoch": 0.3187083333333333,
      "grad_norm": 0.6813881397247314,
      "learning_rate": 0.00023201529016986174,
      "loss": 3.6945,
      "step": 152980
    },
    {
      "epoch": 0.3187291666666667,
      "grad_norm": 0.7834118008613586,
      "learning_rate": 0.00023200703558526252,
      "loss": 3.9464,
      "step": 152990
    },
    {
      "epoch": 0.31875,
      "grad_norm": 0.7684893608093262,
      "learning_rate": 0.00023199878064642543,
      "loss": 3.7433,
      "step": 153000
    },
    {
      "epoch": 0.31875,
      "eval_loss": 4.1970953941345215,
      "eval_runtime": 9.252,
      "eval_samples_per_second": 1.081,
      "eval_steps_per_second": 0.324,
      "step": 153000
    },
    {
      "epoch": 0.31877083333333334,
      "grad_norm": 0.8729820251464844,
      "learning_rate": 0.00023199052535338604,
      "loss": 3.8429,
      "step": 153010
    },
    {
      "epoch": 0.31879166666666664,
      "grad_norm": 0.8282814621925354,
      "learning_rate": 0.00023198226970618,
      "loss": 3.8527,
      "step": 153020
    },
    {
      "epoch": 0.3188125,
      "grad_norm": 0.7432697415351868,
      "learning_rate": 0.00023197401370484303,
      "loss": 3.8249,
      "step": 153030
    },
    {
      "epoch": 0.31883333333333336,
      "grad_norm": 0.8334677815437317,
      "learning_rate": 0.0002319657573494108,
      "loss": 3.8666,
      "step": 153040
    },
    {
      "epoch": 0.31885416666666666,
      "grad_norm": 0.7624298930168152,
      "learning_rate": 0.00023195750063991893,
      "loss": 3.8126,
      "step": 153050
    },
    {
      "epoch": 0.318875,
      "grad_norm": 0.7897423505783081,
      "learning_rate": 0.00023194924357640306,
      "loss": 3.8962,
      "step": 153060
    },
    {
      "epoch": 0.3188958333333333,
      "grad_norm": 0.7763317823410034,
      "learning_rate": 0.00023194098615889896,
      "loss": 3.8963,
      "step": 153070
    },
    {
      "epoch": 0.3189166666666667,
      "grad_norm": 0.8852490782737732,
      "learning_rate": 0.00023193272838744215,
      "loss": 3.8736,
      "step": 153080
    },
    {
      "epoch": 0.3189375,
      "grad_norm": 0.7822652459144592,
      "learning_rate": 0.00023192447026206846,
      "loss": 3.8457,
      "step": 153090
    },
    {
      "epoch": 0.31895833333333334,
      "grad_norm": 0.7304105162620544,
      "learning_rate": 0.0002319162117828134,
      "loss": 3.6805,
      "step": 153100
    },
    {
      "epoch": 0.31897916666666665,
      "grad_norm": 1.0210812091827393,
      "learning_rate": 0.0002319079529497128,
      "loss": 3.8006,
      "step": 153110
    },
    {
      "epoch": 0.319,
      "grad_norm": 0.7035405039787292,
      "learning_rate": 0.0002318996937628023,
      "loss": 4.0909,
      "step": 153120
    },
    {
      "epoch": 0.3190208333333333,
      "grad_norm": 0.8032400012016296,
      "learning_rate": 0.00023189143422211746,
      "loss": 3.8527,
      "step": 153130
    },
    {
      "epoch": 0.31904166666666667,
      "grad_norm": 0.7344068288803101,
      "learning_rate": 0.00023188317432769405,
      "loss": 3.8736,
      "step": 153140
    },
    {
      "epoch": 0.3190625,
      "grad_norm": 0.7231011390686035,
      "learning_rate": 0.00023187491407956776,
      "loss": 3.676,
      "step": 153150
    },
    {
      "epoch": 0.31908333333333333,
      "grad_norm": 0.7393110394477844,
      "learning_rate": 0.00023186665347777423,
      "loss": 3.9101,
      "step": 153160
    },
    {
      "epoch": 0.3191041666666667,
      "grad_norm": 0.7804484367370605,
      "learning_rate": 0.00023185839252234917,
      "loss": 3.8556,
      "step": 153170
    },
    {
      "epoch": 0.319125,
      "grad_norm": 0.8311053514480591,
      "learning_rate": 0.00023185013121332829,
      "loss": 3.8871,
      "step": 153180
    },
    {
      "epoch": 0.31914583333333335,
      "grad_norm": 0.7134312987327576,
      "learning_rate": 0.0002318418695507472,
      "loss": 3.734,
      "step": 153190
    },
    {
      "epoch": 0.31916666666666665,
      "grad_norm": 0.6745779514312744,
      "learning_rate": 0.00023183360753464163,
      "loss": 3.6874,
      "step": 153200
    },
    {
      "epoch": 0.3191875,
      "grad_norm": 0.7118538022041321,
      "learning_rate": 0.00023182534516504733,
      "loss": 4.0558,
      "step": 153210
    },
    {
      "epoch": 0.3192083333333333,
      "grad_norm": 0.7635205388069153,
      "learning_rate": 0.00023181708244199986,
      "loss": 3.732,
      "step": 153220
    },
    {
      "epoch": 0.3192291666666667,
      "grad_norm": 0.7799244523048401,
      "learning_rate": 0.00023180881936553504,
      "loss": 4.0155,
      "step": 153230
    },
    {
      "epoch": 0.31925,
      "grad_norm": 0.7685560584068298,
      "learning_rate": 0.00023180055593568846,
      "loss": 4.0158,
      "step": 153240
    },
    {
      "epoch": 0.31927083333333334,
      "grad_norm": 0.7890692353248596,
      "learning_rate": 0.00023179229215249583,
      "loss": 3.9205,
      "step": 153250
    },
    {
      "epoch": 0.31929166666666664,
      "grad_norm": 0.6962746977806091,
      "learning_rate": 0.00023178402801599292,
      "loss": 3.9636,
      "step": 153260
    },
    {
      "epoch": 0.3193125,
      "grad_norm": 0.8441423177719116,
      "learning_rate": 0.00023177576352621535,
      "loss": 3.6858,
      "step": 153270
    },
    {
      "epoch": 0.31933333333333336,
      "grad_norm": 0.7528898119926453,
      "learning_rate": 0.00023176749868319884,
      "loss": 3.8889,
      "step": 153280
    },
    {
      "epoch": 0.31935416666666666,
      "grad_norm": 0.794983983039856,
      "learning_rate": 0.00023175923348697916,
      "loss": 3.8196,
      "step": 153290
    },
    {
      "epoch": 0.319375,
      "grad_norm": 0.7930054664611816,
      "learning_rate": 0.00023175096793759192,
      "loss": 3.7052,
      "step": 153300
    },
    {
      "epoch": 0.3193958333333333,
      "grad_norm": 0.7453523874282837,
      "learning_rate": 0.00023174270203507282,
      "loss": 3.6601,
      "step": 153310
    },
    {
      "epoch": 0.3194166666666667,
      "grad_norm": 0.826949954032898,
      "learning_rate": 0.00023173443577945765,
      "loss": 3.721,
      "step": 153320
    },
    {
      "epoch": 0.3194375,
      "grad_norm": 0.762692391872406,
      "learning_rate": 0.00023172616917078206,
      "loss": 3.845,
      "step": 153330
    },
    {
      "epoch": 0.31945833333333334,
      "grad_norm": 0.8101476430892944,
      "learning_rate": 0.0002317179022090818,
      "loss": 3.9062,
      "step": 153340
    },
    {
      "epoch": 0.31947916666666665,
      "grad_norm": 0.7913668155670166,
      "learning_rate": 0.00023170963489439249,
      "loss": 3.8735,
      "step": 153350
    },
    {
      "epoch": 0.3195,
      "grad_norm": 0.7783119678497314,
      "learning_rate": 0.00023170136722674991,
      "loss": 3.8745,
      "step": 153360
    },
    {
      "epoch": 0.3195208333333333,
      "grad_norm": 0.6421667337417603,
      "learning_rate": 0.0002316930992061898,
      "loss": 3.7283,
      "step": 153370
    },
    {
      "epoch": 0.31954166666666667,
      "grad_norm": 0.853538990020752,
      "learning_rate": 0.00023168483083274783,
      "loss": 3.6734,
      "step": 153380
    },
    {
      "epoch": 0.3195625,
      "grad_norm": 0.8038004636764526,
      "learning_rate": 0.00023167656210645974,
      "loss": 3.9517,
      "step": 153390
    },
    {
      "epoch": 0.31958333333333333,
      "grad_norm": 0.7190841436386108,
      "learning_rate": 0.0002316682930273612,
      "loss": 3.8233,
      "step": 153400
    },
    {
      "epoch": 0.3196041666666667,
      "grad_norm": 0.7888268828392029,
      "learning_rate": 0.00023166002359548794,
      "loss": 3.8327,
      "step": 153410
    },
    {
      "epoch": 0.319625,
      "grad_norm": 0.75459223985672,
      "learning_rate": 0.0002316517538108757,
      "loss": 3.9061,
      "step": 153420
    },
    {
      "epoch": 0.31964583333333335,
      "grad_norm": 0.7879202961921692,
      "learning_rate": 0.00023164348367356026,
      "loss": 3.8622,
      "step": 153430
    },
    {
      "epoch": 0.31966666666666665,
      "grad_norm": 0.7245069742202759,
      "learning_rate": 0.00023163521318357726,
      "loss": 3.7438,
      "step": 153440
    },
    {
      "epoch": 0.3196875,
      "grad_norm": 0.7867947220802307,
      "learning_rate": 0.00023162694234096245,
      "loss": 3.7878,
      "step": 153450
    },
    {
      "epoch": 0.3197083333333333,
      "grad_norm": 0.7881966233253479,
      "learning_rate": 0.00023161867114575155,
      "loss": 3.8302,
      "step": 153460
    },
    {
      "epoch": 0.3197291666666667,
      "grad_norm": 0.7006414532661438,
      "learning_rate": 0.00023161039959798032,
      "loss": 3.8591,
      "step": 153470
    },
    {
      "epoch": 0.31975,
      "grad_norm": 0.7678000330924988,
      "learning_rate": 0.00023160212769768443,
      "loss": 3.9093,
      "step": 153480
    },
    {
      "epoch": 0.31977083333333334,
      "grad_norm": 0.8223839402198792,
      "learning_rate": 0.0002315938554448997,
      "loss": 3.8437,
      "step": 153490
    },
    {
      "epoch": 0.31979166666666664,
      "grad_norm": 0.7300174236297607,
      "learning_rate": 0.0002315855828396618,
      "loss": 3.6284,
      "step": 153500
    },
    {
      "epoch": 0.3198125,
      "grad_norm": 0.7371437549591064,
      "learning_rate": 0.00023157730988200646,
      "loss": 3.763,
      "step": 153510
    },
    {
      "epoch": 0.31983333333333336,
      "grad_norm": 0.7168568968772888,
      "learning_rate": 0.00023156903657196943,
      "loss": 3.8366,
      "step": 153520
    },
    {
      "epoch": 0.31985416666666666,
      "grad_norm": 0.7588127255439758,
      "learning_rate": 0.00023156076290958643,
      "loss": 3.9787,
      "step": 153530
    },
    {
      "epoch": 0.319875,
      "grad_norm": 0.8494169116020203,
      "learning_rate": 0.00023155248889489323,
      "loss": 3.817,
      "step": 153540
    },
    {
      "epoch": 0.3198958333333333,
      "grad_norm": 0.7420646548271179,
      "learning_rate": 0.00023154421452792557,
      "loss": 3.9635,
      "step": 153550
    },
    {
      "epoch": 0.3199166666666667,
      "grad_norm": 0.8707613348960876,
      "learning_rate": 0.0002315359398087192,
      "loss": 3.9453,
      "step": 153560
    },
    {
      "epoch": 0.3199375,
      "grad_norm": 0.7786762714385986,
      "learning_rate": 0.00023152766473730983,
      "loss": 3.8509,
      "step": 153570
    },
    {
      "epoch": 0.31995833333333334,
      "grad_norm": 0.9248204231262207,
      "learning_rate": 0.0002315193893137332,
      "loss": 3.8529,
      "step": 153580
    },
    {
      "epoch": 0.31997916666666665,
      "grad_norm": 0.9403221607208252,
      "learning_rate": 0.0002315111135380251,
      "loss": 3.9563,
      "step": 153590
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8422710299491882,
      "learning_rate": 0.00023150283741022124,
      "loss": 3.8728,
      "step": 153600
    },
    {
      "epoch": 0.3200208333333333,
      "grad_norm": 0.7212035655975342,
      "learning_rate": 0.0002314945609303574,
      "loss": 3.9273,
      "step": 153610
    },
    {
      "epoch": 0.32004166666666667,
      "grad_norm": 0.9215808510780334,
      "learning_rate": 0.00023148628409846926,
      "loss": 3.993,
      "step": 153620
    },
    {
      "epoch": 0.3200625,
      "grad_norm": 0.8518983125686646,
      "learning_rate": 0.00023147800691459267,
      "loss": 3.6684,
      "step": 153630
    },
    {
      "epoch": 0.32008333333333333,
      "grad_norm": 0.7534785270690918,
      "learning_rate": 0.00023146972937876338,
      "loss": 3.9066,
      "step": 153640
    },
    {
      "epoch": 0.3201041666666667,
      "grad_norm": 0.9349606037139893,
      "learning_rate": 0.00023146145149101704,
      "loss": 3.851,
      "step": 153650
    },
    {
      "epoch": 0.320125,
      "grad_norm": 0.876132071018219,
      "learning_rate": 0.00023145317325138953,
      "loss": 3.9054,
      "step": 153660
    },
    {
      "epoch": 0.32014583333333335,
      "grad_norm": 0.7238659858703613,
      "learning_rate": 0.00023144489465991652,
      "loss": 3.9544,
      "step": 153670
    },
    {
      "epoch": 0.32016666666666665,
      "grad_norm": 0.7356593608856201,
      "learning_rate": 0.00023143661571663378,
      "loss": 3.8339,
      "step": 153680
    },
    {
      "epoch": 0.3201875,
      "grad_norm": 0.7830705642700195,
      "learning_rate": 0.00023142833642157711,
      "loss": 3.8089,
      "step": 153690
    },
    {
      "epoch": 0.3202083333333333,
      "grad_norm": 0.7104277610778809,
      "learning_rate": 0.00023142005677478228,
      "loss": 3.9046,
      "step": 153700
    },
    {
      "epoch": 0.3202291666666667,
      "grad_norm": 0.7172903418540955,
      "learning_rate": 0.00023141177677628503,
      "loss": 3.7542,
      "step": 153710
    },
    {
      "epoch": 0.32025,
      "grad_norm": 0.6937995553016663,
      "learning_rate": 0.0002314034964261211,
      "loss": 3.7928,
      "step": 153720
    },
    {
      "epoch": 0.32027083333333334,
      "grad_norm": 0.6336227655410767,
      "learning_rate": 0.0002313952157243263,
      "loss": 3.8346,
      "step": 153730
    },
    {
      "epoch": 0.32029166666666664,
      "grad_norm": 0.7880694270133972,
      "learning_rate": 0.00023138693467093644,
      "loss": 3.8384,
      "step": 153740
    },
    {
      "epoch": 0.3203125,
      "grad_norm": 0.7690852284431458,
      "learning_rate": 0.00023137865326598717,
      "loss": 3.9114,
      "step": 153750
    },
    {
      "epoch": 0.32033333333333336,
      "grad_norm": 0.8542155623435974,
      "learning_rate": 0.00023137037150951437,
      "loss": 3.8508,
      "step": 153760
    },
    {
      "epoch": 0.32035416666666666,
      "grad_norm": 0.6937045454978943,
      "learning_rate": 0.00023136208940155377,
      "loss": 3.7739,
      "step": 153770
    },
    {
      "epoch": 0.320375,
      "grad_norm": 0.8156905174255371,
      "learning_rate": 0.0002313538069421411,
      "loss": 3.8795,
      "step": 153780
    },
    {
      "epoch": 0.3203958333333333,
      "grad_norm": 0.9437600374221802,
      "learning_rate": 0.00023134552413131223,
      "loss": 3.7336,
      "step": 153790
    },
    {
      "epoch": 0.3204166666666667,
      "grad_norm": 0.7018610835075378,
      "learning_rate": 0.0002313372409691029,
      "loss": 3.9827,
      "step": 153800
    },
    {
      "epoch": 0.3204375,
      "grad_norm": 0.8115174770355225,
      "learning_rate": 0.00023132895745554884,
      "loss": 3.8661,
      "step": 153810
    },
    {
      "epoch": 0.32045833333333335,
      "grad_norm": 0.9746975898742676,
      "learning_rate": 0.00023132067359068594,
      "loss": 4.0403,
      "step": 153820
    },
    {
      "epoch": 0.32047916666666665,
      "grad_norm": 0.8093881011009216,
      "learning_rate": 0.0002313123893745499,
      "loss": 3.9029,
      "step": 153830
    },
    {
      "epoch": 0.3205,
      "grad_norm": 0.7671213746070862,
      "learning_rate": 0.00023130410480717652,
      "loss": 3.8133,
      "step": 153840
    },
    {
      "epoch": 0.3205208333333333,
      "grad_norm": 0.7258974313735962,
      "learning_rate": 0.00023129581988860155,
      "loss": 3.8919,
      "step": 153850
    },
    {
      "epoch": 0.32054166666666667,
      "grad_norm": 0.75145024061203,
      "learning_rate": 0.00023128753461886084,
      "loss": 3.9267,
      "step": 153860
    },
    {
      "epoch": 0.3205625,
      "grad_norm": 0.7354534864425659,
      "learning_rate": 0.00023127924899799017,
      "loss": 3.9032,
      "step": 153870
    },
    {
      "epoch": 0.32058333333333333,
      "grad_norm": 0.6826053857803345,
      "learning_rate": 0.00023127096302602533,
      "loss": 4.0721,
      "step": 153880
    },
    {
      "epoch": 0.3206041666666667,
      "grad_norm": 0.8228940963745117,
      "learning_rate": 0.00023126267670300207,
      "loss": 3.8402,
      "step": 153890
    },
    {
      "epoch": 0.320625,
      "grad_norm": 0.7704678773880005,
      "learning_rate": 0.00023125439002895617,
      "loss": 3.8552,
      "step": 153900
    },
    {
      "epoch": 0.32064583333333335,
      "grad_norm": 0.7660999894142151,
      "learning_rate": 0.0002312461030039236,
      "loss": 3.8431,
      "step": 153910
    },
    {
      "epoch": 0.32066666666666666,
      "grad_norm": 0.776005208492279,
      "learning_rate": 0.00023123781562793994,
      "loss": 3.8152,
      "step": 153920
    },
    {
      "epoch": 0.3206875,
      "grad_norm": 0.7982462644577026,
      "learning_rate": 0.00023122952790104103,
      "loss": 3.7248,
      "step": 153930
    },
    {
      "epoch": 0.3207083333333333,
      "grad_norm": 0.7288185954093933,
      "learning_rate": 0.00023122123982326274,
      "loss": 3.9111,
      "step": 153940
    },
    {
      "epoch": 0.3207291666666667,
      "grad_norm": 0.7330758571624756,
      "learning_rate": 0.00023121295139464092,
      "loss": 4.0229,
      "step": 153950
    },
    {
      "epoch": 0.32075,
      "grad_norm": 0.8981575965881348,
      "learning_rate": 0.00023120466261521123,
      "loss": 3.7896,
      "step": 153960
    },
    {
      "epoch": 0.32077083333333334,
      "grad_norm": 0.6900730729103088,
      "learning_rate": 0.00023119637348500952,
      "loss": 3.803,
      "step": 153970
    },
    {
      "epoch": 0.32079166666666664,
      "grad_norm": 0.7557768225669861,
      "learning_rate": 0.00023118808400407164,
      "loss": 3.7498,
      "step": 153980
    },
    {
      "epoch": 0.3208125,
      "grad_norm": 0.8678268790245056,
      "learning_rate": 0.00023117979417243339,
      "loss": 3.8139,
      "step": 153990
    },
    {
      "epoch": 0.32083333333333336,
      "grad_norm": 0.8371400833129883,
      "learning_rate": 0.00023117150399013054,
      "loss": 3.9262,
      "step": 154000
    },
    {
      "epoch": 0.32083333333333336,
      "eval_loss": 4.202296257019043,
      "eval_runtime": 12.2873,
      "eval_samples_per_second": 0.814,
      "eval_steps_per_second": 0.244,
      "step": 154000
    },
    {
      "epoch": 0.32085416666666666,
      "grad_norm": 0.7001991868019104,
      "learning_rate": 0.00023116321345719896,
      "loss": 3.7328,
      "step": 154010
    },
    {
      "epoch": 0.320875,
      "grad_norm": 0.8992820978164673,
      "learning_rate": 0.00023115492257367437,
      "loss": 3.9433,
      "step": 154020
    },
    {
      "epoch": 0.3208958333333333,
      "grad_norm": 0.7242739200592041,
      "learning_rate": 0.0002311466313395927,
      "loss": 3.6136,
      "step": 154030
    },
    {
      "epoch": 0.3209166666666667,
      "grad_norm": 0.7060720920562744,
      "learning_rate": 0.00023113833975498964,
      "loss": 3.8398,
      "step": 154040
    },
    {
      "epoch": 0.3209375,
      "grad_norm": 0.7113367915153503,
      "learning_rate": 0.00023113004781990113,
      "loss": 3.9492,
      "step": 154050
    },
    {
      "epoch": 0.32095833333333335,
      "grad_norm": 0.7464639544487,
      "learning_rate": 0.00023112175553436284,
      "loss": 3.8046,
      "step": 154060
    },
    {
      "epoch": 0.32097916666666665,
      "grad_norm": 0.9268916845321655,
      "learning_rate": 0.00023111346289841076,
      "loss": 3.9651,
      "step": 154070
    },
    {
      "epoch": 0.321,
      "grad_norm": 0.8794302940368652,
      "learning_rate": 0.0002311051699120806,
      "loss": 3.8778,
      "step": 154080
    },
    {
      "epoch": 0.3210208333333333,
      "grad_norm": 0.8598648309707642,
      "learning_rate": 0.0002310968765754082,
      "loss": 3.8306,
      "step": 154090
    },
    {
      "epoch": 0.32104166666666667,
      "grad_norm": 0.7396261692047119,
      "learning_rate": 0.00023108858288842943,
      "loss": 3.8118,
      "step": 154100
    },
    {
      "epoch": 0.3210625,
      "grad_norm": 0.7719778418540955,
      "learning_rate": 0.00023108028885118003,
      "loss": 3.9121,
      "step": 154110
    },
    {
      "epoch": 0.32108333333333333,
      "grad_norm": 0.7962385416030884,
      "learning_rate": 0.00023107199446369592,
      "loss": 3.8166,
      "step": 154120
    },
    {
      "epoch": 0.3211041666666667,
      "grad_norm": 0.8556819558143616,
      "learning_rate": 0.00023106369972601286,
      "loss": 3.786,
      "step": 154130
    },
    {
      "epoch": 0.321125,
      "grad_norm": 0.743748664855957,
      "learning_rate": 0.00023105540463816673,
      "loss": 3.9814,
      "step": 154140
    },
    {
      "epoch": 0.32114583333333335,
      "grad_norm": 0.7294877171516418,
      "learning_rate": 0.00023104710920019325,
      "loss": 3.8816,
      "step": 154150
    },
    {
      "epoch": 0.32116666666666666,
      "grad_norm": 0.8249985575675964,
      "learning_rate": 0.00023103881341212843,
      "loss": 3.8912,
      "step": 154160
    },
    {
      "epoch": 0.3211875,
      "grad_norm": 0.748569905757904,
      "learning_rate": 0.00023103051727400799,
      "loss": 3.8534,
      "step": 154170
    },
    {
      "epoch": 0.3212083333333333,
      "grad_norm": 0.783600389957428,
      "learning_rate": 0.00023102222078586778,
      "loss": 3.7401,
      "step": 154180
    },
    {
      "epoch": 0.3212291666666667,
      "grad_norm": 0.6825047731399536,
      "learning_rate": 0.00023101392394774366,
      "loss": 3.9183,
      "step": 154190
    },
    {
      "epoch": 0.32125,
      "grad_norm": 0.7665307521820068,
      "learning_rate": 0.00023100562675967145,
      "loss": 3.7675,
      "step": 154200
    },
    {
      "epoch": 0.32127083333333334,
      "grad_norm": 0.7442527413368225,
      "learning_rate": 0.00023099732922168695,
      "loss": 3.7153,
      "step": 154210
    },
    {
      "epoch": 0.32129166666666664,
      "grad_norm": 0.9026127457618713,
      "learning_rate": 0.00023098903133382613,
      "loss": 3.8553,
      "step": 154220
    },
    {
      "epoch": 0.3213125,
      "grad_norm": 0.9258597493171692,
      "learning_rate": 0.0002309807330961247,
      "loss": 3.7976,
      "step": 154230
    },
    {
      "epoch": 0.32133333333333336,
      "grad_norm": 0.7581011652946472,
      "learning_rate": 0.00023097243450861856,
      "loss": 3.7723,
      "step": 154240
    },
    {
      "epoch": 0.32135416666666666,
      "grad_norm": 0.7141950130462646,
      "learning_rate": 0.00023096413557134357,
      "loss": 3.8429,
      "step": 154250
    },
    {
      "epoch": 0.321375,
      "grad_norm": 0.849009096622467,
      "learning_rate": 0.00023095583628433554,
      "loss": 3.8633,
      "step": 154260
    },
    {
      "epoch": 0.3213958333333333,
      "grad_norm": 0.7837465405464172,
      "learning_rate": 0.0002309475366476304,
      "loss": 3.7609,
      "step": 154270
    },
    {
      "epoch": 0.3214166666666667,
      "grad_norm": 0.8116361498832703,
      "learning_rate": 0.0002309392366612639,
      "loss": 3.8439,
      "step": 154280
    },
    {
      "epoch": 0.3214375,
      "grad_norm": 0.8309770822525024,
      "learning_rate": 0.00023093093632527191,
      "loss": 3.8915,
      "step": 154290
    },
    {
      "epoch": 0.32145833333333335,
      "grad_norm": 0.7029276490211487,
      "learning_rate": 0.00023092263563969035,
      "loss": 3.8814,
      "step": 154300
    },
    {
      "epoch": 0.32147916666666665,
      "grad_norm": 1.6523908376693726,
      "learning_rate": 0.000230914334604555,
      "loss": 4.0435,
      "step": 154310
    },
    {
      "epoch": 0.3215,
      "grad_norm": 0.7270710468292236,
      "learning_rate": 0.0002309060332199018,
      "loss": 3.9182,
      "step": 154320
    },
    {
      "epoch": 0.3215208333333333,
      "grad_norm": 0.8012025356292725,
      "learning_rate": 0.00023089773148576653,
      "loss": 3.7862,
      "step": 154330
    },
    {
      "epoch": 0.32154166666666667,
      "grad_norm": 0.8496716618537903,
      "learning_rate": 0.0002308894294021851,
      "loss": 3.9807,
      "step": 154340
    },
    {
      "epoch": 0.3215625,
      "grad_norm": 0.7851206660270691,
      "learning_rate": 0.00023088112696919335,
      "loss": 3.7157,
      "step": 154350
    },
    {
      "epoch": 0.32158333333333333,
      "grad_norm": 1.224629521369934,
      "learning_rate": 0.00023087282418682713,
      "loss": 3.8197,
      "step": 154360
    },
    {
      "epoch": 0.3216041666666667,
      "grad_norm": 0.8327422142028809,
      "learning_rate": 0.00023086452105512234,
      "loss": 3.9287,
      "step": 154370
    },
    {
      "epoch": 0.321625,
      "grad_norm": 0.7875216007232666,
      "learning_rate": 0.0002308562175741148,
      "loss": 3.9145,
      "step": 154380
    },
    {
      "epoch": 0.32164583333333335,
      "grad_norm": 0.6998911499977112,
      "learning_rate": 0.00023084791374384045,
      "loss": 3.8137,
      "step": 154390
    },
    {
      "epoch": 0.32166666666666666,
      "grad_norm": 0.6686747670173645,
      "learning_rate": 0.00023083960956433506,
      "loss": 3.8721,
      "step": 154400
    },
    {
      "epoch": 0.3216875,
      "grad_norm": 0.7468841671943665,
      "learning_rate": 0.00023083130503563464,
      "loss": 3.8132,
      "step": 154410
    },
    {
      "epoch": 0.3217083333333333,
      "grad_norm": 0.7111924290657043,
      "learning_rate": 0.00023082300015777484,
      "loss": 3.9315,
      "step": 154420
    },
    {
      "epoch": 0.3217291666666667,
      "grad_norm": 1.1409577131271362,
      "learning_rate": 0.00023081469493079173,
      "loss": 3.784,
      "step": 154430
    },
    {
      "epoch": 0.32175,
      "grad_norm": 0.727071225643158,
      "learning_rate": 0.00023080638935472122,
      "loss": 3.8351,
      "step": 154440
    },
    {
      "epoch": 0.32177083333333334,
      "grad_norm": 0.7424230575561523,
      "learning_rate": 0.00023079808342959903,
      "loss": 3.7341,
      "step": 154450
    },
    {
      "epoch": 0.32179166666666664,
      "grad_norm": 0.7331480979919434,
      "learning_rate": 0.00023078977715546104,
      "loss": 3.7823,
      "step": 154460
    },
    {
      "epoch": 0.3218125,
      "grad_norm": 0.8618324398994446,
      "learning_rate": 0.00023078147053234328,
      "loss": 3.926,
      "step": 154470
    },
    {
      "epoch": 0.32183333333333336,
      "grad_norm": 0.7477438449859619,
      "learning_rate": 0.00023077316356028148,
      "loss": 3.6955,
      "step": 154480
    },
    {
      "epoch": 0.32185416666666666,
      "grad_norm": 0.7708790898323059,
      "learning_rate": 0.00023076485623931163,
      "loss": 3.745,
      "step": 154490
    },
    {
      "epoch": 0.321875,
      "grad_norm": 0.803095817565918,
      "learning_rate": 0.00023075654856946956,
      "loss": 3.8152,
      "step": 154500
    },
    {
      "epoch": 0.3218958333333333,
      "grad_norm": 0.7667455673217773,
      "learning_rate": 0.00023074824055079114,
      "loss": 3.7551,
      "step": 154510
    },
    {
      "epoch": 0.3219166666666667,
      "grad_norm": 0.7158496379852295,
      "learning_rate": 0.00023073993218331227,
      "loss": 3.7993,
      "step": 154520
    },
    {
      "epoch": 0.3219375,
      "grad_norm": 0.7452413439750671,
      "learning_rate": 0.00023073162346706893,
      "loss": 3.8967,
      "step": 154530
    },
    {
      "epoch": 0.32195833333333335,
      "grad_norm": 0.705858051776886,
      "learning_rate": 0.00023072331440209687,
      "loss": 3.7719,
      "step": 154540
    },
    {
      "epoch": 0.32197916666666665,
      "grad_norm": 0.820517897605896,
      "learning_rate": 0.00023071500498843205,
      "loss": 4.0467,
      "step": 154550
    },
    {
      "epoch": 0.322,
      "grad_norm": 0.8470239639282227,
      "learning_rate": 0.00023070669522611036,
      "loss": 3.8323,
      "step": 154560
    },
    {
      "epoch": 0.3220208333333333,
      "grad_norm": 0.7829691767692566,
      "learning_rate": 0.0002306983851151677,
      "loss": 3.6398,
      "step": 154570
    },
    {
      "epoch": 0.32204166666666667,
      "grad_norm": 0.857552707195282,
      "learning_rate": 0.00023069007465564002,
      "loss": 3.8444,
      "step": 154580
    },
    {
      "epoch": 0.3220625,
      "grad_norm": 0.7339721322059631,
      "learning_rate": 0.00023068176384756302,
      "loss": 3.8224,
      "step": 154590
    },
    {
      "epoch": 0.32208333333333333,
      "grad_norm": 0.6871898770332336,
      "learning_rate": 0.00023067345269097282,
      "loss": 3.8072,
      "step": 154600
    },
    {
      "epoch": 0.3221041666666667,
      "grad_norm": 0.8087634444236755,
      "learning_rate": 0.0002306651411859053,
      "loss": 3.7951,
      "step": 154610
    },
    {
      "epoch": 0.322125,
      "grad_norm": 0.7056026458740234,
      "learning_rate": 0.00023065682933239614,
      "loss": 3.7475,
      "step": 154620
    },
    {
      "epoch": 0.32214583333333335,
      "grad_norm": 0.8553313612937927,
      "learning_rate": 0.00023064851713048152,
      "loss": 3.8179,
      "step": 154630
    },
    {
      "epoch": 0.32216666666666666,
      "grad_norm": 0.8976519703865051,
      "learning_rate": 0.00023064020458019724,
      "loss": 3.9321,
      "step": 154640
    },
    {
      "epoch": 0.3221875,
      "grad_norm": 0.7886064052581787,
      "learning_rate": 0.00023063189168157913,
      "loss": 3.9098,
      "step": 154650
    },
    {
      "epoch": 0.3222083333333333,
      "grad_norm": 0.7434669733047485,
      "learning_rate": 0.00023062357843466318,
      "loss": 3.7534,
      "step": 154660
    },
    {
      "epoch": 0.3222291666666667,
      "grad_norm": 0.7121542096138,
      "learning_rate": 0.00023061526483948534,
      "loss": 3.8925,
      "step": 154670
    },
    {
      "epoch": 0.32225,
      "grad_norm": 0.6588770747184753,
      "learning_rate": 0.00023060695089608142,
      "loss": 3.7969,
      "step": 154680
    },
    {
      "epoch": 0.32227083333333334,
      "grad_norm": 0.7642781734466553,
      "learning_rate": 0.00023059863660448735,
      "loss": 3.6896,
      "step": 154690
    },
    {
      "epoch": 0.32229166666666664,
      "grad_norm": 0.7642799615859985,
      "learning_rate": 0.0002305903219647391,
      "loss": 3.7407,
      "step": 154700
    },
    {
      "epoch": 0.3223125,
      "grad_norm": 0.8270300626754761,
      "learning_rate": 0.0002305820069768726,
      "loss": 3.8379,
      "step": 154710
    },
    {
      "epoch": 0.32233333333333336,
      "grad_norm": 0.7305610775947571,
      "learning_rate": 0.00023057369164092365,
      "loss": 3.981,
      "step": 154720
    },
    {
      "epoch": 0.32235416666666666,
      "grad_norm": 0.7860446572303772,
      "learning_rate": 0.00023056537595692828,
      "loss": 3.7495,
      "step": 154730
    },
    {
      "epoch": 0.322375,
      "grad_norm": 0.9314789175987244,
      "learning_rate": 0.00023055705992492236,
      "loss": 3.8939,
      "step": 154740
    },
    {
      "epoch": 0.3223958333333333,
      "grad_norm": 0.7728352546691895,
      "learning_rate": 0.00023054874354494186,
      "loss": 3.8121,
      "step": 154750
    },
    {
      "epoch": 0.3224166666666667,
      "grad_norm": 0.7778765559196472,
      "learning_rate": 0.0002305404268170227,
      "loss": 3.825,
      "step": 154760
    },
    {
      "epoch": 0.3224375,
      "grad_norm": 0.7328681945800781,
      "learning_rate": 0.0002305321097412007,
      "loss": 3.7387,
      "step": 154770
    },
    {
      "epoch": 0.32245833333333335,
      "grad_norm": 0.8738206028938293,
      "learning_rate": 0.00023052379231751192,
      "loss": 3.619,
      "step": 154780
    },
    {
      "epoch": 0.32247916666666665,
      "grad_norm": 0.7567570209503174,
      "learning_rate": 0.00023051547454599217,
      "loss": 3.9817,
      "step": 154790
    },
    {
      "epoch": 0.3225,
      "grad_norm": 0.9878218173980713,
      "learning_rate": 0.00023050715642667749,
      "loss": 3.7604,
      "step": 154800
    },
    {
      "epoch": 0.3225208333333333,
      "grad_norm": 0.7444084882736206,
      "learning_rate": 0.0002304988379596038,
      "loss": 3.7998,
      "step": 154810
    },
    {
      "epoch": 0.32254166666666667,
      "grad_norm": 0.7416655421257019,
      "learning_rate": 0.00023049051914480692,
      "loss": 3.6975,
      "step": 154820
    },
    {
      "epoch": 0.3225625,
      "grad_norm": 0.7240210175514221,
      "learning_rate": 0.00023048219998232286,
      "loss": 3.809,
      "step": 154830
    },
    {
      "epoch": 0.32258333333333333,
      "grad_norm": 0.7988502979278564,
      "learning_rate": 0.00023047388047218762,
      "loss": 3.7833,
      "step": 154840
    },
    {
      "epoch": 0.3226041666666667,
      "grad_norm": 0.7801516652107239,
      "learning_rate": 0.00023046556061443702,
      "loss": 3.7203,
      "step": 154850
    },
    {
      "epoch": 0.322625,
      "grad_norm": 0.7329413294792175,
      "learning_rate": 0.00023045724040910706,
      "loss": 3.805,
      "step": 154860
    },
    {
      "epoch": 0.32264583333333335,
      "grad_norm": 0.750150740146637,
      "learning_rate": 0.00023044891985623362,
      "loss": 3.863,
      "step": 154870
    },
    {
      "epoch": 0.32266666666666666,
      "grad_norm": 0.9437929391860962,
      "learning_rate": 0.00023044059895585277,
      "loss": 3.7944,
      "step": 154880
    },
    {
      "epoch": 0.3226875,
      "grad_norm": 0.9009469151496887,
      "learning_rate": 0.00023043227770800032,
      "loss": 3.8735,
      "step": 154890
    },
    {
      "epoch": 0.3227083333333333,
      "grad_norm": 0.7679034471511841,
      "learning_rate": 0.00023042395611271228,
      "loss": 3.8391,
      "step": 154900
    },
    {
      "epoch": 0.3227291666666667,
      "grad_norm": 0.8323872089385986,
      "learning_rate": 0.00023041563417002458,
      "loss": 3.6913,
      "step": 154910
    },
    {
      "epoch": 0.32275,
      "grad_norm": 0.8955743312835693,
      "learning_rate": 0.00023040731187997317,
      "loss": 3.8067,
      "step": 154920
    },
    {
      "epoch": 0.32277083333333334,
      "grad_norm": 0.778679609298706,
      "learning_rate": 0.00023039898924259402,
      "loss": 3.734,
      "step": 154930
    },
    {
      "epoch": 0.32279166666666664,
      "grad_norm": 0.838668167591095,
      "learning_rate": 0.000230390666257923,
      "loss": 3.932,
      "step": 154940
    },
    {
      "epoch": 0.3228125,
      "grad_norm": 0.7775641679763794,
      "learning_rate": 0.00023038234292599622,
      "loss": 3.8582,
      "step": 154950
    },
    {
      "epoch": 0.32283333333333336,
      "grad_norm": 0.8068355917930603,
      "learning_rate": 0.00023037401924684946,
      "loss": 3.7549,
      "step": 154960
    },
    {
      "epoch": 0.32285416666666666,
      "grad_norm": 0.7083050608634949,
      "learning_rate": 0.00023036569522051878,
      "loss": 3.9116,
      "step": 154970
    },
    {
      "epoch": 0.322875,
      "grad_norm": 0.638461172580719,
      "learning_rate": 0.0002303573708470401,
      "loss": 3.7128,
      "step": 154980
    },
    {
      "epoch": 0.3228958333333333,
      "grad_norm": 0.7556342482566833,
      "learning_rate": 0.00023034904612644937,
      "loss": 3.84,
      "step": 154990
    },
    {
      "epoch": 0.3229166666666667,
      "grad_norm": 0.7972189784049988,
      "learning_rate": 0.00023034072105878264,
      "loss": 3.8333,
      "step": 155000
    },
    {
      "epoch": 0.3229166666666667,
      "eval_loss": 4.190110683441162,
      "eval_runtime": 11.0455,
      "eval_samples_per_second": 0.905,
      "eval_steps_per_second": 0.272,
      "step": 155000
    },
    {
      "epoch": 0.3229375,
      "grad_norm": 0.6833038926124573,
      "learning_rate": 0.00023033239564407575,
      "loss": 3.9534,
      "step": 155010
    },
    {
      "epoch": 0.32295833333333335,
      "grad_norm": 0.7659375071525574,
      "learning_rate": 0.0002303240698823647,
      "loss": 3.7743,
      "step": 155020
    },
    {
      "epoch": 0.32297916666666665,
      "grad_norm": 0.8977503180503845,
      "learning_rate": 0.00023031574377368547,
      "loss": 3.778,
      "step": 155030
    },
    {
      "epoch": 0.323,
      "grad_norm": 0.7023462653160095,
      "learning_rate": 0.000230307417318074,
      "loss": 3.6775,
      "step": 155040
    },
    {
      "epoch": 0.3230208333333333,
      "grad_norm": 0.8406599760055542,
      "learning_rate": 0.00023029909051556629,
      "loss": 3.8548,
      "step": 155050
    },
    {
      "epoch": 0.32304166666666667,
      "grad_norm": 1.0286040306091309,
      "learning_rate": 0.00023029076336619826,
      "loss": 3.9632,
      "step": 155060
    },
    {
      "epoch": 0.3230625,
      "grad_norm": 0.8869988322257996,
      "learning_rate": 0.00023028243587000597,
      "loss": 3.7918,
      "step": 155070
    },
    {
      "epoch": 0.32308333333333333,
      "grad_norm": 0.7367129921913147,
      "learning_rate": 0.00023027410802702527,
      "loss": 3.7282,
      "step": 155080
    },
    {
      "epoch": 0.3231041666666667,
      "grad_norm": 0.7807878255844116,
      "learning_rate": 0.00023026577983729224,
      "loss": 3.9087,
      "step": 155090
    },
    {
      "epoch": 0.323125,
      "grad_norm": 0.7280221581459045,
      "learning_rate": 0.00023025745130084282,
      "loss": 3.7555,
      "step": 155100
    },
    {
      "epoch": 0.32314583333333335,
      "grad_norm": 0.7912907600402832,
      "learning_rate": 0.00023024912241771295,
      "loss": 3.9074,
      "step": 155110
    },
    {
      "epoch": 0.32316666666666666,
      "grad_norm": 1.070326805114746,
      "learning_rate": 0.00023024079318793866,
      "loss": 3.6342,
      "step": 155120
    },
    {
      "epoch": 0.3231875,
      "grad_norm": 0.8336413502693176,
      "learning_rate": 0.00023023246361155588,
      "loss": 3.8656,
      "step": 155130
    },
    {
      "epoch": 0.3232083333333333,
      "grad_norm": 0.7749910354614258,
      "learning_rate": 0.0002302241336886007,
      "loss": 3.858,
      "step": 155140
    },
    {
      "epoch": 0.3232291666666667,
      "grad_norm": 0.8265225291252136,
      "learning_rate": 0.00023021580341910894,
      "loss": 3.7554,
      "step": 155150
    },
    {
      "epoch": 0.32325,
      "grad_norm": 0.682218611240387,
      "learning_rate": 0.00023020747280311663,
      "loss": 3.7074,
      "step": 155160
    },
    {
      "epoch": 0.32327083333333334,
      "grad_norm": 0.7747548222541809,
      "learning_rate": 0.00023019914184065987,
      "loss": 3.891,
      "step": 155170
    },
    {
      "epoch": 0.32329166666666664,
      "grad_norm": 1.1255115270614624,
      "learning_rate": 0.0002301908105317745,
      "loss": 3.8714,
      "step": 155180
    },
    {
      "epoch": 0.3233125,
      "grad_norm": 0.9959270358085632,
      "learning_rate": 0.0002301824788764966,
      "loss": 4.0096,
      "step": 155190
    },
    {
      "epoch": 0.3233333333333333,
      "grad_norm": 0.7186164855957031,
      "learning_rate": 0.0002301741468748621,
      "loss": 3.9023,
      "step": 155200
    },
    {
      "epoch": 0.32335416666666666,
      "grad_norm": 0.8479706048965454,
      "learning_rate": 0.00023016581452690708,
      "loss": 3.9932,
      "step": 155210
    },
    {
      "epoch": 0.323375,
      "grad_norm": 0.6962795853614807,
      "learning_rate": 0.00023015748183266742,
      "loss": 3.9456,
      "step": 155220
    },
    {
      "epoch": 0.3233958333333333,
      "grad_norm": 0.8359986543655396,
      "learning_rate": 0.00023014914879217917,
      "loss": 3.714,
      "step": 155230
    },
    {
      "epoch": 0.3234166666666667,
      "grad_norm": 0.9041671752929688,
      "learning_rate": 0.00023014081540547834,
      "loss": 3.8242,
      "step": 155240
    },
    {
      "epoch": 0.3234375,
      "grad_norm": 0.7584578990936279,
      "learning_rate": 0.0002301324816726009,
      "loss": 3.8481,
      "step": 155250
    },
    {
      "epoch": 0.32345833333333335,
      "grad_norm": 0.7564696073532104,
      "learning_rate": 0.00023012414759358287,
      "loss": 3.7556,
      "step": 155260
    },
    {
      "epoch": 0.32347916666666665,
      "grad_norm": 0.7854893207550049,
      "learning_rate": 0.00023011581316846022,
      "loss": 3.8009,
      "step": 155270
    },
    {
      "epoch": 0.3235,
      "grad_norm": 0.7987484335899353,
      "learning_rate": 0.000230107478397269,
      "loss": 3.9588,
      "step": 155280
    },
    {
      "epoch": 0.3235208333333333,
      "grad_norm": 0.7110240459442139,
      "learning_rate": 0.0002300991432800451,
      "loss": 3.8575,
      "step": 155290
    },
    {
      "epoch": 0.32354166666666667,
      "grad_norm": 0.7976261377334595,
      "learning_rate": 0.00023009080781682468,
      "loss": 3.8066,
      "step": 155300
    },
    {
      "epoch": 0.3235625,
      "grad_norm": 0.7155866026878357,
      "learning_rate": 0.00023008247200764371,
      "loss": 3.6659,
      "step": 155310
    },
    {
      "epoch": 0.32358333333333333,
      "grad_norm": 0.8303860425949097,
      "learning_rate": 0.00023007413585253807,
      "loss": 3.9299,
      "step": 155320
    },
    {
      "epoch": 0.3236041666666667,
      "grad_norm": 0.9610325694084167,
      "learning_rate": 0.0002300657993515439,
      "loss": 3.67,
      "step": 155330
    },
    {
      "epoch": 0.323625,
      "grad_norm": 0.6373772025108337,
      "learning_rate": 0.00023005746250469718,
      "loss": 3.7479,
      "step": 155340
    },
    {
      "epoch": 0.32364583333333335,
      "grad_norm": 0.984666109085083,
      "learning_rate": 0.0002300491253120339,
      "loss": 3.8369,
      "step": 155350
    },
    {
      "epoch": 0.32366666666666666,
      "grad_norm": 1.0027732849121094,
      "learning_rate": 0.00023004078777359005,
      "loss": 3.9366,
      "step": 155360
    },
    {
      "epoch": 0.3236875,
      "grad_norm": 1.0187280178070068,
      "learning_rate": 0.00023003244988940174,
      "loss": 3.9123,
      "step": 155370
    },
    {
      "epoch": 0.3237083333333333,
      "grad_norm": 0.7349487543106079,
      "learning_rate": 0.0002300241116595049,
      "loss": 3.9001,
      "step": 155380
    },
    {
      "epoch": 0.3237291666666667,
      "grad_norm": 0.7910842895507812,
      "learning_rate": 0.00023001577308393557,
      "loss": 3.9096,
      "step": 155390
    },
    {
      "epoch": 0.32375,
      "grad_norm": 0.7328116297721863,
      "learning_rate": 0.00023000743416272978,
      "loss": 3.6521,
      "step": 155400
    },
    {
      "epoch": 0.32377083333333334,
      "grad_norm": 0.8548784255981445,
      "learning_rate": 0.00022999909489592352,
      "loss": 3.6837,
      "step": 155410
    },
    {
      "epoch": 0.32379166666666664,
      "grad_norm": 0.6522795557975769,
      "learning_rate": 0.00022999075528355286,
      "loss": 3.873,
      "step": 155420
    },
    {
      "epoch": 0.3238125,
      "grad_norm": 0.7671781182289124,
      "learning_rate": 0.00022998241532565377,
      "loss": 3.7912,
      "step": 155430
    },
    {
      "epoch": 0.3238333333333333,
      "grad_norm": 0.7675791382789612,
      "learning_rate": 0.00022997407502226233,
      "loss": 3.6495,
      "step": 155440
    },
    {
      "epoch": 0.32385416666666667,
      "grad_norm": 1.0607856512069702,
      "learning_rate": 0.00022996573437341453,
      "loss": 3.9236,
      "step": 155450
    },
    {
      "epoch": 0.323875,
      "grad_norm": 0.7617207169532776,
      "learning_rate": 0.0002299573933791464,
      "loss": 3.8314,
      "step": 155460
    },
    {
      "epoch": 0.3238958333333333,
      "grad_norm": 0.8022184371948242,
      "learning_rate": 0.00022994905203949401,
      "loss": 3.7935,
      "step": 155470
    },
    {
      "epoch": 0.3239166666666667,
      "grad_norm": 0.7541642785072327,
      "learning_rate": 0.0002299407103544934,
      "loss": 3.7669,
      "step": 155480
    },
    {
      "epoch": 0.3239375,
      "grad_norm": 0.8793721199035645,
      "learning_rate": 0.00022993236832418047,
      "loss": 3.7983,
      "step": 155490
    },
    {
      "epoch": 0.32395833333333335,
      "grad_norm": 0.8776484727859497,
      "learning_rate": 0.0002299240259485914,
      "loss": 3.86,
      "step": 155500
    },
    {
      "epoch": 0.32397916666666665,
      "grad_norm": 0.7586328387260437,
      "learning_rate": 0.00022991568322776218,
      "loss": 3.8493,
      "step": 155510
    },
    {
      "epoch": 0.324,
      "grad_norm": 0.7315371036529541,
      "learning_rate": 0.00022990734016172881,
      "loss": 3.9862,
      "step": 155520
    },
    {
      "epoch": 0.3240208333333333,
      "grad_norm": 0.776718020439148,
      "learning_rate": 0.00022989899675052733,
      "loss": 3.8344,
      "step": 155530
    },
    {
      "epoch": 0.3240416666666667,
      "grad_norm": 0.7491149306297302,
      "learning_rate": 0.00022989065299419388,
      "loss": 3.809,
      "step": 155540
    },
    {
      "epoch": 0.3240625,
      "grad_norm": 0.8040465712547302,
      "learning_rate": 0.0002298823088927644,
      "loss": 3.8139,
      "step": 155550
    },
    {
      "epoch": 0.32408333333333333,
      "grad_norm": 0.8563213348388672,
      "learning_rate": 0.00022987396444627497,
      "loss": 3.876,
      "step": 155560
    },
    {
      "epoch": 0.3241041666666667,
      "grad_norm": 0.6548251509666443,
      "learning_rate": 0.0002298656196547617,
      "loss": 3.8457,
      "step": 155570
    },
    {
      "epoch": 0.324125,
      "grad_norm": 0.7526715993881226,
      "learning_rate": 0.00022985727451826048,
      "loss": 3.9462,
      "step": 155580
    },
    {
      "epoch": 0.32414583333333336,
      "grad_norm": 0.8121998310089111,
      "learning_rate": 0.00022984892903680744,
      "loss": 4.0183,
      "step": 155590
    },
    {
      "epoch": 0.32416666666666666,
      "grad_norm": 0.7279778718948364,
      "learning_rate": 0.00022984058321043866,
      "loss": 3.7315,
      "step": 155600
    },
    {
      "epoch": 0.3241875,
      "grad_norm": 0.6594597697257996,
      "learning_rate": 0.00022983223703919016,
      "loss": 3.7541,
      "step": 155610
    },
    {
      "epoch": 0.3242083333333333,
      "grad_norm": 0.7825616002082825,
      "learning_rate": 0.000229823890523098,
      "loss": 3.7777,
      "step": 155620
    },
    {
      "epoch": 0.3242291666666667,
      "grad_norm": 0.8605616688728333,
      "learning_rate": 0.0002298155436621982,
      "loss": 3.6649,
      "step": 155630
    },
    {
      "epoch": 0.32425,
      "grad_norm": 0.8297064900398254,
      "learning_rate": 0.00022980719645652689,
      "loss": 3.9474,
      "step": 155640
    },
    {
      "epoch": 0.32427083333333334,
      "grad_norm": 0.9053365588188171,
      "learning_rate": 0.0002297988489061201,
      "loss": 3.7133,
      "step": 155650
    },
    {
      "epoch": 0.32429166666666664,
      "grad_norm": 0.7698391675949097,
      "learning_rate": 0.0002297905010110138,
      "loss": 3.8414,
      "step": 155660
    },
    {
      "epoch": 0.3243125,
      "grad_norm": 0.7946532368659973,
      "learning_rate": 0.00022978215277124413,
      "loss": 3.7692,
      "step": 155670
    },
    {
      "epoch": 0.3243333333333333,
      "grad_norm": 0.7861442565917969,
      "learning_rate": 0.0002297738041868472,
      "loss": 4.0171,
      "step": 155680
    },
    {
      "epoch": 0.32435416666666667,
      "grad_norm": 0.9394709467887878,
      "learning_rate": 0.00022976545525785897,
      "loss": 3.9226,
      "step": 155690
    },
    {
      "epoch": 0.324375,
      "grad_norm": 0.7998803853988647,
      "learning_rate": 0.00022975710598431554,
      "loss": 3.8833,
      "step": 155700
    },
    {
      "epoch": 0.3243958333333333,
      "grad_norm": 0.7372171878814697,
      "learning_rate": 0.00022974875636625302,
      "loss": 3.8381,
      "step": 155710
    },
    {
      "epoch": 0.3244166666666667,
      "grad_norm": 0.7556806802749634,
      "learning_rate": 0.0002297404064037074,
      "loss": 3.6341,
      "step": 155720
    },
    {
      "epoch": 0.3244375,
      "grad_norm": 0.8023063540458679,
      "learning_rate": 0.00022973205609671477,
      "loss": 3.7826,
      "step": 155730
    },
    {
      "epoch": 0.32445833333333335,
      "grad_norm": 0.9097335934638977,
      "learning_rate": 0.00022972370544531125,
      "loss": 3.8682,
      "step": 155740
    },
    {
      "epoch": 0.32447916666666665,
      "grad_norm": 0.7238011360168457,
      "learning_rate": 0.0002297153544495329,
      "loss": 3.828,
      "step": 155750
    },
    {
      "epoch": 0.3245,
      "grad_norm": 0.8131437301635742,
      "learning_rate": 0.00022970700310941572,
      "loss": 3.6889,
      "step": 155760
    },
    {
      "epoch": 0.3245208333333333,
      "grad_norm": 0.74420166015625,
      "learning_rate": 0.00022969865142499586,
      "loss": 3.7279,
      "step": 155770
    },
    {
      "epoch": 0.3245416666666667,
      "grad_norm": 0.8434045314788818,
      "learning_rate": 0.0002296902993963094,
      "loss": 3.7665,
      "step": 155780
    },
    {
      "epoch": 0.3245625,
      "grad_norm": 0.8162679076194763,
      "learning_rate": 0.00022968194702339238,
      "loss": 3.8235,
      "step": 155790
    },
    {
      "epoch": 0.32458333333333333,
      "grad_norm": 0.7402360439300537,
      "learning_rate": 0.00022967359430628087,
      "loss": 3.8456,
      "step": 155800
    },
    {
      "epoch": 0.3246041666666667,
      "grad_norm": 0.7202115058898926,
      "learning_rate": 0.00022966524124501094,
      "loss": 3.8355,
      "step": 155810
    },
    {
      "epoch": 0.324625,
      "grad_norm": 0.7395720481872559,
      "learning_rate": 0.00022965688783961878,
      "loss": 3.8545,
      "step": 155820
    },
    {
      "epoch": 0.32464583333333336,
      "grad_norm": 0.7183496952056885,
      "learning_rate": 0.0002296485340901403,
      "loss": 3.7626,
      "step": 155830
    },
    {
      "epoch": 0.32466666666666666,
      "grad_norm": 0.7979522347450256,
      "learning_rate": 0.00022964017999661175,
      "loss": 3.6717,
      "step": 155840
    },
    {
      "epoch": 0.3246875,
      "grad_norm": 0.8857649564743042,
      "learning_rate": 0.00022963182555906916,
      "loss": 3.8695,
      "step": 155850
    },
    {
      "epoch": 0.3247083333333333,
      "grad_norm": 0.8200036883354187,
      "learning_rate": 0.00022962347077754854,
      "loss": 3.7066,
      "step": 155860
    },
    {
      "epoch": 0.3247291666666667,
      "grad_norm": 0.7923847436904907,
      "learning_rate": 0.00022961511565208607,
      "loss": 3.9519,
      "step": 155870
    },
    {
      "epoch": 0.32475,
      "grad_norm": 0.7756210565567017,
      "learning_rate": 0.00022960676018271786,
      "loss": 3.8587,
      "step": 155880
    },
    {
      "epoch": 0.32477083333333334,
      "grad_norm": 0.7125493288040161,
      "learning_rate": 0.0002295984043694799,
      "loss": 3.8556,
      "step": 155890
    },
    {
      "epoch": 0.32479166666666665,
      "grad_norm": 0.8025141954421997,
      "learning_rate": 0.00022959004821240835,
      "loss": 3.5875,
      "step": 155900
    },
    {
      "epoch": 0.3248125,
      "grad_norm": 0.7637453675270081,
      "learning_rate": 0.00022958169171153933,
      "loss": 3.7723,
      "step": 155910
    },
    {
      "epoch": 0.3248333333333333,
      "grad_norm": 1.0625942945480347,
      "learning_rate": 0.00022957333486690887,
      "loss": 3.7587,
      "step": 155920
    },
    {
      "epoch": 0.32485416666666667,
      "grad_norm": 0.8248932361602783,
      "learning_rate": 0.00022956497767855308,
      "loss": 3.6261,
      "step": 155930
    },
    {
      "epoch": 0.324875,
      "grad_norm": 0.8094989061355591,
      "learning_rate": 0.00022955662014650813,
      "loss": 3.9858,
      "step": 155940
    },
    {
      "epoch": 0.32489583333333333,
      "grad_norm": 0.6711764335632324,
      "learning_rate": 0.00022954826227081004,
      "loss": 3.8796,
      "step": 155950
    },
    {
      "epoch": 0.3249166666666667,
      "grad_norm": 0.7927367687225342,
      "learning_rate": 0.00022953990405149495,
      "loss": 3.8173,
      "step": 155960
    },
    {
      "epoch": 0.3249375,
      "grad_norm": 0.8372851014137268,
      "learning_rate": 0.00022953154548859895,
      "loss": 3.8569,
      "step": 155970
    },
    {
      "epoch": 0.32495833333333335,
      "grad_norm": 0.7153267860412598,
      "learning_rate": 0.00022952318658215815,
      "loss": 3.9414,
      "step": 155980
    },
    {
      "epoch": 0.32497916666666665,
      "grad_norm": 1.18757164478302,
      "learning_rate": 0.00022951482733220868,
      "loss": 3.7324,
      "step": 155990
    },
    {
      "epoch": 0.325,
      "grad_norm": 0.7664785385131836,
      "learning_rate": 0.00022950646773878662,
      "loss": 3.7393,
      "step": 156000
    },
    {
      "epoch": 0.325,
      "eval_loss": 4.178890705108643,
      "eval_runtime": 8.4512,
      "eval_samples_per_second": 1.183,
      "eval_steps_per_second": 0.355,
      "step": 156000
    },
    {
      "epoch": 0.3250208333333333,
      "grad_norm": 0.8220098614692688,
      "learning_rate": 0.00022949810780192813,
      "loss": 3.8366,
      "step": 156010
    },
    {
      "epoch": 0.3250416666666667,
      "grad_norm": 0.8808428049087524,
      "learning_rate": 0.00022948974752166925,
      "loss": 3.8046,
      "step": 156020
    },
    {
      "epoch": 0.3250625,
      "grad_norm": 0.8057045340538025,
      "learning_rate": 0.0002294813868980461,
      "loss": 3.885,
      "step": 156030
    },
    {
      "epoch": 0.32508333333333334,
      "grad_norm": 0.7719152569770813,
      "learning_rate": 0.00022947302593109487,
      "loss": 3.7703,
      "step": 156040
    },
    {
      "epoch": 0.3251041666666667,
      "grad_norm": 0.767363429069519,
      "learning_rate": 0.0002294646646208516,
      "loss": 3.8561,
      "step": 156050
    },
    {
      "epoch": 0.325125,
      "grad_norm": 0.8921640515327454,
      "learning_rate": 0.0002294563029673524,
      "loss": 3.9828,
      "step": 156060
    },
    {
      "epoch": 0.32514583333333336,
      "grad_norm": 0.8905880451202393,
      "learning_rate": 0.00022944794097063347,
      "loss": 3.9826,
      "step": 156070
    },
    {
      "epoch": 0.32516666666666666,
      "grad_norm": 0.7185882925987244,
      "learning_rate": 0.00022943957863073088,
      "loss": 3.8327,
      "step": 156080
    },
    {
      "epoch": 0.3251875,
      "grad_norm": 0.8305610418319702,
      "learning_rate": 0.00022943121594768074,
      "loss": 3.7039,
      "step": 156090
    },
    {
      "epoch": 0.3252083333333333,
      "grad_norm": 0.7004119753837585,
      "learning_rate": 0.00022942285292151918,
      "loss": 3.8287,
      "step": 156100
    },
    {
      "epoch": 0.3252291666666667,
      "grad_norm": 0.8133630156517029,
      "learning_rate": 0.00022941448955228236,
      "loss": 3.8475,
      "step": 156110
    },
    {
      "epoch": 0.32525,
      "grad_norm": 0.6896514296531677,
      "learning_rate": 0.00022940612584000636,
      "loss": 3.7519,
      "step": 156120
    },
    {
      "epoch": 0.32527083333333334,
      "grad_norm": 0.8403642773628235,
      "learning_rate": 0.0002293977617847273,
      "loss": 3.8887,
      "step": 156130
    },
    {
      "epoch": 0.32529166666666665,
      "grad_norm": 0.7917779088020325,
      "learning_rate": 0.00022938939738648137,
      "loss": 3.8551,
      "step": 156140
    },
    {
      "epoch": 0.3253125,
      "grad_norm": 0.6851844787597656,
      "learning_rate": 0.0002293810326453047,
      "loss": 3.8711,
      "step": 156150
    },
    {
      "epoch": 0.3253333333333333,
      "grad_norm": 0.7322126030921936,
      "learning_rate": 0.00022937266756123333,
      "loss": 4.0471,
      "step": 156160
    },
    {
      "epoch": 0.32535416666666667,
      "grad_norm": 0.7041338086128235,
      "learning_rate": 0.00022936430213430346,
      "loss": 3.9232,
      "step": 156170
    },
    {
      "epoch": 0.325375,
      "grad_norm": 0.7247496843338013,
      "learning_rate": 0.0002293559363645513,
      "loss": 3.9286,
      "step": 156180
    },
    {
      "epoch": 0.32539583333333333,
      "grad_norm": 0.7209264039993286,
      "learning_rate": 0.0002293475702520128,
      "loss": 3.9308,
      "step": 156190
    },
    {
      "epoch": 0.3254166666666667,
      "grad_norm": 0.965668797492981,
      "learning_rate": 0.00022933920379672427,
      "loss": 3.7793,
      "step": 156200
    },
    {
      "epoch": 0.3254375,
      "grad_norm": 0.7378849983215332,
      "learning_rate": 0.00022933083699872177,
      "loss": 3.8386,
      "step": 156210
    },
    {
      "epoch": 0.32545833333333335,
      "grad_norm": 0.7434159517288208,
      "learning_rate": 0.00022932246985804146,
      "loss": 3.82,
      "step": 156220
    },
    {
      "epoch": 0.32547916666666665,
      "grad_norm": 0.7904157638549805,
      "learning_rate": 0.00022931410237471943,
      "loss": 3.9744,
      "step": 156230
    },
    {
      "epoch": 0.3255,
      "grad_norm": 0.8784237504005432,
      "learning_rate": 0.00022930573454879192,
      "loss": 3.9602,
      "step": 156240
    },
    {
      "epoch": 0.3255208333333333,
      "grad_norm": 0.8462828397750854,
      "learning_rate": 0.00022929736638029502,
      "loss": 3.7517,
      "step": 156250
    },
    {
      "epoch": 0.3255416666666667,
      "grad_norm": 0.7357795238494873,
      "learning_rate": 0.00022928899786926486,
      "loss": 3.8547,
      "step": 156260
    },
    {
      "epoch": 0.3255625,
      "grad_norm": 0.9372376799583435,
      "learning_rate": 0.00022928062901573766,
      "loss": 3.836,
      "step": 156270
    },
    {
      "epoch": 0.32558333333333334,
      "grad_norm": 0.973126232624054,
      "learning_rate": 0.0002292722598197495,
      "loss": 3.936,
      "step": 156280
    },
    {
      "epoch": 0.32560416666666664,
      "grad_norm": 0.7636737823486328,
      "learning_rate": 0.00022926389028133656,
      "loss": 3.7808,
      "step": 156290
    },
    {
      "epoch": 0.325625,
      "grad_norm": 0.7958846688270569,
      "learning_rate": 0.000229255520400535,
      "loss": 3.8057,
      "step": 156300
    },
    {
      "epoch": 0.32564583333333336,
      "grad_norm": 0.7539644241333008,
      "learning_rate": 0.00022924715017738092,
      "loss": 3.6723,
      "step": 156310
    },
    {
      "epoch": 0.32566666666666666,
      "grad_norm": 0.7303900718688965,
      "learning_rate": 0.00022923877961191058,
      "loss": 3.9195,
      "step": 156320
    },
    {
      "epoch": 0.3256875,
      "grad_norm": 0.8548832535743713,
      "learning_rate": 0.00022923040870416003,
      "loss": 3.7908,
      "step": 156330
    },
    {
      "epoch": 0.3257083333333333,
      "grad_norm": 0.7250054478645325,
      "learning_rate": 0.00022922203745416546,
      "loss": 3.7095,
      "step": 156340
    },
    {
      "epoch": 0.3257291666666667,
      "grad_norm": 0.8044642210006714,
      "learning_rate": 0.0002292136658619631,
      "loss": 3.7933,
      "step": 156350
    },
    {
      "epoch": 0.32575,
      "grad_norm": 0.6982085108757019,
      "learning_rate": 0.000229205293927589,
      "loss": 3.7096,
      "step": 156360
    },
    {
      "epoch": 0.32577083333333334,
      "grad_norm": 0.698945939540863,
      "learning_rate": 0.0002291969216510794,
      "loss": 3.8209,
      "step": 156370
    },
    {
      "epoch": 0.32579166666666665,
      "grad_norm": 0.8001167178153992,
      "learning_rate": 0.00022918854903247052,
      "loss": 3.7293,
      "step": 156380
    },
    {
      "epoch": 0.3258125,
      "grad_norm": 0.6853088736534119,
      "learning_rate": 0.0002291801760717984,
      "loss": 3.8676,
      "step": 156390
    },
    {
      "epoch": 0.3258333333333333,
      "grad_norm": 0.8387944102287292,
      "learning_rate": 0.00022917180276909923,
      "loss": 3.8263,
      "step": 156400
    },
    {
      "epoch": 0.32585416666666667,
      "grad_norm": 0.8625638484954834,
      "learning_rate": 0.0002291634291244093,
      "loss": 3.7558,
      "step": 156410
    },
    {
      "epoch": 0.325875,
      "grad_norm": 0.8446479439735413,
      "learning_rate": 0.00022915505513776456,
      "loss": 3.7531,
      "step": 156420
    },
    {
      "epoch": 0.32589583333333333,
      "grad_norm": 0.7349159717559814,
      "learning_rate": 0.00022914668080920136,
      "loss": 3.7545,
      "step": 156430
    },
    {
      "epoch": 0.3259166666666667,
      "grad_norm": 0.7145116329193115,
      "learning_rate": 0.00022913830613875593,
      "loss": 3.8554,
      "step": 156440
    },
    {
      "epoch": 0.3259375,
      "grad_norm": 0.7013213634490967,
      "learning_rate": 0.00022912993112646424,
      "loss": 3.9029,
      "step": 156450
    },
    {
      "epoch": 0.32595833333333335,
      "grad_norm": 0.7374207973480225,
      "learning_rate": 0.00022912155577236258,
      "loss": 3.7222,
      "step": 156460
    },
    {
      "epoch": 0.32597916666666665,
      "grad_norm": 0.7172343134880066,
      "learning_rate": 0.00022911318007648714,
      "loss": 3.8657,
      "step": 156470
    },
    {
      "epoch": 0.326,
      "grad_norm": 0.9356337189674377,
      "learning_rate": 0.00022910480403887408,
      "loss": 3.8112,
      "step": 156480
    },
    {
      "epoch": 0.3260208333333333,
      "grad_norm": 1.050479531288147,
      "learning_rate": 0.00022909642765955954,
      "loss": 3.8708,
      "step": 156490
    },
    {
      "epoch": 0.3260416666666667,
      "grad_norm": 0.8261741995811462,
      "learning_rate": 0.00022908805093857978,
      "loss": 3.6907,
      "step": 156500
    },
    {
      "epoch": 0.3260625,
      "grad_norm": 0.79188472032547,
      "learning_rate": 0.00022907967387597095,
      "loss": 3.9283,
      "step": 156510
    },
    {
      "epoch": 0.32608333333333334,
      "grad_norm": 0.7741091251373291,
      "learning_rate": 0.00022907129647176922,
      "loss": 3.7748,
      "step": 156520
    },
    {
      "epoch": 0.32610416666666664,
      "grad_norm": 0.832818865776062,
      "learning_rate": 0.00022906291872601075,
      "loss": 3.8708,
      "step": 156530
    },
    {
      "epoch": 0.326125,
      "grad_norm": 1.0573598146438599,
      "learning_rate": 0.0002290545406387318,
      "loss": 3.7298,
      "step": 156540
    },
    {
      "epoch": 0.32614583333333336,
      "grad_norm": 0.7312875986099243,
      "learning_rate": 0.00022904616220996858,
      "loss": 3.6525,
      "step": 156550
    },
    {
      "epoch": 0.32616666666666666,
      "grad_norm": 0.762768566608429,
      "learning_rate": 0.00022903778343975713,
      "loss": 3.7106,
      "step": 156560
    },
    {
      "epoch": 0.3261875,
      "grad_norm": 1.374955177307129,
      "learning_rate": 0.00022902940432813378,
      "loss": 3.906,
      "step": 156570
    },
    {
      "epoch": 0.3262083333333333,
      "grad_norm": 1.1318055391311646,
      "learning_rate": 0.00022902102487513468,
      "loss": 3.8381,
      "step": 156580
    },
    {
      "epoch": 0.3262291666666667,
      "grad_norm": 0.7456249594688416,
      "learning_rate": 0.00022901264508079605,
      "loss": 3.9114,
      "step": 156590
    },
    {
      "epoch": 0.32625,
      "grad_norm": 0.7577580809593201,
      "learning_rate": 0.00022900426494515405,
      "loss": 3.8245,
      "step": 156600
    },
    {
      "epoch": 0.32627083333333334,
      "grad_norm": 0.8596961498260498,
      "learning_rate": 0.0002289958844682449,
      "loss": 3.9425,
      "step": 156610
    },
    {
      "epoch": 0.32629166666666665,
      "grad_norm": 0.8488465547561646,
      "learning_rate": 0.0002289875036501048,
      "loss": 3.7152,
      "step": 156620
    },
    {
      "epoch": 0.3263125,
      "grad_norm": 0.9657338857650757,
      "learning_rate": 0.00022897912249076997,
      "loss": 3.9667,
      "step": 156630
    },
    {
      "epoch": 0.3263333333333333,
      "grad_norm": 0.8969016075134277,
      "learning_rate": 0.00022897074099027654,
      "loss": 3.8978,
      "step": 156640
    },
    {
      "epoch": 0.32635416666666667,
      "grad_norm": 0.8378893136978149,
      "learning_rate": 0.00022896235914866082,
      "loss": 3.8158,
      "step": 156650
    },
    {
      "epoch": 0.326375,
      "grad_norm": 1.1238796710968018,
      "learning_rate": 0.00022895397696595895,
      "loss": 3.8521,
      "step": 156660
    },
    {
      "epoch": 0.32639583333333333,
      "grad_norm": 0.7572041749954224,
      "learning_rate": 0.00022894559444220717,
      "loss": 3.8661,
      "step": 156670
    },
    {
      "epoch": 0.3264166666666667,
      "grad_norm": 0.8023470640182495,
      "learning_rate": 0.00022893721157744162,
      "loss": 3.8273,
      "step": 156680
    },
    {
      "epoch": 0.3264375,
      "grad_norm": 0.8076698184013367,
      "learning_rate": 0.00022892882837169862,
      "loss": 3.6677,
      "step": 156690
    },
    {
      "epoch": 0.32645833333333335,
      "grad_norm": 0.7613812685012817,
      "learning_rate": 0.00022892044482501428,
      "loss": 3.859,
      "step": 156700
    },
    {
      "epoch": 0.32647916666666665,
      "grad_norm": 0.7923550009727478,
      "learning_rate": 0.00022891206093742487,
      "loss": 3.9313,
      "step": 156710
    },
    {
      "epoch": 0.3265,
      "grad_norm": 0.732043981552124,
      "learning_rate": 0.00022890367670896664,
      "loss": 3.6194,
      "step": 156720
    },
    {
      "epoch": 0.3265208333333333,
      "grad_norm": 0.7438196539878845,
      "learning_rate": 0.00022889529213967563,
      "loss": 3.8894,
      "step": 156730
    },
    {
      "epoch": 0.3265416666666667,
      "grad_norm": 0.7555515170097351,
      "learning_rate": 0.0002288869072295883,
      "loss": 3.8287,
      "step": 156740
    },
    {
      "epoch": 0.3265625,
      "grad_norm": 0.7466070652008057,
      "learning_rate": 0.00022887852197874076,
      "loss": 3.7877,
      "step": 156750
    },
    {
      "epoch": 0.32658333333333334,
      "grad_norm": 0.741961658000946,
      "learning_rate": 0.0002288701363871692,
      "loss": 3.7896,
      "step": 156760
    },
    {
      "epoch": 0.32660416666666664,
      "grad_norm": 0.7155846953392029,
      "learning_rate": 0.00022886175045490985,
      "loss": 3.8018,
      "step": 156770
    },
    {
      "epoch": 0.326625,
      "grad_norm": 0.8234034180641174,
      "learning_rate": 0.00022885336418199896,
      "loss": 3.9066,
      "step": 156780
    },
    {
      "epoch": 0.32664583333333336,
      "grad_norm": 1.0257772207260132,
      "learning_rate": 0.00022884497756847275,
      "loss": 3.9613,
      "step": 156790
    },
    {
      "epoch": 0.32666666666666666,
      "grad_norm": 0.9103562235832214,
      "learning_rate": 0.00022883659061436747,
      "loss": 3.7136,
      "step": 156800
    },
    {
      "epoch": 0.3266875,
      "grad_norm": 0.6892718076705933,
      "learning_rate": 0.00022882820331971928,
      "loss": 3.8888,
      "step": 156810
    },
    {
      "epoch": 0.3267083333333333,
      "grad_norm": 0.7934428453445435,
      "learning_rate": 0.00022881981568456452,
      "loss": 3.7135,
      "step": 156820
    },
    {
      "epoch": 0.3267291666666667,
      "grad_norm": 0.8787355422973633,
      "learning_rate": 0.0002288114277089393,
      "loss": 3.6809,
      "step": 156830
    },
    {
      "epoch": 0.32675,
      "grad_norm": 0.7683100700378418,
      "learning_rate": 0.0002288030393928799,
      "loss": 3.665,
      "step": 156840
    },
    {
      "epoch": 0.32677083333333334,
      "grad_norm": 0.7222946882247925,
      "learning_rate": 0.0002287946507364226,
      "loss": 3.9398,
      "step": 156850
    },
    {
      "epoch": 0.32679166666666665,
      "grad_norm": 0.7214586138725281,
      "learning_rate": 0.0002287862617396036,
      "loss": 4.0697,
      "step": 156860
    },
    {
      "epoch": 0.3268125,
      "grad_norm": 0.7910532355308533,
      "learning_rate": 0.00022877787240245908,
      "loss": 3.8761,
      "step": 156870
    },
    {
      "epoch": 0.3268333333333333,
      "grad_norm": 0.8482856154441833,
      "learning_rate": 0.00022876948272502538,
      "loss": 4.0256,
      "step": 156880
    },
    {
      "epoch": 0.32685416666666667,
      "grad_norm": 0.726587176322937,
      "learning_rate": 0.0002287610927073387,
      "loss": 4.003,
      "step": 156890
    },
    {
      "epoch": 0.326875,
      "grad_norm": 0.7467594742774963,
      "learning_rate": 0.00022875270234943527,
      "loss": 3.7073,
      "step": 156900
    },
    {
      "epoch": 0.32689583333333333,
      "grad_norm": 0.865791380405426,
      "learning_rate": 0.0002287443116513513,
      "loss": 3.9286,
      "step": 156910
    },
    {
      "epoch": 0.3269166666666667,
      "grad_norm": 0.799872100353241,
      "learning_rate": 0.00022873592061312313,
      "loss": 3.9405,
      "step": 156920
    },
    {
      "epoch": 0.3269375,
      "grad_norm": 0.7677279710769653,
      "learning_rate": 0.0002287275292347869,
      "loss": 3.8692,
      "step": 156930
    },
    {
      "epoch": 0.32695833333333335,
      "grad_norm": 0.7812358736991882,
      "learning_rate": 0.00022871913751637898,
      "loss": 3.8405,
      "step": 156940
    },
    {
      "epoch": 0.32697916666666665,
      "grad_norm": 0.8756770491600037,
      "learning_rate": 0.00022871074545793548,
      "loss": 3.7372,
      "step": 156950
    },
    {
      "epoch": 0.327,
      "grad_norm": 0.7830341458320618,
      "learning_rate": 0.00022870235305949273,
      "loss": 3.8083,
      "step": 156960
    },
    {
      "epoch": 0.3270208333333333,
      "grad_norm": 0.8073312640190125,
      "learning_rate": 0.00022869396032108697,
      "loss": 3.814,
      "step": 156970
    },
    {
      "epoch": 0.3270416666666667,
      "grad_norm": 0.9762659072875977,
      "learning_rate": 0.00022868556724275443,
      "loss": 3.8181,
      "step": 156980
    },
    {
      "epoch": 0.3270625,
      "grad_norm": 0.7330611348152161,
      "learning_rate": 0.0002286771738245314,
      "loss": 3.7552,
      "step": 156990
    },
    {
      "epoch": 0.32708333333333334,
      "grad_norm": 1.0096839666366577,
      "learning_rate": 0.00022866878006645413,
      "loss": 3.8245,
      "step": 157000
    },
    {
      "epoch": 0.32708333333333334,
      "eval_loss": 4.194862365722656,
      "eval_runtime": 8.7173,
      "eval_samples_per_second": 1.147,
      "eval_steps_per_second": 0.344,
      "step": 157000
    },
    {
      "epoch": 0.32710416666666664,
      "grad_norm": 0.8232108950614929,
      "learning_rate": 0.00022866038596855887,
      "loss": 3.8547,
      "step": 157010
    },
    {
      "epoch": 0.327125,
      "grad_norm": 0.7541335225105286,
      "learning_rate": 0.00022865199153088186,
      "loss": 3.7167,
      "step": 157020
    },
    {
      "epoch": 0.32714583333333336,
      "grad_norm": 0.8172490000724792,
      "learning_rate": 0.0002286435967534594,
      "loss": 3.8118,
      "step": 157030
    },
    {
      "epoch": 0.32716666666666666,
      "grad_norm": 0.769751787185669,
      "learning_rate": 0.0002286352016363277,
      "loss": 3.8121,
      "step": 157040
    },
    {
      "epoch": 0.3271875,
      "grad_norm": 0.7719808220863342,
      "learning_rate": 0.0002286268061795231,
      "loss": 4.1333,
      "step": 157050
    },
    {
      "epoch": 0.3272083333333333,
      "grad_norm": 0.7559866905212402,
      "learning_rate": 0.00022861841038308175,
      "loss": 3.7468,
      "step": 157060
    },
    {
      "epoch": 0.3272291666666667,
      "grad_norm": 1.0202858448028564,
      "learning_rate": 0.00022861001424704007,
      "loss": 3.9507,
      "step": 157070
    },
    {
      "epoch": 0.32725,
      "grad_norm": 0.7103623747825623,
      "learning_rate": 0.0002286016177714342,
      "loss": 3.7255,
      "step": 157080
    },
    {
      "epoch": 0.32727083333333334,
      "grad_norm": 0.7576058506965637,
      "learning_rate": 0.00022859322095630046,
      "loss": 3.648,
      "step": 157090
    },
    {
      "epoch": 0.32729166666666665,
      "grad_norm": 0.7833324670791626,
      "learning_rate": 0.0002285848238016751,
      "loss": 3.7168,
      "step": 157100
    },
    {
      "epoch": 0.3273125,
      "grad_norm": 0.7467954158782959,
      "learning_rate": 0.00022857642630759445,
      "loss": 4.053,
      "step": 157110
    },
    {
      "epoch": 0.3273333333333333,
      "grad_norm": 0.7311802506446838,
      "learning_rate": 0.00022856802847409473,
      "loss": 3.9138,
      "step": 157120
    },
    {
      "epoch": 0.32735416666666667,
      "grad_norm": 0.8235139846801758,
      "learning_rate": 0.00022855963030121216,
      "loss": 3.6705,
      "step": 157130
    },
    {
      "epoch": 0.327375,
      "grad_norm": 0.8001640439033508,
      "learning_rate": 0.0002285512317889832,
      "loss": 3.7156,
      "step": 157140
    },
    {
      "epoch": 0.32739583333333333,
      "grad_norm": 0.8320102691650391,
      "learning_rate": 0.00022854283293744393,
      "loss": 3.8238,
      "step": 157150
    },
    {
      "epoch": 0.3274166666666667,
      "grad_norm": 0.7237622737884521,
      "learning_rate": 0.0002285344337466307,
      "loss": 3.9843,
      "step": 157160
    },
    {
      "epoch": 0.3274375,
      "grad_norm": 0.7584856152534485,
      "learning_rate": 0.00022852603421657987,
      "loss": 3.928,
      "step": 157170
    },
    {
      "epoch": 0.32745833333333335,
      "grad_norm": 0.8352116346359253,
      "learning_rate": 0.00022851763434732756,
      "loss": 3.9327,
      "step": 157180
    },
    {
      "epoch": 0.32747916666666665,
      "grad_norm": 0.8679806590080261,
      "learning_rate": 0.00022850923413891025,
      "loss": 3.9037,
      "step": 157190
    },
    {
      "epoch": 0.3275,
      "grad_norm": 1.0758196115493774,
      "learning_rate": 0.00022850083359136406,
      "loss": 3.7814,
      "step": 157200
    },
    {
      "epoch": 0.3275208333333333,
      "grad_norm": 0.748704731464386,
      "learning_rate": 0.00022849243270472536,
      "loss": 3.8609,
      "step": 157210
    },
    {
      "epoch": 0.3275416666666667,
      "grad_norm": 0.7612084746360779,
      "learning_rate": 0.00022848403147903045,
      "loss": 3.8164,
      "step": 157220
    },
    {
      "epoch": 0.3275625,
      "grad_norm": 0.6565508246421814,
      "learning_rate": 0.00022847562991431554,
      "loss": 3.9739,
      "step": 157230
    },
    {
      "epoch": 0.32758333333333334,
      "grad_norm": 0.6771829724311829,
      "learning_rate": 0.00022846722801061697,
      "loss": 3.9076,
      "step": 157240
    },
    {
      "epoch": 0.32760416666666664,
      "grad_norm": 0.7843472361564636,
      "learning_rate": 0.00022845882576797108,
      "loss": 3.6481,
      "step": 157250
    },
    {
      "epoch": 0.327625,
      "grad_norm": 0.7340884208679199,
      "learning_rate": 0.00022845042318641408,
      "loss": 3.7394,
      "step": 157260
    },
    {
      "epoch": 0.32764583333333336,
      "grad_norm": 0.7742080092430115,
      "learning_rate": 0.0002284420202659823,
      "loss": 4.0205,
      "step": 157270
    },
    {
      "epoch": 0.32766666666666666,
      "grad_norm": 0.8078639507293701,
      "learning_rate": 0.00022843361700671208,
      "loss": 3.8334,
      "step": 157280
    },
    {
      "epoch": 0.3276875,
      "grad_norm": 0.7970102429389954,
      "learning_rate": 0.00022842521340863967,
      "loss": 3.8262,
      "step": 157290
    },
    {
      "epoch": 0.3277083333333333,
      "grad_norm": 0.7174550890922546,
      "learning_rate": 0.00022841680947180136,
      "loss": 3.6996,
      "step": 157300
    },
    {
      "epoch": 0.3277291666666667,
      "grad_norm": 0.7705850005149841,
      "learning_rate": 0.00022840840519623349,
      "loss": 3.8169,
      "step": 157310
    },
    {
      "epoch": 0.32775,
      "grad_norm": 0.7988361120223999,
      "learning_rate": 0.00022840000058197235,
      "loss": 3.6847,
      "step": 157320
    },
    {
      "epoch": 0.32777083333333334,
      "grad_norm": 0.6923786997795105,
      "learning_rate": 0.00022839159562905423,
      "loss": 3.9445,
      "step": 157330
    },
    {
      "epoch": 0.32779166666666665,
      "grad_norm": 0.7901926040649414,
      "learning_rate": 0.00022838319033751544,
      "loss": 3.7654,
      "step": 157340
    },
    {
      "epoch": 0.3278125,
      "grad_norm": 0.7333616018295288,
      "learning_rate": 0.0002283747847073923,
      "loss": 3.7938,
      "step": 157350
    },
    {
      "epoch": 0.3278333333333333,
      "grad_norm": 0.799114465713501,
      "learning_rate": 0.00022836637873872113,
      "loss": 3.828,
      "step": 157360
    },
    {
      "epoch": 0.32785416666666667,
      "grad_norm": 0.8066631555557251,
      "learning_rate": 0.00022835797243153823,
      "loss": 3.8178,
      "step": 157370
    },
    {
      "epoch": 0.327875,
      "grad_norm": 0.6580485105514526,
      "learning_rate": 0.00022834956578587985,
      "loss": 3.848,
      "step": 157380
    },
    {
      "epoch": 0.32789583333333333,
      "grad_norm": 0.7599166631698608,
      "learning_rate": 0.00022834115880178242,
      "loss": 3.7208,
      "step": 157390
    },
    {
      "epoch": 0.3279166666666667,
      "grad_norm": 0.7816999554634094,
      "learning_rate": 0.00022833275147928216,
      "loss": 3.7828,
      "step": 157400
    },
    {
      "epoch": 0.3279375,
      "grad_norm": 0.8108937740325928,
      "learning_rate": 0.0002283243438184154,
      "loss": 3.7376,
      "step": 157410
    },
    {
      "epoch": 0.32795833333333335,
      "grad_norm": 0.9049193859100342,
      "learning_rate": 0.00022831593581921857,
      "loss": 3.9417,
      "step": 157420
    },
    {
      "epoch": 0.32797916666666665,
      "grad_norm": 0.7019798159599304,
      "learning_rate": 0.00022830752748172775,
      "loss": 3.8612,
      "step": 157430
    },
    {
      "epoch": 0.328,
      "grad_norm": 0.7980868220329285,
      "learning_rate": 0.00022829911880597954,
      "loss": 4.0276,
      "step": 157440
    },
    {
      "epoch": 0.3280208333333333,
      "grad_norm": 0.6817210912704468,
      "learning_rate": 0.00022829070979201005,
      "loss": 3.7462,
      "step": 157450
    },
    {
      "epoch": 0.3280416666666667,
      "grad_norm": 0.7098405957221985,
      "learning_rate": 0.00022828230043985573,
      "loss": 3.6531,
      "step": 157460
    },
    {
      "epoch": 0.3280625,
      "grad_norm": 0.9349257349967957,
      "learning_rate": 0.00022827389074955281,
      "loss": 3.7752,
      "step": 157470
    },
    {
      "epoch": 0.32808333333333334,
      "grad_norm": 0.7474993467330933,
      "learning_rate": 0.0002282654807211377,
      "loss": 3.6625,
      "step": 157480
    },
    {
      "epoch": 0.32810416666666664,
      "grad_norm": 0.7846096158027649,
      "learning_rate": 0.00022825707035464672,
      "loss": 3.8832,
      "step": 157490
    },
    {
      "epoch": 0.328125,
      "grad_norm": 0.7622809410095215,
      "learning_rate": 0.00022824865965011615,
      "loss": 3.7444,
      "step": 157500
    },
    {
      "epoch": 0.32814583333333336,
      "grad_norm": 0.8112476468086243,
      "learning_rate": 0.0002282402486075823,
      "loss": 3.9244,
      "step": 157510
    },
    {
      "epoch": 0.32816666666666666,
      "grad_norm": 0.8278497457504272,
      "learning_rate": 0.0002282318372270816,
      "loss": 3.9072,
      "step": 157520
    },
    {
      "epoch": 0.3281875,
      "grad_norm": 0.6977778673171997,
      "learning_rate": 0.0002282234255086503,
      "loss": 3.7953,
      "step": 157530
    },
    {
      "epoch": 0.3282083333333333,
      "grad_norm": 0.7401906251907349,
      "learning_rate": 0.00022821501345232477,
      "loss": 3.8108,
      "step": 157540
    },
    {
      "epoch": 0.3282291666666667,
      "grad_norm": 0.834480881690979,
      "learning_rate": 0.00022820660105814133,
      "loss": 3.7692,
      "step": 157550
    },
    {
      "epoch": 0.32825,
      "grad_norm": 0.8048372268676758,
      "learning_rate": 0.00022819818832613636,
      "loss": 3.9264,
      "step": 157560
    },
    {
      "epoch": 0.32827083333333335,
      "grad_norm": 0.9746224284172058,
      "learning_rate": 0.00022818977525634613,
      "loss": 3.8194,
      "step": 157570
    },
    {
      "epoch": 0.32829166666666665,
      "grad_norm": 0.7898115515708923,
      "learning_rate": 0.00022818136184880706,
      "loss": 3.8994,
      "step": 157580
    },
    {
      "epoch": 0.3283125,
      "grad_norm": 0.9515132904052734,
      "learning_rate": 0.00022817294810355545,
      "loss": 3.974,
      "step": 157590
    },
    {
      "epoch": 0.3283333333333333,
      "grad_norm": 0.7412021160125732,
      "learning_rate": 0.0002281645340206276,
      "loss": 3.8142,
      "step": 157600
    },
    {
      "epoch": 0.32835416666666667,
      "grad_norm": 0.8051896691322327,
      "learning_rate": 0.00022815611960005997,
      "loss": 3.8865,
      "step": 157610
    },
    {
      "epoch": 0.328375,
      "grad_norm": 0.812701404094696,
      "learning_rate": 0.0002281477048418888,
      "loss": 3.9661,
      "step": 157620
    },
    {
      "epoch": 0.32839583333333333,
      "grad_norm": 0.7143285274505615,
      "learning_rate": 0.00022813928974615047,
      "loss": 3.8808,
      "step": 157630
    },
    {
      "epoch": 0.3284166666666667,
      "grad_norm": 0.7381819486618042,
      "learning_rate": 0.0002281308743128814,
      "loss": 3.8941,
      "step": 157640
    },
    {
      "epoch": 0.3284375,
      "grad_norm": 0.7300456166267395,
      "learning_rate": 0.0002281224585421178,
      "loss": 3.7934,
      "step": 157650
    },
    {
      "epoch": 0.32845833333333335,
      "grad_norm": 0.7437449097633362,
      "learning_rate": 0.00022811404243389612,
      "loss": 3.8175,
      "step": 157660
    },
    {
      "epoch": 0.32847916666666666,
      "grad_norm": 0.9497805237770081,
      "learning_rate": 0.00022810562598825273,
      "loss": 3.8245,
      "step": 157670
    },
    {
      "epoch": 0.3285,
      "grad_norm": 0.713802695274353,
      "learning_rate": 0.00022809720920522394,
      "loss": 3.8525,
      "step": 157680
    },
    {
      "epoch": 0.3285208333333333,
      "grad_norm": 0.8614936470985413,
      "learning_rate": 0.0002280887920848461,
      "loss": 3.9036,
      "step": 157690
    },
    {
      "epoch": 0.3285416666666667,
      "grad_norm": 0.7978056073188782,
      "learning_rate": 0.0002280803746271556,
      "loss": 3.868,
      "step": 157700
    },
    {
      "epoch": 0.3285625,
      "grad_norm": 0.6901752948760986,
      "learning_rate": 0.0002280719568321888,
      "loss": 3.8152,
      "step": 157710
    },
    {
      "epoch": 0.32858333333333334,
      "grad_norm": 1.0191644430160522,
      "learning_rate": 0.00022806353869998203,
      "loss": 3.8215,
      "step": 157720
    },
    {
      "epoch": 0.32860416666666664,
      "grad_norm": 0.8701308965682983,
      "learning_rate": 0.00022805512023057168,
      "loss": 3.745,
      "step": 157730
    },
    {
      "epoch": 0.328625,
      "grad_norm": 0.7807486653327942,
      "learning_rate": 0.00022804670142399411,
      "loss": 3.8822,
      "step": 157740
    },
    {
      "epoch": 0.32864583333333336,
      "grad_norm": 0.7742911577224731,
      "learning_rate": 0.00022803828228028567,
      "loss": 3.7373,
      "step": 157750
    },
    {
      "epoch": 0.32866666666666666,
      "grad_norm": 0.7219805121421814,
      "learning_rate": 0.00022802986279948277,
      "loss": 3.8247,
      "step": 157760
    },
    {
      "epoch": 0.3286875,
      "grad_norm": 0.7980557680130005,
      "learning_rate": 0.0002280214429816217,
      "loss": 3.7779,
      "step": 157770
    },
    {
      "epoch": 0.3287083333333333,
      "grad_norm": 0.9057964086532593,
      "learning_rate": 0.00022801302282673898,
      "loss": 3.9092,
      "step": 157780
    },
    {
      "epoch": 0.3287291666666667,
      "grad_norm": 0.7573822736740112,
      "learning_rate": 0.00022800460233487078,
      "loss": 3.673,
      "step": 157790
    },
    {
      "epoch": 0.32875,
      "grad_norm": 0.8553429245948792,
      "learning_rate": 0.00022799618150605354,
      "loss": 3.8442,
      "step": 157800
    },
    {
      "epoch": 0.32877083333333335,
      "grad_norm": 0.900812029838562,
      "learning_rate": 0.0002279877603403238,
      "loss": 3.8241,
      "step": 157810
    },
    {
      "epoch": 0.32879166666666665,
      "grad_norm": 0.7371767163276672,
      "learning_rate": 0.00022797933883771774,
      "loss": 3.875,
      "step": 157820
    },
    {
      "epoch": 0.3288125,
      "grad_norm": 0.6985778212547302,
      "learning_rate": 0.00022797091699827178,
      "loss": 3.8752,
      "step": 157830
    },
    {
      "epoch": 0.3288333333333333,
      "grad_norm": 0.7231709957122803,
      "learning_rate": 0.00022796249482202237,
      "loss": 3.6184,
      "step": 157840
    },
    {
      "epoch": 0.32885416666666667,
      "grad_norm": 1.0070836544036865,
      "learning_rate": 0.0002279540723090058,
      "loss": 3.895,
      "step": 157850
    },
    {
      "epoch": 0.328875,
      "grad_norm": 0.8322901725769043,
      "learning_rate": 0.0002279456494592585,
      "loss": 3.8058,
      "step": 157860
    },
    {
      "epoch": 0.32889583333333333,
      "grad_norm": 0.6930994987487793,
      "learning_rate": 0.00022793722627281686,
      "loss": 3.9311,
      "step": 157870
    },
    {
      "epoch": 0.3289166666666667,
      "grad_norm": 0.7431695461273193,
      "learning_rate": 0.00022792880274971722,
      "loss": 3.921,
      "step": 157880
    },
    {
      "epoch": 0.3289375,
      "grad_norm": 0.7613928318023682,
      "learning_rate": 0.00022792037888999604,
      "loss": 3.7627,
      "step": 157890
    },
    {
      "epoch": 0.32895833333333335,
      "grad_norm": 0.9237908720970154,
      "learning_rate": 0.00022791195469368963,
      "loss": 3.8348,
      "step": 157900
    },
    {
      "epoch": 0.32897916666666666,
      "grad_norm": 0.7728205323219299,
      "learning_rate": 0.00022790353016083445,
      "loss": 3.7584,
      "step": 157910
    },
    {
      "epoch": 0.329,
      "grad_norm": 0.7735334634780884,
      "learning_rate": 0.00022789510529146683,
      "loss": 4.0088,
      "step": 157920
    },
    {
      "epoch": 0.3290208333333333,
      "grad_norm": 0.7787448167800903,
      "learning_rate": 0.0002278866800856232,
      "loss": 3.7872,
      "step": 157930
    },
    {
      "epoch": 0.3290416666666667,
      "grad_norm": 0.7608844041824341,
      "learning_rate": 0.00022787825454333995,
      "loss": 3.7419,
      "step": 157940
    },
    {
      "epoch": 0.3290625,
      "grad_norm": 0.7528027296066284,
      "learning_rate": 0.00022786982866465348,
      "loss": 3.8456,
      "step": 157950
    },
    {
      "epoch": 0.32908333333333334,
      "grad_norm": 0.7720291614532471,
      "learning_rate": 0.0002278614024496002,
      "loss": 3.9713,
      "step": 157960
    },
    {
      "epoch": 0.32910416666666664,
      "grad_norm": 0.7385703325271606,
      "learning_rate": 0.0002278529758982164,
      "loss": 3.7612,
      "step": 157970
    },
    {
      "epoch": 0.329125,
      "grad_norm": 0.7719047665596008,
      "learning_rate": 0.00022784454901053858,
      "loss": 3.8694,
      "step": 157980
    },
    {
      "epoch": 0.32914583333333336,
      "grad_norm": 0.7268472909927368,
      "learning_rate": 0.0002278361217866032,
      "loss": 3.9162,
      "step": 157990
    },
    {
      "epoch": 0.32916666666666666,
      "grad_norm": 0.7658431529998779,
      "learning_rate": 0.00022782769422644646,
      "loss": 3.7302,
      "step": 158000
    },
    {
      "epoch": 0.32916666666666666,
      "eval_loss": 4.200841426849365,
      "eval_runtime": 8.4561,
      "eval_samples_per_second": 1.183,
      "eval_steps_per_second": 0.355,
      "step": 158000
    },
    {
      "epoch": 0.3291875,
      "grad_norm": 0.8479757308959961,
      "learning_rate": 0.00022781926633010498,
      "loss": 3.8593,
      "step": 158010
    },
    {
      "epoch": 0.3292083333333333,
      "grad_norm": 0.7003178000450134,
      "learning_rate": 0.00022781083809761502,
      "loss": 3.5592,
      "step": 158020
    },
    {
      "epoch": 0.3292291666666667,
      "grad_norm": 0.794766366481781,
      "learning_rate": 0.00022780240952901306,
      "loss": 3.9299,
      "step": 158030
    },
    {
      "epoch": 0.32925,
      "grad_norm": 0.6618536710739136,
      "learning_rate": 0.00022779398062433548,
      "loss": 3.7474,
      "step": 158040
    },
    {
      "epoch": 0.32927083333333335,
      "grad_norm": 0.7804294228553772,
      "learning_rate": 0.0002277855513836187,
      "loss": 3.7954,
      "step": 158050
    },
    {
      "epoch": 0.32929166666666665,
      "grad_norm": 0.7527028322219849,
      "learning_rate": 0.00022777712180689915,
      "loss": 3.7977,
      "step": 158060
    },
    {
      "epoch": 0.3293125,
      "grad_norm": 0.6689526438713074,
      "learning_rate": 0.0002277686918942132,
      "loss": 3.9264,
      "step": 158070
    },
    {
      "epoch": 0.3293333333333333,
      "grad_norm": 0.7582240104675293,
      "learning_rate": 0.00022776026164559725,
      "loss": 3.7123,
      "step": 158080
    },
    {
      "epoch": 0.32935416666666667,
      "grad_norm": 0.8215357065200806,
      "learning_rate": 0.00022775183106108783,
      "loss": 3.6181,
      "step": 158090
    },
    {
      "epoch": 0.329375,
      "grad_norm": 0.7200307250022888,
      "learning_rate": 0.00022774340014072118,
      "loss": 3.8613,
      "step": 158100
    },
    {
      "epoch": 0.32939583333333333,
      "grad_norm": 0.6808297038078308,
      "learning_rate": 0.00022773496888453388,
      "loss": 4.1097,
      "step": 158110
    },
    {
      "epoch": 0.3294166666666667,
      "grad_norm": 0.7668976783752441,
      "learning_rate": 0.00022772653729256228,
      "loss": 3.8899,
      "step": 158120
    },
    {
      "epoch": 0.3294375,
      "grad_norm": 0.7449411153793335,
      "learning_rate": 0.0002277181053648428,
      "loss": 3.7471,
      "step": 158130
    },
    {
      "epoch": 0.32945833333333335,
      "grad_norm": 0.7400996685028076,
      "learning_rate": 0.0002277096731014118,
      "loss": 3.8241,
      "step": 158140
    },
    {
      "epoch": 0.32947916666666666,
      "grad_norm": 0.7139167189598083,
      "learning_rate": 0.0002277012405023059,
      "loss": 3.9327,
      "step": 158150
    },
    {
      "epoch": 0.3295,
      "grad_norm": 0.6831163167953491,
      "learning_rate": 0.0002276928075675613,
      "loss": 3.818,
      "step": 158160
    },
    {
      "epoch": 0.3295208333333333,
      "grad_norm": 0.8504310846328735,
      "learning_rate": 0.00022768437429721453,
      "loss": 3.8638,
      "step": 158170
    },
    {
      "epoch": 0.3295416666666667,
      "grad_norm": 0.729062020778656,
      "learning_rate": 0.0002276759406913021,
      "loss": 3.8993,
      "step": 158180
    },
    {
      "epoch": 0.3295625,
      "grad_norm": 0.8379221558570862,
      "learning_rate": 0.00022766750674986028,
      "loss": 3.9258,
      "step": 158190
    },
    {
      "epoch": 0.32958333333333334,
      "grad_norm": 0.8028610944747925,
      "learning_rate": 0.00022765907247292554,
      "loss": 3.9191,
      "step": 158200
    },
    {
      "epoch": 0.32960416666666664,
      "grad_norm": 0.7361453771591187,
      "learning_rate": 0.00022765063786053442,
      "loss": 3.9495,
      "step": 158210
    },
    {
      "epoch": 0.329625,
      "grad_norm": 0.6552881002426147,
      "learning_rate": 0.00022764220291272326,
      "loss": 3.5636,
      "step": 158220
    },
    {
      "epoch": 0.32964583333333336,
      "grad_norm": 0.7653718590736389,
      "learning_rate": 0.00022763376762952853,
      "loss": 3.8572,
      "step": 158230
    },
    {
      "epoch": 0.32966666666666666,
      "grad_norm": 0.8674091696739197,
      "learning_rate": 0.0002276253320109866,
      "loss": 3.8383,
      "step": 158240
    },
    {
      "epoch": 0.3296875,
      "grad_norm": 0.8176968097686768,
      "learning_rate": 0.000227616896057134,
      "loss": 3.7835,
      "step": 158250
    },
    {
      "epoch": 0.3297083333333333,
      "grad_norm": 0.7174755334854126,
      "learning_rate": 0.0002276084597680071,
      "loss": 3.9929,
      "step": 158260
    },
    {
      "epoch": 0.3297291666666667,
      "grad_norm": 0.8792577385902405,
      "learning_rate": 0.00022760002314364244,
      "loss": 3.9142,
      "step": 158270
    },
    {
      "epoch": 0.32975,
      "grad_norm": 0.7783543467521667,
      "learning_rate": 0.00022759158618407632,
      "loss": 3.7824,
      "step": 158280
    },
    {
      "epoch": 0.32977083333333335,
      "grad_norm": 1.005466103553772,
      "learning_rate": 0.00022758314888934533,
      "loss": 3.9421,
      "step": 158290
    },
    {
      "epoch": 0.32979166666666665,
      "grad_norm": 0.739733874797821,
      "learning_rate": 0.00022757471125948577,
      "loss": 3.859,
      "step": 158300
    },
    {
      "epoch": 0.3298125,
      "grad_norm": 0.7136476635932922,
      "learning_rate": 0.0002275662732945342,
      "loss": 3.7231,
      "step": 158310
    },
    {
      "epoch": 0.3298333333333333,
      "grad_norm": 0.9485301971435547,
      "learning_rate": 0.00022755783499452706,
      "loss": 3.9481,
      "step": 158320
    },
    {
      "epoch": 0.32985416666666667,
      "grad_norm": 0.8331278562545776,
      "learning_rate": 0.0002275493963595008,
      "loss": 3.8319,
      "step": 158330
    },
    {
      "epoch": 0.329875,
      "grad_norm": 0.712792158126831,
      "learning_rate": 0.00022754095738949172,
      "loss": 3.6252,
      "step": 158340
    },
    {
      "epoch": 0.32989583333333333,
      "grad_norm": 0.7341597080230713,
      "learning_rate": 0.00022753251808453652,
      "loss": 3.8424,
      "step": 158350
    },
    {
      "epoch": 0.3299166666666667,
      "grad_norm": 0.7056203484535217,
      "learning_rate": 0.0002275240784446715,
      "loss": 3.7777,
      "step": 158360
    },
    {
      "epoch": 0.3299375,
      "grad_norm": 0.7457165122032166,
      "learning_rate": 0.00022751563846993308,
      "loss": 3.6796,
      "step": 158370
    },
    {
      "epoch": 0.32995833333333335,
      "grad_norm": 0.6823918223381042,
      "learning_rate": 0.00022750719816035784,
      "loss": 3.7226,
      "step": 158380
    },
    {
      "epoch": 0.32997916666666666,
      "grad_norm": 0.755374014377594,
      "learning_rate": 0.00022749875751598217,
      "loss": 3.7266,
      "step": 158390
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8422032594680786,
      "learning_rate": 0.0002274903165368426,
      "loss": 3.8785,
      "step": 158400
    },
    {
      "epoch": 0.3300208333333333,
      "grad_norm": 0.6643351912498474,
      "learning_rate": 0.00022748187522297545,
      "loss": 3.8038,
      "step": 158410
    },
    {
      "epoch": 0.3300416666666667,
      "grad_norm": 0.8231069445610046,
      "learning_rate": 0.0002274734335744173,
      "loss": 3.9038,
      "step": 158420
    },
    {
      "epoch": 0.3300625,
      "grad_norm": 0.8173336386680603,
      "learning_rate": 0.00022746499159120458,
      "loss": 3.9038,
      "step": 158430
    },
    {
      "epoch": 0.33008333333333334,
      "grad_norm": 0.8611778616905212,
      "learning_rate": 0.00022745654927337376,
      "loss": 3.7753,
      "step": 158440
    },
    {
      "epoch": 0.33010416666666664,
      "grad_norm": 0.7307202219963074,
      "learning_rate": 0.00022744810662096132,
      "loss": 3.6936,
      "step": 158450
    },
    {
      "epoch": 0.330125,
      "grad_norm": 0.8216792941093445,
      "learning_rate": 0.00022743966363400372,
      "loss": 3.7666,
      "step": 158460
    },
    {
      "epoch": 0.33014583333333336,
      "grad_norm": 0.6967374682426453,
      "learning_rate": 0.0002274312203125374,
      "loss": 3.9307,
      "step": 158470
    },
    {
      "epoch": 0.33016666666666666,
      "grad_norm": 0.7994893193244934,
      "learning_rate": 0.0002274227766565989,
      "loss": 3.6836,
      "step": 158480
    },
    {
      "epoch": 0.3301875,
      "grad_norm": 0.7202835083007812,
      "learning_rate": 0.00022741433266622465,
      "loss": 3.7861,
      "step": 158490
    },
    {
      "epoch": 0.3302083333333333,
      "grad_norm": 0.7212161421775818,
      "learning_rate": 0.000227405888341451,
      "loss": 3.8228,
      "step": 158500
    },
    {
      "epoch": 0.3302291666666667,
      "grad_norm": 0.8996055126190186,
      "learning_rate": 0.0002273974436823147,
      "loss": 3.8684,
      "step": 158510
    },
    {
      "epoch": 0.33025,
      "grad_norm": 0.858255922794342,
      "learning_rate": 0.00022738899868885205,
      "loss": 3.7304,
      "step": 158520
    },
    {
      "epoch": 0.33027083333333335,
      "grad_norm": 0.8226046562194824,
      "learning_rate": 0.00022738055336109952,
      "loss": 3.9873,
      "step": 158530
    },
    {
      "epoch": 0.33029166666666665,
      "grad_norm": 0.8262126445770264,
      "learning_rate": 0.00022737210769909364,
      "loss": 3.9355,
      "step": 158540
    },
    {
      "epoch": 0.3303125,
      "grad_norm": 0.9242395162582397,
      "learning_rate": 0.0002273636617028709,
      "loss": 3.9827,
      "step": 158550
    },
    {
      "epoch": 0.3303333333333333,
      "grad_norm": 0.7697421312332153,
      "learning_rate": 0.00022735521537246774,
      "loss": 3.8428,
      "step": 158560
    },
    {
      "epoch": 0.33035416666666667,
      "grad_norm": 0.8321216702461243,
      "learning_rate": 0.00022734676870792068,
      "loss": 3.7559,
      "step": 158570
    },
    {
      "epoch": 0.330375,
      "grad_norm": 0.7906985282897949,
      "learning_rate": 0.0002273383217092662,
      "loss": 3.7902,
      "step": 158580
    },
    {
      "epoch": 0.33039583333333333,
      "grad_norm": 0.7753366827964783,
      "learning_rate": 0.00022732987437654078,
      "loss": 3.9374,
      "step": 158590
    },
    {
      "epoch": 0.3304166666666667,
      "grad_norm": 0.8622934818267822,
      "learning_rate": 0.0002273214267097809,
      "loss": 3.9969,
      "step": 158600
    },
    {
      "epoch": 0.3304375,
      "grad_norm": 0.7228686213493347,
      "learning_rate": 0.0002273129787090231,
      "loss": 3.8036,
      "step": 158610
    },
    {
      "epoch": 0.33045833333333335,
      "grad_norm": 0.8194852471351624,
      "learning_rate": 0.0002273045303743038,
      "loss": 3.8673,
      "step": 158620
    },
    {
      "epoch": 0.33047916666666666,
      "grad_norm": 0.7106889486312866,
      "learning_rate": 0.00022729608170565953,
      "loss": 3.7293,
      "step": 158630
    },
    {
      "epoch": 0.3305,
      "grad_norm": 0.7127537131309509,
      "learning_rate": 0.0002272876327031268,
      "loss": 3.7531,
      "step": 158640
    },
    {
      "epoch": 0.3305208333333333,
      "grad_norm": 0.8042583465576172,
      "learning_rate": 0.00022727918336674205,
      "loss": 3.9151,
      "step": 158650
    },
    {
      "epoch": 0.3305416666666667,
      "grad_norm": 0.7372511625289917,
      "learning_rate": 0.00022727073369654187,
      "loss": 3.6664,
      "step": 158660
    },
    {
      "epoch": 0.3305625,
      "grad_norm": 0.7669262290000916,
      "learning_rate": 0.00022726228369256265,
      "loss": 3.9271,
      "step": 158670
    },
    {
      "epoch": 0.33058333333333334,
      "grad_norm": 0.9896911382675171,
      "learning_rate": 0.00022725383335484101,
      "loss": 3.7315,
      "step": 158680
    },
    {
      "epoch": 0.33060416666666664,
      "grad_norm": 0.7816659808158875,
      "learning_rate": 0.00022724538268341336,
      "loss": 3.8887,
      "step": 158690
    },
    {
      "epoch": 0.330625,
      "grad_norm": 0.7789138555526733,
      "learning_rate": 0.0002272369316783162,
      "loss": 3.9503,
      "step": 158700
    },
    {
      "epoch": 0.33064583333333336,
      "grad_norm": 0.8513487577438354,
      "learning_rate": 0.00022722848033958614,
      "loss": 3.8335,
      "step": 158710
    },
    {
      "epoch": 0.33066666666666666,
      "grad_norm": 0.8350403308868408,
      "learning_rate": 0.00022722002866725958,
      "loss": 3.7764,
      "step": 158720
    },
    {
      "epoch": 0.3306875,
      "grad_norm": 0.7594330906867981,
      "learning_rate": 0.00022721157666137303,
      "loss": 3.8376,
      "step": 158730
    },
    {
      "epoch": 0.3307083333333333,
      "grad_norm": 0.822214663028717,
      "learning_rate": 0.00022720312432196306,
      "loss": 3.729,
      "step": 158740
    },
    {
      "epoch": 0.3307291666666667,
      "grad_norm": 0.7780291438102722,
      "learning_rate": 0.00022719467164906612,
      "loss": 4.0005,
      "step": 158750
    },
    {
      "epoch": 0.33075,
      "grad_norm": 1.5890108346939087,
      "learning_rate": 0.0002271862186427188,
      "loss": 3.8005,
      "step": 158760
    },
    {
      "epoch": 0.33077083333333335,
      "grad_norm": 0.7790413498878479,
      "learning_rate": 0.00022717776530295752,
      "loss": 3.7171,
      "step": 158770
    },
    {
      "epoch": 0.33079166666666665,
      "grad_norm": 0.7871732115745544,
      "learning_rate": 0.0002271693116298189,
      "loss": 4.0134,
      "step": 158780
    },
    {
      "epoch": 0.3308125,
      "grad_norm": 0.936947762966156,
      "learning_rate": 0.00022716085762333936,
      "loss": 3.9106,
      "step": 158790
    },
    {
      "epoch": 0.3308333333333333,
      "grad_norm": 0.7864111065864563,
      "learning_rate": 0.00022715240328355547,
      "loss": 3.7897,
      "step": 158800
    },
    {
      "epoch": 0.33085416666666667,
      "grad_norm": 0.8658894300460815,
      "learning_rate": 0.00022714394861050375,
      "loss": 3.7264,
      "step": 158810
    },
    {
      "epoch": 0.330875,
      "grad_norm": 0.9409164190292358,
      "learning_rate": 0.0002271354936042207,
      "loss": 3.8719,
      "step": 158820
    },
    {
      "epoch": 0.33089583333333333,
      "grad_norm": 0.8427894115447998,
      "learning_rate": 0.00022712703826474284,
      "loss": 3.9415,
      "step": 158830
    },
    {
      "epoch": 0.3309166666666667,
      "grad_norm": 0.8079805970191956,
      "learning_rate": 0.0002271185825921067,
      "loss": 3.9577,
      "step": 158840
    },
    {
      "epoch": 0.3309375,
      "grad_norm": 0.7495690584182739,
      "learning_rate": 0.0002271101265863488,
      "loss": 3.8728,
      "step": 158850
    },
    {
      "epoch": 0.33095833333333335,
      "grad_norm": 0.8926456570625305,
      "learning_rate": 0.00022710167024750572,
      "loss": 3.7642,
      "step": 158860
    },
    {
      "epoch": 0.33097916666666666,
      "grad_norm": 0.9030949473381042,
      "learning_rate": 0.0002270932135756139,
      "loss": 3.7439,
      "step": 158870
    },
    {
      "epoch": 0.331,
      "grad_norm": 0.8441591858863831,
      "learning_rate": 0.00022708475657070993,
      "loss": 3.5964,
      "step": 158880
    },
    {
      "epoch": 0.3310208333333333,
      "grad_norm": 0.8907754421234131,
      "learning_rate": 0.00022707629923283035,
      "loss": 4.0192,
      "step": 158890
    },
    {
      "epoch": 0.3310416666666667,
      "grad_norm": 0.7120140790939331,
      "learning_rate": 0.0002270678415620116,
      "loss": 3.8461,
      "step": 158900
    },
    {
      "epoch": 0.3310625,
      "grad_norm": 0.6974229216575623,
      "learning_rate": 0.00022705938355829035,
      "loss": 3.9402,
      "step": 158910
    },
    {
      "epoch": 0.33108333333333334,
      "grad_norm": 0.6734943985939026,
      "learning_rate": 0.000227050925221703,
      "loss": 3.7154,
      "step": 158920
    },
    {
      "epoch": 0.33110416666666664,
      "grad_norm": 0.8003103137016296,
      "learning_rate": 0.0002270424665522862,
      "loss": 3.9388,
      "step": 158930
    },
    {
      "epoch": 0.331125,
      "grad_norm": 0.7528534531593323,
      "learning_rate": 0.0002270340075500764,
      "loss": 4.1633,
      "step": 158940
    },
    {
      "epoch": 0.3311458333333333,
      "grad_norm": 0.7907570004463196,
      "learning_rate": 0.00022702554821511022,
      "loss": 3.8504,
      "step": 158950
    },
    {
      "epoch": 0.33116666666666666,
      "grad_norm": 0.7768751978874207,
      "learning_rate": 0.0002270170885474242,
      "loss": 3.7825,
      "step": 158960
    },
    {
      "epoch": 0.3311875,
      "grad_norm": 0.7639745473861694,
      "learning_rate": 0.00022700862854705474,
      "loss": 3.6986,
      "step": 158970
    },
    {
      "epoch": 0.3312083333333333,
      "grad_norm": 0.7354797124862671,
      "learning_rate": 0.00022700016821403853,
      "loss": 3.6784,
      "step": 158980
    },
    {
      "epoch": 0.3312291666666667,
      "grad_norm": 0.8828874230384827,
      "learning_rate": 0.0002269917075484121,
      "loss": 4.0523,
      "step": 158990
    },
    {
      "epoch": 0.33125,
      "grad_norm": 0.7866012454032898,
      "learning_rate": 0.00022698324655021193,
      "loss": 3.7852,
      "step": 159000
    },
    {
      "epoch": 0.33125,
      "eval_loss": 4.211363792419434,
      "eval_runtime": 8.6284,
      "eval_samples_per_second": 1.159,
      "eval_steps_per_second": 0.348,
      "step": 159000
    },
    {
      "epoch": 0.33127083333333335,
      "grad_norm": 0.7609835863113403,
      "learning_rate": 0.00022697478521947463,
      "loss": 3.7676,
      "step": 159010
    },
    {
      "epoch": 0.33129166666666665,
      "grad_norm": 0.7318491339683533,
      "learning_rate": 0.00022696632355623673,
      "loss": 3.8438,
      "step": 159020
    },
    {
      "epoch": 0.3313125,
      "grad_norm": 0.8948004841804504,
      "learning_rate": 0.0002269578615605348,
      "loss": 3.9893,
      "step": 159030
    },
    {
      "epoch": 0.3313333333333333,
      "grad_norm": 0.8646572828292847,
      "learning_rate": 0.0002269493992324053,
      "loss": 3.895,
      "step": 159040
    },
    {
      "epoch": 0.33135416666666667,
      "grad_norm": 0.7522701025009155,
      "learning_rate": 0.00022694093657188493,
      "loss": 3.947,
      "step": 159050
    },
    {
      "epoch": 0.331375,
      "grad_norm": 0.9127416014671326,
      "learning_rate": 0.00022693247357901013,
      "loss": 3.9052,
      "step": 159060
    },
    {
      "epoch": 0.33139583333333333,
      "grad_norm": 0.7158812880516052,
      "learning_rate": 0.00022692401025381745,
      "loss": 3.7148,
      "step": 159070
    },
    {
      "epoch": 0.3314166666666667,
      "grad_norm": 0.7871440052986145,
      "learning_rate": 0.00022691554659634355,
      "loss": 3.7903,
      "step": 159080
    },
    {
      "epoch": 0.3314375,
      "grad_norm": 0.8402615785598755,
      "learning_rate": 0.00022690708260662495,
      "loss": 3.732,
      "step": 159090
    },
    {
      "epoch": 0.33145833333333335,
      "grad_norm": 0.7595992684364319,
      "learning_rate": 0.00022689861828469813,
      "loss": 3.8141,
      "step": 159100
    },
    {
      "epoch": 0.33147916666666666,
      "grad_norm": 0.7955578565597534,
      "learning_rate": 0.00022689015363059977,
      "loss": 3.7535,
      "step": 159110
    },
    {
      "epoch": 0.3315,
      "grad_norm": 0.7526395916938782,
      "learning_rate": 0.00022688168864436637,
      "loss": 3.7478,
      "step": 159120
    },
    {
      "epoch": 0.3315208333333333,
      "grad_norm": 0.6911899447441101,
      "learning_rate": 0.00022687322332603453,
      "loss": 3.9054,
      "step": 159130
    },
    {
      "epoch": 0.3315416666666667,
      "grad_norm": 0.786500096321106,
      "learning_rate": 0.00022686475767564075,
      "loss": 3.9665,
      "step": 159140
    },
    {
      "epoch": 0.3315625,
      "grad_norm": 1.0740052461624146,
      "learning_rate": 0.00022685629169322166,
      "loss": 3.9578,
      "step": 159150
    },
    {
      "epoch": 0.33158333333333334,
      "grad_norm": 0.7174260020256042,
      "learning_rate": 0.00022684782537881384,
      "loss": 3.864,
      "step": 159160
    },
    {
      "epoch": 0.33160416666666664,
      "grad_norm": 0.87332683801651,
      "learning_rate": 0.0002268393587324538,
      "loss": 3.9162,
      "step": 159170
    },
    {
      "epoch": 0.331625,
      "grad_norm": 0.7539173364639282,
      "learning_rate": 0.00022683089175417815,
      "loss": 3.7903,
      "step": 159180
    },
    {
      "epoch": 0.3316458333333333,
      "grad_norm": 0.7012938261032104,
      "learning_rate": 0.00022682242444402344,
      "loss": 3.6968,
      "step": 159190
    },
    {
      "epoch": 0.33166666666666667,
      "grad_norm": 0.782063364982605,
      "learning_rate": 0.00022681395680202628,
      "loss": 3.8686,
      "step": 159200
    },
    {
      "epoch": 0.3316875,
      "grad_norm": 0.8059767484664917,
      "learning_rate": 0.00022680548882822324,
      "loss": 3.8647,
      "step": 159210
    },
    {
      "epoch": 0.3317083333333333,
      "grad_norm": 0.8610884547233582,
      "learning_rate": 0.00022679702052265095,
      "loss": 3.9394,
      "step": 159220
    },
    {
      "epoch": 0.3317291666666667,
      "grad_norm": 0.7496988773345947,
      "learning_rate": 0.00022678855188534587,
      "loss": 3.7036,
      "step": 159230
    },
    {
      "epoch": 0.33175,
      "grad_norm": 0.9728577733039856,
      "learning_rate": 0.00022678008291634457,
      "loss": 4.1017,
      "step": 159240
    },
    {
      "epoch": 0.33177083333333335,
      "grad_norm": 0.8369409441947937,
      "learning_rate": 0.00022677161361568378,
      "loss": 3.8369,
      "step": 159250
    },
    {
      "epoch": 0.33179166666666665,
      "grad_norm": 0.7579830288887024,
      "learning_rate": 0.00022676314398340002,
      "loss": 3.8646,
      "step": 159260
    },
    {
      "epoch": 0.3318125,
      "grad_norm": 0.779040515422821,
      "learning_rate": 0.00022675467401952988,
      "loss": 3.821,
      "step": 159270
    },
    {
      "epoch": 0.3318333333333333,
      "grad_norm": 0.7371599078178406,
      "learning_rate": 0.00022674620372410988,
      "loss": 3.7111,
      "step": 159280
    },
    {
      "epoch": 0.3318541666666667,
      "grad_norm": 0.7217051386833191,
      "learning_rate": 0.00022673773309717665,
      "loss": 3.9464,
      "step": 159290
    },
    {
      "epoch": 0.331875,
      "grad_norm": 0.6835048198699951,
      "learning_rate": 0.0002267292621387668,
      "loss": 3.8134,
      "step": 159300
    },
    {
      "epoch": 0.33189583333333333,
      "grad_norm": 0.6881029605865479,
      "learning_rate": 0.00022672079084891695,
      "loss": 3.6873,
      "step": 159310
    },
    {
      "epoch": 0.3319166666666667,
      "grad_norm": 0.8542724847793579,
      "learning_rate": 0.00022671231922766357,
      "loss": 3.7198,
      "step": 159320
    },
    {
      "epoch": 0.3319375,
      "grad_norm": 0.7842327952384949,
      "learning_rate": 0.00022670384727504345,
      "loss": 3.9003,
      "step": 159330
    },
    {
      "epoch": 0.33195833333333336,
      "grad_norm": 0.7097176313400269,
      "learning_rate": 0.00022669537499109293,
      "loss": 4.0155,
      "step": 159340
    },
    {
      "epoch": 0.33197916666666666,
      "grad_norm": 0.7900949120521545,
      "learning_rate": 0.00022668690237584885,
      "loss": 3.9263,
      "step": 159350
    },
    {
      "epoch": 0.332,
      "grad_norm": 1.030545711517334,
      "learning_rate": 0.00022667842942934773,
      "loss": 3.8187,
      "step": 159360
    },
    {
      "epoch": 0.3320208333333333,
      "grad_norm": 0.8287075161933899,
      "learning_rate": 0.00022666995615162606,
      "loss": 3.8969,
      "step": 159370
    },
    {
      "epoch": 0.3320416666666667,
      "grad_norm": 0.8507643342018127,
      "learning_rate": 0.00022666148254272056,
      "loss": 3.7499,
      "step": 159380
    },
    {
      "epoch": 0.3320625,
      "grad_norm": 0.8384467363357544,
      "learning_rate": 0.00022665300860266784,
      "loss": 3.7761,
      "step": 159390
    },
    {
      "epoch": 0.33208333333333334,
      "grad_norm": 0.8434032201766968,
      "learning_rate": 0.0002266445343315044,
      "loss": 3.6312,
      "step": 159400
    },
    {
      "epoch": 0.33210416666666664,
      "grad_norm": 0.6848382949829102,
      "learning_rate": 0.00022663605972926697,
      "loss": 3.9389,
      "step": 159410
    },
    {
      "epoch": 0.332125,
      "grad_norm": 0.8446731567382812,
      "learning_rate": 0.00022662758479599204,
      "loss": 3.9395,
      "step": 159420
    },
    {
      "epoch": 0.3321458333333333,
      "grad_norm": 0.7804780006408691,
      "learning_rate": 0.0002266191095317163,
      "loss": 3.8334,
      "step": 159430
    },
    {
      "epoch": 0.33216666666666667,
      "grad_norm": 0.8489733338356018,
      "learning_rate": 0.0002266106339364763,
      "loss": 3.8271,
      "step": 159440
    },
    {
      "epoch": 0.3321875,
      "grad_norm": 0.7450255751609802,
      "learning_rate": 0.00022660215801030876,
      "loss": 3.8219,
      "step": 159450
    },
    {
      "epoch": 0.3322083333333333,
      "grad_norm": 0.8219677209854126,
      "learning_rate": 0.00022659368175325018,
      "loss": 3.9719,
      "step": 159460
    },
    {
      "epoch": 0.3322291666666667,
      "grad_norm": 0.714170515537262,
      "learning_rate": 0.00022658520516533723,
      "loss": 3.9409,
      "step": 159470
    },
    {
      "epoch": 0.33225,
      "grad_norm": 0.8297839760780334,
      "learning_rate": 0.00022657672824660647,
      "loss": 3.7322,
      "step": 159480
    },
    {
      "epoch": 0.33227083333333335,
      "grad_norm": 0.6643431186676025,
      "learning_rate": 0.00022656825099709457,
      "loss": 3.7647,
      "step": 159490
    },
    {
      "epoch": 0.33229166666666665,
      "grad_norm": 0.8731704950332642,
      "learning_rate": 0.00022655977341683815,
      "loss": 3.8692,
      "step": 159500
    },
    {
      "epoch": 0.3323125,
      "grad_norm": 0.7122067213058472,
      "learning_rate": 0.00022655129550587378,
      "loss": 3.9136,
      "step": 159510
    },
    {
      "epoch": 0.3323333333333333,
      "grad_norm": 0.7937498092651367,
      "learning_rate": 0.00022654281726423815,
      "loss": 3.9956,
      "step": 159520
    },
    {
      "epoch": 0.3323541666666667,
      "grad_norm": 0.8506038188934326,
      "learning_rate": 0.00022653433869196783,
      "loss": 3.9562,
      "step": 159530
    },
    {
      "epoch": 0.332375,
      "grad_norm": 1.0272473096847534,
      "learning_rate": 0.00022652585978909947,
      "loss": 3.9862,
      "step": 159540
    },
    {
      "epoch": 0.33239583333333333,
      "grad_norm": 0.8092339038848877,
      "learning_rate": 0.0002265173805556697,
      "loss": 3.8494,
      "step": 159550
    },
    {
      "epoch": 0.3324166666666667,
      "grad_norm": 0.8661437630653381,
      "learning_rate": 0.0002265089009917151,
      "loss": 3.8104,
      "step": 159560
    },
    {
      "epoch": 0.3324375,
      "grad_norm": 0.9117816090583801,
      "learning_rate": 0.00022650042109727234,
      "loss": 3.94,
      "step": 159570
    },
    {
      "epoch": 0.33245833333333336,
      "grad_norm": 0.8301052451133728,
      "learning_rate": 0.0002264919408723781,
      "loss": 3.7043,
      "step": 159580
    },
    {
      "epoch": 0.33247916666666666,
      "grad_norm": 0.80037522315979,
      "learning_rate": 0.0002264834603170689,
      "loss": 3.7509,
      "step": 159590
    },
    {
      "epoch": 0.3325,
      "grad_norm": 0.8103178143501282,
      "learning_rate": 0.0002264749794313814,
      "loss": 3.9021,
      "step": 159600
    },
    {
      "epoch": 0.3325208333333333,
      "grad_norm": 0.8532281517982483,
      "learning_rate": 0.0002264664982153523,
      "loss": 3.7206,
      "step": 159610
    },
    {
      "epoch": 0.3325416666666667,
      "grad_norm": 0.7616691589355469,
      "learning_rate": 0.00022645801666901818,
      "loss": 3.8632,
      "step": 159620
    },
    {
      "epoch": 0.3325625,
      "grad_norm": 0.8254815340042114,
      "learning_rate": 0.0002264495347924157,
      "loss": 3.6947,
      "step": 159630
    },
    {
      "epoch": 0.33258333333333334,
      "grad_norm": 0.7655845284461975,
      "learning_rate": 0.00022644105258558145,
      "loss": 3.7468,
      "step": 159640
    },
    {
      "epoch": 0.33260416666666665,
      "grad_norm": 0.7338824272155762,
      "learning_rate": 0.00022643257004855216,
      "loss": 3.9394,
      "step": 159650
    },
    {
      "epoch": 0.332625,
      "grad_norm": 0.7979740500450134,
      "learning_rate": 0.00022642408718136442,
      "loss": 3.8861,
      "step": 159660
    },
    {
      "epoch": 0.3326458333333333,
      "grad_norm": 0.8799304962158203,
      "learning_rate": 0.00022641560398405485,
      "loss": 3.8127,
      "step": 159670
    },
    {
      "epoch": 0.33266666666666667,
      "grad_norm": 0.9677696228027344,
      "learning_rate": 0.0002264071204566601,
      "loss": 3.8009,
      "step": 159680
    },
    {
      "epoch": 0.3326875,
      "grad_norm": 0.7323248982429504,
      "learning_rate": 0.00022639863659921694,
      "loss": 3.9496,
      "step": 159690
    },
    {
      "epoch": 0.33270833333333333,
      "grad_norm": 0.6912771463394165,
      "learning_rate": 0.00022639015241176177,
      "loss": 3.8149,
      "step": 159700
    },
    {
      "epoch": 0.3327291666666667,
      "grad_norm": 0.7031670808792114,
      "learning_rate": 0.00022638166789433147,
      "loss": 4.1115,
      "step": 159710
    },
    {
      "epoch": 0.33275,
      "grad_norm": 1.070087194442749,
      "learning_rate": 0.0002263731830469626,
      "loss": 3.7765,
      "step": 159720
    },
    {
      "epoch": 0.33277083333333335,
      "grad_norm": 0.6829268336296082,
      "learning_rate": 0.00022636469786969175,
      "loss": 3.8522,
      "step": 159730
    },
    {
      "epoch": 0.33279166666666665,
      "grad_norm": 0.7834478616714478,
      "learning_rate": 0.00022635621236255567,
      "loss": 3.8685,
      "step": 159740
    },
    {
      "epoch": 0.3328125,
      "grad_norm": 0.8765571713447571,
      "learning_rate": 0.000226347726525591,
      "loss": 3.6871,
      "step": 159750
    },
    {
      "epoch": 0.3328333333333333,
      "grad_norm": 0.8101921081542969,
      "learning_rate": 0.00022633924035883433,
      "loss": 3.9091,
      "step": 159760
    },
    {
      "epoch": 0.3328541666666667,
      "grad_norm": 0.7413007020950317,
      "learning_rate": 0.00022633075386232232,
      "loss": 3.7537,
      "step": 159770
    },
    {
      "epoch": 0.332875,
      "grad_norm": 0.7438618540763855,
      "learning_rate": 0.00022632226703609174,
      "loss": 3.8787,
      "step": 159780
    },
    {
      "epoch": 0.33289583333333334,
      "grad_norm": 0.834373950958252,
      "learning_rate": 0.0002263137798801792,
      "loss": 3.913,
      "step": 159790
    },
    {
      "epoch": 0.3329166666666667,
      "grad_norm": 0.8249583840370178,
      "learning_rate": 0.0002263052923946213,
      "loss": 3.7387,
      "step": 159800
    },
    {
      "epoch": 0.3329375,
      "grad_norm": 0.7767789959907532,
      "learning_rate": 0.00022629680457945473,
      "loss": 3.7205,
      "step": 159810
    },
    {
      "epoch": 0.33295833333333336,
      "grad_norm": 0.786713182926178,
      "learning_rate": 0.00022628831643471616,
      "loss": 3.6731,
      "step": 159820
    },
    {
      "epoch": 0.33297916666666666,
      "grad_norm": 0.8116068243980408,
      "learning_rate": 0.00022627982796044225,
      "loss": 3.7479,
      "step": 159830
    },
    {
      "epoch": 0.333,
      "grad_norm": 0.7335631847381592,
      "learning_rate": 0.00022627133915666968,
      "loss": 3.9652,
      "step": 159840
    },
    {
      "epoch": 0.3330208333333333,
      "grad_norm": 0.8703696727752686,
      "learning_rate": 0.00022626285002343515,
      "loss": 3.9977,
      "step": 159850
    },
    {
      "epoch": 0.3330416666666667,
      "grad_norm": 0.749291181564331,
      "learning_rate": 0.0002262543605607753,
      "loss": 3.8574,
      "step": 159860
    },
    {
      "epoch": 0.3330625,
      "grad_norm": 0.7335776090621948,
      "learning_rate": 0.00022624587076872674,
      "loss": 3.7796,
      "step": 159870
    },
    {
      "epoch": 0.33308333333333334,
      "grad_norm": 0.8512654900550842,
      "learning_rate": 0.00022623738064732622,
      "loss": 3.7777,
      "step": 159880
    },
    {
      "epoch": 0.33310416666666665,
      "grad_norm": 0.7290341854095459,
      "learning_rate": 0.00022622889019661047,
      "loss": 3.9355,
      "step": 159890
    },
    {
      "epoch": 0.333125,
      "grad_norm": 0.8826431035995483,
      "learning_rate": 0.000226220399416616,
      "loss": 3.8531,
      "step": 159900
    },
    {
      "epoch": 0.3331458333333333,
      "grad_norm": 0.8331460952758789,
      "learning_rate": 0.00022621190830737957,
      "loss": 3.8449,
      "step": 159910
    },
    {
      "epoch": 0.33316666666666667,
      "grad_norm": 0.7806095480918884,
      "learning_rate": 0.0002262034168689379,
      "loss": 3.9138,
      "step": 159920
    },
    {
      "epoch": 0.3331875,
      "grad_norm": 0.7943789958953857,
      "learning_rate": 0.0002261949251013276,
      "loss": 3.7878,
      "step": 159930
    },
    {
      "epoch": 0.33320833333333333,
      "grad_norm": 0.9136579036712646,
      "learning_rate": 0.0002261864330045854,
      "loss": 3.7334,
      "step": 159940
    },
    {
      "epoch": 0.3332291666666667,
      "grad_norm": 0.9426594376564026,
      "learning_rate": 0.00022617794057874798,
      "loss": 3.843,
      "step": 159950
    },
    {
      "epoch": 0.33325,
      "grad_norm": 1.1334589719772339,
      "learning_rate": 0.00022616944782385203,
      "loss": 3.7811,
      "step": 159960
    },
    {
      "epoch": 0.33327083333333335,
      "grad_norm": 0.8797115683555603,
      "learning_rate": 0.00022616095473993415,
      "loss": 3.7723,
      "step": 159970
    },
    {
      "epoch": 0.33329166666666665,
      "grad_norm": 0.7928230166435242,
      "learning_rate": 0.00022615246132703118,
      "loss": 3.7596,
      "step": 159980
    },
    {
      "epoch": 0.3333125,
      "grad_norm": 0.8148669004440308,
      "learning_rate": 0.00022614396758517964,
      "loss": 4.0097,
      "step": 159990
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.8992375135421753,
      "learning_rate": 0.00022613547351441632,
      "loss": 4.1717,
      "step": 160000
    },
    {
      "epoch": 0.3333333333333333,
      "eval_loss": 4.212229251861572,
      "eval_runtime": 9.4548,
      "eval_samples_per_second": 1.058,
      "eval_steps_per_second": 0.317,
      "step": 160000
    },
    {
      "epoch": 0.3333541666666667,
      "grad_norm": 0.7250091433525085,
      "learning_rate": 0.00022612697911477788,
      "loss": 3.642,
      "step": 160010
    },
    {
      "epoch": 0.333375,
      "grad_norm": 0.7969692945480347,
      "learning_rate": 0.00022611848438630104,
      "loss": 3.7608,
      "step": 160020
    },
    {
      "epoch": 0.33339583333333334,
      "grad_norm": 0.7038425803184509,
      "learning_rate": 0.00022610998932902257,
      "loss": 3.8439,
      "step": 160030
    },
    {
      "epoch": 0.33341666666666664,
      "grad_norm": 0.8685790300369263,
      "learning_rate": 0.00022610149394297892,
      "loss": 3.7361,
      "step": 160040
    },
    {
      "epoch": 0.3334375,
      "grad_norm": 0.6960127949714661,
      "learning_rate": 0.000226092998228207,
      "loss": 3.816,
      "step": 160050
    },
    {
      "epoch": 0.33345833333333336,
      "grad_norm": 0.7306182384490967,
      "learning_rate": 0.00022608450218474348,
      "loss": 4.0115,
      "step": 160060
    },
    {
      "epoch": 0.33347916666666666,
      "grad_norm": 0.7459836006164551,
      "learning_rate": 0.00022607600581262495,
      "loss": 3.6888,
      "step": 160070
    },
    {
      "epoch": 0.3335,
      "grad_norm": 0.7095014452934265,
      "learning_rate": 0.00022606750911188822,
      "loss": 3.8864,
      "step": 160080
    },
    {
      "epoch": 0.3335208333333333,
      "grad_norm": 0.7202209234237671,
      "learning_rate": 0.00022605901208257,
      "loss": 3.8094,
      "step": 160090
    },
    {
      "epoch": 0.3335416666666667,
      "grad_norm": 0.8314803242683411,
      "learning_rate": 0.00022605051472470697,
      "loss": 3.772,
      "step": 160100
    },
    {
      "epoch": 0.3335625,
      "grad_norm": 0.7590517997741699,
      "learning_rate": 0.00022604201703833572,
      "loss": 3.7792,
      "step": 160110
    },
    {
      "epoch": 0.33358333333333334,
      "grad_norm": 0.7454505562782288,
      "learning_rate": 0.00022603351902349312,
      "loss": 4.0403,
      "step": 160120
    },
    {
      "epoch": 0.33360416666666665,
      "grad_norm": 0.7445396780967712,
      "learning_rate": 0.00022602502068021585,
      "loss": 3.8916,
      "step": 160130
    },
    {
      "epoch": 0.333625,
      "grad_norm": 0.7539772987365723,
      "learning_rate": 0.0002260165220085405,
      "loss": 3.7017,
      "step": 160140
    },
    {
      "epoch": 0.3336458333333333,
      "grad_norm": 0.7247041463851929,
      "learning_rate": 0.00022600802300850394,
      "loss": 3.8812,
      "step": 160150
    },
    {
      "epoch": 0.33366666666666667,
      "grad_norm": 0.8848217129707336,
      "learning_rate": 0.00022599952368014274,
      "loss": 3.9474,
      "step": 160160
    },
    {
      "epoch": 0.3336875,
      "grad_norm": 1.006372332572937,
      "learning_rate": 0.00022599102402349374,
      "loss": 3.9286,
      "step": 160170
    },
    {
      "epoch": 0.33370833333333333,
      "grad_norm": 0.8267992734909058,
      "learning_rate": 0.00022598252403859353,
      "loss": 3.9017,
      "step": 160180
    },
    {
      "epoch": 0.3337291666666667,
      "grad_norm": 0.881800651550293,
      "learning_rate": 0.00022597402372547895,
      "loss": 3.9188,
      "step": 160190
    },
    {
      "epoch": 0.33375,
      "grad_norm": 0.8408558964729309,
      "learning_rate": 0.00022596552308418665,
      "loss": 3.9246,
      "step": 160200
    },
    {
      "epoch": 0.33377083333333335,
      "grad_norm": 0.7818215489387512,
      "learning_rate": 0.00022595702211475335,
      "loss": 3.9205,
      "step": 160210
    },
    {
      "epoch": 0.33379166666666665,
      "grad_norm": 0.6638234257698059,
      "learning_rate": 0.00022594852081721576,
      "loss": 3.7276,
      "step": 160220
    },
    {
      "epoch": 0.3338125,
      "grad_norm": 0.8483952879905701,
      "learning_rate": 0.00022594001919161067,
      "loss": 3.6503,
      "step": 160230
    },
    {
      "epoch": 0.3338333333333333,
      "grad_norm": 0.7586767077445984,
      "learning_rate": 0.0002259315172379747,
      "loss": 3.9917,
      "step": 160240
    },
    {
      "epoch": 0.3338541666666667,
      "grad_norm": 0.7600494623184204,
      "learning_rate": 0.00022592301495634467,
      "loss": 3.9253,
      "step": 160250
    },
    {
      "epoch": 0.333875,
      "grad_norm": 0.7742230892181396,
      "learning_rate": 0.00022591451234675727,
      "loss": 3.8756,
      "step": 160260
    },
    {
      "epoch": 0.33389583333333334,
      "grad_norm": 0.8607431650161743,
      "learning_rate": 0.00022590600940924923,
      "loss": 3.8671,
      "step": 160270
    },
    {
      "epoch": 0.33391666666666664,
      "grad_norm": 0.7125795483589172,
      "learning_rate": 0.0002258975061438572,
      "loss": 3.7418,
      "step": 160280
    },
    {
      "epoch": 0.3339375,
      "grad_norm": 0.8124155402183533,
      "learning_rate": 0.0002258890025506181,
      "loss": 3.7353,
      "step": 160290
    },
    {
      "epoch": 0.33395833333333336,
      "grad_norm": 0.7956367135047913,
      "learning_rate": 0.0002258804986295685,
      "loss": 3.8561,
      "step": 160300
    },
    {
      "epoch": 0.33397916666666666,
      "grad_norm": 0.7706208229064941,
      "learning_rate": 0.00022587199438074516,
      "loss": 3.8206,
      "step": 160310
    },
    {
      "epoch": 0.334,
      "grad_norm": 0.7239516973495483,
      "learning_rate": 0.00022586348980418484,
      "loss": 3.864,
      "step": 160320
    },
    {
      "epoch": 0.3340208333333333,
      "grad_norm": 0.7447735071182251,
      "learning_rate": 0.00022585498489992425,
      "loss": 3.8407,
      "step": 160330
    },
    {
      "epoch": 0.3340416666666667,
      "grad_norm": 0.82707679271698,
      "learning_rate": 0.0002258464796680002,
      "loss": 3.796,
      "step": 160340
    },
    {
      "epoch": 0.3340625,
      "grad_norm": 0.8892013430595398,
      "learning_rate": 0.00022583797410844937,
      "loss": 3.829,
      "step": 160350
    },
    {
      "epoch": 0.33408333333333334,
      "grad_norm": 0.691410481929779,
      "learning_rate": 0.0002258294682213085,
      "loss": 3.8128,
      "step": 160360
    },
    {
      "epoch": 0.33410416666666665,
      "grad_norm": 0.8466962575912476,
      "learning_rate": 0.00022582096200661435,
      "loss": 3.8672,
      "step": 160370
    },
    {
      "epoch": 0.334125,
      "grad_norm": 0.8104684948921204,
      "learning_rate": 0.00022581245546440367,
      "loss": 3.9161,
      "step": 160380
    },
    {
      "epoch": 0.3341458333333333,
      "grad_norm": 0.8123615384101868,
      "learning_rate": 0.00022580394859471315,
      "loss": 3.9262,
      "step": 160390
    },
    {
      "epoch": 0.33416666666666667,
      "grad_norm": 0.8556461930274963,
      "learning_rate": 0.0002257954413975796,
      "loss": 3.9606,
      "step": 160400
    },
    {
      "epoch": 0.3341875,
      "grad_norm": 1.0257142782211304,
      "learning_rate": 0.00022578693387303975,
      "loss": 3.8072,
      "step": 160410
    },
    {
      "epoch": 0.33420833333333333,
      "grad_norm": 0.7287256717681885,
      "learning_rate": 0.0002257784260211303,
      "loss": 3.8621,
      "step": 160420
    },
    {
      "epoch": 0.3342291666666667,
      "grad_norm": 0.7320495843887329,
      "learning_rate": 0.00022576991784188817,
      "loss": 3.8044,
      "step": 160430
    },
    {
      "epoch": 0.33425,
      "grad_norm": 0.8537812232971191,
      "learning_rate": 0.00022576140933534985,
      "loss": 3.7348,
      "step": 160440
    },
    {
      "epoch": 0.33427083333333335,
      "grad_norm": 0.725650429725647,
      "learning_rate": 0.0002257529005015523,
      "loss": 4.0079,
      "step": 160450
    },
    {
      "epoch": 0.33429166666666665,
      "grad_norm": 0.7378141283988953,
      "learning_rate": 0.00022574439134053222,
      "loss": 3.8109,
      "step": 160460
    },
    {
      "epoch": 0.3343125,
      "grad_norm": 0.862923800945282,
      "learning_rate": 0.0002257358818523263,
      "loss": 4.0401,
      "step": 160470
    },
    {
      "epoch": 0.3343333333333333,
      "grad_norm": 0.7964462637901306,
      "learning_rate": 0.00022572737203697138,
      "loss": 3.8983,
      "step": 160480
    },
    {
      "epoch": 0.3343541666666667,
      "grad_norm": 0.7627695798873901,
      "learning_rate": 0.00022571886189450417,
      "loss": 3.7685,
      "step": 160490
    },
    {
      "epoch": 0.334375,
      "grad_norm": 0.8358149528503418,
      "learning_rate": 0.00022571035142496143,
      "loss": 3.964,
      "step": 160500
    },
    {
      "epoch": 0.33439583333333334,
      "grad_norm": 0.6955722570419312,
      "learning_rate": 0.00022570184062837997,
      "loss": 3.8667,
      "step": 160510
    },
    {
      "epoch": 0.33441666666666664,
      "grad_norm": 0.7936346530914307,
      "learning_rate": 0.0002256933295047965,
      "loss": 3.7299,
      "step": 160520
    },
    {
      "epoch": 0.3344375,
      "grad_norm": 0.7218785285949707,
      "learning_rate": 0.00022568481805424785,
      "loss": 3.943,
      "step": 160530
    },
    {
      "epoch": 0.33445833333333336,
      "grad_norm": 0.712610125541687,
      "learning_rate": 0.0002256763062767707,
      "loss": 3.8517,
      "step": 160540
    },
    {
      "epoch": 0.33447916666666666,
      "grad_norm": 0.7099206447601318,
      "learning_rate": 0.0002256677941724019,
      "loss": 3.8817,
      "step": 160550
    },
    {
      "epoch": 0.3345,
      "grad_norm": 1.0632127523422241,
      "learning_rate": 0.00022565928174117815,
      "loss": 3.8505,
      "step": 160560
    },
    {
      "epoch": 0.3345208333333333,
      "grad_norm": 0.9217271208763123,
      "learning_rate": 0.00022565076898313626,
      "loss": 3.7693,
      "step": 160570
    },
    {
      "epoch": 0.3345416666666667,
      "grad_norm": 0.7878499031066895,
      "learning_rate": 0.000225642255898313,
      "loss": 3.6207,
      "step": 160580
    },
    {
      "epoch": 0.3345625,
      "grad_norm": 0.7975128293037415,
      "learning_rate": 0.00022563374248674514,
      "loss": 3.9526,
      "step": 160590
    },
    {
      "epoch": 0.33458333333333334,
      "grad_norm": 0.778850257396698,
      "learning_rate": 0.00022562522874846943,
      "loss": 3.7814,
      "step": 160600
    },
    {
      "epoch": 0.33460416666666665,
      "grad_norm": 0.881051242351532,
      "learning_rate": 0.00022561671468352264,
      "loss": 3.9917,
      "step": 160610
    },
    {
      "epoch": 0.334625,
      "grad_norm": 0.7996352910995483,
      "learning_rate": 0.00022560820029194167,
      "loss": 3.9459,
      "step": 160620
    },
    {
      "epoch": 0.3346458333333333,
      "grad_norm": 0.8298032283782959,
      "learning_rate": 0.00022559968557376314,
      "loss": 3.821,
      "step": 160630
    },
    {
      "epoch": 0.33466666666666667,
      "grad_norm": 0.8814959526062012,
      "learning_rate": 0.00022559117052902385,
      "loss": 3.9725,
      "step": 160640
    },
    {
      "epoch": 0.3346875,
      "grad_norm": 0.8113994598388672,
      "learning_rate": 0.0002255826551577607,
      "loss": 3.8247,
      "step": 160650
    },
    {
      "epoch": 0.33470833333333333,
      "grad_norm": 0.8621358871459961,
      "learning_rate": 0.00022557413946001039,
      "loss": 3.8848,
      "step": 160660
    },
    {
      "epoch": 0.3347291666666667,
      "grad_norm": 0.7405773997306824,
      "learning_rate": 0.00022556562343580965,
      "loss": 3.905,
      "step": 160670
    },
    {
      "epoch": 0.33475,
      "grad_norm": 0.8476202487945557,
      "learning_rate": 0.0002255571070851954,
      "loss": 3.8819,
      "step": 160680
    },
    {
      "epoch": 0.33477083333333335,
      "grad_norm": 0.8605710864067078,
      "learning_rate": 0.0002255485904082043,
      "loss": 3.9873,
      "step": 160690
    },
    {
      "epoch": 0.33479166666666665,
      "grad_norm": 0.8019019961357117,
      "learning_rate": 0.00022554007340487323,
      "loss": 4.0564,
      "step": 160700
    },
    {
      "epoch": 0.3348125,
      "grad_norm": 0.8579902052879333,
      "learning_rate": 0.00022553155607523892,
      "loss": 3.9072,
      "step": 160710
    },
    {
      "epoch": 0.3348333333333333,
      "grad_norm": 0.8851465582847595,
      "learning_rate": 0.00022552303841933817,
      "loss": 3.7928,
      "step": 160720
    },
    {
      "epoch": 0.3348541666666667,
      "grad_norm": 0.7467755675315857,
      "learning_rate": 0.00022551452043720788,
      "loss": 3.7552,
      "step": 160730
    },
    {
      "epoch": 0.334875,
      "grad_norm": 0.7390492558479309,
      "learning_rate": 0.00022550600212888463,
      "loss": 3.9502,
      "step": 160740
    },
    {
      "epoch": 0.33489583333333334,
      "grad_norm": 0.7823338508605957,
      "learning_rate": 0.00022549748349440541,
      "loss": 3.8499,
      "step": 160750
    },
    {
      "epoch": 0.33491666666666664,
      "grad_norm": 0.7296510934829712,
      "learning_rate": 0.00022548896453380694,
      "loss": 3.8585,
      "step": 160760
    },
    {
      "epoch": 0.3349375,
      "grad_norm": 0.8233925700187683,
      "learning_rate": 0.00022548044524712602,
      "loss": 3.7288,
      "step": 160770
    },
    {
      "epoch": 0.33495833333333336,
      "grad_norm": 0.9354679584503174,
      "learning_rate": 0.00022547192563439943,
      "loss": 3.7711,
      "step": 160780
    },
    {
      "epoch": 0.33497916666666666,
      "grad_norm": 0.7051745057106018,
      "learning_rate": 0.000225463405695664,
      "loss": 3.7258,
      "step": 160790
    },
    {
      "epoch": 0.335,
      "grad_norm": 0.7598209381103516,
      "learning_rate": 0.00022545488543095657,
      "loss": 3.8919,
      "step": 160800
    },
    {
      "epoch": 0.3350208333333333,
      "grad_norm": 0.9247045516967773,
      "learning_rate": 0.00022544636484031385,
      "loss": 3.7402,
      "step": 160810
    },
    {
      "epoch": 0.3350416666666667,
      "grad_norm": 0.807249128818512,
      "learning_rate": 0.00022543784392377273,
      "loss": 3.8205,
      "step": 160820
    },
    {
      "epoch": 0.3350625,
      "grad_norm": 0.9341574311256409,
      "learning_rate": 0.00022542932268136999,
      "loss": 3.9034,
      "step": 160830
    },
    {
      "epoch": 0.33508333333333334,
      "grad_norm": 0.7509338855743408,
      "learning_rate": 0.00022542080111314242,
      "loss": 3.7973,
      "step": 160840
    },
    {
      "epoch": 0.33510416666666665,
      "grad_norm": 0.7894408702850342,
      "learning_rate": 0.00022541227921912683,
      "loss": 3.9406,
      "step": 160850
    },
    {
      "epoch": 0.335125,
      "grad_norm": 0.9686020016670227,
      "learning_rate": 0.00022540375699936006,
      "loss": 3.6948,
      "step": 160860
    },
    {
      "epoch": 0.3351458333333333,
      "grad_norm": 0.8301553726196289,
      "learning_rate": 0.00022539523445387887,
      "loss": 3.8097,
      "step": 160870
    },
    {
      "epoch": 0.33516666666666667,
      "grad_norm": 0.8234387040138245,
      "learning_rate": 0.00022538671158272016,
      "loss": 3.9094,
      "step": 160880
    },
    {
      "epoch": 0.3351875,
      "grad_norm": 0.7554728984832764,
      "learning_rate": 0.00022537818838592064,
      "loss": 3.926,
      "step": 160890
    },
    {
      "epoch": 0.33520833333333333,
      "grad_norm": 0.7638795971870422,
      "learning_rate": 0.00022536966486351727,
      "loss": 3.9697,
      "step": 160900
    },
    {
      "epoch": 0.3352291666666667,
      "grad_norm": 0.7176353335380554,
      "learning_rate": 0.00022536114101554672,
      "loss": 3.871,
      "step": 160910
    },
    {
      "epoch": 0.33525,
      "grad_norm": 0.9912576079368591,
      "learning_rate": 0.00022535261684204587,
      "loss": 3.6637,
      "step": 160920
    },
    {
      "epoch": 0.33527083333333335,
      "grad_norm": 0.8690285682678223,
      "learning_rate": 0.00022534409234305157,
      "loss": 3.92,
      "step": 160930
    },
    {
      "epoch": 0.33529166666666665,
      "grad_norm": 0.8255000114440918,
      "learning_rate": 0.0002253355675186006,
      "loss": 3.8357,
      "step": 160940
    },
    {
      "epoch": 0.3353125,
      "grad_norm": 0.8237307071685791,
      "learning_rate": 0.00022532704236872977,
      "loss": 3.956,
      "step": 160950
    },
    {
      "epoch": 0.3353333333333333,
      "grad_norm": 0.9002664089202881,
      "learning_rate": 0.00022531851689347603,
      "loss": 3.8674,
      "step": 160960
    },
    {
      "epoch": 0.3353541666666667,
      "grad_norm": 0.7747684121131897,
      "learning_rate": 0.00022530999109287602,
      "loss": 3.9017,
      "step": 160970
    },
    {
      "epoch": 0.335375,
      "grad_norm": 0.80790114402771,
      "learning_rate": 0.0002253014649669666,
      "loss": 3.9283,
      "step": 160980
    },
    {
      "epoch": 0.33539583333333334,
      "grad_norm": 0.8910022974014282,
      "learning_rate": 0.0002252929385157848,
      "loss": 3.6876,
      "step": 160990
    },
    {
      "epoch": 0.33541666666666664,
      "grad_norm": 0.866906464099884,
      "learning_rate": 0.00022528441173936723,
      "loss": 3.9231,
      "step": 161000
    },
    {
      "epoch": 0.33541666666666664,
      "eval_loss": 4.200584411621094,
      "eval_runtime": 9.511,
      "eval_samples_per_second": 1.051,
      "eval_steps_per_second": 0.315,
      "step": 161000
    },
    {
      "epoch": 0.3354375,
      "grad_norm": 0.8037667274475098,
      "learning_rate": 0.0002252758846377508,
      "loss": 3.8356,
      "step": 161010
    },
    {
      "epoch": 0.33545833333333336,
      "grad_norm": 0.6638907194137573,
      "learning_rate": 0.0002252673572109724,
      "loss": 3.9121,
      "step": 161020
    },
    {
      "epoch": 0.33547916666666666,
      "grad_norm": 0.7535233497619629,
      "learning_rate": 0.00022525882945906878,
      "loss": 3.9288,
      "step": 161030
    },
    {
      "epoch": 0.3355,
      "grad_norm": 0.8119719624519348,
      "learning_rate": 0.0002252503013820768,
      "loss": 3.7487,
      "step": 161040
    },
    {
      "epoch": 0.3355208333333333,
      "grad_norm": 0.7277073860168457,
      "learning_rate": 0.00022524177298003327,
      "loss": 3.7794,
      "step": 161050
    },
    {
      "epoch": 0.3355416666666667,
      "grad_norm": 0.8539289832115173,
      "learning_rate": 0.00022523324425297508,
      "loss": 3.9439,
      "step": 161060
    },
    {
      "epoch": 0.3355625,
      "grad_norm": 0.7558526992797852,
      "learning_rate": 0.00022522471520093905,
      "loss": 3.5557,
      "step": 161070
    },
    {
      "epoch": 0.33558333333333334,
      "grad_norm": 0.9060392379760742,
      "learning_rate": 0.00022521618582396207,
      "loss": 3.8571,
      "step": 161080
    },
    {
      "epoch": 0.33560416666666665,
      "grad_norm": 0.8103947639465332,
      "learning_rate": 0.00022520765612208093,
      "loss": 3.6992,
      "step": 161090
    },
    {
      "epoch": 0.335625,
      "grad_norm": 0.9050244092941284,
      "learning_rate": 0.00022519912609533245,
      "loss": 3.9332,
      "step": 161100
    },
    {
      "epoch": 0.3356458333333333,
      "grad_norm": 0.7356554865837097,
      "learning_rate": 0.00022519059574375357,
      "loss": 3.814,
      "step": 161110
    },
    {
      "epoch": 0.33566666666666667,
      "grad_norm": 0.7813773155212402,
      "learning_rate": 0.000225182065067381,
      "loss": 3.7531,
      "step": 161120
    },
    {
      "epoch": 0.3356875,
      "grad_norm": 0.7666945457458496,
      "learning_rate": 0.00022517353406625173,
      "loss": 3.8982,
      "step": 161130
    },
    {
      "epoch": 0.33570833333333333,
      "grad_norm": 0.7536760568618774,
      "learning_rate": 0.0002251650027404025,
      "loss": 3.9078,
      "step": 161140
    },
    {
      "epoch": 0.3357291666666667,
      "grad_norm": 0.7241008281707764,
      "learning_rate": 0.00022515647108987025,
      "loss": 3.9589,
      "step": 161150
    },
    {
      "epoch": 0.33575,
      "grad_norm": 0.7792503237724304,
      "learning_rate": 0.00022514793911469178,
      "loss": 3.8093,
      "step": 161160
    },
    {
      "epoch": 0.33577083333333335,
      "grad_norm": 0.7111339569091797,
      "learning_rate": 0.000225139406814904,
      "loss": 3.8741,
      "step": 161170
    },
    {
      "epoch": 0.33579166666666665,
      "grad_norm": 0.7697182893753052,
      "learning_rate": 0.00022513087419054366,
      "loss": 3.8344,
      "step": 161180
    },
    {
      "epoch": 0.3358125,
      "grad_norm": 0.7440057396888733,
      "learning_rate": 0.00022512234124164772,
      "loss": 3.8485,
      "step": 161190
    },
    {
      "epoch": 0.3358333333333333,
      "grad_norm": 0.7740077972412109,
      "learning_rate": 0.00022511380796825297,
      "loss": 3.7879,
      "step": 161200
    },
    {
      "epoch": 0.3358541666666667,
      "grad_norm": 0.76587975025177,
      "learning_rate": 0.0002251052743703963,
      "loss": 3.8296,
      "step": 161210
    },
    {
      "epoch": 0.335875,
      "grad_norm": 0.8353256583213806,
      "learning_rate": 0.0002250967404481146,
      "loss": 3.8239,
      "step": 161220
    },
    {
      "epoch": 0.33589583333333334,
      "grad_norm": 0.800739586353302,
      "learning_rate": 0.00022508820620144467,
      "loss": 4.1205,
      "step": 161230
    },
    {
      "epoch": 0.33591666666666664,
      "grad_norm": 0.8228893876075745,
      "learning_rate": 0.00022507967163042347,
      "loss": 3.9179,
      "step": 161240
    },
    {
      "epoch": 0.3359375,
      "grad_norm": 0.790118396282196,
      "learning_rate": 0.00022507113673508777,
      "loss": 3.8415,
      "step": 161250
    },
    {
      "epoch": 0.33595833333333336,
      "grad_norm": 0.8188787698745728,
      "learning_rate": 0.0002250626015154745,
      "loss": 3.9493,
      "step": 161260
    },
    {
      "epoch": 0.33597916666666666,
      "grad_norm": 0.7968183159828186,
      "learning_rate": 0.0002250540659716205,
      "loss": 3.7383,
      "step": 161270
    },
    {
      "epoch": 0.336,
      "grad_norm": 0.7781060338020325,
      "learning_rate": 0.00022504553010356258,
      "loss": 3.8932,
      "step": 161280
    },
    {
      "epoch": 0.3360208333333333,
      "grad_norm": 0.7393187880516052,
      "learning_rate": 0.00022503699391133772,
      "loss": 3.7565,
      "step": 161290
    },
    {
      "epoch": 0.3360416666666667,
      "grad_norm": 0.784275472164154,
      "learning_rate": 0.00022502845739498278,
      "loss": 3.7459,
      "step": 161300
    },
    {
      "epoch": 0.3360625,
      "grad_norm": 0.7720041871070862,
      "learning_rate": 0.00022501992055453456,
      "loss": 3.9026,
      "step": 161310
    },
    {
      "epoch": 0.33608333333333335,
      "grad_norm": 0.8922554850578308,
      "learning_rate": 0.00022501138339003004,
      "loss": 3.7957,
      "step": 161320
    },
    {
      "epoch": 0.33610416666666665,
      "grad_norm": 0.7490319609642029,
      "learning_rate": 0.00022500284590150596,
      "loss": 3.999,
      "step": 161330
    },
    {
      "epoch": 0.336125,
      "grad_norm": 0.6888133883476257,
      "learning_rate": 0.0002249943080889993,
      "loss": 3.8832,
      "step": 161340
    },
    {
      "epoch": 0.3361458333333333,
      "grad_norm": 0.803763747215271,
      "learning_rate": 0.00022498576995254693,
      "loss": 3.7628,
      "step": 161350
    },
    {
      "epoch": 0.33616666666666667,
      "grad_norm": 0.931100606918335,
      "learning_rate": 0.00022497723149218567,
      "loss": 3.8165,
      "step": 161360
    },
    {
      "epoch": 0.3361875,
      "grad_norm": 0.7698578238487244,
      "learning_rate": 0.0002249686927079525,
      "loss": 3.9748,
      "step": 161370
    },
    {
      "epoch": 0.33620833333333333,
      "grad_norm": 1.2384628057479858,
      "learning_rate": 0.00022496015359988424,
      "loss": 3.9076,
      "step": 161380
    },
    {
      "epoch": 0.3362291666666667,
      "grad_norm": 0.7465835809707642,
      "learning_rate": 0.00022495161416801778,
      "loss": 3.8884,
      "step": 161390
    },
    {
      "epoch": 0.33625,
      "grad_norm": 0.6801832914352417,
      "learning_rate": 0.00022494307441238998,
      "loss": 3.9957,
      "step": 161400
    },
    {
      "epoch": 0.33627083333333335,
      "grad_norm": 0.7151057124137878,
      "learning_rate": 0.00022493453433303784,
      "loss": 3.9048,
      "step": 161410
    },
    {
      "epoch": 0.33629166666666666,
      "grad_norm": 0.7193798422813416,
      "learning_rate": 0.0002249259939299981,
      "loss": 3.756,
      "step": 161420
    },
    {
      "epoch": 0.3363125,
      "grad_norm": 0.7571346163749695,
      "learning_rate": 0.00022491745320330774,
      "loss": 3.8535,
      "step": 161430
    },
    {
      "epoch": 0.3363333333333333,
      "grad_norm": 0.7313126921653748,
      "learning_rate": 0.00022490891215300366,
      "loss": 3.8794,
      "step": 161440
    },
    {
      "epoch": 0.3363541666666667,
      "grad_norm": 0.68695467710495,
      "learning_rate": 0.00022490037077912273,
      "loss": 3.6366,
      "step": 161450
    },
    {
      "epoch": 0.336375,
      "grad_norm": 0.9170703291893005,
      "learning_rate": 0.00022489182908170185,
      "loss": 3.8419,
      "step": 161460
    },
    {
      "epoch": 0.33639583333333334,
      "grad_norm": 0.8112848997116089,
      "learning_rate": 0.0002248832870607779,
      "loss": 3.6806,
      "step": 161470
    },
    {
      "epoch": 0.33641666666666664,
      "grad_norm": 0.7185225486755371,
      "learning_rate": 0.00022487474471638778,
      "loss": 3.7491,
      "step": 161480
    },
    {
      "epoch": 0.3364375,
      "grad_norm": 0.8935691714286804,
      "learning_rate": 0.0002248662020485684,
      "loss": 3.7967,
      "step": 161490
    },
    {
      "epoch": 0.33645833333333336,
      "grad_norm": 0.7331139445304871,
      "learning_rate": 0.0002248576590573567,
      "loss": 3.5522,
      "step": 161500
    },
    {
      "epoch": 0.33647916666666666,
      "grad_norm": 0.7493259906768799,
      "learning_rate": 0.00022484911574278949,
      "loss": 3.7627,
      "step": 161510
    },
    {
      "epoch": 0.3365,
      "grad_norm": 0.8504513502120972,
      "learning_rate": 0.00022484057210490378,
      "loss": 3.8404,
      "step": 161520
    },
    {
      "epoch": 0.3365208333333333,
      "grad_norm": 0.8003252744674683,
      "learning_rate": 0.0002248320281437364,
      "loss": 3.705,
      "step": 161530
    },
    {
      "epoch": 0.3365416666666667,
      "grad_norm": 0.7666180729866028,
      "learning_rate": 0.00022482348385932422,
      "loss": 3.8961,
      "step": 161540
    },
    {
      "epoch": 0.3365625,
      "grad_norm": 0.701574981212616,
      "learning_rate": 0.00022481493925170432,
      "loss": 3.8685,
      "step": 161550
    },
    {
      "epoch": 0.33658333333333335,
      "grad_norm": 0.865974485874176,
      "learning_rate": 0.0002248063943209134,
      "loss": 3.8989,
      "step": 161560
    },
    {
      "epoch": 0.33660416666666665,
      "grad_norm": 0.7125111222267151,
      "learning_rate": 0.0002247978490669885,
      "loss": 3.8151,
      "step": 161570
    },
    {
      "epoch": 0.336625,
      "grad_norm": 0.7805473208427429,
      "learning_rate": 0.00022478930348996648,
      "loss": 3.8975,
      "step": 161580
    },
    {
      "epoch": 0.3366458333333333,
      "grad_norm": 0.7642998695373535,
      "learning_rate": 0.00022478075758988433,
      "loss": 3.8571,
      "step": 161590
    },
    {
      "epoch": 0.33666666666666667,
      "grad_norm": 0.8013113141059875,
      "learning_rate": 0.00022477221136677885,
      "loss": 3.6664,
      "step": 161600
    },
    {
      "epoch": 0.3366875,
      "grad_norm": 0.7945038080215454,
      "learning_rate": 0.00022476366482068706,
      "loss": 3.82,
      "step": 161610
    },
    {
      "epoch": 0.33670833333333333,
      "grad_norm": 0.9012323617935181,
      "learning_rate": 0.0002247551179516458,
      "loss": 3.7844,
      "step": 161620
    },
    {
      "epoch": 0.3367291666666667,
      "grad_norm": 0.8182661533355713,
      "learning_rate": 0.00022474657075969207,
      "loss": 4.0187,
      "step": 161630
    },
    {
      "epoch": 0.33675,
      "grad_norm": 0.7956565618515015,
      "learning_rate": 0.00022473802324486262,
      "loss": 3.6923,
      "step": 161640
    },
    {
      "epoch": 0.33677083333333335,
      "grad_norm": 0.7821783423423767,
      "learning_rate": 0.0002247294754071946,
      "loss": 3.7386,
      "step": 161650
    },
    {
      "epoch": 0.33679166666666666,
      "grad_norm": 0.9376593828201294,
      "learning_rate": 0.00022472092724672483,
      "loss": 3.8714,
      "step": 161660
    },
    {
      "epoch": 0.3368125,
      "grad_norm": 0.9851951599121094,
      "learning_rate": 0.0002247123787634902,
      "loss": 3.9167,
      "step": 161670
    },
    {
      "epoch": 0.3368333333333333,
      "grad_norm": 0.7363185882568359,
      "learning_rate": 0.00022470382995752762,
      "loss": 3.7632,
      "step": 161680
    },
    {
      "epoch": 0.3368541666666667,
      "grad_norm": 0.7068263292312622,
      "learning_rate": 0.00022469528082887414,
      "loss": 4.031,
      "step": 161690
    },
    {
      "epoch": 0.336875,
      "grad_norm": 0.7867138981819153,
      "learning_rate": 0.0002246867313775666,
      "loss": 3.8584,
      "step": 161700
    },
    {
      "epoch": 0.33689583333333334,
      "grad_norm": 0.917365550994873,
      "learning_rate": 0.0002246781816036419,
      "loss": 3.7877,
      "step": 161710
    },
    {
      "epoch": 0.33691666666666664,
      "grad_norm": 0.787272036075592,
      "learning_rate": 0.00022466963150713707,
      "loss": 3.7695,
      "step": 161720
    },
    {
      "epoch": 0.3369375,
      "grad_norm": 0.8351091146469116,
      "learning_rate": 0.00022466108108808893,
      "loss": 3.8713,
      "step": 161730
    },
    {
      "epoch": 0.33695833333333336,
      "grad_norm": 0.8188698887825012,
      "learning_rate": 0.00022465253034653453,
      "loss": 3.9939,
      "step": 161740
    },
    {
      "epoch": 0.33697916666666666,
      "grad_norm": 0.6697468757629395,
      "learning_rate": 0.00022464397928251072,
      "loss": 3.5174,
      "step": 161750
    },
    {
      "epoch": 0.337,
      "grad_norm": 0.845815896987915,
      "learning_rate": 0.00022463542789605444,
      "loss": 3.82,
      "step": 161760
    },
    {
      "epoch": 0.3370208333333333,
      "grad_norm": 0.7369487285614014,
      "learning_rate": 0.00022462687618720272,
      "loss": 3.9926,
      "step": 161770
    },
    {
      "epoch": 0.3370416666666667,
      "grad_norm": 0.8395229578018188,
      "learning_rate": 0.00022461832415599238,
      "loss": 3.7224,
      "step": 161780
    },
    {
      "epoch": 0.3370625,
      "grad_norm": 0.7305222749710083,
      "learning_rate": 0.00022460977180246042,
      "loss": 3.7609,
      "step": 161790
    },
    {
      "epoch": 0.33708333333333335,
      "grad_norm": 0.8242762684822083,
      "learning_rate": 0.00022460121912664383,
      "loss": 3.7717,
      "step": 161800
    },
    {
      "epoch": 0.33710416666666665,
      "grad_norm": 0.8735021948814392,
      "learning_rate": 0.00022459266612857943,
      "loss": 3.9352,
      "step": 161810
    },
    {
      "epoch": 0.337125,
      "grad_norm": 0.6708752512931824,
      "learning_rate": 0.00022458411280830429,
      "loss": 3.9017,
      "step": 161820
    },
    {
      "epoch": 0.3371458333333333,
      "grad_norm": 0.7542699575424194,
      "learning_rate": 0.00022457555916585527,
      "loss": 3.7751,
      "step": 161830
    },
    {
      "epoch": 0.33716666666666667,
      "grad_norm": 0.9501476287841797,
      "learning_rate": 0.00022456700520126938,
      "loss": 3.8691,
      "step": 161840
    },
    {
      "epoch": 0.3371875,
      "grad_norm": 0.8099088668823242,
      "learning_rate": 0.00022455845091458353,
      "loss": 3.8831,
      "step": 161850
    },
    {
      "epoch": 0.33720833333333333,
      "grad_norm": 0.9762375950813293,
      "learning_rate": 0.00022454989630583472,
      "loss": 3.7337,
      "step": 161860
    },
    {
      "epoch": 0.3372291666666667,
      "grad_norm": 0.7395829558372498,
      "learning_rate": 0.0002245413413750598,
      "loss": 3.8241,
      "step": 161870
    },
    {
      "epoch": 0.33725,
      "grad_norm": 0.7870033979415894,
      "learning_rate": 0.0002245327861222958,
      "loss": 3.6597,
      "step": 161880
    },
    {
      "epoch": 0.33727083333333335,
      "grad_norm": 0.73088139295578,
      "learning_rate": 0.00022452423054757973,
      "loss": 3.6433,
      "step": 161890
    },
    {
      "epoch": 0.33729166666666666,
      "grad_norm": 0.7078539729118347,
      "learning_rate": 0.00022451567465094844,
      "loss": 3.7436,
      "step": 161900
    },
    {
      "epoch": 0.3373125,
      "grad_norm": 0.977739155292511,
      "learning_rate": 0.00022450711843243894,
      "loss": 3.8131,
      "step": 161910
    },
    {
      "epoch": 0.3373333333333333,
      "grad_norm": 0.8152413368225098,
      "learning_rate": 0.00022449856189208815,
      "loss": 3.865,
      "step": 161920
    },
    {
      "epoch": 0.3373541666666667,
      "grad_norm": 0.9324671626091003,
      "learning_rate": 0.0002244900050299331,
      "loss": 3.7135,
      "step": 161930
    },
    {
      "epoch": 0.337375,
      "grad_norm": 0.8450120091438293,
      "learning_rate": 0.0002244814478460107,
      "loss": 3.8059,
      "step": 161940
    },
    {
      "epoch": 0.33739583333333334,
      "grad_norm": 0.704798698425293,
      "learning_rate": 0.00022447289034035792,
      "loss": 3.6971,
      "step": 161950
    },
    {
      "epoch": 0.33741666666666664,
      "grad_norm": 0.8387563228607178,
      "learning_rate": 0.00022446433251301174,
      "loss": 3.8364,
      "step": 161960
    },
    {
      "epoch": 0.3374375,
      "grad_norm": 0.944317102432251,
      "learning_rate": 0.00022445577436400912,
      "loss": 3.8916,
      "step": 161970
    },
    {
      "epoch": 0.33745833333333336,
      "grad_norm": 0.8144242763519287,
      "learning_rate": 0.00022444721589338703,
      "loss": 3.8856,
      "step": 161980
    },
    {
      "epoch": 0.33747916666666666,
      "grad_norm": 0.8684241771697998,
      "learning_rate": 0.00022443865710118242,
      "loss": 3.8193,
      "step": 161990
    },
    {
      "epoch": 0.3375,
      "grad_norm": 0.7058635950088501,
      "learning_rate": 0.00022443009798743231,
      "loss": 3.9928,
      "step": 162000
    },
    {
      "epoch": 0.3375,
      "eval_loss": 4.2032599449157715,
      "eval_runtime": 9.3735,
      "eval_samples_per_second": 1.067,
      "eval_steps_per_second": 0.32,
      "step": 162000
    },
    {
      "epoch": 0.3375208333333333,
      "grad_norm": 0.8353533148765564,
      "learning_rate": 0.00022442153855217357,
      "loss": 3.8458,
      "step": 162010
    },
    {
      "epoch": 0.3375416666666667,
      "grad_norm": 0.7015066146850586,
      "learning_rate": 0.00022441297879544327,
      "loss": 3.7416,
      "step": 162020
    },
    {
      "epoch": 0.3375625,
      "grad_norm": 0.8300061225891113,
      "learning_rate": 0.00022440441871727842,
      "loss": 3.9311,
      "step": 162030
    },
    {
      "epoch": 0.33758333333333335,
      "grad_norm": 0.8146975040435791,
      "learning_rate": 0.00022439585831771587,
      "loss": 3.8866,
      "step": 162040
    },
    {
      "epoch": 0.33760416666666665,
      "grad_norm": 0.8246369361877441,
      "learning_rate": 0.0002243872975967927,
      "loss": 3.8688,
      "step": 162050
    },
    {
      "epoch": 0.337625,
      "grad_norm": 0.844062864780426,
      "learning_rate": 0.0002243787365545458,
      "loss": 3.762,
      "step": 162060
    },
    {
      "epoch": 0.3376458333333333,
      "grad_norm": 0.936926543712616,
      "learning_rate": 0.00022437017519101222,
      "loss": 3.737,
      "step": 162070
    },
    {
      "epoch": 0.33766666666666667,
      "grad_norm": 0.9023414254188538,
      "learning_rate": 0.00022436161350622893,
      "loss": 3.7438,
      "step": 162080
    },
    {
      "epoch": 0.3376875,
      "grad_norm": 0.8851797580718994,
      "learning_rate": 0.0002243530515002329,
      "loss": 3.9655,
      "step": 162090
    },
    {
      "epoch": 0.33770833333333333,
      "grad_norm": 0.9608364105224609,
      "learning_rate": 0.0002243444891730611,
      "loss": 3.7564,
      "step": 162100
    },
    {
      "epoch": 0.3377291666666667,
      "grad_norm": 0.7312771081924438,
      "learning_rate": 0.00022433592652475054,
      "loss": 3.7034,
      "step": 162110
    },
    {
      "epoch": 0.33775,
      "grad_norm": 0.7257129549980164,
      "learning_rate": 0.00022432736355533823,
      "loss": 3.7838,
      "step": 162120
    },
    {
      "epoch": 0.33777083333333335,
      "grad_norm": 1.1134188175201416,
      "learning_rate": 0.00022431880026486112,
      "loss": 3.7949,
      "step": 162130
    },
    {
      "epoch": 0.33779166666666666,
      "grad_norm": 0.8423564434051514,
      "learning_rate": 0.0002243102366533562,
      "loss": 4.079,
      "step": 162140
    },
    {
      "epoch": 0.3378125,
      "grad_norm": 0.7340120673179626,
      "learning_rate": 0.00022430167272086048,
      "loss": 3.7196,
      "step": 162150
    },
    {
      "epoch": 0.3378333333333333,
      "grad_norm": 0.8669166564941406,
      "learning_rate": 0.00022429310846741092,
      "loss": 3.8457,
      "step": 162160
    },
    {
      "epoch": 0.3378541666666667,
      "grad_norm": 0.8837955594062805,
      "learning_rate": 0.00022428454389304458,
      "loss": 3.8864,
      "step": 162170
    },
    {
      "epoch": 0.337875,
      "grad_norm": 0.8116600513458252,
      "learning_rate": 0.00022427597899779835,
      "loss": 3.8102,
      "step": 162180
    },
    {
      "epoch": 0.33789583333333334,
      "grad_norm": 0.7678514719009399,
      "learning_rate": 0.00022426741378170934,
      "loss": 4.1167,
      "step": 162190
    },
    {
      "epoch": 0.33791666666666664,
      "grad_norm": 0.7088549733161926,
      "learning_rate": 0.00022425884824481452,
      "loss": 3.8488,
      "step": 162200
    },
    {
      "epoch": 0.3379375,
      "grad_norm": 0.7962321043014526,
      "learning_rate": 0.00022425028238715083,
      "loss": 3.7638,
      "step": 162210
    },
    {
      "epoch": 0.33795833333333336,
      "grad_norm": 0.7865862846374512,
      "learning_rate": 0.00022424171620875533,
      "loss": 3.6785,
      "step": 162220
    },
    {
      "epoch": 0.33797916666666666,
      "grad_norm": 0.7214135527610779,
      "learning_rate": 0.00022423314970966503,
      "loss": 3.9472,
      "step": 162230
    },
    {
      "epoch": 0.338,
      "grad_norm": 0.7691051959991455,
      "learning_rate": 0.00022422458288991683,
      "loss": 3.8026,
      "step": 162240
    },
    {
      "epoch": 0.3380208333333333,
      "grad_norm": 0.8255617022514343,
      "learning_rate": 0.00022421601574954786,
      "loss": 3.9514,
      "step": 162250
    },
    {
      "epoch": 0.3380416666666667,
      "grad_norm": 0.8241384625434875,
      "learning_rate": 0.0002242074482885951,
      "loss": 3.767,
      "step": 162260
    },
    {
      "epoch": 0.3380625,
      "grad_norm": 0.7710188031196594,
      "learning_rate": 0.00022419888050709548,
      "loss": 3.788,
      "step": 162270
    },
    {
      "epoch": 0.33808333333333335,
      "grad_norm": 0.7780107259750366,
      "learning_rate": 0.0002241903124050861,
      "loss": 3.8517,
      "step": 162280
    },
    {
      "epoch": 0.33810416666666665,
      "grad_norm": 0.7792707085609436,
      "learning_rate": 0.00022418174398260393,
      "loss": 3.6923,
      "step": 162290
    },
    {
      "epoch": 0.338125,
      "grad_norm": 0.8685335516929626,
      "learning_rate": 0.000224173175239686,
      "loss": 3.7999,
      "step": 162300
    },
    {
      "epoch": 0.3381458333333333,
      "grad_norm": 0.8685830235481262,
      "learning_rate": 0.0002241646061763693,
      "loss": 3.9133,
      "step": 162310
    },
    {
      "epoch": 0.33816666666666667,
      "grad_norm": 0.8649528622627258,
      "learning_rate": 0.00022415603679269084,
      "loss": 3.9061,
      "step": 162320
    },
    {
      "epoch": 0.3381875,
      "grad_norm": 0.7194604873657227,
      "learning_rate": 0.0002241474670886877,
      "loss": 3.8413,
      "step": 162330
    },
    {
      "epoch": 0.33820833333333333,
      "grad_norm": 0.7219035029411316,
      "learning_rate": 0.00022413889706439683,
      "loss": 3.7503,
      "step": 162340
    },
    {
      "epoch": 0.3382291666666667,
      "grad_norm": 0.9420003890991211,
      "learning_rate": 0.00022413032671985526,
      "loss": 3.6564,
      "step": 162350
    },
    {
      "epoch": 0.33825,
      "grad_norm": 0.7766323089599609,
      "learning_rate": 0.00022412175605510004,
      "loss": 3.8599,
      "step": 162360
    },
    {
      "epoch": 0.33827083333333335,
      "grad_norm": 0.870874285697937,
      "learning_rate": 0.00022411318507016816,
      "loss": 3.8228,
      "step": 162370
    },
    {
      "epoch": 0.33829166666666666,
      "grad_norm": 1.3064881563186646,
      "learning_rate": 0.00022410461376509664,
      "loss": 3.8267,
      "step": 162380
    },
    {
      "epoch": 0.3383125,
      "grad_norm": 0.8756051659584045,
      "learning_rate": 0.00022409604213992256,
      "loss": 3.8799,
      "step": 162390
    },
    {
      "epoch": 0.3383333333333333,
      "grad_norm": 0.7875654101371765,
      "learning_rate": 0.0002240874701946829,
      "loss": 3.832,
      "step": 162400
    },
    {
      "epoch": 0.3383541666666667,
      "grad_norm": 0.8143753409385681,
      "learning_rate": 0.00022407889792941467,
      "loss": 3.939,
      "step": 162410
    },
    {
      "epoch": 0.338375,
      "grad_norm": 0.7506561875343323,
      "learning_rate": 0.00022407032534415492,
      "loss": 3.8429,
      "step": 162420
    },
    {
      "epoch": 0.33839583333333334,
      "grad_norm": 0.7098858952522278,
      "learning_rate": 0.0002240617524389407,
      "loss": 3.8632,
      "step": 162430
    },
    {
      "epoch": 0.33841666666666664,
      "grad_norm": 0.7954837679862976,
      "learning_rate": 0.00022405317921380904,
      "loss": 3.7824,
      "step": 162440
    },
    {
      "epoch": 0.3384375,
      "grad_norm": 0.6975426077842712,
      "learning_rate": 0.00022404460566879692,
      "loss": 3.8679,
      "step": 162450
    },
    {
      "epoch": 0.33845833333333336,
      "grad_norm": 0.8386011123657227,
      "learning_rate": 0.00022403603180394145,
      "loss": 3.8805,
      "step": 162460
    },
    {
      "epoch": 0.33847916666666666,
      "grad_norm": 0.7488139271736145,
      "learning_rate": 0.00022402745761927962,
      "loss": 3.8381,
      "step": 162470
    },
    {
      "epoch": 0.3385,
      "grad_norm": 0.7422259449958801,
      "learning_rate": 0.00022401888311484846,
      "loss": 4.065,
      "step": 162480
    },
    {
      "epoch": 0.3385208333333333,
      "grad_norm": 0.819407045841217,
      "learning_rate": 0.00022401030829068505,
      "loss": 3.7742,
      "step": 162490
    },
    {
      "epoch": 0.3385416666666667,
      "grad_norm": 0.8531578779220581,
      "learning_rate": 0.0002240017331468264,
      "loss": 3.8133,
      "step": 162500
    },
    {
      "epoch": 0.3385625,
      "grad_norm": 0.9475398659706116,
      "learning_rate": 0.00022399315768330952,
      "loss": 3.7901,
      "step": 162510
    },
    {
      "epoch": 0.33858333333333335,
      "grad_norm": 0.9504541754722595,
      "learning_rate": 0.0002239845819001715,
      "loss": 3.9446,
      "step": 162520
    },
    {
      "epoch": 0.33860416666666665,
      "grad_norm": 0.9099427461624146,
      "learning_rate": 0.00022397600579744938,
      "loss": 3.8997,
      "step": 162530
    },
    {
      "epoch": 0.338625,
      "grad_norm": 0.6823888421058655,
      "learning_rate": 0.0002239674293751802,
      "loss": 3.8303,
      "step": 162540
    },
    {
      "epoch": 0.3386458333333333,
      "grad_norm": 0.912667989730835,
      "learning_rate": 0.00022395885263340096,
      "loss": 3.8711,
      "step": 162550
    },
    {
      "epoch": 0.33866666666666667,
      "grad_norm": 0.7500022053718567,
      "learning_rate": 0.00022395027557214884,
      "loss": 3.8398,
      "step": 162560
    },
    {
      "epoch": 0.3386875,
      "grad_norm": 0.7269892692565918,
      "learning_rate": 0.00022394169819146074,
      "loss": 3.9257,
      "step": 162570
    },
    {
      "epoch": 0.33870833333333333,
      "grad_norm": 0.7344419360160828,
      "learning_rate": 0.00022393312049137377,
      "loss": 3.7826,
      "step": 162580
    },
    {
      "epoch": 0.3387291666666667,
      "grad_norm": 0.6915241479873657,
      "learning_rate": 0.000223924542471925,
      "loss": 3.8062,
      "step": 162590
    },
    {
      "epoch": 0.33875,
      "grad_norm": 1.1495962142944336,
      "learning_rate": 0.00022391596413315148,
      "loss": 3.7065,
      "step": 162600
    },
    {
      "epoch": 0.33877083333333335,
      "grad_norm": 0.8038231134414673,
      "learning_rate": 0.00022390738547509024,
      "loss": 3.8681,
      "step": 162610
    },
    {
      "epoch": 0.33879166666666666,
      "grad_norm": 1.0068203210830688,
      "learning_rate": 0.00022389880649777835,
      "loss": 3.8779,
      "step": 162620
    },
    {
      "epoch": 0.3388125,
      "grad_norm": 0.7612840533256531,
      "learning_rate": 0.00022389022720125285,
      "loss": 3.9262,
      "step": 162630
    },
    {
      "epoch": 0.3388333333333333,
      "grad_norm": 0.9038035273551941,
      "learning_rate": 0.00022388164758555082,
      "loss": 3.9953,
      "step": 162640
    },
    {
      "epoch": 0.3388541666666667,
      "grad_norm": 0.8066266775131226,
      "learning_rate": 0.00022387306765070936,
      "loss": 3.6948,
      "step": 162650
    },
    {
      "epoch": 0.338875,
      "grad_norm": 0.9278737306594849,
      "learning_rate": 0.00022386448739676544,
      "loss": 3.7491,
      "step": 162660
    },
    {
      "epoch": 0.33889583333333334,
      "grad_norm": 0.7791170477867126,
      "learning_rate": 0.0002238559068237562,
      "loss": 3.9663,
      "step": 162670
    },
    {
      "epoch": 0.33891666666666664,
      "grad_norm": 0.7392423152923584,
      "learning_rate": 0.00022384732593171863,
      "loss": 3.8132,
      "step": 162680
    },
    {
      "epoch": 0.3389375,
      "grad_norm": 0.6486769318580627,
      "learning_rate": 0.00022383874472068992,
      "loss": 3.9727,
      "step": 162690
    },
    {
      "epoch": 0.3389583333333333,
      "grad_norm": 0.780480682849884,
      "learning_rate": 0.00022383016319070702,
      "loss": 3.9722,
      "step": 162700
    },
    {
      "epoch": 0.33897916666666666,
      "grad_norm": 0.8251445889472961,
      "learning_rate": 0.00022382158134180702,
      "loss": 3.8188,
      "step": 162710
    },
    {
      "epoch": 0.339,
      "grad_norm": 0.7677403092384338,
      "learning_rate": 0.000223812999174027,
      "loss": 3.7653,
      "step": 162720
    },
    {
      "epoch": 0.3390208333333333,
      "grad_norm": 0.8937010169029236,
      "learning_rate": 0.00022380441668740412,
      "loss": 3.7617,
      "step": 162730
    },
    {
      "epoch": 0.3390416666666667,
      "grad_norm": 0.8139725923538208,
      "learning_rate": 0.00022379583388197532,
      "loss": 3.8422,
      "step": 162740
    },
    {
      "epoch": 0.3390625,
      "grad_norm": 0.7936862111091614,
      "learning_rate": 0.0002237872507577777,
      "loss": 3.8988,
      "step": 162750
    },
    {
      "epoch": 0.33908333333333335,
      "grad_norm": 0.7006637454032898,
      "learning_rate": 0.00022377866731484842,
      "loss": 3.9414,
      "step": 162760
    },
    {
      "epoch": 0.33910416666666665,
      "grad_norm": 0.7107028961181641,
      "learning_rate": 0.00022377008355322446,
      "loss": 3.6232,
      "step": 162770
    },
    {
      "epoch": 0.339125,
      "grad_norm": 0.6773383617401123,
      "learning_rate": 0.00022376149947294296,
      "loss": 3.774,
      "step": 162780
    },
    {
      "epoch": 0.3391458333333333,
      "grad_norm": 0.7945216298103333,
      "learning_rate": 0.00022375291507404098,
      "loss": 3.8868,
      "step": 162790
    },
    {
      "epoch": 0.33916666666666667,
      "grad_norm": 0.6893982887268066,
      "learning_rate": 0.0002237443303565556,
      "loss": 3.797,
      "step": 162800
    },
    {
      "epoch": 0.3391875,
      "grad_norm": 0.7048799395561218,
      "learning_rate": 0.00022373574532052388,
      "loss": 3.9622,
      "step": 162810
    },
    {
      "epoch": 0.33920833333333333,
      "grad_norm": 0.8741893172264099,
      "learning_rate": 0.00022372715996598293,
      "loss": 3.7468,
      "step": 162820
    },
    {
      "epoch": 0.3392291666666667,
      "grad_norm": 0.9429046511650085,
      "learning_rate": 0.00022371857429296984,
      "loss": 3.9635,
      "step": 162830
    },
    {
      "epoch": 0.33925,
      "grad_norm": 0.8937790989875793,
      "learning_rate": 0.00022370998830152172,
      "loss": 4.0187,
      "step": 162840
    },
    {
      "epoch": 0.33927083333333335,
      "grad_norm": 0.7346121072769165,
      "learning_rate": 0.00022370140199167558,
      "loss": 3.8207,
      "step": 162850
    },
    {
      "epoch": 0.33929166666666666,
      "grad_norm": 0.8482304215431213,
      "learning_rate": 0.00022369281536346858,
      "loss": 3.6244,
      "step": 162860
    },
    {
      "epoch": 0.3393125,
      "grad_norm": 0.8551393747329712,
      "learning_rate": 0.00022368422841693782,
      "loss": 3.7164,
      "step": 162870
    },
    {
      "epoch": 0.3393333333333333,
      "grad_norm": 0.8687646389007568,
      "learning_rate": 0.00022367564115212028,
      "loss": 3.7968,
      "step": 162880
    },
    {
      "epoch": 0.3393541666666667,
      "grad_norm": 0.842552661895752,
      "learning_rate": 0.00022366705356905318,
      "loss": 3.7525,
      "step": 162890
    },
    {
      "epoch": 0.339375,
      "grad_norm": 1.0575963258743286,
      "learning_rate": 0.00022365846566777358,
      "loss": 3.8784,
      "step": 162900
    },
    {
      "epoch": 0.33939583333333334,
      "grad_norm": 0.8636388182640076,
      "learning_rate": 0.00022364987744831857,
      "loss": 4.0096,
      "step": 162910
    },
    {
      "epoch": 0.33941666666666664,
      "grad_norm": 0.7298503518104553,
      "learning_rate": 0.0002236412889107252,
      "loss": 3.9361,
      "step": 162920
    },
    {
      "epoch": 0.3394375,
      "grad_norm": 0.8263283371925354,
      "learning_rate": 0.00022363270005503063,
      "loss": 3.7771,
      "step": 162930
    },
    {
      "epoch": 0.3394583333333333,
      "grad_norm": 0.7716777324676514,
      "learning_rate": 0.00022362411088127195,
      "loss": 3.8522,
      "step": 162940
    },
    {
      "epoch": 0.33947916666666667,
      "grad_norm": 0.7627153992652893,
      "learning_rate": 0.00022361552138948625,
      "loss": 3.8196,
      "step": 162950
    },
    {
      "epoch": 0.3395,
      "grad_norm": 0.6954110264778137,
      "learning_rate": 0.00022360693157971062,
      "loss": 3.9937,
      "step": 162960
    },
    {
      "epoch": 0.3395208333333333,
      "grad_norm": 0.6885900497436523,
      "learning_rate": 0.0002235983414519822,
      "loss": 3.9652,
      "step": 162970
    },
    {
      "epoch": 0.3395416666666667,
      "grad_norm": 0.811052680015564,
      "learning_rate": 0.00022358975100633807,
      "loss": 3.7854,
      "step": 162980
    },
    {
      "epoch": 0.3395625,
      "grad_norm": 0.7713325619697571,
      "learning_rate": 0.00022358116024281537,
      "loss": 3.8622,
      "step": 162990
    },
    {
      "epoch": 0.33958333333333335,
      "grad_norm": 0.842277467250824,
      "learning_rate": 0.00022357256916145113,
      "loss": 3.9021,
      "step": 163000
    },
    {
      "epoch": 0.33958333333333335,
      "eval_loss": 4.1991777420043945,
      "eval_runtime": 9.5253,
      "eval_samples_per_second": 1.05,
      "eval_steps_per_second": 0.315,
      "step": 163000
    },
    {
      "epoch": 0.33960416666666665,
      "grad_norm": 0.8433650732040405,
      "learning_rate": 0.00022356397776228257,
      "loss": 3.8739,
      "step": 163010
    },
    {
      "epoch": 0.339625,
      "grad_norm": 0.8233677744865417,
      "learning_rate": 0.0002235553860453467,
      "loss": 4.0101,
      "step": 163020
    },
    {
      "epoch": 0.3396458333333333,
      "grad_norm": 0.7544223666191101,
      "learning_rate": 0.0002235467940106807,
      "loss": 3.7366,
      "step": 163030
    },
    {
      "epoch": 0.3396666666666667,
      "grad_norm": 0.7809593677520752,
      "learning_rate": 0.00022353820165832167,
      "loss": 3.9408,
      "step": 163040
    },
    {
      "epoch": 0.3396875,
      "grad_norm": 1.0621302127838135,
      "learning_rate": 0.00022352960898830668,
      "loss": 3.8008,
      "step": 163050
    },
    {
      "epoch": 0.33970833333333333,
      "grad_norm": 0.7139571309089661,
      "learning_rate": 0.0002235210160006729,
      "loss": 3.584,
      "step": 163060
    },
    {
      "epoch": 0.3397291666666667,
      "grad_norm": 0.8365954160690308,
      "learning_rate": 0.00022351242269545745,
      "loss": 3.9713,
      "step": 163070
    },
    {
      "epoch": 0.33975,
      "grad_norm": 0.7173281908035278,
      "learning_rate": 0.00022350382907269744,
      "loss": 3.7581,
      "step": 163080
    },
    {
      "epoch": 0.33977083333333336,
      "grad_norm": 0.9344863891601562,
      "learning_rate": 0.00022349523513242998,
      "loss": 3.9045,
      "step": 163090
    },
    {
      "epoch": 0.33979166666666666,
      "grad_norm": 0.7843417525291443,
      "learning_rate": 0.00022348664087469216,
      "loss": 3.8817,
      "step": 163100
    },
    {
      "epoch": 0.3398125,
      "grad_norm": 0.814055860042572,
      "learning_rate": 0.00022347804629952117,
      "loss": 3.9065,
      "step": 163110
    },
    {
      "epoch": 0.3398333333333333,
      "grad_norm": 0.8950504660606384,
      "learning_rate": 0.0002234694514069541,
      "loss": 3.7647,
      "step": 163120
    },
    {
      "epoch": 0.3398541666666667,
      "grad_norm": 0.7298876047134399,
      "learning_rate": 0.0002234608561970281,
      "loss": 3.7795,
      "step": 163130
    },
    {
      "epoch": 0.339875,
      "grad_norm": 0.7702310681343079,
      "learning_rate": 0.00022345226066978024,
      "loss": 3.7947,
      "step": 163140
    },
    {
      "epoch": 0.33989583333333334,
      "grad_norm": 0.7652264833450317,
      "learning_rate": 0.0002234436648252477,
      "loss": 3.8722,
      "step": 163150
    },
    {
      "epoch": 0.33991666666666664,
      "grad_norm": 0.9799349308013916,
      "learning_rate": 0.0002234350686634676,
      "loss": 3.8109,
      "step": 163160
    },
    {
      "epoch": 0.3399375,
      "grad_norm": 0.6899195313453674,
      "learning_rate": 0.00022342647218447708,
      "loss": 3.8445,
      "step": 163170
    },
    {
      "epoch": 0.3399583333333333,
      "grad_norm": 0.8598687648773193,
      "learning_rate": 0.00022341787538831325,
      "loss": 3.9113,
      "step": 163180
    },
    {
      "epoch": 0.33997916666666667,
      "grad_norm": 0.7691072821617126,
      "learning_rate": 0.0002234092782750133,
      "loss": 3.8006,
      "step": 163190
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7123309969902039,
      "learning_rate": 0.00022340068084461423,
      "loss": 3.8246,
      "step": 163200
    },
    {
      "epoch": 0.3400208333333333,
      "grad_norm": 0.7633480429649353,
      "learning_rate": 0.00022339208309715336,
      "loss": 3.6486,
      "step": 163210
    },
    {
      "epoch": 0.3400416666666667,
      "grad_norm": 0.833032488822937,
      "learning_rate": 0.00022338348503266774,
      "loss": 3.9169,
      "step": 163220
    },
    {
      "epoch": 0.3400625,
      "grad_norm": 0.7539108991622925,
      "learning_rate": 0.00022337488665119453,
      "loss": 3.7823,
      "step": 163230
    },
    {
      "epoch": 0.34008333333333335,
      "grad_norm": 0.8637943863868713,
      "learning_rate": 0.0002233662879527708,
      "loss": 3.6717,
      "step": 163240
    },
    {
      "epoch": 0.34010416666666665,
      "grad_norm": 0.746874988079071,
      "learning_rate": 0.00022335768893743372,
      "loss": 3.6959,
      "step": 163250
    },
    {
      "epoch": 0.340125,
      "grad_norm": 0.729773998260498,
      "learning_rate": 0.00022334908960522053,
      "loss": 3.7491,
      "step": 163260
    },
    {
      "epoch": 0.3401458333333333,
      "grad_norm": 0.7123587131500244,
      "learning_rate": 0.00022334048995616826,
      "loss": 4.0266,
      "step": 163270
    },
    {
      "epoch": 0.3401666666666667,
      "grad_norm": 0.8331839442253113,
      "learning_rate": 0.00022333188999031415,
      "loss": 3.7638,
      "step": 163280
    },
    {
      "epoch": 0.3401875,
      "grad_norm": 0.9594525098800659,
      "learning_rate": 0.00022332328970769524,
      "loss": 3.8084,
      "step": 163290
    },
    {
      "epoch": 0.34020833333333333,
      "grad_norm": 0.7556649446487427,
      "learning_rate": 0.00022331468910834876,
      "loss": 3.8248,
      "step": 163300
    },
    {
      "epoch": 0.3402291666666667,
      "grad_norm": 0.7333848476409912,
      "learning_rate": 0.00022330608819231187,
      "loss": 3.8125,
      "step": 163310
    },
    {
      "epoch": 0.34025,
      "grad_norm": 0.712689995765686,
      "learning_rate": 0.0002232974869596217,
      "loss": 3.8971,
      "step": 163320
    },
    {
      "epoch": 0.34027083333333336,
      "grad_norm": 0.7391846179962158,
      "learning_rate": 0.00022328888541031536,
      "loss": 3.9676,
      "step": 163330
    },
    {
      "epoch": 0.34029166666666666,
      "grad_norm": 0.938650369644165,
      "learning_rate": 0.00022328028354443006,
      "loss": 3.8126,
      "step": 163340
    },
    {
      "epoch": 0.3403125,
      "grad_norm": 0.8915513157844543,
      "learning_rate": 0.00022327168136200296,
      "loss": 3.7934,
      "step": 163350
    },
    {
      "epoch": 0.3403333333333333,
      "grad_norm": 0.7607614398002625,
      "learning_rate": 0.0002232630788630712,
      "loss": 4.1108,
      "step": 163360
    },
    {
      "epoch": 0.3403541666666667,
      "grad_norm": 0.75161212682724,
      "learning_rate": 0.00022325447604767195,
      "loss": 3.8309,
      "step": 163370
    },
    {
      "epoch": 0.340375,
      "grad_norm": 0.9297547340393066,
      "learning_rate": 0.00022324587291584232,
      "loss": 3.714,
      "step": 163380
    },
    {
      "epoch": 0.34039583333333334,
      "grad_norm": 0.7601382732391357,
      "learning_rate": 0.00022323726946761951,
      "loss": 4.1007,
      "step": 163390
    },
    {
      "epoch": 0.34041666666666665,
      "grad_norm": 0.7888949513435364,
      "learning_rate": 0.00022322866570304072,
      "loss": 3.7976,
      "step": 163400
    },
    {
      "epoch": 0.3404375,
      "grad_norm": 0.7978485226631165,
      "learning_rate": 0.0002232200616221431,
      "loss": 4.0261,
      "step": 163410
    },
    {
      "epoch": 0.3404583333333333,
      "grad_norm": 0.8528658747673035,
      "learning_rate": 0.00022321145722496372,
      "loss": 3.7181,
      "step": 163420
    },
    {
      "epoch": 0.34047916666666667,
      "grad_norm": 0.9142945408821106,
      "learning_rate": 0.00022320285251153989,
      "loss": 3.7234,
      "step": 163430
    },
    {
      "epoch": 0.3405,
      "grad_norm": 0.7955501079559326,
      "learning_rate": 0.00022319424748190868,
      "loss": 3.8239,
      "step": 163440
    },
    {
      "epoch": 0.34052083333333333,
      "grad_norm": 0.8578050136566162,
      "learning_rate": 0.00022318564213610727,
      "loss": 3.9861,
      "step": 163450
    },
    {
      "epoch": 0.3405416666666667,
      "grad_norm": 0.7331723570823669,
      "learning_rate": 0.0002231770364741729,
      "loss": 3.8233,
      "step": 163460
    },
    {
      "epoch": 0.3405625,
      "grad_norm": 0.7814936637878418,
      "learning_rate": 0.0002231684304961427,
      "loss": 3.7711,
      "step": 163470
    },
    {
      "epoch": 0.34058333333333335,
      "grad_norm": 0.8505702614784241,
      "learning_rate": 0.0002231598242020538,
      "loss": 3.7969,
      "step": 163480
    },
    {
      "epoch": 0.34060416666666665,
      "grad_norm": 0.7189124226570129,
      "learning_rate": 0.00022315121759194345,
      "loss": 3.9683,
      "step": 163490
    },
    {
      "epoch": 0.340625,
      "grad_norm": 0.732265830039978,
      "learning_rate": 0.0002231426106658488,
      "loss": 3.7594,
      "step": 163500
    },
    {
      "epoch": 0.3406458333333333,
      "grad_norm": 0.7158395648002625,
      "learning_rate": 0.000223134003423807,
      "loss": 3.989,
      "step": 163510
    },
    {
      "epoch": 0.3406666666666667,
      "grad_norm": 0.7778441905975342,
      "learning_rate": 0.00022312539586585525,
      "loss": 3.7031,
      "step": 163520
    },
    {
      "epoch": 0.3406875,
      "grad_norm": 0.7722747921943665,
      "learning_rate": 0.0002231167879920308,
      "loss": 3.8161,
      "step": 163530
    },
    {
      "epoch": 0.34070833333333334,
      "grad_norm": 0.6873409152030945,
      "learning_rate": 0.0002231081798023707,
      "loss": 3.7815,
      "step": 163540
    },
    {
      "epoch": 0.3407291666666667,
      "grad_norm": 0.8272677659988403,
      "learning_rate": 0.0002230995712969122,
      "loss": 3.7695,
      "step": 163550
    },
    {
      "epoch": 0.34075,
      "grad_norm": 0.7371286153793335,
      "learning_rate": 0.0002230909624756925,
      "loss": 3.9374,
      "step": 163560
    },
    {
      "epoch": 0.34077083333333336,
      "grad_norm": 0.7519714832305908,
      "learning_rate": 0.0002230823533387488,
      "loss": 3.9157,
      "step": 163570
    },
    {
      "epoch": 0.34079166666666666,
      "grad_norm": 0.8852696418762207,
      "learning_rate": 0.00022307374388611824,
      "loss": 3.7985,
      "step": 163580
    },
    {
      "epoch": 0.3408125,
      "grad_norm": 0.708808422088623,
      "learning_rate": 0.00022306513411783803,
      "loss": 3.8128,
      "step": 163590
    },
    {
      "epoch": 0.3408333333333333,
      "grad_norm": 0.7808141112327576,
      "learning_rate": 0.00022305652403394537,
      "loss": 3.7982,
      "step": 163600
    },
    {
      "epoch": 0.3408541666666667,
      "grad_norm": 0.8481780290603638,
      "learning_rate": 0.00022304791363447746,
      "loss": 3.8922,
      "step": 163610
    },
    {
      "epoch": 0.340875,
      "grad_norm": 0.6525086760520935,
      "learning_rate": 0.00022303930291947142,
      "loss": 3.9035,
      "step": 163620
    },
    {
      "epoch": 0.34089583333333334,
      "grad_norm": 0.7144172787666321,
      "learning_rate": 0.00022303069188896456,
      "loss": 3.913,
      "step": 163630
    },
    {
      "epoch": 0.34091666666666665,
      "grad_norm": 0.6976037621498108,
      "learning_rate": 0.000223022080542994,
      "loss": 3.8459,
      "step": 163640
    },
    {
      "epoch": 0.3409375,
      "grad_norm": 0.7542639970779419,
      "learning_rate": 0.0002230134688815969,
      "loss": 3.8444,
      "step": 163650
    },
    {
      "epoch": 0.3409583333333333,
      "grad_norm": 0.6954501271247864,
      "learning_rate": 0.0002230048569048106,
      "loss": 3.7235,
      "step": 163660
    },
    {
      "epoch": 0.34097916666666667,
      "grad_norm": 0.7160983681678772,
      "learning_rate": 0.0002229962446126722,
      "loss": 3.7482,
      "step": 163670
    },
    {
      "epoch": 0.341,
      "grad_norm": 0.7268792986869812,
      "learning_rate": 0.0002229876320052189,
      "loss": 3.7021,
      "step": 163680
    },
    {
      "epoch": 0.34102083333333333,
      "grad_norm": 0.7276800274848938,
      "learning_rate": 0.00022297901908248792,
      "loss": 3.859,
      "step": 163690
    },
    {
      "epoch": 0.3410416666666667,
      "grad_norm": 0.7673428058624268,
      "learning_rate": 0.00022297040584451646,
      "loss": 3.7324,
      "step": 163700
    },
    {
      "epoch": 0.3410625,
      "grad_norm": 0.8395126461982727,
      "learning_rate": 0.00022296179229134178,
      "loss": 3.8845,
      "step": 163710
    },
    {
      "epoch": 0.34108333333333335,
      "grad_norm": 0.8968262076377869,
      "learning_rate": 0.00022295317842300092,
      "loss": 3.9109,
      "step": 163720
    },
    {
      "epoch": 0.34110416666666665,
      "grad_norm": 0.8065314888954163,
      "learning_rate": 0.00022294456423953133,
      "loss": 3.81,
      "step": 163730
    },
    {
      "epoch": 0.341125,
      "grad_norm": 0.9860554933547974,
      "learning_rate": 0.00022293594974097004,
      "loss": 4.055,
      "step": 163740
    },
    {
      "epoch": 0.3411458333333333,
      "grad_norm": 0.8739829063415527,
      "learning_rate": 0.0002229273349273543,
      "loss": 3.8954,
      "step": 163750
    },
    {
      "epoch": 0.3411666666666667,
      "grad_norm": 1.084775447845459,
      "learning_rate": 0.00022291871979872137,
      "loss": 3.8753,
      "step": 163760
    },
    {
      "epoch": 0.3411875,
      "grad_norm": 0.7802477478981018,
      "learning_rate": 0.00022291010435510848,
      "loss": 3.958,
      "step": 163770
    },
    {
      "epoch": 0.34120833333333334,
      "grad_norm": 0.7784304022789001,
      "learning_rate": 0.00022290148859655272,
      "loss": 3.8391,
      "step": 163780
    },
    {
      "epoch": 0.34122916666666664,
      "grad_norm": 0.6460551619529724,
      "learning_rate": 0.00022289287252309138,
      "loss": 3.9195,
      "step": 163790
    },
    {
      "epoch": 0.34125,
      "grad_norm": 0.6839333176612854,
      "learning_rate": 0.00022288425613476175,
      "loss": 3.7467,
      "step": 163800
    },
    {
      "epoch": 0.34127083333333336,
      "grad_norm": 0.764503538608551,
      "learning_rate": 0.00022287563943160094,
      "loss": 3.7889,
      "step": 163810
    },
    {
      "epoch": 0.34129166666666666,
      "grad_norm": 0.8902916312217712,
      "learning_rate": 0.0002228670224136462,
      "loss": 4.0044,
      "step": 163820
    },
    {
      "epoch": 0.3413125,
      "grad_norm": 0.6845511794090271,
      "learning_rate": 0.0002228584050809348,
      "loss": 3.8112,
      "step": 163830
    },
    {
      "epoch": 0.3413333333333333,
      "grad_norm": 0.7585062384605408,
      "learning_rate": 0.0002228497874335039,
      "loss": 3.9019,
      "step": 163840
    },
    {
      "epoch": 0.3413541666666667,
      "grad_norm": 0.7508662343025208,
      "learning_rate": 0.00022284116947139082,
      "loss": 3.9334,
      "step": 163850
    },
    {
      "epoch": 0.341375,
      "grad_norm": 0.9822016954421997,
      "learning_rate": 0.00022283255119463264,
      "loss": 3.857,
      "step": 163860
    },
    {
      "epoch": 0.34139583333333334,
      "grad_norm": 0.740418016910553,
      "learning_rate": 0.00022282393260326672,
      "loss": 3.8041,
      "step": 163870
    },
    {
      "epoch": 0.34141666666666665,
      "grad_norm": 0.7233178615570068,
      "learning_rate": 0.0002228153136973302,
      "loss": 3.9753,
      "step": 163880
    },
    {
      "epoch": 0.3414375,
      "grad_norm": 0.7668260931968689,
      "learning_rate": 0.00022280669447686036,
      "loss": 3.8299,
      "step": 163890
    },
    {
      "epoch": 0.3414583333333333,
      "grad_norm": 0.7160347104072571,
      "learning_rate": 0.00022279807494189442,
      "loss": 3.7436,
      "step": 163900
    },
    {
      "epoch": 0.34147916666666667,
      "grad_norm": 1.1044518947601318,
      "learning_rate": 0.00022278945509246966,
      "loss": 3.8341,
      "step": 163910
    },
    {
      "epoch": 0.3415,
      "grad_norm": 0.8287116289138794,
      "learning_rate": 0.00022278083492862315,
      "loss": 3.8846,
      "step": 163920
    },
    {
      "epoch": 0.34152083333333333,
      "grad_norm": 0.7397081851959229,
      "learning_rate": 0.00022277221445039235,
      "loss": 3.9511,
      "step": 163930
    },
    {
      "epoch": 0.3415416666666667,
      "grad_norm": 0.7436086535453796,
      "learning_rate": 0.00022276359365781435,
      "loss": 3.8131,
      "step": 163940
    },
    {
      "epoch": 0.3415625,
      "grad_norm": 0.8313001990318298,
      "learning_rate": 0.0002227549725509264,
      "loss": 3.9204,
      "step": 163950
    },
    {
      "epoch": 0.34158333333333335,
      "grad_norm": 0.8296082615852356,
      "learning_rate": 0.00022274635112976585,
      "loss": 3.8208,
      "step": 163960
    },
    {
      "epoch": 0.34160416666666665,
      "grad_norm": 0.7451995015144348,
      "learning_rate": 0.00022273772939436978,
      "loss": 3.7768,
      "step": 163970
    },
    {
      "epoch": 0.341625,
      "grad_norm": 0.8164092302322388,
      "learning_rate": 0.00022272910734477555,
      "loss": 3.8796,
      "step": 163980
    },
    {
      "epoch": 0.3416458333333333,
      "grad_norm": 0.7611106038093567,
      "learning_rate": 0.00022272048498102033,
      "loss": 3.8858,
      "step": 163990
    },
    {
      "epoch": 0.3416666666666667,
      "grad_norm": 0.9333624243736267,
      "learning_rate": 0.00022271186230314144,
      "loss": 3.8111,
      "step": 164000
    },
    {
      "epoch": 0.3416666666666667,
      "eval_loss": 4.192226409912109,
      "eval_runtime": 8.8384,
      "eval_samples_per_second": 1.131,
      "eval_steps_per_second": 0.339,
      "step": 164000
    },
    {
      "epoch": 0.3416875,
      "grad_norm": 0.8831765651702881,
      "learning_rate": 0.00022270323931117606,
      "loss": 3.7022,
      "step": 164010
    },
    {
      "epoch": 0.34170833333333334,
      "grad_norm": 0.7656907439231873,
      "learning_rate": 0.00022269461600516146,
      "loss": 3.6989,
      "step": 164020
    },
    {
      "epoch": 0.34172916666666664,
      "grad_norm": 0.793042778968811,
      "learning_rate": 0.0002226859923851349,
      "loss": 3.8913,
      "step": 164030
    },
    {
      "epoch": 0.34175,
      "grad_norm": 0.7844091057777405,
      "learning_rate": 0.00022267736845113363,
      "loss": 3.7314,
      "step": 164040
    },
    {
      "epoch": 0.34177083333333336,
      "grad_norm": 0.6722793579101562,
      "learning_rate": 0.0002226687442031949,
      "loss": 4.0455,
      "step": 164050
    },
    {
      "epoch": 0.34179166666666666,
      "grad_norm": 0.6906174421310425,
      "learning_rate": 0.00022266011964135592,
      "loss": 3.7863,
      "step": 164060
    },
    {
      "epoch": 0.3418125,
      "grad_norm": 0.8937363028526306,
      "learning_rate": 0.00022265149476565402,
      "loss": 3.6509,
      "step": 164070
    },
    {
      "epoch": 0.3418333333333333,
      "grad_norm": 0.8254758715629578,
      "learning_rate": 0.00022264286957612644,
      "loss": 3.7082,
      "step": 164080
    },
    {
      "epoch": 0.3418541666666667,
      "grad_norm": 0.7210782170295715,
      "learning_rate": 0.00022263424407281037,
      "loss": 3.6924,
      "step": 164090
    },
    {
      "epoch": 0.341875,
      "grad_norm": 0.8202165961265564,
      "learning_rate": 0.00022262561825574315,
      "loss": 3.8682,
      "step": 164100
    },
    {
      "epoch": 0.34189583333333334,
      "grad_norm": 1.2153483629226685,
      "learning_rate": 0.000222616992124962,
      "loss": 3.7763,
      "step": 164110
    },
    {
      "epoch": 0.34191666666666665,
      "grad_norm": 0.92988121509552,
      "learning_rate": 0.00022260836568050417,
      "loss": 3.7895,
      "step": 164120
    },
    {
      "epoch": 0.3419375,
      "grad_norm": 0.663654625415802,
      "learning_rate": 0.00022259973892240696,
      "loss": 3.9123,
      "step": 164130
    },
    {
      "epoch": 0.3419583333333333,
      "grad_norm": 0.844950795173645,
      "learning_rate": 0.0002225911118507076,
      "loss": 3.6574,
      "step": 164140
    },
    {
      "epoch": 0.34197916666666667,
      "grad_norm": 0.9909403920173645,
      "learning_rate": 0.00022258248446544335,
      "loss": 3.9982,
      "step": 164150
    },
    {
      "epoch": 0.342,
      "grad_norm": 0.9754601716995239,
      "learning_rate": 0.00022257385676665155,
      "loss": 3.773,
      "step": 164160
    },
    {
      "epoch": 0.34202083333333333,
      "grad_norm": 0.7263383865356445,
      "learning_rate": 0.00022256522875436943,
      "loss": 3.7743,
      "step": 164170
    },
    {
      "epoch": 0.3420416666666667,
      "grad_norm": 0.8843432068824768,
      "learning_rate": 0.0002225566004286342,
      "loss": 3.7692,
      "step": 164180
    },
    {
      "epoch": 0.3420625,
      "grad_norm": 0.8733220100402832,
      "learning_rate": 0.0002225479717894832,
      "loss": 3.9424,
      "step": 164190
    },
    {
      "epoch": 0.34208333333333335,
      "grad_norm": 0.798865556716919,
      "learning_rate": 0.00022253934283695363,
      "loss": 3.937,
      "step": 164200
    },
    {
      "epoch": 0.34210416666666665,
      "grad_norm": 0.664272665977478,
      "learning_rate": 0.00022253071357108284,
      "loss": 3.7712,
      "step": 164210
    },
    {
      "epoch": 0.342125,
      "grad_norm": 0.7984028458595276,
      "learning_rate": 0.00022252208399190808,
      "loss": 3.895,
      "step": 164220
    },
    {
      "epoch": 0.3421458333333333,
      "grad_norm": 0.8917078971862793,
      "learning_rate": 0.00022251345409946664,
      "loss": 3.735,
      "step": 164230
    },
    {
      "epoch": 0.3421666666666667,
      "grad_norm": 0.6914323568344116,
      "learning_rate": 0.00022250482389379574,
      "loss": 3.8223,
      "step": 164240
    },
    {
      "epoch": 0.3421875,
      "grad_norm": 0.7531778216362,
      "learning_rate": 0.00022249619337493272,
      "loss": 3.7459,
      "step": 164250
    },
    {
      "epoch": 0.34220833333333334,
      "grad_norm": 0.7358714938163757,
      "learning_rate": 0.00022248756254291486,
      "loss": 3.926,
      "step": 164260
    },
    {
      "epoch": 0.34222916666666664,
      "grad_norm": 0.8230140805244446,
      "learning_rate": 0.00022247893139777943,
      "loss": 3.6601,
      "step": 164270
    },
    {
      "epoch": 0.34225,
      "grad_norm": 0.7639790773391724,
      "learning_rate": 0.00022247029993956367,
      "loss": 3.7954,
      "step": 164280
    },
    {
      "epoch": 0.34227083333333336,
      "grad_norm": 0.694452702999115,
      "learning_rate": 0.0002224616681683049,
      "loss": 3.9121,
      "step": 164290
    },
    {
      "epoch": 0.34229166666666666,
      "grad_norm": 1.023540735244751,
      "learning_rate": 0.00022245303608404044,
      "loss": 4.014,
      "step": 164300
    },
    {
      "epoch": 0.3423125,
      "grad_norm": 0.7523488998413086,
      "learning_rate": 0.00022244440368680753,
      "loss": 3.8751,
      "step": 164310
    },
    {
      "epoch": 0.3423333333333333,
      "grad_norm": 0.7497200965881348,
      "learning_rate": 0.00022243577097664342,
      "loss": 3.7701,
      "step": 164320
    },
    {
      "epoch": 0.3423541666666667,
      "grad_norm": 0.7343946695327759,
      "learning_rate": 0.00022242713795358554,
      "loss": 3.9604,
      "step": 164330
    },
    {
      "epoch": 0.342375,
      "grad_norm": 0.7825976014137268,
      "learning_rate": 0.00022241850461767102,
      "loss": 3.8889,
      "step": 164340
    },
    {
      "epoch": 0.34239583333333334,
      "grad_norm": 0.7372479438781738,
      "learning_rate": 0.00022240987096893726,
      "loss": 3.8393,
      "step": 164350
    },
    {
      "epoch": 0.34241666666666665,
      "grad_norm": 0.7773571610450745,
      "learning_rate": 0.00022240123700742153,
      "loss": 4.0293,
      "step": 164360
    },
    {
      "epoch": 0.3424375,
      "grad_norm": 0.8122628927230835,
      "learning_rate": 0.0002223926027331611,
      "loss": 3.8168,
      "step": 164370
    },
    {
      "epoch": 0.3424583333333333,
      "grad_norm": 0.8716102242469788,
      "learning_rate": 0.00022238396814619328,
      "loss": 3.8059,
      "step": 164380
    },
    {
      "epoch": 0.34247916666666667,
      "grad_norm": 0.8293585777282715,
      "learning_rate": 0.00022237533324655535,
      "loss": 3.9234,
      "step": 164390
    },
    {
      "epoch": 0.3425,
      "grad_norm": 0.8222783207893372,
      "learning_rate": 0.00022236669803428466,
      "loss": 3.7484,
      "step": 164400
    },
    {
      "epoch": 0.34252083333333333,
      "grad_norm": 0.7608413696289062,
      "learning_rate": 0.0002223580625094185,
      "loss": 3.9751,
      "step": 164410
    },
    {
      "epoch": 0.3425416666666667,
      "grad_norm": 0.9099403023719788,
      "learning_rate": 0.00022234942667199406,
      "loss": 3.8402,
      "step": 164420
    },
    {
      "epoch": 0.3425625,
      "grad_norm": 0.7380907535552979,
      "learning_rate": 0.0002223407905220488,
      "loss": 3.8988,
      "step": 164430
    },
    {
      "epoch": 0.34258333333333335,
      "grad_norm": 0.8130782246589661,
      "learning_rate": 0.00022233215405961999,
      "loss": 3.8017,
      "step": 164440
    },
    {
      "epoch": 0.34260416666666665,
      "grad_norm": 0.6834825873374939,
      "learning_rate": 0.0002223235172847448,
      "loss": 3.9074,
      "step": 164450
    },
    {
      "epoch": 0.342625,
      "grad_norm": 0.7760278582572937,
      "learning_rate": 0.00022231488019746072,
      "loss": 3.9759,
      "step": 164460
    },
    {
      "epoch": 0.3426458333333333,
      "grad_norm": 0.7948477864265442,
      "learning_rate": 0.00022230624279780502,
      "loss": 3.9463,
      "step": 164470
    },
    {
      "epoch": 0.3426666666666667,
      "grad_norm": 0.706906795501709,
      "learning_rate": 0.0002222976050858149,
      "loss": 3.789,
      "step": 164480
    },
    {
      "epoch": 0.3426875,
      "grad_norm": 0.7266000509262085,
      "learning_rate": 0.00022228896706152776,
      "loss": 3.868,
      "step": 164490
    },
    {
      "epoch": 0.34270833333333334,
      "grad_norm": 0.7041894793510437,
      "learning_rate": 0.0002222803287249809,
      "loss": 3.9546,
      "step": 164500
    },
    {
      "epoch": 0.34272916666666664,
      "grad_norm": 0.7719563841819763,
      "learning_rate": 0.00022227169007621165,
      "loss": 3.7479,
      "step": 164510
    },
    {
      "epoch": 0.34275,
      "grad_norm": 0.816047191619873,
      "learning_rate": 0.00022226305111525726,
      "loss": 3.7028,
      "step": 164520
    },
    {
      "epoch": 0.34277083333333336,
      "grad_norm": 0.9253613948822021,
      "learning_rate": 0.00022225441184215515,
      "loss": 3.9766,
      "step": 164530
    },
    {
      "epoch": 0.34279166666666666,
      "grad_norm": 0.7850344181060791,
      "learning_rate": 0.00022224577225694254,
      "loss": 3.831,
      "step": 164540
    },
    {
      "epoch": 0.3428125,
      "grad_norm": 0.7690592408180237,
      "learning_rate": 0.0002222371323596568,
      "loss": 3.9263,
      "step": 164550
    },
    {
      "epoch": 0.3428333333333333,
      "grad_norm": 0.7347757816314697,
      "learning_rate": 0.00022222849215033526,
      "loss": 3.9215,
      "step": 164560
    },
    {
      "epoch": 0.3428541666666667,
      "grad_norm": 0.7421293258666992,
      "learning_rate": 0.0002222198516290152,
      "loss": 3.8031,
      "step": 164570
    },
    {
      "epoch": 0.342875,
      "grad_norm": 0.8509925603866577,
      "learning_rate": 0.00022221121079573397,
      "loss": 3.7712,
      "step": 164580
    },
    {
      "epoch": 0.34289583333333334,
      "grad_norm": 0.7955954074859619,
      "learning_rate": 0.0002222025696505289,
      "loss": 3.8611,
      "step": 164590
    },
    {
      "epoch": 0.34291666666666665,
      "grad_norm": 0.7426846623420715,
      "learning_rate": 0.00022219392819343732,
      "loss": 3.7441,
      "step": 164600
    },
    {
      "epoch": 0.3429375,
      "grad_norm": 0.8998768329620361,
      "learning_rate": 0.00022218528642449655,
      "loss": 3.7406,
      "step": 164610
    },
    {
      "epoch": 0.3429583333333333,
      "grad_norm": 0.710401177406311,
      "learning_rate": 0.00022217664434374387,
      "loss": 3.8067,
      "step": 164620
    },
    {
      "epoch": 0.34297916666666667,
      "grad_norm": 0.9351651072502136,
      "learning_rate": 0.00022216800195121666,
      "loss": 3.858,
      "step": 164630
    },
    {
      "epoch": 0.343,
      "grad_norm": 0.8494872450828552,
      "learning_rate": 0.00022215935924695235,
      "loss": 3.7722,
      "step": 164640
    },
    {
      "epoch": 0.34302083333333333,
      "grad_norm": 0.8465052247047424,
      "learning_rate": 0.00022215071623098804,
      "loss": 3.7437,
      "step": 164650
    },
    {
      "epoch": 0.3430416666666667,
      "grad_norm": 0.828133761882782,
      "learning_rate": 0.00022214207290336126,
      "loss": 3.7365,
      "step": 164660
    },
    {
      "epoch": 0.3430625,
      "grad_norm": 0.6973149180412292,
      "learning_rate": 0.00022213342926410932,
      "loss": 3.7695,
      "step": 164670
    },
    {
      "epoch": 0.34308333333333335,
      "grad_norm": 0.7548844814300537,
      "learning_rate": 0.00022212478531326944,
      "loss": 4.0765,
      "step": 164680
    },
    {
      "epoch": 0.34310416666666665,
      "grad_norm": 1.011030912399292,
      "learning_rate": 0.00022211614105087905,
      "loss": 3.7251,
      "step": 164690
    },
    {
      "epoch": 0.343125,
      "grad_norm": 0.6939905881881714,
      "learning_rate": 0.0002221074964769755,
      "loss": 3.9649,
      "step": 164700
    },
    {
      "epoch": 0.3431458333333333,
      "grad_norm": 0.9432247281074524,
      "learning_rate": 0.0002220988515915961,
      "loss": 3.7679,
      "step": 164710
    },
    {
      "epoch": 0.3431666666666667,
      "grad_norm": 0.7280766367912292,
      "learning_rate": 0.0002220902063947782,
      "loss": 3.9588,
      "step": 164720
    },
    {
      "epoch": 0.3431875,
      "grad_norm": 0.8110656142234802,
      "learning_rate": 0.00022208156088655915,
      "loss": 3.9079,
      "step": 164730
    },
    {
      "epoch": 0.34320833333333334,
      "grad_norm": 0.711266279220581,
      "learning_rate": 0.00022207291506697624,
      "loss": 3.8297,
      "step": 164740
    },
    {
      "epoch": 0.34322916666666664,
      "grad_norm": 0.8877176642417908,
      "learning_rate": 0.00022206426893606695,
      "loss": 3.6871,
      "step": 164750
    },
    {
      "epoch": 0.34325,
      "grad_norm": 0.8274645209312439,
      "learning_rate": 0.00022205562249386846,
      "loss": 3.8558,
      "step": 164760
    },
    {
      "epoch": 0.34327083333333336,
      "grad_norm": 0.9312340617179871,
      "learning_rate": 0.00022204697574041828,
      "loss": 3.7767,
      "step": 164770
    },
    {
      "epoch": 0.34329166666666666,
      "grad_norm": 0.7715047597885132,
      "learning_rate": 0.00022203832867575364,
      "loss": 3.7294,
      "step": 164780
    },
    {
      "epoch": 0.3433125,
      "grad_norm": 0.7979779839515686,
      "learning_rate": 0.0002220296812999119,
      "loss": 3.8948,
      "step": 164790
    },
    {
      "epoch": 0.3433333333333333,
      "grad_norm": 0.9089301228523254,
      "learning_rate": 0.00022202103361293048,
      "loss": 3.7865,
      "step": 164800
    },
    {
      "epoch": 0.3433541666666667,
      "grad_norm": 0.7747466564178467,
      "learning_rate": 0.00022201238561484678,
      "loss": 3.9985,
      "step": 164810
    },
    {
      "epoch": 0.343375,
      "grad_norm": 0.813499927520752,
      "learning_rate": 0.00022200373730569796,
      "loss": 3.8054,
      "step": 164820
    },
    {
      "epoch": 0.34339583333333334,
      "grad_norm": 0.7603821754455566,
      "learning_rate": 0.00022199508868552155,
      "loss": 3.8447,
      "step": 164830
    },
    {
      "epoch": 0.34341666666666665,
      "grad_norm": 0.7255370020866394,
      "learning_rate": 0.0002219864397543549,
      "loss": 3.8748,
      "step": 164840
    },
    {
      "epoch": 0.3434375,
      "grad_norm": 0.9383596777915955,
      "learning_rate": 0.00022197779051223523,
      "loss": 3.8293,
      "step": 164850
    },
    {
      "epoch": 0.3434583333333333,
      "grad_norm": 0.8809475898742676,
      "learning_rate": 0.00022196914095920004,
      "loss": 3.8047,
      "step": 164860
    },
    {
      "epoch": 0.34347916666666667,
      "grad_norm": 0.7457348108291626,
      "learning_rate": 0.00022196049109528667,
      "loss": 3.8312,
      "step": 164870
    },
    {
      "epoch": 0.3435,
      "grad_norm": 0.6832262873649597,
      "learning_rate": 0.00022195184092053244,
      "loss": 3.7329,
      "step": 164880
    },
    {
      "epoch": 0.34352083333333333,
      "grad_norm": 0.7262895703315735,
      "learning_rate": 0.00022194319043497473,
      "loss": 3.7165,
      "step": 164890
    },
    {
      "epoch": 0.3435416666666667,
      "grad_norm": 0.8302035331726074,
      "learning_rate": 0.0002219345396386509,
      "loss": 3.7299,
      "step": 164900
    },
    {
      "epoch": 0.3435625,
      "grad_norm": 0.9031760096549988,
      "learning_rate": 0.00022192588853159838,
      "loss": 3.7094,
      "step": 164910
    },
    {
      "epoch": 0.34358333333333335,
      "grad_norm": 0.9187342524528503,
      "learning_rate": 0.00022191723711385445,
      "loss": 3.6726,
      "step": 164920
    },
    {
      "epoch": 0.34360416666666665,
      "grad_norm": 0.9029616713523865,
      "learning_rate": 0.00022190858538545654,
      "loss": 3.8029,
      "step": 164930
    },
    {
      "epoch": 0.343625,
      "grad_norm": 0.7977560758590698,
      "learning_rate": 0.00022189993334644203,
      "loss": 3.9254,
      "step": 164940
    },
    {
      "epoch": 0.3436458333333333,
      "grad_norm": 0.7520942091941833,
      "learning_rate": 0.0002218912809968482,
      "loss": 3.967,
      "step": 164950
    },
    {
      "epoch": 0.3436666666666667,
      "grad_norm": 0.8534707427024841,
      "learning_rate": 0.00022188262833671254,
      "loss": 3.9077,
      "step": 164960
    },
    {
      "epoch": 0.3436875,
      "grad_norm": 0.8438290953636169,
      "learning_rate": 0.0002218739753660724,
      "loss": 3.7395,
      "step": 164970
    },
    {
      "epoch": 0.34370833333333334,
      "grad_norm": 0.7132444381713867,
      "learning_rate": 0.00022186532208496513,
      "loss": 3.7085,
      "step": 164980
    },
    {
      "epoch": 0.34372916666666664,
      "grad_norm": 0.6582043170928955,
      "learning_rate": 0.00022185666849342805,
      "loss": 3.7632,
      "step": 164990
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.8224360346794128,
      "learning_rate": 0.00022184801459149868,
      "loss": 3.8097,
      "step": 165000
    },
    {
      "epoch": 0.34375,
      "eval_loss": 4.189648628234863,
      "eval_runtime": 9.7041,
      "eval_samples_per_second": 1.03,
      "eval_steps_per_second": 0.309,
      "step": 165000
    },
    {
      "epoch": 0.34377083333333336,
      "grad_norm": 0.7335554957389832,
      "learning_rate": 0.0002218393603792143,
      "loss": 3.9012,
      "step": 165010
    },
    {
      "epoch": 0.34379166666666666,
      "grad_norm": 0.7417361736297607,
      "learning_rate": 0.0002218307058566123,
      "loss": 3.9335,
      "step": 165020
    },
    {
      "epoch": 0.3438125,
      "grad_norm": 0.7558926343917847,
      "learning_rate": 0.00022182205102373013,
      "loss": 3.9184,
      "step": 165030
    },
    {
      "epoch": 0.3438333333333333,
      "grad_norm": 1.0881396532058716,
      "learning_rate": 0.00022181339588060506,
      "loss": 3.7943,
      "step": 165040
    },
    {
      "epoch": 0.3438541666666667,
      "grad_norm": 0.7321026921272278,
      "learning_rate": 0.0002218047404272746,
      "loss": 3.7874,
      "step": 165050
    },
    {
      "epoch": 0.343875,
      "grad_norm": 0.8387753367424011,
      "learning_rate": 0.00022179608466377606,
      "loss": 4.0176,
      "step": 165060
    },
    {
      "epoch": 0.34389583333333335,
      "grad_norm": 0.6760700941085815,
      "learning_rate": 0.00022178742859014686,
      "loss": 3.8112,
      "step": 165070
    },
    {
      "epoch": 0.34391666666666665,
      "grad_norm": 0.7800674438476562,
      "learning_rate": 0.00022177877220642435,
      "loss": 3.7827,
      "step": 165080
    },
    {
      "epoch": 0.3439375,
      "grad_norm": 0.8883776664733887,
      "learning_rate": 0.000221770115512646,
      "loss": 3.8602,
      "step": 165090
    },
    {
      "epoch": 0.3439583333333333,
      "grad_norm": 0.788070797920227,
      "learning_rate": 0.00022176145850884917,
      "loss": 3.8997,
      "step": 165100
    },
    {
      "epoch": 0.34397916666666667,
      "grad_norm": 0.8120987415313721,
      "learning_rate": 0.0002217528011950712,
      "loss": 3.9506,
      "step": 165110
    },
    {
      "epoch": 0.344,
      "grad_norm": 0.7014671564102173,
      "learning_rate": 0.00022174414357134956,
      "loss": 3.9136,
      "step": 165120
    },
    {
      "epoch": 0.34402083333333333,
      "grad_norm": 0.7866107821464539,
      "learning_rate": 0.0002217354856377216,
      "loss": 3.846,
      "step": 165130
    },
    {
      "epoch": 0.3440416666666667,
      "grad_norm": 0.7112519145011902,
      "learning_rate": 0.00022172682739422477,
      "loss": 3.9338,
      "step": 165140
    },
    {
      "epoch": 0.3440625,
      "grad_norm": 0.8077937960624695,
      "learning_rate": 0.0002217181688408964,
      "loss": 3.788,
      "step": 165150
    },
    {
      "epoch": 0.34408333333333335,
      "grad_norm": 0.8604987263679504,
      "learning_rate": 0.00022170950997777396,
      "loss": 3.8956,
      "step": 165160
    },
    {
      "epoch": 0.34410416666666666,
      "grad_norm": 0.7205187082290649,
      "learning_rate": 0.00022170085080489482,
      "loss": 3.9087,
      "step": 165170
    },
    {
      "epoch": 0.344125,
      "grad_norm": 0.7418732047080994,
      "learning_rate": 0.00022169219132229636,
      "loss": 3.9081,
      "step": 165180
    },
    {
      "epoch": 0.3441458333333333,
      "grad_norm": 0.8483526110649109,
      "learning_rate": 0.000221683531530016,
      "loss": 3.9912,
      "step": 165190
    },
    {
      "epoch": 0.3441666666666667,
      "grad_norm": 0.7752363085746765,
      "learning_rate": 0.0002216748714280912,
      "loss": 3.804,
      "step": 165200
    },
    {
      "epoch": 0.3441875,
      "grad_norm": 0.7746447920799255,
      "learning_rate": 0.00022166621101655932,
      "loss": 3.9655,
      "step": 165210
    },
    {
      "epoch": 0.34420833333333334,
      "grad_norm": 0.8067057132720947,
      "learning_rate": 0.00022165755029545777,
      "loss": 3.9638,
      "step": 165220
    },
    {
      "epoch": 0.34422916666666664,
      "grad_norm": 0.7686294317245483,
      "learning_rate": 0.00022164888926482396,
      "loss": 3.8676,
      "step": 165230
    },
    {
      "epoch": 0.34425,
      "grad_norm": 0.7945769429206848,
      "learning_rate": 0.0002216402279246953,
      "loss": 3.7043,
      "step": 165240
    },
    {
      "epoch": 0.34427083333333336,
      "grad_norm": 0.8058528900146484,
      "learning_rate": 0.00022163156627510923,
      "loss": 3.7676,
      "step": 165250
    },
    {
      "epoch": 0.34429166666666666,
      "grad_norm": 0.7542497515678406,
      "learning_rate": 0.0002216229043161031,
      "loss": 3.7378,
      "step": 165260
    },
    {
      "epoch": 0.3443125,
      "grad_norm": 0.7009477019309998,
      "learning_rate": 0.00022161424204771441,
      "loss": 3.9272,
      "step": 165270
    },
    {
      "epoch": 0.3443333333333333,
      "grad_norm": 0.701300859451294,
      "learning_rate": 0.00022160557946998056,
      "loss": 3.7392,
      "step": 165280
    },
    {
      "epoch": 0.3443541666666667,
      "grad_norm": 0.8035953640937805,
      "learning_rate": 0.00022159691658293895,
      "loss": 3.9706,
      "step": 165290
    },
    {
      "epoch": 0.344375,
      "grad_norm": 0.7327523827552795,
      "learning_rate": 0.00022158825338662697,
      "loss": 3.8312,
      "step": 165300
    },
    {
      "epoch": 0.34439583333333335,
      "grad_norm": 0.7830916047096252,
      "learning_rate": 0.0002215795898810821,
      "loss": 3.7409,
      "step": 165310
    },
    {
      "epoch": 0.34441666666666665,
      "grad_norm": 0.7089564204216003,
      "learning_rate": 0.0002215709260663417,
      "loss": 4.0519,
      "step": 165320
    },
    {
      "epoch": 0.3444375,
      "grad_norm": 0.85010826587677,
      "learning_rate": 0.00022156226194244323,
      "loss": 3.9929,
      "step": 165330
    },
    {
      "epoch": 0.3444583333333333,
      "grad_norm": 0.8014277219772339,
      "learning_rate": 0.0002215535975094242,
      "loss": 3.8029,
      "step": 165340
    },
    {
      "epoch": 0.34447916666666667,
      "grad_norm": 0.7801655530929565,
      "learning_rate": 0.00022154493276732188,
      "loss": 3.8853,
      "step": 165350
    },
    {
      "epoch": 0.3445,
      "grad_norm": 0.7171049118041992,
      "learning_rate": 0.00022153626771617373,
      "loss": 4.007,
      "step": 165360
    },
    {
      "epoch": 0.34452083333333333,
      "grad_norm": 0.9064207673072815,
      "learning_rate": 0.0002215276023560173,
      "loss": 4.094,
      "step": 165370
    },
    {
      "epoch": 0.3445416666666667,
      "grad_norm": 0.7534711956977844,
      "learning_rate": 0.0002215189366868899,
      "loss": 3.713,
      "step": 165380
    },
    {
      "epoch": 0.3445625,
      "grad_norm": 0.7974991798400879,
      "learning_rate": 0.00022151027070882898,
      "loss": 3.7777,
      "step": 165390
    },
    {
      "epoch": 0.34458333333333335,
      "grad_norm": 0.9241910576820374,
      "learning_rate": 0.00022150160442187207,
      "loss": 3.7773,
      "step": 165400
    },
    {
      "epoch": 0.34460416666666666,
      "grad_norm": 0.7941826581954956,
      "learning_rate": 0.00022149293782605645,
      "loss": 3.9054,
      "step": 165410
    },
    {
      "epoch": 0.344625,
      "grad_norm": 1.0470491647720337,
      "learning_rate": 0.0002214842709214197,
      "loss": 3.6599,
      "step": 165420
    },
    {
      "epoch": 0.3446458333333333,
      "grad_norm": 0.8390608429908752,
      "learning_rate": 0.00022147560370799915,
      "loss": 3.6933,
      "step": 165430
    },
    {
      "epoch": 0.3446666666666667,
      "grad_norm": 0.7999573945999146,
      "learning_rate": 0.0002214669361858323,
      "loss": 3.7406,
      "step": 165440
    },
    {
      "epoch": 0.3446875,
      "grad_norm": 0.7456080317497253,
      "learning_rate": 0.0002214582683549566,
      "loss": 3.8841,
      "step": 165450
    },
    {
      "epoch": 0.34470833333333334,
      "grad_norm": 1.018269658088684,
      "learning_rate": 0.0002214496002154094,
      "loss": 3.8175,
      "step": 165460
    },
    {
      "epoch": 0.34472916666666664,
      "grad_norm": 1.0520672798156738,
      "learning_rate": 0.00022144093176722828,
      "loss": 3.9588,
      "step": 165470
    },
    {
      "epoch": 0.34475,
      "grad_norm": 0.7546594738960266,
      "learning_rate": 0.0002214322630104506,
      "loss": 3.9821,
      "step": 165480
    },
    {
      "epoch": 0.34477083333333336,
      "grad_norm": 0.7947196364402771,
      "learning_rate": 0.0002214235939451138,
      "loss": 3.7599,
      "step": 165490
    },
    {
      "epoch": 0.34479166666666666,
      "grad_norm": 0.6917931437492371,
      "learning_rate": 0.00022141492457125532,
      "loss": 3.7705,
      "step": 165500
    },
    {
      "epoch": 0.3448125,
      "grad_norm": 0.7311668395996094,
      "learning_rate": 0.00022140625488891268,
      "loss": 3.8698,
      "step": 165510
    },
    {
      "epoch": 0.3448333333333333,
      "grad_norm": 0.8040515184402466,
      "learning_rate": 0.00022139758489812326,
      "loss": 3.7932,
      "step": 165520
    },
    {
      "epoch": 0.3448541666666667,
      "grad_norm": 0.7504719495773315,
      "learning_rate": 0.00022138891459892452,
      "loss": 3.8478,
      "step": 165530
    },
    {
      "epoch": 0.344875,
      "grad_norm": 0.7217981219291687,
      "learning_rate": 0.000221380243991354,
      "loss": 3.8018,
      "step": 165540
    },
    {
      "epoch": 0.34489583333333335,
      "grad_norm": 0.7260850667953491,
      "learning_rate": 0.000221371573075449,
      "loss": 3.8901,
      "step": 165550
    },
    {
      "epoch": 0.34491666666666665,
      "grad_norm": 0.9830719232559204,
      "learning_rate": 0.00022136290185124707,
      "loss": 3.923,
      "step": 165560
    },
    {
      "epoch": 0.3449375,
      "grad_norm": 1.1096628904342651,
      "learning_rate": 0.00022135423031878569,
      "loss": 3.8529,
      "step": 165570
    },
    {
      "epoch": 0.3449583333333333,
      "grad_norm": 0.8018760681152344,
      "learning_rate": 0.00022134555847810224,
      "loss": 3.8559,
      "step": 165580
    },
    {
      "epoch": 0.34497916666666667,
      "grad_norm": 0.7629585266113281,
      "learning_rate": 0.00022133688632923422,
      "loss": 3.8704,
      "step": 165590
    },
    {
      "epoch": 0.345,
      "grad_norm": 0.7385061979293823,
      "learning_rate": 0.0002213282138722191,
      "loss": 3.8075,
      "step": 165600
    },
    {
      "epoch": 0.34502083333333333,
      "grad_norm": 0.9127562642097473,
      "learning_rate": 0.00022131954110709434,
      "loss": 4.0165,
      "step": 165610
    },
    {
      "epoch": 0.3450416666666667,
      "grad_norm": 0.7171964645385742,
      "learning_rate": 0.00022131086803389737,
      "loss": 3.9849,
      "step": 165620
    },
    {
      "epoch": 0.3450625,
      "grad_norm": 0.7233519554138184,
      "learning_rate": 0.00022130219465266572,
      "loss": 3.8558,
      "step": 165630
    },
    {
      "epoch": 0.34508333333333335,
      "grad_norm": 0.7737340927124023,
      "learning_rate": 0.00022129352096343676,
      "loss": 3.9091,
      "step": 165640
    },
    {
      "epoch": 0.34510416666666666,
      "grad_norm": 0.8316341638565063,
      "learning_rate": 0.000221284846966248,
      "loss": 4.1442,
      "step": 165650
    },
    {
      "epoch": 0.345125,
      "grad_norm": 0.846450924873352,
      "learning_rate": 0.00022127617266113698,
      "loss": 3.8303,
      "step": 165660
    },
    {
      "epoch": 0.3451458333333333,
      "grad_norm": 0.8296233415603638,
      "learning_rate": 0.00022126749804814107,
      "loss": 3.7134,
      "step": 165670
    },
    {
      "epoch": 0.3451666666666667,
      "grad_norm": 0.6913220286369324,
      "learning_rate": 0.0002212588231272978,
      "loss": 3.8152,
      "step": 165680
    },
    {
      "epoch": 0.3451875,
      "grad_norm": 0.7459383606910706,
      "learning_rate": 0.0002212501478986446,
      "loss": 3.6611,
      "step": 165690
    },
    {
      "epoch": 0.34520833333333334,
      "grad_norm": 0.7758973240852356,
      "learning_rate": 0.00022124147236221895,
      "loss": 3.6928,
      "step": 165700
    },
    {
      "epoch": 0.34522916666666664,
      "grad_norm": 0.95456862449646,
      "learning_rate": 0.00022123279651805838,
      "loss": 3.9219,
      "step": 165710
    },
    {
      "epoch": 0.34525,
      "grad_norm": 0.7822309136390686,
      "learning_rate": 0.0002212241203662003,
      "loss": 3.9889,
      "step": 165720
    },
    {
      "epoch": 0.34527083333333336,
      "grad_norm": 0.8036433458328247,
      "learning_rate": 0.00022121544390668222,
      "loss": 3.716,
      "step": 165730
    },
    {
      "epoch": 0.34529166666666666,
      "grad_norm": 0.7576153874397278,
      "learning_rate": 0.00022120676713954158,
      "loss": 3.7777,
      "step": 165740
    },
    {
      "epoch": 0.3453125,
      "grad_norm": 0.7663596868515015,
      "learning_rate": 0.00022119809006481594,
      "loss": 3.8081,
      "step": 165750
    },
    {
      "epoch": 0.3453333333333333,
      "grad_norm": 0.7436777949333191,
      "learning_rate": 0.0002211894126825427,
      "loss": 3.9129,
      "step": 165760
    },
    {
      "epoch": 0.3453541666666667,
      "grad_norm": 0.7237709164619446,
      "learning_rate": 0.00022118073499275938,
      "loss": 3.6976,
      "step": 165770
    },
    {
      "epoch": 0.345375,
      "grad_norm": 0.8524247407913208,
      "learning_rate": 0.00022117205699550345,
      "loss": 3.8609,
      "step": 165780
    },
    {
      "epoch": 0.34539583333333335,
      "grad_norm": 0.9662337899208069,
      "learning_rate": 0.00022116337869081243,
      "loss": 3.9457,
      "step": 165790
    },
    {
      "epoch": 0.34541666666666665,
      "grad_norm": 0.7662293314933777,
      "learning_rate": 0.0002211547000787238,
      "loss": 3.8695,
      "step": 165800
    },
    {
      "epoch": 0.3454375,
      "grad_norm": 0.8558788895606995,
      "learning_rate": 0.000221146021159275,
      "loss": 3.8181,
      "step": 165810
    },
    {
      "epoch": 0.3454583333333333,
      "grad_norm": 0.840758204460144,
      "learning_rate": 0.00022113734193250352,
      "loss": 3.9382,
      "step": 165820
    },
    {
      "epoch": 0.34547916666666667,
      "grad_norm": 0.8715843558311462,
      "learning_rate": 0.00022112866239844693,
      "loss": 4.0266,
      "step": 165830
    },
    {
      "epoch": 0.3455,
      "grad_norm": 0.7333154082298279,
      "learning_rate": 0.00022111998255714264,
      "loss": 3.7616,
      "step": 165840
    },
    {
      "epoch": 0.34552083333333333,
      "grad_norm": 0.73252272605896,
      "learning_rate": 0.0002211113024086282,
      "loss": 3.7768,
      "step": 165850
    },
    {
      "epoch": 0.3455416666666667,
      "grad_norm": 0.7518277168273926,
      "learning_rate": 0.00022110262195294112,
      "loss": 3.7712,
      "step": 165860
    },
    {
      "epoch": 0.3455625,
      "grad_norm": 0.7097359299659729,
      "learning_rate": 0.00022109394119011877,
      "loss": 3.8711,
      "step": 165870
    },
    {
      "epoch": 0.34558333333333335,
      "grad_norm": 0.7472500205039978,
      "learning_rate": 0.00022108526012019883,
      "loss": 3.9585,
      "step": 165880
    },
    {
      "epoch": 0.34560416666666666,
      "grad_norm": 0.9656019806861877,
      "learning_rate": 0.00022107657874321861,
      "loss": 3.9547,
      "step": 165890
    },
    {
      "epoch": 0.345625,
      "grad_norm": 0.8318952918052673,
      "learning_rate": 0.00022106789705921576,
      "loss": 3.7576,
      "step": 165900
    },
    {
      "epoch": 0.3456458333333333,
      "grad_norm": 0.7744044065475464,
      "learning_rate": 0.0002210592150682277,
      "loss": 3.7927,
      "step": 165910
    },
    {
      "epoch": 0.3456666666666667,
      "grad_norm": 1.0338926315307617,
      "learning_rate": 0.000221050532770292,
      "loss": 3.9051,
      "step": 165920
    },
    {
      "epoch": 0.3456875,
      "grad_norm": 0.7305043935775757,
      "learning_rate": 0.00022104185016544607,
      "loss": 3.6042,
      "step": 165930
    },
    {
      "epoch": 0.34570833333333334,
      "grad_norm": 0.9384093284606934,
      "learning_rate": 0.0002210331672537275,
      "loss": 3.8131,
      "step": 165940
    },
    {
      "epoch": 0.34572916666666664,
      "grad_norm": 0.7015949487686157,
      "learning_rate": 0.00022102448403517376,
      "loss": 3.8353,
      "step": 165950
    },
    {
      "epoch": 0.34575,
      "grad_norm": 0.7725563645362854,
      "learning_rate": 0.00022101580050982235,
      "loss": 3.7732,
      "step": 165960
    },
    {
      "epoch": 0.34577083333333336,
      "grad_norm": 0.7938124537467957,
      "learning_rate": 0.0002210071166777108,
      "loss": 3.8057,
      "step": 165970
    },
    {
      "epoch": 0.34579166666666666,
      "grad_norm": 0.922439455986023,
      "learning_rate": 0.0002209984325388766,
      "loss": 3.8742,
      "step": 165980
    },
    {
      "epoch": 0.3458125,
      "grad_norm": 0.757218599319458,
      "learning_rate": 0.00022098974809335728,
      "loss": 3.7878,
      "step": 165990
    },
    {
      "epoch": 0.3458333333333333,
      "grad_norm": 0.8170721530914307,
      "learning_rate": 0.00022098106334119037,
      "loss": 3.9761,
      "step": 166000
    },
    {
      "epoch": 0.3458333333333333,
      "eval_loss": 4.1898698806762695,
      "eval_runtime": 9.7324,
      "eval_samples_per_second": 1.027,
      "eval_steps_per_second": 0.308,
      "step": 166000
    },
    {
      "epoch": 0.3458541666666667,
      "grad_norm": 0.7305615544319153,
      "learning_rate": 0.00022097237828241334,
      "loss": 3.8084,
      "step": 166010
    },
    {
      "epoch": 0.345875,
      "grad_norm": 0.6879091262817383,
      "learning_rate": 0.00022096369291706375,
      "loss": 3.8029,
      "step": 166020
    },
    {
      "epoch": 0.34589583333333335,
      "grad_norm": 0.8827717304229736,
      "learning_rate": 0.00022095500724517904,
      "loss": 3.8024,
      "step": 166030
    },
    {
      "epoch": 0.34591666666666665,
      "grad_norm": 0.8696174025535583,
      "learning_rate": 0.00022094632126679688,
      "loss": 3.9622,
      "step": 166040
    },
    {
      "epoch": 0.3459375,
      "grad_norm": 0.7716599106788635,
      "learning_rate": 0.00022093763498195462,
      "loss": 3.8867,
      "step": 166050
    },
    {
      "epoch": 0.3459583333333333,
      "grad_norm": 1.049963355064392,
      "learning_rate": 0.00022092894839068986,
      "loss": 3.7427,
      "step": 166060
    },
    {
      "epoch": 0.34597916666666667,
      "grad_norm": 0.8991462588310242,
      "learning_rate": 0.00022092026149304016,
      "loss": 3.9131,
      "step": 166070
    },
    {
      "epoch": 0.346,
      "grad_norm": 0.8066981434822083,
      "learning_rate": 0.00022091157428904296,
      "loss": 3.7851,
      "step": 166080
    },
    {
      "epoch": 0.34602083333333333,
      "grad_norm": 0.8122389316558838,
      "learning_rate": 0.00022090288677873582,
      "loss": 3.9414,
      "step": 166090
    },
    {
      "epoch": 0.3460416666666667,
      "grad_norm": 0.703342616558075,
      "learning_rate": 0.00022089419896215634,
      "loss": 3.7093,
      "step": 166100
    },
    {
      "epoch": 0.3460625,
      "grad_norm": 0.7848589420318604,
      "learning_rate": 0.00022088551083934192,
      "loss": 3.8217,
      "step": 166110
    },
    {
      "epoch": 0.34608333333333335,
      "grad_norm": 0.7466017603874207,
      "learning_rate": 0.0002208768224103302,
      "loss": 3.8107,
      "step": 166120
    },
    {
      "epoch": 0.34610416666666666,
      "grad_norm": 0.7851238250732422,
      "learning_rate": 0.00022086813367515863,
      "loss": 3.9964,
      "step": 166130
    },
    {
      "epoch": 0.346125,
      "grad_norm": 0.7933346629142761,
      "learning_rate": 0.00022085944463386475,
      "loss": 3.7784,
      "step": 166140
    },
    {
      "epoch": 0.3461458333333333,
      "grad_norm": 0.815682053565979,
      "learning_rate": 0.00022085075528648616,
      "loss": 3.7608,
      "step": 166150
    },
    {
      "epoch": 0.3461666666666667,
      "grad_norm": 0.7710898518562317,
      "learning_rate": 0.00022084206563306033,
      "loss": 3.8734,
      "step": 166160
    },
    {
      "epoch": 0.3461875,
      "grad_norm": 0.6904056668281555,
      "learning_rate": 0.00022083337567362484,
      "loss": 3.9352,
      "step": 166170
    },
    {
      "epoch": 0.34620833333333334,
      "grad_norm": 0.961601197719574,
      "learning_rate": 0.00022082468540821721,
      "loss": 3.8426,
      "step": 166180
    },
    {
      "epoch": 0.34622916666666664,
      "grad_norm": 0.757777750492096,
      "learning_rate": 0.00022081599483687493,
      "loss": 3.9131,
      "step": 166190
    },
    {
      "epoch": 0.34625,
      "grad_norm": 0.7087739706039429,
      "learning_rate": 0.00022080730395963562,
      "loss": 3.712,
      "step": 166200
    },
    {
      "epoch": 0.34627083333333336,
      "grad_norm": 0.8745505213737488,
      "learning_rate": 0.00022079861277653678,
      "loss": 3.7936,
      "step": 166210
    },
    {
      "epoch": 0.34629166666666666,
      "grad_norm": 0.8828952312469482,
      "learning_rate": 0.00022078992128761596,
      "loss": 3.9208,
      "step": 166220
    },
    {
      "epoch": 0.3463125,
      "grad_norm": 0.7078715562820435,
      "learning_rate": 0.00022078122949291065,
      "loss": 3.8516,
      "step": 166230
    },
    {
      "epoch": 0.3463333333333333,
      "grad_norm": 0.7467676401138306,
      "learning_rate": 0.00022077253739245852,
      "loss": 3.8719,
      "step": 166240
    },
    {
      "epoch": 0.3463541666666667,
      "grad_norm": 0.6925509572029114,
      "learning_rate": 0.000220763844986297,
      "loss": 3.9019,
      "step": 166250
    },
    {
      "epoch": 0.346375,
      "grad_norm": 1.050431489944458,
      "learning_rate": 0.00022075515227446365,
      "loss": 3.875,
      "step": 166260
    },
    {
      "epoch": 0.34639583333333335,
      "grad_norm": 0.7292155027389526,
      "learning_rate": 0.0002207464592569961,
      "loss": 3.787,
      "step": 166270
    },
    {
      "epoch": 0.34641666666666665,
      "grad_norm": 0.8123593330383301,
      "learning_rate": 0.00022073776593393185,
      "loss": 3.9417,
      "step": 166280
    },
    {
      "epoch": 0.3464375,
      "grad_norm": 0.7599675059318542,
      "learning_rate": 0.00022072907230530846,
      "loss": 3.7988,
      "step": 166290
    },
    {
      "epoch": 0.3464583333333333,
      "grad_norm": 0.7407387495040894,
      "learning_rate": 0.0002207203783711634,
      "loss": 3.8984,
      "step": 166300
    },
    {
      "epoch": 0.34647916666666667,
      "grad_norm": 0.7974744439125061,
      "learning_rate": 0.0002207116841315344,
      "loss": 3.8084,
      "step": 166310
    },
    {
      "epoch": 0.3465,
      "grad_norm": 0.7204846143722534,
      "learning_rate": 0.00022070298958645884,
      "loss": 3.6514,
      "step": 166320
    },
    {
      "epoch": 0.34652083333333333,
      "grad_norm": 0.7547363042831421,
      "learning_rate": 0.00022069429473597438,
      "loss": 3.8899,
      "step": 166330
    },
    {
      "epoch": 0.3465416666666667,
      "grad_norm": 0.6866621375083923,
      "learning_rate": 0.00022068559958011855,
      "loss": 3.9448,
      "step": 166340
    },
    {
      "epoch": 0.3465625,
      "grad_norm": 0.8714684247970581,
      "learning_rate": 0.00022067690411892892,
      "loss": 3.7804,
      "step": 166350
    },
    {
      "epoch": 0.34658333333333335,
      "grad_norm": 0.7768976092338562,
      "learning_rate": 0.000220668208352443,
      "loss": 3.6937,
      "step": 166360
    },
    {
      "epoch": 0.34660416666666666,
      "grad_norm": 0.6779329180717468,
      "learning_rate": 0.00022065951228069841,
      "loss": 3.8518,
      "step": 166370
    },
    {
      "epoch": 0.346625,
      "grad_norm": 0.7659986019134521,
      "learning_rate": 0.00022065081590373273,
      "loss": 3.9132,
      "step": 166380
    },
    {
      "epoch": 0.3466458333333333,
      "grad_norm": 0.8411452174186707,
      "learning_rate": 0.0002206421192215834,
      "loss": 3.9746,
      "step": 166390
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 0.9081934690475464,
      "learning_rate": 0.00022063342223428814,
      "loss": 3.8562,
      "step": 166400
    },
    {
      "epoch": 0.3466875,
      "grad_norm": 0.712191641330719,
      "learning_rate": 0.0002206247249418845,
      "loss": 3.9736,
      "step": 166410
    },
    {
      "epoch": 0.34670833333333334,
      "grad_norm": 0.8063982725143433,
      "learning_rate": 0.00022061602734440997,
      "loss": 4.0031,
      "step": 166420
    },
    {
      "epoch": 0.34672916666666664,
      "grad_norm": 0.7465348839759827,
      "learning_rate": 0.00022060732944190211,
      "loss": 3.8145,
      "step": 166430
    },
    {
      "epoch": 0.34675,
      "grad_norm": 0.7470642328262329,
      "learning_rate": 0.0002205986312343986,
      "loss": 3.8671,
      "step": 166440
    },
    {
      "epoch": 0.3467708333333333,
      "grad_norm": 0.7548946738243103,
      "learning_rate": 0.00022058993272193692,
      "loss": 3.8971,
      "step": 166450
    },
    {
      "epoch": 0.34679166666666666,
      "grad_norm": 0.7317728400230408,
      "learning_rate": 0.00022058123390455465,
      "loss": 3.7882,
      "step": 166460
    },
    {
      "epoch": 0.3468125,
      "grad_norm": 0.8523623943328857,
      "learning_rate": 0.0002205725347822894,
      "loss": 3.6683,
      "step": 166470
    },
    {
      "epoch": 0.3468333333333333,
      "grad_norm": 0.7545601725578308,
      "learning_rate": 0.00022056383535517873,
      "loss": 3.8338,
      "step": 166480
    },
    {
      "epoch": 0.3468541666666667,
      "grad_norm": 0.7021652460098267,
      "learning_rate": 0.00022055513562326023,
      "loss": 3.7278,
      "step": 166490
    },
    {
      "epoch": 0.346875,
      "grad_norm": 0.7060204744338989,
      "learning_rate": 0.0002205464355865715,
      "loss": 3.8273,
      "step": 166500
    },
    {
      "epoch": 0.34689583333333335,
      "grad_norm": 0.9886347651481628,
      "learning_rate": 0.00022053773524515006,
      "loss": 3.9847,
      "step": 166510
    },
    {
      "epoch": 0.34691666666666665,
      "grad_norm": 0.8479509949684143,
      "learning_rate": 0.0002205290345990335,
      "loss": 3.8509,
      "step": 166520
    },
    {
      "epoch": 0.3469375,
      "grad_norm": 0.8076978325843811,
      "learning_rate": 0.00022052033364825948,
      "loss": 3.8934,
      "step": 166530
    },
    {
      "epoch": 0.3469583333333333,
      "grad_norm": 0.7407881021499634,
      "learning_rate": 0.00022051163239286548,
      "loss": 3.7274,
      "step": 166540
    },
    {
      "epoch": 0.34697916666666667,
      "grad_norm": 0.7144415378570557,
      "learning_rate": 0.0002205029308328892,
      "loss": 3.8959,
      "step": 166550
    },
    {
      "epoch": 0.347,
      "grad_norm": 0.867764413356781,
      "learning_rate": 0.0002204942289683681,
      "loss": 3.9362,
      "step": 166560
    },
    {
      "epoch": 0.34702083333333333,
      "grad_norm": 0.744040846824646,
      "learning_rate": 0.00022048552679933986,
      "loss": 3.8268,
      "step": 166570
    },
    {
      "epoch": 0.3470416666666667,
      "grad_norm": 0.8493800759315491,
      "learning_rate": 0.00022047682432584212,
      "loss": 3.8632,
      "step": 166580
    },
    {
      "epoch": 0.3470625,
      "grad_norm": 0.7348156571388245,
      "learning_rate": 0.00022046812154791226,
      "loss": 4.2007,
      "step": 166590
    },
    {
      "epoch": 0.34708333333333335,
      "grad_norm": 0.8283316493034363,
      "learning_rate": 0.00022045941846558808,
      "loss": 3.7772,
      "step": 166600
    },
    {
      "epoch": 0.34710416666666666,
      "grad_norm": 0.783449113368988,
      "learning_rate": 0.00022045071507890713,
      "loss": 3.889,
      "step": 166610
    },
    {
      "epoch": 0.347125,
      "grad_norm": 0.6792311072349548,
      "learning_rate": 0.00022044201138790695,
      "loss": 3.8332,
      "step": 166620
    },
    {
      "epoch": 0.3471458333333333,
      "grad_norm": 0.8251895904541016,
      "learning_rate": 0.00022043330739262516,
      "loss": 3.9454,
      "step": 166630
    },
    {
      "epoch": 0.3471666666666667,
      "grad_norm": 0.7804433107376099,
      "learning_rate": 0.00022042460309309938,
      "loss": 4.0045,
      "step": 166640
    },
    {
      "epoch": 0.3471875,
      "grad_norm": 0.8056877255439758,
      "learning_rate": 0.00022041589848936717,
      "loss": 3.7704,
      "step": 166650
    },
    {
      "epoch": 0.34720833333333334,
      "grad_norm": 0.8804557919502258,
      "learning_rate": 0.00022040719358146612,
      "loss": 3.753,
      "step": 166660
    },
    {
      "epoch": 0.34722916666666664,
      "grad_norm": 0.7497962117195129,
      "learning_rate": 0.0002203984883694339,
      "loss": 3.998,
      "step": 166670
    },
    {
      "epoch": 0.34725,
      "grad_norm": 0.7716672420501709,
      "learning_rate": 0.00022038978285330806,
      "loss": 3.7557,
      "step": 166680
    },
    {
      "epoch": 0.3472708333333333,
      "grad_norm": 0.7634419798851013,
      "learning_rate": 0.00022038107703312623,
      "loss": 3.9381,
      "step": 166690
    },
    {
      "epoch": 0.34729166666666667,
      "grad_norm": 0.7258294224739075,
      "learning_rate": 0.000220372370908926,
      "loss": 3.7871,
      "step": 166700
    },
    {
      "epoch": 0.3473125,
      "grad_norm": 0.842413604259491,
      "learning_rate": 0.000220363664480745,
      "loss": 3.9533,
      "step": 166710
    },
    {
      "epoch": 0.3473333333333333,
      "grad_norm": 0.8400275111198425,
      "learning_rate": 0.00022035495774862086,
      "loss": 3.7979,
      "step": 166720
    },
    {
      "epoch": 0.3473541666666667,
      "grad_norm": 0.7486433386802673,
      "learning_rate": 0.00022034625071259108,
      "loss": 3.885,
      "step": 166730
    },
    {
      "epoch": 0.347375,
      "grad_norm": 0.7486409544944763,
      "learning_rate": 0.00022033754337269336,
      "loss": 3.8096,
      "step": 166740
    },
    {
      "epoch": 0.34739583333333335,
      "grad_norm": 0.7207057476043701,
      "learning_rate": 0.0002203288357289653,
      "loss": 3.9266,
      "step": 166750
    },
    {
      "epoch": 0.34741666666666665,
      "grad_norm": 0.7421192526817322,
      "learning_rate": 0.0002203201277814445,
      "loss": 3.8386,
      "step": 166760
    },
    {
      "epoch": 0.3474375,
      "grad_norm": 0.8908392190933228,
      "learning_rate": 0.0002203114195301686,
      "loss": 3.8313,
      "step": 166770
    },
    {
      "epoch": 0.3474583333333333,
      "grad_norm": 0.788580596446991,
      "learning_rate": 0.0002203027109751752,
      "loss": 3.894,
      "step": 166780
    },
    {
      "epoch": 0.3474791666666667,
      "grad_norm": 0.751335620880127,
      "learning_rate": 0.0002202940021165019,
      "loss": 3.8817,
      "step": 166790
    },
    {
      "epoch": 0.3475,
      "grad_norm": 0.9693329930305481,
      "learning_rate": 0.00022028529295418635,
      "loss": 3.7114,
      "step": 166800
    },
    {
      "epoch": 0.34752083333333333,
      "grad_norm": 0.772932231426239,
      "learning_rate": 0.00022027658348826616,
      "loss": 4.076,
      "step": 166810
    },
    {
      "epoch": 0.3475416666666667,
      "grad_norm": 0.8030478954315186,
      "learning_rate": 0.0002202678737187789,
      "loss": 3.9603,
      "step": 166820
    },
    {
      "epoch": 0.3475625,
      "grad_norm": 0.8513970971107483,
      "learning_rate": 0.00022025916364576227,
      "loss": 3.9027,
      "step": 166830
    },
    {
      "epoch": 0.34758333333333336,
      "grad_norm": 0.7002370357513428,
      "learning_rate": 0.00022025045326925388,
      "loss": 3.6887,
      "step": 166840
    },
    {
      "epoch": 0.34760416666666666,
      "grad_norm": 0.8016495108604431,
      "learning_rate": 0.0002202417425892913,
      "loss": 3.9219,
      "step": 166850
    },
    {
      "epoch": 0.347625,
      "grad_norm": 0.7666077017784119,
      "learning_rate": 0.0002202330316059122,
      "loss": 3.8438,
      "step": 166860
    },
    {
      "epoch": 0.3476458333333333,
      "grad_norm": 0.7085832953453064,
      "learning_rate": 0.00022022432031915427,
      "loss": 3.7008,
      "step": 166870
    },
    {
      "epoch": 0.3476666666666667,
      "grad_norm": 0.768575131893158,
      "learning_rate": 0.00022021560872905501,
      "loss": 3.7916,
      "step": 166880
    },
    {
      "epoch": 0.3476875,
      "grad_norm": 0.7427250742912292,
      "learning_rate": 0.00022020689683565213,
      "loss": 3.8077,
      "step": 166890
    },
    {
      "epoch": 0.34770833333333334,
      "grad_norm": 0.8076955676078796,
      "learning_rate": 0.00022019818463898323,
      "loss": 3.9018,
      "step": 166900
    },
    {
      "epoch": 0.34772916666666664,
      "grad_norm": 0.7565464377403259,
      "learning_rate": 0.000220189472139086,
      "loss": 4.0223,
      "step": 166910
    },
    {
      "epoch": 0.34775,
      "grad_norm": 0.7079153656959534,
      "learning_rate": 0.00022018075933599802,
      "loss": 4.0785,
      "step": 166920
    },
    {
      "epoch": 0.3477708333333333,
      "grad_norm": 0.7084150910377502,
      "learning_rate": 0.00022017204622975687,
      "loss": 3.7283,
      "step": 166930
    },
    {
      "epoch": 0.34779166666666667,
      "grad_norm": 0.7622153162956238,
      "learning_rate": 0.00022016333282040036,
      "loss": 3.865,
      "step": 166940
    },
    {
      "epoch": 0.3478125,
      "grad_norm": 0.6729335784912109,
      "learning_rate": 0.00022015461910796598,
      "loss": 3.9141,
      "step": 166950
    },
    {
      "epoch": 0.3478333333333333,
      "grad_norm": 0.7801281809806824,
      "learning_rate": 0.00022014590509249137,
      "loss": 3.8397,
      "step": 166960
    },
    {
      "epoch": 0.3478541666666667,
      "grad_norm": 0.824537992477417,
      "learning_rate": 0.00022013719077401429,
      "loss": 3.7057,
      "step": 166970
    },
    {
      "epoch": 0.347875,
      "grad_norm": 0.7822725176811218,
      "learning_rate": 0.00022012847615257228,
      "loss": 3.7424,
      "step": 166980
    },
    {
      "epoch": 0.34789583333333335,
      "grad_norm": 0.7799305319786072,
      "learning_rate": 0.000220119761228203,
      "loss": 3.7747,
      "step": 166990
    },
    {
      "epoch": 0.34791666666666665,
      "grad_norm": 0.8698791265487671,
      "learning_rate": 0.00022011104600094412,
      "loss": 3.9246,
      "step": 167000
    },
    {
      "epoch": 0.34791666666666665,
      "eval_loss": 4.184502601623535,
      "eval_runtime": 9.4666,
      "eval_samples_per_second": 1.056,
      "eval_steps_per_second": 0.317,
      "step": 167000
    },
    {
      "epoch": 0.3479375,
      "grad_norm": 0.7456501722335815,
      "learning_rate": 0.00022010233047083328,
      "loss": 3.9194,
      "step": 167010
    },
    {
      "epoch": 0.3479583333333333,
      "grad_norm": 0.6884973049163818,
      "learning_rate": 0.00022009361463790812,
      "loss": 3.8891,
      "step": 167020
    },
    {
      "epoch": 0.3479791666666667,
      "grad_norm": 0.7101929783821106,
      "learning_rate": 0.00022008489850220626,
      "loss": 3.7231,
      "step": 167030
    },
    {
      "epoch": 0.348,
      "grad_norm": 0.7835579514503479,
      "learning_rate": 0.0002200761820637654,
      "loss": 3.6851,
      "step": 167040
    },
    {
      "epoch": 0.34802083333333333,
      "grad_norm": 0.7324495315551758,
      "learning_rate": 0.00022006746532262316,
      "loss": 3.703,
      "step": 167050
    },
    {
      "epoch": 0.3480416666666667,
      "grad_norm": 0.7677201628684998,
      "learning_rate": 0.00022005874827881722,
      "loss": 3.8169,
      "step": 167060
    },
    {
      "epoch": 0.3480625,
      "grad_norm": 0.7707743644714355,
      "learning_rate": 0.0002200500309323852,
      "loss": 3.9348,
      "step": 167070
    },
    {
      "epoch": 0.34808333333333336,
      "grad_norm": 0.794050395488739,
      "learning_rate": 0.00022004131328336483,
      "loss": 3.8936,
      "step": 167080
    },
    {
      "epoch": 0.34810416666666666,
      "grad_norm": 0.7138677835464478,
      "learning_rate": 0.0002200325953317936,
      "loss": 3.8529,
      "step": 167090
    },
    {
      "epoch": 0.348125,
      "grad_norm": 0.6738632321357727,
      "learning_rate": 0.00022002387707770933,
      "loss": 3.7634,
      "step": 167100
    },
    {
      "epoch": 0.3481458333333333,
      "grad_norm": 0.81169593334198,
      "learning_rate": 0.0002200151585211497,
      "loss": 3.7711,
      "step": 167110
    },
    {
      "epoch": 0.3481666666666667,
      "grad_norm": 0.7891823053359985,
      "learning_rate": 0.00022000643966215225,
      "loss": 3.901,
      "step": 167120
    },
    {
      "epoch": 0.3481875,
      "grad_norm": 0.7351655960083008,
      "learning_rate": 0.00021999772050075464,
      "loss": 3.9368,
      "step": 167130
    },
    {
      "epoch": 0.34820833333333334,
      "grad_norm": 0.7219979166984558,
      "learning_rate": 0.00021998900103699468,
      "loss": 3.8353,
      "step": 167140
    },
    {
      "epoch": 0.34822916666666665,
      "grad_norm": 0.7724326848983765,
      "learning_rate": 0.0002199802812709099,
      "loss": 3.7714,
      "step": 167150
    },
    {
      "epoch": 0.34825,
      "grad_norm": 1.0297940969467163,
      "learning_rate": 0.00021997156120253796,
      "loss": 3.7965,
      "step": 167160
    },
    {
      "epoch": 0.3482708333333333,
      "grad_norm": 0.8056216835975647,
      "learning_rate": 0.0002199628408319166,
      "loss": 3.6377,
      "step": 167170
    },
    {
      "epoch": 0.34829166666666667,
      "grad_norm": 0.9766642451286316,
      "learning_rate": 0.0002199541201590835,
      "loss": 3.8518,
      "step": 167180
    },
    {
      "epoch": 0.3483125,
      "grad_norm": 0.7815437316894531,
      "learning_rate": 0.00021994539918407624,
      "loss": 3.8493,
      "step": 167190
    },
    {
      "epoch": 0.34833333333333333,
      "grad_norm": 0.7537615299224854,
      "learning_rate": 0.00021993667790693258,
      "loss": 3.7242,
      "step": 167200
    },
    {
      "epoch": 0.3483541666666667,
      "grad_norm": 0.7966832518577576,
      "learning_rate": 0.0002199279563276901,
      "loss": 3.6579,
      "step": 167210
    },
    {
      "epoch": 0.348375,
      "grad_norm": 0.7539072632789612,
      "learning_rate": 0.0002199192344463866,
      "loss": 3.8687,
      "step": 167220
    },
    {
      "epoch": 0.34839583333333335,
      "grad_norm": 0.7936046719551086,
      "learning_rate": 0.0002199105122630596,
      "loss": 3.7545,
      "step": 167230
    },
    {
      "epoch": 0.34841666666666665,
      "grad_norm": 0.8496291637420654,
      "learning_rate": 0.0002199017897777469,
      "loss": 3.7773,
      "step": 167240
    },
    {
      "epoch": 0.3484375,
      "grad_norm": 0.7558230757713318,
      "learning_rate": 0.0002198930669904862,
      "loss": 4.0441,
      "step": 167250
    },
    {
      "epoch": 0.3484583333333333,
      "grad_norm": 0.8997763991355896,
      "learning_rate": 0.000219884343901315,
      "loss": 3.9618,
      "step": 167260
    },
    {
      "epoch": 0.3484791666666667,
      "grad_norm": 0.7261243462562561,
      "learning_rate": 0.00021987562051027114,
      "loss": 3.6943,
      "step": 167270
    },
    {
      "epoch": 0.3485,
      "grad_norm": 0.7847897410392761,
      "learning_rate": 0.00021986689681739233,
      "loss": 3.7838,
      "step": 167280
    },
    {
      "epoch": 0.34852083333333334,
      "grad_norm": 0.7520933151245117,
      "learning_rate": 0.0002198581728227161,
      "loss": 3.7621,
      "step": 167290
    },
    {
      "epoch": 0.3485416666666667,
      "grad_norm": 0.8738757371902466,
      "learning_rate": 0.00021984944852628023,
      "loss": 3.8035,
      "step": 167300
    },
    {
      "epoch": 0.3485625,
      "grad_norm": 0.7470166087150574,
      "learning_rate": 0.00021984072392812243,
      "loss": 3.9568,
      "step": 167310
    },
    {
      "epoch": 0.34858333333333336,
      "grad_norm": 0.7110574841499329,
      "learning_rate": 0.00021983199902828033,
      "loss": 3.6927,
      "step": 167320
    },
    {
      "epoch": 0.34860416666666666,
      "grad_norm": 0.7163881659507751,
      "learning_rate": 0.00021982327382679158,
      "loss": 3.7524,
      "step": 167330
    },
    {
      "epoch": 0.348625,
      "grad_norm": 0.7347975969314575,
      "learning_rate": 0.00021981454832369396,
      "loss": 3.7353,
      "step": 167340
    },
    {
      "epoch": 0.3486458333333333,
      "grad_norm": 0.7674691677093506,
      "learning_rate": 0.00021980582251902514,
      "loss": 3.8752,
      "step": 167350
    },
    {
      "epoch": 0.3486666666666667,
      "grad_norm": 0.8242669701576233,
      "learning_rate": 0.0002197970964128228,
      "loss": 3.7829,
      "step": 167360
    },
    {
      "epoch": 0.3486875,
      "grad_norm": 0.7060468792915344,
      "learning_rate": 0.0002197883700051246,
      "loss": 3.8623,
      "step": 167370
    },
    {
      "epoch": 0.34870833333333334,
      "grad_norm": 0.7166244983673096,
      "learning_rate": 0.0002197796432959683,
      "loss": 3.7775,
      "step": 167380
    },
    {
      "epoch": 0.34872916666666665,
      "grad_norm": 0.8512476682662964,
      "learning_rate": 0.00021977091628539155,
      "loss": 3.7322,
      "step": 167390
    },
    {
      "epoch": 0.34875,
      "grad_norm": 0.9476060271263123,
      "learning_rate": 0.00021976218897343206,
      "loss": 3.8033,
      "step": 167400
    },
    {
      "epoch": 0.3487708333333333,
      "grad_norm": 0.8838501572608948,
      "learning_rate": 0.00021975346136012756,
      "loss": 3.7832,
      "step": 167410
    },
    {
      "epoch": 0.34879166666666667,
      "grad_norm": 0.9013411998748779,
      "learning_rate": 0.00021974473344551568,
      "loss": 3.8537,
      "step": 167420
    },
    {
      "epoch": 0.3488125,
      "grad_norm": 0.7952670454978943,
      "learning_rate": 0.00021973600522963413,
      "loss": 4.0272,
      "step": 167430
    },
    {
      "epoch": 0.34883333333333333,
      "grad_norm": 0.7013702392578125,
      "learning_rate": 0.00021972727671252067,
      "loss": 3.996,
      "step": 167440
    },
    {
      "epoch": 0.3488541666666667,
      "grad_norm": 0.7787192463874817,
      "learning_rate": 0.000219718547894213,
      "loss": 3.8063,
      "step": 167450
    },
    {
      "epoch": 0.348875,
      "grad_norm": 0.6545696258544922,
      "learning_rate": 0.00021970981877474875,
      "loss": 3.9392,
      "step": 167460
    },
    {
      "epoch": 0.34889583333333335,
      "grad_norm": 0.7715843915939331,
      "learning_rate": 0.0002197010893541657,
      "loss": 3.8711,
      "step": 167470
    },
    {
      "epoch": 0.34891666666666665,
      "grad_norm": 0.7604669332504272,
      "learning_rate": 0.00021969235963250155,
      "loss": 3.9712,
      "step": 167480
    },
    {
      "epoch": 0.3489375,
      "grad_norm": 0.7876217365264893,
      "learning_rate": 0.000219683629609794,
      "loss": 3.761,
      "step": 167490
    },
    {
      "epoch": 0.3489583333333333,
      "grad_norm": 0.8010431528091431,
      "learning_rate": 0.00021967489928608074,
      "loss": 3.6264,
      "step": 167500
    },
    {
      "epoch": 0.3489791666666667,
      "grad_norm": 0.7595979571342468,
      "learning_rate": 0.00021966616866139944,
      "loss": 3.7374,
      "step": 167510
    },
    {
      "epoch": 0.349,
      "grad_norm": 0.7116988897323608,
      "learning_rate": 0.00021965743773578794,
      "loss": 3.9061,
      "step": 167520
    },
    {
      "epoch": 0.34902083333333334,
      "grad_norm": 0.7391478419303894,
      "learning_rate": 0.00021964870650928382,
      "loss": 3.9082,
      "step": 167530
    },
    {
      "epoch": 0.34904166666666664,
      "grad_norm": 0.8752535581588745,
      "learning_rate": 0.00021963997498192494,
      "loss": 3.7594,
      "step": 167540
    },
    {
      "epoch": 0.3490625,
      "grad_norm": 0.7237616777420044,
      "learning_rate": 0.00021963124315374884,
      "loss": 3.7995,
      "step": 167550
    },
    {
      "epoch": 0.34908333333333336,
      "grad_norm": 0.82927006483078,
      "learning_rate": 0.0002196225110247934,
      "loss": 3.8101,
      "step": 167560
    },
    {
      "epoch": 0.34910416666666666,
      "grad_norm": 0.7436612248420715,
      "learning_rate": 0.00021961377859509626,
      "loss": 3.7944,
      "step": 167570
    },
    {
      "epoch": 0.349125,
      "grad_norm": 0.8391726613044739,
      "learning_rate": 0.00021960504586469512,
      "loss": 3.7741,
      "step": 167580
    },
    {
      "epoch": 0.3491458333333333,
      "grad_norm": 0.9465711116790771,
      "learning_rate": 0.00021959631283362775,
      "loss": 3.8704,
      "step": 167590
    },
    {
      "epoch": 0.3491666666666667,
      "grad_norm": 0.7632681131362915,
      "learning_rate": 0.00021958757950193186,
      "loss": 3.7583,
      "step": 167600
    },
    {
      "epoch": 0.3491875,
      "grad_norm": 0.7571573853492737,
      "learning_rate": 0.00021957884586964516,
      "loss": 3.7733,
      "step": 167610
    },
    {
      "epoch": 0.34920833333333334,
      "grad_norm": 0.7010571360588074,
      "learning_rate": 0.00021957011193680543,
      "loss": 3.9381,
      "step": 167620
    },
    {
      "epoch": 0.34922916666666665,
      "grad_norm": 0.8042372465133667,
      "learning_rate": 0.0002195613777034503,
      "loss": 3.9495,
      "step": 167630
    },
    {
      "epoch": 0.34925,
      "grad_norm": 0.7018886804580688,
      "learning_rate": 0.00021955264316961758,
      "loss": 3.9006,
      "step": 167640
    },
    {
      "epoch": 0.3492708333333333,
      "grad_norm": 0.8553451895713806,
      "learning_rate": 0.00021954390833534498,
      "loss": 3.7641,
      "step": 167650
    },
    {
      "epoch": 0.34929166666666667,
      "grad_norm": 0.8763352632522583,
      "learning_rate": 0.0002195351732006702,
      "loss": 4.013,
      "step": 167660
    },
    {
      "epoch": 0.3493125,
      "grad_norm": 0.8052722811698914,
      "learning_rate": 0.000219526437765631,
      "loss": 3.7733,
      "step": 167670
    },
    {
      "epoch": 0.34933333333333333,
      "grad_norm": 0.6916831731796265,
      "learning_rate": 0.00021951770203026513,
      "loss": 3.781,
      "step": 167680
    },
    {
      "epoch": 0.3493541666666667,
      "grad_norm": 0.8122615814208984,
      "learning_rate": 0.00021950896599461027,
      "loss": 3.7442,
      "step": 167690
    },
    {
      "epoch": 0.349375,
      "grad_norm": 0.9117591977119446,
      "learning_rate": 0.00021950022965870424,
      "loss": 3.8074,
      "step": 167700
    },
    {
      "epoch": 0.34939583333333335,
      "grad_norm": 0.836524486541748,
      "learning_rate": 0.0002194914930225847,
      "loss": 3.8454,
      "step": 167710
    },
    {
      "epoch": 0.34941666666666665,
      "grad_norm": 0.7264679074287415,
      "learning_rate": 0.00021948275608628937,
      "loss": 3.9307,
      "step": 167720
    },
    {
      "epoch": 0.3494375,
      "grad_norm": 0.7932240962982178,
      "learning_rate": 0.0002194740188498561,
      "loss": 3.6646,
      "step": 167730
    },
    {
      "epoch": 0.3494583333333333,
      "grad_norm": 1.179918885231018,
      "learning_rate": 0.00021946528131332253,
      "loss": 3.9362,
      "step": 167740
    },
    {
      "epoch": 0.3494791666666667,
      "grad_norm": 0.6810434460639954,
      "learning_rate": 0.00021945654347672647,
      "loss": 3.7912,
      "step": 167750
    },
    {
      "epoch": 0.3495,
      "grad_norm": 0.7435696125030518,
      "learning_rate": 0.00021944780534010564,
      "loss": 3.7853,
      "step": 167760
    },
    {
      "epoch": 0.34952083333333334,
      "grad_norm": 0.7612322568893433,
      "learning_rate": 0.00021943906690349775,
      "loss": 3.8097,
      "step": 167770
    },
    {
      "epoch": 0.34954166666666664,
      "grad_norm": 0.6977894902229309,
      "learning_rate": 0.0002194303281669406,
      "loss": 3.8987,
      "step": 167780
    },
    {
      "epoch": 0.3495625,
      "grad_norm": 0.778747022151947,
      "learning_rate": 0.00021942158913047194,
      "loss": 3.8451,
      "step": 167790
    },
    {
      "epoch": 0.34958333333333336,
      "grad_norm": 0.9185960292816162,
      "learning_rate": 0.0002194128497941294,
      "loss": 3.8764,
      "step": 167800
    },
    {
      "epoch": 0.34960416666666666,
      "grad_norm": 0.8325834274291992,
      "learning_rate": 0.0002194041101579509,
      "loss": 4.0595,
      "step": 167810
    },
    {
      "epoch": 0.349625,
      "grad_norm": 0.7243712544441223,
      "learning_rate": 0.00021939537022197414,
      "loss": 3.7814,
      "step": 167820
    },
    {
      "epoch": 0.3496458333333333,
      "grad_norm": 0.7517541646957397,
      "learning_rate": 0.00021938662998623675,
      "loss": 3.6823,
      "step": 167830
    },
    {
      "epoch": 0.3496666666666667,
      "grad_norm": 0.8396955728530884,
      "learning_rate": 0.00021937788945077669,
      "loss": 3.8501,
      "step": 167840
    },
    {
      "epoch": 0.3496875,
      "grad_norm": 0.9327895045280457,
      "learning_rate": 0.00021936914861563157,
      "loss": 3.8502,
      "step": 167850
    },
    {
      "epoch": 0.34970833333333334,
      "grad_norm": 0.7561688423156738,
      "learning_rate": 0.00021936040748083918,
      "loss": 3.7213,
      "step": 167860
    },
    {
      "epoch": 0.34972916666666665,
      "grad_norm": 0.769102156162262,
      "learning_rate": 0.00021935166604643728,
      "loss": 3.9644,
      "step": 167870
    },
    {
      "epoch": 0.34975,
      "grad_norm": 0.8512886166572571,
      "learning_rate": 0.00021934292431246365,
      "loss": 3.7942,
      "step": 167880
    },
    {
      "epoch": 0.3497708333333333,
      "grad_norm": 0.8119280934333801,
      "learning_rate": 0.000219334182278956,
      "loss": 3.8978,
      "step": 167890
    },
    {
      "epoch": 0.34979166666666667,
      "grad_norm": 0.924683690071106,
      "learning_rate": 0.00021932543994595215,
      "loss": 3.92,
      "step": 167900
    },
    {
      "epoch": 0.3498125,
      "grad_norm": 0.7941591143608093,
      "learning_rate": 0.00021931669731348983,
      "loss": 3.7657,
      "step": 167910
    },
    {
      "epoch": 0.34983333333333333,
      "grad_norm": 0.6774385571479797,
      "learning_rate": 0.00021930795438160683,
      "loss": 3.7735,
      "step": 167920
    },
    {
      "epoch": 0.3498541666666667,
      "grad_norm": 0.6579151749610901,
      "learning_rate": 0.0002192992111503409,
      "loss": 3.9403,
      "step": 167930
    },
    {
      "epoch": 0.349875,
      "grad_norm": 0.7126381397247314,
      "learning_rate": 0.00021929046761972983,
      "loss": 3.8006,
      "step": 167940
    },
    {
      "epoch": 0.34989583333333335,
      "grad_norm": 0.7358299493789673,
      "learning_rate": 0.00021928172378981133,
      "loss": 3.7295,
      "step": 167950
    },
    {
      "epoch": 0.34991666666666665,
      "grad_norm": 0.6874696612358093,
      "learning_rate": 0.00021927297966062317,
      "loss": 3.7549,
      "step": 167960
    },
    {
      "epoch": 0.3499375,
      "grad_norm": 0.8318476676940918,
      "learning_rate": 0.00021926423523220323,
      "loss": 3.9879,
      "step": 167970
    },
    {
      "epoch": 0.3499583333333333,
      "grad_norm": 0.7626111507415771,
      "learning_rate": 0.00021925549050458922,
      "loss": 3.8108,
      "step": 167980
    },
    {
      "epoch": 0.3499791666666667,
      "grad_norm": 0.8810161352157593,
      "learning_rate": 0.00021924674547781886,
      "loss": 3.8038,
      "step": 167990
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7614760994911194,
      "learning_rate": 0.00021923800015192997,
      "loss": 3.7704,
      "step": 168000
    },
    {
      "epoch": 0.35,
      "eval_loss": 4.1973090171813965,
      "eval_runtime": 9.5951,
      "eval_samples_per_second": 1.042,
      "eval_steps_per_second": 0.313,
      "step": 168000
    },
    {
      "epoch": 0.35002083333333334,
      "grad_norm": 0.8154656291007996,
      "learning_rate": 0.00021922925452696036,
      "loss": 3.8972,
      "step": 168010
    },
    {
      "epoch": 0.35004166666666664,
      "grad_norm": 0.75162273645401,
      "learning_rate": 0.00021922050860294774,
      "loss": 3.7435,
      "step": 168020
    },
    {
      "epoch": 0.3500625,
      "grad_norm": 0.7109634876251221,
      "learning_rate": 0.0002192117623799299,
      "loss": 3.8555,
      "step": 168030
    },
    {
      "epoch": 0.35008333333333336,
      "grad_norm": 0.7539191246032715,
      "learning_rate": 0.00021920301585794469,
      "loss": 3.7598,
      "step": 168040
    },
    {
      "epoch": 0.35010416666666666,
      "grad_norm": 0.7808381915092468,
      "learning_rate": 0.00021919426903702983,
      "loss": 3.6924,
      "step": 168050
    },
    {
      "epoch": 0.350125,
      "grad_norm": 0.8064906597137451,
      "learning_rate": 0.00021918552191722314,
      "loss": 3.8814,
      "step": 168060
    },
    {
      "epoch": 0.3501458333333333,
      "grad_norm": 0.7512993216514587,
      "learning_rate": 0.00021917677449856233,
      "loss": 3.7184,
      "step": 168070
    },
    {
      "epoch": 0.3501666666666667,
      "grad_norm": 0.8619134426116943,
      "learning_rate": 0.00021916802678108527,
      "loss": 3.6848,
      "step": 168080
    },
    {
      "epoch": 0.3501875,
      "grad_norm": 0.7729658484458923,
      "learning_rate": 0.0002191592787648297,
      "loss": 3.9533,
      "step": 168090
    },
    {
      "epoch": 0.35020833333333334,
      "grad_norm": 0.8228874206542969,
      "learning_rate": 0.0002191505304498334,
      "loss": 3.7848,
      "step": 168100
    },
    {
      "epoch": 0.35022916666666665,
      "grad_norm": 0.7168615460395813,
      "learning_rate": 0.00021914178183613423,
      "loss": 3.8388,
      "step": 168110
    },
    {
      "epoch": 0.35025,
      "grad_norm": 0.8084043860435486,
      "learning_rate": 0.00021913303292376993,
      "loss": 3.7588,
      "step": 168120
    },
    {
      "epoch": 0.3502708333333333,
      "grad_norm": 0.8527881503105164,
      "learning_rate": 0.00021912428371277827,
      "loss": 3.6674,
      "step": 168130
    },
    {
      "epoch": 0.35029166666666667,
      "grad_norm": 0.9302334785461426,
      "learning_rate": 0.00021911553420319704,
      "loss": 3.8175,
      "step": 168140
    },
    {
      "epoch": 0.3503125,
      "grad_norm": 0.7881948947906494,
      "learning_rate": 0.00021910678439506412,
      "loss": 3.8596,
      "step": 168150
    },
    {
      "epoch": 0.35033333333333333,
      "grad_norm": 0.8246210217475891,
      "learning_rate": 0.0002190980342884172,
      "loss": 3.8262,
      "step": 168160
    },
    {
      "epoch": 0.3503541666666667,
      "grad_norm": 0.8277216553688049,
      "learning_rate": 0.0002190892838832941,
      "loss": 3.872,
      "step": 168170
    },
    {
      "epoch": 0.350375,
      "grad_norm": 0.6659982204437256,
      "learning_rate": 0.0002190805331797327,
      "loss": 3.7635,
      "step": 168180
    },
    {
      "epoch": 0.35039583333333335,
      "grad_norm": 0.8727331161499023,
      "learning_rate": 0.00021907178217777073,
      "loss": 3.91,
      "step": 168190
    },
    {
      "epoch": 0.35041666666666665,
      "grad_norm": 0.7513010501861572,
      "learning_rate": 0.00021906303087744594,
      "loss": 3.6445,
      "step": 168200
    },
    {
      "epoch": 0.3504375,
      "grad_norm": 0.7289113402366638,
      "learning_rate": 0.0002190542792787963,
      "loss": 3.7929,
      "step": 168210
    },
    {
      "epoch": 0.3504583333333333,
      "grad_norm": 0.8109714984893799,
      "learning_rate": 0.00021904552738185942,
      "loss": 3.7597,
      "step": 168220
    },
    {
      "epoch": 0.3504791666666667,
      "grad_norm": 0.8177506923675537,
      "learning_rate": 0.0002190367751866732,
      "loss": 3.8478,
      "step": 168230
    },
    {
      "epoch": 0.3505,
      "grad_norm": 0.6743994951248169,
      "learning_rate": 0.00021902802269327547,
      "loss": 3.7507,
      "step": 168240
    },
    {
      "epoch": 0.35052083333333334,
      "grad_norm": 0.8011075854301453,
      "learning_rate": 0.000219019269901704,
      "loss": 3.7902,
      "step": 168250
    },
    {
      "epoch": 0.35054166666666664,
      "grad_norm": 0.779731810092926,
      "learning_rate": 0.00021901051681199658,
      "loss": 3.7771,
      "step": 168260
    },
    {
      "epoch": 0.3505625,
      "grad_norm": 0.8930521607398987,
      "learning_rate": 0.00021900176342419105,
      "loss": 3.8621,
      "step": 168270
    },
    {
      "epoch": 0.35058333333333336,
      "grad_norm": 0.6899304389953613,
      "learning_rate": 0.00021899300973832525,
      "loss": 4.104,
      "step": 168280
    },
    {
      "epoch": 0.35060416666666666,
      "grad_norm": 0.7154614925384521,
      "learning_rate": 0.00021898425575443697,
      "loss": 3.8529,
      "step": 168290
    },
    {
      "epoch": 0.350625,
      "grad_norm": 0.6825525164604187,
      "learning_rate": 0.0002189755014725639,
      "loss": 3.7551,
      "step": 168300
    },
    {
      "epoch": 0.3506458333333333,
      "grad_norm": 0.8786755800247192,
      "learning_rate": 0.00021896674689274407,
      "loss": 3.7336,
      "step": 168310
    },
    {
      "epoch": 0.3506666666666667,
      "grad_norm": 0.753951907157898,
      "learning_rate": 0.00021895799201501515,
      "loss": 3.7009,
      "step": 168320
    },
    {
      "epoch": 0.3506875,
      "grad_norm": 0.7305511832237244,
      "learning_rate": 0.000218949236839415,
      "loss": 3.8671,
      "step": 168330
    },
    {
      "epoch": 0.35070833333333334,
      "grad_norm": 0.7608426809310913,
      "learning_rate": 0.00021894048136598146,
      "loss": 3.9482,
      "step": 168340
    },
    {
      "epoch": 0.35072916666666665,
      "grad_norm": 0.7585217952728271,
      "learning_rate": 0.00021893172559475234,
      "loss": 3.857,
      "step": 168350
    },
    {
      "epoch": 0.35075,
      "grad_norm": 0.7313397526741028,
      "learning_rate": 0.00021892296952576545,
      "loss": 3.9116,
      "step": 168360
    },
    {
      "epoch": 0.3507708333333333,
      "grad_norm": 0.7613368630409241,
      "learning_rate": 0.00021891421315905856,
      "loss": 3.7679,
      "step": 168370
    },
    {
      "epoch": 0.35079166666666667,
      "grad_norm": 0.7652255892753601,
      "learning_rate": 0.00021890545649466957,
      "loss": 3.8641,
      "step": 168380
    },
    {
      "epoch": 0.3508125,
      "grad_norm": 0.7801837921142578,
      "learning_rate": 0.0002188966995326363,
      "loss": 3.7637,
      "step": 168390
    },
    {
      "epoch": 0.35083333333333333,
      "grad_norm": 0.780910313129425,
      "learning_rate": 0.00021888794227299657,
      "loss": 4.0891,
      "step": 168400
    },
    {
      "epoch": 0.3508541666666667,
      "grad_norm": 0.7589619755744934,
      "learning_rate": 0.0002188791847157882,
      "loss": 3.8662,
      "step": 168410
    },
    {
      "epoch": 0.350875,
      "grad_norm": 0.8955235481262207,
      "learning_rate": 0.00021887042686104897,
      "loss": 3.8277,
      "step": 168420
    },
    {
      "epoch": 0.35089583333333335,
      "grad_norm": 0.7657552361488342,
      "learning_rate": 0.00021886166870881677,
      "loss": 3.9464,
      "step": 168430
    },
    {
      "epoch": 0.35091666666666665,
      "grad_norm": 0.8772437572479248,
      "learning_rate": 0.00021885291025912942,
      "loss": 4.0467,
      "step": 168440
    },
    {
      "epoch": 0.3509375,
      "grad_norm": 0.842696487903595,
      "learning_rate": 0.0002188441515120248,
      "loss": 3.9516,
      "step": 168450
    },
    {
      "epoch": 0.3509583333333333,
      "grad_norm": 0.6986722350120544,
      "learning_rate": 0.00021883539246754063,
      "loss": 3.8444,
      "step": 168460
    },
    {
      "epoch": 0.3509791666666667,
      "grad_norm": 0.7434565424919128,
      "learning_rate": 0.00021882663312571481,
      "loss": 3.8378,
      "step": 168470
    },
    {
      "epoch": 0.351,
      "grad_norm": 0.782898485660553,
      "learning_rate": 0.00021881787348658523,
      "loss": 3.9564,
      "step": 168480
    },
    {
      "epoch": 0.35102083333333334,
      "grad_norm": 0.6747316718101501,
      "learning_rate": 0.00021880911355018966,
      "loss": 3.8937,
      "step": 168490
    },
    {
      "epoch": 0.35104166666666664,
      "grad_norm": 0.7799602150917053,
      "learning_rate": 0.00021880035331656592,
      "loss": 3.8884,
      "step": 168500
    },
    {
      "epoch": 0.3510625,
      "grad_norm": 0.7241820693016052,
      "learning_rate": 0.00021879159278575196,
      "loss": 3.7054,
      "step": 168510
    },
    {
      "epoch": 0.35108333333333336,
      "grad_norm": 0.7885885238647461,
      "learning_rate": 0.0002187828319577855,
      "loss": 3.7106,
      "step": 168520
    },
    {
      "epoch": 0.35110416666666666,
      "grad_norm": 0.6763389110565186,
      "learning_rate": 0.00021877407083270442,
      "loss": 3.8608,
      "step": 168530
    },
    {
      "epoch": 0.351125,
      "grad_norm": 0.6843334436416626,
      "learning_rate": 0.0002187653094105466,
      "loss": 3.6108,
      "step": 168540
    },
    {
      "epoch": 0.3511458333333333,
      "grad_norm": 0.780225932598114,
      "learning_rate": 0.0002187565476913499,
      "loss": 3.7249,
      "step": 168550
    },
    {
      "epoch": 0.3511666666666667,
      "grad_norm": 0.9243070483207703,
      "learning_rate": 0.00021874778567515206,
      "loss": 3.8099,
      "step": 168560
    },
    {
      "epoch": 0.3511875,
      "grad_norm": 0.6986493468284607,
      "learning_rate": 0.00021873902336199102,
      "loss": 3.7484,
      "step": 168570
    },
    {
      "epoch": 0.35120833333333334,
      "grad_norm": 0.7093654274940491,
      "learning_rate": 0.0002187302607519046,
      "loss": 3.8846,
      "step": 168580
    },
    {
      "epoch": 0.35122916666666665,
      "grad_norm": 1.087119221687317,
      "learning_rate": 0.00021872149784493068,
      "loss": 3.8777,
      "step": 168590
    },
    {
      "epoch": 0.35125,
      "grad_norm": 1.0300750732421875,
      "learning_rate": 0.0002187127346411071,
      "loss": 3.9927,
      "step": 168600
    },
    {
      "epoch": 0.3512708333333333,
      "grad_norm": 0.7661721706390381,
      "learning_rate": 0.00021870397114047167,
      "loss": 3.7093,
      "step": 168610
    },
    {
      "epoch": 0.35129166666666667,
      "grad_norm": 0.7736000418663025,
      "learning_rate": 0.0002186952073430623,
      "loss": 3.7583,
      "step": 168620
    },
    {
      "epoch": 0.3513125,
      "grad_norm": 0.7749875783920288,
      "learning_rate": 0.00021868644324891682,
      "loss": 3.8418,
      "step": 168630
    },
    {
      "epoch": 0.35133333333333333,
      "grad_norm": 0.7996122241020203,
      "learning_rate": 0.00021867767885807307,
      "loss": 3.7493,
      "step": 168640
    },
    {
      "epoch": 0.3513541666666667,
      "grad_norm": 0.74534672498703,
      "learning_rate": 0.00021866891417056898,
      "loss": 3.827,
      "step": 168650
    },
    {
      "epoch": 0.351375,
      "grad_norm": 0.7289767861366272,
      "learning_rate": 0.00021866014918644239,
      "loss": 3.5869,
      "step": 168660
    },
    {
      "epoch": 0.35139583333333335,
      "grad_norm": 0.7958475351333618,
      "learning_rate": 0.00021865138390573103,
      "loss": 3.8815,
      "step": 168670
    },
    {
      "epoch": 0.35141666666666665,
      "grad_norm": 0.6835991740226746,
      "learning_rate": 0.00021864261832847296,
      "loss": 3.7749,
      "step": 168680
    },
    {
      "epoch": 0.3514375,
      "grad_norm": 0.7299275994300842,
      "learning_rate": 0.0002186338524547059,
      "loss": 3.7391,
      "step": 168690
    },
    {
      "epoch": 0.3514583333333333,
      "grad_norm": 0.8943256139755249,
      "learning_rate": 0.00021862508628446776,
      "loss": 3.8544,
      "step": 168700
    },
    {
      "epoch": 0.3514791666666667,
      "grad_norm": 0.7661338448524475,
      "learning_rate": 0.00021861631981779644,
      "loss": 3.6464,
      "step": 168710
    },
    {
      "epoch": 0.3515,
      "grad_norm": 0.8453572988510132,
      "learning_rate": 0.00021860755305472976,
      "loss": 3.7598,
      "step": 168720
    },
    {
      "epoch": 0.35152083333333334,
      "grad_norm": 0.8785160183906555,
      "learning_rate": 0.0002185987859953056,
      "loss": 4.0608,
      "step": 168730
    },
    {
      "epoch": 0.35154166666666664,
      "grad_norm": 0.8334219455718994,
      "learning_rate": 0.00021859001863956185,
      "loss": 3.9209,
      "step": 168740
    },
    {
      "epoch": 0.3515625,
      "grad_norm": 0.8605513572692871,
      "learning_rate": 0.00021858125098753634,
      "loss": 3.8482,
      "step": 168750
    },
    {
      "epoch": 0.35158333333333336,
      "grad_norm": 0.7961806058883667,
      "learning_rate": 0.00021857248303926703,
      "loss": 3.6698,
      "step": 168760
    },
    {
      "epoch": 0.35160416666666666,
      "grad_norm": 0.9168233275413513,
      "learning_rate": 0.00021856371479479168,
      "loss": 3.7598,
      "step": 168770
    },
    {
      "epoch": 0.351625,
      "grad_norm": 0.730363130569458,
      "learning_rate": 0.00021855494625414826,
      "loss": 3.827,
      "step": 168780
    },
    {
      "epoch": 0.3516458333333333,
      "grad_norm": 0.7339237332344055,
      "learning_rate": 0.0002185461774173746,
      "loss": 3.7059,
      "step": 168790
    },
    {
      "epoch": 0.3516666666666667,
      "grad_norm": 0.7007289528846741,
      "learning_rate": 0.00021853740828450856,
      "loss": 3.6184,
      "step": 168800
    },
    {
      "epoch": 0.3516875,
      "grad_norm": 1.0567899942398071,
      "learning_rate": 0.00021852863885558807,
      "loss": 3.6608,
      "step": 168810
    },
    {
      "epoch": 0.35170833333333335,
      "grad_norm": 0.7475533485412598,
      "learning_rate": 0.000218519869130651,
      "loss": 3.9655,
      "step": 168820
    },
    {
      "epoch": 0.35172916666666665,
      "grad_norm": 0.7141680121421814,
      "learning_rate": 0.00021851109910973518,
      "loss": 3.9063,
      "step": 168830
    },
    {
      "epoch": 0.35175,
      "grad_norm": 0.7679862976074219,
      "learning_rate": 0.00021850232879287853,
      "loss": 3.8514,
      "step": 168840
    },
    {
      "epoch": 0.3517708333333333,
      "grad_norm": 1.2963800430297852,
      "learning_rate": 0.00021849355818011898,
      "loss": 3.9355,
      "step": 168850
    },
    {
      "epoch": 0.35179166666666667,
      "grad_norm": 0.8864924311637878,
      "learning_rate": 0.00021848478727149435,
      "loss": 3.8621,
      "step": 168860
    },
    {
      "epoch": 0.3518125,
      "grad_norm": 0.7488850951194763,
      "learning_rate": 0.0002184760160670425,
      "loss": 3.863,
      "step": 168870
    },
    {
      "epoch": 0.35183333333333333,
      "grad_norm": 0.9835378527641296,
      "learning_rate": 0.00021846724456680146,
      "loss": 3.8457,
      "step": 168880
    },
    {
      "epoch": 0.3518541666666667,
      "grad_norm": 0.8401551842689514,
      "learning_rate": 0.00021845847277080895,
      "loss": 3.7234,
      "step": 168890
    },
    {
      "epoch": 0.351875,
      "grad_norm": 0.7882599234580994,
      "learning_rate": 0.00021844970067910294,
      "loss": 3.7741,
      "step": 168900
    },
    {
      "epoch": 0.35189583333333335,
      "grad_norm": 0.7497324347496033,
      "learning_rate": 0.00021844092829172135,
      "loss": 3.6841,
      "step": 168910
    },
    {
      "epoch": 0.35191666666666666,
      "grad_norm": 1.0822237730026245,
      "learning_rate": 0.00021843215560870204,
      "loss": 3.5496,
      "step": 168920
    },
    {
      "epoch": 0.3519375,
      "grad_norm": 0.8902716636657715,
      "learning_rate": 0.00021842338263008287,
      "loss": 3.926,
      "step": 168930
    },
    {
      "epoch": 0.3519583333333333,
      "grad_norm": 0.8402057886123657,
      "learning_rate": 0.0002184146093559018,
      "loss": 3.7623,
      "step": 168940
    },
    {
      "epoch": 0.3519791666666667,
      "grad_norm": 0.8802101016044617,
      "learning_rate": 0.0002184058357861967,
      "loss": 3.7605,
      "step": 168950
    },
    {
      "epoch": 0.352,
      "grad_norm": 0.7756428122520447,
      "learning_rate": 0.00021839706192100544,
      "loss": 3.7932,
      "step": 168960
    },
    {
      "epoch": 0.35202083333333334,
      "grad_norm": 0.7689589262008667,
      "learning_rate": 0.00021838828776036596,
      "loss": 3.8365,
      "step": 168970
    },
    {
      "epoch": 0.35204166666666664,
      "grad_norm": 0.8396580815315247,
      "learning_rate": 0.00021837951330431614,
      "loss": 3.8978,
      "step": 168980
    },
    {
      "epoch": 0.3520625,
      "grad_norm": 0.789513885974884,
      "learning_rate": 0.00021837073855289393,
      "loss": 3.8867,
      "step": 168990
    },
    {
      "epoch": 0.35208333333333336,
      "grad_norm": 0.7001689076423645,
      "learning_rate": 0.00021836196350613713,
      "loss": 3.848,
      "step": 169000
    },
    {
      "epoch": 0.35208333333333336,
      "eval_loss": 4.1927900314331055,
      "eval_runtime": 9.3128,
      "eval_samples_per_second": 1.074,
      "eval_steps_per_second": 0.322,
      "step": 169000
    },
    {
      "epoch": 0.35210416666666666,
      "grad_norm": 0.6902575492858887,
      "learning_rate": 0.00021835318816408372,
      "loss": 3.9215,
      "step": 169010
    },
    {
      "epoch": 0.352125,
      "grad_norm": 0.8167562484741211,
      "learning_rate": 0.00021834441252677165,
      "loss": 3.6981,
      "step": 169020
    },
    {
      "epoch": 0.3521458333333333,
      "grad_norm": 0.8487328290939331,
      "learning_rate": 0.0002183356365942387,
      "loss": 3.8733,
      "step": 169030
    },
    {
      "epoch": 0.3521666666666667,
      "grad_norm": 0.9210008978843689,
      "learning_rate": 0.0002183268603665229,
      "loss": 3.8296,
      "step": 169040
    },
    {
      "epoch": 0.3521875,
      "grad_norm": 0.8262609839439392,
      "learning_rate": 0.00021831808384366208,
      "loss": 3.8661,
      "step": 169050
    },
    {
      "epoch": 0.35220833333333335,
      "grad_norm": 0.9338645339012146,
      "learning_rate": 0.00021830930702569417,
      "loss": 3.7295,
      "step": 169060
    },
    {
      "epoch": 0.35222916666666665,
      "grad_norm": 0.7972855567932129,
      "learning_rate": 0.0002183005299126571,
      "loss": 3.8945,
      "step": 169070
    },
    {
      "epoch": 0.35225,
      "grad_norm": 0.8481482267379761,
      "learning_rate": 0.00021829175250458885,
      "loss": 3.8805,
      "step": 169080
    },
    {
      "epoch": 0.3522708333333333,
      "grad_norm": 0.7369168996810913,
      "learning_rate": 0.00021828297480152716,
      "loss": 3.7838,
      "step": 169090
    },
    {
      "epoch": 0.35229166666666667,
      "grad_norm": 0.9283992648124695,
      "learning_rate": 0.00021827419680351008,
      "loss": 3.8215,
      "step": 169100
    },
    {
      "epoch": 0.3523125,
      "grad_norm": 0.8861141204833984,
      "learning_rate": 0.00021826541851057552,
      "loss": 3.9288,
      "step": 169110
    },
    {
      "epoch": 0.35233333333333333,
      "grad_norm": 0.7892493009567261,
      "learning_rate": 0.00021825663992276135,
      "loss": 3.9182,
      "step": 169120
    },
    {
      "epoch": 0.3523541666666667,
      "grad_norm": 0.8681371808052063,
      "learning_rate": 0.0002182478610401055,
      "loss": 3.8123,
      "step": 169130
    },
    {
      "epoch": 0.352375,
      "grad_norm": 0.9405843019485474,
      "learning_rate": 0.0002182390818626459,
      "loss": 3.8779,
      "step": 169140
    },
    {
      "epoch": 0.35239583333333335,
      "grad_norm": 0.8989017009735107,
      "learning_rate": 0.00021823030239042054,
      "loss": 3.9579,
      "step": 169150
    },
    {
      "epoch": 0.35241666666666666,
      "grad_norm": 0.808483898639679,
      "learning_rate": 0.00021822152262346723,
      "loss": 3.7376,
      "step": 169160
    },
    {
      "epoch": 0.3524375,
      "grad_norm": 0.7289925217628479,
      "learning_rate": 0.00021821274256182395,
      "loss": 3.7863,
      "step": 169170
    },
    {
      "epoch": 0.3524583333333333,
      "grad_norm": 1.039617657661438,
      "learning_rate": 0.00021820396220552862,
      "loss": 3.5439,
      "step": 169180
    },
    {
      "epoch": 0.3524791666666667,
      "grad_norm": 0.8995776176452637,
      "learning_rate": 0.0002181951815546192,
      "loss": 3.8625,
      "step": 169190
    },
    {
      "epoch": 0.3525,
      "grad_norm": 0.7502321004867554,
      "learning_rate": 0.00021818640060913353,
      "loss": 3.8671,
      "step": 169200
    },
    {
      "epoch": 0.35252083333333334,
      "grad_norm": 0.7400725483894348,
      "learning_rate": 0.00021817761936910964,
      "loss": 3.6463,
      "step": 169210
    },
    {
      "epoch": 0.35254166666666664,
      "grad_norm": 0.7594953179359436,
      "learning_rate": 0.00021816883783458543,
      "loss": 3.8731,
      "step": 169220
    },
    {
      "epoch": 0.3525625,
      "grad_norm": 0.6913808584213257,
      "learning_rate": 0.00021816005600559882,
      "loss": 3.6787,
      "step": 169230
    },
    {
      "epoch": 0.35258333333333336,
      "grad_norm": 0.717353105545044,
      "learning_rate": 0.00021815127388218771,
      "loss": 3.7118,
      "step": 169240
    },
    {
      "epoch": 0.35260416666666666,
      "grad_norm": 0.7685366272926331,
      "learning_rate": 0.00021814249146439013,
      "loss": 3.8051,
      "step": 169250
    },
    {
      "epoch": 0.352625,
      "grad_norm": 0.8894745111465454,
      "learning_rate": 0.00021813370875224393,
      "loss": 3.8334,
      "step": 169260
    },
    {
      "epoch": 0.3526458333333333,
      "grad_norm": 0.8827130198478699,
      "learning_rate": 0.0002181249257457871,
      "loss": 3.8672,
      "step": 169270
    },
    {
      "epoch": 0.3526666666666667,
      "grad_norm": 0.8582818508148193,
      "learning_rate": 0.00021811614244505754,
      "loss": 3.8053,
      "step": 169280
    },
    {
      "epoch": 0.3526875,
      "grad_norm": 0.7569517493247986,
      "learning_rate": 0.00021810735885009316,
      "loss": 3.9159,
      "step": 169290
    },
    {
      "epoch": 0.35270833333333335,
      "grad_norm": 0.6708624362945557,
      "learning_rate": 0.00021809857496093199,
      "loss": 3.9932,
      "step": 169300
    },
    {
      "epoch": 0.35272916666666665,
      "grad_norm": 0.7354157567024231,
      "learning_rate": 0.00021808979077761194,
      "loss": 3.9041,
      "step": 169310
    },
    {
      "epoch": 0.35275,
      "grad_norm": 0.7436581254005432,
      "learning_rate": 0.00021808100630017093,
      "loss": 3.7908,
      "step": 169320
    },
    {
      "epoch": 0.3527708333333333,
      "grad_norm": 0.7069351673126221,
      "learning_rate": 0.00021807222152864694,
      "loss": 3.9267,
      "step": 169330
    },
    {
      "epoch": 0.35279166666666667,
      "grad_norm": 0.7651156187057495,
      "learning_rate": 0.00021806343646307787,
      "loss": 3.7668,
      "step": 169340
    },
    {
      "epoch": 0.3528125,
      "grad_norm": 0.7032870650291443,
      "learning_rate": 0.00021805465110350173,
      "loss": 3.8155,
      "step": 169350
    },
    {
      "epoch": 0.35283333333333333,
      "grad_norm": 0.859806478023529,
      "learning_rate": 0.00021804586544995645,
      "loss": 3.8151,
      "step": 169360
    },
    {
      "epoch": 0.3528541666666667,
      "grad_norm": 0.882222056388855,
      "learning_rate": 0.0002180370795024799,
      "loss": 3.954,
      "step": 169370
    },
    {
      "epoch": 0.352875,
      "grad_norm": 0.744295597076416,
      "learning_rate": 0.00021802829326111013,
      "loss": 3.7511,
      "step": 169380
    },
    {
      "epoch": 0.35289583333333335,
      "grad_norm": 0.9316070079803467,
      "learning_rate": 0.00021801950672588506,
      "loss": 3.8029,
      "step": 169390
    },
    {
      "epoch": 0.35291666666666666,
      "grad_norm": 0.7592847347259521,
      "learning_rate": 0.0002180107198968426,
      "loss": 3.9071,
      "step": 169400
    },
    {
      "epoch": 0.3529375,
      "grad_norm": 0.7189452052116394,
      "learning_rate": 0.00021800193277402084,
      "loss": 3.8864,
      "step": 169410
    },
    {
      "epoch": 0.3529583333333333,
      "grad_norm": 0.7448237538337708,
      "learning_rate": 0.00021799314535745764,
      "loss": 3.7987,
      "step": 169420
    },
    {
      "epoch": 0.3529791666666667,
      "grad_norm": 0.7717031836509705,
      "learning_rate": 0.00021798435764719092,
      "loss": 3.7947,
      "step": 169430
    },
    {
      "epoch": 0.353,
      "grad_norm": 0.8097174167633057,
      "learning_rate": 0.0002179755696432587,
      "loss": 3.7346,
      "step": 169440
    },
    {
      "epoch": 0.35302083333333334,
      "grad_norm": 0.8521766066551208,
      "learning_rate": 0.0002179667813456989,
      "loss": 4.0351,
      "step": 169450
    },
    {
      "epoch": 0.35304166666666664,
      "grad_norm": 0.714692234992981,
      "learning_rate": 0.00021795799275454953,
      "loss": 3.795,
      "step": 169460
    },
    {
      "epoch": 0.3530625,
      "grad_norm": 0.8911398649215698,
      "learning_rate": 0.00021794920386984852,
      "loss": 3.7758,
      "step": 169470
    },
    {
      "epoch": 0.35308333333333336,
      "grad_norm": 0.7789497971534729,
      "learning_rate": 0.00021794041469163386,
      "loss": 4.012,
      "step": 169480
    },
    {
      "epoch": 0.35310416666666666,
      "grad_norm": 0.7288556694984436,
      "learning_rate": 0.0002179316252199435,
      "loss": 3.8461,
      "step": 169490
    },
    {
      "epoch": 0.353125,
      "grad_norm": 0.9227260947227478,
      "learning_rate": 0.00021792283545481541,
      "loss": 3.9777,
      "step": 169500
    },
    {
      "epoch": 0.3531458333333333,
      "grad_norm": 0.7522095441818237,
      "learning_rate": 0.00021791404539628755,
      "loss": 3.9029,
      "step": 169510
    },
    {
      "epoch": 0.3531666666666667,
      "grad_norm": 0.7815640568733215,
      "learning_rate": 0.0002179052550443979,
      "loss": 3.7809,
      "step": 169520
    },
    {
      "epoch": 0.3531875,
      "grad_norm": 0.8127781748771667,
      "learning_rate": 0.00021789646439918442,
      "loss": 3.6408,
      "step": 169530
    },
    {
      "epoch": 0.35320833333333335,
      "grad_norm": 0.7056199312210083,
      "learning_rate": 0.0002178876734606851,
      "loss": 3.7859,
      "step": 169540
    },
    {
      "epoch": 0.35322916666666665,
      "grad_norm": 0.7978252172470093,
      "learning_rate": 0.00021787888222893784,
      "loss": 3.8201,
      "step": 169550
    },
    {
      "epoch": 0.35325,
      "grad_norm": 0.9166446924209595,
      "learning_rate": 0.00021787009070398078,
      "loss": 3.8626,
      "step": 169560
    },
    {
      "epoch": 0.3532708333333333,
      "grad_norm": 0.7803662419319153,
      "learning_rate": 0.00021786129888585172,
      "loss": 3.9031,
      "step": 169570
    },
    {
      "epoch": 0.35329166666666667,
      "grad_norm": 0.8215962648391724,
      "learning_rate": 0.00021785250677458878,
      "loss": 3.8239,
      "step": 169580
    },
    {
      "epoch": 0.3533125,
      "grad_norm": 0.9009436964988708,
      "learning_rate": 0.00021784371437022984,
      "loss": 3.7919,
      "step": 169590
    },
    {
      "epoch": 0.35333333333333333,
      "grad_norm": 0.8614298105239868,
      "learning_rate": 0.00021783492167281283,
      "loss": 3.9863,
      "step": 169600
    },
    {
      "epoch": 0.3533541666666667,
      "grad_norm": 0.79803866147995,
      "learning_rate": 0.0002178261286823759,
      "loss": 3.7934,
      "step": 169610
    },
    {
      "epoch": 0.353375,
      "grad_norm": 0.8129898905754089,
      "learning_rate": 0.00021781733539895693,
      "loss": 3.827,
      "step": 169620
    },
    {
      "epoch": 0.35339583333333335,
      "grad_norm": 0.7329975962638855,
      "learning_rate": 0.0002178085418225939,
      "loss": 3.9049,
      "step": 169630
    },
    {
      "epoch": 0.35341666666666666,
      "grad_norm": 0.7052565813064575,
      "learning_rate": 0.00021779974795332478,
      "loss": 3.834,
      "step": 169640
    },
    {
      "epoch": 0.3534375,
      "grad_norm": 0.9082964062690735,
      "learning_rate": 0.00021779095379118762,
      "loss": 3.7587,
      "step": 169650
    },
    {
      "epoch": 0.3534583333333333,
      "grad_norm": 0.9457945823669434,
      "learning_rate": 0.00021778215933622038,
      "loss": 3.7905,
      "step": 169660
    },
    {
      "epoch": 0.3534791666666667,
      "grad_norm": 0.7487189173698425,
      "learning_rate": 0.00021777336458846103,
      "loss": 3.9852,
      "step": 169670
    },
    {
      "epoch": 0.3535,
      "grad_norm": 0.7942312359809875,
      "learning_rate": 0.00021776456954794755,
      "loss": 3.8837,
      "step": 169680
    },
    {
      "epoch": 0.35352083333333334,
      "grad_norm": 0.7665529251098633,
      "learning_rate": 0.00021775577421471798,
      "loss": 3.9096,
      "step": 169690
    },
    {
      "epoch": 0.35354166666666664,
      "grad_norm": 0.8510206937789917,
      "learning_rate": 0.00021774697858881027,
      "loss": 3.9366,
      "step": 169700
    },
    {
      "epoch": 0.3535625,
      "grad_norm": 0.8436992168426514,
      "learning_rate": 0.00021773818267026244,
      "loss": 3.65,
      "step": 169710
    },
    {
      "epoch": 0.35358333333333336,
      "grad_norm": 0.6912271976470947,
      "learning_rate": 0.0002177293864591125,
      "loss": 3.6385,
      "step": 169720
    },
    {
      "epoch": 0.35360416666666666,
      "grad_norm": 0.7905610203742981,
      "learning_rate": 0.00021772058995539839,
      "loss": 3.647,
      "step": 169730
    },
    {
      "epoch": 0.353625,
      "grad_norm": 0.8234629034996033,
      "learning_rate": 0.0002177117931591581,
      "loss": 3.8159,
      "step": 169740
    },
    {
      "epoch": 0.3536458333333333,
      "grad_norm": 0.8020646572113037,
      "learning_rate": 0.00021770299607042973,
      "loss": 3.9783,
      "step": 169750
    },
    {
      "epoch": 0.3536666666666667,
      "grad_norm": 0.7847670316696167,
      "learning_rate": 0.0002176941986892512,
      "loss": 3.7709,
      "step": 169760
    },
    {
      "epoch": 0.3536875,
      "grad_norm": 0.7566909790039062,
      "learning_rate": 0.00021768540101566047,
      "loss": 3.8367,
      "step": 169770
    },
    {
      "epoch": 0.35370833333333335,
      "grad_norm": 0.6981525421142578,
      "learning_rate": 0.00021767660304969566,
      "loss": 4.0003,
      "step": 169780
    },
    {
      "epoch": 0.35372916666666665,
      "grad_norm": 0.7057076096534729,
      "learning_rate": 0.0002176678047913947,
      "loss": 3.8869,
      "step": 169790
    },
    {
      "epoch": 0.35375,
      "grad_norm": 0.7103716731071472,
      "learning_rate": 0.00021765900624079562,
      "loss": 3.7057,
      "step": 169800
    },
    {
      "epoch": 0.3537708333333333,
      "grad_norm": 0.6952957510948181,
      "learning_rate": 0.00021765020739793642,
      "loss": 3.8206,
      "step": 169810
    },
    {
      "epoch": 0.35379166666666667,
      "grad_norm": 0.7810378074645996,
      "learning_rate": 0.00021764140826285505,
      "loss": 3.7592,
      "step": 169820
    },
    {
      "epoch": 0.3538125,
      "grad_norm": 0.8735611438751221,
      "learning_rate": 0.00021763260883558963,
      "loss": 3.7248,
      "step": 169830
    },
    {
      "epoch": 0.35383333333333333,
      "grad_norm": 0.7723455429077148,
      "learning_rate": 0.00021762380911617807,
      "loss": 3.782,
      "step": 169840
    },
    {
      "epoch": 0.3538541666666667,
      "grad_norm": 0.7826094031333923,
      "learning_rate": 0.00021761500910465843,
      "loss": 3.8988,
      "step": 169850
    },
    {
      "epoch": 0.353875,
      "grad_norm": 0.9207131862640381,
      "learning_rate": 0.00021760620880106874,
      "loss": 3.7378,
      "step": 169860
    },
    {
      "epoch": 0.35389583333333335,
      "grad_norm": 0.808520495891571,
      "learning_rate": 0.00021759740820544697,
      "loss": 3.8307,
      "step": 169870
    },
    {
      "epoch": 0.35391666666666666,
      "grad_norm": 0.8119993209838867,
      "learning_rate": 0.00021758860731783112,
      "loss": 3.922,
      "step": 169880
    },
    {
      "epoch": 0.3539375,
      "grad_norm": 0.6917045712471008,
      "learning_rate": 0.0002175798061382593,
      "loss": 4.0023,
      "step": 169890
    },
    {
      "epoch": 0.3539583333333333,
      "grad_norm": 0.7790599465370178,
      "learning_rate": 0.00021757100466676942,
      "loss": 4.0416,
      "step": 169900
    },
    {
      "epoch": 0.3539791666666667,
      "grad_norm": 0.7876489758491516,
      "learning_rate": 0.00021756220290339957,
      "loss": 3.7798,
      "step": 169910
    },
    {
      "epoch": 0.354,
      "grad_norm": 0.9040383696556091,
      "learning_rate": 0.00021755340084818775,
      "loss": 3.6352,
      "step": 169920
    },
    {
      "epoch": 0.35402083333333334,
      "grad_norm": 0.7407520413398743,
      "learning_rate": 0.00021754459850117198,
      "loss": 3.677,
      "step": 169930
    },
    {
      "epoch": 0.35404166666666664,
      "grad_norm": 0.8185041546821594,
      "learning_rate": 0.00021753579586239022,
      "loss": 3.9835,
      "step": 169940
    },
    {
      "epoch": 0.3540625,
      "grad_norm": 0.7647123336791992,
      "learning_rate": 0.00021752699293188063,
      "loss": 3.9717,
      "step": 169950
    },
    {
      "epoch": 0.35408333333333336,
      "grad_norm": 0.7791711091995239,
      "learning_rate": 0.00021751818970968116,
      "loss": 3.8561,
      "step": 169960
    },
    {
      "epoch": 0.35410416666666666,
      "grad_norm": 0.7463107109069824,
      "learning_rate": 0.00021750938619582977,
      "loss": 3.8676,
      "step": 169970
    },
    {
      "epoch": 0.354125,
      "grad_norm": 0.8642618656158447,
      "learning_rate": 0.00021750058239036461,
      "loss": 4.0424,
      "step": 169980
    },
    {
      "epoch": 0.3541458333333333,
      "grad_norm": 0.8355994820594788,
      "learning_rate": 0.00021749177829332364,
      "loss": 3.8175,
      "step": 169990
    },
    {
      "epoch": 0.3541666666666667,
      "grad_norm": 0.7148061990737915,
      "learning_rate": 0.0002174829739047449,
      "loss": 3.9466,
      "step": 170000
    },
    {
      "epoch": 0.3541666666666667,
      "eval_loss": 4.186801910400391,
      "eval_runtime": 10.0617,
      "eval_samples_per_second": 0.994,
      "eval_steps_per_second": 0.298,
      "step": 170000
    },
    {
      "epoch": 0.3541875,
      "grad_norm": 0.7795248627662659,
      "learning_rate": 0.00021747416922466642,
      "loss": 3.9467,
      "step": 170010
    },
    {
      "epoch": 0.35420833333333335,
      "grad_norm": 0.907346248626709,
      "learning_rate": 0.00021746536425312624,
      "loss": 3.9463,
      "step": 170020
    },
    {
      "epoch": 0.35422916666666665,
      "grad_norm": 0.8165323734283447,
      "learning_rate": 0.00021745655899016239,
      "loss": 3.8967,
      "step": 170030
    },
    {
      "epoch": 0.35425,
      "grad_norm": 0.746246874332428,
      "learning_rate": 0.0002174477534358129,
      "loss": 3.9356,
      "step": 170040
    },
    {
      "epoch": 0.3542708333333333,
      "grad_norm": 0.7406617999076843,
      "learning_rate": 0.00021743894759011583,
      "loss": 3.9082,
      "step": 170050
    },
    {
      "epoch": 0.35429166666666667,
      "grad_norm": 0.7056885361671448,
      "learning_rate": 0.00021743014145310922,
      "loss": 3.8822,
      "step": 170060
    },
    {
      "epoch": 0.3543125,
      "grad_norm": 0.7329480648040771,
      "learning_rate": 0.00021742133502483104,
      "loss": 3.7883,
      "step": 170070
    },
    {
      "epoch": 0.35433333333333333,
      "grad_norm": 0.8410901427268982,
      "learning_rate": 0.00021741252830531938,
      "loss": 3.9954,
      "step": 170080
    },
    {
      "epoch": 0.3543541666666667,
      "grad_norm": 0.8827375173568726,
      "learning_rate": 0.00021740372129461235,
      "loss": 3.9124,
      "step": 170090
    },
    {
      "epoch": 0.354375,
      "grad_norm": 0.8363715410232544,
      "learning_rate": 0.00021739491399274785,
      "loss": 4.0791,
      "step": 170100
    },
    {
      "epoch": 0.35439583333333335,
      "grad_norm": 0.751895546913147,
      "learning_rate": 0.000217386106399764,
      "loss": 3.9558,
      "step": 170110
    },
    {
      "epoch": 0.35441666666666666,
      "grad_norm": 0.8064751029014587,
      "learning_rate": 0.00021737729851569888,
      "loss": 3.9663,
      "step": 170120
    },
    {
      "epoch": 0.3544375,
      "grad_norm": 0.8099102973937988,
      "learning_rate": 0.00021736849034059052,
      "loss": 3.6206,
      "step": 170130
    },
    {
      "epoch": 0.3544583333333333,
      "grad_norm": 0.8266770839691162,
      "learning_rate": 0.0002173596818744769,
      "loss": 3.8608,
      "step": 170140
    },
    {
      "epoch": 0.3544791666666667,
      "grad_norm": 0.7433342337608337,
      "learning_rate": 0.00021735087311739614,
      "loss": 3.9402,
      "step": 170150
    },
    {
      "epoch": 0.3545,
      "grad_norm": 0.7811728715896606,
      "learning_rate": 0.00021734206406938628,
      "loss": 3.8176,
      "step": 170160
    },
    {
      "epoch": 0.35452083333333334,
      "grad_norm": 0.8531693816184998,
      "learning_rate": 0.00021733325473048532,
      "loss": 3.8084,
      "step": 170170
    },
    {
      "epoch": 0.35454166666666664,
      "grad_norm": 0.7095775604248047,
      "learning_rate": 0.00021732444510073136,
      "loss": 3.7178,
      "step": 170180
    },
    {
      "epoch": 0.3545625,
      "grad_norm": 0.9292476773262024,
      "learning_rate": 0.00021731563518016247,
      "loss": 3.8317,
      "step": 170190
    },
    {
      "epoch": 0.3545833333333333,
      "grad_norm": 0.842892587184906,
      "learning_rate": 0.00021730682496881666,
      "loss": 3.8124,
      "step": 170200
    },
    {
      "epoch": 0.35460416666666666,
      "grad_norm": 0.7712689638137817,
      "learning_rate": 0.00021729801446673203,
      "loss": 3.9039,
      "step": 170210
    },
    {
      "epoch": 0.354625,
      "grad_norm": 0.7765947580337524,
      "learning_rate": 0.0002172892036739466,
      "loss": 3.9664,
      "step": 170220
    },
    {
      "epoch": 0.3546458333333333,
      "grad_norm": 0.9089552164077759,
      "learning_rate": 0.00021728039259049847,
      "loss": 3.9546,
      "step": 170230
    },
    {
      "epoch": 0.3546666666666667,
      "grad_norm": 1.0879616737365723,
      "learning_rate": 0.00021727158121642563,
      "loss": 3.7053,
      "step": 170240
    },
    {
      "epoch": 0.3546875,
      "grad_norm": 0.7305189967155457,
      "learning_rate": 0.0002172627695517662,
      "loss": 3.8965,
      "step": 170250
    },
    {
      "epoch": 0.35470833333333335,
      "grad_norm": 0.6358845233917236,
      "learning_rate": 0.00021725395759655827,
      "loss": 3.7705,
      "step": 170260
    },
    {
      "epoch": 0.35472916666666665,
      "grad_norm": 0.8809435367584229,
      "learning_rate": 0.0002172451453508398,
      "loss": 3.8552,
      "step": 170270
    },
    {
      "epoch": 0.35475,
      "grad_norm": 0.9004581570625305,
      "learning_rate": 0.00021723633281464896,
      "loss": 3.8177,
      "step": 170280
    },
    {
      "epoch": 0.3547708333333333,
      "grad_norm": 0.755210280418396,
      "learning_rate": 0.0002172275199880238,
      "loss": 3.7766,
      "step": 170290
    },
    {
      "epoch": 0.35479166666666667,
      "grad_norm": 0.7437055110931396,
      "learning_rate": 0.00021721870687100233,
      "loss": 3.9068,
      "step": 170300
    },
    {
      "epoch": 0.3548125,
      "grad_norm": 0.859151303768158,
      "learning_rate": 0.00021720989346362264,
      "loss": 3.697,
      "step": 170310
    },
    {
      "epoch": 0.35483333333333333,
      "grad_norm": 0.6698724627494812,
      "learning_rate": 0.00021720107976592285,
      "loss": 3.8924,
      "step": 170320
    },
    {
      "epoch": 0.3548541666666667,
      "grad_norm": 0.788696825504303,
      "learning_rate": 0.00021719226577794097,
      "loss": 3.9125,
      "step": 170330
    },
    {
      "epoch": 0.354875,
      "grad_norm": 0.8094238042831421,
      "learning_rate": 0.0002171834514997151,
      "loss": 3.8785,
      "step": 170340
    },
    {
      "epoch": 0.35489583333333335,
      "grad_norm": 0.688413143157959,
      "learning_rate": 0.00021717463693128331,
      "loss": 3.8272,
      "step": 170350
    },
    {
      "epoch": 0.35491666666666666,
      "grad_norm": 0.7322277426719666,
      "learning_rate": 0.0002171658220726837,
      "loss": 3.8106,
      "step": 170360
    },
    {
      "epoch": 0.3549375,
      "grad_norm": 0.6806495785713196,
      "learning_rate": 0.0002171570069239543,
      "loss": 3.777,
      "step": 170370
    },
    {
      "epoch": 0.3549583333333333,
      "grad_norm": 0.8494377732276917,
      "learning_rate": 0.00021714819148513324,
      "loss": 3.7514,
      "step": 170380
    },
    {
      "epoch": 0.3549791666666667,
      "grad_norm": 0.9161635041236877,
      "learning_rate": 0.00021713937575625856,
      "loss": 3.7395,
      "step": 170390
    },
    {
      "epoch": 0.355,
      "grad_norm": 0.9808797240257263,
      "learning_rate": 0.00021713055973736833,
      "loss": 3.7752,
      "step": 170400
    },
    {
      "epoch": 0.35502083333333334,
      "grad_norm": 0.9133126735687256,
      "learning_rate": 0.0002171217434285007,
      "loss": 3.9353,
      "step": 170410
    },
    {
      "epoch": 0.35504166666666664,
      "grad_norm": 1.0163300037384033,
      "learning_rate": 0.00021711292682969366,
      "loss": 3.9113,
      "step": 170420
    },
    {
      "epoch": 0.3550625,
      "grad_norm": 0.819246768951416,
      "learning_rate": 0.0002171041099409854,
      "loss": 3.8608,
      "step": 170430
    },
    {
      "epoch": 0.3550833333333333,
      "grad_norm": 0.8387649059295654,
      "learning_rate": 0.00021709529276241386,
      "loss": 3.7487,
      "step": 170440
    },
    {
      "epoch": 0.35510416666666667,
      "grad_norm": 0.9025372266769409,
      "learning_rate": 0.0002170864752940173,
      "loss": 3.7472,
      "step": 170450
    },
    {
      "epoch": 0.355125,
      "grad_norm": 0.7382306456565857,
      "learning_rate": 0.00021707765753583368,
      "loss": 3.8421,
      "step": 170460
    },
    {
      "epoch": 0.3551458333333333,
      "grad_norm": 0.8994043469429016,
      "learning_rate": 0.0002170688394879011,
      "loss": 3.7913,
      "step": 170470
    },
    {
      "epoch": 0.3551666666666667,
      "grad_norm": 0.8370248079299927,
      "learning_rate": 0.00021706002115025775,
      "loss": 3.783,
      "step": 170480
    },
    {
      "epoch": 0.3551875,
      "grad_norm": 0.8027362823486328,
      "learning_rate": 0.00021705120252294162,
      "loss": 3.9008,
      "step": 170490
    },
    {
      "epoch": 0.35520833333333335,
      "grad_norm": 0.796913206577301,
      "learning_rate": 0.0002170423836059908,
      "loss": 3.6297,
      "step": 170500
    },
    {
      "epoch": 0.35522916666666665,
      "grad_norm": 0.8544180989265442,
      "learning_rate": 0.00021703356439944346,
      "loss": 3.956,
      "step": 170510
    },
    {
      "epoch": 0.35525,
      "grad_norm": 0.9014685750007629,
      "learning_rate": 0.00021702474490333762,
      "loss": 3.9153,
      "step": 170520
    },
    {
      "epoch": 0.3552708333333333,
      "grad_norm": 0.7765244841575623,
      "learning_rate": 0.00021701592511771148,
      "loss": 3.8934,
      "step": 170530
    },
    {
      "epoch": 0.3552916666666667,
      "grad_norm": 0.7719725966453552,
      "learning_rate": 0.00021700710504260302,
      "loss": 3.8012,
      "step": 170540
    },
    {
      "epoch": 0.3553125,
      "grad_norm": 0.7712368965148926,
      "learning_rate": 0.00021699828467805038,
      "loss": 3.9235,
      "step": 170550
    },
    {
      "epoch": 0.35533333333333333,
      "grad_norm": 0.734866201877594,
      "learning_rate": 0.0002169894640240917,
      "loss": 3.7141,
      "step": 170560
    },
    {
      "epoch": 0.3553541666666667,
      "grad_norm": 1.0474754571914673,
      "learning_rate": 0.00021698064308076504,
      "loss": 3.7279,
      "step": 170570
    },
    {
      "epoch": 0.355375,
      "grad_norm": 0.783966600894928,
      "learning_rate": 0.0002169718218481085,
      "loss": 3.9752,
      "step": 170580
    },
    {
      "epoch": 0.35539583333333336,
      "grad_norm": 0.777582049369812,
      "learning_rate": 0.00021696300032616024,
      "loss": 3.8207,
      "step": 170590
    },
    {
      "epoch": 0.35541666666666666,
      "grad_norm": 0.6418943405151367,
      "learning_rate": 0.00021695417851495832,
      "loss": 3.9069,
      "step": 170600
    },
    {
      "epoch": 0.3554375,
      "grad_norm": 0.7556145787239075,
      "learning_rate": 0.00021694535641454083,
      "loss": 3.6623,
      "step": 170610
    },
    {
      "epoch": 0.3554583333333333,
      "grad_norm": 0.8166166543960571,
      "learning_rate": 0.0002169365340249459,
      "loss": 3.8488,
      "step": 170620
    },
    {
      "epoch": 0.3554791666666667,
      "grad_norm": 0.6677391529083252,
      "learning_rate": 0.00021692771134621165,
      "loss": 3.9632,
      "step": 170630
    },
    {
      "epoch": 0.3555,
      "grad_norm": 0.7161117196083069,
      "learning_rate": 0.00021691888837837612,
      "loss": 3.7165,
      "step": 170640
    },
    {
      "epoch": 0.35552083333333334,
      "grad_norm": 0.8611802458763123,
      "learning_rate": 0.00021691006512147756,
      "loss": 3.9847,
      "step": 170650
    },
    {
      "epoch": 0.35554166666666664,
      "grad_norm": 0.9797833561897278,
      "learning_rate": 0.00021690124157555397,
      "loss": 4.0015,
      "step": 170660
    },
    {
      "epoch": 0.3555625,
      "grad_norm": 0.7651471495628357,
      "learning_rate": 0.0002168924177406435,
      "loss": 3.8505,
      "step": 170670
    },
    {
      "epoch": 0.3555833333333333,
      "grad_norm": 0.7694520354270935,
      "learning_rate": 0.00021688359361678424,
      "loss": 3.9153,
      "step": 170680
    },
    {
      "epoch": 0.35560416666666667,
      "grad_norm": 0.929772675037384,
      "learning_rate": 0.00021687476920401438,
      "loss": 3.9508,
      "step": 170690
    },
    {
      "epoch": 0.355625,
      "grad_norm": 0.7989639043807983,
      "learning_rate": 0.00021686594450237196,
      "loss": 3.8546,
      "step": 170700
    },
    {
      "epoch": 0.3556458333333333,
      "grad_norm": 0.8614038228988647,
      "learning_rate": 0.0002168571195118951,
      "loss": 3.8048,
      "step": 170710
    },
    {
      "epoch": 0.3556666666666667,
      "grad_norm": 0.7689480781555176,
      "learning_rate": 0.000216848294232622,
      "loss": 3.8854,
      "step": 170720
    },
    {
      "epoch": 0.3556875,
      "grad_norm": 0.6642798781394958,
      "learning_rate": 0.00021683946866459075,
      "loss": 3.7499,
      "step": 170730
    },
    {
      "epoch": 0.35570833333333335,
      "grad_norm": 0.7759451866149902,
      "learning_rate": 0.00021683064280783934,
      "loss": 3.7883,
      "step": 170740
    },
    {
      "epoch": 0.35572916666666665,
      "grad_norm": 0.7321460843086243,
      "learning_rate": 0.0002168218166624061,
      "loss": 3.8947,
      "step": 170750
    },
    {
      "epoch": 0.35575,
      "grad_norm": 0.9117176532745361,
      "learning_rate": 0.00021681299022832903,
      "loss": 3.784,
      "step": 170760
    },
    {
      "epoch": 0.3557708333333333,
      "grad_norm": 0.7772862911224365,
      "learning_rate": 0.00021680416350564627,
      "loss": 3.7982,
      "step": 170770
    },
    {
      "epoch": 0.3557916666666667,
      "grad_norm": 0.7059112191200256,
      "learning_rate": 0.000216795336494396,
      "loss": 3.9069,
      "step": 170780
    },
    {
      "epoch": 0.3558125,
      "grad_norm": 0.9035604596138,
      "learning_rate": 0.00021678650919461633,
      "loss": 3.6462,
      "step": 170790
    },
    {
      "epoch": 0.35583333333333333,
      "grad_norm": 0.7229377031326294,
      "learning_rate": 0.00021677768160634537,
      "loss": 3.8107,
      "step": 170800
    },
    {
      "epoch": 0.3558541666666667,
      "grad_norm": 0.8743301630020142,
      "learning_rate": 0.0002167688537296212,
      "loss": 3.8114,
      "step": 170810
    },
    {
      "epoch": 0.355875,
      "grad_norm": 0.8480757474899292,
      "learning_rate": 0.00021676002556448204,
      "loss": 3.8031,
      "step": 170820
    },
    {
      "epoch": 0.35589583333333336,
      "grad_norm": 0.808906614780426,
      "learning_rate": 0.00021675119711096606,
      "loss": 3.8477,
      "step": 170830
    },
    {
      "epoch": 0.35591666666666666,
      "grad_norm": 0.7724742889404297,
      "learning_rate": 0.00021674236836911122,
      "loss": 4.0262,
      "step": 170840
    },
    {
      "epoch": 0.3559375,
      "grad_norm": 0.7477691173553467,
      "learning_rate": 0.00021673353933895583,
      "loss": 3.8368,
      "step": 170850
    },
    {
      "epoch": 0.3559583333333333,
      "grad_norm": 0.8029183745384216,
      "learning_rate": 0.00021672471002053798,
      "loss": 3.943,
      "step": 170860
    },
    {
      "epoch": 0.3559791666666667,
      "grad_norm": 0.8262468576431274,
      "learning_rate": 0.0002167158804138958,
      "loss": 3.7172,
      "step": 170870
    },
    {
      "epoch": 0.356,
      "grad_norm": 0.7614443302154541,
      "learning_rate": 0.00021670705051906737,
      "loss": 3.7852,
      "step": 170880
    },
    {
      "epoch": 0.35602083333333334,
      "grad_norm": 0.867024838924408,
      "learning_rate": 0.00021669822033609093,
      "loss": 3.8373,
      "step": 170890
    },
    {
      "epoch": 0.35604166666666665,
      "grad_norm": 0.6917765140533447,
      "learning_rate": 0.00021668938986500454,
      "loss": 3.751,
      "step": 170900
    },
    {
      "epoch": 0.3560625,
      "grad_norm": 1.0738850831985474,
      "learning_rate": 0.00021668055910584638,
      "loss": 3.7837,
      "step": 170910
    },
    {
      "epoch": 0.3560833333333333,
      "grad_norm": 0.7275873422622681,
      "learning_rate": 0.00021667172805865464,
      "loss": 3.9893,
      "step": 170920
    },
    {
      "epoch": 0.35610416666666667,
      "grad_norm": 0.8390825390815735,
      "learning_rate": 0.00021666289672346743,
      "loss": 3.7955,
      "step": 170930
    },
    {
      "epoch": 0.356125,
      "grad_norm": 0.7613808512687683,
      "learning_rate": 0.00021665406510032285,
      "loss": 3.7937,
      "step": 170940
    },
    {
      "epoch": 0.35614583333333333,
      "grad_norm": 0.8091893792152405,
      "learning_rate": 0.0002166452331892591,
      "loss": 3.8108,
      "step": 170950
    },
    {
      "epoch": 0.3561666666666667,
      "grad_norm": 0.7702656984329224,
      "learning_rate": 0.00021663640099031436,
      "loss": 3.806,
      "step": 170960
    },
    {
      "epoch": 0.3561875,
      "grad_norm": 0.7999383211135864,
      "learning_rate": 0.0002166275685035267,
      "loss": 4.0361,
      "step": 170970
    },
    {
      "epoch": 0.35620833333333335,
      "grad_norm": 0.775665819644928,
      "learning_rate": 0.00021661873572893434,
      "loss": 3.6866,
      "step": 170980
    },
    {
      "epoch": 0.35622916666666665,
      "grad_norm": 0.6766105890274048,
      "learning_rate": 0.00021660990266657545,
      "loss": 4.0602,
      "step": 170990
    },
    {
      "epoch": 0.35625,
      "grad_norm": 0.7407442927360535,
      "learning_rate": 0.0002166010693164881,
      "loss": 3.9217,
      "step": 171000
    },
    {
      "epoch": 0.35625,
      "eval_loss": 4.18755578994751,
      "eval_runtime": 9.5732,
      "eval_samples_per_second": 1.045,
      "eval_steps_per_second": 0.313,
      "step": 171000
    },
    {
      "epoch": 0.3562708333333333,
      "grad_norm": 0.8304513692855835,
      "learning_rate": 0.00021659223567871048,
      "loss": 3.8491,
      "step": 171010
    },
    {
      "epoch": 0.3562916666666667,
      "grad_norm": 1.2318509817123413,
      "learning_rate": 0.0002165834017532808,
      "loss": 3.9812,
      "step": 171020
    },
    {
      "epoch": 0.3563125,
      "grad_norm": 0.8923653960227966,
      "learning_rate": 0.00021657456754023714,
      "loss": 3.9311,
      "step": 171030
    },
    {
      "epoch": 0.35633333333333334,
      "grad_norm": 0.7015069127082825,
      "learning_rate": 0.00021656573303961775,
      "loss": 3.7381,
      "step": 171040
    },
    {
      "epoch": 0.3563541666666667,
      "grad_norm": 0.9467960596084595,
      "learning_rate": 0.0002165568982514607,
      "loss": 3.8319,
      "step": 171050
    },
    {
      "epoch": 0.356375,
      "grad_norm": 0.7249768376350403,
      "learning_rate": 0.00021654806317580422,
      "loss": 3.7259,
      "step": 171060
    },
    {
      "epoch": 0.35639583333333336,
      "grad_norm": 0.8324422240257263,
      "learning_rate": 0.00021653922781268643,
      "loss": 3.7674,
      "step": 171070
    },
    {
      "epoch": 0.35641666666666666,
      "grad_norm": 0.8388000130653381,
      "learning_rate": 0.0002165303921621455,
      "loss": 3.9711,
      "step": 171080
    },
    {
      "epoch": 0.3564375,
      "grad_norm": 0.7928637862205505,
      "learning_rate": 0.00021652155622421963,
      "loss": 3.8818,
      "step": 171090
    },
    {
      "epoch": 0.3564583333333333,
      "grad_norm": 0.8074384331703186,
      "learning_rate": 0.000216512719998947,
      "loss": 4.0532,
      "step": 171100
    },
    {
      "epoch": 0.3564791666666667,
      "grad_norm": 0.7916064858436584,
      "learning_rate": 0.00021650388348636566,
      "loss": 3.9831,
      "step": 171110
    },
    {
      "epoch": 0.3565,
      "grad_norm": 0.8695293068885803,
      "learning_rate": 0.00021649504668651393,
      "loss": 3.9036,
      "step": 171120
    },
    {
      "epoch": 0.35652083333333334,
      "grad_norm": 0.8282192349433899,
      "learning_rate": 0.00021648620959942996,
      "loss": 3.8883,
      "step": 171130
    },
    {
      "epoch": 0.35654166666666665,
      "grad_norm": 0.9058412313461304,
      "learning_rate": 0.0002164773722251518,
      "loss": 3.7786,
      "step": 171140
    },
    {
      "epoch": 0.3565625,
      "grad_norm": 0.7086280584335327,
      "learning_rate": 0.00021646853456371774,
      "loss": 3.7086,
      "step": 171150
    },
    {
      "epoch": 0.3565833333333333,
      "grad_norm": 0.8588946461677551,
      "learning_rate": 0.00021645969661516592,
      "loss": 3.8616,
      "step": 171160
    },
    {
      "epoch": 0.35660416666666667,
      "grad_norm": 0.847454309463501,
      "learning_rate": 0.00021645085837953456,
      "loss": 3.8102,
      "step": 171170
    },
    {
      "epoch": 0.356625,
      "grad_norm": 0.8167685270309448,
      "learning_rate": 0.00021644201985686172,
      "loss": 3.734,
      "step": 171180
    },
    {
      "epoch": 0.35664583333333333,
      "grad_norm": 0.7123497724533081,
      "learning_rate": 0.00021643318104718569,
      "loss": 3.7341,
      "step": 171190
    },
    {
      "epoch": 0.3566666666666667,
      "grad_norm": 0.795920729637146,
      "learning_rate": 0.00021642434195054462,
      "loss": 3.8658,
      "step": 171200
    },
    {
      "epoch": 0.3566875,
      "grad_norm": 0.878296434879303,
      "learning_rate": 0.00021641550256697666,
      "loss": 3.8275,
      "step": 171210
    },
    {
      "epoch": 0.35670833333333335,
      "grad_norm": 0.8962071537971497,
      "learning_rate": 0.00021640666289652005,
      "loss": 3.8977,
      "step": 171220
    },
    {
      "epoch": 0.35672916666666665,
      "grad_norm": 0.8558365702629089,
      "learning_rate": 0.0002163978229392129,
      "loss": 3.8115,
      "step": 171230
    },
    {
      "epoch": 0.35675,
      "grad_norm": 1.1789648532867432,
      "learning_rate": 0.0002163889826950935,
      "loss": 3.9637,
      "step": 171240
    },
    {
      "epoch": 0.3567708333333333,
      "grad_norm": 0.7988648414611816,
      "learning_rate": 0.0002163801421641999,
      "loss": 3.9124,
      "step": 171250
    },
    {
      "epoch": 0.3567916666666667,
      "grad_norm": 0.7232549786567688,
      "learning_rate": 0.0002163713013465704,
      "loss": 3.7947,
      "step": 171260
    },
    {
      "epoch": 0.3568125,
      "grad_norm": 0.8436225652694702,
      "learning_rate": 0.00021636246024224316,
      "loss": 3.9348,
      "step": 171270
    },
    {
      "epoch": 0.35683333333333334,
      "grad_norm": 0.7213591933250427,
      "learning_rate": 0.00021635361885125634,
      "loss": 3.7684,
      "step": 171280
    },
    {
      "epoch": 0.35685416666666664,
      "grad_norm": 0.8987612128257751,
      "learning_rate": 0.00021634477717364812,
      "loss": 3.8188,
      "step": 171290
    },
    {
      "epoch": 0.356875,
      "grad_norm": 0.8905730247497559,
      "learning_rate": 0.0002163359352094568,
      "loss": 3.7354,
      "step": 171300
    },
    {
      "epoch": 0.35689583333333336,
      "grad_norm": 0.783611536026001,
      "learning_rate": 0.00021632709295872044,
      "loss": 3.6527,
      "step": 171310
    },
    {
      "epoch": 0.35691666666666666,
      "grad_norm": 0.9746171832084656,
      "learning_rate": 0.00021631825042147735,
      "loss": 3.9896,
      "step": 171320
    },
    {
      "epoch": 0.3569375,
      "grad_norm": 0.7909724712371826,
      "learning_rate": 0.0002163094075977656,
      "loss": 3.7635,
      "step": 171330
    },
    {
      "epoch": 0.3569583333333333,
      "grad_norm": 0.736318826675415,
      "learning_rate": 0.00021630056448762347,
      "loss": 3.8551,
      "step": 171340
    },
    {
      "epoch": 0.3569791666666667,
      "grad_norm": 1.112504482269287,
      "learning_rate": 0.00021629172109108918,
      "loss": 4.107,
      "step": 171350
    },
    {
      "epoch": 0.357,
      "grad_norm": 0.7568802833557129,
      "learning_rate": 0.00021628287740820088,
      "loss": 3.9474,
      "step": 171360
    },
    {
      "epoch": 0.35702083333333334,
      "grad_norm": 1.0727335214614868,
      "learning_rate": 0.00021627403343899682,
      "loss": 3.7223,
      "step": 171370
    },
    {
      "epoch": 0.35704166666666665,
      "grad_norm": 0.7222302556037903,
      "learning_rate": 0.0002162651891835151,
      "loss": 3.8084,
      "step": 171380
    },
    {
      "epoch": 0.3570625,
      "grad_norm": 0.7180094718933105,
      "learning_rate": 0.000216256344641794,
      "loss": 3.9555,
      "step": 171390
    },
    {
      "epoch": 0.3570833333333333,
      "grad_norm": 0.6568045616149902,
      "learning_rate": 0.00021624749981387175,
      "loss": 3.8292,
      "step": 171400
    },
    {
      "epoch": 0.35710416666666667,
      "grad_norm": 0.8413197994232178,
      "learning_rate": 0.00021623865469978652,
      "loss": 3.7279,
      "step": 171410
    },
    {
      "epoch": 0.357125,
      "grad_norm": 0.7544125914573669,
      "learning_rate": 0.00021622980929957654,
      "loss": 3.8054,
      "step": 171420
    },
    {
      "epoch": 0.35714583333333333,
      "grad_norm": 0.9302235245704651,
      "learning_rate": 0.00021622096361327995,
      "loss": 4.0605,
      "step": 171430
    },
    {
      "epoch": 0.3571666666666667,
      "grad_norm": 1.3506582975387573,
      "learning_rate": 0.00021621211764093502,
      "loss": 3.8677,
      "step": 171440
    },
    {
      "epoch": 0.3571875,
      "grad_norm": 0.6610692739486694,
      "learning_rate": 0.00021620327138257997,
      "loss": 3.6566,
      "step": 171450
    },
    {
      "epoch": 0.35720833333333335,
      "grad_norm": 0.7187556028366089,
      "learning_rate": 0.000216194424838253,
      "loss": 3.7599,
      "step": 171460
    },
    {
      "epoch": 0.35722916666666665,
      "grad_norm": 0.8223905563354492,
      "learning_rate": 0.00021618557800799228,
      "loss": 3.7855,
      "step": 171470
    },
    {
      "epoch": 0.35725,
      "grad_norm": 0.8488779664039612,
      "learning_rate": 0.0002161767308918361,
      "loss": 3.8227,
      "step": 171480
    },
    {
      "epoch": 0.3572708333333333,
      "grad_norm": 0.7980243563652039,
      "learning_rate": 0.00021616788348982263,
      "loss": 3.8226,
      "step": 171490
    },
    {
      "epoch": 0.3572916666666667,
      "grad_norm": 0.757426917552948,
      "learning_rate": 0.0002161590358019901,
      "loss": 3.6433,
      "step": 171500
    },
    {
      "epoch": 0.3573125,
      "grad_norm": 0.8082382678985596,
      "learning_rate": 0.00021615018782837668,
      "loss": 3.9417,
      "step": 171510
    },
    {
      "epoch": 0.35733333333333334,
      "grad_norm": 0.7918637990951538,
      "learning_rate": 0.00021614133956902068,
      "loss": 3.6814,
      "step": 171520
    },
    {
      "epoch": 0.35735416666666664,
      "grad_norm": 0.7734049558639526,
      "learning_rate": 0.00021613249102396027,
      "loss": 3.9655,
      "step": 171530
    },
    {
      "epoch": 0.357375,
      "grad_norm": 0.8908967971801758,
      "learning_rate": 0.0002161236421932336,
      "loss": 3.6478,
      "step": 171540
    },
    {
      "epoch": 0.35739583333333336,
      "grad_norm": 0.8012228012084961,
      "learning_rate": 0.00021611479307687907,
      "loss": 3.8885,
      "step": 171550
    },
    {
      "epoch": 0.35741666666666666,
      "grad_norm": 0.8213210701942444,
      "learning_rate": 0.00021610594367493476,
      "loss": 3.6893,
      "step": 171560
    },
    {
      "epoch": 0.3574375,
      "grad_norm": 0.7922405004501343,
      "learning_rate": 0.00021609709398743895,
      "loss": 3.8224,
      "step": 171570
    },
    {
      "epoch": 0.3574583333333333,
      "grad_norm": 0.7487998604774475,
      "learning_rate": 0.00021608824401442983,
      "loss": 3.7862,
      "step": 171580
    },
    {
      "epoch": 0.3574791666666667,
      "grad_norm": 0.7487429976463318,
      "learning_rate": 0.00021607939375594567,
      "loss": 3.7901,
      "step": 171590
    },
    {
      "epoch": 0.3575,
      "grad_norm": 0.9003725051879883,
      "learning_rate": 0.0002160705432120247,
      "loss": 3.9568,
      "step": 171600
    },
    {
      "epoch": 0.35752083333333334,
      "grad_norm": 0.8158960938453674,
      "learning_rate": 0.00021606169238270516,
      "loss": 3.78,
      "step": 171610
    },
    {
      "epoch": 0.35754166666666665,
      "grad_norm": 0.7608544826507568,
      "learning_rate": 0.00021605284126802518,
      "loss": 3.8687,
      "step": 171620
    },
    {
      "epoch": 0.3575625,
      "grad_norm": 0.7247287034988403,
      "learning_rate": 0.00021604398986802313,
      "loss": 3.8577,
      "step": 171630
    },
    {
      "epoch": 0.3575833333333333,
      "grad_norm": 0.7930618524551392,
      "learning_rate": 0.00021603513818273714,
      "loss": 3.7889,
      "step": 171640
    },
    {
      "epoch": 0.35760416666666667,
      "grad_norm": 0.7824210524559021,
      "learning_rate": 0.00021602628621220554,
      "loss": 3.7141,
      "step": 171650
    },
    {
      "epoch": 0.357625,
      "grad_norm": 0.8271633982658386,
      "learning_rate": 0.0002160174339564665,
      "loss": 3.8211,
      "step": 171660
    },
    {
      "epoch": 0.35764583333333333,
      "grad_norm": 0.7354556918144226,
      "learning_rate": 0.0002160085814155583,
      "loss": 3.7639,
      "step": 171670
    },
    {
      "epoch": 0.3576666666666667,
      "grad_norm": 0.8248004913330078,
      "learning_rate": 0.00021599972858951912,
      "loss": 3.9335,
      "step": 171680
    },
    {
      "epoch": 0.3576875,
      "grad_norm": 0.9584904909133911,
      "learning_rate": 0.00021599087547838727,
      "loss": 3.9293,
      "step": 171690
    },
    {
      "epoch": 0.35770833333333335,
      "grad_norm": 0.7717171907424927,
      "learning_rate": 0.00021598202208220093,
      "loss": 3.9781,
      "step": 171700
    },
    {
      "epoch": 0.35772916666666665,
      "grad_norm": 0.9035296440124512,
      "learning_rate": 0.00021597316840099833,
      "loss": 4.0054,
      "step": 171710
    },
    {
      "epoch": 0.35775,
      "grad_norm": 0.7236071825027466,
      "learning_rate": 0.00021596431443481786,
      "loss": 3.6889,
      "step": 171720
    },
    {
      "epoch": 0.3577708333333333,
      "grad_norm": 0.8212850689888,
      "learning_rate": 0.00021595546018369761,
      "loss": 3.857,
      "step": 171730
    },
    {
      "epoch": 0.3577916666666667,
      "grad_norm": 0.6819809079170227,
      "learning_rate": 0.0002159466056476759,
      "loss": 3.8071,
      "step": 171740
    },
    {
      "epoch": 0.3578125,
      "grad_norm": 0.7835896611213684,
      "learning_rate": 0.00021593775082679093,
      "loss": 3.8534,
      "step": 171750
    },
    {
      "epoch": 0.35783333333333334,
      "grad_norm": 0.7591816782951355,
      "learning_rate": 0.00021592889572108096,
      "loss": 3.919,
      "step": 171760
    },
    {
      "epoch": 0.35785416666666664,
      "grad_norm": 0.7814102172851562,
      "learning_rate": 0.00021592004033058428,
      "loss": 3.7948,
      "step": 171770
    },
    {
      "epoch": 0.357875,
      "grad_norm": 0.7852138876914978,
      "learning_rate": 0.00021591118465533914,
      "loss": 3.8709,
      "step": 171780
    },
    {
      "epoch": 0.35789583333333336,
      "grad_norm": 0.8437865376472473,
      "learning_rate": 0.00021590232869538373,
      "loss": 3.8933,
      "step": 171790
    },
    {
      "epoch": 0.35791666666666666,
      "grad_norm": 0.8362000584602356,
      "learning_rate": 0.0002158934724507564,
      "loss": 3.8515,
      "step": 171800
    },
    {
      "epoch": 0.3579375,
      "grad_norm": 0.9784328937530518,
      "learning_rate": 0.0002158846159214953,
      "loss": 3.7765,
      "step": 171810
    },
    {
      "epoch": 0.3579583333333333,
      "grad_norm": 0.9096226692199707,
      "learning_rate": 0.00021587575910763876,
      "loss": 3.7328,
      "step": 171820
    },
    {
      "epoch": 0.3579791666666667,
      "grad_norm": 0.9783459305763245,
      "learning_rate": 0.00021586690200922504,
      "loss": 3.7534,
      "step": 171830
    },
    {
      "epoch": 0.358,
      "grad_norm": 0.748715877532959,
      "learning_rate": 0.0002158580446262923,
      "loss": 3.828,
      "step": 171840
    },
    {
      "epoch": 0.35802083333333334,
      "grad_norm": 0.7314077615737915,
      "learning_rate": 0.00021584918695887893,
      "loss": 3.9027,
      "step": 171850
    },
    {
      "epoch": 0.35804166666666665,
      "grad_norm": 1.5628870725631714,
      "learning_rate": 0.00021584032900702314,
      "loss": 3.8478,
      "step": 171860
    },
    {
      "epoch": 0.3580625,
      "grad_norm": 0.6328599452972412,
      "learning_rate": 0.0002158314707707632,
      "loss": 3.6522,
      "step": 171870
    },
    {
      "epoch": 0.3580833333333333,
      "grad_norm": 0.6267707347869873,
      "learning_rate": 0.00021582261225013732,
      "loss": 3.9443,
      "step": 171880
    },
    {
      "epoch": 0.35810416666666667,
      "grad_norm": 0.7064700126647949,
      "learning_rate": 0.00021581375344518385,
      "loss": 3.7361,
      "step": 171890
    },
    {
      "epoch": 0.358125,
      "grad_norm": 0.8515565991401672,
      "learning_rate": 0.000215804894355941,
      "loss": 3.8802,
      "step": 171900
    },
    {
      "epoch": 0.35814583333333333,
      "grad_norm": 0.9321005344390869,
      "learning_rate": 0.00021579603498244704,
      "loss": 3.6993,
      "step": 171910
    },
    {
      "epoch": 0.3581666666666667,
      "grad_norm": 0.8554807901382446,
      "learning_rate": 0.00021578717532474027,
      "loss": 3.6866,
      "step": 171920
    },
    {
      "epoch": 0.3581875,
      "grad_norm": 0.7819696664810181,
      "learning_rate": 0.00021577831538285895,
      "loss": 3.8831,
      "step": 171930
    },
    {
      "epoch": 0.35820833333333335,
      "grad_norm": 0.7605883479118347,
      "learning_rate": 0.00021576945515684135,
      "loss": 3.7289,
      "step": 171940
    },
    {
      "epoch": 0.35822916666666665,
      "grad_norm": 0.7260411977767944,
      "learning_rate": 0.0002157605946467257,
      "loss": 3.8781,
      "step": 171950
    },
    {
      "epoch": 0.35825,
      "grad_norm": 0.8590160608291626,
      "learning_rate": 0.00021575173385255034,
      "loss": 3.8624,
      "step": 171960
    },
    {
      "epoch": 0.3582708333333333,
      "grad_norm": 0.7000700235366821,
      "learning_rate": 0.00021574287277435352,
      "loss": 3.9454,
      "step": 171970
    },
    {
      "epoch": 0.3582916666666667,
      "grad_norm": 1.0628392696380615,
      "learning_rate": 0.0002157340114121735,
      "loss": 3.637,
      "step": 171980
    },
    {
      "epoch": 0.3583125,
      "grad_norm": 0.8345934748649597,
      "learning_rate": 0.00021572514976604852,
      "loss": 3.7158,
      "step": 171990
    },
    {
      "epoch": 0.35833333333333334,
      "grad_norm": 0.9021788835525513,
      "learning_rate": 0.000215716287836017,
      "loss": 3.8834,
      "step": 172000
    },
    {
      "epoch": 0.35833333333333334,
      "eval_loss": 4.182962417602539,
      "eval_runtime": 8.8052,
      "eval_samples_per_second": 1.136,
      "eval_steps_per_second": 0.341,
      "step": 172000
    },
    {
      "epoch": 0.35835416666666664,
      "grad_norm": 0.7099658250808716,
      "learning_rate": 0.00021570742562211707,
      "loss": 4.0222,
      "step": 172010
    },
    {
      "epoch": 0.358375,
      "grad_norm": 0.738755464553833,
      "learning_rate": 0.0002156985631243871,
      "loss": 3.8181,
      "step": 172020
    },
    {
      "epoch": 0.35839583333333336,
      "grad_norm": 0.893866240978241,
      "learning_rate": 0.00021568970034286538,
      "loss": 3.7465,
      "step": 172030
    },
    {
      "epoch": 0.35841666666666666,
      "grad_norm": 0.757277250289917,
      "learning_rate": 0.00021568083727759006,
      "loss": 3.9952,
      "step": 172040
    },
    {
      "epoch": 0.3584375,
      "grad_norm": 0.8176021575927734,
      "learning_rate": 0.00021567197392859954,
      "loss": 3.7388,
      "step": 172050
    },
    {
      "epoch": 0.3584583333333333,
      "grad_norm": 0.8149394392967224,
      "learning_rate": 0.00021566311029593216,
      "loss": 4.0024,
      "step": 172060
    },
    {
      "epoch": 0.3584791666666667,
      "grad_norm": 0.8256047368049622,
      "learning_rate": 0.0002156542463796261,
      "loss": 3.818,
      "step": 172070
    },
    {
      "epoch": 0.3585,
      "grad_norm": 0.7602208852767944,
      "learning_rate": 0.00021564538217971966,
      "loss": 3.7717,
      "step": 172080
    },
    {
      "epoch": 0.35852083333333334,
      "grad_norm": 0.9354182481765747,
      "learning_rate": 0.0002156365176962512,
      "loss": 3.8318,
      "step": 172090
    },
    {
      "epoch": 0.35854166666666665,
      "grad_norm": 0.9073694944381714,
      "learning_rate": 0.00021562765292925892,
      "loss": 3.8782,
      "step": 172100
    },
    {
      "epoch": 0.3585625,
      "grad_norm": 0.7649795413017273,
      "learning_rate": 0.00021561878787878115,
      "loss": 3.7841,
      "step": 172110
    },
    {
      "epoch": 0.3585833333333333,
      "grad_norm": 0.7404212951660156,
      "learning_rate": 0.00021560992254485622,
      "loss": 3.7692,
      "step": 172120
    },
    {
      "epoch": 0.35860416666666667,
      "grad_norm": 0.6642829775810242,
      "learning_rate": 0.0002156010569275224,
      "loss": 4.0442,
      "step": 172130
    },
    {
      "epoch": 0.358625,
      "grad_norm": 0.7589015960693359,
      "learning_rate": 0.00021559219102681792,
      "loss": 3.796,
      "step": 172140
    },
    {
      "epoch": 0.35864583333333333,
      "grad_norm": 0.7267858386039734,
      "learning_rate": 0.00021558332484278119,
      "loss": 3.7892,
      "step": 172150
    },
    {
      "epoch": 0.3586666666666667,
      "grad_norm": 0.7246034741401672,
      "learning_rate": 0.00021557445837545045,
      "loss": 3.8149,
      "step": 172160
    },
    {
      "epoch": 0.3586875,
      "grad_norm": 0.7475232481956482,
      "learning_rate": 0.000215565591624864,
      "loss": 3.7694,
      "step": 172170
    },
    {
      "epoch": 0.35870833333333335,
      "grad_norm": 0.7970476746559143,
      "learning_rate": 0.00021555672459106016,
      "loss": 4.1167,
      "step": 172180
    },
    {
      "epoch": 0.35872916666666665,
      "grad_norm": 0.9500547051429749,
      "learning_rate": 0.0002155478572740772,
      "loss": 3.9014,
      "step": 172190
    },
    {
      "epoch": 0.35875,
      "grad_norm": 0.8960497379302979,
      "learning_rate": 0.00021553898967395347,
      "loss": 3.878,
      "step": 172200
    },
    {
      "epoch": 0.3587708333333333,
      "grad_norm": 0.688600480556488,
      "learning_rate": 0.0002155301217907272,
      "loss": 3.8904,
      "step": 172210
    },
    {
      "epoch": 0.3587916666666667,
      "grad_norm": 0.731257438659668,
      "learning_rate": 0.0002155212536244368,
      "loss": 3.7867,
      "step": 172220
    },
    {
      "epoch": 0.3588125,
      "grad_norm": 0.7948300242424011,
      "learning_rate": 0.0002155123851751205,
      "loss": 3.9021,
      "step": 172230
    },
    {
      "epoch": 0.35883333333333334,
      "grad_norm": 0.8723411560058594,
      "learning_rate": 0.00021550351644281663,
      "loss": 3.8859,
      "step": 172240
    },
    {
      "epoch": 0.35885416666666664,
      "grad_norm": 0.7615489959716797,
      "learning_rate": 0.00021549464742756349,
      "loss": 3.7869,
      "step": 172250
    },
    {
      "epoch": 0.358875,
      "grad_norm": 0.8925516605377197,
      "learning_rate": 0.0002154857781293994,
      "loss": 3.9309,
      "step": 172260
    },
    {
      "epoch": 0.35889583333333336,
      "grad_norm": 0.7192209362983704,
      "learning_rate": 0.00021547690854836264,
      "loss": 3.6966,
      "step": 172270
    },
    {
      "epoch": 0.35891666666666666,
      "grad_norm": 0.763090193271637,
      "learning_rate": 0.00021546803868449155,
      "loss": 3.8141,
      "step": 172280
    },
    {
      "epoch": 0.3589375,
      "grad_norm": 0.6952021718025208,
      "learning_rate": 0.0002154591685378245,
      "loss": 3.8793,
      "step": 172290
    },
    {
      "epoch": 0.3589583333333333,
      "grad_norm": 0.8012551069259644,
      "learning_rate": 0.00021545029810839973,
      "loss": 3.8629,
      "step": 172300
    },
    {
      "epoch": 0.3589791666666667,
      "grad_norm": 0.7500174045562744,
      "learning_rate": 0.00021544142739625557,
      "loss": 3.9362,
      "step": 172310
    },
    {
      "epoch": 0.359,
      "grad_norm": 0.8105443120002747,
      "learning_rate": 0.00021543255640143035,
      "loss": 3.9294,
      "step": 172320
    },
    {
      "epoch": 0.35902083333333334,
      "grad_norm": 0.6618889570236206,
      "learning_rate": 0.00021542368512396238,
      "loss": 3.8547,
      "step": 172330
    },
    {
      "epoch": 0.35904166666666665,
      "grad_norm": 0.9740716814994812,
      "learning_rate": 0.00021541481356388998,
      "loss": 3.8993,
      "step": 172340
    },
    {
      "epoch": 0.3590625,
      "grad_norm": 0.8076968193054199,
      "learning_rate": 0.00021540594172125152,
      "loss": 3.6612,
      "step": 172350
    },
    {
      "epoch": 0.3590833333333333,
      "grad_norm": 0.7674676775932312,
      "learning_rate": 0.00021539706959608528,
      "loss": 3.8935,
      "step": 172360
    },
    {
      "epoch": 0.35910416666666667,
      "grad_norm": 0.7519121170043945,
      "learning_rate": 0.00021538819718842954,
      "loss": 3.8209,
      "step": 172370
    },
    {
      "epoch": 0.359125,
      "grad_norm": 0.696465253829956,
      "learning_rate": 0.00021537932449832263,
      "loss": 3.8589,
      "step": 172380
    },
    {
      "epoch": 0.35914583333333333,
      "grad_norm": 1.0555740594863892,
      "learning_rate": 0.00021537045152580307,
      "loss": 3.9282,
      "step": 172390
    },
    {
      "epoch": 0.3591666666666667,
      "grad_norm": 0.8408905863761902,
      "learning_rate": 0.0002153615782709089,
      "loss": 3.806,
      "step": 172400
    },
    {
      "epoch": 0.3591875,
      "grad_norm": 0.7814883589744568,
      "learning_rate": 0.0002153527047336786,
      "loss": 3.8521,
      "step": 172410
    },
    {
      "epoch": 0.35920833333333335,
      "grad_norm": 0.7098687291145325,
      "learning_rate": 0.00021534383091415056,
      "loss": 3.8864,
      "step": 172420
    },
    {
      "epoch": 0.35922916666666665,
      "grad_norm": 0.8234918117523193,
      "learning_rate": 0.00021533495681236298,
      "loss": 3.9274,
      "step": 172430
    },
    {
      "epoch": 0.35925,
      "grad_norm": 0.7118993401527405,
      "learning_rate": 0.00021532608242835424,
      "loss": 3.8021,
      "step": 172440
    },
    {
      "epoch": 0.3592708333333333,
      "grad_norm": 0.7616719007492065,
      "learning_rate": 0.0002153172077621627,
      "loss": 4.0258,
      "step": 172450
    },
    {
      "epoch": 0.3592916666666667,
      "grad_norm": 0.8001294136047363,
      "learning_rate": 0.00021530833281382667,
      "loss": 3.8098,
      "step": 172460
    },
    {
      "epoch": 0.3593125,
      "grad_norm": 0.903435468673706,
      "learning_rate": 0.0002152994575833845,
      "loss": 3.7374,
      "step": 172470
    },
    {
      "epoch": 0.35933333333333334,
      "grad_norm": 0.8238526582717896,
      "learning_rate": 0.00021529058207087447,
      "loss": 3.7945,
      "step": 172480
    },
    {
      "epoch": 0.35935416666666664,
      "grad_norm": 0.7944992184638977,
      "learning_rate": 0.00021528170627633505,
      "loss": 3.9885,
      "step": 172490
    },
    {
      "epoch": 0.359375,
      "grad_norm": 0.70240718126297,
      "learning_rate": 0.0002152728301998045,
      "loss": 3.8352,
      "step": 172500
    },
    {
      "epoch": 0.35939583333333336,
      "grad_norm": 0.7943750023841858,
      "learning_rate": 0.00021526395384132107,
      "loss": 3.8639,
      "step": 172510
    },
    {
      "epoch": 0.35941666666666666,
      "grad_norm": 0.7722283601760864,
      "learning_rate": 0.00021525507720092328,
      "loss": 3.6984,
      "step": 172520
    },
    {
      "epoch": 0.3594375,
      "grad_norm": 0.8082718253135681,
      "learning_rate": 0.00021524620027864937,
      "loss": 3.8734,
      "step": 172530
    },
    {
      "epoch": 0.3594583333333333,
      "grad_norm": 0.6860023736953735,
      "learning_rate": 0.00021523732307453762,
      "loss": 3.9386,
      "step": 172540
    },
    {
      "epoch": 0.3594791666666667,
      "grad_norm": 0.8571170568466187,
      "learning_rate": 0.00021522844558862655,
      "loss": 3.7851,
      "step": 172550
    },
    {
      "epoch": 0.3595,
      "grad_norm": 0.9240877628326416,
      "learning_rate": 0.0002152195678209544,
      "loss": 3.7789,
      "step": 172560
    },
    {
      "epoch": 0.35952083333333335,
      "grad_norm": 0.7961441278457642,
      "learning_rate": 0.00021521068977155953,
      "loss": 3.9387,
      "step": 172570
    },
    {
      "epoch": 0.35954166666666665,
      "grad_norm": 0.8384986519813538,
      "learning_rate": 0.00021520181144048025,
      "loss": 3.805,
      "step": 172580
    },
    {
      "epoch": 0.3595625,
      "grad_norm": 0.7672069072723389,
      "learning_rate": 0.00021519293282775502,
      "loss": 3.7985,
      "step": 172590
    },
    {
      "epoch": 0.3595833333333333,
      "grad_norm": 0.7252169251441956,
      "learning_rate": 0.0002151840539334221,
      "loss": 3.6659,
      "step": 172600
    },
    {
      "epoch": 0.35960416666666667,
      "grad_norm": 0.8227660655975342,
      "learning_rate": 0.00021517517475751983,
      "loss": 3.948,
      "step": 172610
    },
    {
      "epoch": 0.359625,
      "grad_norm": 0.7771202325820923,
      "learning_rate": 0.0002151662953000866,
      "loss": 4.017,
      "step": 172620
    },
    {
      "epoch": 0.35964583333333333,
      "grad_norm": 0.7645701766014099,
      "learning_rate": 0.00021515741556116084,
      "loss": 3.8548,
      "step": 172630
    },
    {
      "epoch": 0.3596666666666667,
      "grad_norm": 0.8652695417404175,
      "learning_rate": 0.00021514853554078077,
      "loss": 4.0147,
      "step": 172640
    },
    {
      "epoch": 0.3596875,
      "grad_norm": 0.8333269357681274,
      "learning_rate": 0.00021513965523898486,
      "loss": 3.6716,
      "step": 172650
    },
    {
      "epoch": 0.35970833333333335,
      "grad_norm": 0.7241805195808411,
      "learning_rate": 0.0002151307746558114,
      "loss": 3.7938,
      "step": 172660
    },
    {
      "epoch": 0.35972916666666666,
      "grad_norm": 0.8197162747383118,
      "learning_rate": 0.0002151218937912988,
      "loss": 3.9279,
      "step": 172670
    },
    {
      "epoch": 0.35975,
      "grad_norm": 0.7600200176239014,
      "learning_rate": 0.00021511301264548534,
      "loss": 3.792,
      "step": 172680
    },
    {
      "epoch": 0.3597708333333333,
      "grad_norm": 0.8367019891738892,
      "learning_rate": 0.00021510413121840946,
      "loss": 3.9405,
      "step": 172690
    },
    {
      "epoch": 0.3597916666666667,
      "grad_norm": 0.7875810265541077,
      "learning_rate": 0.00021509524951010954,
      "loss": 3.6615,
      "step": 172700
    },
    {
      "epoch": 0.3598125,
      "grad_norm": 0.7222664952278137,
      "learning_rate": 0.00021508636752062385,
      "loss": 3.8609,
      "step": 172710
    },
    {
      "epoch": 0.35983333333333334,
      "grad_norm": 0.8029804825782776,
      "learning_rate": 0.00021507748524999087,
      "loss": 3.9048,
      "step": 172720
    },
    {
      "epoch": 0.35985416666666664,
      "grad_norm": 0.7026904821395874,
      "learning_rate": 0.0002150686026982489,
      "loss": 3.8744,
      "step": 172730
    },
    {
      "epoch": 0.359875,
      "grad_norm": 0.7384897470474243,
      "learning_rate": 0.00021505971986543633,
      "loss": 3.9299,
      "step": 172740
    },
    {
      "epoch": 0.35989583333333336,
      "grad_norm": 0.7671816945075989,
      "learning_rate": 0.0002150508367515915,
      "loss": 3.7798,
      "step": 172750
    },
    {
      "epoch": 0.35991666666666666,
      "grad_norm": 0.8438202142715454,
      "learning_rate": 0.00021504195335675283,
      "loss": 3.7842,
      "step": 172760
    },
    {
      "epoch": 0.3599375,
      "grad_norm": 0.7321922183036804,
      "learning_rate": 0.00021503306968095865,
      "loss": 3.831,
      "step": 172770
    },
    {
      "epoch": 0.3599583333333333,
      "grad_norm": 0.8353050351142883,
      "learning_rate": 0.00021502418572424728,
      "loss": 3.8673,
      "step": 172780
    },
    {
      "epoch": 0.3599791666666667,
      "grad_norm": 0.7341970205307007,
      "learning_rate": 0.0002150153014866573,
      "loss": 3.7666,
      "step": 172790
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.760597825050354,
      "learning_rate": 0.00021500641696822688,
      "loss": 3.6492,
      "step": 172800
    },
    {
      "epoch": 0.36002083333333335,
      "grad_norm": 0.7371609210968018,
      "learning_rate": 0.00021499753216899447,
      "loss": 3.7154,
      "step": 172810
    },
    {
      "epoch": 0.36004166666666665,
      "grad_norm": 0.8135586380958557,
      "learning_rate": 0.00021498864708899846,
      "loss": 3.7728,
      "step": 172820
    },
    {
      "epoch": 0.3600625,
      "grad_norm": 0.7635663151741028,
      "learning_rate": 0.0002149797617282772,
      "loss": 3.9262,
      "step": 172830
    },
    {
      "epoch": 0.3600833333333333,
      "grad_norm": 0.9412742853164673,
      "learning_rate": 0.0002149708760868691,
      "loss": 3.7008,
      "step": 172840
    },
    {
      "epoch": 0.36010416666666667,
      "grad_norm": 0.6805936694145203,
      "learning_rate": 0.00021496199016481253,
      "loss": 3.8432,
      "step": 172850
    },
    {
      "epoch": 0.360125,
      "grad_norm": 0.8095265030860901,
      "learning_rate": 0.0002149531039621459,
      "loss": 3.7881,
      "step": 172860
    },
    {
      "epoch": 0.36014583333333333,
      "grad_norm": 0.8659197092056274,
      "learning_rate": 0.0002149442174789076,
      "loss": 3.8681,
      "step": 172870
    },
    {
      "epoch": 0.3601666666666667,
      "grad_norm": 0.8213841915130615,
      "learning_rate": 0.0002149353307151359,
      "loss": 3.9469,
      "step": 172880
    },
    {
      "epoch": 0.3601875,
      "grad_norm": 0.7259864807128906,
      "learning_rate": 0.0002149264436708693,
      "loss": 3.6391,
      "step": 172890
    },
    {
      "epoch": 0.36020833333333335,
      "grad_norm": 0.7142928838729858,
      "learning_rate": 0.00021491755634614622,
      "loss": 3.8787,
      "step": 172900
    },
    {
      "epoch": 0.36022916666666666,
      "grad_norm": 1.091983437538147,
      "learning_rate": 0.0002149086687410049,
      "loss": 3.7108,
      "step": 172910
    },
    {
      "epoch": 0.36025,
      "grad_norm": 0.7487744092941284,
      "learning_rate": 0.0002148997808554839,
      "loss": 3.798,
      "step": 172920
    },
    {
      "epoch": 0.3602708333333333,
      "grad_norm": 0.7416728734970093,
      "learning_rate": 0.00021489089268962152,
      "loss": 3.8923,
      "step": 172930
    },
    {
      "epoch": 0.3602916666666667,
      "grad_norm": 0.7996923327445984,
      "learning_rate": 0.00021488200424345615,
      "loss": 3.8209,
      "step": 172940
    },
    {
      "epoch": 0.3603125,
      "grad_norm": 0.852712869644165,
      "learning_rate": 0.00021487311551702623,
      "loss": 3.7633,
      "step": 172950
    },
    {
      "epoch": 0.36033333333333334,
      "grad_norm": 0.8685268759727478,
      "learning_rate": 0.0002148642265103701,
      "loss": 3.7331,
      "step": 172960
    },
    {
      "epoch": 0.36035416666666664,
      "grad_norm": 0.8743142485618591,
      "learning_rate": 0.00021485533722352625,
      "loss": 3.8944,
      "step": 172970
    },
    {
      "epoch": 0.360375,
      "grad_norm": 0.7775306701660156,
      "learning_rate": 0.00021484644765653292,
      "loss": 3.8212,
      "step": 172980
    },
    {
      "epoch": 0.36039583333333336,
      "grad_norm": 0.7782946825027466,
      "learning_rate": 0.00021483755780942867,
      "loss": 3.6289,
      "step": 172990
    },
    {
      "epoch": 0.36041666666666666,
      "grad_norm": 0.8034882545471191,
      "learning_rate": 0.0002148286676822518,
      "loss": 3.9101,
      "step": 173000
    },
    {
      "epoch": 0.36041666666666666,
      "eval_loss": 4.183069229125977,
      "eval_runtime": 8.1888,
      "eval_samples_per_second": 1.221,
      "eval_steps_per_second": 0.366,
      "step": 173000
    },
    {
      "epoch": 0.3604375,
      "grad_norm": 0.9691511988639832,
      "learning_rate": 0.00021481977727504076,
      "loss": 3.764,
      "step": 173010
    },
    {
      "epoch": 0.3604583333333333,
      "grad_norm": 0.7032763361930847,
      "learning_rate": 0.00021481088658783395,
      "loss": 3.8208,
      "step": 173020
    },
    {
      "epoch": 0.3604791666666667,
      "grad_norm": 0.7482962608337402,
      "learning_rate": 0.00021480199562066976,
      "loss": 3.8028,
      "step": 173030
    },
    {
      "epoch": 0.3605,
      "grad_norm": 0.7413915395736694,
      "learning_rate": 0.00021479310437358656,
      "loss": 3.8335,
      "step": 173040
    },
    {
      "epoch": 0.36052083333333335,
      "grad_norm": 0.7171005010604858,
      "learning_rate": 0.00021478421284662285,
      "loss": 3.7337,
      "step": 173050
    },
    {
      "epoch": 0.36054166666666665,
      "grad_norm": 0.7309428453445435,
      "learning_rate": 0.00021477532103981697,
      "loss": 3.7504,
      "step": 173060
    },
    {
      "epoch": 0.3605625,
      "grad_norm": 0.8347238898277283,
      "learning_rate": 0.00021476642895320737,
      "loss": 3.921,
      "step": 173070
    },
    {
      "epoch": 0.3605833333333333,
      "grad_norm": 1.2391899824142456,
      "learning_rate": 0.00021475753658683236,
      "loss": 3.8462,
      "step": 173080
    },
    {
      "epoch": 0.36060416666666667,
      "grad_norm": 0.8357405662536621,
      "learning_rate": 0.0002147486439407305,
      "loss": 3.8738,
      "step": 173090
    },
    {
      "epoch": 0.360625,
      "grad_norm": 0.8320116400718689,
      "learning_rate": 0.00021473975101494007,
      "loss": 3.8177,
      "step": 173100
    },
    {
      "epoch": 0.36064583333333333,
      "grad_norm": 0.7364988923072815,
      "learning_rate": 0.00021473085780949954,
      "loss": 4.0076,
      "step": 173110
    },
    {
      "epoch": 0.3606666666666667,
      "grad_norm": 0.7374359369277954,
      "learning_rate": 0.00021472196432444738,
      "loss": 3.7498,
      "step": 173120
    },
    {
      "epoch": 0.3606875,
      "grad_norm": 0.8942479491233826,
      "learning_rate": 0.00021471307055982193,
      "loss": 3.8821,
      "step": 173130
    },
    {
      "epoch": 0.36070833333333335,
      "grad_norm": 0.700987696647644,
      "learning_rate": 0.00021470417651566162,
      "loss": 3.9007,
      "step": 173140
    },
    {
      "epoch": 0.36072916666666666,
      "grad_norm": 0.778391420841217,
      "learning_rate": 0.0002146952821920049,
      "loss": 3.7229,
      "step": 173150
    },
    {
      "epoch": 0.36075,
      "grad_norm": 0.7097838521003723,
      "learning_rate": 0.00021468638758889014,
      "loss": 3.8566,
      "step": 173160
    },
    {
      "epoch": 0.3607708333333333,
      "grad_norm": 0.7826396822929382,
      "learning_rate": 0.00021467749270635578,
      "loss": 4.0033,
      "step": 173170
    },
    {
      "epoch": 0.3607916666666667,
      "grad_norm": 1.012168049812317,
      "learning_rate": 0.0002146685975444403,
      "loss": 3.9638,
      "step": 173180
    },
    {
      "epoch": 0.3608125,
      "grad_norm": 0.8070304989814758,
      "learning_rate": 0.00021465970210318204,
      "loss": 4.0272,
      "step": 173190
    },
    {
      "epoch": 0.36083333333333334,
      "grad_norm": 0.6870342493057251,
      "learning_rate": 0.00021465080638261946,
      "loss": 3.8475,
      "step": 173200
    },
    {
      "epoch": 0.36085416666666664,
      "grad_norm": 0.7883138060569763,
      "learning_rate": 0.00021464191038279102,
      "loss": 3.8592,
      "step": 173210
    },
    {
      "epoch": 0.360875,
      "grad_norm": 0.9034003019332886,
      "learning_rate": 0.00021463301410373507,
      "loss": 3.9212,
      "step": 173220
    },
    {
      "epoch": 0.36089583333333336,
      "grad_norm": 0.7926760911941528,
      "learning_rate": 0.00021462411754549012,
      "loss": 4.0136,
      "step": 173230
    },
    {
      "epoch": 0.36091666666666666,
      "grad_norm": 0.7538738250732422,
      "learning_rate": 0.00021461522070809457,
      "loss": 3.87,
      "step": 173240
    },
    {
      "epoch": 0.3609375,
      "grad_norm": 0.742840588092804,
      "learning_rate": 0.0002146063235915868,
      "loss": 3.8442,
      "step": 173250
    },
    {
      "epoch": 0.3609583333333333,
      "grad_norm": 0.8104553818702698,
      "learning_rate": 0.00021459742619600532,
      "loss": 3.7991,
      "step": 173260
    },
    {
      "epoch": 0.3609791666666667,
      "grad_norm": 0.7594017386436462,
      "learning_rate": 0.0002145885285213885,
      "loss": 3.7865,
      "step": 173270
    },
    {
      "epoch": 0.361,
      "grad_norm": 0.9672141671180725,
      "learning_rate": 0.0002145796305677748,
      "loss": 3.9058,
      "step": 173280
    },
    {
      "epoch": 0.36102083333333335,
      "grad_norm": 0.7603241205215454,
      "learning_rate": 0.0002145707323352027,
      "loss": 3.8175,
      "step": 173290
    },
    {
      "epoch": 0.36104166666666665,
      "grad_norm": 0.7253960967063904,
      "learning_rate": 0.00021456183382371054,
      "loss": 3.8908,
      "step": 173300
    },
    {
      "epoch": 0.3610625,
      "grad_norm": 0.6905977129936218,
      "learning_rate": 0.00021455293503333688,
      "loss": 3.8828,
      "step": 173310
    },
    {
      "epoch": 0.3610833333333333,
      "grad_norm": 0.7740605473518372,
      "learning_rate": 0.00021454403596412005,
      "loss": 3.8124,
      "step": 173320
    },
    {
      "epoch": 0.36110416666666667,
      "grad_norm": 0.7736459970474243,
      "learning_rate": 0.00021453513661609853,
      "loss": 3.7407,
      "step": 173330
    },
    {
      "epoch": 0.361125,
      "grad_norm": 0.8859019875526428,
      "learning_rate": 0.00021452623698931078,
      "loss": 3.9086,
      "step": 173340
    },
    {
      "epoch": 0.36114583333333333,
      "grad_norm": 0.8580084443092346,
      "learning_rate": 0.00021451733708379524,
      "loss": 3.8596,
      "step": 173350
    },
    {
      "epoch": 0.3611666666666667,
      "grad_norm": 0.832912802696228,
      "learning_rate": 0.0002145084368995903,
      "loss": 3.9022,
      "step": 173360
    },
    {
      "epoch": 0.3611875,
      "grad_norm": 0.9263466596603394,
      "learning_rate": 0.00021449953643673446,
      "loss": 3.8632,
      "step": 173370
    },
    {
      "epoch": 0.36120833333333335,
      "grad_norm": 0.8105006217956543,
      "learning_rate": 0.00021449063569526616,
      "loss": 3.7146,
      "step": 173380
    },
    {
      "epoch": 0.36122916666666666,
      "grad_norm": 0.8357862830162048,
      "learning_rate": 0.00021448173467522388,
      "loss": 3.8696,
      "step": 173390
    },
    {
      "epoch": 0.36125,
      "grad_norm": 0.7875608205795288,
      "learning_rate": 0.000214472833376646,
      "loss": 3.7808,
      "step": 173400
    },
    {
      "epoch": 0.3612708333333333,
      "grad_norm": 0.8260411024093628,
      "learning_rate": 0.00021446393179957096,
      "loss": 3.8234,
      "step": 173410
    },
    {
      "epoch": 0.3612916666666667,
      "grad_norm": 0.740384042263031,
      "learning_rate": 0.0002144550299440373,
      "loss": 3.9895,
      "step": 173420
    },
    {
      "epoch": 0.3613125,
      "grad_norm": 0.6854060888290405,
      "learning_rate": 0.00021444612781008343,
      "loss": 3.7839,
      "step": 173430
    },
    {
      "epoch": 0.36133333333333334,
      "grad_norm": 0.7747597098350525,
      "learning_rate": 0.00021443722539774777,
      "loss": 3.871,
      "step": 173440
    },
    {
      "epoch": 0.36135416666666664,
      "grad_norm": 0.8377516269683838,
      "learning_rate": 0.00021442832270706876,
      "loss": 3.8879,
      "step": 173450
    },
    {
      "epoch": 0.361375,
      "grad_norm": 0.7950534224510193,
      "learning_rate": 0.00021441941973808495,
      "loss": 3.9585,
      "step": 173460
    },
    {
      "epoch": 0.36139583333333336,
      "grad_norm": 0.7078619599342346,
      "learning_rate": 0.00021441051649083478,
      "loss": 3.851,
      "step": 173470
    },
    {
      "epoch": 0.36141666666666666,
      "grad_norm": 0.8701768517494202,
      "learning_rate": 0.00021440161296535658,
      "loss": 3.9288,
      "step": 173480
    },
    {
      "epoch": 0.3614375,
      "grad_norm": 0.7976685166358948,
      "learning_rate": 0.000214392709161689,
      "loss": 3.8074,
      "step": 173490
    },
    {
      "epoch": 0.3614583333333333,
      "grad_norm": 0.8096340894699097,
      "learning_rate": 0.00021438380507987037,
      "loss": 3.8557,
      "step": 173500
    },
    {
      "epoch": 0.3614791666666667,
      "grad_norm": 0.7394839525222778,
      "learning_rate": 0.00021437490071993918,
      "loss": 3.8509,
      "step": 173510
    },
    {
      "epoch": 0.3615,
      "grad_norm": 0.7914524078369141,
      "learning_rate": 0.00021436599608193392,
      "loss": 4.023,
      "step": 173520
    },
    {
      "epoch": 0.36152083333333335,
      "grad_norm": 0.6598624587059021,
      "learning_rate": 0.000214357091165893,
      "loss": 3.9936,
      "step": 173530
    },
    {
      "epoch": 0.36154166666666665,
      "grad_norm": 0.819900393486023,
      "learning_rate": 0.00021434818597185492,
      "loss": 3.8081,
      "step": 173540
    },
    {
      "epoch": 0.3615625,
      "grad_norm": 0.7902030348777771,
      "learning_rate": 0.0002143392804998582,
      "loss": 3.6547,
      "step": 173550
    },
    {
      "epoch": 0.3615833333333333,
      "grad_norm": 0.8197981119155884,
      "learning_rate": 0.0002143303747499412,
      "loss": 3.8265,
      "step": 173560
    },
    {
      "epoch": 0.36160416666666667,
      "grad_norm": 0.7817078232765198,
      "learning_rate": 0.0002143214687221425,
      "loss": 3.899,
      "step": 173570
    },
    {
      "epoch": 0.361625,
      "grad_norm": 0.7681764364242554,
      "learning_rate": 0.00021431256241650045,
      "loss": 3.9428,
      "step": 173580
    },
    {
      "epoch": 0.36164583333333333,
      "grad_norm": 0.7284320592880249,
      "learning_rate": 0.0002143036558330536,
      "loss": 3.9912,
      "step": 173590
    },
    {
      "epoch": 0.3616666666666667,
      "grad_norm": 0.9176732897758484,
      "learning_rate": 0.00021429474897184046,
      "loss": 3.7621,
      "step": 173600
    },
    {
      "epoch": 0.3616875,
      "grad_norm": 0.8095069527626038,
      "learning_rate": 0.0002142858418328994,
      "loss": 3.8676,
      "step": 173610
    },
    {
      "epoch": 0.36170833333333335,
      "grad_norm": 0.821141242980957,
      "learning_rate": 0.00021427693441626898,
      "loss": 4.0965,
      "step": 173620
    },
    {
      "epoch": 0.36172916666666666,
      "grad_norm": 1.4167091846466064,
      "learning_rate": 0.00021426802672198765,
      "loss": 3.9085,
      "step": 173630
    },
    {
      "epoch": 0.36175,
      "grad_norm": 1.2782062292099,
      "learning_rate": 0.00021425911875009386,
      "loss": 3.8864,
      "step": 173640
    },
    {
      "epoch": 0.3617708333333333,
      "grad_norm": 0.836696445941925,
      "learning_rate": 0.0002142502105006261,
      "loss": 3.9395,
      "step": 173650
    },
    {
      "epoch": 0.3617916666666667,
      "grad_norm": 0.7380242943763733,
      "learning_rate": 0.00021424130197362292,
      "loss": 3.8202,
      "step": 173660
    },
    {
      "epoch": 0.3618125,
      "grad_norm": 0.7574782371520996,
      "learning_rate": 0.0002142323931691227,
      "loss": 3.8617,
      "step": 173670
    },
    {
      "epoch": 0.36183333333333334,
      "grad_norm": 0.9224895238876343,
      "learning_rate": 0.00021422348408716398,
      "loss": 3.7804,
      "step": 173680
    },
    {
      "epoch": 0.36185416666666664,
      "grad_norm": 0.7796165943145752,
      "learning_rate": 0.00021421457472778523,
      "loss": 3.7438,
      "step": 173690
    },
    {
      "epoch": 0.361875,
      "grad_norm": 0.8022103905677795,
      "learning_rate": 0.00021420566509102492,
      "loss": 3.9285,
      "step": 173700
    },
    {
      "epoch": 0.36189583333333336,
      "grad_norm": 0.7981953620910645,
      "learning_rate": 0.0002141967551769216,
      "loss": 3.882,
      "step": 173710
    },
    {
      "epoch": 0.36191666666666666,
      "grad_norm": 1.0136469602584839,
      "learning_rate": 0.00021418784498551365,
      "loss": 3.746,
      "step": 173720
    },
    {
      "epoch": 0.3619375,
      "grad_norm": 0.9709267020225525,
      "learning_rate": 0.0002141789345168396,
      "loss": 3.7752,
      "step": 173730
    },
    {
      "epoch": 0.3619583333333333,
      "grad_norm": 0.8656055331230164,
      "learning_rate": 0.00021417002377093806,
      "loss": 3.8642,
      "step": 173740
    },
    {
      "epoch": 0.3619791666666667,
      "grad_norm": 0.7830133438110352,
      "learning_rate": 0.0002141611127478473,
      "loss": 3.7884,
      "step": 173750
    },
    {
      "epoch": 0.362,
      "grad_norm": 0.819376528263092,
      "learning_rate": 0.000214152201447606,
      "loss": 3.9444,
      "step": 173760
    },
    {
      "epoch": 0.36202083333333335,
      "grad_norm": 0.8930636644363403,
      "learning_rate": 0.0002141432898702526,
      "loss": 3.9136,
      "step": 173770
    },
    {
      "epoch": 0.36204166666666665,
      "grad_norm": 1.0379247665405273,
      "learning_rate": 0.00021413437801582548,
      "loss": 4.0068,
      "step": 173780
    },
    {
      "epoch": 0.3620625,
      "grad_norm": 0.74359130859375,
      "learning_rate": 0.0002141254658843633,
      "loss": 3.801,
      "step": 173790
    },
    {
      "epoch": 0.3620833333333333,
      "grad_norm": 0.7892487645149231,
      "learning_rate": 0.00021411655347590452,
      "loss": 4.0191,
      "step": 173800
    },
    {
      "epoch": 0.36210416666666667,
      "grad_norm": 1.0048719644546509,
      "learning_rate": 0.00021410764079048757,
      "loss": 3.6562,
      "step": 173810
    },
    {
      "epoch": 0.362125,
      "grad_norm": 0.8702419996261597,
      "learning_rate": 0.000214098727828151,
      "loss": 3.731,
      "step": 173820
    },
    {
      "epoch": 0.36214583333333333,
      "grad_norm": 0.9997832179069519,
      "learning_rate": 0.0002140898145889333,
      "loss": 3.8538,
      "step": 173830
    },
    {
      "epoch": 0.3621666666666667,
      "grad_norm": 0.8364064693450928,
      "learning_rate": 0.00021408090107287293,
      "loss": 4.0611,
      "step": 173840
    },
    {
      "epoch": 0.3621875,
      "grad_norm": 0.8103625774383545,
      "learning_rate": 0.00021407198728000848,
      "loss": 3.7182,
      "step": 173850
    },
    {
      "epoch": 0.36220833333333335,
      "grad_norm": 0.7114724516868591,
      "learning_rate": 0.00021406307321037837,
      "loss": 3.9275,
      "step": 173860
    },
    {
      "epoch": 0.36222916666666666,
      "grad_norm": 0.6896224021911621,
      "learning_rate": 0.00021405415886402115,
      "loss": 3.8372,
      "step": 173870
    },
    {
      "epoch": 0.36225,
      "grad_norm": 0.8687444925308228,
      "learning_rate": 0.00021404524424097535,
      "loss": 3.9418,
      "step": 173880
    },
    {
      "epoch": 0.3622708333333333,
      "grad_norm": 0.7000634074211121,
      "learning_rate": 0.00021403632934127942,
      "loss": 3.7173,
      "step": 173890
    },
    {
      "epoch": 0.3622916666666667,
      "grad_norm": 0.7547842860221863,
      "learning_rate": 0.0002140274141649719,
      "loss": 3.7988,
      "step": 173900
    },
    {
      "epoch": 0.3623125,
      "grad_norm": 0.7214356660842896,
      "learning_rate": 0.00021401849871209127,
      "loss": 3.9364,
      "step": 173910
    },
    {
      "epoch": 0.36233333333333334,
      "grad_norm": 0.6929609179496765,
      "learning_rate": 0.00021400958298267608,
      "loss": 4.0755,
      "step": 173920
    },
    {
      "epoch": 0.36235416666666664,
      "grad_norm": 0.6901552081108093,
      "learning_rate": 0.00021400066697676486,
      "loss": 3.8006,
      "step": 173930
    },
    {
      "epoch": 0.362375,
      "grad_norm": 0.7867290377616882,
      "learning_rate": 0.00021399175069439607,
      "loss": 3.9307,
      "step": 173940
    },
    {
      "epoch": 0.3623958333333333,
      "grad_norm": 0.9227710366249084,
      "learning_rate": 0.00021398283413560823,
      "loss": 3.8767,
      "step": 173950
    },
    {
      "epoch": 0.36241666666666666,
      "grad_norm": 0.7266890406608582,
      "learning_rate": 0.00021397391730043988,
      "loss": 3.8436,
      "step": 173960
    },
    {
      "epoch": 0.3624375,
      "grad_norm": 0.742337167263031,
      "learning_rate": 0.00021396500018892956,
      "loss": 3.7247,
      "step": 173970
    },
    {
      "epoch": 0.3624583333333333,
      "grad_norm": 0.7545481324195862,
      "learning_rate": 0.0002139560828011157,
      "loss": 3.8985,
      "step": 173980
    },
    {
      "epoch": 0.3624791666666667,
      "grad_norm": 0.900727391242981,
      "learning_rate": 0.00021394716513703697,
      "loss": 3.8872,
      "step": 173990
    },
    {
      "epoch": 0.3625,
      "grad_norm": 0.953364908695221,
      "learning_rate": 0.0002139382471967317,
      "loss": 3.863,
      "step": 174000
    },
    {
      "epoch": 0.3625,
      "eval_loss": 4.187802314758301,
      "eval_runtime": 9.9835,
      "eval_samples_per_second": 1.002,
      "eval_steps_per_second": 0.3,
      "step": 174000
    },
    {
      "epoch": 0.36252083333333335,
      "grad_norm": 0.8700656294822693,
      "learning_rate": 0.00021392932898023858,
      "loss": 3.6566,
      "step": 174010
    },
    {
      "epoch": 0.36254166666666665,
      "grad_norm": 0.7507103681564331,
      "learning_rate": 0.00021392041048759602,
      "loss": 3.6547,
      "step": 174020
    },
    {
      "epoch": 0.3625625,
      "grad_norm": 0.63811856508255,
      "learning_rate": 0.0002139114917188426,
      "loss": 4.0774,
      "step": 174030
    },
    {
      "epoch": 0.3625833333333333,
      "grad_norm": 0.7206482291221619,
      "learning_rate": 0.00021390257267401682,
      "loss": 4.0106,
      "step": 174040
    },
    {
      "epoch": 0.36260416666666667,
      "grad_norm": 0.8475908637046814,
      "learning_rate": 0.00021389365335315727,
      "loss": 3.8359,
      "step": 174050
    },
    {
      "epoch": 0.362625,
      "grad_norm": 0.7905451655387878,
      "learning_rate": 0.0002138847337563024,
      "loss": 3.9291,
      "step": 174060
    },
    {
      "epoch": 0.36264583333333333,
      "grad_norm": 0.6911901831626892,
      "learning_rate": 0.00021387581388349075,
      "loss": 3.512,
      "step": 174070
    },
    {
      "epoch": 0.3626666666666667,
      "grad_norm": 0.7720345854759216,
      "learning_rate": 0.00021386689373476087,
      "loss": 3.7729,
      "step": 174080
    },
    {
      "epoch": 0.3626875,
      "grad_norm": 0.8084156513214111,
      "learning_rate": 0.0002138579733101513,
      "loss": 3.8458,
      "step": 174090
    },
    {
      "epoch": 0.36270833333333335,
      "grad_norm": 0.7271729111671448,
      "learning_rate": 0.00021384905260970056,
      "loss": 3.9084,
      "step": 174100
    },
    {
      "epoch": 0.36272916666666666,
      "grad_norm": 0.7435886859893799,
      "learning_rate": 0.00021384013163344722,
      "loss": 3.8318,
      "step": 174110
    },
    {
      "epoch": 0.36275,
      "grad_norm": 0.7675225734710693,
      "learning_rate": 0.00021383121038142972,
      "loss": 3.8962,
      "step": 174120
    },
    {
      "epoch": 0.3627708333333333,
      "grad_norm": 0.7852985262870789,
      "learning_rate": 0.00021382228885368672,
      "loss": 3.9338,
      "step": 174130
    },
    {
      "epoch": 0.3627916666666667,
      "grad_norm": 0.7484261989593506,
      "learning_rate": 0.00021381336705025665,
      "loss": 3.7518,
      "step": 174140
    },
    {
      "epoch": 0.3628125,
      "grad_norm": 0.7873123288154602,
      "learning_rate": 0.00021380444497117807,
      "loss": 3.8203,
      "step": 174150
    },
    {
      "epoch": 0.36283333333333334,
      "grad_norm": 0.8037921190261841,
      "learning_rate": 0.00021379552261648963,
      "loss": 4.114,
      "step": 174160
    },
    {
      "epoch": 0.36285416666666664,
      "grad_norm": 0.7303909659385681,
      "learning_rate": 0.00021378659998622971,
      "loss": 3.8494,
      "step": 174170
    },
    {
      "epoch": 0.362875,
      "grad_norm": 0.8475949168205261,
      "learning_rate": 0.00021377767708043697,
      "loss": 3.7193,
      "step": 174180
    },
    {
      "epoch": 0.3628958333333333,
      "grad_norm": 0.8660258054733276,
      "learning_rate": 0.00021376875389914987,
      "loss": 3.8131,
      "step": 174190
    },
    {
      "epoch": 0.36291666666666667,
      "grad_norm": 0.8258076310157776,
      "learning_rate": 0.00021375983044240703,
      "loss": 3.834,
      "step": 174200
    },
    {
      "epoch": 0.3629375,
      "grad_norm": 0.78227698802948,
      "learning_rate": 0.00021375090671024694,
      "loss": 3.8664,
      "step": 174210
    },
    {
      "epoch": 0.3629583333333333,
      "grad_norm": 0.7837732434272766,
      "learning_rate": 0.00021374198270270817,
      "loss": 3.7654,
      "step": 174220
    },
    {
      "epoch": 0.3629791666666667,
      "grad_norm": 0.7732692360877991,
      "learning_rate": 0.00021373305841982927,
      "loss": 3.733,
      "step": 174230
    },
    {
      "epoch": 0.363,
      "grad_norm": 0.7494699954986572,
      "learning_rate": 0.00021372413386164878,
      "loss": 3.7477,
      "step": 174240
    },
    {
      "epoch": 0.36302083333333335,
      "grad_norm": 0.7317653298377991,
      "learning_rate": 0.00021371520902820526,
      "loss": 3.7287,
      "step": 174250
    },
    {
      "epoch": 0.36304166666666665,
      "grad_norm": 0.7766045928001404,
      "learning_rate": 0.00021370628391953724,
      "loss": 3.8417,
      "step": 174260
    },
    {
      "epoch": 0.3630625,
      "grad_norm": 0.8706588745117188,
      "learning_rate": 0.00021369735853568334,
      "loss": 3.6597,
      "step": 174270
    },
    {
      "epoch": 0.3630833333333333,
      "grad_norm": 0.8786354064941406,
      "learning_rate": 0.00021368843287668203,
      "loss": 3.9935,
      "step": 174280
    },
    {
      "epoch": 0.3631041666666667,
      "grad_norm": 0.8633915781974792,
      "learning_rate": 0.0002136795069425719,
      "loss": 3.6389,
      "step": 174290
    },
    {
      "epoch": 0.363125,
      "grad_norm": 0.9032469987869263,
      "learning_rate": 0.0002136705807333915,
      "loss": 3.9138,
      "step": 174300
    },
    {
      "epoch": 0.36314583333333333,
      "grad_norm": 0.7397841811180115,
      "learning_rate": 0.0002136616542491794,
      "loss": 3.8308,
      "step": 174310
    },
    {
      "epoch": 0.3631666666666667,
      "grad_norm": 0.8054574131965637,
      "learning_rate": 0.00021365272748997415,
      "loss": 3.8907,
      "step": 174320
    },
    {
      "epoch": 0.3631875,
      "grad_norm": 0.8026958107948303,
      "learning_rate": 0.00021364380045581433,
      "loss": 3.7939,
      "step": 174330
    },
    {
      "epoch": 0.36320833333333336,
      "grad_norm": 0.9511683583259583,
      "learning_rate": 0.00021363487314673846,
      "loss": 3.7895,
      "step": 174340
    },
    {
      "epoch": 0.36322916666666666,
      "grad_norm": 0.9046026468276978,
      "learning_rate": 0.0002136259455627851,
      "loss": 3.6724,
      "step": 174350
    },
    {
      "epoch": 0.36325,
      "grad_norm": 0.7409270405769348,
      "learning_rate": 0.00021361701770399293,
      "loss": 3.8168,
      "step": 174360
    },
    {
      "epoch": 0.3632708333333333,
      "grad_norm": 0.759605348110199,
      "learning_rate": 0.00021360808957040036,
      "loss": 3.8741,
      "step": 174370
    },
    {
      "epoch": 0.3632916666666667,
      "grad_norm": 0.7283762097358704,
      "learning_rate": 0.000213599161162046,
      "loss": 3.8546,
      "step": 174380
    },
    {
      "epoch": 0.3633125,
      "grad_norm": 0.7066693902015686,
      "learning_rate": 0.00021359023247896847,
      "loss": 3.7496,
      "step": 174390
    },
    {
      "epoch": 0.36333333333333334,
      "grad_norm": 0.7391772270202637,
      "learning_rate": 0.0002135813035212063,
      "loss": 4.1114,
      "step": 174400
    },
    {
      "epoch": 0.36335416666666664,
      "grad_norm": 0.9024907350540161,
      "learning_rate": 0.00021357237428879807,
      "loss": 3.6706,
      "step": 174410
    },
    {
      "epoch": 0.363375,
      "grad_norm": 0.7156978845596313,
      "learning_rate": 0.00021356344478178237,
      "loss": 3.9141,
      "step": 174420
    },
    {
      "epoch": 0.3633958333333333,
      "grad_norm": 0.7651075720787048,
      "learning_rate": 0.00021355451500019773,
      "loss": 3.9902,
      "step": 174430
    },
    {
      "epoch": 0.36341666666666667,
      "grad_norm": 1.0825092792510986,
      "learning_rate": 0.00021354558494408277,
      "loss": 3.701,
      "step": 174440
    },
    {
      "epoch": 0.3634375,
      "grad_norm": 0.8118139505386353,
      "learning_rate": 0.00021353665461347598,
      "loss": 3.8575,
      "step": 174450
    },
    {
      "epoch": 0.3634583333333333,
      "grad_norm": 0.7562085390090942,
      "learning_rate": 0.00021352772400841602,
      "loss": 3.8727,
      "step": 174460
    },
    {
      "epoch": 0.3634791666666667,
      "grad_norm": 0.7074707746505737,
      "learning_rate": 0.00021351879312894145,
      "loss": 3.7435,
      "step": 174470
    },
    {
      "epoch": 0.3635,
      "grad_norm": 0.7040911912918091,
      "learning_rate": 0.00021350986197509077,
      "loss": 3.8601,
      "step": 174480
    },
    {
      "epoch": 0.36352083333333335,
      "grad_norm": 0.7320538759231567,
      "learning_rate": 0.00021350093054690268,
      "loss": 3.8195,
      "step": 174490
    },
    {
      "epoch": 0.36354166666666665,
      "grad_norm": 0.7480383515357971,
      "learning_rate": 0.00021349199884441574,
      "loss": 3.7778,
      "step": 174500
    },
    {
      "epoch": 0.3635625,
      "grad_norm": 0.7915358543395996,
      "learning_rate": 0.00021348306686766848,
      "loss": 3.7577,
      "step": 174510
    },
    {
      "epoch": 0.3635833333333333,
      "grad_norm": 0.7220608592033386,
      "learning_rate": 0.00021347413461669944,
      "loss": 3.7903,
      "step": 174520
    },
    {
      "epoch": 0.3636041666666667,
      "grad_norm": 0.8020449280738831,
      "learning_rate": 0.0002134652020915473,
      "loss": 3.8886,
      "step": 174530
    },
    {
      "epoch": 0.363625,
      "grad_norm": 0.7110230326652527,
      "learning_rate": 0.00021345626929225063,
      "loss": 3.9065,
      "step": 174540
    },
    {
      "epoch": 0.36364583333333333,
      "grad_norm": 0.8068051934242249,
      "learning_rate": 0.00021344733621884792,
      "loss": 3.796,
      "step": 174550
    },
    {
      "epoch": 0.3636666666666667,
      "grad_norm": 0.8334967494010925,
      "learning_rate": 0.00021343840287137793,
      "loss": 3.841,
      "step": 174560
    },
    {
      "epoch": 0.3636875,
      "grad_norm": 0.7875044345855713,
      "learning_rate": 0.0002134294692498791,
      "loss": 3.7804,
      "step": 174570
    },
    {
      "epoch": 0.36370833333333336,
      "grad_norm": 0.7620620727539062,
      "learning_rate": 0.00021342053535439008,
      "loss": 3.9666,
      "step": 174580
    },
    {
      "epoch": 0.36372916666666666,
      "grad_norm": 0.864814281463623,
      "learning_rate": 0.00021341160118494945,
      "loss": 3.8571,
      "step": 174590
    },
    {
      "epoch": 0.36375,
      "grad_norm": 0.7749935388565063,
      "learning_rate": 0.0002134026667415958,
      "loss": 3.8737,
      "step": 174600
    },
    {
      "epoch": 0.3637708333333333,
      "grad_norm": 0.7450400590896606,
      "learning_rate": 0.00021339373202436773,
      "loss": 3.8976,
      "step": 174610
    },
    {
      "epoch": 0.3637916666666667,
      "grad_norm": 0.8068118691444397,
      "learning_rate": 0.0002133847970333038,
      "loss": 3.7108,
      "step": 174620
    },
    {
      "epoch": 0.3638125,
      "grad_norm": 0.8612778782844543,
      "learning_rate": 0.00021337586176844268,
      "loss": 3.9224,
      "step": 174630
    },
    {
      "epoch": 0.36383333333333334,
      "grad_norm": 0.7837597727775574,
      "learning_rate": 0.00021336692622982295,
      "loss": 3.8216,
      "step": 174640
    },
    {
      "epoch": 0.36385416666666665,
      "grad_norm": 1.2110806703567505,
      "learning_rate": 0.00021335799041748306,
      "loss": 3.8164,
      "step": 174650
    },
    {
      "epoch": 0.363875,
      "grad_norm": 1.0225600004196167,
      "learning_rate": 0.00021334905433146185,
      "loss": 3.833,
      "step": 174660
    },
    {
      "epoch": 0.3638958333333333,
      "grad_norm": 0.7667766213417053,
      "learning_rate": 0.00021334011797179776,
      "loss": 3.9412,
      "step": 174670
    },
    {
      "epoch": 0.36391666666666667,
      "grad_norm": 0.8386001586914062,
      "learning_rate": 0.00021333118133852943,
      "loss": 3.6124,
      "step": 174680
    },
    {
      "epoch": 0.3639375,
      "grad_norm": 1.0782872438430786,
      "learning_rate": 0.00021332224443169543,
      "loss": 3.8911,
      "step": 174690
    },
    {
      "epoch": 0.36395833333333333,
      "grad_norm": 0.8304665684700012,
      "learning_rate": 0.00021331330725133448,
      "loss": 3.8675,
      "step": 174700
    },
    {
      "epoch": 0.3639791666666667,
      "grad_norm": 0.855630099773407,
      "learning_rate": 0.00021330436979748508,
      "loss": 3.9011,
      "step": 174710
    },
    {
      "epoch": 0.364,
      "grad_norm": 0.7531416416168213,
      "learning_rate": 0.0002132954320701858,
      "loss": 3.7992,
      "step": 174720
    },
    {
      "epoch": 0.36402083333333335,
      "grad_norm": 0.7193562984466553,
      "learning_rate": 0.00021328649406947533,
      "loss": 3.7256,
      "step": 174730
    },
    {
      "epoch": 0.36404166666666665,
      "grad_norm": 0.8333221673965454,
      "learning_rate": 0.0002132775557953923,
      "loss": 3.8223,
      "step": 174740
    },
    {
      "epoch": 0.3640625,
      "grad_norm": 0.9148529767990112,
      "learning_rate": 0.00021326861724797527,
      "loss": 4.0197,
      "step": 174750
    },
    {
      "epoch": 0.3640833333333333,
      "grad_norm": 0.8367631435394287,
      "learning_rate": 0.0002132596784272628,
      "loss": 3.894,
      "step": 174760
    },
    {
      "epoch": 0.3641041666666667,
      "grad_norm": 0.7908941507339478,
      "learning_rate": 0.0002132507393332936,
      "loss": 3.7859,
      "step": 174770
    },
    {
      "epoch": 0.364125,
      "grad_norm": 1.1759858131408691,
      "learning_rate": 0.00021324179996610624,
      "loss": 3.9903,
      "step": 174780
    },
    {
      "epoch": 0.36414583333333334,
      "grad_norm": 0.7537374496459961,
      "learning_rate": 0.00021323286032573935,
      "loss": 3.8008,
      "step": 174790
    },
    {
      "epoch": 0.3641666666666667,
      "grad_norm": 0.868524968624115,
      "learning_rate": 0.0002132239204122315,
      "loss": 3.8179,
      "step": 174800
    },
    {
      "epoch": 0.3641875,
      "grad_norm": 0.841977059841156,
      "learning_rate": 0.00021321498022562138,
      "loss": 3.7114,
      "step": 174810
    },
    {
      "epoch": 0.36420833333333336,
      "grad_norm": 0.7124457955360413,
      "learning_rate": 0.0002132060397659475,
      "loss": 3.8315,
      "step": 174820
    },
    {
      "epoch": 0.36422916666666666,
      "grad_norm": 0.9768667817115784,
      "learning_rate": 0.0002131970990332486,
      "loss": 3.8247,
      "step": 174830
    },
    {
      "epoch": 0.36425,
      "grad_norm": 0.7824466824531555,
      "learning_rate": 0.00021318815802756324,
      "loss": 3.7785,
      "step": 174840
    },
    {
      "epoch": 0.3642708333333333,
      "grad_norm": 0.742760181427002,
      "learning_rate": 0.00021317921674893,
      "loss": 3.8988,
      "step": 174850
    },
    {
      "epoch": 0.3642916666666667,
      "grad_norm": 0.7804973721504211,
      "learning_rate": 0.00021317027519738766,
      "loss": 3.814,
      "step": 174860
    },
    {
      "epoch": 0.3643125,
      "grad_norm": 0.8736733198165894,
      "learning_rate": 0.00021316133337297464,
      "loss": 3.821,
      "step": 174870
    },
    {
      "epoch": 0.36433333333333334,
      "grad_norm": 4.063634395599365,
      "learning_rate": 0.0002131523912757297,
      "loss": 3.8023,
      "step": 174880
    },
    {
      "epoch": 0.36435416666666665,
      "grad_norm": 0.9086807370185852,
      "learning_rate": 0.00021314344890569146,
      "loss": 3.8494,
      "step": 174890
    },
    {
      "epoch": 0.364375,
      "grad_norm": 0.724098801612854,
      "learning_rate": 0.00021313450626289846,
      "loss": 3.8727,
      "step": 174900
    },
    {
      "epoch": 0.3643958333333333,
      "grad_norm": 0.7533203959465027,
      "learning_rate": 0.0002131255633473894,
      "loss": 3.7961,
      "step": 174910
    },
    {
      "epoch": 0.36441666666666667,
      "grad_norm": 1.264714241027832,
      "learning_rate": 0.0002131166201592029,
      "loss": 3.8217,
      "step": 174920
    },
    {
      "epoch": 0.3644375,
      "grad_norm": 0.7409120798110962,
      "learning_rate": 0.00021310767669837754,
      "loss": 3.8789,
      "step": 174930
    },
    {
      "epoch": 0.36445833333333333,
      "grad_norm": 0.7163465023040771,
      "learning_rate": 0.00021309873296495205,
      "loss": 3.6649,
      "step": 174940
    },
    {
      "epoch": 0.3644791666666667,
      "grad_norm": 0.8354936838150024,
      "learning_rate": 0.000213089788958965,
      "loss": 4.0742,
      "step": 174950
    },
    {
      "epoch": 0.3645,
      "grad_norm": 0.7594638466835022,
      "learning_rate": 0.00021308084468045502,
      "loss": 3.789,
      "step": 174960
    },
    {
      "epoch": 0.36452083333333335,
      "grad_norm": 0.916227400302887,
      "learning_rate": 0.00021307190012946078,
      "loss": 3.832,
      "step": 174970
    },
    {
      "epoch": 0.36454166666666665,
      "grad_norm": 0.8011505603790283,
      "learning_rate": 0.00021306295530602087,
      "loss": 3.8999,
      "step": 174980
    },
    {
      "epoch": 0.3645625,
      "grad_norm": 0.7719142436981201,
      "learning_rate": 0.00021305401021017397,
      "loss": 3.7422,
      "step": 174990
    },
    {
      "epoch": 0.3645833333333333,
      "grad_norm": 0.7814518213272095,
      "learning_rate": 0.00021304506484195874,
      "loss": 3.7479,
      "step": 175000
    },
    {
      "epoch": 0.3645833333333333,
      "eval_loss": 4.178962707519531,
      "eval_runtime": 8.124,
      "eval_samples_per_second": 1.231,
      "eval_steps_per_second": 0.369,
      "step": 175000
    },
    {
      "epoch": 0.3646041666666667,
      "grad_norm": 0.9543401598930359,
      "learning_rate": 0.00021303611920141374,
      "loss": 3.8489,
      "step": 175010
    },
    {
      "epoch": 0.364625,
      "grad_norm": 0.7536950707435608,
      "learning_rate": 0.00021302717328857763,
      "loss": 3.8461,
      "step": 175020
    },
    {
      "epoch": 0.36464583333333334,
      "grad_norm": 0.7699366807937622,
      "learning_rate": 0.00021301822710348913,
      "loss": 3.7233,
      "step": 175030
    },
    {
      "epoch": 0.36466666666666664,
      "grad_norm": 0.8012258410453796,
      "learning_rate": 0.00021300928064618682,
      "loss": 3.6503,
      "step": 175040
    },
    {
      "epoch": 0.3646875,
      "grad_norm": 0.8757281303405762,
      "learning_rate": 0.00021300033391670933,
      "loss": 3.9409,
      "step": 175050
    },
    {
      "epoch": 0.36470833333333336,
      "grad_norm": 0.952475368976593,
      "learning_rate": 0.00021299138691509542,
      "loss": 3.8637,
      "step": 175060
    },
    {
      "epoch": 0.36472916666666666,
      "grad_norm": 0.7483399510383606,
      "learning_rate": 0.00021298243964138356,
      "loss": 3.8373,
      "step": 175070
    },
    {
      "epoch": 0.36475,
      "grad_norm": 0.7214874625205994,
      "learning_rate": 0.00021297349209561253,
      "loss": 3.7708,
      "step": 175080
    },
    {
      "epoch": 0.3647708333333333,
      "grad_norm": 0.8385199904441833,
      "learning_rate": 0.00021296454427782095,
      "loss": 3.8777,
      "step": 175090
    },
    {
      "epoch": 0.3647916666666667,
      "grad_norm": 0.760765790939331,
      "learning_rate": 0.0002129555961880474,
      "loss": 3.9729,
      "step": 175100
    },
    {
      "epoch": 0.3648125,
      "grad_norm": 0.9289222955703735,
      "learning_rate": 0.00021294664782633066,
      "loss": 3.813,
      "step": 175110
    },
    {
      "epoch": 0.36483333333333334,
      "grad_norm": 0.7888829112052917,
      "learning_rate": 0.00021293769919270928,
      "loss": 3.7429,
      "step": 175120
    },
    {
      "epoch": 0.36485416666666665,
      "grad_norm": 0.7188689112663269,
      "learning_rate": 0.00021292875028722198,
      "loss": 3.8383,
      "step": 175130
    },
    {
      "epoch": 0.364875,
      "grad_norm": 0.7364729046821594,
      "learning_rate": 0.0002129198011099074,
      "loss": 3.6583,
      "step": 175140
    },
    {
      "epoch": 0.3648958333333333,
      "grad_norm": 0.6876948475837708,
      "learning_rate": 0.00021291085166080413,
      "loss": 3.849,
      "step": 175150
    },
    {
      "epoch": 0.36491666666666667,
      "grad_norm": 0.729564368724823,
      "learning_rate": 0.0002129019019399509,
      "loss": 3.9655,
      "step": 175160
    },
    {
      "epoch": 0.3649375,
      "grad_norm": 0.956418514251709,
      "learning_rate": 0.00021289295194738646,
      "loss": 4.0867,
      "step": 175170
    },
    {
      "epoch": 0.36495833333333333,
      "grad_norm": 0.6792646646499634,
      "learning_rate": 0.00021288400168314924,
      "loss": 3.6372,
      "step": 175180
    },
    {
      "epoch": 0.3649791666666667,
      "grad_norm": 0.8811651468276978,
      "learning_rate": 0.00021287505114727802,
      "loss": 3.8069,
      "step": 175190
    },
    {
      "epoch": 0.365,
      "grad_norm": 0.773311972618103,
      "learning_rate": 0.00021286610033981152,
      "loss": 3.8297,
      "step": 175200
    },
    {
      "epoch": 0.36502083333333335,
      "grad_norm": 0.8103606104850769,
      "learning_rate": 0.00021285714926078833,
      "loss": 3.8178,
      "step": 175210
    },
    {
      "epoch": 0.36504166666666665,
      "grad_norm": 0.7690119743347168,
      "learning_rate": 0.0002128481979102471,
      "loss": 3.8066,
      "step": 175220
    },
    {
      "epoch": 0.3650625,
      "grad_norm": 0.7006215453147888,
      "learning_rate": 0.0002128392462882266,
      "loss": 3.9009,
      "step": 175230
    },
    {
      "epoch": 0.3650833333333333,
      "grad_norm": 0.7005812525749207,
      "learning_rate": 0.0002128302943947654,
      "loss": 3.7026,
      "step": 175240
    },
    {
      "epoch": 0.3651041666666667,
      "grad_norm": 0.7719292044639587,
      "learning_rate": 0.00021282134222990221,
      "loss": 3.8771,
      "step": 175250
    },
    {
      "epoch": 0.365125,
      "grad_norm": 0.7162901759147644,
      "learning_rate": 0.00021281238979367568,
      "loss": 3.7563,
      "step": 175260
    },
    {
      "epoch": 0.36514583333333334,
      "grad_norm": 0.7185836434364319,
      "learning_rate": 0.00021280343708612447,
      "loss": 3.7019,
      "step": 175270
    },
    {
      "epoch": 0.36516666666666664,
      "grad_norm": 0.8628160357475281,
      "learning_rate": 0.00021279448410728728,
      "loss": 4.0246,
      "step": 175280
    },
    {
      "epoch": 0.3651875,
      "grad_norm": 0.7761640548706055,
      "learning_rate": 0.00021278553085720276,
      "loss": 3.9737,
      "step": 175290
    },
    {
      "epoch": 0.36520833333333336,
      "grad_norm": 0.785317599773407,
      "learning_rate": 0.00021277657733590965,
      "loss": 3.7576,
      "step": 175300
    },
    {
      "epoch": 0.36522916666666666,
      "grad_norm": 0.7497972846031189,
      "learning_rate": 0.00021276762354344655,
      "loss": 3.8349,
      "step": 175310
    },
    {
      "epoch": 0.36525,
      "grad_norm": 0.8227072358131409,
      "learning_rate": 0.00021275866947985213,
      "loss": 3.7634,
      "step": 175320
    },
    {
      "epoch": 0.3652708333333333,
      "grad_norm": 0.8014456033706665,
      "learning_rate": 0.00021274971514516512,
      "loss": 3.9989,
      "step": 175330
    },
    {
      "epoch": 0.3652916666666667,
      "grad_norm": 0.8141527771949768,
      "learning_rate": 0.00021274076053942422,
      "loss": 3.7829,
      "step": 175340
    },
    {
      "epoch": 0.3653125,
      "grad_norm": 0.6212180256843567,
      "learning_rate": 0.00021273180566266797,
      "loss": 3.8156,
      "step": 175350
    },
    {
      "epoch": 0.36533333333333334,
      "grad_norm": 0.8695246577262878,
      "learning_rate": 0.00021272285051493524,
      "loss": 3.8133,
      "step": 175360
    },
    {
      "epoch": 0.36535416666666665,
      "grad_norm": 0.804716169834137,
      "learning_rate": 0.00021271389509626459,
      "loss": 3.9231,
      "step": 175370
    },
    {
      "epoch": 0.365375,
      "grad_norm": 0.9058739542961121,
      "learning_rate": 0.00021270493940669477,
      "loss": 3.9818,
      "step": 175380
    },
    {
      "epoch": 0.3653958333333333,
      "grad_norm": 0.8093626499176025,
      "learning_rate": 0.00021269598344626436,
      "loss": 3.9002,
      "step": 175390
    },
    {
      "epoch": 0.36541666666666667,
      "grad_norm": 0.7608248591423035,
      "learning_rate": 0.0002126870272150122,
      "loss": 3.7843,
      "step": 175400
    },
    {
      "epoch": 0.3654375,
      "grad_norm": 0.8691124320030212,
      "learning_rate": 0.00021267807071297684,
      "loss": 3.7939,
      "step": 175410
    },
    {
      "epoch": 0.36545833333333333,
      "grad_norm": 0.7326746582984924,
      "learning_rate": 0.000212669113940197,
      "loss": 3.7944,
      "step": 175420
    },
    {
      "epoch": 0.3654791666666667,
      "grad_norm": 0.7414424419403076,
      "learning_rate": 0.0002126601568967115,
      "loss": 3.5769,
      "step": 175430
    },
    {
      "epoch": 0.3655,
      "grad_norm": 0.6579693555831909,
      "learning_rate": 0.00021265119958255882,
      "loss": 3.7926,
      "step": 175440
    },
    {
      "epoch": 0.36552083333333335,
      "grad_norm": 0.8223866820335388,
      "learning_rate": 0.0002126422419977778,
      "loss": 3.8644,
      "step": 175450
    },
    {
      "epoch": 0.36554166666666665,
      "grad_norm": 0.7723525166511536,
      "learning_rate": 0.0002126332841424071,
      "loss": 3.8715,
      "step": 175460
    },
    {
      "epoch": 0.3655625,
      "grad_norm": 0.787481427192688,
      "learning_rate": 0.0002126243260164854,
      "loss": 3.7731,
      "step": 175470
    },
    {
      "epoch": 0.3655833333333333,
      "grad_norm": 0.7363212704658508,
      "learning_rate": 0.00021261536762005138,
      "loss": 3.8711,
      "step": 175480
    },
    {
      "epoch": 0.3656041666666667,
      "grad_norm": 0.7761071920394897,
      "learning_rate": 0.00021260640895314376,
      "loss": 3.8351,
      "step": 175490
    },
    {
      "epoch": 0.365625,
      "grad_norm": 0.7774080634117126,
      "learning_rate": 0.00021259745001580126,
      "loss": 3.8389,
      "step": 175500
    },
    {
      "epoch": 0.36564583333333334,
      "grad_norm": 0.8738390803337097,
      "learning_rate": 0.00021258849080806256,
      "loss": 3.831,
      "step": 175510
    },
    {
      "epoch": 0.36566666666666664,
      "grad_norm": 0.8430890440940857,
      "learning_rate": 0.0002125795313299663,
      "loss": 3.7885,
      "step": 175520
    },
    {
      "epoch": 0.3656875,
      "grad_norm": 0.8462783098220825,
      "learning_rate": 0.00021257057158155127,
      "loss": 3.8953,
      "step": 175530
    },
    {
      "epoch": 0.36570833333333336,
      "grad_norm": 0.8573465943336487,
      "learning_rate": 0.00021256161156285616,
      "loss": 3.9549,
      "step": 175540
    },
    {
      "epoch": 0.36572916666666666,
      "grad_norm": 0.7587723135948181,
      "learning_rate": 0.0002125526512739196,
      "loss": 3.6616,
      "step": 175550
    },
    {
      "epoch": 0.36575,
      "grad_norm": 0.7948476672172546,
      "learning_rate": 0.00021254369071478034,
      "loss": 3.905,
      "step": 175560
    },
    {
      "epoch": 0.3657708333333333,
      "grad_norm": 0.9257258176803589,
      "learning_rate": 0.00021253472988547718,
      "loss": 3.6975,
      "step": 175570
    },
    {
      "epoch": 0.3657916666666667,
      "grad_norm": 0.8531047105789185,
      "learning_rate": 0.00021252576878604869,
      "loss": 3.8699,
      "step": 175580
    },
    {
      "epoch": 0.3658125,
      "grad_norm": 0.8894035220146179,
      "learning_rate": 0.00021251680741653364,
      "loss": 3.7922,
      "step": 175590
    },
    {
      "epoch": 0.36583333333333334,
      "grad_norm": 0.7560015916824341,
      "learning_rate": 0.00021250784577697067,
      "loss": 3.8215,
      "step": 175600
    },
    {
      "epoch": 0.36585416666666665,
      "grad_norm": 0.8178151845932007,
      "learning_rate": 0.0002124988838673986,
      "loss": 3.8171,
      "step": 175610
    },
    {
      "epoch": 0.365875,
      "grad_norm": 0.7580834031105042,
      "learning_rate": 0.0002124899216878561,
      "loss": 3.9713,
      "step": 175620
    },
    {
      "epoch": 0.3658958333333333,
      "grad_norm": 0.7897757291793823,
      "learning_rate": 0.0002124809592383818,
      "loss": 3.8164,
      "step": 175630
    },
    {
      "epoch": 0.36591666666666667,
      "grad_norm": 0.8372364640235901,
      "learning_rate": 0.00021247199651901457,
      "loss": 3.7197,
      "step": 175640
    },
    {
      "epoch": 0.3659375,
      "grad_norm": 0.7465304136276245,
      "learning_rate": 0.000212463033529793,
      "loss": 3.7919,
      "step": 175650
    },
    {
      "epoch": 0.36595833333333333,
      "grad_norm": 0.6782053709030151,
      "learning_rate": 0.00021245407027075587,
      "loss": 4.036,
      "step": 175660
    },
    {
      "epoch": 0.3659791666666667,
      "grad_norm": 0.9671266674995422,
      "learning_rate": 0.00021244510674194188,
      "loss": 3.7249,
      "step": 175670
    },
    {
      "epoch": 0.366,
      "grad_norm": 0.7444034814834595,
      "learning_rate": 0.00021243614294338977,
      "loss": 3.8075,
      "step": 175680
    },
    {
      "epoch": 0.36602083333333335,
      "grad_norm": 1.0118134021759033,
      "learning_rate": 0.00021242717887513818,
      "loss": 3.8589,
      "step": 175690
    },
    {
      "epoch": 0.36604166666666665,
      "grad_norm": 0.8973221182823181,
      "learning_rate": 0.0002124182145372259,
      "loss": 3.9084,
      "step": 175700
    },
    {
      "epoch": 0.3660625,
      "grad_norm": 0.951199471950531,
      "learning_rate": 0.00021240924992969168,
      "loss": 3.9049,
      "step": 175710
    },
    {
      "epoch": 0.3660833333333333,
      "grad_norm": 0.7485636472702026,
      "learning_rate": 0.00021240028505257414,
      "loss": 3.91,
      "step": 175720
    },
    {
      "epoch": 0.3661041666666667,
      "grad_norm": 0.7209036350250244,
      "learning_rate": 0.0002123913199059121,
      "loss": 3.8434,
      "step": 175730
    },
    {
      "epoch": 0.366125,
      "grad_norm": 0.8078885078430176,
      "learning_rate": 0.00021238235448974428,
      "loss": 3.8345,
      "step": 175740
    },
    {
      "epoch": 0.36614583333333334,
      "grad_norm": 0.7596293687820435,
      "learning_rate": 0.00021237338880410937,
      "loss": 3.9133,
      "step": 175750
    },
    {
      "epoch": 0.36616666666666664,
      "grad_norm": 0.7512754797935486,
      "learning_rate": 0.0002123644228490461,
      "loss": 3.6607,
      "step": 175760
    },
    {
      "epoch": 0.3661875,
      "grad_norm": 0.8496394753456116,
      "learning_rate": 0.0002123554566245932,
      "loss": 3.8049,
      "step": 175770
    },
    {
      "epoch": 0.36620833333333336,
      "grad_norm": 0.7215437889099121,
      "learning_rate": 0.00021234649013078945,
      "loss": 3.9252,
      "step": 175780
    },
    {
      "epoch": 0.36622916666666666,
      "grad_norm": 0.7424211502075195,
      "learning_rate": 0.0002123375233676735,
      "loss": 3.8419,
      "step": 175790
    },
    {
      "epoch": 0.36625,
      "grad_norm": 0.8069102168083191,
      "learning_rate": 0.0002123285563352841,
      "loss": 3.8247,
      "step": 175800
    },
    {
      "epoch": 0.3662708333333333,
      "grad_norm": 0.7804856300354004,
      "learning_rate": 0.00021231958903366005,
      "loss": 3.7355,
      "step": 175810
    },
    {
      "epoch": 0.3662916666666667,
      "grad_norm": 0.7594544887542725,
      "learning_rate": 0.00021231062146284004,
      "loss": 4.0628,
      "step": 175820
    },
    {
      "epoch": 0.3663125,
      "grad_norm": 0.9608187675476074,
      "learning_rate": 0.00021230165362286278,
      "loss": 3.9214,
      "step": 175830
    },
    {
      "epoch": 0.36633333333333334,
      "grad_norm": 0.9510507583618164,
      "learning_rate": 0.00021229268551376708,
      "loss": 3.8276,
      "step": 175840
    },
    {
      "epoch": 0.36635416666666665,
      "grad_norm": 0.851483166217804,
      "learning_rate": 0.00021228371713559162,
      "loss": 3.9533,
      "step": 175850
    },
    {
      "epoch": 0.366375,
      "grad_norm": 0.9510905146598816,
      "learning_rate": 0.00021227474848837516,
      "loss": 3.8949,
      "step": 175860
    },
    {
      "epoch": 0.3663958333333333,
      "grad_norm": 0.8065227270126343,
      "learning_rate": 0.00021226577957215642,
      "loss": 3.7725,
      "step": 175870
    },
    {
      "epoch": 0.36641666666666667,
      "grad_norm": 0.7330882549285889,
      "learning_rate": 0.00021225681038697418,
      "loss": 3.8623,
      "step": 175880
    },
    {
      "epoch": 0.3664375,
      "grad_norm": 0.7765643000602722,
      "learning_rate": 0.0002122478409328671,
      "loss": 3.9581,
      "step": 175890
    },
    {
      "epoch": 0.36645833333333333,
      "grad_norm": 0.9261114597320557,
      "learning_rate": 0.00021223887120987408,
      "loss": 3.8935,
      "step": 175900
    },
    {
      "epoch": 0.3664791666666667,
      "grad_norm": 0.8125590085983276,
      "learning_rate": 0.00021222990121803372,
      "loss": 3.6776,
      "step": 175910
    },
    {
      "epoch": 0.3665,
      "grad_norm": 0.8975281119346619,
      "learning_rate": 0.0002122209309573848,
      "loss": 3.7395,
      "step": 175920
    },
    {
      "epoch": 0.36652083333333335,
      "grad_norm": 0.7979750633239746,
      "learning_rate": 0.00021221196042796615,
      "loss": 3.9569,
      "step": 175930
    },
    {
      "epoch": 0.36654166666666665,
      "grad_norm": 0.713593065738678,
      "learning_rate": 0.00021220298962981642,
      "loss": 3.65,
      "step": 175940
    },
    {
      "epoch": 0.3665625,
      "grad_norm": 0.8520346879959106,
      "learning_rate": 0.00021219401856297437,
      "loss": 3.8281,
      "step": 175950
    },
    {
      "epoch": 0.3665833333333333,
      "grad_norm": 0.7256143093109131,
      "learning_rate": 0.00021218504722747883,
      "loss": 3.6485,
      "step": 175960
    },
    {
      "epoch": 0.3666041666666667,
      "grad_norm": 0.6689755320549011,
      "learning_rate": 0.00021217607562336847,
      "loss": 3.7766,
      "step": 175970
    },
    {
      "epoch": 0.366625,
      "grad_norm": 0.8357972502708435,
      "learning_rate": 0.0002121671037506821,
      "loss": 3.7816,
      "step": 175980
    },
    {
      "epoch": 0.36664583333333334,
      "grad_norm": 0.7650572657585144,
      "learning_rate": 0.0002121581316094584,
      "loss": 3.7701,
      "step": 175990
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 0.7557189464569092,
      "learning_rate": 0.00021214915919973618,
      "loss": 3.9295,
      "step": 176000
    },
    {
      "epoch": 0.36666666666666664,
      "eval_loss": 4.188157558441162,
      "eval_runtime": 9.0795,
      "eval_samples_per_second": 1.101,
      "eval_steps_per_second": 0.33,
      "step": 176000
    },
    {
      "epoch": 0.3666875,
      "grad_norm": 0.7163336277008057,
      "learning_rate": 0.00021214018652155424,
      "loss": 3.8366,
      "step": 176010
    },
    {
      "epoch": 0.36670833333333336,
      "grad_norm": 0.7485082745552063,
      "learning_rate": 0.00021213121357495127,
      "loss": 3.5543,
      "step": 176020
    },
    {
      "epoch": 0.36672916666666666,
      "grad_norm": 0.8654319047927856,
      "learning_rate": 0.00021212224035996603,
      "loss": 4.0584,
      "step": 176030
    },
    {
      "epoch": 0.36675,
      "grad_norm": 0.7568565607070923,
      "learning_rate": 0.00021211326687663735,
      "loss": 3.9937,
      "step": 176040
    },
    {
      "epoch": 0.3667708333333333,
      "grad_norm": 0.938218891620636,
      "learning_rate": 0.0002121042931250039,
      "loss": 3.7403,
      "step": 176050
    },
    {
      "epoch": 0.3667916666666667,
      "grad_norm": 0.8829306364059448,
      "learning_rate": 0.00021209531910510452,
      "loss": 3.758,
      "step": 176060
    },
    {
      "epoch": 0.3668125,
      "grad_norm": 0.7556623220443726,
      "learning_rate": 0.00021208634481697792,
      "loss": 3.8327,
      "step": 176070
    },
    {
      "epoch": 0.36683333333333334,
      "grad_norm": 0.8250897526741028,
      "learning_rate": 0.0002120773702606629,
      "loss": 3.7719,
      "step": 176080
    },
    {
      "epoch": 0.36685416666666665,
      "grad_norm": 0.7813183069229126,
      "learning_rate": 0.00021206839543619815,
      "loss": 3.6765,
      "step": 176090
    },
    {
      "epoch": 0.366875,
      "grad_norm": 0.8514734506607056,
      "learning_rate": 0.00021205942034362258,
      "loss": 3.9248,
      "step": 176100
    },
    {
      "epoch": 0.3668958333333333,
      "grad_norm": 0.7920708656311035,
      "learning_rate": 0.00021205044498297484,
      "loss": 3.8367,
      "step": 176110
    },
    {
      "epoch": 0.36691666666666667,
      "grad_norm": 0.8339046239852905,
      "learning_rate": 0.00021204146935429374,
      "loss": 3.8712,
      "step": 176120
    },
    {
      "epoch": 0.3669375,
      "grad_norm": 0.8433459401130676,
      "learning_rate": 0.00021203249345761805,
      "loss": 3.9731,
      "step": 176130
    },
    {
      "epoch": 0.36695833333333333,
      "grad_norm": 0.7437567114830017,
      "learning_rate": 0.00021202351729298654,
      "loss": 3.9704,
      "step": 176140
    },
    {
      "epoch": 0.3669791666666667,
      "grad_norm": 0.890786349773407,
      "learning_rate": 0.000212014540860438,
      "loss": 3.5511,
      "step": 176150
    },
    {
      "epoch": 0.367,
      "grad_norm": 0.9526023268699646,
      "learning_rate": 0.0002120055641600112,
      "loss": 3.8843,
      "step": 176160
    },
    {
      "epoch": 0.36702083333333335,
      "grad_norm": 0.8961060047149658,
      "learning_rate": 0.00021199658719174487,
      "loss": 3.9057,
      "step": 176170
    },
    {
      "epoch": 0.36704166666666665,
      "grad_norm": 0.8980767130851746,
      "learning_rate": 0.0002119876099556779,
      "loss": 3.8395,
      "step": 176180
    },
    {
      "epoch": 0.3670625,
      "grad_norm": 0.7026386260986328,
      "learning_rate": 0.0002119786324518489,
      "loss": 3.8248,
      "step": 176190
    },
    {
      "epoch": 0.3670833333333333,
      "grad_norm": 0.9986991882324219,
      "learning_rate": 0.00021196965468029674,
      "loss": 3.8285,
      "step": 176200
    },
    {
      "epoch": 0.3671041666666667,
      "grad_norm": 0.7387000322341919,
      "learning_rate": 0.0002119606766410603,
      "loss": 3.8886,
      "step": 176210
    },
    {
      "epoch": 0.367125,
      "grad_norm": 0.7845318913459778,
      "learning_rate": 0.00021195169833417818,
      "loss": 3.8713,
      "step": 176220
    },
    {
      "epoch": 0.36714583333333334,
      "grad_norm": 0.8641128540039062,
      "learning_rate": 0.00021194271975968925,
      "loss": 3.8257,
      "step": 176230
    },
    {
      "epoch": 0.36716666666666664,
      "grad_norm": 0.9447407126426697,
      "learning_rate": 0.00021193374091763232,
      "loss": 3.831,
      "step": 176240
    },
    {
      "epoch": 0.3671875,
      "grad_norm": 0.7937675714492798,
      "learning_rate": 0.00021192476180804612,
      "loss": 3.8935,
      "step": 176250
    },
    {
      "epoch": 0.36720833333333336,
      "grad_norm": 0.7478681802749634,
      "learning_rate": 0.00021191578243096943,
      "loss": 3.8761,
      "step": 176260
    },
    {
      "epoch": 0.36722916666666666,
      "grad_norm": 0.7483050227165222,
      "learning_rate": 0.00021190680278644115,
      "loss": 3.9774,
      "step": 176270
    },
    {
      "epoch": 0.36725,
      "grad_norm": 0.8092762231826782,
      "learning_rate": 0.00021189782287449994,
      "loss": 3.8443,
      "step": 176280
    },
    {
      "epoch": 0.3672708333333333,
      "grad_norm": 0.7252716422080994,
      "learning_rate": 0.0002118888426951846,
      "loss": 3.8081,
      "step": 176290
    },
    {
      "epoch": 0.3672916666666667,
      "grad_norm": 0.6924551129341125,
      "learning_rate": 0.00021187986224853407,
      "loss": 3.9181,
      "step": 176300
    },
    {
      "epoch": 0.3673125,
      "grad_norm": 0.8550118803977966,
      "learning_rate": 0.00021187088153458693,
      "loss": 3.6204,
      "step": 176310
    },
    {
      "epoch": 0.36733333333333335,
      "grad_norm": 0.8897987604141235,
      "learning_rate": 0.0002118619005533821,
      "loss": 3.8208,
      "step": 176320
    },
    {
      "epoch": 0.36735416666666665,
      "grad_norm": 0.8373711109161377,
      "learning_rate": 0.00021185291930495833,
      "loss": 4.0319,
      "step": 176330
    },
    {
      "epoch": 0.367375,
      "grad_norm": 0.785690188407898,
      "learning_rate": 0.00021184393778935447,
      "loss": 3.8487,
      "step": 176340
    },
    {
      "epoch": 0.3673958333333333,
      "grad_norm": 0.8070406317710876,
      "learning_rate": 0.00021183495600660924,
      "loss": 3.9184,
      "step": 176350
    },
    {
      "epoch": 0.36741666666666667,
      "grad_norm": 0.7392933368682861,
      "learning_rate": 0.00021182597395676147,
      "loss": 3.8052,
      "step": 176360
    },
    {
      "epoch": 0.3674375,
      "grad_norm": 0.7510437965393066,
      "learning_rate": 0.00021181699163984997,
      "loss": 3.8703,
      "step": 176370
    },
    {
      "epoch": 0.36745833333333333,
      "grad_norm": 0.7222855091094971,
      "learning_rate": 0.00021180800905591361,
      "loss": 3.8481,
      "step": 176380
    },
    {
      "epoch": 0.3674791666666667,
      "grad_norm": 0.8016020655632019,
      "learning_rate": 0.000211799026204991,
      "loss": 3.8301,
      "step": 176390
    },
    {
      "epoch": 0.3675,
      "grad_norm": 0.7548627853393555,
      "learning_rate": 0.00021179004308712111,
      "loss": 3.7747,
      "step": 176400
    },
    {
      "epoch": 0.36752083333333335,
      "grad_norm": 0.9005002975463867,
      "learning_rate": 0.00021178105970234276,
      "loss": 3.8867,
      "step": 176410
    },
    {
      "epoch": 0.36754166666666666,
      "grad_norm": 0.7328395843505859,
      "learning_rate": 0.0002117720760506946,
      "loss": 3.6291,
      "step": 176420
    },
    {
      "epoch": 0.3675625,
      "grad_norm": 0.900111973285675,
      "learning_rate": 0.00021176309213221552,
      "loss": 3.6881,
      "step": 176430
    },
    {
      "epoch": 0.3675833333333333,
      "grad_norm": 0.7106534242630005,
      "learning_rate": 0.00021175410794694438,
      "loss": 3.8807,
      "step": 176440
    },
    {
      "epoch": 0.3676041666666667,
      "grad_norm": 0.7841580510139465,
      "learning_rate": 0.0002117451234949199,
      "loss": 3.7161,
      "step": 176450
    },
    {
      "epoch": 0.367625,
      "grad_norm": 0.6842843294143677,
      "learning_rate": 0.00021173613877618094,
      "loss": 3.8974,
      "step": 176460
    },
    {
      "epoch": 0.36764583333333334,
      "grad_norm": 0.7331829071044922,
      "learning_rate": 0.00021172715379076632,
      "loss": 3.9032,
      "step": 176470
    },
    {
      "epoch": 0.36766666666666664,
      "grad_norm": 0.9008625149726868,
      "learning_rate": 0.00021171816853871479,
      "loss": 3.9728,
      "step": 176480
    },
    {
      "epoch": 0.3676875,
      "grad_norm": 0.7122818231582642,
      "learning_rate": 0.0002117091830200652,
      "loss": 3.7398,
      "step": 176490
    },
    {
      "epoch": 0.36770833333333336,
      "grad_norm": 0.8841747045516968,
      "learning_rate": 0.0002117001972348564,
      "loss": 3.7045,
      "step": 176500
    },
    {
      "epoch": 0.36772916666666666,
      "grad_norm": 0.7023046016693115,
      "learning_rate": 0.00021169121118312718,
      "loss": 3.9013,
      "step": 176510
    },
    {
      "epoch": 0.36775,
      "grad_norm": 0.8110509514808655,
      "learning_rate": 0.00021168222486491628,
      "loss": 3.899,
      "step": 176520
    },
    {
      "epoch": 0.3677708333333333,
      "grad_norm": 0.7237525582313538,
      "learning_rate": 0.00021167323828026266,
      "loss": 3.7363,
      "step": 176530
    },
    {
      "epoch": 0.3677916666666667,
      "grad_norm": 0.7743939757347107,
      "learning_rate": 0.000211664251429205,
      "loss": 3.8753,
      "step": 176540
    },
    {
      "epoch": 0.3678125,
      "grad_norm": 0.7283889651298523,
      "learning_rate": 0.00021165526431178225,
      "loss": 3.9364,
      "step": 176550
    },
    {
      "epoch": 0.36783333333333335,
      "grad_norm": 0.7271332740783691,
      "learning_rate": 0.00021164627692803306,
      "loss": 3.8275,
      "step": 176560
    },
    {
      "epoch": 0.36785416666666665,
      "grad_norm": 0.8065826296806335,
      "learning_rate": 0.00021163728927799645,
      "loss": 3.86,
      "step": 176570
    },
    {
      "epoch": 0.367875,
      "grad_norm": 0.8089401125907898,
      "learning_rate": 0.00021162830136171114,
      "loss": 3.9481,
      "step": 176580
    },
    {
      "epoch": 0.3678958333333333,
      "grad_norm": 1.036176323890686,
      "learning_rate": 0.0002116193131792159,
      "loss": 3.5827,
      "step": 176590
    },
    {
      "epoch": 0.36791666666666667,
      "grad_norm": 0.7499284148216248,
      "learning_rate": 0.00021161032473054965,
      "loss": 3.8875,
      "step": 176600
    },
    {
      "epoch": 0.3679375,
      "grad_norm": 0.7639920115470886,
      "learning_rate": 0.00021160133601575123,
      "loss": 3.7804,
      "step": 176610
    },
    {
      "epoch": 0.36795833333333333,
      "grad_norm": 0.7495521903038025,
      "learning_rate": 0.00021159234703485938,
      "loss": 3.6622,
      "step": 176620
    },
    {
      "epoch": 0.3679791666666667,
      "grad_norm": 0.746687650680542,
      "learning_rate": 0.00021158335778791298,
      "loss": 3.8867,
      "step": 176630
    },
    {
      "epoch": 0.368,
      "grad_norm": 0.8485696315765381,
      "learning_rate": 0.00021157436827495084,
      "loss": 3.9159,
      "step": 176640
    },
    {
      "epoch": 0.36802083333333335,
      "grad_norm": 0.8373370170593262,
      "learning_rate": 0.0002115653784960118,
      "loss": 3.7395,
      "step": 176650
    },
    {
      "epoch": 0.36804166666666666,
      "grad_norm": 0.6819946765899658,
      "learning_rate": 0.0002115563884511347,
      "loss": 3.9107,
      "step": 176660
    },
    {
      "epoch": 0.3680625,
      "grad_norm": 0.8983847498893738,
      "learning_rate": 0.00021154739814035835,
      "loss": 3.8836,
      "step": 176670
    },
    {
      "epoch": 0.3680833333333333,
      "grad_norm": 0.8446140885353088,
      "learning_rate": 0.00021153840756372162,
      "loss": 3.9648,
      "step": 176680
    },
    {
      "epoch": 0.3681041666666667,
      "grad_norm": 0.8502234220504761,
      "learning_rate": 0.00021152941672126333,
      "loss": 3.8053,
      "step": 176690
    },
    {
      "epoch": 0.368125,
      "grad_norm": 0.778627336025238,
      "learning_rate": 0.0002115204256130223,
      "loss": 3.7605,
      "step": 176700
    },
    {
      "epoch": 0.36814583333333334,
      "grad_norm": 0.7549022436141968,
      "learning_rate": 0.00021151143423903742,
      "loss": 3.9739,
      "step": 176710
    },
    {
      "epoch": 0.36816666666666664,
      "grad_norm": 0.7736579775810242,
      "learning_rate": 0.00021150244259934747,
      "loss": 3.5608,
      "step": 176720
    },
    {
      "epoch": 0.3681875,
      "grad_norm": 0.7389713525772095,
      "learning_rate": 0.00021149345069399129,
      "loss": 3.7932,
      "step": 176730
    },
    {
      "epoch": 0.36820833333333336,
      "grad_norm": 1.0561037063598633,
      "learning_rate": 0.00021148445852300777,
      "loss": 3.9944,
      "step": 176740
    },
    {
      "epoch": 0.36822916666666666,
      "grad_norm": 0.7178621292114258,
      "learning_rate": 0.00021147546608643573,
      "loss": 3.8247,
      "step": 176750
    },
    {
      "epoch": 0.36825,
      "grad_norm": 0.7873221635818481,
      "learning_rate": 0.00021146647338431395,
      "loss": 3.9523,
      "step": 176760
    },
    {
      "epoch": 0.3682708333333333,
      "grad_norm": 0.8219990134239197,
      "learning_rate": 0.00021145748041668142,
      "loss": 3.7294,
      "step": 176770
    },
    {
      "epoch": 0.3682916666666667,
      "grad_norm": 0.7142077088356018,
      "learning_rate": 0.00021144848718357689,
      "loss": 3.7027,
      "step": 176780
    },
    {
      "epoch": 0.3683125,
      "grad_norm": 0.909339427947998,
      "learning_rate": 0.00021143949368503914,
      "loss": 3.7753,
      "step": 176790
    },
    {
      "epoch": 0.36833333333333335,
      "grad_norm": 0.7593896985054016,
      "learning_rate": 0.0002114304999211072,
      "loss": 3.9706,
      "step": 176800
    },
    {
      "epoch": 0.36835416666666665,
      "grad_norm": 0.687825620174408,
      "learning_rate": 0.00021142150589181975,
      "loss": 3.8024,
      "step": 176810
    },
    {
      "epoch": 0.368375,
      "grad_norm": 0.7775341868400574,
      "learning_rate": 0.00021141251159721572,
      "loss": 3.8669,
      "step": 176820
    },
    {
      "epoch": 0.3683958333333333,
      "grad_norm": 0.7176303267478943,
      "learning_rate": 0.00021140351703733394,
      "loss": 3.8809,
      "step": 176830
    },
    {
      "epoch": 0.36841666666666667,
      "grad_norm": 0.7990537285804749,
      "learning_rate": 0.0002113945222122133,
      "loss": 3.8046,
      "step": 176840
    },
    {
      "epoch": 0.3684375,
      "grad_norm": 0.7449598908424377,
      "learning_rate": 0.00021138552712189263,
      "loss": 3.8067,
      "step": 176850
    },
    {
      "epoch": 0.36845833333333333,
      "grad_norm": 0.7341335415840149,
      "learning_rate": 0.00021137653176641073,
      "loss": 3.6979,
      "step": 176860
    },
    {
      "epoch": 0.3684791666666667,
      "grad_norm": 0.717875599861145,
      "learning_rate": 0.00021136753614580655,
      "loss": 3.8649,
      "step": 176870
    },
    {
      "epoch": 0.3685,
      "grad_norm": 0.8975697159767151,
      "learning_rate": 0.00021135854026011887,
      "loss": 4.0177,
      "step": 176880
    },
    {
      "epoch": 0.36852083333333335,
      "grad_norm": 0.7833134531974792,
      "learning_rate": 0.00021134954410938661,
      "loss": 3.7443,
      "step": 176890
    },
    {
      "epoch": 0.36854166666666666,
      "grad_norm": 0.7742405533790588,
      "learning_rate": 0.0002113405476936486,
      "loss": 3.8872,
      "step": 176900
    },
    {
      "epoch": 0.3685625,
      "grad_norm": 0.8764700293540955,
      "learning_rate": 0.00021133155101294373,
      "loss": 3.7515,
      "step": 176910
    },
    {
      "epoch": 0.3685833333333333,
      "grad_norm": 0.9957898855209351,
      "learning_rate": 0.0002113225540673108,
      "loss": 3.8748,
      "step": 176920
    },
    {
      "epoch": 0.3686041666666667,
      "grad_norm": 0.6975538730621338,
      "learning_rate": 0.00021131355685678874,
      "loss": 3.8045,
      "step": 176930
    },
    {
      "epoch": 0.368625,
      "grad_norm": 0.8251401782035828,
      "learning_rate": 0.00021130455938141637,
      "loss": 3.8066,
      "step": 176940
    },
    {
      "epoch": 0.36864583333333334,
      "grad_norm": 0.7284777164459229,
      "learning_rate": 0.00021129556164123253,
      "loss": 3.8885,
      "step": 176950
    },
    {
      "epoch": 0.36866666666666664,
      "grad_norm": 0.7925465106964111,
      "learning_rate": 0.00021128656363627614,
      "loss": 3.7545,
      "step": 176960
    },
    {
      "epoch": 0.3686875,
      "grad_norm": 0.8606317043304443,
      "learning_rate": 0.0002112775653665861,
      "loss": 3.9488,
      "step": 176970
    },
    {
      "epoch": 0.36870833333333336,
      "grad_norm": 0.873894214630127,
      "learning_rate": 0.00021126856683220124,
      "loss": 4.0439,
      "step": 176980
    },
    {
      "epoch": 0.36872916666666666,
      "grad_norm": 0.6350842118263245,
      "learning_rate": 0.00021125956803316032,
      "loss": 3.8247,
      "step": 176990
    },
    {
      "epoch": 0.36875,
      "grad_norm": 0.732252836227417,
      "learning_rate": 0.0002112505689695024,
      "loss": 3.9213,
      "step": 177000
    },
    {
      "epoch": 0.36875,
      "eval_loss": 4.174833297729492,
      "eval_runtime": 8.0286,
      "eval_samples_per_second": 1.246,
      "eval_steps_per_second": 0.374,
      "step": 177000
    },
    {
      "epoch": 0.3687708333333333,
      "grad_norm": 0.812144935131073,
      "learning_rate": 0.00021124156964126626,
      "loss": 3.7556,
      "step": 177010
    },
    {
      "epoch": 0.3687916666666667,
      "grad_norm": 1.1933475732803345,
      "learning_rate": 0.00021123257004849078,
      "loss": 3.8712,
      "step": 177020
    },
    {
      "epoch": 0.3688125,
      "grad_norm": 0.7797101140022278,
      "learning_rate": 0.00021122357019121482,
      "loss": 3.7707,
      "step": 177030
    },
    {
      "epoch": 0.36883333333333335,
      "grad_norm": 0.7571420073509216,
      "learning_rate": 0.0002112145700694773,
      "loss": 3.874,
      "step": 177040
    },
    {
      "epoch": 0.36885416666666665,
      "grad_norm": 0.7739045023918152,
      "learning_rate": 0.00021120556968331702,
      "loss": 3.7666,
      "step": 177050
    },
    {
      "epoch": 0.368875,
      "grad_norm": 1.1813656091690063,
      "learning_rate": 0.00021119656903277292,
      "loss": 3.7841,
      "step": 177060
    },
    {
      "epoch": 0.3688958333333333,
      "grad_norm": 0.880074143409729,
      "learning_rate": 0.0002111875681178839,
      "loss": 3.8342,
      "step": 177070
    },
    {
      "epoch": 0.36891666666666667,
      "grad_norm": 0.8344805240631104,
      "learning_rate": 0.00021117856693868877,
      "loss": 3.774,
      "step": 177080
    },
    {
      "epoch": 0.3689375,
      "grad_norm": 0.7729838490486145,
      "learning_rate": 0.00021116956549522645,
      "loss": 3.8712,
      "step": 177090
    },
    {
      "epoch": 0.36895833333333333,
      "grad_norm": 0.7547234296798706,
      "learning_rate": 0.00021116056378753584,
      "loss": 3.8449,
      "step": 177100
    },
    {
      "epoch": 0.3689791666666667,
      "grad_norm": 0.9719130992889404,
      "learning_rate": 0.00021115156181565582,
      "loss": 3.8575,
      "step": 177110
    },
    {
      "epoch": 0.369,
      "grad_norm": 0.767299234867096,
      "learning_rate": 0.00021114255957962522,
      "loss": 4.0329,
      "step": 177120
    },
    {
      "epoch": 0.36902083333333335,
      "grad_norm": 0.9412045478820801,
      "learning_rate": 0.00021113355707948295,
      "loss": 3.7183,
      "step": 177130
    },
    {
      "epoch": 0.36904166666666666,
      "grad_norm": 0.8243719935417175,
      "learning_rate": 0.00021112455431526796,
      "loss": 3.8477,
      "step": 177140
    },
    {
      "epoch": 0.3690625,
      "grad_norm": 0.8220449686050415,
      "learning_rate": 0.00021111555128701905,
      "loss": 3.8629,
      "step": 177150
    },
    {
      "epoch": 0.3690833333333333,
      "grad_norm": 0.6617626547813416,
      "learning_rate": 0.00021110654799477515,
      "loss": 3.8291,
      "step": 177160
    },
    {
      "epoch": 0.3691041666666667,
      "grad_norm": 0.8663657903671265,
      "learning_rate": 0.00021109754443857518,
      "loss": 3.783,
      "step": 177170
    },
    {
      "epoch": 0.369125,
      "grad_norm": 0.9312291145324707,
      "learning_rate": 0.00021108854061845797,
      "loss": 3.9122,
      "step": 177180
    },
    {
      "epoch": 0.36914583333333334,
      "grad_norm": 0.8353019952774048,
      "learning_rate": 0.00021107953653446248,
      "loss": 3.8397,
      "step": 177190
    },
    {
      "epoch": 0.36916666666666664,
      "grad_norm": 0.8432974815368652,
      "learning_rate": 0.00021107053218662755,
      "loss": 3.7907,
      "step": 177200
    },
    {
      "epoch": 0.3691875,
      "grad_norm": 0.6650378704071045,
      "learning_rate": 0.0002110615275749921,
      "loss": 3.875,
      "step": 177210
    },
    {
      "epoch": 0.36920833333333336,
      "grad_norm": 0.7391588091850281,
      "learning_rate": 0.00021105252269959502,
      "loss": 3.9,
      "step": 177220
    },
    {
      "epoch": 0.36922916666666666,
      "grad_norm": 0.7876847386360168,
      "learning_rate": 0.0002110435175604752,
      "loss": 3.7527,
      "step": 177230
    },
    {
      "epoch": 0.36925,
      "grad_norm": 0.7762985229492188,
      "learning_rate": 0.00021103451215767155,
      "loss": 3.9521,
      "step": 177240
    },
    {
      "epoch": 0.3692708333333333,
      "grad_norm": 0.814048707485199,
      "learning_rate": 0.00021102550649122298,
      "loss": 3.6657,
      "step": 177250
    },
    {
      "epoch": 0.3692916666666667,
      "grad_norm": 0.7522384524345398,
      "learning_rate": 0.00021101650056116835,
      "loss": 3.9098,
      "step": 177260
    },
    {
      "epoch": 0.3693125,
      "grad_norm": 0.8209241628646851,
      "learning_rate": 0.0002110074943675466,
      "loss": 3.7223,
      "step": 177270
    },
    {
      "epoch": 0.36933333333333335,
      "grad_norm": 0.7652930617332458,
      "learning_rate": 0.00021099848791039666,
      "loss": 3.7372,
      "step": 177280
    },
    {
      "epoch": 0.36935416666666665,
      "grad_norm": 0.8148242831230164,
      "learning_rate": 0.00021098948118975733,
      "loss": 3.7563,
      "step": 177290
    },
    {
      "epoch": 0.369375,
      "grad_norm": 0.6885390877723694,
      "learning_rate": 0.0002109804742056676,
      "loss": 3.6868,
      "step": 177300
    },
    {
      "epoch": 0.3693958333333333,
      "grad_norm": 0.7162787318229675,
      "learning_rate": 0.0002109714669581664,
      "loss": 3.8553,
      "step": 177310
    },
    {
      "epoch": 0.36941666666666667,
      "grad_norm": 0.7844197750091553,
      "learning_rate": 0.00021096245944729258,
      "loss": 3.7997,
      "step": 177320
    },
    {
      "epoch": 0.3694375,
      "grad_norm": 0.8513805866241455,
      "learning_rate": 0.00021095345167308503,
      "loss": 3.8334,
      "step": 177330
    },
    {
      "epoch": 0.36945833333333333,
      "grad_norm": 0.7388949990272522,
      "learning_rate": 0.00021094444363558277,
      "loss": 3.8199,
      "step": 177340
    },
    {
      "epoch": 0.3694791666666667,
      "grad_norm": 0.8883571028709412,
      "learning_rate": 0.0002109354353348246,
      "loss": 3.8623,
      "step": 177350
    },
    {
      "epoch": 0.3695,
      "grad_norm": 0.7921071648597717,
      "learning_rate": 0.00021092642677084943,
      "loss": 3.9096,
      "step": 177360
    },
    {
      "epoch": 0.36952083333333335,
      "grad_norm": 0.8107759952545166,
      "learning_rate": 0.00021091741794369625,
      "loss": 3.6706,
      "step": 177370
    },
    {
      "epoch": 0.36954166666666666,
      "grad_norm": 0.9043346047401428,
      "learning_rate": 0.00021090840885340393,
      "loss": 3.9349,
      "step": 177380
    },
    {
      "epoch": 0.3695625,
      "grad_norm": 0.7805797457695007,
      "learning_rate": 0.0002108993995000114,
      "loss": 3.8264,
      "step": 177390
    },
    {
      "epoch": 0.3695833333333333,
      "grad_norm": 1.3039063215255737,
      "learning_rate": 0.00021089038988355758,
      "loss": 3.9422,
      "step": 177400
    },
    {
      "epoch": 0.3696041666666667,
      "grad_norm": 0.7316091060638428,
      "learning_rate": 0.00021088138000408135,
      "loss": 3.884,
      "step": 177410
    },
    {
      "epoch": 0.369625,
      "grad_norm": 0.8235815167427063,
      "learning_rate": 0.00021087236986162166,
      "loss": 3.7631,
      "step": 177420
    },
    {
      "epoch": 0.36964583333333334,
      "grad_norm": 0.9335933923721313,
      "learning_rate": 0.0002108633594562174,
      "loss": 3.6803,
      "step": 177430
    },
    {
      "epoch": 0.36966666666666664,
      "grad_norm": 0.8103799819946289,
      "learning_rate": 0.00021085434878790758,
      "loss": 3.8455,
      "step": 177440
    },
    {
      "epoch": 0.3696875,
      "grad_norm": 0.7161619067192078,
      "learning_rate": 0.00021084533785673107,
      "loss": 3.8984,
      "step": 177450
    },
    {
      "epoch": 0.36970833333333336,
      "grad_norm": 0.7352567315101624,
      "learning_rate": 0.0002108363266627267,
      "loss": 3.8175,
      "step": 177460
    },
    {
      "epoch": 0.36972916666666666,
      "grad_norm": 1.1769179105758667,
      "learning_rate": 0.00021082731520593356,
      "loss": 3.7619,
      "step": 177470
    },
    {
      "epoch": 0.36975,
      "grad_norm": 0.832231879234314,
      "learning_rate": 0.0002108183034863905,
      "loss": 3.7646,
      "step": 177480
    },
    {
      "epoch": 0.3697708333333333,
      "grad_norm": 0.8741198182106018,
      "learning_rate": 0.00021080929150413637,
      "loss": 3.5083,
      "step": 177490
    },
    {
      "epoch": 0.3697916666666667,
      "grad_norm": 0.8437455892562866,
      "learning_rate": 0.00021080027925921024,
      "loss": 3.91,
      "step": 177500
    },
    {
      "epoch": 0.3698125,
      "grad_norm": 0.7460184693336487,
      "learning_rate": 0.00021079126675165093,
      "loss": 3.7352,
      "step": 177510
    },
    {
      "epoch": 0.36983333333333335,
      "grad_norm": 0.8923637270927429,
      "learning_rate": 0.0002107822539814974,
      "loss": 3.7712,
      "step": 177520
    },
    {
      "epoch": 0.36985416666666665,
      "grad_norm": 0.9166281819343567,
      "learning_rate": 0.00021077324094878863,
      "loss": 3.8077,
      "step": 177530
    },
    {
      "epoch": 0.369875,
      "grad_norm": 0.7708879709243774,
      "learning_rate": 0.00021076422765356348,
      "loss": 3.7915,
      "step": 177540
    },
    {
      "epoch": 0.3698958333333333,
      "grad_norm": 0.7525516152381897,
      "learning_rate": 0.00021075521409586096,
      "loss": 3.9499,
      "step": 177550
    },
    {
      "epoch": 0.36991666666666667,
      "grad_norm": 0.6917641162872314,
      "learning_rate": 0.00021074620027571994,
      "loss": 3.6853,
      "step": 177560
    },
    {
      "epoch": 0.3699375,
      "grad_norm": 0.7935017347335815,
      "learning_rate": 0.00021073718619317935,
      "loss": 3.9579,
      "step": 177570
    },
    {
      "epoch": 0.36995833333333333,
      "grad_norm": 0.7726532220840454,
      "learning_rate": 0.00021072817184827818,
      "loss": 3.802,
      "step": 177580
    },
    {
      "epoch": 0.3699791666666667,
      "grad_norm": 0.7169908285140991,
      "learning_rate": 0.00021071915724105535,
      "loss": 3.7482,
      "step": 177590
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.837716817855835,
      "learning_rate": 0.00021071014237154982,
      "loss": 3.868,
      "step": 177600
    },
    {
      "epoch": 0.37002083333333335,
      "grad_norm": 0.8295095562934875,
      "learning_rate": 0.00021070112723980047,
      "loss": 3.8312,
      "step": 177610
    },
    {
      "epoch": 0.37004166666666666,
      "grad_norm": 0.8194606304168701,
      "learning_rate": 0.0002106921118458463,
      "loss": 4.065,
      "step": 177620
    },
    {
      "epoch": 0.3700625,
      "grad_norm": 0.7121061682701111,
      "learning_rate": 0.0002106830961897262,
      "loss": 3.8706,
      "step": 177630
    },
    {
      "epoch": 0.3700833333333333,
      "grad_norm": 0.8252716660499573,
      "learning_rate": 0.00021067408027147916,
      "loss": 3.7618,
      "step": 177640
    },
    {
      "epoch": 0.3701041666666667,
      "grad_norm": 0.7817904353141785,
      "learning_rate": 0.00021066506409114417,
      "loss": 3.8541,
      "step": 177650
    },
    {
      "epoch": 0.370125,
      "grad_norm": 0.8807939291000366,
      "learning_rate": 0.00021065604764876,
      "loss": 3.8575,
      "step": 177660
    },
    {
      "epoch": 0.37014583333333334,
      "grad_norm": 0.740164577960968,
      "learning_rate": 0.0002106470309443658,
      "loss": 3.7122,
      "step": 177670
    },
    {
      "epoch": 0.37016666666666664,
      "grad_norm": 0.7737842798233032,
      "learning_rate": 0.0002106380139780004,
      "loss": 3.7284,
      "step": 177680
    },
    {
      "epoch": 0.3701875,
      "grad_norm": 0.8061385750770569,
      "learning_rate": 0.0002106289967497028,
      "loss": 3.8336,
      "step": 177690
    },
    {
      "epoch": 0.3702083333333333,
      "grad_norm": 0.7719032764434814,
      "learning_rate": 0.0002106199792595119,
      "loss": 3.7917,
      "step": 177700
    },
    {
      "epoch": 0.37022916666666666,
      "grad_norm": 0.8259548544883728,
      "learning_rate": 0.0002106109615074667,
      "loss": 3.8258,
      "step": 177710
    },
    {
      "epoch": 0.37025,
      "grad_norm": 0.8093640804290771,
      "learning_rate": 0.00021060194349360614,
      "loss": 3.7517,
      "step": 177720
    },
    {
      "epoch": 0.3702708333333333,
      "grad_norm": 0.7730896472930908,
      "learning_rate": 0.0002105929252179692,
      "loss": 3.7019,
      "step": 177730
    },
    {
      "epoch": 0.3702916666666667,
      "grad_norm": 0.8671708106994629,
      "learning_rate": 0.00021058390668059475,
      "loss": 3.6984,
      "step": 177740
    },
    {
      "epoch": 0.3703125,
      "grad_norm": 0.6477019786834717,
      "learning_rate": 0.00021057488788152182,
      "loss": 3.8412,
      "step": 177750
    },
    {
      "epoch": 0.37033333333333335,
      "grad_norm": 0.765644907951355,
      "learning_rate": 0.0002105658688207894,
      "loss": 3.69,
      "step": 177760
    },
    {
      "epoch": 0.37035416666666665,
      "grad_norm": 0.7325965166091919,
      "learning_rate": 0.00021055684949843637,
      "loss": 3.7949,
      "step": 177770
    },
    {
      "epoch": 0.370375,
      "grad_norm": 0.6827107667922974,
      "learning_rate": 0.0002105478299145017,
      "loss": 3.7688,
      "step": 177780
    },
    {
      "epoch": 0.3703958333333333,
      "grad_norm": 0.7640544772148132,
      "learning_rate": 0.0002105388100690244,
      "loss": 3.8915,
      "step": 177790
    },
    {
      "epoch": 0.37041666666666667,
      "grad_norm": 0.7029624581336975,
      "learning_rate": 0.0002105297899620434,
      "loss": 3.852,
      "step": 177800
    },
    {
      "epoch": 0.3704375,
      "grad_norm": 0.7345836162567139,
      "learning_rate": 0.00021052076959359768,
      "loss": 3.6986,
      "step": 177810
    },
    {
      "epoch": 0.37045833333333333,
      "grad_norm": 0.8696255683898926,
      "learning_rate": 0.00021051174896372617,
      "loss": 3.8284,
      "step": 177820
    },
    {
      "epoch": 0.3704791666666667,
      "grad_norm": 0.8232707977294922,
      "learning_rate": 0.00021050272807246785,
      "loss": 3.8444,
      "step": 177830
    },
    {
      "epoch": 0.3705,
      "grad_norm": 0.7901656031608582,
      "learning_rate": 0.00021049370691986172,
      "loss": 3.8359,
      "step": 177840
    },
    {
      "epoch": 0.37052083333333335,
      "grad_norm": 1.197434663772583,
      "learning_rate": 0.00021048468550594667,
      "loss": 3.7634,
      "step": 177850
    },
    {
      "epoch": 0.37054166666666666,
      "grad_norm": 0.7932934165000916,
      "learning_rate": 0.00021047566383076174,
      "loss": 3.849,
      "step": 177860
    },
    {
      "epoch": 0.3705625,
      "grad_norm": 0.7261562347412109,
      "learning_rate": 0.0002104666418943459,
      "loss": 4.0008,
      "step": 177870
    },
    {
      "epoch": 0.3705833333333333,
      "grad_norm": 0.7811923027038574,
      "learning_rate": 0.0002104576196967381,
      "loss": 3.8791,
      "step": 177880
    },
    {
      "epoch": 0.3706041666666667,
      "grad_norm": 0.7585251331329346,
      "learning_rate": 0.00021044859723797732,
      "loss": 3.7384,
      "step": 177890
    },
    {
      "epoch": 0.370625,
      "grad_norm": 0.8487197756767273,
      "learning_rate": 0.0002104395745181025,
      "loss": 3.7932,
      "step": 177900
    },
    {
      "epoch": 0.37064583333333334,
      "grad_norm": 0.9886959791183472,
      "learning_rate": 0.00021043055153715268,
      "loss": 3.8603,
      "step": 177910
    },
    {
      "epoch": 0.37066666666666664,
      "grad_norm": 0.7406943440437317,
      "learning_rate": 0.00021042152829516675,
      "loss": 3.6708,
      "step": 177920
    },
    {
      "epoch": 0.3706875,
      "grad_norm": 0.9095242023468018,
      "learning_rate": 0.00021041250479218377,
      "loss": 3.8381,
      "step": 177930
    },
    {
      "epoch": 0.3707083333333333,
      "grad_norm": 0.742088258266449,
      "learning_rate": 0.00021040348102824264,
      "loss": 3.9069,
      "step": 177940
    },
    {
      "epoch": 0.37072916666666667,
      "grad_norm": 0.7089185118675232,
      "learning_rate": 0.00021039445700338246,
      "loss": 3.8247,
      "step": 177950
    },
    {
      "epoch": 0.37075,
      "grad_norm": 0.707535982131958,
      "learning_rate": 0.00021038543271764205,
      "loss": 3.744,
      "step": 177960
    },
    {
      "epoch": 0.3707708333333333,
      "grad_norm": 0.7627074122428894,
      "learning_rate": 0.00021037640817106053,
      "loss": 3.7937,
      "step": 177970
    },
    {
      "epoch": 0.3707916666666667,
      "grad_norm": 0.7172052264213562,
      "learning_rate": 0.0002103673833636768,
      "loss": 3.9656,
      "step": 177980
    },
    {
      "epoch": 0.3708125,
      "grad_norm": 0.7499812245368958,
      "learning_rate": 0.00021035835829552984,
      "loss": 3.9253,
      "step": 177990
    },
    {
      "epoch": 0.37083333333333335,
      "grad_norm": 0.8472590446472168,
      "learning_rate": 0.0002103493329666587,
      "loss": 3.9537,
      "step": 178000
    },
    {
      "epoch": 0.37083333333333335,
      "eval_loss": 4.181757926940918,
      "eval_runtime": 8.0268,
      "eval_samples_per_second": 1.246,
      "eval_steps_per_second": 0.374,
      "step": 178000
    },
    {
      "epoch": 0.37085416666666665,
      "grad_norm": 0.7699434161186218,
      "learning_rate": 0.00021034030737710234,
      "loss": 3.777,
      "step": 178010
    },
    {
      "epoch": 0.370875,
      "grad_norm": 0.7830488681793213,
      "learning_rate": 0.00021033128152689974,
      "loss": 3.9261,
      "step": 178020
    },
    {
      "epoch": 0.3708958333333333,
      "grad_norm": 0.8633097410202026,
      "learning_rate": 0.00021032225541608982,
      "loss": 3.9211,
      "step": 178030
    },
    {
      "epoch": 0.3709166666666667,
      "grad_norm": 0.837221622467041,
      "learning_rate": 0.0002103132290447117,
      "loss": 3.7897,
      "step": 178040
    },
    {
      "epoch": 0.3709375,
      "grad_norm": 0.7527936697006226,
      "learning_rate": 0.0002103042024128043,
      "loss": 3.825,
      "step": 178050
    },
    {
      "epoch": 0.37095833333333333,
      "grad_norm": 0.7540567517280579,
      "learning_rate": 0.00021029517552040658,
      "loss": 4.0767,
      "step": 178060
    },
    {
      "epoch": 0.3709791666666667,
      "grad_norm": 0.7734706401824951,
      "learning_rate": 0.0002102861483675576,
      "loss": 3.8327,
      "step": 178070
    },
    {
      "epoch": 0.371,
      "grad_norm": 0.7146485447883606,
      "learning_rate": 0.0002102771209542963,
      "loss": 3.7294,
      "step": 178080
    },
    {
      "epoch": 0.37102083333333336,
      "grad_norm": 0.793250560760498,
      "learning_rate": 0.00021026809328066168,
      "loss": 3.8729,
      "step": 178090
    },
    {
      "epoch": 0.37104166666666666,
      "grad_norm": 0.9031503200531006,
      "learning_rate": 0.00021025906534669279,
      "loss": 3.9526,
      "step": 178100
    },
    {
      "epoch": 0.3710625,
      "grad_norm": 0.6805474758148193,
      "learning_rate": 0.00021025003715242858,
      "loss": 3.8489,
      "step": 178110
    },
    {
      "epoch": 0.3710833333333333,
      "grad_norm": 0.8251108527183533,
      "learning_rate": 0.00021024100869790807,
      "loss": 3.9489,
      "step": 178120
    },
    {
      "epoch": 0.3711041666666667,
      "grad_norm": 0.67929607629776,
      "learning_rate": 0.0002102319799831702,
      "loss": 3.8056,
      "step": 178130
    },
    {
      "epoch": 0.371125,
      "grad_norm": 0.8899263739585876,
      "learning_rate": 0.00021022295100825403,
      "loss": 3.9962,
      "step": 178140
    },
    {
      "epoch": 0.37114583333333334,
      "grad_norm": 0.7853606939315796,
      "learning_rate": 0.00021021392177319862,
      "loss": 3.8341,
      "step": 178150
    },
    {
      "epoch": 0.37116666666666664,
      "grad_norm": 0.6815971732139587,
      "learning_rate": 0.00021020489227804282,
      "loss": 3.8007,
      "step": 178160
    },
    {
      "epoch": 0.3711875,
      "grad_norm": 0.890034019947052,
      "learning_rate": 0.00021019586252282575,
      "loss": 3.7361,
      "step": 178170
    },
    {
      "epoch": 0.3712083333333333,
      "grad_norm": 0.8085666298866272,
      "learning_rate": 0.00021018683250758642,
      "loss": 3.708,
      "step": 178180
    },
    {
      "epoch": 0.37122916666666667,
      "grad_norm": 0.9084311723709106,
      "learning_rate": 0.00021017780223236374,
      "loss": 3.8434,
      "step": 178190
    },
    {
      "epoch": 0.37125,
      "grad_norm": 0.7419505715370178,
      "learning_rate": 0.00021016877169719676,
      "loss": 3.8853,
      "step": 178200
    },
    {
      "epoch": 0.3712708333333333,
      "grad_norm": 0.7946854829788208,
      "learning_rate": 0.00021015974090212456,
      "loss": 3.6907,
      "step": 178210
    },
    {
      "epoch": 0.3712916666666667,
      "grad_norm": 0.7274298667907715,
      "learning_rate": 0.0002101507098471861,
      "loss": 4.022,
      "step": 178220
    },
    {
      "epoch": 0.3713125,
      "grad_norm": 0.7301917672157288,
      "learning_rate": 0.00021014167853242028,
      "loss": 3.874,
      "step": 178230
    },
    {
      "epoch": 0.37133333333333335,
      "grad_norm": 0.7052403092384338,
      "learning_rate": 0.00021013264695786632,
      "loss": 3.8189,
      "step": 178240
    },
    {
      "epoch": 0.37135416666666665,
      "grad_norm": 0.7264949679374695,
      "learning_rate": 0.00021012361512356308,
      "loss": 3.9421,
      "step": 178250
    },
    {
      "epoch": 0.371375,
      "grad_norm": 0.8785839080810547,
      "learning_rate": 0.00021011458302954965,
      "loss": 4.0051,
      "step": 178260
    },
    {
      "epoch": 0.3713958333333333,
      "grad_norm": 0.6628440618515015,
      "learning_rate": 0.000210105550675865,
      "loss": 3.8159,
      "step": 178270
    },
    {
      "epoch": 0.3714166666666667,
      "grad_norm": 0.7798364162445068,
      "learning_rate": 0.00021009651806254816,
      "loss": 3.9949,
      "step": 178280
    },
    {
      "epoch": 0.3714375,
      "grad_norm": 0.8096057176589966,
      "learning_rate": 0.00021008748518963814,
      "loss": 3.7806,
      "step": 178290
    },
    {
      "epoch": 0.37145833333333333,
      "grad_norm": 0.7641943693161011,
      "learning_rate": 0.00021007845205717396,
      "loss": 3.7818,
      "step": 178300
    },
    {
      "epoch": 0.3714791666666667,
      "grad_norm": 0.7406030893325806,
      "learning_rate": 0.00021006941866519467,
      "loss": 3.7811,
      "step": 178310
    },
    {
      "epoch": 0.3715,
      "grad_norm": 0.8964828252792358,
      "learning_rate": 0.00021006038501373932,
      "loss": 3.804,
      "step": 178320
    },
    {
      "epoch": 0.37152083333333336,
      "grad_norm": 0.6896443963050842,
      "learning_rate": 0.00021005135110284677,
      "loss": 3.7062,
      "step": 178330
    },
    {
      "epoch": 0.37154166666666666,
      "grad_norm": 0.7397447824478149,
      "learning_rate": 0.0002100423169325562,
      "loss": 3.7982,
      "step": 178340
    },
    {
      "epoch": 0.3715625,
      "grad_norm": 0.7325363159179688,
      "learning_rate": 0.00021003328250290666,
      "loss": 3.9708,
      "step": 178350
    },
    {
      "epoch": 0.3715833333333333,
      "grad_norm": 0.7138165235519409,
      "learning_rate": 0.000210024247813937,
      "loss": 3.7947,
      "step": 178360
    },
    {
      "epoch": 0.3716041666666667,
      "grad_norm": 0.753078818321228,
      "learning_rate": 0.00021001521286568637,
      "loss": 3.9135,
      "step": 178370
    },
    {
      "epoch": 0.371625,
      "grad_norm": 0.7321028113365173,
      "learning_rate": 0.00021000617765819384,
      "loss": 3.8671,
      "step": 178380
    },
    {
      "epoch": 0.37164583333333334,
      "grad_norm": 0.7920403480529785,
      "learning_rate": 0.00020999714219149834,
      "loss": 3.9208,
      "step": 178390
    },
    {
      "epoch": 0.37166666666666665,
      "grad_norm": 0.7708569765090942,
      "learning_rate": 0.00020998810646563889,
      "loss": 4.0169,
      "step": 178400
    },
    {
      "epoch": 0.3716875,
      "grad_norm": 0.8011320233345032,
      "learning_rate": 0.0002099790704806546,
      "loss": 3.8471,
      "step": 178410
    },
    {
      "epoch": 0.3717083333333333,
      "grad_norm": 0.8234016299247742,
      "learning_rate": 0.00020997003423658448,
      "loss": 3.8216,
      "step": 178420
    },
    {
      "epoch": 0.37172916666666667,
      "grad_norm": 0.8454583287239075,
      "learning_rate": 0.00020996099773346752,
      "loss": 3.978,
      "step": 178430
    },
    {
      "epoch": 0.37175,
      "grad_norm": 0.9824339747428894,
      "learning_rate": 0.00020995196097134278,
      "loss": 3.8883,
      "step": 178440
    },
    {
      "epoch": 0.37177083333333333,
      "grad_norm": 0.8502426147460938,
      "learning_rate": 0.00020994292395024933,
      "loss": 3.7654,
      "step": 178450
    },
    {
      "epoch": 0.3717916666666667,
      "grad_norm": 0.8743799328804016,
      "learning_rate": 0.00020993388667022616,
      "loss": 3.7161,
      "step": 178460
    },
    {
      "epoch": 0.3718125,
      "grad_norm": 0.9366058707237244,
      "learning_rate": 0.00020992484913131233,
      "loss": 3.9411,
      "step": 178470
    },
    {
      "epoch": 0.37183333333333335,
      "grad_norm": 0.8233741521835327,
      "learning_rate": 0.00020991581133354687,
      "loss": 3.9532,
      "step": 178480
    },
    {
      "epoch": 0.37185416666666665,
      "grad_norm": 0.7409042716026306,
      "learning_rate": 0.00020990677327696882,
      "loss": 3.7986,
      "step": 178490
    },
    {
      "epoch": 0.371875,
      "grad_norm": 0.804029107093811,
      "learning_rate": 0.0002098977349616172,
      "loss": 3.7411,
      "step": 178500
    },
    {
      "epoch": 0.3718958333333333,
      "grad_norm": 0.946056067943573,
      "learning_rate": 0.00020988869638753112,
      "loss": 3.8281,
      "step": 178510
    },
    {
      "epoch": 0.3719166666666667,
      "grad_norm": 0.7597657442092896,
      "learning_rate": 0.00020987965755474956,
      "loss": 3.9693,
      "step": 178520
    },
    {
      "epoch": 0.3719375,
      "grad_norm": 0.7693281173706055,
      "learning_rate": 0.00020987061846331154,
      "loss": 3.9358,
      "step": 178530
    },
    {
      "epoch": 0.37195833333333334,
      "grad_norm": 0.7280880212783813,
      "learning_rate": 0.0002098615791132562,
      "loss": 3.8662,
      "step": 178540
    },
    {
      "epoch": 0.3719791666666667,
      "grad_norm": 0.8084341883659363,
      "learning_rate": 0.00020985253950462252,
      "loss": 3.7535,
      "step": 178550
    },
    {
      "epoch": 0.372,
      "grad_norm": 0.8039785623550415,
      "learning_rate": 0.00020984349963744955,
      "loss": 3.8507,
      "step": 178560
    },
    {
      "epoch": 0.37202083333333336,
      "grad_norm": 0.7598233222961426,
      "learning_rate": 0.00020983445951177636,
      "loss": 3.7944,
      "step": 178570
    },
    {
      "epoch": 0.37204166666666666,
      "grad_norm": 0.8537322878837585,
      "learning_rate": 0.00020982541912764198,
      "loss": 3.9384,
      "step": 178580
    },
    {
      "epoch": 0.3720625,
      "grad_norm": 0.7552649974822998,
      "learning_rate": 0.00020981637848508546,
      "loss": 3.852,
      "step": 178590
    },
    {
      "epoch": 0.3720833333333333,
      "grad_norm": 0.7740214467048645,
      "learning_rate": 0.00020980733758414586,
      "loss": 3.8721,
      "step": 178600
    },
    {
      "epoch": 0.3721041666666667,
      "grad_norm": 0.7992701530456543,
      "learning_rate": 0.00020979829642486228,
      "loss": 3.7544,
      "step": 178610
    },
    {
      "epoch": 0.372125,
      "grad_norm": 0.8125569820404053,
      "learning_rate": 0.00020978925500727367,
      "loss": 3.8718,
      "step": 178620
    },
    {
      "epoch": 0.37214583333333334,
      "grad_norm": 0.7827708125114441,
      "learning_rate": 0.0002097802133314192,
      "loss": 3.775,
      "step": 178630
    },
    {
      "epoch": 0.37216666666666665,
      "grad_norm": 0.79612135887146,
      "learning_rate": 0.00020977117139733782,
      "loss": 3.8741,
      "step": 178640
    },
    {
      "epoch": 0.3721875,
      "grad_norm": 0.8391796946525574,
      "learning_rate": 0.00020976212920506868,
      "loss": 3.9811,
      "step": 178650
    },
    {
      "epoch": 0.3722083333333333,
      "grad_norm": 0.7202799916267395,
      "learning_rate": 0.00020975308675465077,
      "loss": 3.8801,
      "step": 178660
    },
    {
      "epoch": 0.37222916666666667,
      "grad_norm": 0.8126392960548401,
      "learning_rate": 0.00020974404404612318,
      "loss": 3.9624,
      "step": 178670
    },
    {
      "epoch": 0.37225,
      "grad_norm": 0.7509127855300903,
      "learning_rate": 0.000209735001079525,
      "loss": 3.7665,
      "step": 178680
    },
    {
      "epoch": 0.37227083333333333,
      "grad_norm": 0.7169077396392822,
      "learning_rate": 0.00020972595785489524,
      "loss": 3.8887,
      "step": 178690
    },
    {
      "epoch": 0.3722916666666667,
      "grad_norm": 0.7505655288696289,
      "learning_rate": 0.00020971691437227295,
      "loss": 3.8516,
      "step": 178700
    },
    {
      "epoch": 0.3723125,
      "grad_norm": 0.773750901222229,
      "learning_rate": 0.00020970787063169727,
      "loss": 3.7012,
      "step": 178710
    },
    {
      "epoch": 0.37233333333333335,
      "grad_norm": 0.9772403836250305,
      "learning_rate": 0.0002096988266332072,
      "loss": 3.8118,
      "step": 178720
    },
    {
      "epoch": 0.37235416666666665,
      "grad_norm": 1.0124844312667847,
      "learning_rate": 0.00020968978237684185,
      "loss": 3.7827,
      "step": 178730
    },
    {
      "epoch": 0.372375,
      "grad_norm": 0.7634708881378174,
      "learning_rate": 0.00020968073786264025,
      "loss": 3.916,
      "step": 178740
    },
    {
      "epoch": 0.3723958333333333,
      "grad_norm": 0.9860318899154663,
      "learning_rate": 0.0002096716930906415,
      "loss": 3.9151,
      "step": 178750
    },
    {
      "epoch": 0.3724166666666667,
      "grad_norm": 0.8080265522003174,
      "learning_rate": 0.00020966264806088463,
      "loss": 3.762,
      "step": 178760
    },
    {
      "epoch": 0.3724375,
      "grad_norm": 0.7679430246353149,
      "learning_rate": 0.0002096536027734088,
      "loss": 3.8682,
      "step": 178770
    },
    {
      "epoch": 0.37245833333333334,
      "grad_norm": 0.8111410140991211,
      "learning_rate": 0.00020964455722825295,
      "loss": 3.8944,
      "step": 178780
    },
    {
      "epoch": 0.37247916666666664,
      "grad_norm": 0.721007764339447,
      "learning_rate": 0.00020963551142545622,
      "loss": 3.757,
      "step": 178790
    },
    {
      "epoch": 0.3725,
      "grad_norm": 0.7802501916885376,
      "learning_rate": 0.00020962646536505774,
      "loss": 3.9102,
      "step": 178800
    },
    {
      "epoch": 0.37252083333333336,
      "grad_norm": 0.7971340417861938,
      "learning_rate": 0.00020961741904709647,
      "loss": 3.9743,
      "step": 178810
    },
    {
      "epoch": 0.37254166666666666,
      "grad_norm": 0.73151034116745,
      "learning_rate": 0.0002096083724716116,
      "loss": 3.6813,
      "step": 178820
    },
    {
      "epoch": 0.3725625,
      "grad_norm": 0.949103057384491,
      "learning_rate": 0.00020959932563864212,
      "loss": 3.74,
      "step": 178830
    },
    {
      "epoch": 0.3725833333333333,
      "grad_norm": 0.726283848285675,
      "learning_rate": 0.00020959027854822716,
      "loss": 3.8417,
      "step": 178840
    },
    {
      "epoch": 0.3726041666666667,
      "grad_norm": 0.9016027450561523,
      "learning_rate": 0.0002095812312004058,
      "loss": 3.9551,
      "step": 178850
    },
    {
      "epoch": 0.372625,
      "grad_norm": 0.9295608997344971,
      "learning_rate": 0.00020957218359521706,
      "loss": 3.7604,
      "step": 178860
    },
    {
      "epoch": 0.37264583333333334,
      "grad_norm": 0.7768557667732239,
      "learning_rate": 0.0002095631357327001,
      "loss": 3.6821,
      "step": 178870
    },
    {
      "epoch": 0.37266666666666665,
      "grad_norm": 0.8500458598136902,
      "learning_rate": 0.000209554087612894,
      "loss": 3.7271,
      "step": 178880
    },
    {
      "epoch": 0.3726875,
      "grad_norm": 0.6781859397888184,
      "learning_rate": 0.00020954503923583775,
      "loss": 3.7601,
      "step": 178890
    },
    {
      "epoch": 0.3727083333333333,
      "grad_norm": 0.8734440207481384,
      "learning_rate": 0.00020953599060157053,
      "loss": 3.7743,
      "step": 178900
    },
    {
      "epoch": 0.37272916666666667,
      "grad_norm": 0.7474825382232666,
      "learning_rate": 0.0002095269417101314,
      "loss": 3.8301,
      "step": 178910
    },
    {
      "epoch": 0.37275,
      "grad_norm": 1.0776479244232178,
      "learning_rate": 0.00020951789256155946,
      "loss": 4.0801,
      "step": 178920
    },
    {
      "epoch": 0.37277083333333333,
      "grad_norm": 0.7443664073944092,
      "learning_rate": 0.00020950884315589372,
      "loss": 3.7505,
      "step": 178930
    },
    {
      "epoch": 0.3727916666666667,
      "grad_norm": 0.7827825546264648,
      "learning_rate": 0.0002094997934931734,
      "loss": 3.8879,
      "step": 178940
    },
    {
      "epoch": 0.3728125,
      "grad_norm": 0.6879350543022156,
      "learning_rate": 0.00020949074357343752,
      "loss": 3.7766,
      "step": 178950
    },
    {
      "epoch": 0.37283333333333335,
      "grad_norm": 0.9491407871246338,
      "learning_rate": 0.00020948169339672512,
      "loss": 3.9421,
      "step": 178960
    },
    {
      "epoch": 0.37285416666666665,
      "grad_norm": 0.8044938445091248,
      "learning_rate": 0.00020947264296307543,
      "loss": 4.0519,
      "step": 178970
    },
    {
      "epoch": 0.372875,
      "grad_norm": 0.7709895968437195,
      "learning_rate": 0.0002094635922725274,
      "loss": 3.8846,
      "step": 178980
    },
    {
      "epoch": 0.3728958333333333,
      "grad_norm": 0.8668221235275269,
      "learning_rate": 0.0002094545413251202,
      "loss": 3.9466,
      "step": 178990
    },
    {
      "epoch": 0.3729166666666667,
      "grad_norm": 0.7134490609169006,
      "learning_rate": 0.00020944549012089292,
      "loss": 3.8242,
      "step": 179000
    },
    {
      "epoch": 0.3729166666666667,
      "eval_loss": 4.1876220703125,
      "eval_runtime": 8.741,
      "eval_samples_per_second": 1.144,
      "eval_steps_per_second": 0.343,
      "step": 179000
    },
    {
      "epoch": 0.3729375,
      "grad_norm": 0.6982027292251587,
      "learning_rate": 0.00020943643865988467,
      "loss": 3.8942,
      "step": 179010
    },
    {
      "epoch": 0.37295833333333334,
      "grad_norm": 0.7709391713142395,
      "learning_rate": 0.00020942738694213454,
      "loss": 3.7235,
      "step": 179020
    },
    {
      "epoch": 0.37297916666666664,
      "grad_norm": 0.8774149417877197,
      "learning_rate": 0.00020941833496768156,
      "loss": 3.7751,
      "step": 179030
    },
    {
      "epoch": 0.373,
      "grad_norm": 0.8072407841682434,
      "learning_rate": 0.00020940928273656493,
      "loss": 4.0302,
      "step": 179040
    },
    {
      "epoch": 0.37302083333333336,
      "grad_norm": 1.0530108213424683,
      "learning_rate": 0.00020940023024882374,
      "loss": 3.9452,
      "step": 179050
    },
    {
      "epoch": 0.37304166666666666,
      "grad_norm": 0.7497549057006836,
      "learning_rate": 0.00020939117750449704,
      "loss": 3.7086,
      "step": 179060
    },
    {
      "epoch": 0.3730625,
      "grad_norm": 0.7915631532669067,
      "learning_rate": 0.00020938212450362392,
      "loss": 3.834,
      "step": 179070
    },
    {
      "epoch": 0.3730833333333333,
      "grad_norm": 0.8130291104316711,
      "learning_rate": 0.00020937307124624364,
      "loss": 3.7724,
      "step": 179080
    },
    {
      "epoch": 0.3731041666666667,
      "grad_norm": 0.7465516924858093,
      "learning_rate": 0.0002093640177323951,
      "loss": 3.767,
      "step": 179090
    },
    {
      "epoch": 0.373125,
      "grad_norm": 0.6993057131767273,
      "learning_rate": 0.0002093549639621175,
      "loss": 3.8934,
      "step": 179100
    },
    {
      "epoch": 0.37314583333333334,
      "grad_norm": 0.7362962365150452,
      "learning_rate": 0.00020934590993545,
      "loss": 3.8429,
      "step": 179110
    },
    {
      "epoch": 0.37316666666666665,
      "grad_norm": 0.9453835487365723,
      "learning_rate": 0.00020933685565243166,
      "loss": 3.6315,
      "step": 179120
    },
    {
      "epoch": 0.3731875,
      "grad_norm": 0.7908069491386414,
      "learning_rate": 0.00020932780111310154,
      "loss": 3.9828,
      "step": 179130
    },
    {
      "epoch": 0.3732083333333333,
      "grad_norm": 1.0145275592803955,
      "learning_rate": 0.00020931874631749883,
      "loss": 3.8147,
      "step": 179140
    },
    {
      "epoch": 0.37322916666666667,
      "grad_norm": 0.806792140007019,
      "learning_rate": 0.00020930969126566263,
      "loss": 3.8479,
      "step": 179150
    },
    {
      "epoch": 0.37325,
      "grad_norm": 0.9966431260108948,
      "learning_rate": 0.000209300635957632,
      "loss": 3.8094,
      "step": 179160
    },
    {
      "epoch": 0.37327083333333333,
      "grad_norm": 0.883457362651825,
      "learning_rate": 0.00020929158039344613,
      "loss": 4.0051,
      "step": 179170
    },
    {
      "epoch": 0.3732916666666667,
      "grad_norm": 0.7695524096488953,
      "learning_rate": 0.00020928252457314413,
      "loss": 3.9604,
      "step": 179180
    },
    {
      "epoch": 0.3733125,
      "grad_norm": 0.8656646609306335,
      "learning_rate": 0.00020927346849676506,
      "loss": 3.8249,
      "step": 179190
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 0.711838960647583,
      "learning_rate": 0.00020926441216434803,
      "loss": 3.7844,
      "step": 179200
    },
    {
      "epoch": 0.37335416666666665,
      "grad_norm": 0.6953003406524658,
      "learning_rate": 0.0002092553555759322,
      "loss": 3.745,
      "step": 179210
    },
    {
      "epoch": 0.373375,
      "grad_norm": 0.7878190875053406,
      "learning_rate": 0.00020924629873155678,
      "loss": 3.7965,
      "step": 179220
    },
    {
      "epoch": 0.3733958333333333,
      "grad_norm": 0.7970866560935974,
      "learning_rate": 0.0002092372416312607,
      "loss": 3.6572,
      "step": 179230
    },
    {
      "epoch": 0.3734166666666667,
      "grad_norm": 0.631329357624054,
      "learning_rate": 0.0002092281842750832,
      "loss": 3.8048,
      "step": 179240
    },
    {
      "epoch": 0.3734375,
      "grad_norm": 0.7427233457565308,
      "learning_rate": 0.00020921912666306346,
      "loss": 3.8766,
      "step": 179250
    },
    {
      "epoch": 0.37345833333333334,
      "grad_norm": 0.8070897459983826,
      "learning_rate": 0.00020921006879524048,
      "loss": 3.7681,
      "step": 179260
    },
    {
      "epoch": 0.37347916666666664,
      "grad_norm": 0.7586351037025452,
      "learning_rate": 0.00020920101067165343,
      "loss": 3.8315,
      "step": 179270
    },
    {
      "epoch": 0.3735,
      "grad_norm": 0.783698320388794,
      "learning_rate": 0.00020919195229234146,
      "loss": 3.8971,
      "step": 179280
    },
    {
      "epoch": 0.37352083333333336,
      "grad_norm": 0.8579190969467163,
      "learning_rate": 0.00020918289365734369,
      "loss": 3.8175,
      "step": 179290
    },
    {
      "epoch": 0.37354166666666666,
      "grad_norm": 0.9310868978500366,
      "learning_rate": 0.00020917383476669926,
      "loss": 3.862,
      "step": 179300
    },
    {
      "epoch": 0.3735625,
      "grad_norm": 0.8350910544395447,
      "learning_rate": 0.00020916477562044725,
      "loss": 3.8413,
      "step": 179310
    },
    {
      "epoch": 0.3735833333333333,
      "grad_norm": 0.9301751852035522,
      "learning_rate": 0.00020915571621862684,
      "loss": 3.7625,
      "step": 179320
    },
    {
      "epoch": 0.3736041666666667,
      "grad_norm": 0.7105609178543091,
      "learning_rate": 0.0002091466565612772,
      "loss": 4.0061,
      "step": 179330
    },
    {
      "epoch": 0.373625,
      "grad_norm": 1.1968896389007568,
      "learning_rate": 0.00020913759664843734,
      "loss": 3.937,
      "step": 179340
    },
    {
      "epoch": 0.37364583333333334,
      "grad_norm": 0.7611972093582153,
      "learning_rate": 0.0002091285364801465,
      "loss": 3.8606,
      "step": 179350
    },
    {
      "epoch": 0.37366666666666665,
      "grad_norm": 0.972202718257904,
      "learning_rate": 0.0002091194760564438,
      "loss": 3.6836,
      "step": 179360
    },
    {
      "epoch": 0.3736875,
      "grad_norm": 0.791641891002655,
      "learning_rate": 0.00020911041537736833,
      "loss": 3.8678,
      "step": 179370
    },
    {
      "epoch": 0.3737083333333333,
      "grad_norm": 0.800563633441925,
      "learning_rate": 0.00020910135444295933,
      "loss": 3.6709,
      "step": 179380
    },
    {
      "epoch": 0.37372916666666667,
      "grad_norm": 0.7404117584228516,
      "learning_rate": 0.00020909229325325582,
      "loss": 3.9135,
      "step": 179390
    },
    {
      "epoch": 0.37375,
      "grad_norm": 1.0371443033218384,
      "learning_rate": 0.00020908323180829697,
      "loss": 3.6853,
      "step": 179400
    },
    {
      "epoch": 0.37377083333333333,
      "grad_norm": 0.7564402222633362,
      "learning_rate": 0.00020907417010812202,
      "loss": 3.782,
      "step": 179410
    },
    {
      "epoch": 0.3737916666666667,
      "grad_norm": 0.8411672711372375,
      "learning_rate": 0.00020906510815277,
      "loss": 3.9128,
      "step": 179420
    },
    {
      "epoch": 0.3738125,
      "grad_norm": 0.8820155262947083,
      "learning_rate": 0.00020905604594228006,
      "loss": 3.7321,
      "step": 179430
    },
    {
      "epoch": 0.37383333333333335,
      "grad_norm": 0.824981153011322,
      "learning_rate": 0.00020904698347669147,
      "loss": 3.6903,
      "step": 179440
    },
    {
      "epoch": 0.37385416666666665,
      "grad_norm": 0.7665685415267944,
      "learning_rate": 0.00020903792075604319,
      "loss": 3.838,
      "step": 179450
    },
    {
      "epoch": 0.373875,
      "grad_norm": 0.7367293834686279,
      "learning_rate": 0.0002090288577803745,
      "loss": 3.8502,
      "step": 179460
    },
    {
      "epoch": 0.3738958333333333,
      "grad_norm": 0.7366974949836731,
      "learning_rate": 0.00020901979454972453,
      "loss": 3.8012,
      "step": 179470
    },
    {
      "epoch": 0.3739166666666667,
      "grad_norm": 0.7602888941764832,
      "learning_rate": 0.0002090107310641324,
      "loss": 3.7155,
      "step": 179480
    },
    {
      "epoch": 0.3739375,
      "grad_norm": 0.7038059234619141,
      "learning_rate": 0.0002090016673236372,
      "loss": 3.8109,
      "step": 179490
    },
    {
      "epoch": 0.37395833333333334,
      "grad_norm": 0.7679297924041748,
      "learning_rate": 0.00020899260332827823,
      "loss": 3.8361,
      "step": 179500
    },
    {
      "epoch": 0.37397916666666664,
      "grad_norm": 0.8298097252845764,
      "learning_rate": 0.00020898353907809454,
      "loss": 3.8691,
      "step": 179510
    },
    {
      "epoch": 0.374,
      "grad_norm": 0.9080594778060913,
      "learning_rate": 0.0002089744745731253,
      "loss": 3.8275,
      "step": 179520
    },
    {
      "epoch": 0.37402083333333336,
      "grad_norm": 0.9292985200881958,
      "learning_rate": 0.00020896540981340966,
      "loss": 3.9625,
      "step": 179530
    },
    {
      "epoch": 0.37404166666666666,
      "grad_norm": 0.7287876009941101,
      "learning_rate": 0.00020895634479898683,
      "loss": 3.807,
      "step": 179540
    },
    {
      "epoch": 0.3740625,
      "grad_norm": 0.7670049071311951,
      "learning_rate": 0.00020894727952989588,
      "loss": 3.8923,
      "step": 179550
    },
    {
      "epoch": 0.3740833333333333,
      "grad_norm": 0.7576948404312134,
      "learning_rate": 0.00020893821400617607,
      "loss": 3.744,
      "step": 179560
    },
    {
      "epoch": 0.3741041666666667,
      "grad_norm": 0.6777300238609314,
      "learning_rate": 0.00020892914822786646,
      "loss": 3.8079,
      "step": 179570
    },
    {
      "epoch": 0.374125,
      "grad_norm": 0.671696126461029,
      "learning_rate": 0.00020892008219500628,
      "loss": 3.8091,
      "step": 179580
    },
    {
      "epoch": 0.37414583333333334,
      "grad_norm": 0.7141628861427307,
      "learning_rate": 0.0002089110159076347,
      "loss": 3.7477,
      "step": 179590
    },
    {
      "epoch": 0.37416666666666665,
      "grad_norm": 0.8005037903785706,
      "learning_rate": 0.00020890194936579079,
      "loss": 3.9204,
      "step": 179600
    },
    {
      "epoch": 0.3741875,
      "grad_norm": 0.7911810278892517,
      "learning_rate": 0.0002088928825695138,
      "loss": 4.0076,
      "step": 179610
    },
    {
      "epoch": 0.3742083333333333,
      "grad_norm": 0.7709813117980957,
      "learning_rate": 0.00020888381551884287,
      "loss": 3.6739,
      "step": 179620
    },
    {
      "epoch": 0.37422916666666667,
      "grad_norm": 0.7649961709976196,
      "learning_rate": 0.00020887474821381716,
      "loss": 3.7954,
      "step": 179630
    },
    {
      "epoch": 0.37425,
      "grad_norm": 0.82478266954422,
      "learning_rate": 0.00020886568065447584,
      "loss": 3.7283,
      "step": 179640
    },
    {
      "epoch": 0.37427083333333333,
      "grad_norm": 0.7694478034973145,
      "learning_rate": 0.00020885661284085805,
      "loss": 3.8925,
      "step": 179650
    },
    {
      "epoch": 0.3742916666666667,
      "grad_norm": 0.733159601688385,
      "learning_rate": 0.00020884754477300306,
      "loss": 3.9531,
      "step": 179660
    },
    {
      "epoch": 0.3743125,
      "grad_norm": 0.7849826216697693,
      "learning_rate": 0.0002088384764509499,
      "loss": 3.8351,
      "step": 179670
    },
    {
      "epoch": 0.37433333333333335,
      "grad_norm": 0.7232950925827026,
      "learning_rate": 0.00020882940787473784,
      "loss": 3.956,
      "step": 179680
    },
    {
      "epoch": 0.37435416666666665,
      "grad_norm": 0.7121856808662415,
      "learning_rate": 0.00020882033904440602,
      "loss": 3.6386,
      "step": 179690
    },
    {
      "epoch": 0.374375,
      "grad_norm": 0.8479453921318054,
      "learning_rate": 0.00020881126995999364,
      "loss": 3.6916,
      "step": 179700
    },
    {
      "epoch": 0.3743958333333333,
      "grad_norm": 0.7220067977905273,
      "learning_rate": 0.00020880220062153982,
      "loss": 3.7897,
      "step": 179710
    },
    {
      "epoch": 0.3744166666666667,
      "grad_norm": 0.7103672623634338,
      "learning_rate": 0.00020879313102908383,
      "loss": 3.6072,
      "step": 179720
    },
    {
      "epoch": 0.3744375,
      "grad_norm": 0.787534773349762,
      "learning_rate": 0.0002087840611826647,
      "loss": 3.6656,
      "step": 179730
    },
    {
      "epoch": 0.37445833333333334,
      "grad_norm": 0.8636224865913391,
      "learning_rate": 0.00020877499108232174,
      "loss": 3.8019,
      "step": 179740
    },
    {
      "epoch": 0.37447916666666664,
      "grad_norm": 0.851495623588562,
      "learning_rate": 0.0002087659207280941,
      "loss": 3.7731,
      "step": 179750
    },
    {
      "epoch": 0.3745,
      "grad_norm": 0.9000346660614014,
      "learning_rate": 0.00020875685012002092,
      "loss": 3.7314,
      "step": 179760
    },
    {
      "epoch": 0.37452083333333336,
      "grad_norm": 0.6886581778526306,
      "learning_rate": 0.00020874777925814137,
      "loss": 3.8208,
      "step": 179770
    },
    {
      "epoch": 0.37454166666666666,
      "grad_norm": 0.7778189182281494,
      "learning_rate": 0.00020873870814249474,
      "loss": 3.9489,
      "step": 179780
    },
    {
      "epoch": 0.3745625,
      "grad_norm": 0.7415038347244263,
      "learning_rate": 0.0002087296367731201,
      "loss": 3.8234,
      "step": 179790
    },
    {
      "epoch": 0.3745833333333333,
      "grad_norm": 0.9016904234886169,
      "learning_rate": 0.00020872056515005666,
      "loss": 3.8361,
      "step": 179800
    },
    {
      "epoch": 0.3746041666666667,
      "grad_norm": 0.8301655650138855,
      "learning_rate": 0.00020871149327334368,
      "loss": 3.8271,
      "step": 179810
    },
    {
      "epoch": 0.374625,
      "grad_norm": 0.6894614696502686,
      "learning_rate": 0.00020870242114302026,
      "loss": 3.8106,
      "step": 179820
    },
    {
      "epoch": 0.37464583333333334,
      "grad_norm": 0.7283194661140442,
      "learning_rate": 0.00020869334875912559,
      "loss": 3.8566,
      "step": 179830
    },
    {
      "epoch": 0.37466666666666665,
      "grad_norm": 0.8069167733192444,
      "learning_rate": 0.0002086842761216989,
      "loss": 3.8934,
      "step": 179840
    },
    {
      "epoch": 0.3746875,
      "grad_norm": 0.6714498996734619,
      "learning_rate": 0.0002086752032307794,
      "loss": 3.8253,
      "step": 179850
    },
    {
      "epoch": 0.3747083333333333,
      "grad_norm": 0.8616280555725098,
      "learning_rate": 0.0002086661300864062,
      "loss": 3.81,
      "step": 179860
    },
    {
      "epoch": 0.37472916666666667,
      "grad_norm": 0.7584635615348816,
      "learning_rate": 0.00020865705668861857,
      "loss": 3.8529,
      "step": 179870
    },
    {
      "epoch": 0.37475,
      "grad_norm": 0.8628817796707153,
      "learning_rate": 0.00020864798303745565,
      "loss": 3.6907,
      "step": 179880
    },
    {
      "epoch": 0.37477083333333333,
      "grad_norm": 0.9130212664604187,
      "learning_rate": 0.0002086389091329567,
      "loss": 3.9846,
      "step": 179890
    },
    {
      "epoch": 0.3747916666666667,
      "grad_norm": 0.7911422848701477,
      "learning_rate": 0.0002086298349751608,
      "loss": 3.7207,
      "step": 179900
    },
    {
      "epoch": 0.3748125,
      "grad_norm": 0.8992301225662231,
      "learning_rate": 0.00020862076056410724,
      "loss": 3.7544,
      "step": 179910
    },
    {
      "epoch": 0.37483333333333335,
      "grad_norm": 0.7806773781776428,
      "learning_rate": 0.00020861168589983526,
      "loss": 3.7276,
      "step": 179920
    },
    {
      "epoch": 0.37485416666666665,
      "grad_norm": 1.0133881568908691,
      "learning_rate": 0.00020860261098238397,
      "loss": 3.8809,
      "step": 179930
    },
    {
      "epoch": 0.374875,
      "grad_norm": 0.7721835374832153,
      "learning_rate": 0.00020859353581179256,
      "loss": 3.7192,
      "step": 179940
    },
    {
      "epoch": 0.3748958333333333,
      "grad_norm": 0.7355777025222778,
      "learning_rate": 0.00020858446038810033,
      "loss": 3.7886,
      "step": 179950
    },
    {
      "epoch": 0.3749166666666667,
      "grad_norm": 0.958256721496582,
      "learning_rate": 0.00020857538471134637,
      "loss": 3.7465,
      "step": 179960
    },
    {
      "epoch": 0.3749375,
      "grad_norm": 0.7582343816757202,
      "learning_rate": 0.0002085663087815699,
      "loss": 3.9543,
      "step": 179970
    },
    {
      "epoch": 0.37495833333333334,
      "grad_norm": 0.7740710377693176,
      "learning_rate": 0.00020855723259881025,
      "loss": 3.8757,
      "step": 179980
    },
    {
      "epoch": 0.37497916666666664,
      "grad_norm": 0.6955440044403076,
      "learning_rate": 0.0002085481561631065,
      "loss": 3.898,
      "step": 179990
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.8019235730171204,
      "learning_rate": 0.00020853907947449788,
      "loss": 3.8014,
      "step": 180000
    },
    {
      "epoch": 0.375,
      "eval_loss": 4.179741859436035,
      "eval_runtime": 8.5128,
      "eval_samples_per_second": 1.175,
      "eval_steps_per_second": 0.352,
      "step": 180000
    },
    {
      "epoch": 0.37502083333333336,
      "grad_norm": 0.7622490525245667,
      "learning_rate": 0.00020853000253302358,
      "loss": 3.8378,
      "step": 180010
    },
    {
      "epoch": 0.37504166666666666,
      "grad_norm": 0.9057241678237915,
      "learning_rate": 0.00020852092533872287,
      "loss": 3.7052,
      "step": 180020
    },
    {
      "epoch": 0.3750625,
      "grad_norm": 0.745296061038971,
      "learning_rate": 0.0002085118478916349,
      "loss": 3.8437,
      "step": 180030
    },
    {
      "epoch": 0.3750833333333333,
      "grad_norm": 0.7688567638397217,
      "learning_rate": 0.00020850277019179896,
      "loss": 3.8906,
      "step": 180040
    },
    {
      "epoch": 0.3751041666666667,
      "grad_norm": 0.7634955644607544,
      "learning_rate": 0.00020849369223925417,
      "loss": 3.7692,
      "step": 180050
    },
    {
      "epoch": 0.375125,
      "grad_norm": 0.8001748323440552,
      "learning_rate": 0.0002084846140340398,
      "loss": 3.7651,
      "step": 180060
    },
    {
      "epoch": 0.37514583333333335,
      "grad_norm": 0.8692912459373474,
      "learning_rate": 0.00020847553557619503,
      "loss": 3.766,
      "step": 180070
    },
    {
      "epoch": 0.37516666666666665,
      "grad_norm": 0.7712395191192627,
      "learning_rate": 0.0002084664568657591,
      "loss": 3.7354,
      "step": 180080
    },
    {
      "epoch": 0.3751875,
      "grad_norm": 0.9361436367034912,
      "learning_rate": 0.00020845737790277125,
      "loss": 3.9645,
      "step": 180090
    },
    {
      "epoch": 0.3752083333333333,
      "grad_norm": 0.7469715476036072,
      "learning_rate": 0.0002084482986872706,
      "loss": 3.8556,
      "step": 180100
    },
    {
      "epoch": 0.37522916666666667,
      "grad_norm": 0.8351355791091919,
      "learning_rate": 0.00020843921921929646,
      "loss": 3.7768,
      "step": 180110
    },
    {
      "epoch": 0.37525,
      "grad_norm": 0.7129788994789124,
      "learning_rate": 0.0002084301394988881,
      "loss": 3.9266,
      "step": 180120
    },
    {
      "epoch": 0.37527083333333333,
      "grad_norm": 0.7620391249656677,
      "learning_rate": 0.00020842105952608458,
      "loss": 3.8422,
      "step": 180130
    },
    {
      "epoch": 0.3752916666666667,
      "grad_norm": 0.7216712832450867,
      "learning_rate": 0.0002084119793009252,
      "loss": 3.8259,
      "step": 180140
    },
    {
      "epoch": 0.3753125,
      "grad_norm": 0.7941249012947083,
      "learning_rate": 0.00020840289882344924,
      "loss": 3.8899,
      "step": 180150
    },
    {
      "epoch": 0.37533333333333335,
      "grad_norm": 0.9511623382568359,
      "learning_rate": 0.00020839381809369586,
      "loss": 3.8732,
      "step": 180160
    },
    {
      "epoch": 0.37535416666666666,
      "grad_norm": 0.7787486910820007,
      "learning_rate": 0.0002083847371117043,
      "loss": 3.9268,
      "step": 180170
    },
    {
      "epoch": 0.375375,
      "grad_norm": 0.7421407699584961,
      "learning_rate": 0.00020837565587751377,
      "loss": 3.79,
      "step": 180180
    },
    {
      "epoch": 0.3753958333333333,
      "grad_norm": 0.8541772365570068,
      "learning_rate": 0.00020836657439116352,
      "loss": 3.7209,
      "step": 180190
    },
    {
      "epoch": 0.3754166666666667,
      "grad_norm": 0.829007089138031,
      "learning_rate": 0.00020835749265269278,
      "loss": 4.1347,
      "step": 180200
    },
    {
      "epoch": 0.3754375,
      "grad_norm": 0.9638078212738037,
      "learning_rate": 0.00020834841066214076,
      "loss": 3.9674,
      "step": 180210
    },
    {
      "epoch": 0.37545833333333334,
      "grad_norm": 1.0311522483825684,
      "learning_rate": 0.0002083393284195467,
      "loss": 3.9258,
      "step": 180220
    },
    {
      "epoch": 0.37547916666666664,
      "grad_norm": 0.917331874370575,
      "learning_rate": 0.00020833024592494984,
      "loss": 3.8992,
      "step": 180230
    },
    {
      "epoch": 0.3755,
      "grad_norm": 0.7416438460350037,
      "learning_rate": 0.00020832116317838942,
      "loss": 3.9449,
      "step": 180240
    },
    {
      "epoch": 0.37552083333333336,
      "grad_norm": 0.8624255061149597,
      "learning_rate": 0.00020831208017990465,
      "loss": 3.8083,
      "step": 180250
    },
    {
      "epoch": 0.37554166666666666,
      "grad_norm": 0.8007797002792358,
      "learning_rate": 0.0002083029969295348,
      "loss": 3.9073,
      "step": 180260
    },
    {
      "epoch": 0.3755625,
      "grad_norm": 0.6847490072250366,
      "learning_rate": 0.00020829391342731902,
      "loss": 3.7037,
      "step": 180270
    },
    {
      "epoch": 0.3755833333333333,
      "grad_norm": 0.6570702791213989,
      "learning_rate": 0.00020828482967329666,
      "loss": 3.6312,
      "step": 180280
    },
    {
      "epoch": 0.3756041666666667,
      "grad_norm": 0.6391846537590027,
      "learning_rate": 0.0002082757456675069,
      "loss": 3.962,
      "step": 180290
    },
    {
      "epoch": 0.375625,
      "grad_norm": 0.7703534960746765,
      "learning_rate": 0.00020826666140998895,
      "loss": 3.8658,
      "step": 180300
    },
    {
      "epoch": 0.37564583333333335,
      "grad_norm": 0.8234429955482483,
      "learning_rate": 0.00020825757690078216,
      "loss": 3.8681,
      "step": 180310
    },
    {
      "epoch": 0.37566666666666665,
      "grad_norm": 0.7332013249397278,
      "learning_rate": 0.00020824849213992562,
      "loss": 3.7333,
      "step": 180320
    },
    {
      "epoch": 0.3756875,
      "grad_norm": 0.7141061425209045,
      "learning_rate": 0.0002082394071274587,
      "loss": 3.9311,
      "step": 180330
    },
    {
      "epoch": 0.3757083333333333,
      "grad_norm": 0.7232130765914917,
      "learning_rate": 0.00020823032186342055,
      "loss": 3.7961,
      "step": 180340
    },
    {
      "epoch": 0.37572916666666667,
      "grad_norm": 0.8064523935317993,
      "learning_rate": 0.0002082212363478505,
      "loss": 3.9062,
      "step": 180350
    },
    {
      "epoch": 0.37575,
      "grad_norm": 0.6716240048408508,
      "learning_rate": 0.0002082121505807877,
      "loss": 3.8763,
      "step": 180360
    },
    {
      "epoch": 0.37577083333333333,
      "grad_norm": 0.9423217177391052,
      "learning_rate": 0.0002082030645622715,
      "loss": 3.7749,
      "step": 180370
    },
    {
      "epoch": 0.3757916666666667,
      "grad_norm": 0.926662027835846,
      "learning_rate": 0.00020819397829234112,
      "loss": 3.9716,
      "step": 180380
    },
    {
      "epoch": 0.3758125,
      "grad_norm": 0.7498221397399902,
      "learning_rate": 0.00020818489177103574,
      "loss": 3.6863,
      "step": 180390
    },
    {
      "epoch": 0.37583333333333335,
      "grad_norm": 0.8893048167228699,
      "learning_rate": 0.0002081758049983947,
      "loss": 3.8722,
      "step": 180400
    },
    {
      "epoch": 0.37585416666666666,
      "grad_norm": 0.7964014410972595,
      "learning_rate": 0.00020816671797445718,
      "loss": 3.9045,
      "step": 180410
    },
    {
      "epoch": 0.375875,
      "grad_norm": 0.6888276934623718,
      "learning_rate": 0.00020815763069926242,
      "loss": 3.6569,
      "step": 180420
    },
    {
      "epoch": 0.3758958333333333,
      "grad_norm": 0.9400186538696289,
      "learning_rate": 0.00020814854317284978,
      "loss": 3.9497,
      "step": 180430
    },
    {
      "epoch": 0.3759166666666667,
      "grad_norm": 0.7543045282363892,
      "learning_rate": 0.00020813945539525843,
      "loss": 3.7479,
      "step": 180440
    },
    {
      "epoch": 0.3759375,
      "grad_norm": 0.8771215081214905,
      "learning_rate": 0.00020813036736652772,
      "loss": 3.6864,
      "step": 180450
    },
    {
      "epoch": 0.37595833333333334,
      "grad_norm": 0.7477460503578186,
      "learning_rate": 0.00020812127908669673,
      "loss": 3.7973,
      "step": 180460
    },
    {
      "epoch": 0.37597916666666664,
      "grad_norm": 0.9111063480377197,
      "learning_rate": 0.00020811219055580482,
      "loss": 3.9823,
      "step": 180470
    },
    {
      "epoch": 0.376,
      "grad_norm": 0.8182165026664734,
      "learning_rate": 0.0002081031017738913,
      "loss": 3.8342,
      "step": 180480
    },
    {
      "epoch": 0.37602083333333336,
      "grad_norm": 0.9056434631347656,
      "learning_rate": 0.00020809401274099536,
      "loss": 3.787,
      "step": 180490
    },
    {
      "epoch": 0.37604166666666666,
      "grad_norm": 0.6423630118370056,
      "learning_rate": 0.00020808492345715624,
      "loss": 3.8175,
      "step": 180500
    },
    {
      "epoch": 0.3760625,
      "grad_norm": 0.9457656741142273,
      "learning_rate": 0.00020807583392241333,
      "loss": 3.7154,
      "step": 180510
    },
    {
      "epoch": 0.3760833333333333,
      "grad_norm": 0.7493026852607727,
      "learning_rate": 0.00020806674413680577,
      "loss": 3.7706,
      "step": 180520
    },
    {
      "epoch": 0.3761041666666667,
      "grad_norm": 0.8003975749015808,
      "learning_rate": 0.00020805765410037284,
      "loss": 4.037,
      "step": 180530
    },
    {
      "epoch": 0.376125,
      "grad_norm": 0.7725988030433655,
      "learning_rate": 0.00020804856381315384,
      "loss": 3.7975,
      "step": 180540
    },
    {
      "epoch": 0.37614583333333335,
      "grad_norm": 0.7190375328063965,
      "learning_rate": 0.000208039473275188,
      "loss": 3.7264,
      "step": 180550
    },
    {
      "epoch": 0.37616666666666665,
      "grad_norm": 0.862626314163208,
      "learning_rate": 0.00020803038248651465,
      "loss": 3.8002,
      "step": 180560
    },
    {
      "epoch": 0.3761875,
      "grad_norm": 0.8708900213241577,
      "learning_rate": 0.000208021291447173,
      "loss": 3.811,
      "step": 180570
    },
    {
      "epoch": 0.3762083333333333,
      "grad_norm": 0.7179471254348755,
      "learning_rate": 0.00020801220015720227,
      "loss": 3.8508,
      "step": 180580
    },
    {
      "epoch": 0.37622916666666667,
      "grad_norm": 0.7084907293319702,
      "learning_rate": 0.00020800310861664192,
      "loss": 3.8218,
      "step": 180590
    },
    {
      "epoch": 0.37625,
      "grad_norm": 0.8567061424255371,
      "learning_rate": 0.000207994016825531,
      "loss": 3.8428,
      "step": 180600
    },
    {
      "epoch": 0.37627083333333333,
      "grad_norm": 0.7512924671173096,
      "learning_rate": 0.00020798492478390894,
      "loss": 3.9525,
      "step": 180610
    },
    {
      "epoch": 0.3762916666666667,
      "grad_norm": 0.9754362106323242,
      "learning_rate": 0.00020797583249181493,
      "loss": 3.896,
      "step": 180620
    },
    {
      "epoch": 0.3763125,
      "grad_norm": 0.8720564842224121,
      "learning_rate": 0.0002079667399492883,
      "loss": 3.8501,
      "step": 180630
    },
    {
      "epoch": 0.37633333333333335,
      "grad_norm": 0.8006268739700317,
      "learning_rate": 0.00020795764715636822,
      "loss": 3.8356,
      "step": 180640
    },
    {
      "epoch": 0.37635416666666666,
      "grad_norm": 0.7786065340042114,
      "learning_rate": 0.00020794855411309415,
      "loss": 3.7859,
      "step": 180650
    },
    {
      "epoch": 0.376375,
      "grad_norm": 0.6978031396865845,
      "learning_rate": 0.0002079394608195052,
      "loss": 3.7753,
      "step": 180660
    },
    {
      "epoch": 0.3763958333333333,
      "grad_norm": 0.7777698636054993,
      "learning_rate": 0.00020793036727564072,
      "loss": 3.9145,
      "step": 180670
    },
    {
      "epoch": 0.3764166666666667,
      "grad_norm": 0.7304561734199524,
      "learning_rate": 0.00020792127348154003,
      "loss": 3.8407,
      "step": 180680
    },
    {
      "epoch": 0.3764375,
      "grad_norm": 0.6875367760658264,
      "learning_rate": 0.0002079121794372423,
      "loss": 3.8699,
      "step": 180690
    },
    {
      "epoch": 0.37645833333333334,
      "grad_norm": 0.8123522996902466,
      "learning_rate": 0.00020790308514278695,
      "loss": 3.8142,
      "step": 180700
    },
    {
      "epoch": 0.37647916666666664,
      "grad_norm": 0.8032293915748596,
      "learning_rate": 0.00020789399059821314,
      "loss": 3.7135,
      "step": 180710
    },
    {
      "epoch": 0.3765,
      "grad_norm": 1.0670961141586304,
      "learning_rate": 0.00020788489580356019,
      "loss": 3.7829,
      "step": 180720
    },
    {
      "epoch": 0.37652083333333336,
      "grad_norm": 0.834202229976654,
      "learning_rate": 0.00020787580075886744,
      "loss": 3.9257,
      "step": 180730
    },
    {
      "epoch": 0.37654166666666666,
      "grad_norm": 0.7425665259361267,
      "learning_rate": 0.00020786670546417413,
      "loss": 3.7276,
      "step": 180740
    },
    {
      "epoch": 0.3765625,
      "grad_norm": 1.0901753902435303,
      "learning_rate": 0.00020785760991951955,
      "loss": 3.9244,
      "step": 180750
    },
    {
      "epoch": 0.3765833333333333,
      "grad_norm": 0.7829487919807434,
      "learning_rate": 0.00020784851412494304,
      "loss": 3.682,
      "step": 180760
    },
    {
      "epoch": 0.3766041666666667,
      "grad_norm": 0.7591384649276733,
      "learning_rate": 0.00020783941808048375,
      "loss": 3.678,
      "step": 180770
    },
    {
      "epoch": 0.376625,
      "grad_norm": 0.7501577138900757,
      "learning_rate": 0.00020783032178618114,
      "loss": 3.9478,
      "step": 180780
    },
    {
      "epoch": 0.37664583333333335,
      "grad_norm": 0.8828344345092773,
      "learning_rate": 0.00020782122524207446,
      "loss": 3.9582,
      "step": 180790
    },
    {
      "epoch": 0.37666666666666665,
      "grad_norm": 0.7119560837745667,
      "learning_rate": 0.0002078121284482029,
      "loss": 3.7287,
      "step": 180800
    },
    {
      "epoch": 0.3766875,
      "grad_norm": 0.8522782325744629,
      "learning_rate": 0.00020780303140460583,
      "loss": 3.8358,
      "step": 180810
    },
    {
      "epoch": 0.3767083333333333,
      "grad_norm": 0.6739616394042969,
      "learning_rate": 0.00020779393411132262,
      "loss": 3.9497,
      "step": 180820
    },
    {
      "epoch": 0.37672916666666667,
      "grad_norm": 0.7441545724868774,
      "learning_rate": 0.00020778483656839247,
      "loss": 3.824,
      "step": 180830
    },
    {
      "epoch": 0.37675,
      "grad_norm": 0.7568589448928833,
      "learning_rate": 0.00020777573877585464,
      "loss": 3.8247,
      "step": 180840
    },
    {
      "epoch": 0.37677083333333333,
      "grad_norm": 0.7000877261161804,
      "learning_rate": 0.00020776664073374855,
      "loss": 3.8903,
      "step": 180850
    },
    {
      "epoch": 0.3767916666666667,
      "grad_norm": 0.7560520172119141,
      "learning_rate": 0.00020775754244211343,
      "loss": 3.9507,
      "step": 180860
    },
    {
      "epoch": 0.3768125,
      "grad_norm": 0.7665832042694092,
      "learning_rate": 0.0002077484439009885,
      "loss": 4.0637,
      "step": 180870
    },
    {
      "epoch": 0.37683333333333335,
      "grad_norm": 0.8185887932777405,
      "learning_rate": 0.00020773934511041325,
      "loss": 3.7935,
      "step": 180880
    },
    {
      "epoch": 0.37685416666666666,
      "grad_norm": 0.7003475427627563,
      "learning_rate": 0.00020773024607042686,
      "loss": 3.8548,
      "step": 180890
    },
    {
      "epoch": 0.376875,
      "grad_norm": 0.9084465503692627,
      "learning_rate": 0.00020772114678106865,
      "loss": 3.9177,
      "step": 180900
    },
    {
      "epoch": 0.3768958333333333,
      "grad_norm": 0.8958010077476501,
      "learning_rate": 0.00020771204724237793,
      "loss": 3.8762,
      "step": 180910
    },
    {
      "epoch": 0.3769166666666667,
      "grad_norm": 0.9809955954551697,
      "learning_rate": 0.00020770294745439403,
      "loss": 3.9952,
      "step": 180920
    },
    {
      "epoch": 0.3769375,
      "grad_norm": 0.8462026119232178,
      "learning_rate": 0.00020769384741715623,
      "loss": 3.8511,
      "step": 180930
    },
    {
      "epoch": 0.37695833333333334,
      "grad_norm": 0.7886999249458313,
      "learning_rate": 0.00020768474713070382,
      "loss": 3.8789,
      "step": 180940
    },
    {
      "epoch": 0.37697916666666664,
      "grad_norm": 1.0764319896697998,
      "learning_rate": 0.00020767564659507617,
      "loss": 3.7422,
      "step": 180950
    },
    {
      "epoch": 0.377,
      "grad_norm": 0.8649320602416992,
      "learning_rate": 0.00020766654581031257,
      "loss": 3.8785,
      "step": 180960
    },
    {
      "epoch": 0.37702083333333336,
      "grad_norm": 0.7685559391975403,
      "learning_rate": 0.00020765744477645228,
      "loss": 3.9373,
      "step": 180970
    },
    {
      "epoch": 0.37704166666666666,
      "grad_norm": 0.8001943230628967,
      "learning_rate": 0.00020764834349353464,
      "loss": 3.9112,
      "step": 180980
    },
    {
      "epoch": 0.3770625,
      "grad_norm": 0.7086650729179382,
      "learning_rate": 0.000207639241961599,
      "loss": 3.5766,
      "step": 180990
    },
    {
      "epoch": 0.3770833333333333,
      "grad_norm": 0.9519813060760498,
      "learning_rate": 0.00020763014018068462,
      "loss": 3.977,
      "step": 181000
    },
    {
      "epoch": 0.3770833333333333,
      "eval_loss": 4.177375793457031,
      "eval_runtime": 8.8656,
      "eval_samples_per_second": 1.128,
      "eval_steps_per_second": 0.338,
      "step": 181000
    },
    {
      "epoch": 0.3771041666666667,
      "grad_norm": 0.9288076162338257,
      "learning_rate": 0.00020762103815083087,
      "loss": 3.8054,
      "step": 181010
    },
    {
      "epoch": 0.377125,
      "grad_norm": 0.7049733400344849,
      "learning_rate": 0.00020761193587207706,
      "loss": 3.9046,
      "step": 181020
    },
    {
      "epoch": 0.37714583333333335,
      "grad_norm": 0.7998921275138855,
      "learning_rate": 0.0002076028333444625,
      "loss": 3.8929,
      "step": 181030
    },
    {
      "epoch": 0.37716666666666665,
      "grad_norm": 0.841457724571228,
      "learning_rate": 0.00020759373056802646,
      "loss": 3.9951,
      "step": 181040
    },
    {
      "epoch": 0.3771875,
      "grad_norm": 0.8759108185768127,
      "learning_rate": 0.00020758462754280835,
      "loss": 3.7938,
      "step": 181050
    },
    {
      "epoch": 0.3772083333333333,
      "grad_norm": 0.789152979850769,
      "learning_rate": 0.0002075755242688474,
      "loss": 3.5647,
      "step": 181060
    },
    {
      "epoch": 0.37722916666666667,
      "grad_norm": 0.7512816190719604,
      "learning_rate": 0.00020756642074618297,
      "loss": 3.7817,
      "step": 181070
    },
    {
      "epoch": 0.37725,
      "grad_norm": 0.7912381291389465,
      "learning_rate": 0.0002075573169748544,
      "loss": 3.8135,
      "step": 181080
    },
    {
      "epoch": 0.37727083333333333,
      "grad_norm": 0.7797384262084961,
      "learning_rate": 0.000207548212954901,
      "loss": 3.9154,
      "step": 181090
    },
    {
      "epoch": 0.3772916666666667,
      "grad_norm": 0.8460776805877686,
      "learning_rate": 0.00020753910868636215,
      "loss": 4.035,
      "step": 181100
    },
    {
      "epoch": 0.3773125,
      "grad_norm": 0.761053204536438,
      "learning_rate": 0.00020753000416927705,
      "loss": 3.7617,
      "step": 181110
    },
    {
      "epoch": 0.37733333333333335,
      "grad_norm": 0.7817214131355286,
      "learning_rate": 0.00020752089940368515,
      "loss": 3.7052,
      "step": 181120
    },
    {
      "epoch": 0.37735416666666666,
      "grad_norm": 0.8727318048477173,
      "learning_rate": 0.00020751179438962573,
      "loss": 3.8794,
      "step": 181130
    },
    {
      "epoch": 0.377375,
      "grad_norm": 1.1782028675079346,
      "learning_rate": 0.00020750268912713806,
      "loss": 3.8419,
      "step": 181140
    },
    {
      "epoch": 0.3773958333333333,
      "grad_norm": 0.6998383402824402,
      "learning_rate": 0.00020749358361626163,
      "loss": 3.9034,
      "step": 181150
    },
    {
      "epoch": 0.3774166666666667,
      "grad_norm": 0.7670265436172485,
      "learning_rate": 0.00020748447785703565,
      "loss": 3.8632,
      "step": 181160
    },
    {
      "epoch": 0.3774375,
      "grad_norm": 0.7967666983604431,
      "learning_rate": 0.00020747537184949945,
      "loss": 3.7632,
      "step": 181170
    },
    {
      "epoch": 0.37745833333333334,
      "grad_norm": 0.8743734955787659,
      "learning_rate": 0.00020746626559369242,
      "loss": 3.6663,
      "step": 181180
    },
    {
      "epoch": 0.37747916666666664,
      "grad_norm": 0.7221236228942871,
      "learning_rate": 0.00020745715908965383,
      "loss": 3.6804,
      "step": 181190
    },
    {
      "epoch": 0.3775,
      "grad_norm": 0.7568638324737549,
      "learning_rate": 0.0002074480523374231,
      "loss": 4.0736,
      "step": 181200
    },
    {
      "epoch": 0.37752083333333336,
      "grad_norm": 0.7067804932594299,
      "learning_rate": 0.00020743894533703953,
      "loss": 3.9901,
      "step": 181210
    },
    {
      "epoch": 0.37754166666666666,
      "grad_norm": 0.8070016503334045,
      "learning_rate": 0.0002074298380885424,
      "loss": 3.8989,
      "step": 181220
    },
    {
      "epoch": 0.3775625,
      "grad_norm": 0.8601160049438477,
      "learning_rate": 0.00020742073059197113,
      "loss": 3.8622,
      "step": 181230
    },
    {
      "epoch": 0.3775833333333333,
      "grad_norm": 0.8619043827056885,
      "learning_rate": 0.00020741162284736506,
      "loss": 3.8965,
      "step": 181240
    },
    {
      "epoch": 0.3776041666666667,
      "grad_norm": 0.7145994305610657,
      "learning_rate": 0.00020740251485476345,
      "loss": 3.7376,
      "step": 181250
    },
    {
      "epoch": 0.377625,
      "grad_norm": 0.9682713747024536,
      "learning_rate": 0.0002073934066142057,
      "loss": 3.7374,
      "step": 181260
    },
    {
      "epoch": 0.37764583333333335,
      "grad_norm": 0.8217049241065979,
      "learning_rate": 0.00020738429812573118,
      "loss": 3.8686,
      "step": 181270
    },
    {
      "epoch": 0.37766666666666665,
      "grad_norm": 0.6162201166152954,
      "learning_rate": 0.0002073751893893792,
      "loss": 3.7405,
      "step": 181280
    },
    {
      "epoch": 0.3776875,
      "grad_norm": 0.6804627180099487,
      "learning_rate": 0.00020736608040518913,
      "loss": 3.7803,
      "step": 181290
    },
    {
      "epoch": 0.3777083333333333,
      "grad_norm": 0.7576439380645752,
      "learning_rate": 0.0002073569711732003,
      "loss": 4.012,
      "step": 181300
    },
    {
      "epoch": 0.37772916666666667,
      "grad_norm": 0.7209360003471375,
      "learning_rate": 0.00020734786169345203,
      "loss": 3.8418,
      "step": 181310
    },
    {
      "epoch": 0.37775,
      "grad_norm": 0.7815200090408325,
      "learning_rate": 0.0002073387519659837,
      "loss": 3.7241,
      "step": 181320
    },
    {
      "epoch": 0.37777083333333333,
      "grad_norm": 0.6883190870285034,
      "learning_rate": 0.00020732964199083467,
      "loss": 3.7609,
      "step": 181330
    },
    {
      "epoch": 0.3777916666666667,
      "grad_norm": 0.8989342451095581,
      "learning_rate": 0.00020732053176804427,
      "loss": 3.7077,
      "step": 181340
    },
    {
      "epoch": 0.3778125,
      "grad_norm": 0.8615274429321289,
      "learning_rate": 0.0002073114212976519,
      "loss": 3.9038,
      "step": 181350
    },
    {
      "epoch": 0.37783333333333335,
      "grad_norm": 0.7798131108283997,
      "learning_rate": 0.00020730231057969684,
      "loss": 4.0254,
      "step": 181360
    },
    {
      "epoch": 0.37785416666666666,
      "grad_norm": 0.7602672576904297,
      "learning_rate": 0.00020729319961421843,
      "loss": 3.7864,
      "step": 181370
    },
    {
      "epoch": 0.377875,
      "grad_norm": 0.7479634284973145,
      "learning_rate": 0.00020728408840125617,
      "loss": 3.8869,
      "step": 181380
    },
    {
      "epoch": 0.3778958333333333,
      "grad_norm": 0.7911123037338257,
      "learning_rate": 0.0002072749769408493,
      "loss": 3.8097,
      "step": 181390
    },
    {
      "epoch": 0.3779166666666667,
      "grad_norm": 0.6927447319030762,
      "learning_rate": 0.0002072658652330372,
      "loss": 3.9325,
      "step": 181400
    },
    {
      "epoch": 0.3779375,
      "grad_norm": 0.735763430595398,
      "learning_rate": 0.0002072567532778592,
      "loss": 3.8981,
      "step": 181410
    },
    {
      "epoch": 0.37795833333333334,
      "grad_norm": 0.7977342009544373,
      "learning_rate": 0.0002072476410753547,
      "loss": 3.972,
      "step": 181420
    },
    {
      "epoch": 0.37797916666666664,
      "grad_norm": 0.774060845375061,
      "learning_rate": 0.00020723852862556305,
      "loss": 3.8613,
      "step": 181430
    },
    {
      "epoch": 0.378,
      "grad_norm": 0.7210637331008911,
      "learning_rate": 0.00020722941592852363,
      "loss": 3.853,
      "step": 181440
    },
    {
      "epoch": 0.3780208333333333,
      "grad_norm": 0.8554644584655762,
      "learning_rate": 0.00020722030298427576,
      "loss": 3.7926,
      "step": 181450
    },
    {
      "epoch": 0.37804166666666666,
      "grad_norm": 0.7037038803100586,
      "learning_rate": 0.00020721118979285884,
      "loss": 3.9179,
      "step": 181460
    },
    {
      "epoch": 0.3780625,
      "grad_norm": 0.8276297450065613,
      "learning_rate": 0.00020720207635431222,
      "loss": 3.8497,
      "step": 181470
    },
    {
      "epoch": 0.3780833333333333,
      "grad_norm": 0.8712019324302673,
      "learning_rate": 0.00020719296266867528,
      "loss": 3.7808,
      "step": 181480
    },
    {
      "epoch": 0.3781041666666667,
      "grad_norm": 0.8261365294456482,
      "learning_rate": 0.0002071838487359874,
      "loss": 4.1738,
      "step": 181490
    },
    {
      "epoch": 0.378125,
      "grad_norm": 0.7745428085327148,
      "learning_rate": 0.0002071747345562879,
      "loss": 3.7781,
      "step": 181500
    },
    {
      "epoch": 0.37814583333333335,
      "grad_norm": 0.932318389415741,
      "learning_rate": 0.00020716562012961618,
      "loss": 3.9061,
      "step": 181510
    },
    {
      "epoch": 0.37816666666666665,
      "grad_norm": 0.696593165397644,
      "learning_rate": 0.00020715650545601163,
      "loss": 3.7874,
      "step": 181520
    },
    {
      "epoch": 0.3781875,
      "grad_norm": 0.7875185608863831,
      "learning_rate": 0.0002071473905355136,
      "loss": 3.8694,
      "step": 181530
    },
    {
      "epoch": 0.3782083333333333,
      "grad_norm": 0.7537920475006104,
      "learning_rate": 0.0002071382753681614,
      "loss": 3.7911,
      "step": 181540
    },
    {
      "epoch": 0.37822916666666667,
      "grad_norm": 0.7236183881759644,
      "learning_rate": 0.00020712915995399454,
      "loss": 3.6826,
      "step": 181550
    },
    {
      "epoch": 0.37825,
      "grad_norm": 0.7155548930168152,
      "learning_rate": 0.0002071200442930523,
      "loss": 3.7555,
      "step": 181560
    },
    {
      "epoch": 0.37827083333333333,
      "grad_norm": 0.7119380831718445,
      "learning_rate": 0.00020711092838537407,
      "loss": 3.7748,
      "step": 181570
    },
    {
      "epoch": 0.3782916666666667,
      "grad_norm": 0.837310254573822,
      "learning_rate": 0.00020710181223099926,
      "loss": 3.607,
      "step": 181580
    },
    {
      "epoch": 0.3783125,
      "grad_norm": 0.7811753153800964,
      "learning_rate": 0.00020709269582996722,
      "loss": 3.7365,
      "step": 181590
    },
    {
      "epoch": 0.37833333333333335,
      "grad_norm": 0.7208077907562256,
      "learning_rate": 0.00020708357918231728,
      "loss": 3.8538,
      "step": 181600
    },
    {
      "epoch": 0.37835416666666666,
      "grad_norm": 0.8250865340232849,
      "learning_rate": 0.00020707446228808893,
      "loss": 3.6884,
      "step": 181610
    },
    {
      "epoch": 0.378375,
      "grad_norm": 0.723171055316925,
      "learning_rate": 0.0002070653451473215,
      "loss": 3.9054,
      "step": 181620
    },
    {
      "epoch": 0.3783958333333333,
      "grad_norm": 0.7885411381721497,
      "learning_rate": 0.00020705622776005434,
      "loss": 3.8638,
      "step": 181630
    },
    {
      "epoch": 0.3784166666666667,
      "grad_norm": 0.7169497609138489,
      "learning_rate": 0.00020704711012632684,
      "loss": 3.7002,
      "step": 181640
    },
    {
      "epoch": 0.3784375,
      "grad_norm": 0.8707814812660217,
      "learning_rate": 0.00020703799224617843,
      "loss": 3.7176,
      "step": 181650
    },
    {
      "epoch": 0.37845833333333334,
      "grad_norm": 0.7527090311050415,
      "learning_rate": 0.0002070288741196485,
      "loss": 3.9378,
      "step": 181660
    },
    {
      "epoch": 0.37847916666666664,
      "grad_norm": 0.9802024960517883,
      "learning_rate": 0.00020701975574677635,
      "loss": 3.8668,
      "step": 181670
    },
    {
      "epoch": 0.3785,
      "grad_norm": 0.8569023013114929,
      "learning_rate": 0.00020701063712760145,
      "loss": 3.792,
      "step": 181680
    },
    {
      "epoch": 0.3785208333333333,
      "grad_norm": 0.7394789457321167,
      "learning_rate": 0.0002070015182621632,
      "loss": 3.906,
      "step": 181690
    },
    {
      "epoch": 0.37854166666666667,
      "grad_norm": 0.9344667196273804,
      "learning_rate": 0.0002069923991505009,
      "loss": 3.913,
      "step": 181700
    },
    {
      "epoch": 0.3785625,
      "grad_norm": 0.8827242851257324,
      "learning_rate": 0.000206983279792654,
      "loss": 3.9068,
      "step": 181710
    },
    {
      "epoch": 0.3785833333333333,
      "grad_norm": 0.7549983263015747,
      "learning_rate": 0.00020697416018866194,
      "loss": 3.7852,
      "step": 181720
    },
    {
      "epoch": 0.3786041666666667,
      "grad_norm": 0.8787758946418762,
      "learning_rate": 0.00020696504033856399,
      "loss": 3.9681,
      "step": 181730
    },
    {
      "epoch": 0.378625,
      "grad_norm": 0.6739524006843567,
      "learning_rate": 0.00020695592024239963,
      "loss": 3.8196,
      "step": 181740
    },
    {
      "epoch": 0.37864583333333335,
      "grad_norm": 0.844294548034668,
      "learning_rate": 0.00020694679990020828,
      "loss": 3.9964,
      "step": 181750
    },
    {
      "epoch": 0.37866666666666665,
      "grad_norm": 0.7377504706382751,
      "learning_rate": 0.0002069376793120293,
      "loss": 3.757,
      "step": 181760
    },
    {
      "epoch": 0.3786875,
      "grad_norm": 0.7378296256065369,
      "learning_rate": 0.00020692855847790202,
      "loss": 3.6867,
      "step": 181770
    },
    {
      "epoch": 0.3787083333333333,
      "grad_norm": 0.7646316885948181,
      "learning_rate": 0.00020691943739786593,
      "loss": 3.8907,
      "step": 181780
    },
    {
      "epoch": 0.3787291666666667,
      "grad_norm": 0.7244914770126343,
      "learning_rate": 0.00020691031607196042,
      "loss": 4.0309,
      "step": 181790
    },
    {
      "epoch": 0.37875,
      "grad_norm": 0.8528137803077698,
      "learning_rate": 0.00020690119450022485,
      "loss": 3.8894,
      "step": 181800
    },
    {
      "epoch": 0.37877083333333333,
      "grad_norm": 0.77153480052948,
      "learning_rate": 0.00020689207268269864,
      "loss": 3.7579,
      "step": 181810
    },
    {
      "epoch": 0.3787916666666667,
      "grad_norm": 0.7543529868125916,
      "learning_rate": 0.0002068829506194212,
      "loss": 3.8555,
      "step": 181820
    },
    {
      "epoch": 0.3788125,
      "grad_norm": 0.7970041632652283,
      "learning_rate": 0.00020687382831043199,
      "loss": 3.7493,
      "step": 181830
    },
    {
      "epoch": 0.37883333333333336,
      "grad_norm": 0.7040038704872131,
      "learning_rate": 0.00020686470575577028,
      "loss": 3.6778,
      "step": 181840
    },
    {
      "epoch": 0.37885416666666666,
      "grad_norm": 0.7969857454299927,
      "learning_rate": 0.00020685558295547554,
      "loss": 3.9602,
      "step": 181850
    },
    {
      "epoch": 0.378875,
      "grad_norm": 0.7719916105270386,
      "learning_rate": 0.00020684645990958723,
      "loss": 3.8497,
      "step": 181860
    },
    {
      "epoch": 0.3788958333333333,
      "grad_norm": 0.7890076637268066,
      "learning_rate": 0.00020683733661814468,
      "loss": 3.9145,
      "step": 181870
    },
    {
      "epoch": 0.3789166666666667,
      "grad_norm": 0.7734209299087524,
      "learning_rate": 0.00020682821308118737,
      "loss": 3.9266,
      "step": 181880
    },
    {
      "epoch": 0.3789375,
      "grad_norm": 0.8812127709388733,
      "learning_rate": 0.00020681908929875468,
      "loss": 3.809,
      "step": 181890
    },
    {
      "epoch": 0.37895833333333334,
      "grad_norm": 0.7987200617790222,
      "learning_rate": 0.000206809965270886,
      "loss": 3.922,
      "step": 181900
    },
    {
      "epoch": 0.37897916666666664,
      "grad_norm": 0.7127507925033569,
      "learning_rate": 0.0002068008409976207,
      "loss": 3.6895,
      "step": 181910
    },
    {
      "epoch": 0.379,
      "grad_norm": 0.7565997242927551,
      "learning_rate": 0.00020679171647899832,
      "loss": 3.9069,
      "step": 181920
    },
    {
      "epoch": 0.3790208333333333,
      "grad_norm": 0.8346641063690186,
      "learning_rate": 0.0002067825917150582,
      "loss": 3.8175,
      "step": 181930
    },
    {
      "epoch": 0.37904166666666667,
      "grad_norm": 0.7204210758209229,
      "learning_rate": 0.0002067734667058397,
      "loss": 3.8535,
      "step": 181940
    },
    {
      "epoch": 0.3790625,
      "grad_norm": 0.822012722492218,
      "learning_rate": 0.00020676434145138237,
      "loss": 3.8688,
      "step": 181950
    },
    {
      "epoch": 0.3790833333333333,
      "grad_norm": 0.7438638210296631,
      "learning_rate": 0.00020675521595172553,
      "loss": 3.9011,
      "step": 181960
    },
    {
      "epoch": 0.3791041666666667,
      "grad_norm": 0.7318434119224548,
      "learning_rate": 0.00020674609020690862,
      "loss": 3.8158,
      "step": 181970
    },
    {
      "epoch": 0.379125,
      "grad_norm": 0.9352288246154785,
      "learning_rate": 0.00020673696421697103,
      "loss": 3.8523,
      "step": 181980
    },
    {
      "epoch": 0.37914583333333335,
      "grad_norm": 0.7895362377166748,
      "learning_rate": 0.00020672783798195228,
      "loss": 3.8728,
      "step": 181990
    },
    {
      "epoch": 0.37916666666666665,
      "grad_norm": 0.8335098028182983,
      "learning_rate": 0.0002067187115018917,
      "loss": 3.8955,
      "step": 182000
    },
    {
      "epoch": 0.37916666666666665,
      "eval_loss": 4.173221588134766,
      "eval_runtime": 8.3806,
      "eval_samples_per_second": 1.193,
      "eval_steps_per_second": 0.358,
      "step": 182000
    },
    {
      "epoch": 0.3791875,
      "grad_norm": 0.8359973430633545,
      "learning_rate": 0.00020670958477682867,
      "loss": 3.7455,
      "step": 182010
    },
    {
      "epoch": 0.3792083333333333,
      "grad_norm": 0.7917797565460205,
      "learning_rate": 0.00020670045780680273,
      "loss": 3.8969,
      "step": 182020
    },
    {
      "epoch": 0.3792291666666667,
      "grad_norm": 0.7016196250915527,
      "learning_rate": 0.0002066913305918533,
      "loss": 3.7883,
      "step": 182030
    },
    {
      "epoch": 0.37925,
      "grad_norm": 0.9073986411094666,
      "learning_rate": 0.0002066822031320197,
      "loss": 3.7212,
      "step": 182040
    },
    {
      "epoch": 0.37927083333333333,
      "grad_norm": 0.7260304689407349,
      "learning_rate": 0.00020667307542734142,
      "loss": 4.0125,
      "step": 182050
    },
    {
      "epoch": 0.3792916666666667,
      "grad_norm": 0.7299366593360901,
      "learning_rate": 0.00020666394747785794,
      "loss": 3.9125,
      "step": 182060
    },
    {
      "epoch": 0.3793125,
      "grad_norm": 0.7872629165649414,
      "learning_rate": 0.00020665481928360858,
      "loss": 3.7781,
      "step": 182070
    },
    {
      "epoch": 0.37933333333333336,
      "grad_norm": 0.7242859601974487,
      "learning_rate": 0.00020664569084463287,
      "loss": 3.7261,
      "step": 182080
    },
    {
      "epoch": 0.37935416666666666,
      "grad_norm": 0.9580531716346741,
      "learning_rate": 0.00020663656216097015,
      "loss": 3.8648,
      "step": 182090
    },
    {
      "epoch": 0.379375,
      "grad_norm": 0.8195051550865173,
      "learning_rate": 0.00020662743323265992,
      "loss": 3.8674,
      "step": 182100
    },
    {
      "epoch": 0.3793958333333333,
      "grad_norm": 0.8857458829879761,
      "learning_rate": 0.00020661830405974162,
      "loss": 3.7837,
      "step": 182110
    },
    {
      "epoch": 0.3794166666666667,
      "grad_norm": 0.6594204902648926,
      "learning_rate": 0.00020660917464225464,
      "loss": 3.8515,
      "step": 182120
    },
    {
      "epoch": 0.3794375,
      "grad_norm": 0.7423020005226135,
      "learning_rate": 0.0002066000449802384,
      "loss": 3.6142,
      "step": 182130
    },
    {
      "epoch": 0.37945833333333334,
      "grad_norm": 0.7456586956977844,
      "learning_rate": 0.00020659091507373243,
      "loss": 3.5782,
      "step": 182140
    },
    {
      "epoch": 0.37947916666666665,
      "grad_norm": 0.7414976358413696,
      "learning_rate": 0.00020658178492277606,
      "loss": 3.8323,
      "step": 182150
    },
    {
      "epoch": 0.3795,
      "grad_norm": 0.6747069954872131,
      "learning_rate": 0.0002065726545274088,
      "loss": 3.8332,
      "step": 182160
    },
    {
      "epoch": 0.3795208333333333,
      "grad_norm": 0.7555854916572571,
      "learning_rate": 0.00020656352388767006,
      "loss": 3.8811,
      "step": 182170
    },
    {
      "epoch": 0.37954166666666667,
      "grad_norm": 0.7301123142242432,
      "learning_rate": 0.00020655439300359927,
      "loss": 3.7417,
      "step": 182180
    },
    {
      "epoch": 0.3795625,
      "grad_norm": 0.8134288787841797,
      "learning_rate": 0.00020654526187523591,
      "loss": 3.6637,
      "step": 182190
    },
    {
      "epoch": 0.37958333333333333,
      "grad_norm": 0.9544481635093689,
      "learning_rate": 0.00020653613050261943,
      "loss": 3.7493,
      "step": 182200
    },
    {
      "epoch": 0.3796041666666667,
      "grad_norm": 0.7184152603149414,
      "learning_rate": 0.00020652699888578917,
      "loss": 3.8229,
      "step": 182210
    },
    {
      "epoch": 0.379625,
      "grad_norm": 0.8039238452911377,
      "learning_rate": 0.0002065178670247847,
      "loss": 3.8658,
      "step": 182220
    },
    {
      "epoch": 0.37964583333333335,
      "grad_norm": 0.7711023688316345,
      "learning_rate": 0.00020650873491964543,
      "loss": 3.7791,
      "step": 182230
    },
    {
      "epoch": 0.37966666666666665,
      "grad_norm": 0.7006681561470032,
      "learning_rate": 0.0002064996025704107,
      "loss": 3.7789,
      "step": 182240
    },
    {
      "epoch": 0.3796875,
      "grad_norm": 0.7861468195915222,
      "learning_rate": 0.00020649046997712017,
      "loss": 3.8571,
      "step": 182250
    },
    {
      "epoch": 0.3797083333333333,
      "grad_norm": 0.7072666883468628,
      "learning_rate": 0.0002064813371398131,
      "loss": 3.9472,
      "step": 182260
    },
    {
      "epoch": 0.3797291666666667,
      "grad_norm": 0.811191201210022,
      "learning_rate": 0.00020647220405852905,
      "loss": 3.9422,
      "step": 182270
    },
    {
      "epoch": 0.37975,
      "grad_norm": 0.8727095127105713,
      "learning_rate": 0.00020646307073330739,
      "loss": 3.7595,
      "step": 182280
    },
    {
      "epoch": 0.37977083333333334,
      "grad_norm": 0.7020044922828674,
      "learning_rate": 0.00020645393716418764,
      "loss": 3.8697,
      "step": 182290
    },
    {
      "epoch": 0.3797916666666667,
      "grad_norm": 1.0985249280929565,
      "learning_rate": 0.00020644480335120922,
      "loss": 3.8859,
      "step": 182300
    },
    {
      "epoch": 0.3798125,
      "grad_norm": 0.8511582612991333,
      "learning_rate": 0.0002064356692944116,
      "loss": 3.8201,
      "step": 182310
    },
    {
      "epoch": 0.37983333333333336,
      "grad_norm": 0.819627046585083,
      "learning_rate": 0.0002064265349938342,
      "loss": 3.8668,
      "step": 182320
    },
    {
      "epoch": 0.37985416666666666,
      "grad_norm": 0.889543354511261,
      "learning_rate": 0.00020641740044951654,
      "loss": 3.9518,
      "step": 182330
    },
    {
      "epoch": 0.379875,
      "grad_norm": 0.8603052496910095,
      "learning_rate": 0.00020640826566149803,
      "loss": 3.8791,
      "step": 182340
    },
    {
      "epoch": 0.3798958333333333,
      "grad_norm": 0.8200523257255554,
      "learning_rate": 0.00020639913062981812,
      "loss": 3.7394,
      "step": 182350
    },
    {
      "epoch": 0.3799166666666667,
      "grad_norm": 0.8078086972236633,
      "learning_rate": 0.00020638999535451633,
      "loss": 3.9271,
      "step": 182360
    },
    {
      "epoch": 0.3799375,
      "grad_norm": 0.7682989239692688,
      "learning_rate": 0.00020638085983563204,
      "loss": 3.945,
      "step": 182370
    },
    {
      "epoch": 0.37995833333333334,
      "grad_norm": 0.7292904853820801,
      "learning_rate": 0.00020637172407320478,
      "loss": 3.768,
      "step": 182380
    },
    {
      "epoch": 0.37997916666666665,
      "grad_norm": 0.718705952167511,
      "learning_rate": 0.000206362588067274,
      "loss": 4.0162,
      "step": 182390
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8784952759742737,
      "learning_rate": 0.0002063534518178791,
      "loss": 3.8477,
      "step": 182400
    },
    {
      "epoch": 0.3800208333333333,
      "grad_norm": 0.796930193901062,
      "learning_rate": 0.0002063443153250596,
      "loss": 3.7827,
      "step": 182410
    },
    {
      "epoch": 0.38004166666666667,
      "grad_norm": 0.877346932888031,
      "learning_rate": 0.00020633517858885498,
      "loss": 3.7433,
      "step": 182420
    },
    {
      "epoch": 0.3800625,
      "grad_norm": 0.9000310897827148,
      "learning_rate": 0.00020632604160930468,
      "loss": 3.9509,
      "step": 182430
    },
    {
      "epoch": 0.38008333333333333,
      "grad_norm": 0.8012091517448425,
      "learning_rate": 0.00020631690438644817,
      "loss": 3.8569,
      "step": 182440
    },
    {
      "epoch": 0.3801041666666667,
      "grad_norm": 0.7172646522521973,
      "learning_rate": 0.00020630776692032496,
      "loss": 3.9221,
      "step": 182450
    },
    {
      "epoch": 0.380125,
      "grad_norm": 0.955693244934082,
      "learning_rate": 0.00020629862921097444,
      "loss": 3.7432,
      "step": 182460
    },
    {
      "epoch": 0.38014583333333335,
      "grad_norm": 0.7904995083808899,
      "learning_rate": 0.00020628949125843616,
      "loss": 3.8203,
      "step": 182470
    },
    {
      "epoch": 0.38016666666666665,
      "grad_norm": 0.7676151394844055,
      "learning_rate": 0.00020628035306274954,
      "loss": 3.8828,
      "step": 182480
    },
    {
      "epoch": 0.3801875,
      "grad_norm": 0.8223123550415039,
      "learning_rate": 0.00020627121462395408,
      "loss": 3.7859,
      "step": 182490
    },
    {
      "epoch": 0.3802083333333333,
      "grad_norm": 0.8082499504089355,
      "learning_rate": 0.00020626207594208929,
      "loss": 3.9431,
      "step": 182500
    },
    {
      "epoch": 0.3802291666666667,
      "grad_norm": 0.7483497858047485,
      "learning_rate": 0.00020625293701719452,
      "loss": 3.7046,
      "step": 182510
    },
    {
      "epoch": 0.38025,
      "grad_norm": 0.7949364185333252,
      "learning_rate": 0.00020624379784930935,
      "loss": 3.8091,
      "step": 182520
    },
    {
      "epoch": 0.38027083333333334,
      "grad_norm": 0.6573865413665771,
      "learning_rate": 0.00020623465843847328,
      "loss": 3.7563,
      "step": 182530
    },
    {
      "epoch": 0.38029166666666664,
      "grad_norm": 0.7954752445220947,
      "learning_rate": 0.0002062255187847257,
      "loss": 3.8027,
      "step": 182540
    },
    {
      "epoch": 0.3803125,
      "grad_norm": 0.8823559284210205,
      "learning_rate": 0.00020621637888810614,
      "loss": 3.8266,
      "step": 182550
    },
    {
      "epoch": 0.38033333333333336,
      "grad_norm": 0.7432507872581482,
      "learning_rate": 0.00020620723874865415,
      "loss": 4.0513,
      "step": 182560
    },
    {
      "epoch": 0.38035416666666666,
      "grad_norm": 0.7956826686859131,
      "learning_rate": 0.00020619809836640906,
      "loss": 3.974,
      "step": 182570
    },
    {
      "epoch": 0.380375,
      "grad_norm": 0.790596067905426,
      "learning_rate": 0.00020618895774141043,
      "loss": 3.8121,
      "step": 182580
    },
    {
      "epoch": 0.3803958333333333,
      "grad_norm": 0.7495781779289246,
      "learning_rate": 0.00020617981687369777,
      "loss": 3.6554,
      "step": 182590
    },
    {
      "epoch": 0.3804166666666667,
      "grad_norm": 0.8069830536842346,
      "learning_rate": 0.0002061706757633105,
      "loss": 3.8145,
      "step": 182600
    },
    {
      "epoch": 0.3804375,
      "grad_norm": 0.788781464099884,
      "learning_rate": 0.00020616153441028816,
      "loss": 3.8974,
      "step": 182610
    },
    {
      "epoch": 0.38045833333333334,
      "grad_norm": 0.8528963923454285,
      "learning_rate": 0.00020615239281467025,
      "loss": 3.8856,
      "step": 182620
    },
    {
      "epoch": 0.38047916666666665,
      "grad_norm": 0.7611546516418457,
      "learning_rate": 0.0002061432509764962,
      "loss": 3.7347,
      "step": 182630
    },
    {
      "epoch": 0.3805,
      "grad_norm": 0.9157168865203857,
      "learning_rate": 0.00020613410889580556,
      "loss": 3.8159,
      "step": 182640
    },
    {
      "epoch": 0.3805208333333333,
      "grad_norm": 0.7156709432601929,
      "learning_rate": 0.00020612496657263776,
      "loss": 3.8666,
      "step": 182650
    },
    {
      "epoch": 0.38054166666666667,
      "grad_norm": 0.7205580472946167,
      "learning_rate": 0.00020611582400703233,
      "loss": 3.7608,
      "step": 182660
    },
    {
      "epoch": 0.3805625,
      "grad_norm": 0.8670001029968262,
      "learning_rate": 0.00020610668119902875,
      "loss": 3.8265,
      "step": 182670
    },
    {
      "epoch": 0.38058333333333333,
      "grad_norm": 0.8021782636642456,
      "learning_rate": 0.0002060975381486665,
      "loss": 3.8947,
      "step": 182680
    },
    {
      "epoch": 0.3806041666666667,
      "grad_norm": 0.7329770922660828,
      "learning_rate": 0.00020608839485598512,
      "loss": 3.8578,
      "step": 182690
    },
    {
      "epoch": 0.380625,
      "grad_norm": 0.8665525913238525,
      "learning_rate": 0.00020607925132102412,
      "loss": 3.9947,
      "step": 182700
    },
    {
      "epoch": 0.38064583333333335,
      "grad_norm": 0.7988172173500061,
      "learning_rate": 0.00020607010754382284,
      "loss": 3.8032,
      "step": 182710
    },
    {
      "epoch": 0.38066666666666665,
      "grad_norm": 0.7248859405517578,
      "learning_rate": 0.00020606096352442096,
      "loss": 3.9776,
      "step": 182720
    },
    {
      "epoch": 0.3806875,
      "grad_norm": 0.7429794669151306,
      "learning_rate": 0.0002060518192628579,
      "loss": 3.6372,
      "step": 182730
    },
    {
      "epoch": 0.3807083333333333,
      "grad_norm": 0.8062357306480408,
      "learning_rate": 0.00020604267475917315,
      "loss": 3.8907,
      "step": 182740
    },
    {
      "epoch": 0.3807291666666667,
      "grad_norm": 0.9592157006263733,
      "learning_rate": 0.00020603353001340623,
      "loss": 3.8622,
      "step": 182750
    },
    {
      "epoch": 0.38075,
      "grad_norm": 0.8477289080619812,
      "learning_rate": 0.00020602438502559668,
      "loss": 3.8325,
      "step": 182760
    },
    {
      "epoch": 0.38077083333333334,
      "grad_norm": 0.9276495575904846,
      "learning_rate": 0.00020601523979578394,
      "loss": 3.8755,
      "step": 182770
    },
    {
      "epoch": 0.38079166666666664,
      "grad_norm": 0.7992873787879944,
      "learning_rate": 0.0002060060943240075,
      "loss": 4.0387,
      "step": 182780
    },
    {
      "epoch": 0.3808125,
      "grad_norm": 0.7345039248466492,
      "learning_rate": 0.00020599694861030696,
      "loss": 3.8229,
      "step": 182790
    },
    {
      "epoch": 0.38083333333333336,
      "grad_norm": 0.8148059844970703,
      "learning_rate": 0.00020598780265472172,
      "loss": 3.8648,
      "step": 182800
    },
    {
      "epoch": 0.38085416666666666,
      "grad_norm": 0.8762407898902893,
      "learning_rate": 0.00020597865645729133,
      "loss": 3.9037,
      "step": 182810
    },
    {
      "epoch": 0.380875,
      "grad_norm": 0.7776862978935242,
      "learning_rate": 0.00020596951001805531,
      "loss": 3.7911,
      "step": 182820
    },
    {
      "epoch": 0.3808958333333333,
      "grad_norm": 0.8195546269416809,
      "learning_rate": 0.0002059603633370532,
      "loss": 3.859,
      "step": 182830
    },
    {
      "epoch": 0.3809166666666667,
      "grad_norm": 0.8544929027557373,
      "learning_rate": 0.00020595121641432446,
      "loss": 3.994,
      "step": 182840
    },
    {
      "epoch": 0.3809375,
      "grad_norm": 1.13643479347229,
      "learning_rate": 0.00020594206924990857,
      "loss": 3.9509,
      "step": 182850
    },
    {
      "epoch": 0.38095833333333334,
      "grad_norm": 0.7611197829246521,
      "learning_rate": 0.00020593292184384513,
      "loss": 3.8601,
      "step": 182860
    },
    {
      "epoch": 0.38097916666666665,
      "grad_norm": 0.7486734986305237,
      "learning_rate": 0.0002059237741961736,
      "loss": 3.9288,
      "step": 182870
    },
    {
      "epoch": 0.381,
      "grad_norm": 0.8067877888679504,
      "learning_rate": 0.00020591462630693347,
      "loss": 3.7,
      "step": 182880
    },
    {
      "epoch": 0.3810208333333333,
      "grad_norm": 0.8732734322547913,
      "learning_rate": 0.0002059054781761643,
      "loss": 3.8124,
      "step": 182890
    },
    {
      "epoch": 0.38104166666666667,
      "grad_norm": 0.7649162411689758,
      "learning_rate": 0.00020589632980390566,
      "loss": 3.7487,
      "step": 182900
    },
    {
      "epoch": 0.3810625,
      "grad_norm": 0.8107854723930359,
      "learning_rate": 0.00020588718119019688,
      "loss": 3.8867,
      "step": 182910
    },
    {
      "epoch": 0.38108333333333333,
      "grad_norm": 0.9468940496444702,
      "learning_rate": 0.00020587803233507765,
      "loss": 3.8211,
      "step": 182920
    },
    {
      "epoch": 0.3811041666666667,
      "grad_norm": 0.8359000086784363,
      "learning_rate": 0.00020586888323858747,
      "loss": 3.793,
      "step": 182930
    },
    {
      "epoch": 0.381125,
      "grad_norm": 0.7249312996864319,
      "learning_rate": 0.00020585973390076578,
      "loss": 3.782,
      "step": 182940
    },
    {
      "epoch": 0.38114583333333335,
      "grad_norm": 0.735614538192749,
      "learning_rate": 0.00020585058432165222,
      "loss": 3.7918,
      "step": 182950
    },
    {
      "epoch": 0.38116666666666665,
      "grad_norm": 0.7520322203636169,
      "learning_rate": 0.0002058414345012862,
      "loss": 3.8643,
      "step": 182960
    },
    {
      "epoch": 0.3811875,
      "grad_norm": 0.7255435585975647,
      "learning_rate": 0.0002058322844397073,
      "loss": 3.739,
      "step": 182970
    },
    {
      "epoch": 0.3812083333333333,
      "grad_norm": 0.768112301826477,
      "learning_rate": 0.00020582313413695499,
      "loss": 3.795,
      "step": 182980
    },
    {
      "epoch": 0.3812291666666667,
      "grad_norm": 0.741098940372467,
      "learning_rate": 0.00020581398359306887,
      "loss": 3.8279,
      "step": 182990
    },
    {
      "epoch": 0.38125,
      "grad_norm": 0.9435358643531799,
      "learning_rate": 0.0002058048328080884,
      "loss": 3.6788,
      "step": 183000
    },
    {
      "epoch": 0.38125,
      "eval_loss": 4.185007095336914,
      "eval_runtime": 8.2357,
      "eval_samples_per_second": 1.214,
      "eval_steps_per_second": 0.364,
      "step": 183000
    },
    {
      "epoch": 0.38127083333333334,
      "grad_norm": 0.8372030258178711,
      "learning_rate": 0.00020579568178205322,
      "loss": 3.8527,
      "step": 183010
    },
    {
      "epoch": 0.38129166666666664,
      "grad_norm": 0.7522881627082825,
      "learning_rate": 0.0002057865305150027,
      "loss": 3.8692,
      "step": 183020
    },
    {
      "epoch": 0.3813125,
      "grad_norm": 0.8527491092681885,
      "learning_rate": 0.0002057773790069765,
      "loss": 3.909,
      "step": 183030
    },
    {
      "epoch": 0.38133333333333336,
      "grad_norm": 0.7032073736190796,
      "learning_rate": 0.00020576822725801406,
      "loss": 3.9539,
      "step": 183040
    },
    {
      "epoch": 0.38135416666666666,
      "grad_norm": 0.8690386414527893,
      "learning_rate": 0.00020575907526815498,
      "loss": 4.0781,
      "step": 183050
    },
    {
      "epoch": 0.381375,
      "grad_norm": 0.7201367020606995,
      "learning_rate": 0.00020574992303743874,
      "loss": 3.9676,
      "step": 183060
    },
    {
      "epoch": 0.3813958333333333,
      "grad_norm": 0.894868016242981,
      "learning_rate": 0.00020574077056590497,
      "loss": 3.8623,
      "step": 183070
    },
    {
      "epoch": 0.3814166666666667,
      "grad_norm": 1.0646131038665771,
      "learning_rate": 0.00020573161785359303,
      "loss": 3.8789,
      "step": 183080
    },
    {
      "epoch": 0.3814375,
      "grad_norm": 0.8413428664207458,
      "learning_rate": 0.00020572246490054266,
      "loss": 3.8832,
      "step": 183090
    },
    {
      "epoch": 0.38145833333333334,
      "grad_norm": 0.7838085293769836,
      "learning_rate": 0.00020571331170679324,
      "loss": 3.782,
      "step": 183100
    },
    {
      "epoch": 0.38147916666666665,
      "grad_norm": 0.6902768015861511,
      "learning_rate": 0.00020570415827238434,
      "loss": 3.8884,
      "step": 183110
    },
    {
      "epoch": 0.3815,
      "grad_norm": 0.7219756841659546,
      "learning_rate": 0.0002056950045973556,
      "loss": 4.0226,
      "step": 183120
    },
    {
      "epoch": 0.3815208333333333,
      "grad_norm": 0.8320791125297546,
      "learning_rate": 0.00020568585068174645,
      "loss": 3.8212,
      "step": 183130
    },
    {
      "epoch": 0.38154166666666667,
      "grad_norm": 0.730940043926239,
      "learning_rate": 0.0002056766965255965,
      "loss": 3.9698,
      "step": 183140
    },
    {
      "epoch": 0.3815625,
      "grad_norm": 0.6994107961654663,
      "learning_rate": 0.0002056675421289452,
      "loss": 3.8735,
      "step": 183150
    },
    {
      "epoch": 0.38158333333333333,
      "grad_norm": 0.7771876454353333,
      "learning_rate": 0.0002056583874918322,
      "loss": 3.9474,
      "step": 183160
    },
    {
      "epoch": 0.3816041666666667,
      "grad_norm": 0.7321345210075378,
      "learning_rate": 0.00020564923261429696,
      "loss": 3.8657,
      "step": 183170
    },
    {
      "epoch": 0.381625,
      "grad_norm": 0.9612582325935364,
      "learning_rate": 0.00020564007749637907,
      "loss": 3.9136,
      "step": 183180
    },
    {
      "epoch": 0.38164583333333335,
      "grad_norm": 0.7917661666870117,
      "learning_rate": 0.00020563092213811808,
      "loss": 3.7281,
      "step": 183190
    },
    {
      "epoch": 0.38166666666666665,
      "grad_norm": 0.7051178812980652,
      "learning_rate": 0.00020562176653955353,
      "loss": 3.8994,
      "step": 183200
    },
    {
      "epoch": 0.3816875,
      "grad_norm": 0.7147535681724548,
      "learning_rate": 0.00020561261070072494,
      "loss": 3.9002,
      "step": 183210
    },
    {
      "epoch": 0.3817083333333333,
      "grad_norm": 0.7642552256584167,
      "learning_rate": 0.0002056034546216719,
      "loss": 3.9142,
      "step": 183220
    },
    {
      "epoch": 0.3817291666666667,
      "grad_norm": 0.8614903688430786,
      "learning_rate": 0.00020559429830243397,
      "loss": 3.7835,
      "step": 183230
    },
    {
      "epoch": 0.38175,
      "grad_norm": 0.833364725112915,
      "learning_rate": 0.00020558514174305066,
      "loss": 4.0117,
      "step": 183240
    },
    {
      "epoch": 0.38177083333333334,
      "grad_norm": 0.8057789206504822,
      "learning_rate": 0.00020557598494356152,
      "loss": 3.9701,
      "step": 183250
    },
    {
      "epoch": 0.38179166666666664,
      "grad_norm": 0.7619064450263977,
      "learning_rate": 0.0002055668279040062,
      "loss": 3.6599,
      "step": 183260
    },
    {
      "epoch": 0.3818125,
      "grad_norm": 0.7486193776130676,
      "learning_rate": 0.00020555767062442409,
      "loss": 3.7607,
      "step": 183270
    },
    {
      "epoch": 0.38183333333333336,
      "grad_norm": 0.6953637599945068,
      "learning_rate": 0.00020554851310485486,
      "loss": 3.8059,
      "step": 183280
    },
    {
      "epoch": 0.38185416666666666,
      "grad_norm": 0.7439058423042297,
      "learning_rate": 0.0002055393553453381,
      "loss": 3.8008,
      "step": 183290
    },
    {
      "epoch": 0.381875,
      "grad_norm": 0.7763925790786743,
      "learning_rate": 0.0002055301973459132,
      "loss": 3.923,
      "step": 183300
    },
    {
      "epoch": 0.3818958333333333,
      "grad_norm": 0.7797301411628723,
      "learning_rate": 0.00020552103910661984,
      "loss": 3.853,
      "step": 183310
    },
    {
      "epoch": 0.3819166666666667,
      "grad_norm": 0.6891810297966003,
      "learning_rate": 0.00020551188062749767,
      "loss": 3.8597,
      "step": 183320
    },
    {
      "epoch": 0.3819375,
      "grad_norm": 0.768100380897522,
      "learning_rate": 0.00020550272190858606,
      "loss": 3.8497,
      "step": 183330
    },
    {
      "epoch": 0.38195833333333334,
      "grad_norm": 0.8737660646438599,
      "learning_rate": 0.0002054935629499247,
      "loss": 3.876,
      "step": 183340
    },
    {
      "epoch": 0.38197916666666665,
      "grad_norm": 0.9069532752037048,
      "learning_rate": 0.00020548440375155308,
      "loss": 3.7948,
      "step": 183350
    },
    {
      "epoch": 0.382,
      "grad_norm": 0.7797109484672546,
      "learning_rate": 0.00020547524431351085,
      "loss": 3.6142,
      "step": 183360
    },
    {
      "epoch": 0.3820208333333333,
      "grad_norm": 0.7353879809379578,
      "learning_rate": 0.00020546608463583747,
      "loss": 4.0223,
      "step": 183370
    },
    {
      "epoch": 0.38204166666666667,
      "grad_norm": 0.7382573485374451,
      "learning_rate": 0.0002054569247185726,
      "loss": 3.9008,
      "step": 183380
    },
    {
      "epoch": 0.3820625,
      "grad_norm": 0.7876303791999817,
      "learning_rate": 0.00020544776456175574,
      "loss": 3.7411,
      "step": 183390
    },
    {
      "epoch": 0.38208333333333333,
      "grad_norm": 0.7172340750694275,
      "learning_rate": 0.00020543860416542654,
      "loss": 3.879,
      "step": 183400
    },
    {
      "epoch": 0.3821041666666667,
      "grad_norm": 0.9737328886985779,
      "learning_rate": 0.00020542944352962443,
      "loss": 3.7906,
      "step": 183410
    },
    {
      "epoch": 0.382125,
      "grad_norm": 0.7927218079566956,
      "learning_rate": 0.0002054202826543891,
      "loss": 3.8233,
      "step": 183420
    },
    {
      "epoch": 0.38214583333333335,
      "grad_norm": 0.709622323513031,
      "learning_rate": 0.0002054111215397601,
      "loss": 3.77,
      "step": 183430
    },
    {
      "epoch": 0.38216666666666665,
      "grad_norm": 0.7911426424980164,
      "learning_rate": 0.00020540196018577696,
      "loss": 3.9053,
      "step": 183440
    },
    {
      "epoch": 0.3821875,
      "grad_norm": 0.9482776522636414,
      "learning_rate": 0.0002053927985924793,
      "loss": 3.9244,
      "step": 183450
    },
    {
      "epoch": 0.3822083333333333,
      "grad_norm": 0.8963687419891357,
      "learning_rate": 0.0002053836367599067,
      "loss": 3.8963,
      "step": 183460
    },
    {
      "epoch": 0.3822291666666667,
      "grad_norm": 0.8685150146484375,
      "learning_rate": 0.0002053744746880987,
      "loss": 4.0591,
      "step": 183470
    },
    {
      "epoch": 0.38225,
      "grad_norm": 0.9032114744186401,
      "learning_rate": 0.00020536531237709484,
      "loss": 3.8388,
      "step": 183480
    },
    {
      "epoch": 0.38227083333333334,
      "grad_norm": 0.7794399857521057,
      "learning_rate": 0.0002053561498269348,
      "loss": 3.8938,
      "step": 183490
    },
    {
      "epoch": 0.38229166666666664,
      "grad_norm": 0.7318794131278992,
      "learning_rate": 0.0002053469870376581,
      "loss": 3.9555,
      "step": 183500
    },
    {
      "epoch": 0.3823125,
      "grad_norm": 0.7059547901153564,
      "learning_rate": 0.00020533782400930427,
      "loss": 3.7382,
      "step": 183510
    },
    {
      "epoch": 0.38233333333333336,
      "grad_norm": 0.903879702091217,
      "learning_rate": 0.000205328660741913,
      "loss": 3.8871,
      "step": 183520
    },
    {
      "epoch": 0.38235416666666666,
      "grad_norm": 0.7167929410934448,
      "learning_rate": 0.0002053194972355238,
      "loss": 3.7887,
      "step": 183530
    },
    {
      "epoch": 0.382375,
      "grad_norm": 0.9373912811279297,
      "learning_rate": 0.00020531033349017625,
      "loss": 3.6802,
      "step": 183540
    },
    {
      "epoch": 0.3823958333333333,
      "grad_norm": 1.1801213026046753,
      "learning_rate": 0.00020530116950591,
      "loss": 3.7834,
      "step": 183550
    },
    {
      "epoch": 0.3824166666666667,
      "grad_norm": 0.8220239281654358,
      "learning_rate": 0.00020529200528276453,
      "loss": 4.0294,
      "step": 183560
    },
    {
      "epoch": 0.3824375,
      "grad_norm": 0.9055914878845215,
      "learning_rate": 0.00020528284082077958,
      "loss": 3.8852,
      "step": 183570
    },
    {
      "epoch": 0.38245833333333334,
      "grad_norm": 0.7724391222000122,
      "learning_rate": 0.0002052736761199945,
      "loss": 3.6654,
      "step": 183580
    },
    {
      "epoch": 0.38247916666666665,
      "grad_norm": 0.8380156755447388,
      "learning_rate": 0.00020526451118044908,
      "loss": 3.9941,
      "step": 183590
    },
    {
      "epoch": 0.3825,
      "grad_norm": 0.6514557600021362,
      "learning_rate": 0.0002052553460021829,
      "loss": 3.8247,
      "step": 183600
    },
    {
      "epoch": 0.3825208333333333,
      "grad_norm": 0.6996260285377502,
      "learning_rate": 0.00020524618058523542,
      "loss": 3.7924,
      "step": 183610
    },
    {
      "epoch": 0.38254166666666667,
      "grad_norm": 0.7088916301727295,
      "learning_rate": 0.00020523701492964635,
      "loss": 4.0164,
      "step": 183620
    },
    {
      "epoch": 0.3825625,
      "grad_norm": 0.7955158352851868,
      "learning_rate": 0.0002052278490354553,
      "loss": 4.0075,
      "step": 183630
    },
    {
      "epoch": 0.38258333333333333,
      "grad_norm": 0.7343051433563232,
      "learning_rate": 0.0002052186829027017,
      "loss": 3.888,
      "step": 183640
    },
    {
      "epoch": 0.3826041666666667,
      "grad_norm": 0.7555290460586548,
      "learning_rate": 0.00020520951653142525,
      "loss": 3.9342,
      "step": 183650
    },
    {
      "epoch": 0.382625,
      "grad_norm": 0.762378990650177,
      "learning_rate": 0.00020520034992166562,
      "loss": 3.8096,
      "step": 183660
    },
    {
      "epoch": 0.38264583333333335,
      "grad_norm": 0.7417318224906921,
      "learning_rate": 0.00020519118307346225,
      "loss": 3.9294,
      "step": 183670
    },
    {
      "epoch": 0.38266666666666665,
      "grad_norm": 0.8122915625572205,
      "learning_rate": 0.00020518201598685484,
      "loss": 3.7193,
      "step": 183680
    },
    {
      "epoch": 0.3826875,
      "grad_norm": 0.8362602591514587,
      "learning_rate": 0.00020517284866188298,
      "loss": 3.7553,
      "step": 183690
    },
    {
      "epoch": 0.3827083333333333,
      "grad_norm": 1.2422622442245483,
      "learning_rate": 0.00020516368109858626,
      "loss": 3.8002,
      "step": 183700
    },
    {
      "epoch": 0.3827291666666667,
      "grad_norm": 0.7270647883415222,
      "learning_rate": 0.00020515451329700422,
      "loss": 3.8913,
      "step": 183710
    },
    {
      "epoch": 0.38275,
      "grad_norm": 0.7065271735191345,
      "learning_rate": 0.00020514534525717656,
      "loss": 3.9713,
      "step": 183720
    },
    {
      "epoch": 0.38277083333333334,
      "grad_norm": 0.852065920829773,
      "learning_rate": 0.00020513617697914282,
      "loss": 3.7434,
      "step": 183730
    },
    {
      "epoch": 0.38279166666666664,
      "grad_norm": 0.8063927292823792,
      "learning_rate": 0.00020512700846294263,
      "loss": 3.9342,
      "step": 183740
    },
    {
      "epoch": 0.3828125,
      "grad_norm": 0.6933813095092773,
      "learning_rate": 0.0002051178397086156,
      "loss": 3.8499,
      "step": 183750
    },
    {
      "epoch": 0.38283333333333336,
      "grad_norm": 0.6624441146850586,
      "learning_rate": 0.00020510867071620126,
      "loss": 3.977,
      "step": 183760
    },
    {
      "epoch": 0.38285416666666666,
      "grad_norm": 0.787807822227478,
      "learning_rate": 0.00020509950148573936,
      "loss": 3.7751,
      "step": 183770
    },
    {
      "epoch": 0.382875,
      "grad_norm": 0.8636045455932617,
      "learning_rate": 0.00020509033201726937,
      "loss": 3.8858,
      "step": 183780
    },
    {
      "epoch": 0.3828958333333333,
      "grad_norm": 0.7393887042999268,
      "learning_rate": 0.00020508116231083095,
      "loss": 3.7684,
      "step": 183790
    },
    {
      "epoch": 0.3829166666666667,
      "grad_norm": 0.7944694757461548,
      "learning_rate": 0.00020507199236646375,
      "loss": 3.9825,
      "step": 183800
    },
    {
      "epoch": 0.3829375,
      "grad_norm": 0.7987867593765259,
      "learning_rate": 0.00020506282218420727,
      "loss": 3.8808,
      "step": 183810
    },
    {
      "epoch": 0.38295833333333335,
      "grad_norm": 0.8425471186637878,
      "learning_rate": 0.00020505365176410126,
      "loss": 3.7469,
      "step": 183820
    },
    {
      "epoch": 0.38297916666666665,
      "grad_norm": 0.728668749332428,
      "learning_rate": 0.00020504448110618526,
      "loss": 3.9173,
      "step": 183830
    },
    {
      "epoch": 0.383,
      "grad_norm": 0.6862359046936035,
      "learning_rate": 0.00020503531021049887,
      "loss": 3.8039,
      "step": 183840
    },
    {
      "epoch": 0.3830208333333333,
      "grad_norm": 0.8360445499420166,
      "learning_rate": 0.00020502613907708175,
      "loss": 3.9199,
      "step": 183850
    },
    {
      "epoch": 0.38304166666666667,
      "grad_norm": 0.719906210899353,
      "learning_rate": 0.00020501696770597344,
      "loss": 3.9118,
      "step": 183860
    },
    {
      "epoch": 0.3830625,
      "grad_norm": 0.9519911408424377,
      "learning_rate": 0.00020500779609721365,
      "loss": 4.0425,
      "step": 183870
    },
    {
      "epoch": 0.38308333333333333,
      "grad_norm": 0.8112632632255554,
      "learning_rate": 0.00020499862425084193,
      "loss": 3.9003,
      "step": 183880
    },
    {
      "epoch": 0.3831041666666667,
      "grad_norm": 0.8394973278045654,
      "learning_rate": 0.00020498945216689793,
      "loss": 3.9065,
      "step": 183890
    },
    {
      "epoch": 0.383125,
      "grad_norm": 0.6977448463439941,
      "learning_rate": 0.00020498027984542126,
      "loss": 3.7816,
      "step": 183900
    },
    {
      "epoch": 0.38314583333333335,
      "grad_norm": 0.8980638384819031,
      "learning_rate": 0.00020497110728645156,
      "loss": 3.716,
      "step": 183910
    },
    {
      "epoch": 0.38316666666666666,
      "grad_norm": 0.8252429366111755,
      "learning_rate": 0.00020496193449002841,
      "loss": 3.7045,
      "step": 183920
    },
    {
      "epoch": 0.3831875,
      "grad_norm": 0.8959919810295105,
      "learning_rate": 0.00020495276145619147,
      "loss": 3.9025,
      "step": 183930
    },
    {
      "epoch": 0.3832083333333333,
      "grad_norm": 0.7839915156364441,
      "learning_rate": 0.00020494358818498037,
      "loss": 3.8905,
      "step": 183940
    },
    {
      "epoch": 0.3832291666666667,
      "grad_norm": 0.7793719172477722,
      "learning_rate": 0.00020493441467643472,
      "loss": 3.7655,
      "step": 183950
    },
    {
      "epoch": 0.38325,
      "grad_norm": 0.8689736127853394,
      "learning_rate": 0.0002049252409305941,
      "loss": 3.7863,
      "step": 183960
    },
    {
      "epoch": 0.38327083333333334,
      "grad_norm": 0.7334269881248474,
      "learning_rate": 0.00020491606694749825,
      "loss": 3.8403,
      "step": 183970
    },
    {
      "epoch": 0.38329166666666664,
      "grad_norm": 0.8029777407646179,
      "learning_rate": 0.00020490689272718664,
      "loss": 3.872,
      "step": 183980
    },
    {
      "epoch": 0.3833125,
      "grad_norm": 0.7109271287918091,
      "learning_rate": 0.00020489771826969906,
      "loss": 3.7726,
      "step": 183990
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 0.6526638269424438,
      "learning_rate": 0.00020488854357507503,
      "loss": 3.7937,
      "step": 184000
    },
    {
      "epoch": 0.38333333333333336,
      "eval_loss": 4.189948081970215,
      "eval_runtime": 8.4892,
      "eval_samples_per_second": 1.178,
      "eval_steps_per_second": 0.353,
      "step": 184000
    },
    {
      "epoch": 0.38335416666666666,
      "grad_norm": 0.7470577359199524,
      "learning_rate": 0.00020487936864335425,
      "loss": 3.8376,
      "step": 184010
    },
    {
      "epoch": 0.383375,
      "grad_norm": 0.8074518442153931,
      "learning_rate": 0.0002048701934745763,
      "loss": 3.9036,
      "step": 184020
    },
    {
      "epoch": 0.3833958333333333,
      "grad_norm": 0.9263080358505249,
      "learning_rate": 0.00020486101806878082,
      "loss": 3.8755,
      "step": 184030
    },
    {
      "epoch": 0.3834166666666667,
      "grad_norm": 0.7140902280807495,
      "learning_rate": 0.00020485184242600746,
      "loss": 3.8235,
      "step": 184040
    },
    {
      "epoch": 0.3834375,
      "grad_norm": 0.9620673656463623,
      "learning_rate": 0.00020484266654629583,
      "loss": 3.9197,
      "step": 184050
    },
    {
      "epoch": 0.38345833333333335,
      "grad_norm": 0.7756763696670532,
      "learning_rate": 0.00020483349042968565,
      "loss": 3.8926,
      "step": 184060
    },
    {
      "epoch": 0.38347916666666665,
      "grad_norm": 0.8109177947044373,
      "learning_rate": 0.00020482431407621647,
      "loss": 3.7147,
      "step": 184070
    },
    {
      "epoch": 0.3835,
      "grad_norm": 0.7583567500114441,
      "learning_rate": 0.00020481513748592795,
      "loss": 3.7999,
      "step": 184080
    },
    {
      "epoch": 0.3835208333333333,
      "grad_norm": 0.9497230648994446,
      "learning_rate": 0.00020480596065885974,
      "loss": 3.8134,
      "step": 184090
    },
    {
      "epoch": 0.38354166666666667,
      "grad_norm": 0.8373818397521973,
      "learning_rate": 0.00020479678359505146,
      "loss": 3.9121,
      "step": 184100
    },
    {
      "epoch": 0.3835625,
      "grad_norm": 0.6839744448661804,
      "learning_rate": 0.00020478760629454276,
      "loss": 3.7408,
      "step": 184110
    },
    {
      "epoch": 0.38358333333333333,
      "grad_norm": 0.8828755021095276,
      "learning_rate": 0.0002047784287573733,
      "loss": 3.7972,
      "step": 184120
    },
    {
      "epoch": 0.3836041666666667,
      "grad_norm": 0.8677889704704285,
      "learning_rate": 0.00020476925098358273,
      "loss": 3.8705,
      "step": 184130
    },
    {
      "epoch": 0.383625,
      "grad_norm": 0.9277494549751282,
      "learning_rate": 0.00020476007297321066,
      "loss": 4.0399,
      "step": 184140
    },
    {
      "epoch": 0.38364583333333335,
      "grad_norm": 0.726378858089447,
      "learning_rate": 0.0002047508947262967,
      "loss": 3.8808,
      "step": 184150
    },
    {
      "epoch": 0.38366666666666666,
      "grad_norm": 0.8674407601356506,
      "learning_rate": 0.00020474171624288064,
      "loss": 3.8475,
      "step": 184160
    },
    {
      "epoch": 0.3836875,
      "grad_norm": 1.0337724685668945,
      "learning_rate": 0.00020473253752300197,
      "loss": 3.8671,
      "step": 184170
    },
    {
      "epoch": 0.3837083333333333,
      "grad_norm": 0.7993676066398621,
      "learning_rate": 0.0002047233585667004,
      "loss": 3.8452,
      "step": 184180
    },
    {
      "epoch": 0.3837291666666667,
      "grad_norm": 0.8667246699333191,
      "learning_rate": 0.0002047141793740156,
      "loss": 3.7363,
      "step": 184190
    },
    {
      "epoch": 0.38375,
      "grad_norm": 0.6880767941474915,
      "learning_rate": 0.00020470499994498722,
      "loss": 3.5355,
      "step": 184200
    },
    {
      "epoch": 0.38377083333333334,
      "grad_norm": 0.7756609916687012,
      "learning_rate": 0.00020469582027965487,
      "loss": 3.9241,
      "step": 184210
    },
    {
      "epoch": 0.38379166666666664,
      "grad_norm": 0.8903390765190125,
      "learning_rate": 0.00020468664037805824,
      "loss": 3.9025,
      "step": 184220
    },
    {
      "epoch": 0.3838125,
      "grad_norm": 1.1234818696975708,
      "learning_rate": 0.00020467746024023696,
      "loss": 4.0829,
      "step": 184230
    },
    {
      "epoch": 0.38383333333333336,
      "grad_norm": 0.9869760870933533,
      "learning_rate": 0.0002046682798662307,
      "loss": 3.9913,
      "step": 184240
    },
    {
      "epoch": 0.38385416666666666,
      "grad_norm": 0.9538028240203857,
      "learning_rate": 0.0002046590992560791,
      "loss": 3.8611,
      "step": 184250
    },
    {
      "epoch": 0.383875,
      "grad_norm": 0.7757088541984558,
      "learning_rate": 0.00020464991840982185,
      "loss": 3.8554,
      "step": 184260
    },
    {
      "epoch": 0.3838958333333333,
      "grad_norm": 0.7117089033126831,
      "learning_rate": 0.00020464073732749858,
      "loss": 3.8901,
      "step": 184270
    },
    {
      "epoch": 0.3839166666666667,
      "grad_norm": 0.7320143580436707,
      "learning_rate": 0.00020463155600914892,
      "loss": 3.8409,
      "step": 184280
    },
    {
      "epoch": 0.3839375,
      "grad_norm": 0.8692592978477478,
      "learning_rate": 0.0002046223744548126,
      "loss": 3.9563,
      "step": 184290
    },
    {
      "epoch": 0.38395833333333335,
      "grad_norm": 0.8145977854728699,
      "learning_rate": 0.00020461319266452924,
      "loss": 3.8847,
      "step": 184300
    },
    {
      "epoch": 0.38397916666666665,
      "grad_norm": 0.7696248292922974,
      "learning_rate": 0.00020460401063833846,
      "loss": 3.9705,
      "step": 184310
    },
    {
      "epoch": 0.384,
      "grad_norm": 0.7326462268829346,
      "learning_rate": 0.00020459482837628,
      "loss": 3.8169,
      "step": 184320
    },
    {
      "epoch": 0.3840208333333333,
      "grad_norm": 0.8737544417381287,
      "learning_rate": 0.0002045856458783935,
      "loss": 3.7425,
      "step": 184330
    },
    {
      "epoch": 0.38404166666666667,
      "grad_norm": 0.6952338218688965,
      "learning_rate": 0.0002045764631447186,
      "loss": 3.9217,
      "step": 184340
    },
    {
      "epoch": 0.3840625,
      "grad_norm": 0.8543862700462341,
      "learning_rate": 0.00020456728017529497,
      "loss": 3.8397,
      "step": 184350
    },
    {
      "epoch": 0.38408333333333333,
      "grad_norm": 0.6725255846977234,
      "learning_rate": 0.00020455809697016234,
      "loss": 3.88,
      "step": 184360
    },
    {
      "epoch": 0.3841041666666667,
      "grad_norm": 0.7695456743240356,
      "learning_rate": 0.00020454891352936032,
      "loss": 3.9436,
      "step": 184370
    },
    {
      "epoch": 0.384125,
      "grad_norm": 0.8635700941085815,
      "learning_rate": 0.00020453972985292853,
      "loss": 3.8289,
      "step": 184380
    },
    {
      "epoch": 0.38414583333333335,
      "grad_norm": 0.8543024063110352,
      "learning_rate": 0.00020453054594090676,
      "loss": 4.0053,
      "step": 184390
    },
    {
      "epoch": 0.38416666666666666,
      "grad_norm": 0.9201146364212036,
      "learning_rate": 0.00020452136179333456,
      "loss": 3.7849,
      "step": 184400
    },
    {
      "epoch": 0.3841875,
      "grad_norm": 0.7689265608787537,
      "learning_rate": 0.00020451217741025167,
      "loss": 3.9126,
      "step": 184410
    },
    {
      "epoch": 0.3842083333333333,
      "grad_norm": 0.8203936815261841,
      "learning_rate": 0.00020450299279169777,
      "loss": 3.8514,
      "step": 184420
    },
    {
      "epoch": 0.3842291666666667,
      "grad_norm": 0.7768281698226929,
      "learning_rate": 0.00020449380793771254,
      "loss": 3.9733,
      "step": 184430
    },
    {
      "epoch": 0.38425,
      "grad_norm": 0.70868980884552,
      "learning_rate": 0.00020448462284833557,
      "loss": 3.9236,
      "step": 184440
    },
    {
      "epoch": 0.38427083333333334,
      "grad_norm": 0.845072329044342,
      "learning_rate": 0.00020447543752360662,
      "loss": 3.8713,
      "step": 184450
    },
    {
      "epoch": 0.38429166666666664,
      "grad_norm": 0.8544943332672119,
      "learning_rate": 0.00020446625196356537,
      "loss": 3.8007,
      "step": 184460
    },
    {
      "epoch": 0.3843125,
      "grad_norm": 0.7260763645172119,
      "learning_rate": 0.00020445706616825144,
      "loss": 3.9331,
      "step": 184470
    },
    {
      "epoch": 0.38433333333333336,
      "grad_norm": 0.8321027755737305,
      "learning_rate": 0.00020444788013770454,
      "loss": 3.9585,
      "step": 184480
    },
    {
      "epoch": 0.38435416666666666,
      "grad_norm": 0.893405556678772,
      "learning_rate": 0.00020443869387196434,
      "loss": 3.7804,
      "step": 184490
    },
    {
      "epoch": 0.384375,
      "grad_norm": 0.7172912359237671,
      "learning_rate": 0.0002044295073710706,
      "loss": 3.9512,
      "step": 184500
    },
    {
      "epoch": 0.3843958333333333,
      "grad_norm": 0.885361909866333,
      "learning_rate": 0.00020442032063506285,
      "loss": 3.8936,
      "step": 184510
    },
    {
      "epoch": 0.3844166666666667,
      "grad_norm": 0.6819027066230774,
      "learning_rate": 0.00020441113366398086,
      "loss": 3.8488,
      "step": 184520
    },
    {
      "epoch": 0.3844375,
      "grad_norm": 0.7616755962371826,
      "learning_rate": 0.00020440194645786436,
      "loss": 3.7608,
      "step": 184530
    },
    {
      "epoch": 0.38445833333333335,
      "grad_norm": 0.7778728604316711,
      "learning_rate": 0.00020439275901675298,
      "loss": 3.9002,
      "step": 184540
    },
    {
      "epoch": 0.38447916666666665,
      "grad_norm": 0.7284071445465088,
      "learning_rate": 0.00020438357134068636,
      "loss": 3.7918,
      "step": 184550
    },
    {
      "epoch": 0.3845,
      "grad_norm": 0.772544801235199,
      "learning_rate": 0.0002043743834297043,
      "loss": 3.7959,
      "step": 184560
    },
    {
      "epoch": 0.3845208333333333,
      "grad_norm": 0.6648450493812561,
      "learning_rate": 0.00020436519528384638,
      "loss": 3.9358,
      "step": 184570
    },
    {
      "epoch": 0.38454166666666667,
      "grad_norm": 0.7468122243881226,
      "learning_rate": 0.00020435600690315236,
      "loss": 3.9307,
      "step": 184580
    },
    {
      "epoch": 0.3845625,
      "grad_norm": 0.7072462439537048,
      "learning_rate": 0.00020434681828766188,
      "loss": 3.8883,
      "step": 184590
    },
    {
      "epoch": 0.38458333333333333,
      "grad_norm": 0.8685668706893921,
      "learning_rate": 0.0002043376294374147,
      "loss": 3.7646,
      "step": 184600
    },
    {
      "epoch": 0.3846041666666667,
      "grad_norm": 0.967674970626831,
      "learning_rate": 0.00020432844035245043,
      "loss": 3.8508,
      "step": 184610
    },
    {
      "epoch": 0.384625,
      "grad_norm": 0.6637938618659973,
      "learning_rate": 0.00020431925103280883,
      "loss": 3.773,
      "step": 184620
    },
    {
      "epoch": 0.38464583333333335,
      "grad_norm": 0.6779825091362,
      "learning_rate": 0.00020431006147852954,
      "loss": 3.8661,
      "step": 184630
    },
    {
      "epoch": 0.38466666666666666,
      "grad_norm": 0.7861343026161194,
      "learning_rate": 0.00020430087168965232,
      "loss": 3.951,
      "step": 184640
    },
    {
      "epoch": 0.3846875,
      "grad_norm": 1.0322004556655884,
      "learning_rate": 0.00020429168166621677,
      "loss": 3.9868,
      "step": 184650
    },
    {
      "epoch": 0.3847083333333333,
      "grad_norm": 1.0810601711273193,
      "learning_rate": 0.00020428249140826268,
      "loss": 3.9152,
      "step": 184660
    },
    {
      "epoch": 0.3847291666666667,
      "grad_norm": 0.9244129657745361,
      "learning_rate": 0.00020427330091582973,
      "loss": 3.7741,
      "step": 184670
    },
    {
      "epoch": 0.38475,
      "grad_norm": 0.7333813905715942,
      "learning_rate": 0.00020426411018895758,
      "loss": 3.8336,
      "step": 184680
    },
    {
      "epoch": 0.38477083333333334,
      "grad_norm": 0.7205947637557983,
      "learning_rate": 0.00020425491922768593,
      "loss": 3.9033,
      "step": 184690
    },
    {
      "epoch": 0.38479166666666664,
      "grad_norm": 0.8750191330909729,
      "learning_rate": 0.00020424572803205457,
      "loss": 3.9159,
      "step": 184700
    },
    {
      "epoch": 0.3848125,
      "grad_norm": 0.7133076190948486,
      "learning_rate": 0.00020423653660210308,
      "loss": 3.7701,
      "step": 184710
    },
    {
      "epoch": 0.38483333333333336,
      "grad_norm": 0.7272239923477173,
      "learning_rate": 0.00020422734493787126,
      "loss": 3.8642,
      "step": 184720
    },
    {
      "epoch": 0.38485416666666666,
      "grad_norm": 0.9495100378990173,
      "learning_rate": 0.00020421815303939874,
      "loss": 3.8995,
      "step": 184730
    },
    {
      "epoch": 0.384875,
      "grad_norm": 0.7095576524734497,
      "learning_rate": 0.00020420896090672528,
      "loss": 4.0791,
      "step": 184740
    },
    {
      "epoch": 0.3848958333333333,
      "grad_norm": 1.3594889640808105,
      "learning_rate": 0.00020419976853989057,
      "loss": 3.7624,
      "step": 184750
    },
    {
      "epoch": 0.3849166666666667,
      "grad_norm": 0.9255937933921814,
      "learning_rate": 0.00020419057593893427,
      "loss": 3.8905,
      "step": 184760
    },
    {
      "epoch": 0.3849375,
      "grad_norm": 0.7618548274040222,
      "learning_rate": 0.00020418138310389618,
      "loss": 3.7854,
      "step": 184770
    },
    {
      "epoch": 0.38495833333333335,
      "grad_norm": 0.752632200717926,
      "learning_rate": 0.00020417219003481598,
      "loss": 3.7931,
      "step": 184780
    },
    {
      "epoch": 0.38497916666666665,
      "grad_norm": 0.8110911846160889,
      "learning_rate": 0.0002041629967317333,
      "loss": 3.7273,
      "step": 184790
    },
    {
      "epoch": 0.385,
      "grad_norm": 0.954369068145752,
      "learning_rate": 0.00020415380319468795,
      "loss": 3.854,
      "step": 184800
    },
    {
      "epoch": 0.3850208333333333,
      "grad_norm": 0.7323791980743408,
      "learning_rate": 0.0002041446094237196,
      "loss": 4.0298,
      "step": 184810
    },
    {
      "epoch": 0.38504166666666667,
      "grad_norm": 0.6881086230278015,
      "learning_rate": 0.00020413541541886796,
      "loss": 3.8416,
      "step": 184820
    },
    {
      "epoch": 0.3850625,
      "grad_norm": 0.741424024105072,
      "learning_rate": 0.00020412622118017276,
      "loss": 3.9384,
      "step": 184830
    },
    {
      "epoch": 0.38508333333333333,
      "grad_norm": 0.8105107545852661,
      "learning_rate": 0.00020411702670767375,
      "loss": 3.8437,
      "step": 184840
    },
    {
      "epoch": 0.3851041666666667,
      "grad_norm": 0.7617461085319519,
      "learning_rate": 0.00020410783200141053,
      "loss": 3.7193,
      "step": 184850
    },
    {
      "epoch": 0.385125,
      "grad_norm": 0.692283034324646,
      "learning_rate": 0.00020409863706142295,
      "loss": 4.003,
      "step": 184860
    },
    {
      "epoch": 0.38514583333333335,
      "grad_norm": 0.7618789076805115,
      "learning_rate": 0.00020408944188775066,
      "loss": 3.8844,
      "step": 184870
    },
    {
      "epoch": 0.38516666666666666,
      "grad_norm": 0.6700859665870667,
      "learning_rate": 0.00020408024648043335,
      "loss": 3.8344,
      "step": 184880
    },
    {
      "epoch": 0.3851875,
      "grad_norm": 0.7193461656570435,
      "learning_rate": 0.00020407105083951083,
      "loss": 3.7954,
      "step": 184890
    },
    {
      "epoch": 0.3852083333333333,
      "grad_norm": 0.8839351534843445,
      "learning_rate": 0.00020406185496502278,
      "loss": 3.887,
      "step": 184900
    },
    {
      "epoch": 0.3852291666666667,
      "grad_norm": 0.7025924921035767,
      "learning_rate": 0.00020405265885700889,
      "loss": 3.7777,
      "step": 184910
    },
    {
      "epoch": 0.38525,
      "grad_norm": 0.8432847857475281,
      "learning_rate": 0.0002040434625155089,
      "loss": 3.7682,
      "step": 184920
    },
    {
      "epoch": 0.38527083333333334,
      "grad_norm": 0.6743607521057129,
      "learning_rate": 0.00020403426594056256,
      "loss": 3.8351,
      "step": 184930
    },
    {
      "epoch": 0.38529166666666664,
      "grad_norm": 0.7006139755249023,
      "learning_rate": 0.00020402506913220957,
      "loss": 3.7813,
      "step": 184940
    },
    {
      "epoch": 0.3853125,
      "grad_norm": 0.7184370160102844,
      "learning_rate": 0.00020401587209048968,
      "loss": 3.7068,
      "step": 184950
    },
    {
      "epoch": 0.38533333333333336,
      "grad_norm": 0.7683431506156921,
      "learning_rate": 0.0002040066748154426,
      "loss": 3.8336,
      "step": 184960
    },
    {
      "epoch": 0.38535416666666666,
      "grad_norm": 0.8159494996070862,
      "learning_rate": 0.00020399747730710804,
      "loss": 3.7982,
      "step": 184970
    },
    {
      "epoch": 0.385375,
      "grad_norm": 0.8467214107513428,
      "learning_rate": 0.00020398827956552578,
      "loss": 3.8464,
      "step": 184980
    },
    {
      "epoch": 0.3853958333333333,
      "grad_norm": 0.7905129790306091,
      "learning_rate": 0.0002039790815907355,
      "loss": 3.8539,
      "step": 184990
    },
    {
      "epoch": 0.3854166666666667,
      "grad_norm": 0.813246488571167,
      "learning_rate": 0.00020396988338277695,
      "loss": 3.7619,
      "step": 185000
    },
    {
      "epoch": 0.3854166666666667,
      "eval_loss": 4.17980432510376,
      "eval_runtime": 8.0662,
      "eval_samples_per_second": 1.24,
      "eval_steps_per_second": 0.372,
      "step": 185000
    },
    {
      "epoch": 0.3854375,
      "grad_norm": 1.165526032447815,
      "learning_rate": 0.00020396068494168995,
      "loss": 3.7672,
      "step": 185010
    },
    {
      "epoch": 0.38545833333333335,
      "grad_norm": 0.8632137775421143,
      "learning_rate": 0.00020395148626751403,
      "loss": 3.7546,
      "step": 185020
    },
    {
      "epoch": 0.38547916666666665,
      "grad_norm": 0.7273595929145813,
      "learning_rate": 0.0002039422873602891,
      "loss": 4.0229,
      "step": 185030
    },
    {
      "epoch": 0.3855,
      "grad_norm": 0.8571352362632751,
      "learning_rate": 0.00020393308822005485,
      "loss": 3.9354,
      "step": 185040
    },
    {
      "epoch": 0.3855208333333333,
      "grad_norm": 0.7326648831367493,
      "learning_rate": 0.00020392388884685097,
      "loss": 3.8696,
      "step": 185050
    },
    {
      "epoch": 0.38554166666666667,
      "grad_norm": 0.8329343795776367,
      "learning_rate": 0.0002039146892407173,
      "loss": 3.8903,
      "step": 185060
    },
    {
      "epoch": 0.3855625,
      "grad_norm": 0.7949770092964172,
      "learning_rate": 0.00020390548940169345,
      "loss": 3.7814,
      "step": 185070
    },
    {
      "epoch": 0.38558333333333333,
      "grad_norm": 0.6909623146057129,
      "learning_rate": 0.00020389628932981926,
      "loss": 3.7707,
      "step": 185080
    },
    {
      "epoch": 0.3856041666666667,
      "grad_norm": 0.7078709006309509,
      "learning_rate": 0.0002038870890251344,
      "loss": 3.9735,
      "step": 185090
    },
    {
      "epoch": 0.385625,
      "grad_norm": 0.857683002948761,
      "learning_rate": 0.00020387788848767868,
      "loss": 3.7632,
      "step": 185100
    },
    {
      "epoch": 0.38564583333333335,
      "grad_norm": 0.7764294147491455,
      "learning_rate": 0.0002038686877174918,
      "loss": 3.9342,
      "step": 185110
    },
    {
      "epoch": 0.38566666666666666,
      "grad_norm": 0.7804339528083801,
      "learning_rate": 0.0002038594867146135,
      "loss": 3.9318,
      "step": 185120
    },
    {
      "epoch": 0.3856875,
      "grad_norm": 0.7464151382446289,
      "learning_rate": 0.0002038502854790835,
      "loss": 3.665,
      "step": 185130
    },
    {
      "epoch": 0.3857083333333333,
      "grad_norm": 0.737450897693634,
      "learning_rate": 0.00020384108401094167,
      "loss": 3.792,
      "step": 185140
    },
    {
      "epoch": 0.3857291666666667,
      "grad_norm": 0.7810535430908203,
      "learning_rate": 0.0002038318823102276,
      "loss": 4.0465,
      "step": 185150
    },
    {
      "epoch": 0.38575,
      "grad_norm": 0.7948051691055298,
      "learning_rate": 0.00020382268037698111,
      "loss": 3.949,
      "step": 185160
    },
    {
      "epoch": 0.38577083333333334,
      "grad_norm": 0.7217899560928345,
      "learning_rate": 0.00020381347821124202,
      "loss": 3.8479,
      "step": 185170
    },
    {
      "epoch": 0.38579166666666664,
      "grad_norm": 0.7736271619796753,
      "learning_rate": 0.00020380427581304992,
      "loss": 3.8969,
      "step": 185180
    },
    {
      "epoch": 0.3858125,
      "grad_norm": 0.7796666622161865,
      "learning_rate": 0.00020379507318244467,
      "loss": 3.9967,
      "step": 185190
    },
    {
      "epoch": 0.3858333333333333,
      "grad_norm": 0.7979621291160583,
      "learning_rate": 0.00020378587031946602,
      "loss": 3.9442,
      "step": 185200
    },
    {
      "epoch": 0.38585416666666666,
      "grad_norm": 0.8244317770004272,
      "learning_rate": 0.0002037766672241537,
      "loss": 3.7465,
      "step": 185210
    },
    {
      "epoch": 0.385875,
      "grad_norm": 0.7480159401893616,
      "learning_rate": 0.0002037674638965474,
      "loss": 3.9706,
      "step": 185220
    },
    {
      "epoch": 0.3858958333333333,
      "grad_norm": 0.7362226247787476,
      "learning_rate": 0.000203758260336687,
      "loss": 3.9718,
      "step": 185230
    },
    {
      "epoch": 0.3859166666666667,
      "grad_norm": 0.8704776167869568,
      "learning_rate": 0.00020374905654461218,
      "loss": 4.0418,
      "step": 185240
    },
    {
      "epoch": 0.3859375,
      "grad_norm": 0.8292331695556641,
      "learning_rate": 0.0002037398525203627,
      "loss": 3.9363,
      "step": 185250
    },
    {
      "epoch": 0.38595833333333335,
      "grad_norm": 0.8045403957366943,
      "learning_rate": 0.00020373064826397836,
      "loss": 3.8547,
      "step": 185260
    },
    {
      "epoch": 0.38597916666666665,
      "grad_norm": 0.7404030561447144,
      "learning_rate": 0.00020372144377549885,
      "loss": 3.7855,
      "step": 185270
    },
    {
      "epoch": 0.386,
      "grad_norm": 0.7182057499885559,
      "learning_rate": 0.000203712239054964,
      "loss": 3.8643,
      "step": 185280
    },
    {
      "epoch": 0.3860208333333333,
      "grad_norm": 0.809219479560852,
      "learning_rate": 0.0002037030341024135,
      "loss": 3.9698,
      "step": 185290
    },
    {
      "epoch": 0.38604166666666667,
      "grad_norm": 0.7046252489089966,
      "learning_rate": 0.00020369382891788717,
      "loss": 3.8806,
      "step": 185300
    },
    {
      "epoch": 0.3860625,
      "grad_norm": 0.8098703026771545,
      "learning_rate": 0.0002036846235014248,
      "loss": 3.8951,
      "step": 185310
    },
    {
      "epoch": 0.38608333333333333,
      "grad_norm": 0.7022702097892761,
      "learning_rate": 0.000203675417853066,
      "loss": 3.813,
      "step": 185320
    },
    {
      "epoch": 0.3861041666666667,
      "grad_norm": 0.7507396340370178,
      "learning_rate": 0.0002036662119728507,
      "loss": 3.9866,
      "step": 185330
    },
    {
      "epoch": 0.386125,
      "grad_norm": 0.7120214700698853,
      "learning_rate": 0.00020365700586081869,
      "loss": 3.8938,
      "step": 185340
    },
    {
      "epoch": 0.38614583333333335,
      "grad_norm": 0.7614344358444214,
      "learning_rate": 0.0002036477995170095,
      "loss": 3.9766,
      "step": 185350
    },
    {
      "epoch": 0.38616666666666666,
      "grad_norm": 0.6917430758476257,
      "learning_rate": 0.00020363859294146312,
      "loss": 3.8242,
      "step": 185360
    },
    {
      "epoch": 0.3861875,
      "grad_norm": 0.7087938189506531,
      "learning_rate": 0.0002036293861342193,
      "loss": 3.7987,
      "step": 185370
    },
    {
      "epoch": 0.3862083333333333,
      "grad_norm": 0.7772992253303528,
      "learning_rate": 0.00020362017909531768,
      "loss": 3.9352,
      "step": 185380
    },
    {
      "epoch": 0.3862291666666667,
      "grad_norm": 0.701147198677063,
      "learning_rate": 0.00020361097182479814,
      "loss": 3.7233,
      "step": 185390
    },
    {
      "epoch": 0.38625,
      "grad_norm": 1.038955807685852,
      "learning_rate": 0.00020360176432270043,
      "loss": 3.9291,
      "step": 185400
    },
    {
      "epoch": 0.38627083333333334,
      "grad_norm": 0.9873120784759521,
      "learning_rate": 0.00020359255658906433,
      "loss": 3.817,
      "step": 185410
    },
    {
      "epoch": 0.38629166666666664,
      "grad_norm": 0.6724789142608643,
      "learning_rate": 0.00020358334862392955,
      "loss": 3.7953,
      "step": 185420
    },
    {
      "epoch": 0.3863125,
      "grad_norm": 0.6837841868400574,
      "learning_rate": 0.00020357414042733595,
      "loss": 3.9712,
      "step": 185430
    },
    {
      "epoch": 0.3863333333333333,
      "grad_norm": 0.8929346799850464,
      "learning_rate": 0.00020356493199932328,
      "loss": 3.903,
      "step": 185440
    },
    {
      "epoch": 0.38635416666666667,
      "grad_norm": 0.7369946241378784,
      "learning_rate": 0.00020355572333993129,
      "loss": 3.746,
      "step": 185450
    },
    {
      "epoch": 0.386375,
      "grad_norm": 0.7942480444908142,
      "learning_rate": 0.00020354651444919977,
      "loss": 3.8833,
      "step": 185460
    },
    {
      "epoch": 0.3863958333333333,
      "grad_norm": 0.6919618248939514,
      "learning_rate": 0.00020353730532716852,
      "loss": 4.0501,
      "step": 185470
    },
    {
      "epoch": 0.3864166666666667,
      "grad_norm": 0.7949250340461731,
      "learning_rate": 0.00020352809597387728,
      "loss": 3.9492,
      "step": 185480
    },
    {
      "epoch": 0.3864375,
      "grad_norm": 0.885734498500824,
      "learning_rate": 0.00020351888638936585,
      "loss": 3.7898,
      "step": 185490
    },
    {
      "epoch": 0.38645833333333335,
      "grad_norm": 0.6806196570396423,
      "learning_rate": 0.00020350967657367403,
      "loss": 3.9484,
      "step": 185500
    },
    {
      "epoch": 0.38647916666666665,
      "grad_norm": 0.7574902772903442,
      "learning_rate": 0.0002035004665268416,
      "loss": 3.9255,
      "step": 185510
    },
    {
      "epoch": 0.3865,
      "grad_norm": 0.8233001232147217,
      "learning_rate": 0.00020349125624890833,
      "loss": 3.7258,
      "step": 185520
    },
    {
      "epoch": 0.3865208333333333,
      "grad_norm": 0.822024405002594,
      "learning_rate": 0.00020348204573991395,
      "loss": 4.0151,
      "step": 185530
    },
    {
      "epoch": 0.3865416666666667,
      "grad_norm": 0.7795882225036621,
      "learning_rate": 0.0002034728349998984,
      "loss": 3.8819,
      "step": 185540
    },
    {
      "epoch": 0.3865625,
      "grad_norm": 0.7401202917098999,
      "learning_rate": 0.00020346362402890125,
      "loss": 3.8136,
      "step": 185550
    },
    {
      "epoch": 0.38658333333333333,
      "grad_norm": 0.7891374826431274,
      "learning_rate": 0.0002034544128269625,
      "loss": 3.9533,
      "step": 185560
    },
    {
      "epoch": 0.3866041666666667,
      "grad_norm": 0.6599395275115967,
      "learning_rate": 0.00020344520139412183,
      "loss": 3.8866,
      "step": 185570
    },
    {
      "epoch": 0.386625,
      "grad_norm": 0.9401381015777588,
      "learning_rate": 0.00020343598973041906,
      "loss": 3.9342,
      "step": 185580
    },
    {
      "epoch": 0.38664583333333336,
      "grad_norm": 0.8507123589515686,
      "learning_rate": 0.0002034267778358939,
      "loss": 3.988,
      "step": 185590
    },
    {
      "epoch": 0.38666666666666666,
      "grad_norm": 0.77707439661026,
      "learning_rate": 0.00020341756571058624,
      "loss": 3.8253,
      "step": 185600
    },
    {
      "epoch": 0.3866875,
      "grad_norm": 0.7471888661384583,
      "learning_rate": 0.00020340835335453585,
      "loss": 3.8517,
      "step": 185610
    },
    {
      "epoch": 0.3867083333333333,
      "grad_norm": 0.7735704183578491,
      "learning_rate": 0.00020339914076778252,
      "loss": 3.9348,
      "step": 185620
    },
    {
      "epoch": 0.3867291666666667,
      "grad_norm": 0.8309678435325623,
      "learning_rate": 0.00020338992795036604,
      "loss": 3.9469,
      "step": 185630
    },
    {
      "epoch": 0.38675,
      "grad_norm": 0.8764657378196716,
      "learning_rate": 0.00020338071490232616,
      "loss": 3.8668,
      "step": 185640
    },
    {
      "epoch": 0.38677083333333334,
      "grad_norm": 0.9198101758956909,
      "learning_rate": 0.00020337150162370274,
      "loss": 3.8966,
      "step": 185650
    },
    {
      "epoch": 0.38679166666666664,
      "grad_norm": 0.698399543762207,
      "learning_rate": 0.0002033622881145356,
      "loss": 3.9064,
      "step": 185660
    },
    {
      "epoch": 0.3868125,
      "grad_norm": 0.753882884979248,
      "learning_rate": 0.00020335307437486445,
      "loss": 3.9499,
      "step": 185670
    },
    {
      "epoch": 0.3868333333333333,
      "grad_norm": 0.6788793802261353,
      "learning_rate": 0.0002033438604047292,
      "loss": 3.6605,
      "step": 185680
    },
    {
      "epoch": 0.38685416666666667,
      "grad_norm": 0.9630357623100281,
      "learning_rate": 0.0002033346462041695,
      "loss": 3.957,
      "step": 185690
    },
    {
      "epoch": 0.386875,
      "grad_norm": 0.7593013048171997,
      "learning_rate": 0.00020332543177322532,
      "loss": 3.8488,
      "step": 185700
    },
    {
      "epoch": 0.3868958333333333,
      "grad_norm": 0.7991886734962463,
      "learning_rate": 0.00020331621711193633,
      "loss": 3.745,
      "step": 185710
    },
    {
      "epoch": 0.3869166666666667,
      "grad_norm": 0.7604977488517761,
      "learning_rate": 0.0002033070022203424,
      "loss": 3.6593,
      "step": 185720
    },
    {
      "epoch": 0.3869375,
      "grad_norm": 0.7004989981651306,
      "learning_rate": 0.0002032977870984833,
      "loss": 3.9313,
      "step": 185730
    },
    {
      "epoch": 0.38695833333333335,
      "grad_norm": 0.7587642669677734,
      "learning_rate": 0.00020328857174639893,
      "loss": 3.8757,
      "step": 185740
    },
    {
      "epoch": 0.38697916666666665,
      "grad_norm": 0.8213560581207275,
      "learning_rate": 0.00020327935616412893,
      "loss": 3.6697,
      "step": 185750
    },
    {
      "epoch": 0.387,
      "grad_norm": 0.9484999775886536,
      "learning_rate": 0.0002032701403517133,
      "loss": 3.8882,
      "step": 185760
    },
    {
      "epoch": 0.3870208333333333,
      "grad_norm": 0.7926416397094727,
      "learning_rate": 0.00020326092430919166,
      "loss": 3.7719,
      "step": 185770
    },
    {
      "epoch": 0.3870416666666667,
      "grad_norm": 0.6661025285720825,
      "learning_rate": 0.00020325170803660393,
      "loss": 3.8024,
      "step": 185780
    },
    {
      "epoch": 0.3870625,
      "grad_norm": 0.722271740436554,
      "learning_rate": 0.00020324249153398993,
      "loss": 3.8197,
      "step": 185790
    },
    {
      "epoch": 0.38708333333333333,
      "grad_norm": 0.6863305568695068,
      "learning_rate": 0.00020323327480138942,
      "loss": 3.9059,
      "step": 185800
    },
    {
      "epoch": 0.3871041666666667,
      "grad_norm": 0.8599027991294861,
      "learning_rate": 0.00020322405783884225,
      "loss": 3.9481,
      "step": 185810
    },
    {
      "epoch": 0.387125,
      "grad_norm": 0.8106309175491333,
      "learning_rate": 0.00020321484064638818,
      "loss": 3.8671,
      "step": 185820
    },
    {
      "epoch": 0.38714583333333336,
      "grad_norm": 0.7713215947151184,
      "learning_rate": 0.0002032056232240671,
      "loss": 4.0209,
      "step": 185830
    },
    {
      "epoch": 0.38716666666666666,
      "grad_norm": 0.7976604700088501,
      "learning_rate": 0.00020319640557191877,
      "loss": 3.5931,
      "step": 185840
    },
    {
      "epoch": 0.3871875,
      "grad_norm": 0.7829596996307373,
      "learning_rate": 0.000203187187689983,
      "loss": 3.7477,
      "step": 185850
    },
    {
      "epoch": 0.3872083333333333,
      "grad_norm": 0.8006004691123962,
      "learning_rate": 0.00020317796957829967,
      "loss": 3.7701,
      "step": 185860
    },
    {
      "epoch": 0.3872291666666667,
      "grad_norm": 0.7918956875801086,
      "learning_rate": 0.00020316875123690858,
      "loss": 3.8873,
      "step": 185870
    },
    {
      "epoch": 0.38725,
      "grad_norm": 0.8108767867088318,
      "learning_rate": 0.00020315953266584948,
      "loss": 3.9555,
      "step": 185880
    },
    {
      "epoch": 0.38727083333333334,
      "grad_norm": 0.8003575205802917,
      "learning_rate": 0.00020315031386516227,
      "loss": 3.9382,
      "step": 185890
    },
    {
      "epoch": 0.38729166666666665,
      "grad_norm": 0.8235945105552673,
      "learning_rate": 0.00020314109483488677,
      "loss": 3.9115,
      "step": 185900
    },
    {
      "epoch": 0.3873125,
      "grad_norm": 0.6842561960220337,
      "learning_rate": 0.00020313187557506276,
      "loss": 3.7281,
      "step": 185910
    },
    {
      "epoch": 0.3873333333333333,
      "grad_norm": 0.7361241579055786,
      "learning_rate": 0.00020312265608573,
      "loss": 3.8541,
      "step": 185920
    },
    {
      "epoch": 0.38735416666666667,
      "grad_norm": 1.033736228942871,
      "learning_rate": 0.0002031134363669285,
      "loss": 3.8869,
      "step": 185930
    },
    {
      "epoch": 0.387375,
      "grad_norm": 0.8184711933135986,
      "learning_rate": 0.00020310421641869792,
      "loss": 3.7523,
      "step": 185940
    },
    {
      "epoch": 0.38739583333333333,
      "grad_norm": 0.6979275345802307,
      "learning_rate": 0.00020309499624107812,
      "loss": 3.8461,
      "step": 185950
    },
    {
      "epoch": 0.3874166666666667,
      "grad_norm": 0.8761763572692871,
      "learning_rate": 0.00020308577583410905,
      "loss": 3.8212,
      "step": 185960
    },
    {
      "epoch": 0.3874375,
      "grad_norm": 0.6751614809036255,
      "learning_rate": 0.00020307655519783034,
      "loss": 3.7783,
      "step": 185970
    },
    {
      "epoch": 0.38745833333333335,
      "grad_norm": 0.6980342268943787,
      "learning_rate": 0.00020306733433228196,
      "loss": 3.691,
      "step": 185980
    },
    {
      "epoch": 0.38747916666666665,
      "grad_norm": 1.0428825616836548,
      "learning_rate": 0.00020305811323750373,
      "loss": 3.7468,
      "step": 185990
    },
    {
      "epoch": 0.3875,
      "grad_norm": 0.7641571760177612,
      "learning_rate": 0.0002030488919135354,
      "loss": 3.6499,
      "step": 186000
    },
    {
      "epoch": 0.3875,
      "eval_loss": 4.1672186851501465,
      "eval_runtime": 11.1627,
      "eval_samples_per_second": 0.896,
      "eval_steps_per_second": 0.269,
      "step": 186000
    },
    {
      "epoch": 0.3875208333333333,
      "grad_norm": 0.7474573850631714,
      "learning_rate": 0.0002030396703604169,
      "loss": 3.6926,
      "step": 186010
    },
    {
      "epoch": 0.3875416666666667,
      "grad_norm": 0.7229782938957214,
      "learning_rate": 0.000203030448578188,
      "loss": 3.8589,
      "step": 186020
    },
    {
      "epoch": 0.3875625,
      "grad_norm": 0.6948051452636719,
      "learning_rate": 0.00020302122656688858,
      "loss": 3.8049,
      "step": 186030
    },
    {
      "epoch": 0.38758333333333334,
      "grad_norm": 0.8276007771492004,
      "learning_rate": 0.00020301200432655843,
      "loss": 3.8058,
      "step": 186040
    },
    {
      "epoch": 0.3876041666666667,
      "grad_norm": 0.943095862865448,
      "learning_rate": 0.00020300278185723738,
      "loss": 3.9461,
      "step": 186050
    },
    {
      "epoch": 0.387625,
      "grad_norm": 0.7068561911582947,
      "learning_rate": 0.0002029935591589653,
      "loss": 3.6642,
      "step": 186060
    },
    {
      "epoch": 0.38764583333333336,
      "grad_norm": 0.8551464676856995,
      "learning_rate": 0.00020298433623178205,
      "loss": 3.8281,
      "step": 186070
    },
    {
      "epoch": 0.38766666666666666,
      "grad_norm": 0.7546170353889465,
      "learning_rate": 0.00020297511307572743,
      "loss": 3.8148,
      "step": 186080
    },
    {
      "epoch": 0.3876875,
      "grad_norm": 0.7594446539878845,
      "learning_rate": 0.00020296588969084126,
      "loss": 3.7939,
      "step": 186090
    },
    {
      "epoch": 0.3877083333333333,
      "grad_norm": 0.8749465942382812,
      "learning_rate": 0.0002029566660771634,
      "loss": 3.6648,
      "step": 186100
    },
    {
      "epoch": 0.3877291666666667,
      "grad_norm": 0.7332690954208374,
      "learning_rate": 0.00020294744223473376,
      "loss": 3.7348,
      "step": 186110
    },
    {
      "epoch": 0.38775,
      "grad_norm": 0.7263673543930054,
      "learning_rate": 0.00020293821816359206,
      "loss": 3.8248,
      "step": 186120
    },
    {
      "epoch": 0.38777083333333334,
      "grad_norm": 0.7366303205490112,
      "learning_rate": 0.0002029289938637783,
      "loss": 3.9341,
      "step": 186130
    },
    {
      "epoch": 0.38779166666666665,
      "grad_norm": 0.8264275193214417,
      "learning_rate": 0.00020291976933533218,
      "loss": 3.7542,
      "step": 186140
    },
    {
      "epoch": 0.3878125,
      "grad_norm": 0.7784681916236877,
      "learning_rate": 0.0002029105445782936,
      "loss": 3.7085,
      "step": 186150
    },
    {
      "epoch": 0.3878333333333333,
      "grad_norm": 0.9031888246536255,
      "learning_rate": 0.00020290131959270247,
      "loss": 3.8002,
      "step": 186160
    },
    {
      "epoch": 0.38785416666666667,
      "grad_norm": 0.8341600298881531,
      "learning_rate": 0.0002028920943785985,
      "loss": 3.9896,
      "step": 186170
    },
    {
      "epoch": 0.387875,
      "grad_norm": 0.893777072429657,
      "learning_rate": 0.00020288286893602167,
      "loss": 3.9744,
      "step": 186180
    },
    {
      "epoch": 0.38789583333333333,
      "grad_norm": 0.7585930824279785,
      "learning_rate": 0.00020287364326501177,
      "loss": 3.8297,
      "step": 186190
    },
    {
      "epoch": 0.3879166666666667,
      "grad_norm": 0.8221830725669861,
      "learning_rate": 0.00020286441736560865,
      "loss": 3.8697,
      "step": 186200
    },
    {
      "epoch": 0.3879375,
      "grad_norm": 0.8273375630378723,
      "learning_rate": 0.0002028551912378522,
      "loss": 3.8035,
      "step": 186210
    },
    {
      "epoch": 0.38795833333333335,
      "grad_norm": 0.7908914089202881,
      "learning_rate": 0.0002028459648817822,
      "loss": 3.841,
      "step": 186220
    },
    {
      "epoch": 0.38797916666666665,
      "grad_norm": 0.8441260457038879,
      "learning_rate": 0.00020283673829743856,
      "loss": 3.8324,
      "step": 186230
    },
    {
      "epoch": 0.388,
      "grad_norm": 0.7254923582077026,
      "learning_rate": 0.00020282751148486118,
      "loss": 3.675,
      "step": 186240
    },
    {
      "epoch": 0.3880208333333333,
      "grad_norm": 0.6956819295883179,
      "learning_rate": 0.00020281828444408976,
      "loss": 3.7554,
      "step": 186250
    },
    {
      "epoch": 0.3880416666666667,
      "grad_norm": 0.8219417929649353,
      "learning_rate": 0.00020280905717516432,
      "loss": 4.058,
      "step": 186260
    },
    {
      "epoch": 0.3880625,
      "grad_norm": 0.7446237206459045,
      "learning_rate": 0.00020279982967812469,
      "loss": 3.9102,
      "step": 186270
    },
    {
      "epoch": 0.38808333333333334,
      "grad_norm": 0.7747615575790405,
      "learning_rate": 0.00020279060195301063,
      "loss": 3.9478,
      "step": 186280
    },
    {
      "epoch": 0.38810416666666664,
      "grad_norm": 0.811244785785675,
      "learning_rate": 0.00020278137399986205,
      "loss": 3.7971,
      "step": 186290
    },
    {
      "epoch": 0.388125,
      "grad_norm": 0.7598944902420044,
      "learning_rate": 0.0002027721458187189,
      "loss": 3.6939,
      "step": 186300
    },
    {
      "epoch": 0.38814583333333336,
      "grad_norm": 0.824256181716919,
      "learning_rate": 0.00020276291740962095,
      "loss": 3.8661,
      "step": 186310
    },
    {
      "epoch": 0.38816666666666666,
      "grad_norm": 0.7422463893890381,
      "learning_rate": 0.00020275368877260803,
      "loss": 3.7941,
      "step": 186320
    },
    {
      "epoch": 0.3881875,
      "grad_norm": 0.7506173849105835,
      "learning_rate": 0.00020274445990772012,
      "loss": 3.6961,
      "step": 186330
    },
    {
      "epoch": 0.3882083333333333,
      "grad_norm": 1.1921123266220093,
      "learning_rate": 0.00020273523081499703,
      "loss": 3.9674,
      "step": 186340
    },
    {
      "epoch": 0.3882291666666667,
      "grad_norm": 0.7301670908927917,
      "learning_rate": 0.00020272600149447856,
      "loss": 3.7974,
      "step": 186350
    },
    {
      "epoch": 0.38825,
      "grad_norm": 1.026472568511963,
      "learning_rate": 0.00020271677194620463,
      "loss": 4.0198,
      "step": 186360
    },
    {
      "epoch": 0.38827083333333334,
      "grad_norm": 0.78217613697052,
      "learning_rate": 0.00020270754217021519,
      "loss": 3.844,
      "step": 186370
    },
    {
      "epoch": 0.38829166666666665,
      "grad_norm": 0.7472132444381714,
      "learning_rate": 0.00020269831216654998,
      "loss": 3.7649,
      "step": 186380
    },
    {
      "epoch": 0.3883125,
      "grad_norm": 0.7471312284469604,
      "learning_rate": 0.00020268908193524888,
      "loss": 3.8182,
      "step": 186390
    },
    {
      "epoch": 0.3883333333333333,
      "grad_norm": 0.7999638319015503,
      "learning_rate": 0.00020267985147635187,
      "loss": 3.8411,
      "step": 186400
    },
    {
      "epoch": 0.38835416666666667,
      "grad_norm": 0.745969295501709,
      "learning_rate": 0.00020267062078989872,
      "loss": 3.8514,
      "step": 186410
    },
    {
      "epoch": 0.388375,
      "grad_norm": 0.7068589925765991,
      "learning_rate": 0.00020266138987592931,
      "loss": 3.8988,
      "step": 186420
    },
    {
      "epoch": 0.38839583333333333,
      "grad_norm": 0.8025997281074524,
      "learning_rate": 0.0002026521587344836,
      "loss": 3.8603,
      "step": 186430
    },
    {
      "epoch": 0.3884166666666667,
      "grad_norm": 0.7702677845954895,
      "learning_rate": 0.00020264292736560141,
      "loss": 3.8577,
      "step": 186440
    },
    {
      "epoch": 0.3884375,
      "grad_norm": 0.7681719660758972,
      "learning_rate": 0.00020263369576932255,
      "loss": 3.9234,
      "step": 186450
    },
    {
      "epoch": 0.38845833333333335,
      "grad_norm": 0.8400760889053345,
      "learning_rate": 0.00020262446394568698,
      "loss": 3.9071,
      "step": 186460
    },
    {
      "epoch": 0.38847916666666665,
      "grad_norm": 0.7695189118385315,
      "learning_rate": 0.00020261523189473457,
      "loss": 3.7296,
      "step": 186470
    },
    {
      "epoch": 0.3885,
      "grad_norm": 0.7399398684501648,
      "learning_rate": 0.0002026059996165052,
      "loss": 3.9198,
      "step": 186480
    },
    {
      "epoch": 0.3885208333333333,
      "grad_norm": 0.8604875206947327,
      "learning_rate": 0.0002025967671110387,
      "loss": 3.8783,
      "step": 186490
    },
    {
      "epoch": 0.3885416666666667,
      "grad_norm": 0.8615947365760803,
      "learning_rate": 0.000202587534378375,
      "loss": 3.8322,
      "step": 186500
    },
    {
      "epoch": 0.3885625,
      "grad_norm": 0.8062606453895569,
      "learning_rate": 0.00020257830141855396,
      "loss": 3.7296,
      "step": 186510
    },
    {
      "epoch": 0.38858333333333334,
      "grad_norm": 0.7226306200027466,
      "learning_rate": 0.00020256906823161547,
      "loss": 3.7746,
      "step": 186520
    },
    {
      "epoch": 0.38860416666666664,
      "grad_norm": 0.7899895310401917,
      "learning_rate": 0.00020255983481759943,
      "loss": 3.8628,
      "step": 186530
    },
    {
      "epoch": 0.388625,
      "grad_norm": 0.7723438739776611,
      "learning_rate": 0.0002025506011765457,
      "loss": 3.92,
      "step": 186540
    },
    {
      "epoch": 0.38864583333333336,
      "grad_norm": 0.7706539034843445,
      "learning_rate": 0.00020254136730849415,
      "loss": 3.9923,
      "step": 186550
    },
    {
      "epoch": 0.38866666666666666,
      "grad_norm": 0.8044964075088501,
      "learning_rate": 0.0002025321332134847,
      "loss": 3.8534,
      "step": 186560
    },
    {
      "epoch": 0.3886875,
      "grad_norm": 0.9321433305740356,
      "learning_rate": 0.00020252289889155725,
      "loss": 4.0105,
      "step": 186570
    },
    {
      "epoch": 0.3887083333333333,
      "grad_norm": 0.7682662010192871,
      "learning_rate": 0.00020251366434275169,
      "loss": 3.7252,
      "step": 186580
    },
    {
      "epoch": 0.3887291666666667,
      "grad_norm": 1.016897201538086,
      "learning_rate": 0.00020250442956710785,
      "loss": 3.7671,
      "step": 186590
    },
    {
      "epoch": 0.38875,
      "grad_norm": 0.7544580101966858,
      "learning_rate": 0.00020249519456466564,
      "loss": 3.8694,
      "step": 186600
    },
    {
      "epoch": 0.38877083333333334,
      "grad_norm": 0.9721310138702393,
      "learning_rate": 0.00020248595933546504,
      "loss": 3.7379,
      "step": 186610
    },
    {
      "epoch": 0.38879166666666665,
      "grad_norm": 0.6595035195350647,
      "learning_rate": 0.00020247672387954573,
      "loss": 3.8252,
      "step": 186620
    },
    {
      "epoch": 0.3888125,
      "grad_norm": 0.786172091960907,
      "learning_rate": 0.0002024674881969479,
      "loss": 3.9559,
      "step": 186630
    },
    {
      "epoch": 0.3888333333333333,
      "grad_norm": 0.7585811018943787,
      "learning_rate": 0.0002024582522877112,
      "loss": 3.9707,
      "step": 186640
    },
    {
      "epoch": 0.38885416666666667,
      "grad_norm": 0.8142117857933044,
      "learning_rate": 0.00020244901615187563,
      "loss": 3.7907,
      "step": 186650
    },
    {
      "epoch": 0.388875,
      "grad_norm": 0.7496047616004944,
      "learning_rate": 0.00020243977978948112,
      "loss": 3.8326,
      "step": 186660
    },
    {
      "epoch": 0.38889583333333333,
      "grad_norm": 0.9112472534179688,
      "learning_rate": 0.00020243054320056745,
      "loss": 3.7231,
      "step": 186670
    },
    {
      "epoch": 0.3889166666666667,
      "grad_norm": 0.7875626087188721,
      "learning_rate": 0.0002024213063851746,
      "loss": 3.8254,
      "step": 186680
    },
    {
      "epoch": 0.3889375,
      "grad_norm": 0.8431832790374756,
      "learning_rate": 0.0002024120693433425,
      "loss": 3.8013,
      "step": 186690
    },
    {
      "epoch": 0.38895833333333335,
      "grad_norm": 0.6606187224388123,
      "learning_rate": 0.00020240283207511098,
      "loss": 3.8498,
      "step": 186700
    },
    {
      "epoch": 0.38897916666666665,
      "grad_norm": 0.924117386341095,
      "learning_rate": 0.00020239359458051995,
      "loss": 3.6236,
      "step": 186710
    },
    {
      "epoch": 0.389,
      "grad_norm": 0.8410714864730835,
      "learning_rate": 0.00020238435685960933,
      "loss": 3.6813,
      "step": 186720
    },
    {
      "epoch": 0.3890208333333333,
      "grad_norm": 0.9046039581298828,
      "learning_rate": 0.00020237511891241905,
      "loss": 3.7738,
      "step": 186730
    },
    {
      "epoch": 0.3890416666666667,
      "grad_norm": 0.8421434164047241,
      "learning_rate": 0.000202365880738989,
      "loss": 3.6935,
      "step": 186740
    },
    {
      "epoch": 0.3890625,
      "grad_norm": 0.7967758774757385,
      "learning_rate": 0.00020235664233935903,
      "loss": 3.9494,
      "step": 186750
    },
    {
      "epoch": 0.38908333333333334,
      "grad_norm": 0.750561535358429,
      "learning_rate": 0.0002023474037135691,
      "loss": 3.9589,
      "step": 186760
    },
    {
      "epoch": 0.38910416666666664,
      "grad_norm": 0.7968310713768005,
      "learning_rate": 0.00020233816486165911,
      "loss": 3.7318,
      "step": 186770
    },
    {
      "epoch": 0.389125,
      "grad_norm": 0.8812137246131897,
      "learning_rate": 0.00020232892578366898,
      "loss": 3.9952,
      "step": 186780
    },
    {
      "epoch": 0.38914583333333336,
      "grad_norm": 1.2035351991653442,
      "learning_rate": 0.00020231968647963858,
      "loss": 3.8496,
      "step": 186790
    },
    {
      "epoch": 0.38916666666666666,
      "grad_norm": 0.8258105516433716,
      "learning_rate": 0.00020231044694960786,
      "loss": 3.9148,
      "step": 186800
    },
    {
      "epoch": 0.3891875,
      "grad_norm": 0.9098774194717407,
      "learning_rate": 0.00020230120719361676,
      "loss": 3.8669,
      "step": 186810
    },
    {
      "epoch": 0.3892083333333333,
      "grad_norm": 0.8965579271316528,
      "learning_rate": 0.00020229196721170505,
      "loss": 4.028,
      "step": 186820
    },
    {
      "epoch": 0.3892291666666667,
      "grad_norm": 0.7965260744094849,
      "learning_rate": 0.0002022827270039128,
      "loss": 3.7373,
      "step": 186830
    },
    {
      "epoch": 0.38925,
      "grad_norm": 0.7620400786399841,
      "learning_rate": 0.00020227348657027988,
      "loss": 3.8379,
      "step": 186840
    },
    {
      "epoch": 0.38927083333333334,
      "grad_norm": 0.954008936882019,
      "learning_rate": 0.00020226424591084614,
      "loss": 3.6863,
      "step": 186850
    },
    {
      "epoch": 0.38929166666666665,
      "grad_norm": 0.7284470200538635,
      "learning_rate": 0.0002022550050256516,
      "loss": 3.8964,
      "step": 186860
    },
    {
      "epoch": 0.3893125,
      "grad_norm": 0.7424871325492859,
      "learning_rate": 0.00020224576391473606,
      "loss": 3.9272,
      "step": 186870
    },
    {
      "epoch": 0.3893333333333333,
      "grad_norm": 0.9201632142066956,
      "learning_rate": 0.0002022365225781395,
      "loss": 3.7738,
      "step": 186880
    },
    {
      "epoch": 0.38935416666666667,
      "grad_norm": 0.7234595417976379,
      "learning_rate": 0.0002022272810159019,
      "loss": 3.7616,
      "step": 186890
    },
    {
      "epoch": 0.389375,
      "grad_norm": 0.8945226669311523,
      "learning_rate": 0.00020221803922806307,
      "loss": 4.0631,
      "step": 186900
    },
    {
      "epoch": 0.38939583333333333,
      "grad_norm": 0.8125472664833069,
      "learning_rate": 0.00020220879721466304,
      "loss": 3.9018,
      "step": 186910
    },
    {
      "epoch": 0.3894166666666667,
      "grad_norm": 0.8126290440559387,
      "learning_rate": 0.00020219955497574162,
      "loss": 3.7894,
      "step": 186920
    },
    {
      "epoch": 0.3894375,
      "grad_norm": 0.7310751080513,
      "learning_rate": 0.00020219031251133876,
      "loss": 3.8377,
      "step": 186930
    },
    {
      "epoch": 0.38945833333333335,
      "grad_norm": 0.8008160591125488,
      "learning_rate": 0.0002021810698214945,
      "loss": 3.8639,
      "step": 186940
    },
    {
      "epoch": 0.38947916666666665,
      "grad_norm": 0.7216527462005615,
      "learning_rate": 0.00020217182690624862,
      "loss": 3.7601,
      "step": 186950
    },
    {
      "epoch": 0.3895,
      "grad_norm": 0.7469456195831299,
      "learning_rate": 0.00020216258376564109,
      "loss": 3.7419,
      "step": 186960
    },
    {
      "epoch": 0.3895208333333333,
      "grad_norm": 0.8417870402336121,
      "learning_rate": 0.00020215334039971184,
      "loss": 3.8748,
      "step": 186970
    },
    {
      "epoch": 0.3895416666666667,
      "grad_norm": 0.8228142261505127,
      "learning_rate": 0.0002021440968085008,
      "loss": 3.7923,
      "step": 186980
    },
    {
      "epoch": 0.3895625,
      "grad_norm": 0.6601389646530151,
      "learning_rate": 0.0002021348529920479,
      "loss": 3.8887,
      "step": 186990
    },
    {
      "epoch": 0.38958333333333334,
      "grad_norm": 0.7152603268623352,
      "learning_rate": 0.00020212560895039312,
      "loss": 3.88,
      "step": 187000
    },
    {
      "epoch": 0.38958333333333334,
      "eval_loss": 4.167698860168457,
      "eval_runtime": 11.1556,
      "eval_samples_per_second": 0.896,
      "eval_steps_per_second": 0.269,
      "step": 187000
    },
    {
      "epoch": 0.38960416666666664,
      "grad_norm": 0.6989957690238953,
      "learning_rate": 0.00020211636468357632,
      "loss": 3.8481,
      "step": 187010
    },
    {
      "epoch": 0.389625,
      "grad_norm": 0.8918426036834717,
      "learning_rate": 0.00020210712019163744,
      "loss": 3.8102,
      "step": 187020
    },
    {
      "epoch": 0.38964583333333336,
      "grad_norm": 0.8197790384292603,
      "learning_rate": 0.00020209787547461643,
      "loss": 3.7589,
      "step": 187030
    },
    {
      "epoch": 0.38966666666666666,
      "grad_norm": 0.7091810703277588,
      "learning_rate": 0.0002020886305325532,
      "loss": 3.5767,
      "step": 187040
    },
    {
      "epoch": 0.3896875,
      "grad_norm": 0.7041683793067932,
      "learning_rate": 0.00020207938536548773,
      "loss": 3.8957,
      "step": 187050
    },
    {
      "epoch": 0.3897083333333333,
      "grad_norm": 0.7498518824577332,
      "learning_rate": 0.00020207013997345993,
      "loss": 3.766,
      "step": 187060
    },
    {
      "epoch": 0.3897291666666667,
      "grad_norm": 0.7540250420570374,
      "learning_rate": 0.00020206089435650972,
      "loss": 3.7538,
      "step": 187070
    },
    {
      "epoch": 0.38975,
      "grad_norm": 0.76317298412323,
      "learning_rate": 0.00020205164851467707,
      "loss": 3.9591,
      "step": 187080
    },
    {
      "epoch": 0.38977083333333334,
      "grad_norm": 0.9515215158462524,
      "learning_rate": 0.00020204240244800189,
      "loss": 3.8084,
      "step": 187090
    },
    {
      "epoch": 0.38979166666666665,
      "grad_norm": 0.8086849451065063,
      "learning_rate": 0.0002020331561565241,
      "loss": 3.8018,
      "step": 187100
    },
    {
      "epoch": 0.3898125,
      "grad_norm": 0.7650727033615112,
      "learning_rate": 0.00020202390964028377,
      "loss": 3.7933,
      "step": 187110
    },
    {
      "epoch": 0.3898333333333333,
      "grad_norm": 0.969868540763855,
      "learning_rate": 0.00020201466289932065,
      "loss": 3.8021,
      "step": 187120
    },
    {
      "epoch": 0.38985416666666667,
      "grad_norm": 0.8955146670341492,
      "learning_rate": 0.0002020054159336748,
      "loss": 3.9191,
      "step": 187130
    },
    {
      "epoch": 0.389875,
      "grad_norm": 0.7241785526275635,
      "learning_rate": 0.00020199616874338615,
      "loss": 3.7692,
      "step": 187140
    },
    {
      "epoch": 0.38989583333333333,
      "grad_norm": 0.9110916256904602,
      "learning_rate": 0.00020198692132849464,
      "loss": 3.954,
      "step": 187150
    },
    {
      "epoch": 0.3899166666666667,
      "grad_norm": 0.760759174823761,
      "learning_rate": 0.00020197767368904018,
      "loss": 3.8284,
      "step": 187160
    },
    {
      "epoch": 0.3899375,
      "grad_norm": 0.6704758405685425,
      "learning_rate": 0.00020196842582506278,
      "loss": 3.8286,
      "step": 187170
    },
    {
      "epoch": 0.38995833333333335,
      "grad_norm": 0.8540830612182617,
      "learning_rate": 0.00020195917773660233,
      "loss": 3.8736,
      "step": 187180
    },
    {
      "epoch": 0.38997916666666665,
      "grad_norm": 0.8301502466201782,
      "learning_rate": 0.00020194992942369874,
      "loss": 3.7664,
      "step": 187190
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8372231125831604,
      "learning_rate": 0.00020194068088639212,
      "loss": 3.821,
      "step": 187200
    },
    {
      "epoch": 0.3900208333333333,
      "grad_norm": 0.7890290021896362,
      "learning_rate": 0.00020193143212472226,
      "loss": 3.8313,
      "step": 187210
    },
    {
      "epoch": 0.3900416666666667,
      "grad_norm": 0.7676745057106018,
      "learning_rate": 0.0002019221831387292,
      "loss": 3.7178,
      "step": 187220
    },
    {
      "epoch": 0.3900625,
      "grad_norm": 0.921495795249939,
      "learning_rate": 0.00020191293392845286,
      "loss": 3.8683,
      "step": 187230
    },
    {
      "epoch": 0.39008333333333334,
      "grad_norm": 0.7826743721961975,
      "learning_rate": 0.00020190368449393315,
      "loss": 3.8292,
      "step": 187240
    },
    {
      "epoch": 0.39010416666666664,
      "grad_norm": 0.80544513463974,
      "learning_rate": 0.0002018944348352101,
      "loss": 3.9782,
      "step": 187250
    },
    {
      "epoch": 0.390125,
      "grad_norm": 0.7564271688461304,
      "learning_rate": 0.00020188518495232362,
      "loss": 3.754,
      "step": 187260
    },
    {
      "epoch": 0.39014583333333336,
      "grad_norm": 0.7004690170288086,
      "learning_rate": 0.0002018759348453137,
      "loss": 3.7023,
      "step": 187270
    },
    {
      "epoch": 0.39016666666666666,
      "grad_norm": 0.7614591717720032,
      "learning_rate": 0.00020186668451422027,
      "loss": 3.7901,
      "step": 187280
    },
    {
      "epoch": 0.3901875,
      "grad_norm": 0.6630182266235352,
      "learning_rate": 0.00020185743395908327,
      "loss": 3.8884,
      "step": 187290
    },
    {
      "epoch": 0.3902083333333333,
      "grad_norm": 0.813753068447113,
      "learning_rate": 0.0002018481831799427,
      "loss": 3.741,
      "step": 187300
    },
    {
      "epoch": 0.3902291666666667,
      "grad_norm": 1.0530427694320679,
      "learning_rate": 0.00020183893217683854,
      "loss": 3.7973,
      "step": 187310
    },
    {
      "epoch": 0.39025,
      "grad_norm": 0.9578317999839783,
      "learning_rate": 0.00020182968094981064,
      "loss": 3.678,
      "step": 187320
    },
    {
      "epoch": 0.39027083333333334,
      "grad_norm": 0.7011755108833313,
      "learning_rate": 0.00020182042949889905,
      "loss": 3.6552,
      "step": 187330
    },
    {
      "epoch": 0.39029166666666665,
      "grad_norm": 1.0583221912384033,
      "learning_rate": 0.00020181117782414377,
      "loss": 3.8555,
      "step": 187340
    },
    {
      "epoch": 0.3903125,
      "grad_norm": 0.7922451496124268,
      "learning_rate": 0.00020180192592558467,
      "loss": 3.7728,
      "step": 187350
    },
    {
      "epoch": 0.3903333333333333,
      "grad_norm": 0.7770780324935913,
      "learning_rate": 0.00020179267380326173,
      "loss": 3.9836,
      "step": 187360
    },
    {
      "epoch": 0.39035416666666667,
      "grad_norm": 0.7175225019454956,
      "learning_rate": 0.000201783421457215,
      "loss": 3.9383,
      "step": 187370
    },
    {
      "epoch": 0.390375,
      "grad_norm": 0.7627639770507812,
      "learning_rate": 0.00020177416888748434,
      "loss": 3.5859,
      "step": 187380
    },
    {
      "epoch": 0.39039583333333333,
      "grad_norm": 0.7959890365600586,
      "learning_rate": 0.00020176491609410978,
      "loss": 3.9211,
      "step": 187390
    },
    {
      "epoch": 0.3904166666666667,
      "grad_norm": 0.8381862044334412,
      "learning_rate": 0.00020175566307713128,
      "loss": 3.8773,
      "step": 187400
    },
    {
      "epoch": 0.3904375,
      "grad_norm": 0.779616117477417,
      "learning_rate": 0.00020174640983658878,
      "loss": 3.8447,
      "step": 187410
    },
    {
      "epoch": 0.39045833333333335,
      "grad_norm": 0.8347191214561462,
      "learning_rate": 0.00020173715637252228,
      "loss": 3.7945,
      "step": 187420
    },
    {
      "epoch": 0.39047916666666665,
      "grad_norm": 0.7778608202934265,
      "learning_rate": 0.00020172790268497176,
      "loss": 3.782,
      "step": 187430
    },
    {
      "epoch": 0.3905,
      "grad_norm": 0.7530525922775269,
      "learning_rate": 0.00020171864877397715,
      "loss": 3.7821,
      "step": 187440
    },
    {
      "epoch": 0.3905208333333333,
      "grad_norm": 0.9548311233520508,
      "learning_rate": 0.00020170939463957848,
      "loss": 3.7438,
      "step": 187450
    },
    {
      "epoch": 0.3905416666666667,
      "grad_norm": 0.8492161631584167,
      "learning_rate": 0.00020170014028181565,
      "loss": 3.801,
      "step": 187460
    },
    {
      "epoch": 0.3905625,
      "grad_norm": 0.8113964200019836,
      "learning_rate": 0.00020169088570072872,
      "loss": 3.7966,
      "step": 187470
    },
    {
      "epoch": 0.39058333333333334,
      "grad_norm": 0.9093465209007263,
      "learning_rate": 0.0002016816308963576,
      "loss": 3.6786,
      "step": 187480
    },
    {
      "epoch": 0.39060416666666664,
      "grad_norm": 0.8197064995765686,
      "learning_rate": 0.0002016723758687423,
      "loss": 3.8275,
      "step": 187490
    },
    {
      "epoch": 0.390625,
      "grad_norm": 0.8176263570785522,
      "learning_rate": 0.00020166312061792278,
      "loss": 3.8837,
      "step": 187500
    },
    {
      "epoch": 0.39064583333333336,
      "grad_norm": 0.7255712151527405,
      "learning_rate": 0.00020165386514393906,
      "loss": 3.7369,
      "step": 187510
    },
    {
      "epoch": 0.39066666666666666,
      "grad_norm": 0.8000866174697876,
      "learning_rate": 0.0002016446094468311,
      "loss": 3.912,
      "step": 187520
    },
    {
      "epoch": 0.3906875,
      "grad_norm": 0.702134370803833,
      "learning_rate": 0.00020163535352663882,
      "loss": 3.7912,
      "step": 187530
    },
    {
      "epoch": 0.3907083333333333,
      "grad_norm": 0.8789812922477722,
      "learning_rate": 0.00020162609738340228,
      "loss": 3.8693,
      "step": 187540
    },
    {
      "epoch": 0.3907291666666667,
      "grad_norm": 0.7274177074432373,
      "learning_rate": 0.00020161684101716138,
      "loss": 4.0321,
      "step": 187550
    },
    {
      "epoch": 0.39075,
      "grad_norm": 0.7169783115386963,
      "learning_rate": 0.00020160758442795625,
      "loss": 3.8015,
      "step": 187560
    },
    {
      "epoch": 0.39077083333333335,
      "grad_norm": 0.6759582757949829,
      "learning_rate": 0.00020159832761582668,
      "loss": 3.8665,
      "step": 187570
    },
    {
      "epoch": 0.39079166666666665,
      "grad_norm": 0.7514581680297852,
      "learning_rate": 0.00020158907058081283,
      "loss": 3.8494,
      "step": 187580
    },
    {
      "epoch": 0.3908125,
      "grad_norm": 0.8283213376998901,
      "learning_rate": 0.0002015798133229546,
      "loss": 3.829,
      "step": 187590
    },
    {
      "epoch": 0.3908333333333333,
      "grad_norm": 0.9924708008766174,
      "learning_rate": 0.000201570555842292,
      "loss": 3.9808,
      "step": 187600
    },
    {
      "epoch": 0.39085416666666667,
      "grad_norm": 0.821854829788208,
      "learning_rate": 0.00020156129813886497,
      "loss": 3.7341,
      "step": 187610
    },
    {
      "epoch": 0.390875,
      "grad_norm": 0.8103502988815308,
      "learning_rate": 0.0002015520402127136,
      "loss": 3.8324,
      "step": 187620
    },
    {
      "epoch": 0.39089583333333333,
      "grad_norm": 0.7780589461326599,
      "learning_rate": 0.00020154278206387777,
      "loss": 3.7813,
      "step": 187630
    },
    {
      "epoch": 0.3909166666666667,
      "grad_norm": 1.0976804494857788,
      "learning_rate": 0.00020153352369239758,
      "loss": 3.8705,
      "step": 187640
    },
    {
      "epoch": 0.3909375,
      "grad_norm": 0.7678709626197815,
      "learning_rate": 0.00020152426509831297,
      "loss": 3.7641,
      "step": 187650
    },
    {
      "epoch": 0.39095833333333335,
      "grad_norm": 0.7989642024040222,
      "learning_rate": 0.00020151500628166384,
      "loss": 3.7635,
      "step": 187660
    },
    {
      "epoch": 0.39097916666666666,
      "grad_norm": 0.7646961212158203,
      "learning_rate": 0.00020150574724249037,
      "loss": 3.8426,
      "step": 187670
    },
    {
      "epoch": 0.391,
      "grad_norm": 0.7336421608924866,
      "learning_rate": 0.00020149648798083243,
      "loss": 3.8944,
      "step": 187680
    },
    {
      "epoch": 0.3910208333333333,
      "grad_norm": 1.177172064781189,
      "learning_rate": 0.00020148722849672995,
      "loss": 3.8232,
      "step": 187690
    },
    {
      "epoch": 0.3910416666666667,
      "grad_norm": 0.8239823579788208,
      "learning_rate": 0.00020147796879022316,
      "loss": 3.9154,
      "step": 187700
    },
    {
      "epoch": 0.3910625,
      "grad_norm": 0.8994254469871521,
      "learning_rate": 0.0002014687088613519,
      "loss": 3.8915,
      "step": 187710
    },
    {
      "epoch": 0.39108333333333334,
      "grad_norm": 0.9262333512306213,
      "learning_rate": 0.00020145944871015613,
      "loss": 3.7888,
      "step": 187720
    },
    {
      "epoch": 0.39110416666666664,
      "grad_norm": 0.7643892765045166,
      "learning_rate": 0.00020145018833667594,
      "loss": 3.8906,
      "step": 187730
    },
    {
      "epoch": 0.391125,
      "grad_norm": 0.8149259090423584,
      "learning_rate": 0.0002014409277409513,
      "loss": 3.7011,
      "step": 187740
    },
    {
      "epoch": 0.39114583333333336,
      "grad_norm": 0.8050640225410461,
      "learning_rate": 0.0002014316669230222,
      "loss": 3.7882,
      "step": 187750
    },
    {
      "epoch": 0.39116666666666666,
      "grad_norm": 0.7160162925720215,
      "learning_rate": 0.00020142240588292865,
      "loss": 3.8659,
      "step": 187760
    },
    {
      "epoch": 0.3911875,
      "grad_norm": 0.8303516507148743,
      "learning_rate": 0.0002014131446207107,
      "loss": 3.6502,
      "step": 187770
    },
    {
      "epoch": 0.3912083333333333,
      "grad_norm": 0.741917073726654,
      "learning_rate": 0.0002014038831364083,
      "loss": 3.8337,
      "step": 187780
    },
    {
      "epoch": 0.3912291666666667,
      "grad_norm": 0.8124635219573975,
      "learning_rate": 0.0002013946214300615,
      "loss": 3.8066,
      "step": 187790
    },
    {
      "epoch": 0.39125,
      "grad_norm": 0.7861316204071045,
      "learning_rate": 0.00020138535950171022,
      "loss": 3.8256,
      "step": 187800
    },
    {
      "epoch": 0.39127083333333335,
      "grad_norm": 0.7583640813827515,
      "learning_rate": 0.00020137609735139457,
      "loss": 3.7802,
      "step": 187810
    },
    {
      "epoch": 0.39129166666666665,
      "grad_norm": 0.8035463690757751,
      "learning_rate": 0.00020136683497915447,
      "loss": 3.8589,
      "step": 187820
    },
    {
      "epoch": 0.3913125,
      "grad_norm": 0.9242996573448181,
      "learning_rate": 0.00020135757238503002,
      "loss": 3.7863,
      "step": 187830
    },
    {
      "epoch": 0.3913333333333333,
      "grad_norm": 0.7500817179679871,
      "learning_rate": 0.0002013483095690612,
      "loss": 3.7961,
      "step": 187840
    },
    {
      "epoch": 0.39135416666666667,
      "grad_norm": 0.7919144630432129,
      "learning_rate": 0.00020133904653128797,
      "loss": 3.7911,
      "step": 187850
    },
    {
      "epoch": 0.391375,
      "grad_norm": 0.7777510285377502,
      "learning_rate": 0.00020132978327175037,
      "loss": 3.7458,
      "step": 187860
    },
    {
      "epoch": 0.39139583333333333,
      "grad_norm": 0.7717010378837585,
      "learning_rate": 0.0002013205197904885,
      "loss": 3.9401,
      "step": 187870
    },
    {
      "epoch": 0.3914166666666667,
      "grad_norm": 0.8247231245040894,
      "learning_rate": 0.0002013112560875422,
      "loss": 3.7115,
      "step": 187880
    },
    {
      "epoch": 0.3914375,
      "grad_norm": 0.785025954246521,
      "learning_rate": 0.0002013019921629516,
      "loss": 3.9597,
      "step": 187890
    },
    {
      "epoch": 0.39145833333333335,
      "grad_norm": 0.9254521131515503,
      "learning_rate": 0.00020129272801675677,
      "loss": 3.7958,
      "step": 187900
    },
    {
      "epoch": 0.39147916666666666,
      "grad_norm": 0.685754120349884,
      "learning_rate": 0.0002012834636489976,
      "loss": 3.8969,
      "step": 187910
    },
    {
      "epoch": 0.3915,
      "grad_norm": 0.7637962102890015,
      "learning_rate": 0.0002012741990597142,
      "loss": 3.8196,
      "step": 187920
    },
    {
      "epoch": 0.3915208333333333,
      "grad_norm": 0.8823176622390747,
      "learning_rate": 0.00020126493424894653,
      "loss": 4.075,
      "step": 187930
    },
    {
      "epoch": 0.3915416666666667,
      "grad_norm": 0.727555513381958,
      "learning_rate": 0.00020125566921673466,
      "loss": 3.8991,
      "step": 187940
    },
    {
      "epoch": 0.3915625,
      "grad_norm": 0.8113245368003845,
      "learning_rate": 0.0002012464039631186,
      "loss": 3.7881,
      "step": 187950
    },
    {
      "epoch": 0.39158333333333334,
      "grad_norm": 0.7001744508743286,
      "learning_rate": 0.00020123713848813827,
      "loss": 3.7612,
      "step": 187960
    },
    {
      "epoch": 0.39160416666666664,
      "grad_norm": 0.7591841816902161,
      "learning_rate": 0.00020122787279183384,
      "loss": 3.8646,
      "step": 187970
    },
    {
      "epoch": 0.391625,
      "grad_norm": 0.7172550559043884,
      "learning_rate": 0.00020121860687424533,
      "loss": 3.917,
      "step": 187980
    },
    {
      "epoch": 0.39164583333333336,
      "grad_norm": 0.8713703155517578,
      "learning_rate": 0.0002012093407354126,
      "loss": 3.849,
      "step": 187990
    },
    {
      "epoch": 0.39166666666666666,
      "grad_norm": 0.9078769683837891,
      "learning_rate": 0.00020120007437537585,
      "loss": 3.8804,
      "step": 188000
    },
    {
      "epoch": 0.39166666666666666,
      "eval_loss": 4.170716285705566,
      "eval_runtime": 9.6673,
      "eval_samples_per_second": 1.034,
      "eval_steps_per_second": 0.31,
      "step": 188000
    },
    {
      "epoch": 0.3916875,
      "grad_norm": 0.7519924640655518,
      "learning_rate": 0.0002011908077941751,
      "loss": 3.7036,
      "step": 188010
    },
    {
      "epoch": 0.3917083333333333,
      "grad_norm": 0.7731565237045288,
      "learning_rate": 0.00020118154099185026,
      "loss": 3.9518,
      "step": 188020
    },
    {
      "epoch": 0.3917291666666667,
      "grad_norm": 0.8051541447639465,
      "learning_rate": 0.00020117227396844142,
      "loss": 3.776,
      "step": 188030
    },
    {
      "epoch": 0.39175,
      "grad_norm": 0.7459749579429626,
      "learning_rate": 0.00020116300672398866,
      "loss": 3.7061,
      "step": 188040
    },
    {
      "epoch": 0.39177083333333335,
      "grad_norm": 0.761310338973999,
      "learning_rate": 0.00020115373925853192,
      "loss": 3.9282,
      "step": 188050
    },
    {
      "epoch": 0.39179166666666665,
      "grad_norm": 0.9179579615592957,
      "learning_rate": 0.00020114447157211122,
      "loss": 3.9793,
      "step": 188060
    },
    {
      "epoch": 0.3918125,
      "grad_norm": 0.8410877585411072,
      "learning_rate": 0.00020113520366476676,
      "loss": 3.7338,
      "step": 188070
    },
    {
      "epoch": 0.3918333333333333,
      "grad_norm": 0.8836259245872498,
      "learning_rate": 0.00020112593553653843,
      "loss": 3.7708,
      "step": 188080
    },
    {
      "epoch": 0.39185416666666667,
      "grad_norm": 0.7492419481277466,
      "learning_rate": 0.00020111666718746626,
      "loss": 3.9474,
      "step": 188090
    },
    {
      "epoch": 0.391875,
      "grad_norm": 0.7841771841049194,
      "learning_rate": 0.00020110739861759034,
      "loss": 3.7604,
      "step": 188100
    },
    {
      "epoch": 0.39189583333333333,
      "grad_norm": 0.795813798904419,
      "learning_rate": 0.00020109812982695065,
      "loss": 3.7999,
      "step": 188110
    },
    {
      "epoch": 0.3919166666666667,
      "grad_norm": 0.786940336227417,
      "learning_rate": 0.0002010888608155873,
      "loss": 3.7798,
      "step": 188120
    },
    {
      "epoch": 0.3919375,
      "grad_norm": 0.8315894603729248,
      "learning_rate": 0.0002010795915835403,
      "loss": 3.9395,
      "step": 188130
    },
    {
      "epoch": 0.39195833333333335,
      "grad_norm": 0.7072563171386719,
      "learning_rate": 0.0002010703221308497,
      "loss": 3.9108,
      "step": 188140
    },
    {
      "epoch": 0.39197916666666666,
      "grad_norm": 0.9708284139633179,
      "learning_rate": 0.0002010610524575555,
      "loss": 3.7748,
      "step": 188150
    },
    {
      "epoch": 0.392,
      "grad_norm": 0.7426583170890808,
      "learning_rate": 0.00020105178256369773,
      "loss": 3.6263,
      "step": 188160
    },
    {
      "epoch": 0.3920208333333333,
      "grad_norm": 0.7334222793579102,
      "learning_rate": 0.0002010425124493165,
      "loss": 3.8304,
      "step": 188170
    },
    {
      "epoch": 0.3920416666666667,
      "grad_norm": 0.9803913235664368,
      "learning_rate": 0.00020103324211445187,
      "loss": 3.7833,
      "step": 188180
    },
    {
      "epoch": 0.3920625,
      "grad_norm": 0.8363394141197205,
      "learning_rate": 0.00020102397155914375,
      "loss": 3.7145,
      "step": 188190
    },
    {
      "epoch": 0.39208333333333334,
      "grad_norm": 0.844034731388092,
      "learning_rate": 0.00020101470078343227,
      "loss": 3.9002,
      "step": 188200
    },
    {
      "epoch": 0.39210416666666664,
      "grad_norm": 0.711465060710907,
      "learning_rate": 0.00020100542978735756,
      "loss": 3.8446,
      "step": 188210
    },
    {
      "epoch": 0.392125,
      "grad_norm": 0.7064006924629211,
      "learning_rate": 0.00020099615857095953,
      "loss": 3.9017,
      "step": 188220
    },
    {
      "epoch": 0.39214583333333336,
      "grad_norm": 1.1757137775421143,
      "learning_rate": 0.00020098688713427823,
      "loss": 3.8687,
      "step": 188230
    },
    {
      "epoch": 0.39216666666666666,
      "grad_norm": 0.8033314347267151,
      "learning_rate": 0.00020097761547735387,
      "loss": 3.8919,
      "step": 188240
    },
    {
      "epoch": 0.3921875,
      "grad_norm": 0.7398850917816162,
      "learning_rate": 0.00020096834360022633,
      "loss": 3.7817,
      "step": 188250
    },
    {
      "epoch": 0.3922083333333333,
      "grad_norm": 0.8652414679527283,
      "learning_rate": 0.00020095907150293572,
      "loss": 3.8564,
      "step": 188260
    },
    {
      "epoch": 0.3922291666666667,
      "grad_norm": 0.9028533697128296,
      "learning_rate": 0.00020094979918552208,
      "loss": 3.8822,
      "step": 188270
    },
    {
      "epoch": 0.39225,
      "grad_norm": 0.6995039582252502,
      "learning_rate": 0.0002009405266480255,
      "loss": 3.7903,
      "step": 188280
    },
    {
      "epoch": 0.39227083333333335,
      "grad_norm": 0.8214446306228638,
      "learning_rate": 0.000200931253890486,
      "loss": 3.7281,
      "step": 188290
    },
    {
      "epoch": 0.39229166666666665,
      "grad_norm": 0.7786505222320557,
      "learning_rate": 0.00020092198091294365,
      "loss": 3.7821,
      "step": 188300
    },
    {
      "epoch": 0.3923125,
      "grad_norm": 0.7748424410820007,
      "learning_rate": 0.00020091270771543848,
      "loss": 3.841,
      "step": 188310
    },
    {
      "epoch": 0.3923333333333333,
      "grad_norm": 0.8761480450630188,
      "learning_rate": 0.00020090343429801058,
      "loss": 3.8211,
      "step": 188320
    },
    {
      "epoch": 0.39235416666666667,
      "grad_norm": 0.7071719169616699,
      "learning_rate": 0.00020089416066069999,
      "loss": 3.6952,
      "step": 188330
    },
    {
      "epoch": 0.392375,
      "grad_norm": 0.7240113615989685,
      "learning_rate": 0.00020088488680354677,
      "loss": 3.9788,
      "step": 188340
    },
    {
      "epoch": 0.39239583333333333,
      "grad_norm": 0.7816724181175232,
      "learning_rate": 0.000200875612726591,
      "loss": 3.7877,
      "step": 188350
    },
    {
      "epoch": 0.3924166666666667,
      "grad_norm": 0.748266339302063,
      "learning_rate": 0.00020086633842987268,
      "loss": 3.893,
      "step": 188360
    },
    {
      "epoch": 0.3924375,
      "grad_norm": 0.7342916131019592,
      "learning_rate": 0.0002008570639134319,
      "loss": 3.8953,
      "step": 188370
    },
    {
      "epoch": 0.39245833333333335,
      "grad_norm": 0.9738280773162842,
      "learning_rate": 0.0002008477891773088,
      "loss": 3.8563,
      "step": 188380
    },
    {
      "epoch": 0.39247916666666666,
      "grad_norm": 0.9873480796813965,
      "learning_rate": 0.0002008385142215433,
      "loss": 3.8161,
      "step": 188390
    },
    {
      "epoch": 0.3925,
      "grad_norm": 0.7958146929740906,
      "learning_rate": 0.00020082923904617562,
      "loss": 3.8291,
      "step": 188400
    },
    {
      "epoch": 0.3925208333333333,
      "grad_norm": 0.8060606718063354,
      "learning_rate": 0.00020081996365124574,
      "loss": 3.9524,
      "step": 188410
    },
    {
      "epoch": 0.3925416666666667,
      "grad_norm": 0.7435354590415955,
      "learning_rate": 0.00020081068803679371,
      "loss": 3.7693,
      "step": 188420
    },
    {
      "epoch": 0.3925625,
      "grad_norm": 0.7811980247497559,
      "learning_rate": 0.0002008014122028596,
      "loss": 3.8856,
      "step": 188430
    },
    {
      "epoch": 0.39258333333333334,
      "grad_norm": 0.8366444110870361,
      "learning_rate": 0.00020079213614948352,
      "loss": 3.6929,
      "step": 188440
    },
    {
      "epoch": 0.39260416666666664,
      "grad_norm": 0.78863924741745,
      "learning_rate": 0.0002007828598767055,
      "loss": 3.9671,
      "step": 188450
    },
    {
      "epoch": 0.392625,
      "grad_norm": 0.9258074760437012,
      "learning_rate": 0.00020077358338456566,
      "loss": 3.8304,
      "step": 188460
    },
    {
      "epoch": 0.39264583333333336,
      "grad_norm": 0.7688031792640686,
      "learning_rate": 0.000200764306673104,
      "loss": 4.1193,
      "step": 188470
    },
    {
      "epoch": 0.39266666666666666,
      "grad_norm": 0.8215314745903015,
      "learning_rate": 0.00020075502974236067,
      "loss": 3.731,
      "step": 188480
    },
    {
      "epoch": 0.3926875,
      "grad_norm": 0.7429081797599792,
      "learning_rate": 0.00020074575259237563,
      "loss": 3.8249,
      "step": 188490
    },
    {
      "epoch": 0.3927083333333333,
      "grad_norm": 0.7601811289787292,
      "learning_rate": 0.00020073647522318909,
      "loss": 3.9573,
      "step": 188500
    },
    {
      "epoch": 0.3927291666666667,
      "grad_norm": 0.8035322427749634,
      "learning_rate": 0.00020072719763484107,
      "loss": 3.8894,
      "step": 188510
    },
    {
      "epoch": 0.39275,
      "grad_norm": 0.7857825756072998,
      "learning_rate": 0.0002007179198273716,
      "loss": 3.8686,
      "step": 188520
    },
    {
      "epoch": 0.39277083333333335,
      "grad_norm": 0.763349175453186,
      "learning_rate": 0.00020070864180082076,
      "loss": 3.8188,
      "step": 188530
    },
    {
      "epoch": 0.39279166666666665,
      "grad_norm": 0.73203444480896,
      "learning_rate": 0.00020069936355522874,
      "loss": 3.757,
      "step": 188540
    },
    {
      "epoch": 0.3928125,
      "grad_norm": 0.9385654330253601,
      "learning_rate": 0.0002006900850906355,
      "loss": 3.7204,
      "step": 188550
    },
    {
      "epoch": 0.3928333333333333,
      "grad_norm": 0.9652789235115051,
      "learning_rate": 0.0002006808064070811,
      "loss": 3.9347,
      "step": 188560
    },
    {
      "epoch": 0.39285416666666667,
      "grad_norm": 0.759734570980072,
      "learning_rate": 0.0002006715275046058,
      "loss": 3.7239,
      "step": 188570
    },
    {
      "epoch": 0.392875,
      "grad_norm": 0.764910876750946,
      "learning_rate": 0.00020066224838324949,
      "loss": 3.7495,
      "step": 188580
    },
    {
      "epoch": 0.39289583333333333,
      "grad_norm": 0.8536385893821716,
      "learning_rate": 0.0002006529690430523,
      "loss": 3.7776,
      "step": 188590
    },
    {
      "epoch": 0.3929166666666667,
      "grad_norm": 0.9464886784553528,
      "learning_rate": 0.00020064368948405435,
      "loss": 3.8413,
      "step": 188600
    },
    {
      "epoch": 0.3929375,
      "grad_norm": 0.7748256325721741,
      "learning_rate": 0.0002006344097062957,
      "loss": 3.9041,
      "step": 188610
    },
    {
      "epoch": 0.39295833333333335,
      "grad_norm": 0.7402727603912354,
      "learning_rate": 0.00020062512970981647,
      "loss": 3.8643,
      "step": 188620
    },
    {
      "epoch": 0.39297916666666666,
      "grad_norm": 0.7740744352340698,
      "learning_rate": 0.00020061584949465668,
      "loss": 3.7122,
      "step": 188630
    },
    {
      "epoch": 0.393,
      "grad_norm": 0.7948362231254578,
      "learning_rate": 0.00020060656906085647,
      "loss": 3.7631,
      "step": 188640
    },
    {
      "epoch": 0.3930208333333333,
      "grad_norm": 0.7562112212181091,
      "learning_rate": 0.00020059728840845595,
      "loss": 3.9262,
      "step": 188650
    },
    {
      "epoch": 0.3930416666666667,
      "grad_norm": 0.8715634346008301,
      "learning_rate": 0.00020058800753749512,
      "loss": 3.7788,
      "step": 188660
    },
    {
      "epoch": 0.3930625,
      "grad_norm": 0.7684164047241211,
      "learning_rate": 0.00020057872644801413,
      "loss": 3.9431,
      "step": 188670
    },
    {
      "epoch": 0.39308333333333334,
      "grad_norm": 0.8218641877174377,
      "learning_rate": 0.0002005694451400531,
      "loss": 4.084,
      "step": 188680
    },
    {
      "epoch": 0.39310416666666664,
      "grad_norm": 0.8733190894126892,
      "learning_rate": 0.00020056016361365202,
      "loss": 3.9402,
      "step": 188690
    },
    {
      "epoch": 0.393125,
      "grad_norm": 0.7751209735870361,
      "learning_rate": 0.00020055088186885113,
      "loss": 3.7625,
      "step": 188700
    },
    {
      "epoch": 0.39314583333333336,
      "grad_norm": 0.8471246957778931,
      "learning_rate": 0.0002005415999056904,
      "loss": 3.6906,
      "step": 188710
    },
    {
      "epoch": 0.39316666666666666,
      "grad_norm": 0.7063947319984436,
      "learning_rate": 0.00020053231772420996,
      "loss": 3.831,
      "step": 188720
    },
    {
      "epoch": 0.3931875,
      "grad_norm": 0.7177914977073669,
      "learning_rate": 0.00020052303532444986,
      "loss": 3.8672,
      "step": 188730
    },
    {
      "epoch": 0.3932083333333333,
      "grad_norm": 0.7244638204574585,
      "learning_rate": 0.00020051375270645035,
      "loss": 3.7558,
      "step": 188740
    },
    {
      "epoch": 0.3932291666666667,
      "grad_norm": 0.7486054301261902,
      "learning_rate": 0.00020050446987025135,
      "loss": 3.7978,
      "step": 188750
    },
    {
      "epoch": 0.39325,
      "grad_norm": 0.7997901439666748,
      "learning_rate": 0.00020049518681589305,
      "loss": 3.8027,
      "step": 188760
    },
    {
      "epoch": 0.39327083333333335,
      "grad_norm": 0.8101829886436462,
      "learning_rate": 0.00020048590354341555,
      "loss": 3.7768,
      "step": 188770
    },
    {
      "epoch": 0.39329166666666665,
      "grad_norm": 0.7320715188980103,
      "learning_rate": 0.0002004766200528589,
      "loss": 3.8839,
      "step": 188780
    },
    {
      "epoch": 0.3933125,
      "grad_norm": 0.7506981492042542,
      "learning_rate": 0.00020046733634426325,
      "loss": 4.0448,
      "step": 188790
    },
    {
      "epoch": 0.3933333333333333,
      "grad_norm": 0.7658148407936096,
      "learning_rate": 0.0002004580524176687,
      "loss": 3.7944,
      "step": 188800
    },
    {
      "epoch": 0.39335416666666667,
      "grad_norm": 0.9240880012512207,
      "learning_rate": 0.00020044876827311528,
      "loss": 3.8379,
      "step": 188810
    },
    {
      "epoch": 0.393375,
      "grad_norm": 0.8284497857093811,
      "learning_rate": 0.00020043948391064317,
      "loss": 3.807,
      "step": 188820
    },
    {
      "epoch": 0.39339583333333333,
      "grad_norm": 0.8071033954620361,
      "learning_rate": 0.00020043019933029246,
      "loss": 3.8781,
      "step": 188830
    },
    {
      "epoch": 0.3934166666666667,
      "grad_norm": 0.7965642809867859,
      "learning_rate": 0.00020042091453210327,
      "loss": 3.7532,
      "step": 188840
    },
    {
      "epoch": 0.3934375,
      "grad_norm": 0.8247832655906677,
      "learning_rate": 0.0002004116295161157,
      "loss": 3.99,
      "step": 188850
    },
    {
      "epoch": 0.39345833333333335,
      "grad_norm": 0.7475952506065369,
      "learning_rate": 0.00020040234428236978,
      "loss": 3.8357,
      "step": 188860
    },
    {
      "epoch": 0.39347916666666666,
      "grad_norm": 0.7732117176055908,
      "learning_rate": 0.00020039305883090574,
      "loss": 3.8946,
      "step": 188870
    },
    {
      "epoch": 0.3935,
      "grad_norm": 0.7606973648071289,
      "learning_rate": 0.00020038377316176364,
      "loss": 3.8967,
      "step": 188880
    },
    {
      "epoch": 0.3935208333333333,
      "grad_norm": 0.7100887298583984,
      "learning_rate": 0.0002003744872749835,
      "loss": 3.9397,
      "step": 188890
    },
    {
      "epoch": 0.3935416666666667,
      "grad_norm": 0.753145158290863,
      "learning_rate": 0.00020036520117060557,
      "loss": 3.8754,
      "step": 188900
    },
    {
      "epoch": 0.3935625,
      "grad_norm": 0.7864042520523071,
      "learning_rate": 0.00020035591484866995,
      "loss": 3.8108,
      "step": 188910
    },
    {
      "epoch": 0.39358333333333334,
      "grad_norm": 0.8276193737983704,
      "learning_rate": 0.00020034662830921665,
      "loss": 3.7178,
      "step": 188920
    },
    {
      "epoch": 0.39360416666666664,
      "grad_norm": 0.9800392389297485,
      "learning_rate": 0.00020033734155228586,
      "loss": 3.8685,
      "step": 188930
    },
    {
      "epoch": 0.393625,
      "grad_norm": 0.932877242565155,
      "learning_rate": 0.0002003280545779177,
      "loss": 3.9333,
      "step": 188940
    },
    {
      "epoch": 0.3936458333333333,
      "grad_norm": 0.7052668929100037,
      "learning_rate": 0.00020031876738615224,
      "loss": 3.8878,
      "step": 188950
    },
    {
      "epoch": 0.39366666666666666,
      "grad_norm": 0.8068601489067078,
      "learning_rate": 0.00020030947997702966,
      "loss": 3.779,
      "step": 188960
    },
    {
      "epoch": 0.3936875,
      "grad_norm": 0.8400499820709229,
      "learning_rate": 0.00020030019235058998,
      "loss": 3.8075,
      "step": 188970
    },
    {
      "epoch": 0.3937083333333333,
      "grad_norm": 0.9595541954040527,
      "learning_rate": 0.0002002909045068734,
      "loss": 3.8009,
      "step": 188980
    },
    {
      "epoch": 0.3937291666666667,
      "grad_norm": 0.7209644913673401,
      "learning_rate": 0.00020028161644592007,
      "loss": 3.9563,
      "step": 188990
    },
    {
      "epoch": 0.39375,
      "grad_norm": 0.8462327122688293,
      "learning_rate": 0.00020027232816777,
      "loss": 3.9147,
      "step": 189000
    },
    {
      "epoch": 0.39375,
      "eval_loss": 4.175159454345703,
      "eval_runtime": 9.9455,
      "eval_samples_per_second": 1.005,
      "eval_steps_per_second": 0.302,
      "step": 189000
    },
    {
      "epoch": 0.39377083333333335,
      "grad_norm": 0.8774930834770203,
      "learning_rate": 0.00020026303967246337,
      "loss": 3.8512,
      "step": 189010
    },
    {
      "epoch": 0.39379166666666665,
      "grad_norm": 0.8940721750259399,
      "learning_rate": 0.00020025375096004034,
      "loss": 3.9183,
      "step": 189020
    },
    {
      "epoch": 0.3938125,
      "grad_norm": 1.0102691650390625,
      "learning_rate": 0.00020024446203054097,
      "loss": 3.9328,
      "step": 189030
    },
    {
      "epoch": 0.3938333333333333,
      "grad_norm": 0.9857479333877563,
      "learning_rate": 0.00020023517288400542,
      "loss": 3.9331,
      "step": 189040
    },
    {
      "epoch": 0.39385416666666667,
      "grad_norm": 0.7184646725654602,
      "learning_rate": 0.00020022588352047385,
      "loss": 3.8706,
      "step": 189050
    },
    {
      "epoch": 0.393875,
      "grad_norm": 0.8814496397972107,
      "learning_rate": 0.00020021659393998627,
      "loss": 3.8324,
      "step": 189060
    },
    {
      "epoch": 0.39389583333333333,
      "grad_norm": 0.8568623065948486,
      "learning_rate": 0.0002002073041425829,
      "loss": 3.868,
      "step": 189070
    },
    {
      "epoch": 0.3939166666666667,
      "grad_norm": 0.8198646903038025,
      "learning_rate": 0.00020019801412830392,
      "loss": 3.9918,
      "step": 189080
    },
    {
      "epoch": 0.3939375,
      "grad_norm": 0.8392384052276611,
      "learning_rate": 0.00020018872389718933,
      "loss": 3.666,
      "step": 189090
    },
    {
      "epoch": 0.39395833333333335,
      "grad_norm": 0.806666910648346,
      "learning_rate": 0.00020017943344927933,
      "loss": 3.8051,
      "step": 189100
    },
    {
      "epoch": 0.39397916666666666,
      "grad_norm": 0.7943039536476135,
      "learning_rate": 0.00020017014278461405,
      "loss": 3.9928,
      "step": 189110
    },
    {
      "epoch": 0.394,
      "grad_norm": 0.7904027104377747,
      "learning_rate": 0.00020016085190323357,
      "loss": 3.9092,
      "step": 189120
    },
    {
      "epoch": 0.3940208333333333,
      "grad_norm": 0.697689950466156,
      "learning_rate": 0.0002001515608051781,
      "loss": 3.8435,
      "step": 189130
    },
    {
      "epoch": 0.3940416666666667,
      "grad_norm": 0.9644234776496887,
      "learning_rate": 0.00020014226949048773,
      "loss": 3.8021,
      "step": 189140
    },
    {
      "epoch": 0.3940625,
      "grad_norm": 0.8762988448143005,
      "learning_rate": 0.00020013297795920258,
      "loss": 3.9995,
      "step": 189150
    },
    {
      "epoch": 0.39408333333333334,
      "grad_norm": 0.8297797441482544,
      "learning_rate": 0.00020012368621136285,
      "loss": 3.9546,
      "step": 189160
    },
    {
      "epoch": 0.39410416666666664,
      "grad_norm": 0.7518790364265442,
      "learning_rate": 0.00020011439424700862,
      "loss": 3.9485,
      "step": 189170
    },
    {
      "epoch": 0.394125,
      "grad_norm": 0.8087908625602722,
      "learning_rate": 0.00020010510206618003,
      "loss": 3.8703,
      "step": 189180
    },
    {
      "epoch": 0.3941458333333333,
      "grad_norm": 1.0254570245742798,
      "learning_rate": 0.00020009580966891724,
      "loss": 3.89,
      "step": 189190
    },
    {
      "epoch": 0.39416666666666667,
      "grad_norm": 0.767021656036377,
      "learning_rate": 0.00020008651705526038,
      "loss": 3.8748,
      "step": 189200
    },
    {
      "epoch": 0.3941875,
      "grad_norm": 1.0151057243347168,
      "learning_rate": 0.00020007722422524962,
      "loss": 3.7803,
      "step": 189210
    },
    {
      "epoch": 0.3942083333333333,
      "grad_norm": 0.7489066123962402,
      "learning_rate": 0.00020006793117892507,
      "loss": 3.8088,
      "step": 189220
    },
    {
      "epoch": 0.3942291666666667,
      "grad_norm": 0.8372907638549805,
      "learning_rate": 0.0002000586379163268,
      "loss": 3.7751,
      "step": 189230
    },
    {
      "epoch": 0.39425,
      "grad_norm": 0.9504052996635437,
      "learning_rate": 0.00020004934443749512,
      "loss": 3.9813,
      "step": 189240
    },
    {
      "epoch": 0.39427083333333335,
      "grad_norm": 0.7546856999397278,
      "learning_rate": 0.00020004005074247006,
      "loss": 3.8557,
      "step": 189250
    },
    {
      "epoch": 0.39429166666666665,
      "grad_norm": 0.8312422037124634,
      "learning_rate": 0.00020003075683129178,
      "loss": 3.9791,
      "step": 189260
    },
    {
      "epoch": 0.3943125,
      "grad_norm": 0.8205673694610596,
      "learning_rate": 0.0002000214627040004,
      "loss": 3.921,
      "step": 189270
    },
    {
      "epoch": 0.3943333333333333,
      "grad_norm": 0.7580873966217041,
      "learning_rate": 0.00020001216836063618,
      "loss": 3.795,
      "step": 189280
    },
    {
      "epoch": 0.3943541666666667,
      "grad_norm": 0.8335942029953003,
      "learning_rate": 0.00020000287380123912,
      "loss": 3.7975,
      "step": 189290
    },
    {
      "epoch": 0.394375,
      "grad_norm": 0.7914595603942871,
      "learning_rate": 0.00019999357902584947,
      "loss": 3.9855,
      "step": 189300
    },
    {
      "epoch": 0.39439583333333333,
      "grad_norm": 0.8362176418304443,
      "learning_rate": 0.00019998428403450731,
      "loss": 3.8139,
      "step": 189310
    },
    {
      "epoch": 0.3944166666666667,
      "grad_norm": 0.9180775284767151,
      "learning_rate": 0.00019997498882725283,
      "loss": 3.9229,
      "step": 189320
    },
    {
      "epoch": 0.3944375,
      "grad_norm": 0.7466679811477661,
      "learning_rate": 0.00019996569340412622,
      "loss": 3.8585,
      "step": 189330
    },
    {
      "epoch": 0.39445833333333336,
      "grad_norm": 0.7707487344741821,
      "learning_rate": 0.00019995639776516759,
      "loss": 3.8279,
      "step": 189340
    },
    {
      "epoch": 0.39447916666666666,
      "grad_norm": 0.7325364351272583,
      "learning_rate": 0.0001999471019104171,
      "loss": 3.8822,
      "step": 189350
    },
    {
      "epoch": 0.3945,
      "grad_norm": 0.9311955571174622,
      "learning_rate": 0.00019993780583991486,
      "loss": 3.7946,
      "step": 189360
    },
    {
      "epoch": 0.3945208333333333,
      "grad_norm": 0.7481427788734436,
      "learning_rate": 0.0001999285095537011,
      "loss": 4.002,
      "step": 189370
    },
    {
      "epoch": 0.3945416666666667,
      "grad_norm": 0.8256272077560425,
      "learning_rate": 0.00019991921305181592,
      "loss": 3.9279,
      "step": 189380
    },
    {
      "epoch": 0.3945625,
      "grad_norm": 0.6884897947311401,
      "learning_rate": 0.00019990991633429952,
      "loss": 3.8091,
      "step": 189390
    },
    {
      "epoch": 0.39458333333333334,
      "grad_norm": 0.8321464657783508,
      "learning_rate": 0.00019990061940119202,
      "loss": 3.7831,
      "step": 189400
    },
    {
      "epoch": 0.39460416666666664,
      "grad_norm": 0.7014882564544678,
      "learning_rate": 0.00019989132225253358,
      "loss": 3.8264,
      "step": 189410
    },
    {
      "epoch": 0.394625,
      "grad_norm": 0.8540356159210205,
      "learning_rate": 0.00019988202488836442,
      "loss": 3.7917,
      "step": 189420
    },
    {
      "epoch": 0.3946458333333333,
      "grad_norm": 0.735515832901001,
      "learning_rate": 0.0001998727273087246,
      "loss": 3.8008,
      "step": 189430
    },
    {
      "epoch": 0.39466666666666667,
      "grad_norm": 0.7583537697792053,
      "learning_rate": 0.00019986342951365443,
      "loss": 3.7857,
      "step": 189440
    },
    {
      "epoch": 0.3946875,
      "grad_norm": 1.1252981424331665,
      "learning_rate": 0.00019985413150319393,
      "loss": 3.8669,
      "step": 189450
    },
    {
      "epoch": 0.3947083333333333,
      "grad_norm": 0.7546401619911194,
      "learning_rate": 0.00019984483327738328,
      "loss": 3.8669,
      "step": 189460
    },
    {
      "epoch": 0.3947291666666667,
      "grad_norm": 0.6923245787620544,
      "learning_rate": 0.00019983553483626272,
      "loss": 3.9752,
      "step": 189470
    },
    {
      "epoch": 0.39475,
      "grad_norm": 0.746209979057312,
      "learning_rate": 0.00019982623617987235,
      "loss": 3.6735,
      "step": 189480
    },
    {
      "epoch": 0.39477083333333335,
      "grad_norm": 0.7605329751968384,
      "learning_rate": 0.00019981693730825237,
      "loss": 3.9062,
      "step": 189490
    },
    {
      "epoch": 0.39479166666666665,
      "grad_norm": 0.7611756324768066,
      "learning_rate": 0.00019980763822144296,
      "loss": 3.6538,
      "step": 189500
    },
    {
      "epoch": 0.3948125,
      "grad_norm": 0.6858136057853699,
      "learning_rate": 0.00019979833891948425,
      "loss": 3.8807,
      "step": 189510
    },
    {
      "epoch": 0.3948333333333333,
      "grad_norm": 0.6915552020072937,
      "learning_rate": 0.00019978903940241646,
      "loss": 3.5868,
      "step": 189520
    },
    {
      "epoch": 0.3948541666666667,
      "grad_norm": 0.7386254072189331,
      "learning_rate": 0.00019977973967027967,
      "loss": 3.7136,
      "step": 189530
    },
    {
      "epoch": 0.394875,
      "grad_norm": 0.7738096117973328,
      "learning_rate": 0.00019977043972311414,
      "loss": 3.7551,
      "step": 189540
    },
    {
      "epoch": 0.39489583333333333,
      "grad_norm": 0.9317187666893005,
      "learning_rate": 0.00019976113956096002,
      "loss": 3.6504,
      "step": 189550
    },
    {
      "epoch": 0.3949166666666667,
      "grad_norm": 0.7782264947891235,
      "learning_rate": 0.0001997518391838575,
      "loss": 3.9942,
      "step": 189560
    },
    {
      "epoch": 0.3949375,
      "grad_norm": 0.7568407654762268,
      "learning_rate": 0.00019974253859184667,
      "loss": 3.8611,
      "step": 189570
    },
    {
      "epoch": 0.39495833333333336,
      "grad_norm": 0.8690983653068542,
      "learning_rate": 0.0001997332377849678,
      "loss": 3.7443,
      "step": 189580
    },
    {
      "epoch": 0.39497916666666666,
      "grad_norm": 0.7995790243148804,
      "learning_rate": 0.00019972393676326102,
      "loss": 3.9425,
      "step": 189590
    },
    {
      "epoch": 0.395,
      "grad_norm": 0.7178528904914856,
      "learning_rate": 0.00019971463552676647,
      "loss": 3.9174,
      "step": 189600
    },
    {
      "epoch": 0.3950208333333333,
      "grad_norm": 0.7583917379379272,
      "learning_rate": 0.00019970533407552446,
      "loss": 3.8782,
      "step": 189610
    },
    {
      "epoch": 0.3950416666666667,
      "grad_norm": 0.749224066734314,
      "learning_rate": 0.00019969603240957504,
      "loss": 3.891,
      "step": 189620
    },
    {
      "epoch": 0.3950625,
      "grad_norm": 0.8706029653549194,
      "learning_rate": 0.00019968673052895837,
      "loss": 3.685,
      "step": 189630
    },
    {
      "epoch": 0.39508333333333334,
      "grad_norm": 0.7737053036689758,
      "learning_rate": 0.0001996774284337148,
      "loss": 3.8502,
      "step": 189640
    },
    {
      "epoch": 0.39510416666666665,
      "grad_norm": 0.9441201090812683,
      "learning_rate": 0.00019966812612388433,
      "loss": 4.0269,
      "step": 189650
    },
    {
      "epoch": 0.395125,
      "grad_norm": 0.7607427835464478,
      "learning_rate": 0.00019965882359950722,
      "loss": 3.7894,
      "step": 189660
    },
    {
      "epoch": 0.3951458333333333,
      "grad_norm": 0.7703080773353577,
      "learning_rate": 0.00019964952086062366,
      "loss": 3.7637,
      "step": 189670
    },
    {
      "epoch": 0.39516666666666667,
      "grad_norm": 0.8380357027053833,
      "learning_rate": 0.00019964021790727383,
      "loss": 3.8871,
      "step": 189680
    },
    {
      "epoch": 0.3951875,
      "grad_norm": 0.7339788675308228,
      "learning_rate": 0.00019963091473949792,
      "loss": 3.9068,
      "step": 189690
    },
    {
      "epoch": 0.39520833333333333,
      "grad_norm": 0.8137896656990051,
      "learning_rate": 0.00019962161135733607,
      "loss": 3.7678,
      "step": 189700
    },
    {
      "epoch": 0.3952291666666667,
      "grad_norm": 0.7533039450645447,
      "learning_rate": 0.00019961230776082854,
      "loss": 3.8347,
      "step": 189710
    },
    {
      "epoch": 0.39525,
      "grad_norm": 0.9826480746269226,
      "learning_rate": 0.0001996030039500155,
      "loss": 3.8983,
      "step": 189720
    },
    {
      "epoch": 0.39527083333333335,
      "grad_norm": 0.9334656596183777,
      "learning_rate": 0.00019959369992493702,
      "loss": 3.8569,
      "step": 189730
    },
    {
      "epoch": 0.39529166666666665,
      "grad_norm": 0.9880474209785461,
      "learning_rate": 0.00019958439568563345,
      "loss": 3.8714,
      "step": 189740
    },
    {
      "epoch": 0.3953125,
      "grad_norm": 0.8431870937347412,
      "learning_rate": 0.00019957509123214493,
      "loss": 3.9731,
      "step": 189750
    },
    {
      "epoch": 0.3953333333333333,
      "grad_norm": 0.7770678400993347,
      "learning_rate": 0.00019956578656451157,
      "loss": 3.826,
      "step": 189760
    },
    {
      "epoch": 0.3953541666666667,
      "grad_norm": 0.7431073784828186,
      "learning_rate": 0.0001995564816827737,
      "loss": 3.7617,
      "step": 189770
    },
    {
      "epoch": 0.395375,
      "grad_norm": 0.722262978553772,
      "learning_rate": 0.00019954717658697145,
      "loss": 3.816,
      "step": 189780
    },
    {
      "epoch": 0.39539583333333334,
      "grad_norm": 0.7967077493667603,
      "learning_rate": 0.00019953787127714498,
      "loss": 3.9173,
      "step": 189790
    },
    {
      "epoch": 0.3954166666666667,
      "grad_norm": 0.7781023383140564,
      "learning_rate": 0.00019952856575333448,
      "loss": 3.8979,
      "step": 189800
    },
    {
      "epoch": 0.3954375,
      "grad_norm": 1.0333892107009888,
      "learning_rate": 0.00019951926001558025,
      "loss": 3.7698,
      "step": 189810
    },
    {
      "epoch": 0.39545833333333336,
      "grad_norm": 0.8040222525596619,
      "learning_rate": 0.00019950995406392238,
      "loss": 3.7612,
      "step": 189820
    },
    {
      "epoch": 0.39547916666666666,
      "grad_norm": 0.7849081158638,
      "learning_rate": 0.00019950064789840105,
      "loss": 3.955,
      "step": 189830
    },
    {
      "epoch": 0.3955,
      "grad_norm": 0.7023487687110901,
      "learning_rate": 0.00019949134151905662,
      "loss": 3.9753,
      "step": 189840
    },
    {
      "epoch": 0.3955208333333333,
      "grad_norm": 0.7344098687171936,
      "learning_rate": 0.00019948203492592916,
      "loss": 3.7973,
      "step": 189850
    },
    {
      "epoch": 0.3955416666666667,
      "grad_norm": 0.7652691602706909,
      "learning_rate": 0.00019947272811905885,
      "loss": 3.7476,
      "step": 189860
    },
    {
      "epoch": 0.3955625,
      "grad_norm": 0.827728271484375,
      "learning_rate": 0.00019946342109848595,
      "loss": 3.8044,
      "step": 189870
    },
    {
      "epoch": 0.39558333333333334,
      "grad_norm": 0.8385420441627502,
      "learning_rate": 0.0001994541138642507,
      "loss": 3.8828,
      "step": 189880
    },
    {
      "epoch": 0.39560416666666665,
      "grad_norm": 0.7345587015151978,
      "learning_rate": 0.00019944480641639323,
      "loss": 3.9157,
      "step": 189890
    },
    {
      "epoch": 0.395625,
      "grad_norm": 1.1249961853027344,
      "learning_rate": 0.00019943549875495374,
      "loss": 3.798,
      "step": 189900
    },
    {
      "epoch": 0.3956458333333333,
      "grad_norm": 0.7970105409622192,
      "learning_rate": 0.00019942619087997247,
      "loss": 3.8923,
      "step": 189910
    },
    {
      "epoch": 0.39566666666666667,
      "grad_norm": 0.7644004821777344,
      "learning_rate": 0.00019941688279148965,
      "loss": 3.5821,
      "step": 189920
    },
    {
      "epoch": 0.3956875,
      "grad_norm": 0.6655669212341309,
      "learning_rate": 0.0001994075744895454,
      "loss": 3.7766,
      "step": 189930
    },
    {
      "epoch": 0.39570833333333333,
      "grad_norm": 0.7705581784248352,
      "learning_rate": 0.00019939826597418,
      "loss": 3.8262,
      "step": 189940
    },
    {
      "epoch": 0.3957291666666667,
      "grad_norm": 0.9250642657279968,
      "learning_rate": 0.0001993889572454337,
      "loss": 3.8673,
      "step": 189950
    },
    {
      "epoch": 0.39575,
      "grad_norm": 0.8442540764808655,
      "learning_rate": 0.00019937964830334665,
      "loss": 3.8014,
      "step": 189960
    },
    {
      "epoch": 0.39577083333333335,
      "grad_norm": 0.8492833971977234,
      "learning_rate": 0.000199370339147959,
      "loss": 3.8604,
      "step": 189970
    },
    {
      "epoch": 0.39579166666666665,
      "grad_norm": 0.8121992349624634,
      "learning_rate": 0.00019936102977931107,
      "loss": 3.7944,
      "step": 189980
    },
    {
      "epoch": 0.3958125,
      "grad_norm": 0.7323034405708313,
      "learning_rate": 0.00019935172019744303,
      "loss": 3.8326,
      "step": 189990
    },
    {
      "epoch": 0.3958333333333333,
      "grad_norm": 0.7055436372756958,
      "learning_rate": 0.00019934241040239501,
      "loss": 3.8926,
      "step": 190000
    },
    {
      "epoch": 0.3958333333333333,
      "eval_loss": 4.16791296005249,
      "eval_runtime": 9.43,
      "eval_samples_per_second": 1.06,
      "eval_steps_per_second": 0.318,
      "step": 190000
    },
    {
      "epoch": 0.3958541666666667,
      "grad_norm": 0.6954879760742188,
      "learning_rate": 0.00019933310039420746,
      "loss": 3.8629,
      "step": 190010
    },
    {
      "epoch": 0.395875,
      "grad_norm": 0.8433279395103455,
      "learning_rate": 0.00019932379017292037,
      "loss": 3.8952,
      "step": 190020
    },
    {
      "epoch": 0.39589583333333334,
      "grad_norm": 0.7091994285583496,
      "learning_rate": 0.000199314479738574,
      "loss": 3.7696,
      "step": 190030
    },
    {
      "epoch": 0.39591666666666664,
      "grad_norm": 0.7334423065185547,
      "learning_rate": 0.0001993051690912086,
      "loss": 3.8076,
      "step": 190040
    },
    {
      "epoch": 0.3959375,
      "grad_norm": 0.7792430520057678,
      "learning_rate": 0.00019929585823086444,
      "loss": 3.8347,
      "step": 190050
    },
    {
      "epoch": 0.39595833333333336,
      "grad_norm": 0.7899531722068787,
      "learning_rate": 0.00019928654715758163,
      "loss": 3.676,
      "step": 190060
    },
    {
      "epoch": 0.39597916666666666,
      "grad_norm": 0.8884335160255432,
      "learning_rate": 0.00019927723587140046,
      "loss": 3.8776,
      "step": 190070
    },
    {
      "epoch": 0.396,
      "grad_norm": 0.7729365825653076,
      "learning_rate": 0.0001992679243723612,
      "loss": 3.6988,
      "step": 190080
    },
    {
      "epoch": 0.3960208333333333,
      "grad_norm": 1.1319754123687744,
      "learning_rate": 0.00019925861266050394,
      "loss": 3.8327,
      "step": 190090
    },
    {
      "epoch": 0.3960416666666667,
      "grad_norm": 0.8003312945365906,
      "learning_rate": 0.00019924930073586896,
      "loss": 3.9799,
      "step": 190100
    },
    {
      "epoch": 0.3960625,
      "grad_norm": 0.7296203374862671,
      "learning_rate": 0.0001992399885984965,
      "loss": 3.8801,
      "step": 190110
    },
    {
      "epoch": 0.39608333333333334,
      "grad_norm": 0.9372369647026062,
      "learning_rate": 0.00019923067624842683,
      "loss": 3.8971,
      "step": 190120
    },
    {
      "epoch": 0.39610416666666665,
      "grad_norm": 0.8212023973464966,
      "learning_rate": 0.0001992213636857001,
      "loss": 4.0167,
      "step": 190130
    },
    {
      "epoch": 0.396125,
      "grad_norm": 0.7438948154449463,
      "learning_rate": 0.00019921205091035654,
      "loss": 3.7601,
      "step": 190140
    },
    {
      "epoch": 0.3961458333333333,
      "grad_norm": 0.7793130278587341,
      "learning_rate": 0.00019920273792243647,
      "loss": 3.9796,
      "step": 190150
    },
    {
      "epoch": 0.39616666666666667,
      "grad_norm": 0.7905284762382507,
      "learning_rate": 0.00019919342472197996,
      "loss": 3.8125,
      "step": 190160
    },
    {
      "epoch": 0.3961875,
      "grad_norm": 0.8979089856147766,
      "learning_rate": 0.00019918411130902738,
      "loss": 3.9772,
      "step": 190170
    },
    {
      "epoch": 0.39620833333333333,
      "grad_norm": 0.7101927995681763,
      "learning_rate": 0.00019917479768361888,
      "loss": 3.8993,
      "step": 190180
    },
    {
      "epoch": 0.3962291666666667,
      "grad_norm": 0.8450039625167847,
      "learning_rate": 0.00019916548384579474,
      "loss": 3.8602,
      "step": 190190
    },
    {
      "epoch": 0.39625,
      "grad_norm": 1.0117765665054321,
      "learning_rate": 0.00019915616979559515,
      "loss": 3.8186,
      "step": 190200
    },
    {
      "epoch": 0.39627083333333335,
      "grad_norm": 0.8974493145942688,
      "learning_rate": 0.00019914685553306036,
      "loss": 3.6997,
      "step": 190210
    },
    {
      "epoch": 0.39629166666666665,
      "grad_norm": 0.7825281620025635,
      "learning_rate": 0.00019913754105823064,
      "loss": 3.9109,
      "step": 190220
    },
    {
      "epoch": 0.3963125,
      "grad_norm": 0.773231565952301,
      "learning_rate": 0.0001991282263711462,
      "loss": 3.8636,
      "step": 190230
    },
    {
      "epoch": 0.3963333333333333,
      "grad_norm": 0.7891260981559753,
      "learning_rate": 0.00019911891147184722,
      "loss": 3.7976,
      "step": 190240
    },
    {
      "epoch": 0.3963541666666667,
      "grad_norm": 0.8221814632415771,
      "learning_rate": 0.00019910959636037397,
      "loss": 3.8195,
      "step": 190250
    },
    {
      "epoch": 0.396375,
      "grad_norm": 0.8187609314918518,
      "learning_rate": 0.00019910028103676676,
      "loss": 3.8072,
      "step": 190260
    },
    {
      "epoch": 0.39639583333333334,
      "grad_norm": 0.7381786108016968,
      "learning_rate": 0.00019909096550106573,
      "loss": 3.8302,
      "step": 190270
    },
    {
      "epoch": 0.39641666666666664,
      "grad_norm": 0.8525958061218262,
      "learning_rate": 0.0001990816497533112,
      "loss": 3.6361,
      "step": 190280
    },
    {
      "epoch": 0.3964375,
      "grad_norm": 0.7521949410438538,
      "learning_rate": 0.0001990723337935434,
      "loss": 3.7428,
      "step": 190290
    },
    {
      "epoch": 0.39645833333333336,
      "grad_norm": 0.8231000304222107,
      "learning_rate": 0.00019906301762180246,
      "loss": 3.8466,
      "step": 190300
    },
    {
      "epoch": 0.39647916666666666,
      "grad_norm": 0.7617257237434387,
      "learning_rate": 0.00019905370123812877,
      "loss": 3.7903,
      "step": 190310
    },
    {
      "epoch": 0.3965,
      "grad_norm": 0.8278413414955139,
      "learning_rate": 0.00019904438464256248,
      "loss": 3.815,
      "step": 190320
    },
    {
      "epoch": 0.3965208333333333,
      "grad_norm": 0.7141941785812378,
      "learning_rate": 0.0001990350678351438,
      "loss": 3.8323,
      "step": 190330
    },
    {
      "epoch": 0.3965416666666667,
      "grad_norm": 0.7635592818260193,
      "learning_rate": 0.00019902575081591313,
      "loss": 3.9173,
      "step": 190340
    },
    {
      "epoch": 0.3965625,
      "grad_norm": 0.8511501550674438,
      "learning_rate": 0.0001990164335849106,
      "loss": 3.8626,
      "step": 190350
    },
    {
      "epoch": 0.39658333333333334,
      "grad_norm": 0.8902995586395264,
      "learning_rate": 0.00019900711614217643,
      "loss": 3.8288,
      "step": 190360
    },
    {
      "epoch": 0.39660416666666665,
      "grad_norm": 0.7737725973129272,
      "learning_rate": 0.00019899779848775095,
      "loss": 4.0551,
      "step": 190370
    },
    {
      "epoch": 0.396625,
      "grad_norm": 0.8466925024986267,
      "learning_rate": 0.0001989884806216744,
      "loss": 3.8957,
      "step": 190380
    },
    {
      "epoch": 0.3966458333333333,
      "grad_norm": 0.8307653069496155,
      "learning_rate": 0.00019897916254398698,
      "loss": 3.7402,
      "step": 190390
    },
    {
      "epoch": 0.39666666666666667,
      "grad_norm": 0.7510179281234741,
      "learning_rate": 0.00019896984425472896,
      "loss": 3.9134,
      "step": 190400
    },
    {
      "epoch": 0.3966875,
      "grad_norm": 0.8542865514755249,
      "learning_rate": 0.0001989605257539406,
      "loss": 3.8909,
      "step": 190410
    },
    {
      "epoch": 0.39670833333333333,
      "grad_norm": 1.3421427011489868,
      "learning_rate": 0.00019895120704166213,
      "loss": 3.6296,
      "step": 190420
    },
    {
      "epoch": 0.3967291666666667,
      "grad_norm": 0.7280952334403992,
      "learning_rate": 0.00019894188811793385,
      "loss": 3.983,
      "step": 190430
    },
    {
      "epoch": 0.39675,
      "grad_norm": 0.8539635539054871,
      "learning_rate": 0.000198932568982796,
      "loss": 3.8534,
      "step": 190440
    },
    {
      "epoch": 0.39677083333333335,
      "grad_norm": 0.7553196549415588,
      "learning_rate": 0.00019892324963628882,
      "loss": 3.9055,
      "step": 190450
    },
    {
      "epoch": 0.39679166666666665,
      "grad_norm": 0.8332899808883667,
      "learning_rate": 0.00019891393007845254,
      "loss": 3.883,
      "step": 190460
    },
    {
      "epoch": 0.3968125,
      "grad_norm": 0.7063845992088318,
      "learning_rate": 0.00019890461030932743,
      "loss": 3.9391,
      "step": 190470
    },
    {
      "epoch": 0.3968333333333333,
      "grad_norm": 0.7554361820220947,
      "learning_rate": 0.00019889529032895382,
      "loss": 3.7043,
      "step": 190480
    },
    {
      "epoch": 0.3968541666666667,
      "grad_norm": 0.7053502202033997,
      "learning_rate": 0.00019888597013737188,
      "loss": 3.9744,
      "step": 190490
    },
    {
      "epoch": 0.396875,
      "grad_norm": 0.7886112928390503,
      "learning_rate": 0.00019887664973462183,
      "loss": 3.9018,
      "step": 190500
    },
    {
      "epoch": 0.39689583333333334,
      "grad_norm": 0.7849721312522888,
      "learning_rate": 0.0001988673291207441,
      "loss": 3.9101,
      "step": 190510
    },
    {
      "epoch": 0.39691666666666664,
      "grad_norm": 0.9573026895523071,
      "learning_rate": 0.0001988580082957788,
      "loss": 3.6967,
      "step": 190520
    },
    {
      "epoch": 0.3969375,
      "grad_norm": 0.7509134411811829,
      "learning_rate": 0.00019884868725976627,
      "loss": 3.8639,
      "step": 190530
    },
    {
      "epoch": 0.39695833333333336,
      "grad_norm": 0.7644334435462952,
      "learning_rate": 0.00019883936601274675,
      "loss": 3.8747,
      "step": 190540
    },
    {
      "epoch": 0.39697916666666666,
      "grad_norm": 0.729888916015625,
      "learning_rate": 0.00019883004455476048,
      "loss": 3.8603,
      "step": 190550
    },
    {
      "epoch": 0.397,
      "grad_norm": 0.7350350022315979,
      "learning_rate": 0.00019882072288584772,
      "loss": 3.768,
      "step": 190560
    },
    {
      "epoch": 0.3970208333333333,
      "grad_norm": 0.7628466486930847,
      "learning_rate": 0.0001988114010060488,
      "loss": 3.904,
      "step": 190570
    },
    {
      "epoch": 0.3970416666666667,
      "grad_norm": 0.783187747001648,
      "learning_rate": 0.00019880207891540393,
      "loss": 3.8459,
      "step": 190580
    },
    {
      "epoch": 0.3970625,
      "grad_norm": 0.7526111602783203,
      "learning_rate": 0.00019879275661395342,
      "loss": 3.8319,
      "step": 190590
    },
    {
      "epoch": 0.39708333333333334,
      "grad_norm": 0.9085589051246643,
      "learning_rate": 0.00019878343410173748,
      "loss": 3.9551,
      "step": 190600
    },
    {
      "epoch": 0.39710416666666665,
      "grad_norm": 0.747250497341156,
      "learning_rate": 0.00019877411137879646,
      "loss": 4.0429,
      "step": 190610
    },
    {
      "epoch": 0.397125,
      "grad_norm": 0.7209979891777039,
      "learning_rate": 0.0001987647884451706,
      "loss": 3.9507,
      "step": 190620
    },
    {
      "epoch": 0.3971458333333333,
      "grad_norm": 0.8142620325088501,
      "learning_rate": 0.00019875546530090005,
      "loss": 3.9691,
      "step": 190630
    },
    {
      "epoch": 0.39716666666666667,
      "grad_norm": 0.8141088485717773,
      "learning_rate": 0.00019874614194602524,
      "loss": 3.8193,
      "step": 190640
    },
    {
      "epoch": 0.3971875,
      "grad_norm": 0.7502877712249756,
      "learning_rate": 0.00019873681838058647,
      "loss": 3.973,
      "step": 190650
    },
    {
      "epoch": 0.39720833333333333,
      "grad_norm": 1.054332971572876,
      "learning_rate": 0.00019872749460462386,
      "loss": 3.9068,
      "step": 190660
    },
    {
      "epoch": 0.3972291666666667,
      "grad_norm": 0.8856394290924072,
      "learning_rate": 0.00019871817061817775,
      "loss": 3.8479,
      "step": 190670
    },
    {
      "epoch": 0.39725,
      "grad_norm": 0.7358154058456421,
      "learning_rate": 0.00019870884642128847,
      "loss": 3.8165,
      "step": 190680
    },
    {
      "epoch": 0.39727083333333335,
      "grad_norm": 0.9668391942977905,
      "learning_rate": 0.00019869952201399623,
      "loss": 3.8929,
      "step": 190690
    },
    {
      "epoch": 0.39729166666666665,
      "grad_norm": 0.7931057810783386,
      "learning_rate": 0.00019869019739634133,
      "loss": 3.8038,
      "step": 190700
    },
    {
      "epoch": 0.3973125,
      "grad_norm": 0.7818787097930908,
      "learning_rate": 0.00019868087256836407,
      "loss": 3.8196,
      "step": 190710
    },
    {
      "epoch": 0.3973333333333333,
      "grad_norm": 0.7532119154930115,
      "learning_rate": 0.00019867154753010468,
      "loss": 3.8977,
      "step": 190720
    },
    {
      "epoch": 0.3973541666666667,
      "grad_norm": 0.847712516784668,
      "learning_rate": 0.0001986622222816035,
      "loss": 3.7959,
      "step": 190730
    },
    {
      "epoch": 0.397375,
      "grad_norm": 0.795255184173584,
      "learning_rate": 0.00019865289682290078,
      "loss": 3.9818,
      "step": 190740
    },
    {
      "epoch": 0.39739583333333334,
      "grad_norm": 0.8369494080543518,
      "learning_rate": 0.00019864357115403677,
      "loss": 3.8464,
      "step": 190750
    },
    {
      "epoch": 0.39741666666666664,
      "grad_norm": 0.7931419610977173,
      "learning_rate": 0.0001986342452750518,
      "loss": 3.8017,
      "step": 190760
    },
    {
      "epoch": 0.3974375,
      "grad_norm": 0.9090033769607544,
      "learning_rate": 0.00019862491918598617,
      "loss": 3.8362,
      "step": 190770
    },
    {
      "epoch": 0.39745833333333336,
      "grad_norm": 0.7247582674026489,
      "learning_rate": 0.0001986155928868801,
      "loss": 3.7677,
      "step": 190780
    },
    {
      "epoch": 0.39747916666666666,
      "grad_norm": 0.7742112874984741,
      "learning_rate": 0.00019860626637777397,
      "loss": 3.8559,
      "step": 190790
    },
    {
      "epoch": 0.3975,
      "grad_norm": 0.7461768984794617,
      "learning_rate": 0.00019859693965870793,
      "loss": 3.7969,
      "step": 190800
    },
    {
      "epoch": 0.3975208333333333,
      "grad_norm": 0.7887992858886719,
      "learning_rate": 0.0001985876127297224,
      "loss": 3.7556,
      "step": 190810
    },
    {
      "epoch": 0.3975416666666667,
      "grad_norm": 0.7403301000595093,
      "learning_rate": 0.0001985782855908576,
      "loss": 3.6483,
      "step": 190820
    },
    {
      "epoch": 0.3975625,
      "grad_norm": 0.7624249458312988,
      "learning_rate": 0.0001985689582421538,
      "loss": 3.7828,
      "step": 190830
    },
    {
      "epoch": 0.39758333333333334,
      "grad_norm": 0.8835012912750244,
      "learning_rate": 0.0001985596306836514,
      "loss": 3.9071,
      "step": 190840
    },
    {
      "epoch": 0.39760416666666665,
      "grad_norm": 0.7598276138305664,
      "learning_rate": 0.0001985503029153906,
      "loss": 3.6614,
      "step": 190850
    },
    {
      "epoch": 0.397625,
      "grad_norm": 0.7164818048477173,
      "learning_rate": 0.00019854097493741168,
      "loss": 3.7947,
      "step": 190860
    },
    {
      "epoch": 0.3976458333333333,
      "grad_norm": 1.103305459022522,
      "learning_rate": 0.00019853164674975493,
      "loss": 3.7935,
      "step": 190870
    },
    {
      "epoch": 0.39766666666666667,
      "grad_norm": 0.7074570059776306,
      "learning_rate": 0.00019852231835246073,
      "loss": 3.7616,
      "step": 190880
    },
    {
      "epoch": 0.3976875,
      "grad_norm": 0.9615219235420227,
      "learning_rate": 0.00019851298974556933,
      "loss": 3.9058,
      "step": 190890
    },
    {
      "epoch": 0.39770833333333333,
      "grad_norm": 0.8199970722198486,
      "learning_rate": 0.00019850366092912097,
      "loss": 3.817,
      "step": 190900
    },
    {
      "epoch": 0.3977291666666667,
      "grad_norm": 0.7919055819511414,
      "learning_rate": 0.00019849433190315601,
      "loss": 3.8016,
      "step": 190910
    },
    {
      "epoch": 0.39775,
      "grad_norm": 0.7180479168891907,
      "learning_rate": 0.00019848500266771474,
      "loss": 3.9136,
      "step": 190920
    },
    {
      "epoch": 0.39777083333333335,
      "grad_norm": 0.7711275219917297,
      "learning_rate": 0.00019847567322283746,
      "loss": 3.6164,
      "step": 190930
    },
    {
      "epoch": 0.39779166666666665,
      "grad_norm": 0.7467184066772461,
      "learning_rate": 0.00019846634356856445,
      "loss": 3.6877,
      "step": 190940
    },
    {
      "epoch": 0.3978125,
      "grad_norm": 0.8217170834541321,
      "learning_rate": 0.000198457013704936,
      "loss": 3.6958,
      "step": 190950
    },
    {
      "epoch": 0.3978333333333333,
      "grad_norm": 0.7262240052223206,
      "learning_rate": 0.00019844768363199247,
      "loss": 3.8902,
      "step": 190960
    },
    {
      "epoch": 0.3978541666666667,
      "grad_norm": 0.8040541410446167,
      "learning_rate": 0.00019843835334977408,
      "loss": 3.7164,
      "step": 190970
    },
    {
      "epoch": 0.397875,
      "grad_norm": 0.710333526134491,
      "learning_rate": 0.00019842902285832121,
      "loss": 3.9039,
      "step": 190980
    },
    {
      "epoch": 0.39789583333333334,
      "grad_norm": 0.875490128993988,
      "learning_rate": 0.00019841969215767414,
      "loss": 3.7312,
      "step": 190990
    },
    {
      "epoch": 0.39791666666666664,
      "grad_norm": 0.8069189786911011,
      "learning_rate": 0.00019841036124787313,
      "loss": 3.914,
      "step": 191000
    },
    {
      "epoch": 0.39791666666666664,
      "eval_loss": 4.168707370758057,
      "eval_runtime": 9.4864,
      "eval_samples_per_second": 1.054,
      "eval_steps_per_second": 0.316,
      "step": 191000
    },
    {
      "epoch": 0.3979375,
      "grad_norm": 0.8052635192871094,
      "learning_rate": 0.0001984010301289585,
      "loss": 3.8077,
      "step": 191010
    },
    {
      "epoch": 0.39795833333333336,
      "grad_norm": 0.8346368670463562,
      "learning_rate": 0.00019839169880097067,
      "loss": 3.7944,
      "step": 191020
    },
    {
      "epoch": 0.39797916666666666,
      "grad_norm": 0.8253406286239624,
      "learning_rate": 0.0001983823672639498,
      "loss": 3.7336,
      "step": 191030
    },
    {
      "epoch": 0.398,
      "grad_norm": 0.7102594971656799,
      "learning_rate": 0.00019837303551793625,
      "loss": 3.951,
      "step": 191040
    },
    {
      "epoch": 0.3980208333333333,
      "grad_norm": 0.787728488445282,
      "learning_rate": 0.00019836370356297035,
      "loss": 3.9224,
      "step": 191050
    },
    {
      "epoch": 0.3980416666666667,
      "grad_norm": 0.8335250616073608,
      "learning_rate": 0.00019835437139909237,
      "loss": 3.7607,
      "step": 191060
    },
    {
      "epoch": 0.3980625,
      "grad_norm": 1.0913732051849365,
      "learning_rate": 0.00019834503902634265,
      "loss": 3.875,
      "step": 191070
    },
    {
      "epoch": 0.39808333333333334,
      "grad_norm": 0.7470784783363342,
      "learning_rate": 0.0001983357064447615,
      "loss": 3.7418,
      "step": 191080
    },
    {
      "epoch": 0.39810416666666665,
      "grad_norm": 0.7684784531593323,
      "learning_rate": 0.00019832637365438925,
      "loss": 3.7717,
      "step": 191090
    },
    {
      "epoch": 0.398125,
      "grad_norm": 0.8299435973167419,
      "learning_rate": 0.0001983170406552662,
      "loss": 3.7764,
      "step": 191100
    },
    {
      "epoch": 0.3981458333333333,
      "grad_norm": 0.7623807787895203,
      "learning_rate": 0.0001983077074474326,
      "loss": 3.8447,
      "step": 191110
    },
    {
      "epoch": 0.39816666666666667,
      "grad_norm": 0.7280346751213074,
      "learning_rate": 0.0001982983740309289,
      "loss": 3.7033,
      "step": 191120
    },
    {
      "epoch": 0.3981875,
      "grad_norm": 0.6908988952636719,
      "learning_rate": 0.00019828904040579529,
      "loss": 3.7594,
      "step": 191130
    },
    {
      "epoch": 0.39820833333333333,
      "grad_norm": 0.7126412391662598,
      "learning_rate": 0.00019827970657207216,
      "loss": 3.8518,
      "step": 191140
    },
    {
      "epoch": 0.3982291666666667,
      "grad_norm": 0.8218973278999329,
      "learning_rate": 0.0001982703725297998,
      "loss": 3.8935,
      "step": 191150
    },
    {
      "epoch": 0.39825,
      "grad_norm": 0.7236319780349731,
      "learning_rate": 0.0001982610382790186,
      "loss": 3.8448,
      "step": 191160
    },
    {
      "epoch": 0.39827083333333335,
      "grad_norm": 0.8412074446678162,
      "learning_rate": 0.00019825170381976872,
      "loss": 3.8864,
      "step": 191170
    },
    {
      "epoch": 0.39829166666666665,
      "grad_norm": 0.7984483242034912,
      "learning_rate": 0.0001982423691520906,
      "loss": 3.7534,
      "step": 191180
    },
    {
      "epoch": 0.3983125,
      "grad_norm": 0.7321339845657349,
      "learning_rate": 0.00019823303427602462,
      "loss": 3.8017,
      "step": 191190
    },
    {
      "epoch": 0.3983333333333333,
      "grad_norm": 0.8236326575279236,
      "learning_rate": 0.00019822369919161094,
      "loss": 3.9269,
      "step": 191200
    },
    {
      "epoch": 0.3983541666666667,
      "grad_norm": 0.742573082447052,
      "learning_rate": 0.00019821436389889002,
      "loss": 3.8148,
      "step": 191210
    },
    {
      "epoch": 0.398375,
      "grad_norm": 0.7830445766448975,
      "learning_rate": 0.0001982050283979021,
      "loss": 3.6563,
      "step": 191220
    },
    {
      "epoch": 0.39839583333333334,
      "grad_norm": 0.9336588382720947,
      "learning_rate": 0.00019819569268868755,
      "loss": 3.9754,
      "step": 191230
    },
    {
      "epoch": 0.39841666666666664,
      "grad_norm": 0.801539957523346,
      "learning_rate": 0.00019818635677128666,
      "loss": 3.6889,
      "step": 191240
    },
    {
      "epoch": 0.3984375,
      "grad_norm": 0.8047687411308289,
      "learning_rate": 0.0001981770206457398,
      "loss": 3.7222,
      "step": 191250
    },
    {
      "epoch": 0.39845833333333336,
      "grad_norm": 0.7210503220558167,
      "learning_rate": 0.0001981676843120873,
      "loss": 3.843,
      "step": 191260
    },
    {
      "epoch": 0.39847916666666666,
      "grad_norm": 0.855412483215332,
      "learning_rate": 0.00019815834777036942,
      "loss": 3.8087,
      "step": 191270
    },
    {
      "epoch": 0.3985,
      "grad_norm": 0.9206030964851379,
      "learning_rate": 0.00019814901102062658,
      "loss": 3.6987,
      "step": 191280
    },
    {
      "epoch": 0.3985208333333333,
      "grad_norm": 0.7634524703025818,
      "learning_rate": 0.00019813967406289907,
      "loss": 3.7751,
      "step": 191290
    },
    {
      "epoch": 0.3985416666666667,
      "grad_norm": 0.7084977626800537,
      "learning_rate": 0.00019813033689722719,
      "loss": 4.0141,
      "step": 191300
    },
    {
      "epoch": 0.3985625,
      "grad_norm": 1.3806315660476685,
      "learning_rate": 0.00019812099952365135,
      "loss": 3.9782,
      "step": 191310
    },
    {
      "epoch": 0.39858333333333335,
      "grad_norm": 0.7951266169548035,
      "learning_rate": 0.00019811166194221182,
      "loss": 3.794,
      "step": 191320
    },
    {
      "epoch": 0.39860416666666665,
      "grad_norm": 0.7267374396324158,
      "learning_rate": 0.00019810232415294897,
      "loss": 3.7317,
      "step": 191330
    },
    {
      "epoch": 0.398625,
      "grad_norm": 0.8157649636268616,
      "learning_rate": 0.0001980929861559031,
      "loss": 3.7978,
      "step": 191340
    },
    {
      "epoch": 0.3986458333333333,
      "grad_norm": 0.7912883758544922,
      "learning_rate": 0.0001980836479511146,
      "loss": 3.7432,
      "step": 191350
    },
    {
      "epoch": 0.39866666666666667,
      "grad_norm": 1.3670989274978638,
      "learning_rate": 0.00019807430953862375,
      "loss": 3.9323,
      "step": 191360
    },
    {
      "epoch": 0.3986875,
      "grad_norm": 1.0105725526809692,
      "learning_rate": 0.00019806497091847086,
      "loss": 3.6799,
      "step": 191370
    },
    {
      "epoch": 0.39870833333333333,
      "grad_norm": 0.740591824054718,
      "learning_rate": 0.0001980556320906964,
      "loss": 3.8338,
      "step": 191380
    },
    {
      "epoch": 0.3987291666666667,
      "grad_norm": 0.9216195940971375,
      "learning_rate": 0.00019804629305534058,
      "loss": 3.9923,
      "step": 191390
    },
    {
      "epoch": 0.39875,
      "grad_norm": 0.7942600250244141,
      "learning_rate": 0.00019803695381244383,
      "loss": 3.708,
      "step": 191400
    },
    {
      "epoch": 0.39877083333333335,
      "grad_norm": 0.8270763754844666,
      "learning_rate": 0.00019802761436204643,
      "loss": 3.6438,
      "step": 191410
    },
    {
      "epoch": 0.39879166666666666,
      "grad_norm": 0.8684861660003662,
      "learning_rate": 0.00019801827470418879,
      "loss": 3.8171,
      "step": 191420
    },
    {
      "epoch": 0.3988125,
      "grad_norm": 0.8563564419746399,
      "learning_rate": 0.00019800893483891115,
      "loss": 3.8321,
      "step": 191430
    },
    {
      "epoch": 0.3988333333333333,
      "grad_norm": 0.8224219083786011,
      "learning_rate": 0.00019799959476625393,
      "loss": 3.7889,
      "step": 191440
    },
    {
      "epoch": 0.3988541666666667,
      "grad_norm": 0.7917088866233826,
      "learning_rate": 0.00019799025448625747,
      "loss": 3.8245,
      "step": 191450
    },
    {
      "epoch": 0.398875,
      "grad_norm": 0.8468177914619446,
      "learning_rate": 0.0001979809139989621,
      "loss": 3.8383,
      "step": 191460
    },
    {
      "epoch": 0.39889583333333334,
      "grad_norm": 0.8838459253311157,
      "learning_rate": 0.00019797157330440817,
      "loss": 3.8907,
      "step": 191470
    },
    {
      "epoch": 0.39891666666666664,
      "grad_norm": 0.712663471698761,
      "learning_rate": 0.00019796223240263605,
      "loss": 4.0601,
      "step": 191480
    },
    {
      "epoch": 0.3989375,
      "grad_norm": 0.7292435765266418,
      "learning_rate": 0.0001979528912936861,
      "loss": 3.8576,
      "step": 191490
    },
    {
      "epoch": 0.39895833333333336,
      "grad_norm": 1.1630405187606812,
      "learning_rate": 0.00019794354997759855,
      "loss": 3.7613,
      "step": 191500
    },
    {
      "epoch": 0.39897916666666666,
      "grad_norm": 0.791410505771637,
      "learning_rate": 0.0001979342084544139,
      "loss": 3.7832,
      "step": 191510
    },
    {
      "epoch": 0.399,
      "grad_norm": 0.8047588467597961,
      "learning_rate": 0.00019792486672417245,
      "loss": 4.121,
      "step": 191520
    },
    {
      "epoch": 0.3990208333333333,
      "grad_norm": 0.7539963722229004,
      "learning_rate": 0.00019791552478691453,
      "loss": 3.7637,
      "step": 191530
    },
    {
      "epoch": 0.3990416666666667,
      "grad_norm": 0.7255217432975769,
      "learning_rate": 0.0001979061826426805,
      "loss": 3.7803,
      "step": 191540
    },
    {
      "epoch": 0.3990625,
      "grad_norm": 0.6986563205718994,
      "learning_rate": 0.00019789684029151075,
      "loss": 3.729,
      "step": 191550
    },
    {
      "epoch": 0.39908333333333335,
      "grad_norm": 0.8064493536949158,
      "learning_rate": 0.0001978874977334456,
      "loss": 3.8875,
      "step": 191560
    },
    {
      "epoch": 0.39910416666666665,
      "grad_norm": 0.6827669739723206,
      "learning_rate": 0.00019787815496852536,
      "loss": 3.859,
      "step": 191570
    },
    {
      "epoch": 0.399125,
      "grad_norm": 0.836388111114502,
      "learning_rate": 0.00019786881199679052,
      "loss": 3.7635,
      "step": 191580
    },
    {
      "epoch": 0.3991458333333333,
      "grad_norm": 0.6878176927566528,
      "learning_rate": 0.00019785946881828133,
      "loss": 3.8601,
      "step": 191590
    },
    {
      "epoch": 0.39916666666666667,
      "grad_norm": 0.978012204170227,
      "learning_rate": 0.0001978501254330382,
      "loss": 3.7285,
      "step": 191600
    },
    {
      "epoch": 0.3991875,
      "grad_norm": 0.9999337196350098,
      "learning_rate": 0.00019784078184110143,
      "loss": 3.6382,
      "step": 191610
    },
    {
      "epoch": 0.39920833333333333,
      "grad_norm": 0.7568350434303284,
      "learning_rate": 0.00019783143804251145,
      "loss": 3.849,
      "step": 191620
    },
    {
      "epoch": 0.3992291666666667,
      "grad_norm": 0.832063615322113,
      "learning_rate": 0.00019782209403730857,
      "loss": 3.8582,
      "step": 191630
    },
    {
      "epoch": 0.39925,
      "grad_norm": 0.7720268964767456,
      "learning_rate": 0.0001978127498255332,
      "loss": 3.7745,
      "step": 191640
    },
    {
      "epoch": 0.39927083333333335,
      "grad_norm": 0.9281533360481262,
      "learning_rate": 0.00019780340540722562,
      "loss": 3.9045,
      "step": 191650
    },
    {
      "epoch": 0.39929166666666666,
      "grad_norm": 0.9698363542556763,
      "learning_rate": 0.00019779406078242634,
      "loss": 3.9542,
      "step": 191660
    },
    {
      "epoch": 0.3993125,
      "grad_norm": 0.8812299966812134,
      "learning_rate": 0.00019778471595117554,
      "loss": 3.8363,
      "step": 191670
    },
    {
      "epoch": 0.3993333333333333,
      "grad_norm": 1.0157008171081543,
      "learning_rate": 0.0001977753709135137,
      "loss": 3.8321,
      "step": 191680
    },
    {
      "epoch": 0.3993541666666667,
      "grad_norm": 0.7885676622390747,
      "learning_rate": 0.00019776602566948123,
      "loss": 3.9818,
      "step": 191690
    },
    {
      "epoch": 0.399375,
      "grad_norm": 0.818938136100769,
      "learning_rate": 0.00019775668021911839,
      "loss": 3.6622,
      "step": 191700
    },
    {
      "epoch": 0.39939583333333334,
      "grad_norm": 0.8554165959358215,
      "learning_rate": 0.0001977473345624656,
      "loss": 3.7489,
      "step": 191710
    },
    {
      "epoch": 0.39941666666666664,
      "grad_norm": 0.8515001535415649,
      "learning_rate": 0.00019773798869956327,
      "loss": 3.9278,
      "step": 191720
    },
    {
      "epoch": 0.3994375,
      "grad_norm": 0.923248827457428,
      "learning_rate": 0.00019772864263045166,
      "loss": 3.9636,
      "step": 191730
    },
    {
      "epoch": 0.39945833333333336,
      "grad_norm": 0.7219491004943848,
      "learning_rate": 0.00019771929635517118,
      "loss": 3.7424,
      "step": 191740
    },
    {
      "epoch": 0.39947916666666666,
      "grad_norm": 0.7800163626670837,
      "learning_rate": 0.00019770994987376234,
      "loss": 3.8787,
      "step": 191750
    },
    {
      "epoch": 0.3995,
      "grad_norm": 0.6960861086845398,
      "learning_rate": 0.00019770060318626532,
      "loss": 4.0191,
      "step": 191760
    },
    {
      "epoch": 0.3995208333333333,
      "grad_norm": 0.8723608255386353,
      "learning_rate": 0.00019769125629272058,
      "loss": 3.7266,
      "step": 191770
    },
    {
      "epoch": 0.3995416666666667,
      "grad_norm": 0.8813350200653076,
      "learning_rate": 0.0001976819091931685,
      "loss": 3.7844,
      "step": 191780
    },
    {
      "epoch": 0.3995625,
      "grad_norm": 0.966973066329956,
      "learning_rate": 0.00019767256188764947,
      "loss": 3.8294,
      "step": 191790
    },
    {
      "epoch": 0.39958333333333335,
      "grad_norm": 0.9542768001556396,
      "learning_rate": 0.00019766321437620385,
      "loss": 3.6988,
      "step": 191800
    },
    {
      "epoch": 0.39960416666666665,
      "grad_norm": 0.7056518793106079,
      "learning_rate": 0.00019765386665887195,
      "loss": 3.7655,
      "step": 191810
    },
    {
      "epoch": 0.399625,
      "grad_norm": 0.7935945391654968,
      "learning_rate": 0.00019764451873569426,
      "loss": 3.7796,
      "step": 191820
    },
    {
      "epoch": 0.3996458333333333,
      "grad_norm": 0.7347752451896667,
      "learning_rate": 0.0001976351706067111,
      "loss": 3.647,
      "step": 191830
    },
    {
      "epoch": 0.39966666666666667,
      "grad_norm": 0.8758161067962646,
      "learning_rate": 0.00019762582227196283,
      "loss": 3.7965,
      "step": 191840
    },
    {
      "epoch": 0.3996875,
      "grad_norm": 0.8084705471992493,
      "learning_rate": 0.00019761647373148987,
      "loss": 4.0285,
      "step": 191850
    },
    {
      "epoch": 0.39970833333333333,
      "grad_norm": 0.7854389548301697,
      "learning_rate": 0.00019760712498533264,
      "loss": 3.8247,
      "step": 191860
    },
    {
      "epoch": 0.3997291666666667,
      "grad_norm": 0.7624967694282532,
      "learning_rate": 0.00019759777603353142,
      "loss": 3.8292,
      "step": 191870
    },
    {
      "epoch": 0.39975,
      "grad_norm": 0.8129430413246155,
      "learning_rate": 0.00019758842687612663,
      "loss": 3.7365,
      "step": 191880
    },
    {
      "epoch": 0.39977083333333335,
      "grad_norm": 0.7011585831642151,
      "learning_rate": 0.00019757907751315876,
      "loss": 3.8768,
      "step": 191890
    },
    {
      "epoch": 0.39979166666666666,
      "grad_norm": 0.7265636324882507,
      "learning_rate": 0.00019756972794466804,
      "loss": 3.7115,
      "step": 191900
    },
    {
      "epoch": 0.3998125,
      "grad_norm": 0.9397512674331665,
      "learning_rate": 0.0001975603781706949,
      "loss": 4.1352,
      "step": 191910
    },
    {
      "epoch": 0.3998333333333333,
      "grad_norm": 0.933179497718811,
      "learning_rate": 0.00019755102819127982,
      "loss": 3.9643,
      "step": 191920
    },
    {
      "epoch": 0.3998541666666667,
      "grad_norm": 0.8393369913101196,
      "learning_rate": 0.0001975416780064631,
      "loss": 3.8497,
      "step": 191930
    },
    {
      "epoch": 0.399875,
      "grad_norm": 0.8453091979026794,
      "learning_rate": 0.0001975323276162851,
      "loss": 3.962,
      "step": 191940
    },
    {
      "epoch": 0.39989583333333334,
      "grad_norm": 0.7503910660743713,
      "learning_rate": 0.00019752297702078632,
      "loss": 3.906,
      "step": 191950
    },
    {
      "epoch": 0.39991666666666664,
      "grad_norm": 0.7797299027442932,
      "learning_rate": 0.00019751362622000707,
      "loss": 3.8125,
      "step": 191960
    },
    {
      "epoch": 0.3999375,
      "grad_norm": 0.7802948951721191,
      "learning_rate": 0.00019750427521398776,
      "loss": 3.5995,
      "step": 191970
    },
    {
      "epoch": 0.39995833333333336,
      "grad_norm": 0.6887674927711487,
      "learning_rate": 0.00019749492400276882,
      "loss": 3.679,
      "step": 191980
    },
    {
      "epoch": 0.39997916666666666,
      "grad_norm": 0.8302274942398071,
      "learning_rate": 0.00019748557258639056,
      "loss": 3.8017,
      "step": 191990
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8542770147323608,
      "learning_rate": 0.00019747622096489341,
      "loss": 3.8568,
      "step": 192000
    },
    {
      "epoch": 0.4,
      "eval_loss": 4.165684700012207,
      "eval_runtime": 10.6523,
      "eval_samples_per_second": 0.939,
      "eval_steps_per_second": 0.282,
      "step": 192000
    },
    {
      "epoch": 0.4000208333333333,
      "grad_norm": 0.7043061256408691,
      "learning_rate": 0.0001974668691383178,
      "loss": 3.8855,
      "step": 192010
    },
    {
      "epoch": 0.4000416666666667,
      "grad_norm": 0.7178778052330017,
      "learning_rate": 0.0001974575171067041,
      "loss": 3.8541,
      "step": 192020
    },
    {
      "epoch": 0.4000625,
      "grad_norm": 0.8512570858001709,
      "learning_rate": 0.00019744816487009278,
      "loss": 3.8117,
      "step": 192030
    },
    {
      "epoch": 0.40008333333333335,
      "grad_norm": 0.9873374700546265,
      "learning_rate": 0.00019743881242852406,
      "loss": 3.9878,
      "step": 192040
    },
    {
      "epoch": 0.40010416666666665,
      "grad_norm": 0.8564104437828064,
      "learning_rate": 0.0001974294597820385,
      "loss": 3.7549,
      "step": 192050
    },
    {
      "epoch": 0.400125,
      "grad_norm": 0.7392061948776245,
      "learning_rate": 0.00019742010693067646,
      "loss": 3.7727,
      "step": 192060
    },
    {
      "epoch": 0.4001458333333333,
      "grad_norm": 0.848007082939148,
      "learning_rate": 0.0001974107538744783,
      "loss": 3.7715,
      "step": 192070
    },
    {
      "epoch": 0.40016666666666667,
      "grad_norm": 0.7437869906425476,
      "learning_rate": 0.0001974014006134845,
      "loss": 3.8237,
      "step": 192080
    },
    {
      "epoch": 0.4001875,
      "grad_norm": 0.8589922189712524,
      "learning_rate": 0.00019739204714773535,
      "loss": 4.0429,
      "step": 192090
    },
    {
      "epoch": 0.40020833333333333,
      "grad_norm": 0.772394061088562,
      "learning_rate": 0.00019738269347727134,
      "loss": 3.8239,
      "step": 192100
    },
    {
      "epoch": 0.4002291666666667,
      "grad_norm": 0.7432374358177185,
      "learning_rate": 0.00019737333960213286,
      "loss": 3.8088,
      "step": 192110
    },
    {
      "epoch": 0.40025,
      "grad_norm": 0.7587878704071045,
      "learning_rate": 0.0001973639855223603,
      "loss": 3.6054,
      "step": 192120
    },
    {
      "epoch": 0.40027083333333335,
      "grad_norm": 0.7735959887504578,
      "learning_rate": 0.00019735463123799404,
      "loss": 3.8281,
      "step": 192130
    },
    {
      "epoch": 0.40029166666666666,
      "grad_norm": 0.9181017875671387,
      "learning_rate": 0.00019734527674907456,
      "loss": 3.9703,
      "step": 192140
    },
    {
      "epoch": 0.4003125,
      "grad_norm": 0.7546073794364929,
      "learning_rate": 0.00019733592205564216,
      "loss": 3.7813,
      "step": 192150
    },
    {
      "epoch": 0.4003333333333333,
      "grad_norm": 0.7527879476547241,
      "learning_rate": 0.0001973265671577374,
      "loss": 3.9944,
      "step": 192160
    },
    {
      "epoch": 0.4003541666666667,
      "grad_norm": 0.6423619985580444,
      "learning_rate": 0.00019731721205540055,
      "loss": 3.7543,
      "step": 192170
    },
    {
      "epoch": 0.400375,
      "grad_norm": 0.9198228716850281,
      "learning_rate": 0.0001973078567486721,
      "loss": 3.7579,
      "step": 192180
    },
    {
      "epoch": 0.40039583333333334,
      "grad_norm": 0.7905765175819397,
      "learning_rate": 0.0001972985012375924,
      "loss": 4.0969,
      "step": 192190
    },
    {
      "epoch": 0.40041666666666664,
      "grad_norm": 0.6929128766059875,
      "learning_rate": 0.00019728914552220192,
      "loss": 3.7058,
      "step": 192200
    },
    {
      "epoch": 0.4004375,
      "grad_norm": 0.7736326456069946,
      "learning_rate": 0.00019727978960254106,
      "loss": 4.0238,
      "step": 192210
    },
    {
      "epoch": 0.40045833333333336,
      "grad_norm": 0.7336540222167969,
      "learning_rate": 0.0001972704334786502,
      "loss": 3.7842,
      "step": 192220
    },
    {
      "epoch": 0.40047916666666666,
      "grad_norm": 0.8897665739059448,
      "learning_rate": 0.00019726107715056982,
      "loss": 3.819,
      "step": 192230
    },
    {
      "epoch": 0.4005,
      "grad_norm": 0.8548793196678162,
      "learning_rate": 0.0001972517206183402,
      "loss": 3.8632,
      "step": 192240
    },
    {
      "epoch": 0.4005208333333333,
      "grad_norm": 0.9309865236282349,
      "learning_rate": 0.00019724236388200198,
      "loss": 3.9365,
      "step": 192250
    },
    {
      "epoch": 0.4005416666666667,
      "grad_norm": 0.7029681205749512,
      "learning_rate": 0.00019723300694159536,
      "loss": 3.8786,
      "step": 192260
    },
    {
      "epoch": 0.4005625,
      "grad_norm": 0.6853303909301758,
      "learning_rate": 0.00019722364979716085,
      "loss": 3.8818,
      "step": 192270
    },
    {
      "epoch": 0.40058333333333335,
      "grad_norm": 0.7989661693572998,
      "learning_rate": 0.0001972142924487389,
      "loss": 3.9701,
      "step": 192280
    },
    {
      "epoch": 0.40060416666666665,
      "grad_norm": 0.7503150701522827,
      "learning_rate": 0.0001972049348963699,
      "loss": 3.8883,
      "step": 192290
    },
    {
      "epoch": 0.400625,
      "grad_norm": 0.7140821218490601,
      "learning_rate": 0.00019719557714009423,
      "loss": 3.6849,
      "step": 192300
    },
    {
      "epoch": 0.4006458333333333,
      "grad_norm": 0.7752259969711304,
      "learning_rate": 0.00019718621917995234,
      "loss": 3.8934,
      "step": 192310
    },
    {
      "epoch": 0.40066666666666667,
      "grad_norm": 0.6568371057510376,
      "learning_rate": 0.0001971768610159847,
      "loss": 3.8492,
      "step": 192320
    },
    {
      "epoch": 0.4006875,
      "grad_norm": 0.8617711663246155,
      "learning_rate": 0.00019716750264823168,
      "loss": 3.7447,
      "step": 192330
    },
    {
      "epoch": 0.40070833333333333,
      "grad_norm": 0.7226147651672363,
      "learning_rate": 0.0001971581440767337,
      "loss": 3.927,
      "step": 192340
    },
    {
      "epoch": 0.4007291666666667,
      "grad_norm": 0.908633291721344,
      "learning_rate": 0.00019714878530153123,
      "loss": 3.7423,
      "step": 192350
    },
    {
      "epoch": 0.40075,
      "grad_norm": 0.8764553666114807,
      "learning_rate": 0.00019713942632266465,
      "loss": 3.6411,
      "step": 192360
    },
    {
      "epoch": 0.40077083333333335,
      "grad_norm": 0.70762038230896,
      "learning_rate": 0.00019713006714017442,
      "loss": 3.8819,
      "step": 192370
    },
    {
      "epoch": 0.40079166666666666,
      "grad_norm": 0.7428051829338074,
      "learning_rate": 0.00019712070775410094,
      "loss": 3.8703,
      "step": 192380
    },
    {
      "epoch": 0.4008125,
      "grad_norm": 0.8408769965171814,
      "learning_rate": 0.00019711134816448471,
      "loss": 3.7144,
      "step": 192390
    },
    {
      "epoch": 0.4008333333333333,
      "grad_norm": 0.8624700307846069,
      "learning_rate": 0.00019710198837136604,
      "loss": 3.7416,
      "step": 192400
    },
    {
      "epoch": 0.4008541666666667,
      "grad_norm": 0.8023311495780945,
      "learning_rate": 0.00019709262837478545,
      "loss": 3.7388,
      "step": 192410
    },
    {
      "epoch": 0.400875,
      "grad_norm": 0.7601895928382874,
      "learning_rate": 0.00019708326817478335,
      "loss": 3.8409,
      "step": 192420
    },
    {
      "epoch": 0.40089583333333334,
      "grad_norm": 0.7444944977760315,
      "learning_rate": 0.00019707390777140015,
      "loss": 3.9469,
      "step": 192430
    },
    {
      "epoch": 0.40091666666666664,
      "grad_norm": 0.7998902201652527,
      "learning_rate": 0.0001970645471646763,
      "loss": 3.8481,
      "step": 192440
    },
    {
      "epoch": 0.4009375,
      "grad_norm": 1.0255452394485474,
      "learning_rate": 0.00019705518635465227,
      "loss": 3.8843,
      "step": 192450
    },
    {
      "epoch": 0.40095833333333336,
      "grad_norm": 0.824369490146637,
      "learning_rate": 0.00019704582534136846,
      "loss": 3.8601,
      "step": 192460
    },
    {
      "epoch": 0.40097916666666666,
      "grad_norm": 0.7302138805389404,
      "learning_rate": 0.00019703646412486524,
      "loss": 4.0095,
      "step": 192470
    },
    {
      "epoch": 0.401,
      "grad_norm": 0.7271687984466553,
      "learning_rate": 0.00019702710270518318,
      "loss": 3.8229,
      "step": 192480
    },
    {
      "epoch": 0.4010208333333333,
      "grad_norm": 0.7835555076599121,
      "learning_rate": 0.00019701774108236262,
      "loss": 3.8971,
      "step": 192490
    },
    {
      "epoch": 0.4010416666666667,
      "grad_norm": 0.7977250218391418,
      "learning_rate": 0.00019700837925644405,
      "loss": 3.8826,
      "step": 192500
    },
    {
      "epoch": 0.4010625,
      "grad_norm": 0.776595950126648,
      "learning_rate": 0.00019699901722746785,
      "loss": 3.7783,
      "step": 192510
    },
    {
      "epoch": 0.40108333333333335,
      "grad_norm": 0.8037806749343872,
      "learning_rate": 0.00019698965499547453,
      "loss": 3.8945,
      "step": 192520
    },
    {
      "epoch": 0.40110416666666665,
      "grad_norm": 0.8273223042488098,
      "learning_rate": 0.00019698029256050452,
      "loss": 4.028,
      "step": 192530
    },
    {
      "epoch": 0.401125,
      "grad_norm": 0.6993294954299927,
      "learning_rate": 0.0001969709299225982,
      "loss": 3.8936,
      "step": 192540
    },
    {
      "epoch": 0.4011458333333333,
      "grad_norm": 0.9222604036331177,
      "learning_rate": 0.00019696156708179607,
      "loss": 3.9176,
      "step": 192550
    },
    {
      "epoch": 0.40116666666666667,
      "grad_norm": 0.7986344695091248,
      "learning_rate": 0.0001969522040381386,
      "loss": 3.9838,
      "step": 192560
    },
    {
      "epoch": 0.4011875,
      "grad_norm": 0.7723268866539001,
      "learning_rate": 0.0001969428407916661,
      "loss": 3.7592,
      "step": 192570
    },
    {
      "epoch": 0.40120833333333333,
      "grad_norm": 0.7536670565605164,
      "learning_rate": 0.0001969334773424192,
      "loss": 3.9722,
      "step": 192580
    },
    {
      "epoch": 0.4012291666666667,
      "grad_norm": 0.8277260065078735,
      "learning_rate": 0.00019692411369043824,
      "loss": 3.7318,
      "step": 192590
    },
    {
      "epoch": 0.40125,
      "grad_norm": 0.8336095809936523,
      "learning_rate": 0.00019691474983576365,
      "loss": 4.0003,
      "step": 192600
    },
    {
      "epoch": 0.40127083333333335,
      "grad_norm": 0.9293031692504883,
      "learning_rate": 0.0001969053857784359,
      "loss": 3.8188,
      "step": 192610
    },
    {
      "epoch": 0.40129166666666666,
      "grad_norm": 0.8097705245018005,
      "learning_rate": 0.00019689602151849552,
      "loss": 3.7953,
      "step": 192620
    },
    {
      "epoch": 0.4013125,
      "grad_norm": 0.7958315014839172,
      "learning_rate": 0.00019688665705598282,
      "loss": 3.7688,
      "step": 192630
    },
    {
      "epoch": 0.4013333333333333,
      "grad_norm": 0.8587836623191833,
      "learning_rate": 0.00019687729239093832,
      "loss": 3.7587,
      "step": 192640
    },
    {
      "epoch": 0.4013541666666667,
      "grad_norm": 0.8601878881454468,
      "learning_rate": 0.00019686792752340255,
      "loss": 3.7981,
      "step": 192650
    },
    {
      "epoch": 0.401375,
      "grad_norm": 0.9479457139968872,
      "learning_rate": 0.00019685856245341582,
      "loss": 3.7403,
      "step": 192660
    },
    {
      "epoch": 0.40139583333333334,
      "grad_norm": 0.814315140247345,
      "learning_rate": 0.00019684919718101866,
      "loss": 3.8499,
      "step": 192670
    },
    {
      "epoch": 0.40141666666666664,
      "grad_norm": 0.8663625121116638,
      "learning_rate": 0.00019683983170625148,
      "loss": 3.6927,
      "step": 192680
    },
    {
      "epoch": 0.4014375,
      "grad_norm": 0.7082957029342651,
      "learning_rate": 0.00019683046602915483,
      "loss": 3.8807,
      "step": 192690
    },
    {
      "epoch": 0.4014583333333333,
      "grad_norm": 0.7292149066925049,
      "learning_rate": 0.00019682110014976903,
      "loss": 3.9532,
      "step": 192700
    },
    {
      "epoch": 0.40147916666666666,
      "grad_norm": 0.713700532913208,
      "learning_rate": 0.00019681173406813467,
      "loss": 3.7891,
      "step": 192710
    },
    {
      "epoch": 0.4015,
      "grad_norm": 0.7231895327568054,
      "learning_rate": 0.00019680236778429213,
      "loss": 3.8934,
      "step": 192720
    },
    {
      "epoch": 0.4015208333333333,
      "grad_norm": 0.652346670627594,
      "learning_rate": 0.00019679300129828191,
      "loss": 3.8591,
      "step": 192730
    },
    {
      "epoch": 0.4015416666666667,
      "grad_norm": 0.8335385918617249,
      "learning_rate": 0.00019678363461014443,
      "loss": 3.8642,
      "step": 192740
    },
    {
      "epoch": 0.4015625,
      "grad_norm": 0.8740376830101013,
      "learning_rate": 0.00019677426771992016,
      "loss": 3.7042,
      "step": 192750
    },
    {
      "epoch": 0.40158333333333335,
      "grad_norm": 0.9163336157798767,
      "learning_rate": 0.00019676490062764957,
      "loss": 3.8354,
      "step": 192760
    },
    {
      "epoch": 0.40160416666666665,
      "grad_norm": 0.8528696298599243,
      "learning_rate": 0.0001967555333333731,
      "loss": 3.8978,
      "step": 192770
    },
    {
      "epoch": 0.401625,
      "grad_norm": 0.7351519465446472,
      "learning_rate": 0.00019674616583713122,
      "loss": 3.6726,
      "step": 192780
    },
    {
      "epoch": 0.4016458333333333,
      "grad_norm": 0.7910613417625427,
      "learning_rate": 0.0001967367981389645,
      "loss": 3.8577,
      "step": 192790
    },
    {
      "epoch": 0.40166666666666667,
      "grad_norm": 0.8190933465957642,
      "learning_rate": 0.00019672743023891324,
      "loss": 3.7213,
      "step": 192800
    },
    {
      "epoch": 0.4016875,
      "grad_norm": 0.754939079284668,
      "learning_rate": 0.000196718062137018,
      "loss": 3.9108,
      "step": 192810
    },
    {
      "epoch": 0.40170833333333333,
      "grad_norm": 0.8300032019615173,
      "learning_rate": 0.00019670869383331922,
      "loss": 3.7655,
      "step": 192820
    },
    {
      "epoch": 0.4017291666666667,
      "grad_norm": 0.6754395365715027,
      "learning_rate": 0.00019669932532785734,
      "loss": 3.8761,
      "step": 192830
    },
    {
      "epoch": 0.40175,
      "grad_norm": 0.8462563157081604,
      "learning_rate": 0.0001966899566206729,
      "loss": 3.8865,
      "step": 192840
    },
    {
      "epoch": 0.40177083333333335,
      "grad_norm": 0.7978268265724182,
      "learning_rate": 0.0001966805877118063,
      "loss": 3.7364,
      "step": 192850
    },
    {
      "epoch": 0.40179166666666666,
      "grad_norm": 0.9549605846405029,
      "learning_rate": 0.00019667121860129805,
      "loss": 3.731,
      "step": 192860
    },
    {
      "epoch": 0.4018125,
      "grad_norm": 0.7477754354476929,
      "learning_rate": 0.0001966618492891886,
      "loss": 3.8136,
      "step": 192870
    },
    {
      "epoch": 0.4018333333333333,
      "grad_norm": 0.7612781524658203,
      "learning_rate": 0.00019665247977551843,
      "loss": 3.7682,
      "step": 192880
    },
    {
      "epoch": 0.4018541666666667,
      "grad_norm": 0.7270643711090088,
      "learning_rate": 0.00019664311006032805,
      "loss": 3.7723,
      "step": 192890
    },
    {
      "epoch": 0.401875,
      "grad_norm": 0.7883870601654053,
      "learning_rate": 0.00019663374014365788,
      "loss": 3.7132,
      "step": 192900
    },
    {
      "epoch": 0.40189583333333334,
      "grad_norm": 1.1073191165924072,
      "learning_rate": 0.00019662437002554838,
      "loss": 3.7811,
      "step": 192910
    },
    {
      "epoch": 0.40191666666666664,
      "grad_norm": 0.7220986485481262,
      "learning_rate": 0.00019661499970604008,
      "loss": 3.8525,
      "step": 192920
    },
    {
      "epoch": 0.4019375,
      "grad_norm": 0.6848151683807373,
      "learning_rate": 0.00019660562918517348,
      "loss": 3.7898,
      "step": 192930
    },
    {
      "epoch": 0.4019583333333333,
      "grad_norm": 0.6969507932662964,
      "learning_rate": 0.00019659625846298889,
      "loss": 3.9701,
      "step": 192940
    },
    {
      "epoch": 0.40197916666666667,
      "grad_norm": 0.7639278769493103,
      "learning_rate": 0.00019658688753952704,
      "loss": 3.8622,
      "step": 192950
    },
    {
      "epoch": 0.402,
      "grad_norm": 0.7501804232597351,
      "learning_rate": 0.0001965775164148282,
      "loss": 3.7953,
      "step": 192960
    },
    {
      "epoch": 0.4020208333333333,
      "grad_norm": 0.7900826930999756,
      "learning_rate": 0.00019656814508893294,
      "loss": 3.8516,
      "step": 192970
    },
    {
      "epoch": 0.4020416666666667,
      "grad_norm": 0.707801342010498,
      "learning_rate": 0.00019655877356188173,
      "loss": 3.9601,
      "step": 192980
    },
    {
      "epoch": 0.4020625,
      "grad_norm": 0.9077727198600769,
      "learning_rate": 0.00019654940183371506,
      "loss": 3.8635,
      "step": 192990
    },
    {
      "epoch": 0.40208333333333335,
      "grad_norm": 0.7449885606765747,
      "learning_rate": 0.0001965400299044734,
      "loss": 3.9354,
      "step": 193000
    },
    {
      "epoch": 0.40208333333333335,
      "eval_loss": 4.176550388336182,
      "eval_runtime": 9.9152,
      "eval_samples_per_second": 1.009,
      "eval_steps_per_second": 0.303,
      "step": 193000
    },
    {
      "epoch": 0.40210416666666665,
      "grad_norm": 0.7832927107810974,
      "learning_rate": 0.0001965306577741972,
      "loss": 4.0786,
      "step": 193010
    },
    {
      "epoch": 0.402125,
      "grad_norm": 0.7875365018844604,
      "learning_rate": 0.00019652128544292698,
      "loss": 3.8019,
      "step": 193020
    },
    {
      "epoch": 0.4021458333333333,
      "grad_norm": 0.6622178554534912,
      "learning_rate": 0.00019651191291070324,
      "loss": 3.8864,
      "step": 193030
    },
    {
      "epoch": 0.4021666666666667,
      "grad_norm": 0.7865875363349915,
      "learning_rate": 0.00019650254017756645,
      "loss": 4.0521,
      "step": 193040
    },
    {
      "epoch": 0.4021875,
      "grad_norm": 0.8028092980384827,
      "learning_rate": 0.0001964931672435571,
      "loss": 3.7266,
      "step": 193050
    },
    {
      "epoch": 0.40220833333333333,
      "grad_norm": 0.724042534828186,
      "learning_rate": 0.00019648379410871564,
      "loss": 3.7991,
      "step": 193060
    },
    {
      "epoch": 0.4022291666666667,
      "grad_norm": 0.7212380766868591,
      "learning_rate": 0.00019647442077308259,
      "loss": 3.9667,
      "step": 193070
    },
    {
      "epoch": 0.40225,
      "grad_norm": 0.7859441637992859,
      "learning_rate": 0.00019646504723669844,
      "loss": 3.8693,
      "step": 193080
    },
    {
      "epoch": 0.40227083333333336,
      "grad_norm": 0.7274523973464966,
      "learning_rate": 0.00019645567349960372,
      "loss": 3.9184,
      "step": 193090
    },
    {
      "epoch": 0.40229166666666666,
      "grad_norm": 0.7180446982383728,
      "learning_rate": 0.00019644629956183887,
      "loss": 3.9721,
      "step": 193100
    },
    {
      "epoch": 0.4023125,
      "grad_norm": 0.7775095105171204,
      "learning_rate": 0.0001964369254234443,
      "loss": 3.8657,
      "step": 193110
    },
    {
      "epoch": 0.4023333333333333,
      "grad_norm": 0.8668113350868225,
      "learning_rate": 0.00019642755108446072,
      "loss": 3.8523,
      "step": 193120
    },
    {
      "epoch": 0.4023541666666667,
      "grad_norm": 0.7690739631652832,
      "learning_rate": 0.00019641817654492846,
      "loss": 3.7198,
      "step": 193130
    },
    {
      "epoch": 0.402375,
      "grad_norm": 0.8622471690177917,
      "learning_rate": 0.000196408801804888,
      "loss": 3.7953,
      "step": 193140
    },
    {
      "epoch": 0.40239583333333334,
      "grad_norm": 0.7820678949356079,
      "learning_rate": 0.00019639942686437993,
      "loss": 3.6999,
      "step": 193150
    },
    {
      "epoch": 0.40241666666666664,
      "grad_norm": 0.7442945837974548,
      "learning_rate": 0.0001963900517234447,
      "loss": 3.9085,
      "step": 193160
    },
    {
      "epoch": 0.4024375,
      "grad_norm": 0.769601047039032,
      "learning_rate": 0.00019638067638212277,
      "loss": 3.9145,
      "step": 193170
    },
    {
      "epoch": 0.4024583333333333,
      "grad_norm": 0.7086482644081116,
      "learning_rate": 0.00019637130084045471,
      "loss": 3.8644,
      "step": 193180
    },
    {
      "epoch": 0.40247916666666667,
      "grad_norm": 0.7601234912872314,
      "learning_rate": 0.000196361925098481,
      "loss": 3.9221,
      "step": 193190
    },
    {
      "epoch": 0.4025,
      "grad_norm": 0.7640495300292969,
      "learning_rate": 0.0001963525491562421,
      "loss": 3.9348,
      "step": 193200
    },
    {
      "epoch": 0.4025208333333333,
      "grad_norm": 0.7407307028770447,
      "learning_rate": 0.00019634317301377854,
      "loss": 3.8031,
      "step": 193210
    },
    {
      "epoch": 0.4025416666666667,
      "grad_norm": 0.8883484601974487,
      "learning_rate": 0.00019633379667113082,
      "loss": 3.9013,
      "step": 193220
    },
    {
      "epoch": 0.4025625,
      "grad_norm": 0.9664323925971985,
      "learning_rate": 0.00019632442012833943,
      "loss": 3.8759,
      "step": 193230
    },
    {
      "epoch": 0.40258333333333335,
      "grad_norm": 1.1723296642303467,
      "learning_rate": 0.0001963150433854449,
      "loss": 3.7304,
      "step": 193240
    },
    {
      "epoch": 0.40260416666666665,
      "grad_norm": 0.7398163080215454,
      "learning_rate": 0.0001963056664424877,
      "loss": 3.8347,
      "step": 193250
    },
    {
      "epoch": 0.402625,
      "grad_norm": 0.8132385611534119,
      "learning_rate": 0.00019629628929950836,
      "loss": 3.8851,
      "step": 193260
    },
    {
      "epoch": 0.4026458333333333,
      "grad_norm": 0.7238891124725342,
      "learning_rate": 0.00019628691195654736,
      "loss": 3.8867,
      "step": 193270
    },
    {
      "epoch": 0.4026666666666667,
      "grad_norm": 0.8043224811553955,
      "learning_rate": 0.00019627753441364525,
      "loss": 3.9553,
      "step": 193280
    },
    {
      "epoch": 0.4026875,
      "grad_norm": 0.8779313564300537,
      "learning_rate": 0.0001962681566708425,
      "loss": 4.0303,
      "step": 193290
    },
    {
      "epoch": 0.40270833333333333,
      "grad_norm": 0.7616326212882996,
      "learning_rate": 0.00019625877872817961,
      "loss": 3.8842,
      "step": 193300
    },
    {
      "epoch": 0.4027291666666667,
      "grad_norm": 0.7503374218940735,
      "learning_rate": 0.00019624940058569708,
      "loss": 3.8872,
      "step": 193310
    },
    {
      "epoch": 0.40275,
      "grad_norm": 0.947996973991394,
      "learning_rate": 0.0001962400222434355,
      "loss": 3.738,
      "step": 193320
    },
    {
      "epoch": 0.40277083333333336,
      "grad_norm": 0.7543661594390869,
      "learning_rate": 0.00019623064370143532,
      "loss": 3.8439,
      "step": 193330
    },
    {
      "epoch": 0.40279166666666666,
      "grad_norm": 0.8761916756629944,
      "learning_rate": 0.00019622126495973702,
      "loss": 3.7451,
      "step": 193340
    },
    {
      "epoch": 0.4028125,
      "grad_norm": 0.795881986618042,
      "learning_rate": 0.0001962118860183812,
      "loss": 3.9352,
      "step": 193350
    },
    {
      "epoch": 0.4028333333333333,
      "grad_norm": 0.8176562786102295,
      "learning_rate": 0.0001962025068774083,
      "loss": 3.8978,
      "step": 193360
    },
    {
      "epoch": 0.4028541666666667,
      "grad_norm": 1.0988482236862183,
      "learning_rate": 0.00019619312753685886,
      "loss": 3.8711,
      "step": 193370
    },
    {
      "epoch": 0.402875,
      "grad_norm": 0.7280076742172241,
      "learning_rate": 0.0001961837479967734,
      "loss": 3.8792,
      "step": 193380
    },
    {
      "epoch": 0.40289583333333334,
      "grad_norm": 0.9893854856491089,
      "learning_rate": 0.0001961743682571924,
      "loss": 3.917,
      "step": 193390
    },
    {
      "epoch": 0.40291666666666665,
      "grad_norm": 0.7684248685836792,
      "learning_rate": 0.00019616498831815648,
      "loss": 3.8324,
      "step": 193400
    },
    {
      "epoch": 0.4029375,
      "grad_norm": 0.7445756196975708,
      "learning_rate": 0.000196155608179706,
      "loss": 3.7677,
      "step": 193410
    },
    {
      "epoch": 0.4029583333333333,
      "grad_norm": 0.7948639988899231,
      "learning_rate": 0.0001961462278418816,
      "loss": 3.6996,
      "step": 193420
    },
    {
      "epoch": 0.40297916666666667,
      "grad_norm": 0.8435602784156799,
      "learning_rate": 0.0001961368473047238,
      "loss": 3.7586,
      "step": 193430
    },
    {
      "epoch": 0.403,
      "grad_norm": 0.7129584550857544,
      "learning_rate": 0.00019612746656827296,
      "loss": 3.8414,
      "step": 193440
    },
    {
      "epoch": 0.40302083333333333,
      "grad_norm": 0.9391682744026184,
      "learning_rate": 0.0001961180856325698,
      "loss": 3.7597,
      "step": 193450
    },
    {
      "epoch": 0.4030416666666667,
      "grad_norm": 0.7521688938140869,
      "learning_rate": 0.00019610870449765483,
      "loss": 3.7407,
      "step": 193460
    },
    {
      "epoch": 0.4030625,
      "grad_norm": 0.7345401644706726,
      "learning_rate": 0.00019609932316356842,
      "loss": 3.7949,
      "step": 193470
    },
    {
      "epoch": 0.40308333333333335,
      "grad_norm": 0.7719283699989319,
      "learning_rate": 0.00019608994163035118,
      "loss": 3.8827,
      "step": 193480
    },
    {
      "epoch": 0.40310416666666665,
      "grad_norm": 0.8424518704414368,
      "learning_rate": 0.0001960805598980437,
      "loss": 3.7375,
      "step": 193490
    },
    {
      "epoch": 0.403125,
      "grad_norm": 0.8682976365089417,
      "learning_rate": 0.0001960711779666864,
      "loss": 3.8643,
      "step": 193500
    },
    {
      "epoch": 0.4031458333333333,
      "grad_norm": 0.7650973200798035,
      "learning_rate": 0.00019606179583631984,
      "loss": 3.692,
      "step": 193510
    },
    {
      "epoch": 0.4031666666666667,
      "grad_norm": 0.7394102811813354,
      "learning_rate": 0.00019605241350698457,
      "loss": 3.8326,
      "step": 193520
    },
    {
      "epoch": 0.4031875,
      "grad_norm": 0.9968351721763611,
      "learning_rate": 0.00019604303097872107,
      "loss": 3.7414,
      "step": 193530
    },
    {
      "epoch": 0.40320833333333334,
      "grad_norm": 1.0139635801315308,
      "learning_rate": 0.00019603364825156996,
      "loss": 3.9862,
      "step": 193540
    },
    {
      "epoch": 0.4032291666666667,
      "grad_norm": 1.137591004371643,
      "learning_rate": 0.00019602426532557165,
      "loss": 3.8516,
      "step": 193550
    },
    {
      "epoch": 0.40325,
      "grad_norm": 0.6880180835723877,
      "learning_rate": 0.00019601488220076678,
      "loss": 3.8207,
      "step": 193560
    },
    {
      "epoch": 0.40327083333333336,
      "grad_norm": 1.2420454025268555,
      "learning_rate": 0.0001960054988771958,
      "loss": 3.8391,
      "step": 193570
    },
    {
      "epoch": 0.40329166666666666,
      "grad_norm": 0.8277884125709534,
      "learning_rate": 0.00019599611535489928,
      "loss": 3.8914,
      "step": 193580
    },
    {
      "epoch": 0.4033125,
      "grad_norm": 0.92365962266922,
      "learning_rate": 0.00019598673163391777,
      "loss": 3.83,
      "step": 193590
    },
    {
      "epoch": 0.4033333333333333,
      "grad_norm": 0.7006399035453796,
      "learning_rate": 0.00019597734771429178,
      "loss": 3.899,
      "step": 193600
    },
    {
      "epoch": 0.4033541666666667,
      "grad_norm": 0.8776986002922058,
      "learning_rate": 0.00019596796359606185,
      "loss": 3.8336,
      "step": 193610
    },
    {
      "epoch": 0.403375,
      "grad_norm": 0.8294241428375244,
      "learning_rate": 0.00019595857927926847,
      "loss": 3.861,
      "step": 193620
    },
    {
      "epoch": 0.40339583333333334,
      "grad_norm": 0.7669289112091064,
      "learning_rate": 0.00019594919476395228,
      "loss": 3.9155,
      "step": 193630
    },
    {
      "epoch": 0.40341666666666665,
      "grad_norm": 0.7294880747795105,
      "learning_rate": 0.0001959398100501537,
      "loss": 3.773,
      "step": 193640
    },
    {
      "epoch": 0.4034375,
      "grad_norm": 0.836288571357727,
      "learning_rate": 0.00019593042513791332,
      "loss": 3.7999,
      "step": 193650
    },
    {
      "epoch": 0.4034583333333333,
      "grad_norm": 0.7971420884132385,
      "learning_rate": 0.00019592104002727175,
      "loss": 3.8004,
      "step": 193660
    },
    {
      "epoch": 0.40347916666666667,
      "grad_norm": 0.8755049705505371,
      "learning_rate": 0.00019591165471826943,
      "loss": 3.7449,
      "step": 193670
    },
    {
      "epoch": 0.4035,
      "grad_norm": 0.813643753528595,
      "learning_rate": 0.0001959022692109469,
      "loss": 3.8197,
      "step": 193680
    },
    {
      "epoch": 0.40352083333333333,
      "grad_norm": 0.907209038734436,
      "learning_rate": 0.0001958928835053448,
      "loss": 3.9243,
      "step": 193690
    },
    {
      "epoch": 0.4035416666666667,
      "grad_norm": 0.8041625022888184,
      "learning_rate": 0.0001958834976015036,
      "loss": 3.7236,
      "step": 193700
    },
    {
      "epoch": 0.4035625,
      "grad_norm": 0.765728235244751,
      "learning_rate": 0.0001958741114994638,
      "loss": 3.7838,
      "step": 193710
    },
    {
      "epoch": 0.40358333333333335,
      "grad_norm": 0.7795925736427307,
      "learning_rate": 0.00019586472519926603,
      "loss": 3.7942,
      "step": 193720
    },
    {
      "epoch": 0.40360416666666665,
      "grad_norm": 0.6868396997451782,
      "learning_rate": 0.0001958553387009508,
      "loss": 3.7916,
      "step": 193730
    },
    {
      "epoch": 0.403625,
      "grad_norm": 0.7599954605102539,
      "learning_rate": 0.00019584595200455865,
      "loss": 3.7509,
      "step": 193740
    },
    {
      "epoch": 0.4036458333333333,
      "grad_norm": 0.7165738940238953,
      "learning_rate": 0.00019583656511013012,
      "loss": 3.8962,
      "step": 193750
    },
    {
      "epoch": 0.4036666666666667,
      "grad_norm": 0.77553391456604,
      "learning_rate": 0.0001958271780177058,
      "loss": 3.7653,
      "step": 193760
    },
    {
      "epoch": 0.4036875,
      "grad_norm": 0.8960345387458801,
      "learning_rate": 0.00019581779072732619,
      "loss": 3.8091,
      "step": 193770
    },
    {
      "epoch": 0.40370833333333334,
      "grad_norm": 0.8802191019058228,
      "learning_rate": 0.00019580840323903188,
      "loss": 3.7651,
      "step": 193780
    },
    {
      "epoch": 0.40372916666666664,
      "grad_norm": 0.7406399250030518,
      "learning_rate": 0.00019579901555286339,
      "loss": 3.8498,
      "step": 193790
    },
    {
      "epoch": 0.40375,
      "grad_norm": 0.930400550365448,
      "learning_rate": 0.00019578962766886134,
      "loss": 3.77,
      "step": 193800
    },
    {
      "epoch": 0.40377083333333336,
      "grad_norm": 0.9118642807006836,
      "learning_rate": 0.00019578023958706611,
      "loss": 3.7634,
      "step": 193810
    },
    {
      "epoch": 0.40379166666666666,
      "grad_norm": 0.7606923580169678,
      "learning_rate": 0.0001957708513075184,
      "loss": 3.8365,
      "step": 193820
    },
    {
      "epoch": 0.4038125,
      "grad_norm": 0.8064560294151306,
      "learning_rate": 0.00019576146283025884,
      "loss": 3.9619,
      "step": 193830
    },
    {
      "epoch": 0.4038333333333333,
      "grad_norm": 0.8441545367240906,
      "learning_rate": 0.00019575207415532773,
      "loss": 3.8019,
      "step": 193840
    },
    {
      "epoch": 0.4038541666666667,
      "grad_norm": 0.7728874683380127,
      "learning_rate": 0.00019574268528276586,
      "loss": 3.6439,
      "step": 193850
    },
    {
      "epoch": 0.403875,
      "grad_norm": 0.7479208707809448,
      "learning_rate": 0.00019573329621261367,
      "loss": 3.6564,
      "step": 193860
    },
    {
      "epoch": 0.40389583333333334,
      "grad_norm": 0.879187822341919,
      "learning_rate": 0.00019572390694491175,
      "loss": 3.8241,
      "step": 193870
    },
    {
      "epoch": 0.40391666666666665,
      "grad_norm": 1.0776457786560059,
      "learning_rate": 0.0001957145174797006,
      "loss": 3.6931,
      "step": 193880
    },
    {
      "epoch": 0.4039375,
      "grad_norm": 0.6885167956352234,
      "learning_rate": 0.00019570512781702087,
      "loss": 3.7108,
      "step": 193890
    },
    {
      "epoch": 0.4039583333333333,
      "grad_norm": 0.8678536415100098,
      "learning_rate": 0.0001956957379569131,
      "loss": 3.8906,
      "step": 193900
    },
    {
      "epoch": 0.40397916666666667,
      "grad_norm": 0.9282569289207458,
      "learning_rate": 0.0001956863478994178,
      "loss": 3.7192,
      "step": 193910
    },
    {
      "epoch": 0.404,
      "grad_norm": 1.3555824756622314,
      "learning_rate": 0.00019567695764457555,
      "loss": 3.8992,
      "step": 193920
    },
    {
      "epoch": 0.40402083333333333,
      "grad_norm": 0.8409428596496582,
      "learning_rate": 0.00019566756719242693,
      "loss": 3.6697,
      "step": 193930
    },
    {
      "epoch": 0.4040416666666667,
      "grad_norm": 0.8345975279808044,
      "learning_rate": 0.00019565817654301252,
      "loss": 3.6943,
      "step": 193940
    },
    {
      "epoch": 0.4040625,
      "grad_norm": 0.8042447566986084,
      "learning_rate": 0.00019564878569637283,
      "loss": 3.7957,
      "step": 193950
    },
    {
      "epoch": 0.40408333333333335,
      "grad_norm": 0.6946160197257996,
      "learning_rate": 0.00019563939465254846,
      "loss": 3.9197,
      "step": 193960
    },
    {
      "epoch": 0.40410416666666665,
      "grad_norm": 0.678525984287262,
      "learning_rate": 0.00019563000341158004,
      "loss": 3.7598,
      "step": 193970
    },
    {
      "epoch": 0.404125,
      "grad_norm": 0.9151737689971924,
      "learning_rate": 0.00019562061197350795,
      "loss": 3.8317,
      "step": 193980
    },
    {
      "epoch": 0.4041458333333333,
      "grad_norm": 0.701300859451294,
      "learning_rate": 0.00019561122033837298,
      "loss": 3.8269,
      "step": 193990
    },
    {
      "epoch": 0.4041666666666667,
      "grad_norm": 0.9151172041893005,
      "learning_rate": 0.00019560182850621554,
      "loss": 4.0083,
      "step": 194000
    },
    {
      "epoch": 0.4041666666666667,
      "eval_loss": 4.180254936218262,
      "eval_runtime": 9.4096,
      "eval_samples_per_second": 1.063,
      "eval_steps_per_second": 0.319,
      "step": 194000
    },
    {
      "epoch": 0.4041875,
      "grad_norm": 0.7694148421287537,
      "learning_rate": 0.0001955924364770762,
      "loss": 3.808,
      "step": 194010
    },
    {
      "epoch": 0.40420833333333334,
      "grad_norm": 0.8127598166465759,
      "learning_rate": 0.00019558304425099568,
      "loss": 3.7157,
      "step": 194020
    },
    {
      "epoch": 0.40422916666666664,
      "grad_norm": 0.8937053084373474,
      "learning_rate": 0.0001955736518280144,
      "loss": 3.6871,
      "step": 194030
    },
    {
      "epoch": 0.40425,
      "grad_norm": 0.8504681587219238,
      "learning_rate": 0.00019556425920817298,
      "loss": 3.777,
      "step": 194040
    },
    {
      "epoch": 0.40427083333333336,
      "grad_norm": 0.7977461218833923,
      "learning_rate": 0.00019555486639151202,
      "loss": 3.9139,
      "step": 194050
    },
    {
      "epoch": 0.40429166666666666,
      "grad_norm": 0.6680142283439636,
      "learning_rate": 0.00019554547337807208,
      "loss": 3.7188,
      "step": 194060
    },
    {
      "epoch": 0.4043125,
      "grad_norm": 0.8211458325386047,
      "learning_rate": 0.00019553608016789365,
      "loss": 3.8741,
      "step": 194070
    },
    {
      "epoch": 0.4043333333333333,
      "grad_norm": 0.8083829879760742,
      "learning_rate": 0.00019552668676101745,
      "loss": 3.7326,
      "step": 194080
    },
    {
      "epoch": 0.4043541666666667,
      "grad_norm": 0.8097203373908997,
      "learning_rate": 0.00019551729315748397,
      "loss": 3.9819,
      "step": 194090
    },
    {
      "epoch": 0.404375,
      "grad_norm": 0.9173896312713623,
      "learning_rate": 0.0001955078993573338,
      "loss": 3.8307,
      "step": 194100
    },
    {
      "epoch": 0.40439583333333334,
      "grad_norm": 0.8721756935119629,
      "learning_rate": 0.00019549850536060748,
      "loss": 3.7953,
      "step": 194110
    },
    {
      "epoch": 0.40441666666666665,
      "grad_norm": 0.8352811932563782,
      "learning_rate": 0.00019548911116734564,
      "loss": 3.8359,
      "step": 194120
    },
    {
      "epoch": 0.4044375,
      "grad_norm": 0.8474622368812561,
      "learning_rate": 0.00019547971677758892,
      "loss": 3.7695,
      "step": 194130
    },
    {
      "epoch": 0.4044583333333333,
      "grad_norm": 0.7787188291549683,
      "learning_rate": 0.00019547032219137771,
      "loss": 3.7593,
      "step": 194140
    },
    {
      "epoch": 0.40447916666666667,
      "grad_norm": 0.8200960755348206,
      "learning_rate": 0.00019546092740875277,
      "loss": 3.9307,
      "step": 194150
    },
    {
      "epoch": 0.4045,
      "grad_norm": 0.7986174821853638,
      "learning_rate": 0.00019545153242975466,
      "loss": 3.7103,
      "step": 194160
    },
    {
      "epoch": 0.40452083333333333,
      "grad_norm": 0.9560858011245728,
      "learning_rate": 0.00019544213725442388,
      "loss": 3.8865,
      "step": 194170
    },
    {
      "epoch": 0.4045416666666667,
      "grad_norm": 0.7461559772491455,
      "learning_rate": 0.00019543274188280098,
      "loss": 3.9176,
      "step": 194180
    },
    {
      "epoch": 0.4045625,
      "grad_norm": 0.7826871275901794,
      "learning_rate": 0.00019542334631492673,
      "loss": 3.7475,
      "step": 194190
    },
    {
      "epoch": 0.40458333333333335,
      "grad_norm": 0.8251165747642517,
      "learning_rate": 0.00019541395055084156,
      "loss": 3.7651,
      "step": 194200
    },
    {
      "epoch": 0.40460416666666665,
      "grad_norm": 0.7730002403259277,
      "learning_rate": 0.00019540455459058606,
      "loss": 3.7852,
      "step": 194210
    },
    {
      "epoch": 0.404625,
      "grad_norm": 0.8221646547317505,
      "learning_rate": 0.00019539515843420093,
      "loss": 3.8379,
      "step": 194220
    },
    {
      "epoch": 0.4046458333333333,
      "grad_norm": 0.8255507349967957,
      "learning_rate": 0.00019538576208172668,
      "loss": 3.6418,
      "step": 194230
    },
    {
      "epoch": 0.4046666666666667,
      "grad_norm": 0.741275429725647,
      "learning_rate": 0.00019537636553320387,
      "loss": 3.6958,
      "step": 194240
    },
    {
      "epoch": 0.4046875,
      "grad_norm": 0.7374998927116394,
      "learning_rate": 0.0001953669687886731,
      "loss": 3.6947,
      "step": 194250
    },
    {
      "epoch": 0.40470833333333334,
      "grad_norm": 0.7144660353660583,
      "learning_rate": 0.00019535757184817502,
      "loss": 3.6123,
      "step": 194260
    },
    {
      "epoch": 0.40472916666666664,
      "grad_norm": 0.6712825894355774,
      "learning_rate": 0.00019534817471175017,
      "loss": 3.8117,
      "step": 194270
    },
    {
      "epoch": 0.40475,
      "grad_norm": 0.9729337096214294,
      "learning_rate": 0.00019533877737943912,
      "loss": 3.7693,
      "step": 194280
    },
    {
      "epoch": 0.40477083333333336,
      "grad_norm": 0.8373510837554932,
      "learning_rate": 0.00019532937985128253,
      "loss": 3.7795,
      "step": 194290
    },
    {
      "epoch": 0.40479166666666666,
      "grad_norm": 0.8104931712150574,
      "learning_rate": 0.00019531998212732102,
      "loss": 3.8473,
      "step": 194300
    },
    {
      "epoch": 0.4048125,
      "grad_norm": 0.7671303153038025,
      "learning_rate": 0.00019531058420759503,
      "loss": 3.8839,
      "step": 194310
    },
    {
      "epoch": 0.4048333333333333,
      "grad_norm": 0.8365216255187988,
      "learning_rate": 0.0001953011860921453,
      "loss": 4.0124,
      "step": 194320
    },
    {
      "epoch": 0.4048541666666667,
      "grad_norm": 0.702893078327179,
      "learning_rate": 0.00019529178778101243,
      "loss": 4.0352,
      "step": 194330
    },
    {
      "epoch": 0.404875,
      "grad_norm": 0.9161686897277832,
      "learning_rate": 0.0001952823892742369,
      "loss": 3.8334,
      "step": 194340
    },
    {
      "epoch": 0.40489583333333334,
      "grad_norm": 0.7747822999954224,
      "learning_rate": 0.00019527299057185932,
      "loss": 3.7604,
      "step": 194350
    },
    {
      "epoch": 0.40491666666666665,
      "grad_norm": 0.7668566703796387,
      "learning_rate": 0.00019526359167392043,
      "loss": 4.0341,
      "step": 194360
    },
    {
      "epoch": 0.4049375,
      "grad_norm": 1.1246429681777954,
      "learning_rate": 0.0001952541925804607,
      "loss": 3.8784,
      "step": 194370
    },
    {
      "epoch": 0.4049583333333333,
      "grad_norm": 0.7413864731788635,
      "learning_rate": 0.00019524479329152076,
      "loss": 3.9156,
      "step": 194380
    },
    {
      "epoch": 0.40497916666666667,
      "grad_norm": 0.7277371883392334,
      "learning_rate": 0.00019523539380714126,
      "loss": 3.5602,
      "step": 194390
    },
    {
      "epoch": 0.405,
      "grad_norm": 0.7579582929611206,
      "learning_rate": 0.00019522599412736275,
      "loss": 3.9413,
      "step": 194400
    },
    {
      "epoch": 0.40502083333333333,
      "grad_norm": 0.8432784080505371,
      "learning_rate": 0.00019521659425222586,
      "loss": 3.7847,
      "step": 194410
    },
    {
      "epoch": 0.4050416666666667,
      "grad_norm": 0.724804162979126,
      "learning_rate": 0.00019520719418177114,
      "loss": 3.7952,
      "step": 194420
    },
    {
      "epoch": 0.4050625,
      "grad_norm": 0.8665130734443665,
      "learning_rate": 0.00019519779391603926,
      "loss": 3.8078,
      "step": 194430
    },
    {
      "epoch": 0.40508333333333335,
      "grad_norm": 0.7338718771934509,
      "learning_rate": 0.0001951883934550708,
      "loss": 3.8911,
      "step": 194440
    },
    {
      "epoch": 0.40510416666666665,
      "grad_norm": 0.8797960877418518,
      "learning_rate": 0.00019517899279890638,
      "loss": 3.8171,
      "step": 194450
    },
    {
      "epoch": 0.405125,
      "grad_norm": 0.8132423162460327,
      "learning_rate": 0.00019516959194758657,
      "loss": 4.1017,
      "step": 194460
    },
    {
      "epoch": 0.4051458333333333,
      "grad_norm": 0.7896438837051392,
      "learning_rate": 0.00019516019090115206,
      "loss": 3.8002,
      "step": 194470
    },
    {
      "epoch": 0.4051666666666667,
      "grad_norm": 0.8110748529434204,
      "learning_rate": 0.0001951507896596433,
      "loss": 3.7634,
      "step": 194480
    },
    {
      "epoch": 0.4051875,
      "grad_norm": 0.8314445614814758,
      "learning_rate": 0.00019514138822310107,
      "loss": 3.7109,
      "step": 194490
    },
    {
      "epoch": 0.40520833333333334,
      "grad_norm": 0.7536861300468445,
      "learning_rate": 0.00019513198659156593,
      "loss": 3.753,
      "step": 194500
    },
    {
      "epoch": 0.40522916666666664,
      "grad_norm": 0.7415453791618347,
      "learning_rate": 0.0001951225847650784,
      "loss": 3.8769,
      "step": 194510
    },
    {
      "epoch": 0.40525,
      "grad_norm": 0.7192992568016052,
      "learning_rate": 0.00019511318274367923,
      "loss": 3.6912,
      "step": 194520
    },
    {
      "epoch": 0.40527083333333336,
      "grad_norm": 0.692153811454773,
      "learning_rate": 0.00019510378052740895,
      "loss": 4.0911,
      "step": 194530
    },
    {
      "epoch": 0.40529166666666666,
      "grad_norm": 0.8555721044540405,
      "learning_rate": 0.00019509437811630816,
      "loss": 3.7761,
      "step": 194540
    },
    {
      "epoch": 0.4053125,
      "grad_norm": 0.7538372874259949,
      "learning_rate": 0.00019508497551041753,
      "loss": 3.7154,
      "step": 194550
    },
    {
      "epoch": 0.4053333333333333,
      "grad_norm": 0.7965213656425476,
      "learning_rate": 0.00019507557270977764,
      "loss": 3.7201,
      "step": 194560
    },
    {
      "epoch": 0.4053541666666667,
      "grad_norm": 0.763582706451416,
      "learning_rate": 0.00019506616971442917,
      "loss": 3.8286,
      "step": 194570
    },
    {
      "epoch": 0.405375,
      "grad_norm": 0.7715234160423279,
      "learning_rate": 0.0001950567665244126,
      "loss": 3.6694,
      "step": 194580
    },
    {
      "epoch": 0.40539583333333334,
      "grad_norm": 0.768170952796936,
      "learning_rate": 0.0001950473631397687,
      "loss": 3.8419,
      "step": 194590
    },
    {
      "epoch": 0.40541666666666665,
      "grad_norm": 0.8955515623092651,
      "learning_rate": 0.000195037959560538,
      "loss": 3.8695,
      "step": 194600
    },
    {
      "epoch": 0.4054375,
      "grad_norm": 0.8951588273048401,
      "learning_rate": 0.00019502855578676115,
      "loss": 3.9306,
      "step": 194610
    },
    {
      "epoch": 0.4054583333333333,
      "grad_norm": 0.7870962619781494,
      "learning_rate": 0.00019501915181847874,
      "loss": 3.7486,
      "step": 194620
    },
    {
      "epoch": 0.40547916666666667,
      "grad_norm": 0.835700511932373,
      "learning_rate": 0.0001950097476557314,
      "loss": 3.762,
      "step": 194630
    },
    {
      "epoch": 0.4055,
      "grad_norm": 0.8351972699165344,
      "learning_rate": 0.0001950003432985598,
      "loss": 3.8358,
      "step": 194640
    },
    {
      "epoch": 0.40552083333333333,
      "grad_norm": 0.9091237187385559,
      "learning_rate": 0.00019499093874700456,
      "loss": 3.7665,
      "step": 194650
    },
    {
      "epoch": 0.4055416666666667,
      "grad_norm": 0.7025943994522095,
      "learning_rate": 0.00019498153400110624,
      "loss": 3.8159,
      "step": 194660
    },
    {
      "epoch": 0.4055625,
      "grad_norm": 0.9117801189422607,
      "learning_rate": 0.0001949721290609055,
      "loss": 3.9165,
      "step": 194670
    },
    {
      "epoch": 0.40558333333333335,
      "grad_norm": 0.7454450130462646,
      "learning_rate": 0.00019496272392644293,
      "loss": 3.923,
      "step": 194680
    },
    {
      "epoch": 0.40560416666666665,
      "grad_norm": 0.8083614110946655,
      "learning_rate": 0.00019495331859775922,
      "loss": 3.7453,
      "step": 194690
    },
    {
      "epoch": 0.405625,
      "grad_norm": 0.7706153392791748,
      "learning_rate": 0.00019494391307489498,
      "loss": 3.7606,
      "step": 194700
    },
    {
      "epoch": 0.4056458333333333,
      "grad_norm": 1.0424082279205322,
      "learning_rate": 0.0001949345073578908,
      "loss": 3.7384,
      "step": 194710
    },
    {
      "epoch": 0.4056666666666667,
      "grad_norm": 0.6993447542190552,
      "learning_rate": 0.00019492510144678737,
      "loss": 3.708,
      "step": 194720
    },
    {
      "epoch": 0.4056875,
      "grad_norm": 0.758039116859436,
      "learning_rate": 0.00019491569534162525,
      "loss": 3.8472,
      "step": 194730
    },
    {
      "epoch": 0.40570833333333334,
      "grad_norm": 0.7086935043334961,
      "learning_rate": 0.00019490628904244512,
      "loss": 3.7992,
      "step": 194740
    },
    {
      "epoch": 0.40572916666666664,
      "grad_norm": 0.7702664732933044,
      "learning_rate": 0.0001948968825492876,
      "loss": 3.8361,
      "step": 194750
    },
    {
      "epoch": 0.40575,
      "grad_norm": 0.7374884486198425,
      "learning_rate": 0.0001948874758621933,
      "loss": 3.8051,
      "step": 194760
    },
    {
      "epoch": 0.40577083333333336,
      "grad_norm": 0.7991885542869568,
      "learning_rate": 0.00019487806898120288,
      "loss": 3.7148,
      "step": 194770
    },
    {
      "epoch": 0.40579166666666666,
      "grad_norm": 0.8504029512405396,
      "learning_rate": 0.00019486866190635696,
      "loss": 3.7185,
      "step": 194780
    },
    {
      "epoch": 0.4058125,
      "grad_norm": 0.7983840107917786,
      "learning_rate": 0.00019485925463769618,
      "loss": 3.7379,
      "step": 194790
    },
    {
      "epoch": 0.4058333333333333,
      "grad_norm": 0.7411507964134216,
      "learning_rate": 0.00019484984717526118,
      "loss": 3.8219,
      "step": 194800
    },
    {
      "epoch": 0.4058541666666667,
      "grad_norm": 0.778827965259552,
      "learning_rate": 0.00019484043951909264,
      "loss": 3.9245,
      "step": 194810
    },
    {
      "epoch": 0.405875,
      "grad_norm": 0.7870485186576843,
      "learning_rate": 0.00019483103166923109,
      "loss": 3.791,
      "step": 194820
    },
    {
      "epoch": 0.40589583333333334,
      "grad_norm": 0.6815444231033325,
      "learning_rate": 0.00019482162362571725,
      "loss": 3.966,
      "step": 194830
    },
    {
      "epoch": 0.40591666666666665,
      "grad_norm": 0.7571131587028503,
      "learning_rate": 0.00019481221538859175,
      "loss": 3.9193,
      "step": 194840
    },
    {
      "epoch": 0.4059375,
      "grad_norm": 0.7533265352249146,
      "learning_rate": 0.00019480280695789517,
      "loss": 3.7693,
      "step": 194850
    },
    {
      "epoch": 0.4059583333333333,
      "grad_norm": 0.6751761436462402,
      "learning_rate": 0.00019479339833366826,
      "loss": 3.9194,
      "step": 194860
    },
    {
      "epoch": 0.40597916666666667,
      "grad_norm": 0.7080559134483337,
      "learning_rate": 0.00019478398951595157,
      "loss": 3.7821,
      "step": 194870
    },
    {
      "epoch": 0.406,
      "grad_norm": 0.8818930387496948,
      "learning_rate": 0.00019477458050478575,
      "loss": 3.9577,
      "step": 194880
    },
    {
      "epoch": 0.40602083333333333,
      "grad_norm": 0.7380582094192505,
      "learning_rate": 0.0001947651713002115,
      "loss": 3.7232,
      "step": 194890
    },
    {
      "epoch": 0.4060416666666667,
      "grad_norm": 0.7407050132751465,
      "learning_rate": 0.00019475576190226943,
      "loss": 3.9194,
      "step": 194900
    },
    {
      "epoch": 0.4060625,
      "grad_norm": 0.7469950914382935,
      "learning_rate": 0.00019474635231100015,
      "loss": 3.7641,
      "step": 194910
    },
    {
      "epoch": 0.40608333333333335,
      "grad_norm": 0.9155732989311218,
      "learning_rate": 0.00019473694252644438,
      "loss": 3.8076,
      "step": 194920
    },
    {
      "epoch": 0.40610416666666665,
      "grad_norm": 0.759475588798523,
      "learning_rate": 0.0001947275325486427,
      "loss": 3.6172,
      "step": 194930
    },
    {
      "epoch": 0.406125,
      "grad_norm": 0.7702187895774841,
      "learning_rate": 0.0001947181223776358,
      "loss": 3.7864,
      "step": 194940
    },
    {
      "epoch": 0.4061458333333333,
      "grad_norm": 0.8296583294868469,
      "learning_rate": 0.0001947087120134643,
      "loss": 3.8126,
      "step": 194950
    },
    {
      "epoch": 0.4061666666666667,
      "grad_norm": 0.7475996017456055,
      "learning_rate": 0.00019469930145616884,
      "loss": 3.8567,
      "step": 194960
    },
    {
      "epoch": 0.4061875,
      "grad_norm": 0.7318405508995056,
      "learning_rate": 0.0001946898907057901,
      "loss": 3.7656,
      "step": 194970
    },
    {
      "epoch": 0.40620833333333334,
      "grad_norm": 0.8068037033081055,
      "learning_rate": 0.00019468047976236875,
      "loss": 3.8221,
      "step": 194980
    },
    {
      "epoch": 0.40622916666666664,
      "grad_norm": 0.9086283445358276,
      "learning_rate": 0.0001946710686259454,
      "loss": 3.8621,
      "step": 194990
    },
    {
      "epoch": 0.40625,
      "grad_norm": 0.7978875637054443,
      "learning_rate": 0.0001946616572965607,
      "loss": 3.8001,
      "step": 195000
    },
    {
      "epoch": 0.40625,
      "eval_loss": 4.185973167419434,
      "eval_runtime": 8.8206,
      "eval_samples_per_second": 1.134,
      "eval_steps_per_second": 0.34,
      "step": 195000
    },
    {
      "epoch": 0.40627083333333336,
      "grad_norm": 0.7252549529075623,
      "learning_rate": 0.00019465224577425535,
      "loss": 3.84,
      "step": 195010
    },
    {
      "epoch": 0.40629166666666666,
      "grad_norm": 0.8267555236816406,
      "learning_rate": 0.00019464283405906996,
      "loss": 3.7953,
      "step": 195020
    },
    {
      "epoch": 0.4063125,
      "grad_norm": 0.8283354640007019,
      "learning_rate": 0.00019463342215104523,
      "loss": 3.8076,
      "step": 195030
    },
    {
      "epoch": 0.4063333333333333,
      "grad_norm": 0.7209432125091553,
      "learning_rate": 0.00019462401005022173,
      "loss": 3.9255,
      "step": 195040
    },
    {
      "epoch": 0.4063541666666667,
      "grad_norm": 0.7671691179275513,
      "learning_rate": 0.00019461459775664018,
      "loss": 4.1377,
      "step": 195050
    },
    {
      "epoch": 0.406375,
      "grad_norm": 0.722560703754425,
      "learning_rate": 0.00019460518527034126,
      "loss": 3.8125,
      "step": 195060
    },
    {
      "epoch": 0.40639583333333335,
      "grad_norm": 0.8533785343170166,
      "learning_rate": 0.00019459577259136557,
      "loss": 3.8389,
      "step": 195070
    },
    {
      "epoch": 0.40641666666666665,
      "grad_norm": 0.8112741708755493,
      "learning_rate": 0.00019458635971975375,
      "loss": 3.6222,
      "step": 195080
    },
    {
      "epoch": 0.4064375,
      "grad_norm": 0.9537311792373657,
      "learning_rate": 0.00019457694665554658,
      "loss": 3.9828,
      "step": 195090
    },
    {
      "epoch": 0.4064583333333333,
      "grad_norm": 0.7644660472869873,
      "learning_rate": 0.00019456753339878462,
      "loss": 3.9839,
      "step": 195100
    },
    {
      "epoch": 0.40647916666666667,
      "grad_norm": 0.7864596247673035,
      "learning_rate": 0.00019455811994950855,
      "loss": 3.76,
      "step": 195110
    },
    {
      "epoch": 0.4065,
      "grad_norm": 0.7774301171302795,
      "learning_rate": 0.00019454870630775903,
      "loss": 3.7812,
      "step": 195120
    },
    {
      "epoch": 0.40652083333333333,
      "grad_norm": 0.7965273261070251,
      "learning_rate": 0.00019453929247357675,
      "loss": 3.7627,
      "step": 195130
    },
    {
      "epoch": 0.4065416666666667,
      "grad_norm": 0.7138428688049316,
      "learning_rate": 0.00019452987844700235,
      "loss": 3.7769,
      "step": 195140
    },
    {
      "epoch": 0.4065625,
      "grad_norm": 0.8416739106178284,
      "learning_rate": 0.00019452046422807653,
      "loss": 3.8411,
      "step": 195150
    },
    {
      "epoch": 0.40658333333333335,
      "grad_norm": 0.8370248079299927,
      "learning_rate": 0.00019451104981683986,
      "loss": 3.8522,
      "step": 195160
    },
    {
      "epoch": 0.40660416666666666,
      "grad_norm": 0.762990415096283,
      "learning_rate": 0.00019450163521333316,
      "loss": 4.0131,
      "step": 195170
    },
    {
      "epoch": 0.406625,
      "grad_norm": 0.7551764249801636,
      "learning_rate": 0.00019449222041759693,
      "loss": 3.9651,
      "step": 195180
    },
    {
      "epoch": 0.4066458333333333,
      "grad_norm": 0.8902240991592407,
      "learning_rate": 0.00019448280542967196,
      "loss": 3.853,
      "step": 195190
    },
    {
      "epoch": 0.4066666666666667,
      "grad_norm": 0.6975885033607483,
      "learning_rate": 0.00019447339024959888,
      "loss": 3.7983,
      "step": 195200
    },
    {
      "epoch": 0.4066875,
      "grad_norm": 0.758983850479126,
      "learning_rate": 0.00019446397487741832,
      "loss": 3.7798,
      "step": 195210
    },
    {
      "epoch": 0.40670833333333334,
      "grad_norm": 0.7818716764450073,
      "learning_rate": 0.00019445455931317102,
      "loss": 3.9164,
      "step": 195220
    },
    {
      "epoch": 0.40672916666666664,
      "grad_norm": 0.7457336783409119,
      "learning_rate": 0.00019444514355689766,
      "loss": 3.8773,
      "step": 195230
    },
    {
      "epoch": 0.40675,
      "grad_norm": 0.8609474301338196,
      "learning_rate": 0.00019443572760863883,
      "loss": 3.9443,
      "step": 195240
    },
    {
      "epoch": 0.40677083333333336,
      "grad_norm": 0.8147785663604736,
      "learning_rate": 0.0001944263114684352,
      "loss": 3.9261,
      "step": 195250
    },
    {
      "epoch": 0.40679166666666666,
      "grad_norm": 0.8423752784729004,
      "learning_rate": 0.00019441689513632755,
      "loss": 3.8029,
      "step": 195260
    },
    {
      "epoch": 0.4068125,
      "grad_norm": 0.6720908880233765,
      "learning_rate": 0.0001944074786123565,
      "loss": 3.6678,
      "step": 195270
    },
    {
      "epoch": 0.4068333333333333,
      "grad_norm": 0.737733006477356,
      "learning_rate": 0.00019439806189656264,
      "loss": 3.8289,
      "step": 195280
    },
    {
      "epoch": 0.4068541666666667,
      "grad_norm": 0.8874826431274414,
      "learning_rate": 0.00019438864498898682,
      "loss": 3.8139,
      "step": 195290
    },
    {
      "epoch": 0.406875,
      "grad_norm": 0.8825972080230713,
      "learning_rate": 0.0001943792278896696,
      "loss": 3.8382,
      "step": 195300
    },
    {
      "epoch": 0.40689583333333335,
      "grad_norm": 0.7653723359107971,
      "learning_rate": 0.0001943698105986517,
      "loss": 4.1123,
      "step": 195310
    },
    {
      "epoch": 0.40691666666666665,
      "grad_norm": 0.8253366351127625,
      "learning_rate": 0.00019436039311597372,
      "loss": 3.9063,
      "step": 195320
    },
    {
      "epoch": 0.4069375,
      "grad_norm": 0.7232081294059753,
      "learning_rate": 0.00019435097544167641,
      "loss": 3.7772,
      "step": 195330
    },
    {
      "epoch": 0.4069583333333333,
      "grad_norm": 0.77553391456604,
      "learning_rate": 0.0001943415575758005,
      "loss": 3.8298,
      "step": 195340
    },
    {
      "epoch": 0.40697916666666667,
      "grad_norm": 0.7638890147209167,
      "learning_rate": 0.00019433213951838656,
      "loss": 3.6309,
      "step": 195350
    },
    {
      "epoch": 0.407,
      "grad_norm": 0.7980190515518188,
      "learning_rate": 0.00019432272126947533,
      "loss": 3.7126,
      "step": 195360
    },
    {
      "epoch": 0.40702083333333333,
      "grad_norm": 0.9660741686820984,
      "learning_rate": 0.00019431330282910754,
      "loss": 3.822,
      "step": 195370
    },
    {
      "epoch": 0.4070416666666667,
      "grad_norm": 0.8241598606109619,
      "learning_rate": 0.00019430388419732376,
      "loss": 3.8403,
      "step": 195380
    },
    {
      "epoch": 0.4070625,
      "grad_norm": 0.7428840398788452,
      "learning_rate": 0.00019429446537416473,
      "loss": 3.7914,
      "step": 195390
    },
    {
      "epoch": 0.40708333333333335,
      "grad_norm": 0.82640540599823,
      "learning_rate": 0.00019428504635967124,
      "loss": 3.7452,
      "step": 195400
    },
    {
      "epoch": 0.40710416666666666,
      "grad_norm": 0.8399295210838318,
      "learning_rate": 0.0001942756271538838,
      "loss": 3.8281,
      "step": 195410
    },
    {
      "epoch": 0.407125,
      "grad_norm": 0.9151433706283569,
      "learning_rate": 0.00019426620775684313,
      "loss": 3.9644,
      "step": 195420
    },
    {
      "epoch": 0.4071458333333333,
      "grad_norm": 0.7424917817115784,
      "learning_rate": 0.00019425678816859006,
      "loss": 3.8471,
      "step": 195430
    },
    {
      "epoch": 0.4071666666666667,
      "grad_norm": 0.9357056021690369,
      "learning_rate": 0.00019424736838916516,
      "loss": 3.7718,
      "step": 195440
    },
    {
      "epoch": 0.4071875,
      "grad_norm": 0.8783342242240906,
      "learning_rate": 0.0001942379484186091,
      "loss": 3.6055,
      "step": 195450
    },
    {
      "epoch": 0.40720833333333334,
      "grad_norm": 0.8122707605361938,
      "learning_rate": 0.00019422852825696268,
      "loss": 3.8658,
      "step": 195460
    },
    {
      "epoch": 0.40722916666666664,
      "grad_norm": 0.7896695137023926,
      "learning_rate": 0.00019421910790426645,
      "loss": 3.6888,
      "step": 195470
    },
    {
      "epoch": 0.40725,
      "grad_norm": 0.7732728123664856,
      "learning_rate": 0.00019420968736056125,
      "loss": 3.9523,
      "step": 195480
    },
    {
      "epoch": 0.40727083333333336,
      "grad_norm": 0.8712944984436035,
      "learning_rate": 0.00019420026662588766,
      "loss": 4.1039,
      "step": 195490
    },
    {
      "epoch": 0.40729166666666666,
      "grad_norm": 0.8719769716262817,
      "learning_rate": 0.00019419084570028637,
      "loss": 3.9021,
      "step": 195500
    },
    {
      "epoch": 0.4073125,
      "grad_norm": 0.755706250667572,
      "learning_rate": 0.00019418142458379816,
      "loss": 3.8012,
      "step": 195510
    },
    {
      "epoch": 0.4073333333333333,
      "grad_norm": 0.9707190990447998,
      "learning_rate": 0.00019417200327646373,
      "loss": 4.0299,
      "step": 195520
    },
    {
      "epoch": 0.4073541666666667,
      "grad_norm": 0.9702433347702026,
      "learning_rate": 0.00019416258177832368,
      "loss": 3.9342,
      "step": 195530
    },
    {
      "epoch": 0.407375,
      "grad_norm": 0.78355473279953,
      "learning_rate": 0.0001941531600894188,
      "loss": 3.7671,
      "step": 195540
    },
    {
      "epoch": 0.40739583333333335,
      "grad_norm": 0.8701432347297668,
      "learning_rate": 0.00019414373820978966,
      "loss": 3.8036,
      "step": 195550
    },
    {
      "epoch": 0.40741666666666665,
      "grad_norm": 0.7848687767982483,
      "learning_rate": 0.0001941343161394771,
      "loss": 3.6875,
      "step": 195560
    },
    {
      "epoch": 0.4074375,
      "grad_norm": 0.6943529844284058,
      "learning_rate": 0.00019412489387852182,
      "loss": 3.702,
      "step": 195570
    },
    {
      "epoch": 0.4074583333333333,
      "grad_norm": 0.8359349966049194,
      "learning_rate": 0.00019411547142696435,
      "loss": 3.8123,
      "step": 195580
    },
    {
      "epoch": 0.40747916666666667,
      "grad_norm": 0.7940654754638672,
      "learning_rate": 0.00019410604878484556,
      "loss": 3.8418,
      "step": 195590
    },
    {
      "epoch": 0.4075,
      "grad_norm": 0.7171854972839355,
      "learning_rate": 0.00019409662595220613,
      "loss": 3.7686,
      "step": 195600
    },
    {
      "epoch": 0.40752083333333333,
      "grad_norm": 0.8648396730422974,
      "learning_rate": 0.00019408720292908672,
      "loss": 3.7574,
      "step": 195610
    },
    {
      "epoch": 0.4075416666666667,
      "grad_norm": 0.7208985090255737,
      "learning_rate": 0.000194077779715528,
      "loss": 3.8492,
      "step": 195620
    },
    {
      "epoch": 0.4075625,
      "grad_norm": 0.8406206965446472,
      "learning_rate": 0.00019406835631157076,
      "loss": 3.6422,
      "step": 195630
    },
    {
      "epoch": 0.40758333333333335,
      "grad_norm": 0.7483555674552917,
      "learning_rate": 0.0001940589327172556,
      "loss": 3.8726,
      "step": 195640
    },
    {
      "epoch": 0.40760416666666666,
      "grad_norm": 0.7434715032577515,
      "learning_rate": 0.00019404950893262338,
      "loss": 3.8335,
      "step": 195650
    },
    {
      "epoch": 0.407625,
      "grad_norm": 0.7866623997688293,
      "learning_rate": 0.00019404008495771467,
      "loss": 3.6667,
      "step": 195660
    },
    {
      "epoch": 0.4076458333333333,
      "grad_norm": 0.7729328274726868,
      "learning_rate": 0.00019403066079257022,
      "loss": 3.8825,
      "step": 195670
    },
    {
      "epoch": 0.4076666666666667,
      "grad_norm": 1.0769274234771729,
      "learning_rate": 0.00019402123643723072,
      "loss": 3.7744,
      "step": 195680
    },
    {
      "epoch": 0.4076875,
      "grad_norm": 0.9404153227806091,
      "learning_rate": 0.00019401181189173698,
      "loss": 3.5924,
      "step": 195690
    },
    {
      "epoch": 0.40770833333333334,
      "grad_norm": 0.8042081594467163,
      "learning_rate": 0.00019400238715612956,
      "loss": 3.9544,
      "step": 195700
    },
    {
      "epoch": 0.40772916666666664,
      "grad_norm": 0.8035704493522644,
      "learning_rate": 0.00019399296223044927,
      "loss": 3.8382,
      "step": 195710
    },
    {
      "epoch": 0.40775,
      "grad_norm": 1.073626160621643,
      "learning_rate": 0.0001939835371147368,
      "loss": 3.8497,
      "step": 195720
    },
    {
      "epoch": 0.40777083333333336,
      "grad_norm": 0.9077701568603516,
      "learning_rate": 0.00019397411180903287,
      "loss": 3.8729,
      "step": 195730
    },
    {
      "epoch": 0.40779166666666666,
      "grad_norm": 0.7460809946060181,
      "learning_rate": 0.00019396468631337823,
      "loss": 3.885,
      "step": 195740
    },
    {
      "epoch": 0.4078125,
      "grad_norm": 0.8050316572189331,
      "learning_rate": 0.00019395526062781343,
      "loss": 4.0856,
      "step": 195750
    },
    {
      "epoch": 0.4078333333333333,
      "grad_norm": 0.7717926502227783,
      "learning_rate": 0.0001939458347523794,
      "loss": 3.8502,
      "step": 195760
    },
    {
      "epoch": 0.4078541666666667,
      "grad_norm": 0.7891712784767151,
      "learning_rate": 0.00019393640868711672,
      "loss": 3.9675,
      "step": 195770
    },
    {
      "epoch": 0.407875,
      "grad_norm": 0.8145788311958313,
      "learning_rate": 0.00019392698243206612,
      "loss": 3.7784,
      "step": 195780
    },
    {
      "epoch": 0.40789583333333335,
      "grad_norm": 0.8291568756103516,
      "learning_rate": 0.00019391755598726843,
      "loss": 4.0057,
      "step": 195790
    },
    {
      "epoch": 0.40791666666666665,
      "grad_norm": 0.7488634586334229,
      "learning_rate": 0.0001939081293527642,
      "loss": 3.8485,
      "step": 195800
    },
    {
      "epoch": 0.4079375,
      "grad_norm": 0.9335806965827942,
      "learning_rate": 0.00019389870252859426,
      "loss": 3.8074,
      "step": 195810
    },
    {
      "epoch": 0.4079583333333333,
      "grad_norm": 0.8294033408164978,
      "learning_rate": 0.0001938892755147993,
      "loss": 3.7934,
      "step": 195820
    },
    {
      "epoch": 0.40797916666666667,
      "grad_norm": 0.7125259041786194,
      "learning_rate": 0.00019387984831142004,
      "loss": 3.8736,
      "step": 195830
    },
    {
      "epoch": 0.408,
      "grad_norm": 0.9186751246452332,
      "learning_rate": 0.0001938704209184972,
      "loss": 3.8026,
      "step": 195840
    },
    {
      "epoch": 0.40802083333333333,
      "grad_norm": 0.736815333366394,
      "learning_rate": 0.0001938609933360715,
      "loss": 3.9548,
      "step": 195850
    },
    {
      "epoch": 0.4080416666666667,
      "grad_norm": 0.7887657880783081,
      "learning_rate": 0.00019385156556418369,
      "loss": 3.9533,
      "step": 195860
    },
    {
      "epoch": 0.4080625,
      "grad_norm": 1.0399377346038818,
      "learning_rate": 0.00019384213760287447,
      "loss": 3.8731,
      "step": 195870
    },
    {
      "epoch": 0.40808333333333335,
      "grad_norm": 0.8007993698120117,
      "learning_rate": 0.00019383270945218456,
      "loss": 3.869,
      "step": 195880
    },
    {
      "epoch": 0.40810416666666666,
      "grad_norm": 0.8486935496330261,
      "learning_rate": 0.0001938232811121547,
      "loss": 3.7569,
      "step": 195890
    },
    {
      "epoch": 0.408125,
      "grad_norm": 0.9154973030090332,
      "learning_rate": 0.00019381385258282564,
      "loss": 3.6706,
      "step": 195900
    },
    {
      "epoch": 0.4081458333333333,
      "grad_norm": 0.74552983045578,
      "learning_rate": 0.00019380442386423806,
      "loss": 3.9839,
      "step": 195910
    },
    {
      "epoch": 0.4081666666666667,
      "grad_norm": 0.820567786693573,
      "learning_rate": 0.00019379499495643265,
      "loss": 3.9381,
      "step": 195920
    },
    {
      "epoch": 0.4081875,
      "grad_norm": 0.8938918113708496,
      "learning_rate": 0.00019378556585945028,
      "loss": 3.8853,
      "step": 195930
    },
    {
      "epoch": 0.40820833333333334,
      "grad_norm": 0.8146952390670776,
      "learning_rate": 0.00019377613657333158,
      "loss": 3.7308,
      "step": 195940
    },
    {
      "epoch": 0.40822916666666664,
      "grad_norm": 0.7541578412055969,
      "learning_rate": 0.00019376670709811723,
      "loss": 3.9878,
      "step": 195950
    },
    {
      "epoch": 0.40825,
      "grad_norm": 0.9117903709411621,
      "learning_rate": 0.0001937572774338481,
      "loss": 3.8939,
      "step": 195960
    },
    {
      "epoch": 0.40827083333333336,
      "grad_norm": 0.7258574366569519,
      "learning_rate": 0.00019374784758056484,
      "loss": 3.8946,
      "step": 195970
    },
    {
      "epoch": 0.40829166666666666,
      "grad_norm": 1.0548744201660156,
      "learning_rate": 0.0001937384175383082,
      "loss": 4.0199,
      "step": 195980
    },
    {
      "epoch": 0.4083125,
      "grad_norm": 0.905575156211853,
      "learning_rate": 0.00019372898730711887,
      "loss": 3.9354,
      "step": 195990
    },
    {
      "epoch": 0.4083333333333333,
      "grad_norm": 0.902985155582428,
      "learning_rate": 0.00019371955688703767,
      "loss": 3.8921,
      "step": 196000
    },
    {
      "epoch": 0.4083333333333333,
      "eval_loss": 4.182626247406006,
      "eval_runtime": 8.9225,
      "eval_samples_per_second": 1.121,
      "eval_steps_per_second": 0.336,
      "step": 196000
    },
    {
      "epoch": 0.4083541666666667,
      "grad_norm": 0.762326717376709,
      "learning_rate": 0.00019371012627810528,
      "loss": 3.7904,
      "step": 196010
    },
    {
      "epoch": 0.408375,
      "grad_norm": 0.8311905860900879,
      "learning_rate": 0.0001937006954803624,
      "loss": 3.7883,
      "step": 196020
    },
    {
      "epoch": 0.40839583333333335,
      "grad_norm": 0.7814012169837952,
      "learning_rate": 0.00019369126449384985,
      "loss": 3.8717,
      "step": 196030
    },
    {
      "epoch": 0.40841666666666665,
      "grad_norm": 0.9567342400550842,
      "learning_rate": 0.00019368183331860836,
      "loss": 3.9381,
      "step": 196040
    },
    {
      "epoch": 0.4084375,
      "grad_norm": 0.8373311758041382,
      "learning_rate": 0.0001936724019546786,
      "loss": 3.8191,
      "step": 196050
    },
    {
      "epoch": 0.4084583333333333,
      "grad_norm": 0.813838005065918,
      "learning_rate": 0.00019366297040210136,
      "loss": 3.8757,
      "step": 196060
    },
    {
      "epoch": 0.40847916666666667,
      "grad_norm": 0.8964939713478088,
      "learning_rate": 0.0001936535386609174,
      "loss": 3.6489,
      "step": 196070
    },
    {
      "epoch": 0.4085,
      "grad_norm": 0.7246211171150208,
      "learning_rate": 0.00019364410673116737,
      "loss": 3.8589,
      "step": 196080
    },
    {
      "epoch": 0.40852083333333333,
      "grad_norm": 0.7785637974739075,
      "learning_rate": 0.00019363467461289212,
      "loss": 3.9266,
      "step": 196090
    },
    {
      "epoch": 0.4085416666666667,
      "grad_norm": 0.8054057955741882,
      "learning_rate": 0.00019362524230613236,
      "loss": 3.6748,
      "step": 196100
    },
    {
      "epoch": 0.4085625,
      "grad_norm": 0.8104000687599182,
      "learning_rate": 0.0001936158098109288,
      "loss": 3.6914,
      "step": 196110
    },
    {
      "epoch": 0.40858333333333335,
      "grad_norm": 0.8553299903869629,
      "learning_rate": 0.00019360637712732218,
      "loss": 3.9883,
      "step": 196120
    },
    {
      "epoch": 0.40860416666666666,
      "grad_norm": 0.9452922940254211,
      "learning_rate": 0.00019359694425535333,
      "loss": 3.7753,
      "step": 196130
    },
    {
      "epoch": 0.408625,
      "grad_norm": 0.7062065005302429,
      "learning_rate": 0.0001935875111950629,
      "loss": 3.7537,
      "step": 196140
    },
    {
      "epoch": 0.4086458333333333,
      "grad_norm": 0.8335736989974976,
      "learning_rate": 0.00019357807794649162,
      "loss": 3.906,
      "step": 196150
    },
    {
      "epoch": 0.4086666666666667,
      "grad_norm": 0.8297006487846375,
      "learning_rate": 0.00019356864450968038,
      "loss": 3.837,
      "step": 196160
    },
    {
      "epoch": 0.4086875,
      "grad_norm": 0.7036313414573669,
      "learning_rate": 0.00019355921088466983,
      "loss": 3.8621,
      "step": 196170
    },
    {
      "epoch": 0.40870833333333334,
      "grad_norm": 0.9125405550003052,
      "learning_rate": 0.00019354977707150073,
      "loss": 3.8779,
      "step": 196180
    },
    {
      "epoch": 0.40872916666666664,
      "grad_norm": 0.8878064155578613,
      "learning_rate": 0.00019354034307021383,
      "loss": 3.8391,
      "step": 196190
    },
    {
      "epoch": 0.40875,
      "grad_norm": 0.7688753008842468,
      "learning_rate": 0.00019353090888084984,
      "loss": 3.7029,
      "step": 196200
    },
    {
      "epoch": 0.40877083333333336,
      "grad_norm": 0.7614287734031677,
      "learning_rate": 0.0001935214745034496,
      "loss": 3.8614,
      "step": 196210
    },
    {
      "epoch": 0.40879166666666666,
      "grad_norm": 0.8999890685081482,
      "learning_rate": 0.00019351203993805377,
      "loss": 3.9578,
      "step": 196220
    },
    {
      "epoch": 0.4088125,
      "grad_norm": 0.9338783621788025,
      "learning_rate": 0.00019350260518470318,
      "loss": 3.9286,
      "step": 196230
    },
    {
      "epoch": 0.4088333333333333,
      "grad_norm": 0.7458755970001221,
      "learning_rate": 0.00019349317024343858,
      "loss": 3.7999,
      "step": 196240
    },
    {
      "epoch": 0.4088541666666667,
      "grad_norm": 0.7281566262245178,
      "learning_rate": 0.00019348373511430064,
      "loss": 3.862,
      "step": 196250
    },
    {
      "epoch": 0.408875,
      "grad_norm": 0.8064316511154175,
      "learning_rate": 0.0001934742997973302,
      "loss": 3.8521,
      "step": 196260
    },
    {
      "epoch": 0.40889583333333335,
      "grad_norm": 0.9048774838447571,
      "learning_rate": 0.00019346486429256806,
      "loss": 3.726,
      "step": 196270
    },
    {
      "epoch": 0.40891666666666665,
      "grad_norm": 0.7716354131698608,
      "learning_rate": 0.00019345542860005482,
      "loss": 3.7461,
      "step": 196280
    },
    {
      "epoch": 0.4089375,
      "grad_norm": 0.7399380803108215,
      "learning_rate": 0.00019344599271983138,
      "loss": 3.8006,
      "step": 196290
    },
    {
      "epoch": 0.4089583333333333,
      "grad_norm": 0.7252005934715271,
      "learning_rate": 0.00019343655665193845,
      "loss": 3.8509,
      "step": 196300
    },
    {
      "epoch": 0.40897916666666667,
      "grad_norm": 1.0037567615509033,
      "learning_rate": 0.00019342712039641677,
      "loss": 3.7184,
      "step": 196310
    },
    {
      "epoch": 0.409,
      "grad_norm": 0.9980072975158691,
      "learning_rate": 0.0001934176839533071,
      "loss": 3.917,
      "step": 196320
    },
    {
      "epoch": 0.40902083333333333,
      "grad_norm": 0.7143622040748596,
      "learning_rate": 0.0001934082473226503,
      "loss": 3.7882,
      "step": 196330
    },
    {
      "epoch": 0.4090416666666667,
      "grad_norm": 0.7865405082702637,
      "learning_rate": 0.00019339881050448694,
      "loss": 3.9316,
      "step": 196340
    },
    {
      "epoch": 0.4090625,
      "grad_norm": 0.9864975810050964,
      "learning_rate": 0.00019338937349885798,
      "loss": 3.8543,
      "step": 196350
    },
    {
      "epoch": 0.40908333333333335,
      "grad_norm": 0.7823650240898132,
      "learning_rate": 0.00019337993630580405,
      "loss": 3.9243,
      "step": 196360
    },
    {
      "epoch": 0.40910416666666666,
      "grad_norm": 1.2503774166107178,
      "learning_rate": 0.000193370498925366,
      "loss": 3.8717,
      "step": 196370
    },
    {
      "epoch": 0.409125,
      "grad_norm": 0.9403663277626038,
      "learning_rate": 0.00019336106135758456,
      "loss": 3.9551,
      "step": 196380
    },
    {
      "epoch": 0.4091458333333333,
      "grad_norm": 0.7397662401199341,
      "learning_rate": 0.00019335162360250047,
      "loss": 3.8132,
      "step": 196390
    },
    {
      "epoch": 0.4091666666666667,
      "grad_norm": 0.8065736293792725,
      "learning_rate": 0.00019334218566015456,
      "loss": 3.8629,
      "step": 196400
    },
    {
      "epoch": 0.4091875,
      "grad_norm": 0.7020069360733032,
      "learning_rate": 0.00019333274753058759,
      "loss": 3.9029,
      "step": 196410
    },
    {
      "epoch": 0.40920833333333334,
      "grad_norm": 0.7250231504440308,
      "learning_rate": 0.00019332330921384023,
      "loss": 3.9351,
      "step": 196420
    },
    {
      "epoch": 0.40922916666666664,
      "grad_norm": 0.7858293056488037,
      "learning_rate": 0.00019331387070995335,
      "loss": 3.7417,
      "step": 196430
    },
    {
      "epoch": 0.40925,
      "grad_norm": 0.8295948505401611,
      "learning_rate": 0.00019330443201896774,
      "loss": 3.7809,
      "step": 196440
    },
    {
      "epoch": 0.4092708333333333,
      "grad_norm": 0.7101122736930847,
      "learning_rate": 0.00019329499314092404,
      "loss": 3.7167,
      "step": 196450
    },
    {
      "epoch": 0.40929166666666666,
      "grad_norm": 0.7184519171714783,
      "learning_rate": 0.00019328555407586317,
      "loss": 3.9188,
      "step": 196460
    },
    {
      "epoch": 0.4093125,
      "grad_norm": 0.980656087398529,
      "learning_rate": 0.00019327611482382583,
      "loss": 3.9913,
      "step": 196470
    },
    {
      "epoch": 0.4093333333333333,
      "grad_norm": 0.7330355048179626,
      "learning_rate": 0.0001932666753848528,
      "loss": 3.9586,
      "step": 196480
    },
    {
      "epoch": 0.4093541666666667,
      "grad_norm": 1.1657021045684814,
      "learning_rate": 0.00019325723575898485,
      "loss": 3.8977,
      "step": 196490
    },
    {
      "epoch": 0.409375,
      "grad_norm": 0.7507839202880859,
      "learning_rate": 0.00019324779594626277,
      "loss": 3.6922,
      "step": 196500
    },
    {
      "epoch": 0.40939583333333335,
      "grad_norm": 0.833404541015625,
      "learning_rate": 0.00019323835594672734,
      "loss": 4.0187,
      "step": 196510
    },
    {
      "epoch": 0.40941666666666665,
      "grad_norm": 0.9069460034370422,
      "learning_rate": 0.0001932289157604193,
      "loss": 3.9,
      "step": 196520
    },
    {
      "epoch": 0.4094375,
      "grad_norm": 0.7405125498771667,
      "learning_rate": 0.00019321947538737948,
      "loss": 3.8935,
      "step": 196530
    },
    {
      "epoch": 0.4094583333333333,
      "grad_norm": 0.9018637537956238,
      "learning_rate": 0.0001932100348276486,
      "loss": 3.8025,
      "step": 196540
    },
    {
      "epoch": 0.40947916666666667,
      "grad_norm": 0.6762906312942505,
      "learning_rate": 0.0001932005940812675,
      "loss": 3.6835,
      "step": 196550
    },
    {
      "epoch": 0.4095,
      "grad_norm": 0.7836417555809021,
      "learning_rate": 0.00019319115314827697,
      "loss": 3.8013,
      "step": 196560
    },
    {
      "epoch": 0.40952083333333333,
      "grad_norm": 0.713878870010376,
      "learning_rate": 0.00019318171202871768,
      "loss": 3.8862,
      "step": 196570
    },
    {
      "epoch": 0.4095416666666667,
      "grad_norm": 0.7376633286476135,
      "learning_rate": 0.0001931722707226305,
      "loss": 3.9063,
      "step": 196580
    },
    {
      "epoch": 0.4095625,
      "grad_norm": 0.8247754573822021,
      "learning_rate": 0.00019316282923005626,
      "loss": 3.742,
      "step": 196590
    },
    {
      "epoch": 0.40958333333333335,
      "grad_norm": 0.8458096981048584,
      "learning_rate": 0.00019315338755103564,
      "loss": 3.7066,
      "step": 196600
    },
    {
      "epoch": 0.40960416666666666,
      "grad_norm": 0.7383536696434021,
      "learning_rate": 0.00019314394568560947,
      "loss": 3.8943,
      "step": 196610
    },
    {
      "epoch": 0.409625,
      "grad_norm": 0.8514387011528015,
      "learning_rate": 0.0001931345036338185,
      "loss": 3.8955,
      "step": 196620
    },
    {
      "epoch": 0.4096458333333333,
      "grad_norm": 0.7694833278656006,
      "learning_rate": 0.00019312506139570364,
      "loss": 3.8438,
      "step": 196630
    },
    {
      "epoch": 0.4096666666666667,
      "grad_norm": 0.853316068649292,
      "learning_rate": 0.0001931156189713055,
      "loss": 3.8204,
      "step": 196640
    },
    {
      "epoch": 0.4096875,
      "grad_norm": 0.8049718141555786,
      "learning_rate": 0.00019310617636066494,
      "loss": 3.919,
      "step": 196650
    },
    {
      "epoch": 0.40970833333333334,
      "grad_norm": 0.828270435333252,
      "learning_rate": 0.00019309673356382285,
      "loss": 3.6699,
      "step": 196660
    },
    {
      "epoch": 0.40972916666666664,
      "grad_norm": 0.7264667749404907,
      "learning_rate": 0.0001930872905808199,
      "loss": 3.7219,
      "step": 196670
    },
    {
      "epoch": 0.40975,
      "grad_norm": 0.6993845701217651,
      "learning_rate": 0.00019307784741169685,
      "loss": 3.7911,
      "step": 196680
    },
    {
      "epoch": 0.4097708333333333,
      "grad_norm": 1.033818006515503,
      "learning_rate": 0.00019306840405649463,
      "loss": 3.823,
      "step": 196690
    },
    {
      "epoch": 0.40979166666666667,
      "grad_norm": 0.6962341070175171,
      "learning_rate": 0.0001930589605152539,
      "loss": 3.8326,
      "step": 196700
    },
    {
      "epoch": 0.4098125,
      "grad_norm": 1.068023920059204,
      "learning_rate": 0.0001930495167880155,
      "loss": 3.9766,
      "step": 196710
    },
    {
      "epoch": 0.4098333333333333,
      "grad_norm": 0.9060520529747009,
      "learning_rate": 0.00019304007287482025,
      "loss": 3.7801,
      "step": 196720
    },
    {
      "epoch": 0.4098541666666667,
      "grad_norm": 0.7895438075065613,
      "learning_rate": 0.0001930306287757089,
      "loss": 3.6466,
      "step": 196730
    },
    {
      "epoch": 0.409875,
      "grad_norm": 0.7680937647819519,
      "learning_rate": 0.00019302118449072227,
      "loss": 3.7394,
      "step": 196740
    },
    {
      "epoch": 0.40989583333333335,
      "grad_norm": 0.7005990743637085,
      "learning_rate": 0.00019301174001990122,
      "loss": 3.9019,
      "step": 196750
    },
    {
      "epoch": 0.40991666666666665,
      "grad_norm": 0.8175268173217773,
      "learning_rate": 0.00019300229536328638,
      "loss": 3.8785,
      "step": 196760
    },
    {
      "epoch": 0.4099375,
      "grad_norm": 0.7782716155052185,
      "learning_rate": 0.00019299285052091868,
      "loss": 3.9,
      "step": 196770
    },
    {
      "epoch": 0.4099583333333333,
      "grad_norm": 0.6899203658103943,
      "learning_rate": 0.0001929834054928389,
      "loss": 3.891,
      "step": 196780
    },
    {
      "epoch": 0.4099791666666667,
      "grad_norm": 0.8213937878608704,
      "learning_rate": 0.0001929739602790878,
      "loss": 3.7703,
      "step": 196790
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7861363887786865,
      "learning_rate": 0.00019296451487970628,
      "loss": 3.8105,
      "step": 196800
    },
    {
      "epoch": 0.41002083333333333,
      "grad_norm": 0.7289984822273254,
      "learning_rate": 0.00019295506929473496,
      "loss": 3.6543,
      "step": 196810
    },
    {
      "epoch": 0.4100416666666667,
      "grad_norm": 0.8415738344192505,
      "learning_rate": 0.00019294562352421477,
      "loss": 3.7996,
      "step": 196820
    },
    {
      "epoch": 0.4100625,
      "grad_norm": 0.8995678424835205,
      "learning_rate": 0.00019293617756818652,
      "loss": 3.7634,
      "step": 196830
    },
    {
      "epoch": 0.41008333333333336,
      "grad_norm": 0.8917787671089172,
      "learning_rate": 0.00019292673142669097,
      "loss": 4.0123,
      "step": 196840
    },
    {
      "epoch": 0.41010416666666666,
      "grad_norm": 0.9058002233505249,
      "learning_rate": 0.0001929172850997689,
      "loss": 3.8965,
      "step": 196850
    },
    {
      "epoch": 0.410125,
      "grad_norm": 0.7478447556495667,
      "learning_rate": 0.00019290783858746116,
      "loss": 3.9822,
      "step": 196860
    },
    {
      "epoch": 0.4101458333333333,
      "grad_norm": 0.8400604724884033,
      "learning_rate": 0.00019289839188980855,
      "loss": 3.8517,
      "step": 196870
    },
    {
      "epoch": 0.4101666666666667,
      "grad_norm": 0.8265796303749084,
      "learning_rate": 0.00019288894500685188,
      "loss": 3.7717,
      "step": 196880
    },
    {
      "epoch": 0.4101875,
      "grad_norm": 0.8637480139732361,
      "learning_rate": 0.00019287949793863192,
      "loss": 3.7826,
      "step": 196890
    },
    {
      "epoch": 0.41020833333333334,
      "grad_norm": 0.8458834886550903,
      "learning_rate": 0.0001928700506851895,
      "loss": 3.8568,
      "step": 196900
    },
    {
      "epoch": 0.41022916666666664,
      "grad_norm": 0.7258951663970947,
      "learning_rate": 0.00019286060324656543,
      "loss": 3.9715,
      "step": 196910
    },
    {
      "epoch": 0.41025,
      "grad_norm": 0.815163791179657,
      "learning_rate": 0.00019285115562280052,
      "loss": 3.9223,
      "step": 196920
    },
    {
      "epoch": 0.4102708333333333,
      "grad_norm": 0.7858485579490662,
      "learning_rate": 0.0001928417078139356,
      "loss": 3.7848,
      "step": 196930
    },
    {
      "epoch": 0.41029166666666667,
      "grad_norm": 0.8914977312088013,
      "learning_rate": 0.0001928322598200115,
      "loss": 3.7822,
      "step": 196940
    },
    {
      "epoch": 0.4103125,
      "grad_norm": 1.0741389989852905,
      "learning_rate": 0.0001928228116410689,
      "loss": 3.8756,
      "step": 196950
    },
    {
      "epoch": 0.4103333333333333,
      "grad_norm": 0.8010746240615845,
      "learning_rate": 0.00019281336327714872,
      "loss": 3.974,
      "step": 196960
    },
    {
      "epoch": 0.4103541666666667,
      "grad_norm": 0.7707740664482117,
      "learning_rate": 0.0001928039147282918,
      "loss": 3.6932,
      "step": 196970
    },
    {
      "epoch": 0.410375,
      "grad_norm": 0.8480634093284607,
      "learning_rate": 0.00019279446599453892,
      "loss": 3.9518,
      "step": 196980
    },
    {
      "epoch": 0.41039583333333335,
      "grad_norm": 0.7622759342193604,
      "learning_rate": 0.00019278501707593082,
      "loss": 3.7568,
      "step": 196990
    },
    {
      "epoch": 0.41041666666666665,
      "grad_norm": 0.8322451114654541,
      "learning_rate": 0.00019277556797250842,
      "loss": 3.8765,
      "step": 197000
    },
    {
      "epoch": 0.41041666666666665,
      "eval_loss": 4.187324523925781,
      "eval_runtime": 9.2098,
      "eval_samples_per_second": 1.086,
      "eval_steps_per_second": 0.326,
      "step": 197000
    },
    {
      "epoch": 0.4104375,
      "grad_norm": 0.7611880898475647,
      "learning_rate": 0.00019276611868431252,
      "loss": 3.734,
      "step": 197010
    },
    {
      "epoch": 0.4104583333333333,
      "grad_norm": 0.8028674721717834,
      "learning_rate": 0.00019275666921138385,
      "loss": 3.9638,
      "step": 197020
    },
    {
      "epoch": 0.4104791666666667,
      "grad_norm": 0.7327185273170471,
      "learning_rate": 0.00019274721955376336,
      "loss": 3.9025,
      "step": 197030
    },
    {
      "epoch": 0.4105,
      "grad_norm": 0.8686451315879822,
      "learning_rate": 0.0001927377697114918,
      "loss": 3.6839,
      "step": 197040
    },
    {
      "epoch": 0.41052083333333333,
      "grad_norm": 0.7394421100616455,
      "learning_rate": 0.00019272831968460995,
      "loss": 3.7705,
      "step": 197050
    },
    {
      "epoch": 0.4105416666666667,
      "grad_norm": 0.7164220213890076,
      "learning_rate": 0.0001927188694731587,
      "loss": 3.9078,
      "step": 197060
    },
    {
      "epoch": 0.4105625,
      "grad_norm": 0.8325082659721375,
      "learning_rate": 0.00019270941907717883,
      "loss": 3.8882,
      "step": 197070
    },
    {
      "epoch": 0.41058333333333336,
      "grad_norm": 1.073930025100708,
      "learning_rate": 0.00019269996849671117,
      "loss": 3.8781,
      "step": 197080
    },
    {
      "epoch": 0.41060416666666666,
      "grad_norm": 0.7842992544174194,
      "learning_rate": 0.0001926905177317966,
      "loss": 3.8726,
      "step": 197090
    },
    {
      "epoch": 0.410625,
      "grad_norm": 0.7312692999839783,
      "learning_rate": 0.0001926810667824758,
      "loss": 3.8812,
      "step": 197100
    },
    {
      "epoch": 0.4106458333333333,
      "grad_norm": 0.9606465101242065,
      "learning_rate": 0.00019267161564878976,
      "loss": 3.8642,
      "step": 197110
    },
    {
      "epoch": 0.4106666666666667,
      "grad_norm": 0.8840891122817993,
      "learning_rate": 0.0001926621643307792,
      "loss": 3.687,
      "step": 197120
    },
    {
      "epoch": 0.4106875,
      "grad_norm": 0.8815714716911316,
      "learning_rate": 0.00019265271282848496,
      "loss": 3.7383,
      "step": 197130
    },
    {
      "epoch": 0.41070833333333334,
      "grad_norm": 0.865287721157074,
      "learning_rate": 0.00019264326114194796,
      "loss": 3.756,
      "step": 197140
    },
    {
      "epoch": 0.41072916666666665,
      "grad_norm": 1.143286108970642,
      "learning_rate": 0.00019263380927120885,
      "loss": 3.9409,
      "step": 197150
    },
    {
      "epoch": 0.41075,
      "grad_norm": 0.76991868019104,
      "learning_rate": 0.0001926243572163086,
      "loss": 3.7023,
      "step": 197160
    },
    {
      "epoch": 0.4107708333333333,
      "grad_norm": 0.7424185276031494,
      "learning_rate": 0.00019261490497728806,
      "loss": 3.8889,
      "step": 197170
    },
    {
      "epoch": 0.41079166666666667,
      "grad_norm": 0.7270592451095581,
      "learning_rate": 0.00019260545255418793,
      "loss": 3.9162,
      "step": 197180
    },
    {
      "epoch": 0.4108125,
      "grad_norm": 0.8122940063476562,
      "learning_rate": 0.0001925959999470491,
      "loss": 3.7621,
      "step": 197190
    },
    {
      "epoch": 0.41083333333333333,
      "grad_norm": 0.9724702835083008,
      "learning_rate": 0.00019258654715591247,
      "loss": 3.9989,
      "step": 197200
    },
    {
      "epoch": 0.4108541666666667,
      "grad_norm": 0.7069706916809082,
      "learning_rate": 0.00019257709418081878,
      "loss": 3.9114,
      "step": 197210
    },
    {
      "epoch": 0.410875,
      "grad_norm": 0.7780327200889587,
      "learning_rate": 0.00019256764102180892,
      "loss": 3.8671,
      "step": 197220
    },
    {
      "epoch": 0.41089583333333335,
      "grad_norm": 0.7714746594429016,
      "learning_rate": 0.00019255818767892365,
      "loss": 3.7553,
      "step": 197230
    },
    {
      "epoch": 0.41091666666666665,
      "grad_norm": 0.7649571299552917,
      "learning_rate": 0.0001925487341522039,
      "loss": 3.8528,
      "step": 197240
    },
    {
      "epoch": 0.4109375,
      "grad_norm": 0.9471218585968018,
      "learning_rate": 0.0001925392804416904,
      "loss": 3.8643,
      "step": 197250
    },
    {
      "epoch": 0.4109583333333333,
      "grad_norm": 0.8899046778678894,
      "learning_rate": 0.0001925298265474241,
      "loss": 3.7203,
      "step": 197260
    },
    {
      "epoch": 0.4109791666666667,
      "grad_norm": 0.7301168441772461,
      "learning_rate": 0.00019252037246944578,
      "loss": 3.8063,
      "step": 197270
    },
    {
      "epoch": 0.411,
      "grad_norm": 0.7848758697509766,
      "learning_rate": 0.00019251091820779627,
      "loss": 3.8318,
      "step": 197280
    },
    {
      "epoch": 0.41102083333333334,
      "grad_norm": 0.909532904624939,
      "learning_rate": 0.0001925014637625164,
      "loss": 3.9348,
      "step": 197290
    },
    {
      "epoch": 0.4110416666666667,
      "grad_norm": 0.7422389388084412,
      "learning_rate": 0.00019249200913364704,
      "loss": 3.8649,
      "step": 197300
    },
    {
      "epoch": 0.4110625,
      "grad_norm": 0.8058017492294312,
      "learning_rate": 0.0001924825543212291,
      "loss": 3.7245,
      "step": 197310
    },
    {
      "epoch": 0.41108333333333336,
      "grad_norm": 0.9159464240074158,
      "learning_rate": 0.00019247309932530324,
      "loss": 3.8174,
      "step": 197320
    },
    {
      "epoch": 0.41110416666666666,
      "grad_norm": 0.87320876121521,
      "learning_rate": 0.0001924636441459104,
      "loss": 3.9557,
      "step": 197330
    },
    {
      "epoch": 0.411125,
      "grad_norm": 0.7304991483688354,
      "learning_rate": 0.00019245418878309153,
      "loss": 3.7126,
      "step": 197340
    },
    {
      "epoch": 0.4111458333333333,
      "grad_norm": 0.846195638179779,
      "learning_rate": 0.00019244473323688728,
      "loss": 3.6899,
      "step": 197350
    },
    {
      "epoch": 0.4111666666666667,
      "grad_norm": 0.8150498270988464,
      "learning_rate": 0.00019243527750733858,
      "loss": 3.8108,
      "step": 197360
    },
    {
      "epoch": 0.4111875,
      "grad_norm": 0.844147801399231,
      "learning_rate": 0.00019242582159448632,
      "loss": 3.6726,
      "step": 197370
    },
    {
      "epoch": 0.41120833333333334,
      "grad_norm": 0.7238166928291321,
      "learning_rate": 0.00019241636549837128,
      "loss": 3.8941,
      "step": 197380
    },
    {
      "epoch": 0.41122916666666665,
      "grad_norm": 1.0068254470825195,
      "learning_rate": 0.00019240690921903435,
      "loss": 3.7568,
      "step": 197390
    },
    {
      "epoch": 0.41125,
      "grad_norm": 0.7944419384002686,
      "learning_rate": 0.00019239745275651633,
      "loss": 3.6797,
      "step": 197400
    },
    {
      "epoch": 0.4112708333333333,
      "grad_norm": 0.7730845212936401,
      "learning_rate": 0.00019238799611085813,
      "loss": 3.8773,
      "step": 197410
    },
    {
      "epoch": 0.41129166666666667,
      "grad_norm": 0.7365245819091797,
      "learning_rate": 0.00019237853928210055,
      "loss": 3.8896,
      "step": 197420
    },
    {
      "epoch": 0.4113125,
      "grad_norm": 0.7839947938919067,
      "learning_rate": 0.00019236908227028443,
      "loss": 3.9411,
      "step": 197430
    },
    {
      "epoch": 0.41133333333333333,
      "grad_norm": 0.7578887939453125,
      "learning_rate": 0.00019235962507545068,
      "loss": 3.8951,
      "step": 197440
    },
    {
      "epoch": 0.4113541666666667,
      "grad_norm": 0.9068253636360168,
      "learning_rate": 0.0001923501676976401,
      "loss": 3.9662,
      "step": 197450
    },
    {
      "epoch": 0.411375,
      "grad_norm": 0.7061856985092163,
      "learning_rate": 0.00019234071013689356,
      "loss": 3.811,
      "step": 197460
    },
    {
      "epoch": 0.41139583333333335,
      "grad_norm": 0.813827395439148,
      "learning_rate": 0.00019233125239325193,
      "loss": 3.9493,
      "step": 197470
    },
    {
      "epoch": 0.41141666666666665,
      "grad_norm": 0.7598470449447632,
      "learning_rate": 0.00019232179446675604,
      "loss": 3.8658,
      "step": 197480
    },
    {
      "epoch": 0.4114375,
      "grad_norm": 0.826676070690155,
      "learning_rate": 0.0001923123363574467,
      "loss": 3.84,
      "step": 197490
    },
    {
      "epoch": 0.4114583333333333,
      "grad_norm": 0.9417728781700134,
      "learning_rate": 0.00019230287806536487,
      "loss": 3.9189,
      "step": 197500
    },
    {
      "epoch": 0.4114791666666667,
      "grad_norm": 0.7494010329246521,
      "learning_rate": 0.0001922934195905514,
      "loss": 3.9703,
      "step": 197510
    },
    {
      "epoch": 0.4115,
      "grad_norm": 0.8154772520065308,
      "learning_rate": 0.000192283960933047,
      "loss": 3.7639,
      "step": 197520
    },
    {
      "epoch": 0.41152083333333334,
      "grad_norm": 0.6619553565979004,
      "learning_rate": 0.0001922745020928927,
      "loss": 3.8471,
      "step": 197530
    },
    {
      "epoch": 0.41154166666666664,
      "grad_norm": 0.6914084553718567,
      "learning_rate": 0.00019226504307012923,
      "loss": 3.8314,
      "step": 197540
    },
    {
      "epoch": 0.4115625,
      "grad_norm": 0.8775795102119446,
      "learning_rate": 0.0001922555838647975,
      "loss": 3.9452,
      "step": 197550
    },
    {
      "epoch": 0.41158333333333336,
      "grad_norm": 0.8323537111282349,
      "learning_rate": 0.0001922461244769384,
      "loss": 3.8763,
      "step": 197560
    },
    {
      "epoch": 0.41160416666666666,
      "grad_norm": 0.8818637728691101,
      "learning_rate": 0.00019223666490659276,
      "loss": 3.8172,
      "step": 197570
    },
    {
      "epoch": 0.411625,
      "grad_norm": 0.8004529476165771,
      "learning_rate": 0.00019222720515380142,
      "loss": 3.9788,
      "step": 197580
    },
    {
      "epoch": 0.4116458333333333,
      "grad_norm": 0.8396704196929932,
      "learning_rate": 0.0001922177452186053,
      "loss": 3.7739,
      "step": 197590
    },
    {
      "epoch": 0.4116666666666667,
      "grad_norm": 0.8366435766220093,
      "learning_rate": 0.00019220828510104523,
      "loss": 3.7885,
      "step": 197600
    },
    {
      "epoch": 0.4116875,
      "grad_norm": 0.7727640867233276,
      "learning_rate": 0.00019219882480116205,
      "loss": 4.0703,
      "step": 197610
    },
    {
      "epoch": 0.41170833333333334,
      "grad_norm": 0.8445546627044678,
      "learning_rate": 0.00019218936431899665,
      "loss": 3.6931,
      "step": 197620
    },
    {
      "epoch": 0.41172916666666665,
      "grad_norm": 0.8705610036849976,
      "learning_rate": 0.00019217990365458996,
      "loss": 3.8566,
      "step": 197630
    },
    {
      "epoch": 0.41175,
      "grad_norm": 0.6747676134109497,
      "learning_rate": 0.00019217044280798272,
      "loss": 3.7773,
      "step": 197640
    },
    {
      "epoch": 0.4117708333333333,
      "grad_norm": 0.839236855506897,
      "learning_rate": 0.00019216098177921587,
      "loss": 3.8284,
      "step": 197650
    },
    {
      "epoch": 0.41179166666666667,
      "grad_norm": 0.8019768595695496,
      "learning_rate": 0.00019215152056833025,
      "loss": 3.7986,
      "step": 197660
    },
    {
      "epoch": 0.4118125,
      "grad_norm": 0.7555156350135803,
      "learning_rate": 0.00019214205917536683,
      "loss": 3.8696,
      "step": 197670
    },
    {
      "epoch": 0.41183333333333333,
      "grad_norm": 0.748777449131012,
      "learning_rate": 0.00019213259760036632,
      "loss": 3.9251,
      "step": 197680
    },
    {
      "epoch": 0.4118541666666667,
      "grad_norm": 0.965246856212616,
      "learning_rate": 0.00019212313584336964,
      "loss": 3.8871,
      "step": 197690
    },
    {
      "epoch": 0.411875,
      "grad_norm": 1.0278199911117554,
      "learning_rate": 0.00019211367390441775,
      "loss": 3.7118,
      "step": 197700
    },
    {
      "epoch": 0.41189583333333335,
      "grad_norm": 0.9698978662490845,
      "learning_rate": 0.00019210421178355146,
      "loss": 3.8005,
      "step": 197710
    },
    {
      "epoch": 0.41191666666666665,
      "grad_norm": 0.8907871842384338,
      "learning_rate": 0.00019209474948081158,
      "loss": 3.9155,
      "step": 197720
    },
    {
      "epoch": 0.4119375,
      "grad_norm": 0.7313840985298157,
      "learning_rate": 0.00019208528699623913,
      "loss": 3.9347,
      "step": 197730
    },
    {
      "epoch": 0.4119583333333333,
      "grad_norm": 0.7666521668434143,
      "learning_rate": 0.00019207582432987483,
      "loss": 3.887,
      "step": 197740
    },
    {
      "epoch": 0.4119791666666667,
      "grad_norm": 0.7592928409576416,
      "learning_rate": 0.00019206636148175963,
      "loss": 3.8217,
      "step": 197750
    },
    {
      "epoch": 0.412,
      "grad_norm": 0.7270799875259399,
      "learning_rate": 0.00019205689845193442,
      "loss": 3.7547,
      "step": 197760
    },
    {
      "epoch": 0.41202083333333334,
      "grad_norm": 0.6950159668922424,
      "learning_rate": 0.00019204743524044006,
      "loss": 3.8723,
      "step": 197770
    },
    {
      "epoch": 0.41204166666666664,
      "grad_norm": 0.7233456373214722,
      "learning_rate": 0.00019203797184731743,
      "loss": 3.8901,
      "step": 197780
    },
    {
      "epoch": 0.4120625,
      "grad_norm": 0.7871737480163574,
      "learning_rate": 0.00019202850827260734,
      "loss": 3.8299,
      "step": 197790
    },
    {
      "epoch": 0.41208333333333336,
      "grad_norm": 0.7427458167076111,
      "learning_rate": 0.0001920190445163508,
      "loss": 3.9869,
      "step": 197800
    },
    {
      "epoch": 0.41210416666666666,
      "grad_norm": 0.7427359819412231,
      "learning_rate": 0.0001920095805785886,
      "loss": 3.9091,
      "step": 197810
    },
    {
      "epoch": 0.412125,
      "grad_norm": 0.7961561679840088,
      "learning_rate": 0.0001920001164593616,
      "loss": 3.7193,
      "step": 197820
    },
    {
      "epoch": 0.4121458333333333,
      "grad_norm": 0.8921899795532227,
      "learning_rate": 0.00019199065215871075,
      "loss": 3.8338,
      "step": 197830
    },
    {
      "epoch": 0.4121666666666667,
      "grad_norm": 0.7321494817733765,
      "learning_rate": 0.00019198118767667696,
      "loss": 3.9108,
      "step": 197840
    },
    {
      "epoch": 0.4121875,
      "grad_norm": 0.7810600996017456,
      "learning_rate": 0.00019197172301330099,
      "loss": 3.8189,
      "step": 197850
    },
    {
      "epoch": 0.41220833333333334,
      "grad_norm": 0.8440855145454407,
      "learning_rate": 0.00019196225816862377,
      "loss": 3.7329,
      "step": 197860
    },
    {
      "epoch": 0.41222916666666665,
      "grad_norm": 0.8095187544822693,
      "learning_rate": 0.0001919527931426863,
      "loss": 3.9139,
      "step": 197870
    },
    {
      "epoch": 0.41225,
      "grad_norm": 1.1607645750045776,
      "learning_rate": 0.00019194332793552932,
      "loss": 3.7815,
      "step": 197880
    },
    {
      "epoch": 0.4122708333333333,
      "grad_norm": 0.7050750255584717,
      "learning_rate": 0.00019193386254719372,
      "loss": 3.7371,
      "step": 197890
    },
    {
      "epoch": 0.41229166666666667,
      "grad_norm": 0.8275094628334045,
      "learning_rate": 0.00019192439697772047,
      "loss": 3.9375,
      "step": 197900
    },
    {
      "epoch": 0.4123125,
      "grad_norm": 0.8781713843345642,
      "learning_rate": 0.00019191493122715044,
      "loss": 3.9554,
      "step": 197910
    },
    {
      "epoch": 0.41233333333333333,
      "grad_norm": 0.6997883319854736,
      "learning_rate": 0.00019190546529552447,
      "loss": 3.9694,
      "step": 197920
    },
    {
      "epoch": 0.4123541666666667,
      "grad_norm": 0.7981106638908386,
      "learning_rate": 0.00019189599918288346,
      "loss": 3.8999,
      "step": 197930
    },
    {
      "epoch": 0.412375,
      "grad_norm": 0.6971291899681091,
      "learning_rate": 0.00019188653288926836,
      "loss": 3.9387,
      "step": 197940
    },
    {
      "epoch": 0.41239583333333335,
      "grad_norm": 0.8596797585487366,
      "learning_rate": 0.00019187706641472002,
      "loss": 3.7386,
      "step": 197950
    },
    {
      "epoch": 0.41241666666666665,
      "grad_norm": 0.6909546256065369,
      "learning_rate": 0.0001918675997592793,
      "loss": 3.8711,
      "step": 197960
    },
    {
      "epoch": 0.4124375,
      "grad_norm": 0.8590965270996094,
      "learning_rate": 0.00019185813292298712,
      "loss": 3.8043,
      "step": 197970
    },
    {
      "epoch": 0.4124583333333333,
      "grad_norm": 0.8344891667366028,
      "learning_rate": 0.00019184866590588439,
      "loss": 3.7423,
      "step": 197980
    },
    {
      "epoch": 0.4124791666666667,
      "grad_norm": 0.9500018358230591,
      "learning_rate": 0.00019183919870801195,
      "loss": 3.8068,
      "step": 197990
    },
    {
      "epoch": 0.4125,
      "grad_norm": 0.9846110939979553,
      "learning_rate": 0.0001918297313294108,
      "loss": 3.8115,
      "step": 198000
    },
    {
      "epoch": 0.4125,
      "eval_loss": 4.179347038269043,
      "eval_runtime": 8.7551,
      "eval_samples_per_second": 1.142,
      "eval_steps_per_second": 0.343,
      "step": 198000
    },
    {
      "epoch": 0.41252083333333334,
      "grad_norm": 0.7386255860328674,
      "learning_rate": 0.00019182026377012176,
      "loss": 3.6731,
      "step": 198010
    },
    {
      "epoch": 0.41254166666666664,
      "grad_norm": 0.7751163244247437,
      "learning_rate": 0.00019181079603018564,
      "loss": 3.9464,
      "step": 198020
    },
    {
      "epoch": 0.4125625,
      "grad_norm": 0.7530432939529419,
      "learning_rate": 0.0001918013281096435,
      "loss": 3.8649,
      "step": 198030
    },
    {
      "epoch": 0.41258333333333336,
      "grad_norm": 0.7790982723236084,
      "learning_rate": 0.0001917918600085362,
      "loss": 4.0025,
      "step": 198040
    },
    {
      "epoch": 0.41260416666666666,
      "grad_norm": 0.7529014945030212,
      "learning_rate": 0.00019178239172690456,
      "loss": 3.9555,
      "step": 198050
    },
    {
      "epoch": 0.412625,
      "grad_norm": 0.8194721341133118,
      "learning_rate": 0.00019177292326478954,
      "loss": 3.8302,
      "step": 198060
    },
    {
      "epoch": 0.4126458333333333,
      "grad_norm": 0.9043498635292053,
      "learning_rate": 0.00019176345462223207,
      "loss": 3.8933,
      "step": 198070
    },
    {
      "epoch": 0.4126666666666667,
      "grad_norm": 0.8091381192207336,
      "learning_rate": 0.00019175398579927293,
      "loss": 3.9167,
      "step": 198080
    },
    {
      "epoch": 0.4126875,
      "grad_norm": 0.9613039493560791,
      "learning_rate": 0.0001917445167959531,
      "loss": 3.6718,
      "step": 198090
    },
    {
      "epoch": 0.41270833333333334,
      "grad_norm": 0.9455298781394958,
      "learning_rate": 0.00019173504761231354,
      "loss": 3.7893,
      "step": 198100
    },
    {
      "epoch": 0.41272916666666665,
      "grad_norm": 0.7394232153892517,
      "learning_rate": 0.0001917255782483951,
      "loss": 3.693,
      "step": 198110
    },
    {
      "epoch": 0.41275,
      "grad_norm": 1.1574231386184692,
      "learning_rate": 0.00019171610870423862,
      "loss": 3.6298,
      "step": 198120
    },
    {
      "epoch": 0.4127708333333333,
      "grad_norm": 0.8228248953819275,
      "learning_rate": 0.0001917066389798851,
      "loss": 3.7176,
      "step": 198130
    },
    {
      "epoch": 0.41279166666666667,
      "grad_norm": 0.8279806971549988,
      "learning_rate": 0.0001916971690753754,
      "loss": 4.1314,
      "step": 198140
    },
    {
      "epoch": 0.4128125,
      "grad_norm": 0.8155431151390076,
      "learning_rate": 0.0001916876989907504,
      "loss": 3.6224,
      "step": 198150
    },
    {
      "epoch": 0.41283333333333333,
      "grad_norm": 0.7345408201217651,
      "learning_rate": 0.00019167822872605107,
      "loss": 4.0066,
      "step": 198160
    },
    {
      "epoch": 0.4128541666666667,
      "grad_norm": 0.9234373569488525,
      "learning_rate": 0.0001916687582813183,
      "loss": 3.8524,
      "step": 198170
    },
    {
      "epoch": 0.412875,
      "grad_norm": 0.7900898456573486,
      "learning_rate": 0.000191659287656593,
      "loss": 3.7339,
      "step": 198180
    },
    {
      "epoch": 0.41289583333333335,
      "grad_norm": 0.8716259598731995,
      "learning_rate": 0.00019164981685191603,
      "loss": 3.8117,
      "step": 198190
    },
    {
      "epoch": 0.41291666666666665,
      "grad_norm": 0.8282591700553894,
      "learning_rate": 0.00019164034586732838,
      "loss": 3.9684,
      "step": 198200
    },
    {
      "epoch": 0.4129375,
      "grad_norm": 0.8356197476387024,
      "learning_rate": 0.0001916308747028709,
      "loss": 3.7781,
      "step": 198210
    },
    {
      "epoch": 0.4129583333333333,
      "grad_norm": 0.8009997606277466,
      "learning_rate": 0.00019162140335858446,
      "loss": 3.9784,
      "step": 198220
    },
    {
      "epoch": 0.4129791666666667,
      "grad_norm": 0.8115017414093018,
      "learning_rate": 0.00019161193183451009,
      "loss": 3.7552,
      "step": 198230
    },
    {
      "epoch": 0.413,
      "grad_norm": 0.7466937899589539,
      "learning_rate": 0.0001916024601306887,
      "loss": 3.7328,
      "step": 198240
    },
    {
      "epoch": 0.41302083333333334,
      "grad_norm": 0.7551008462905884,
      "learning_rate": 0.00019159298824716106,
      "loss": 3.791,
      "step": 198250
    },
    {
      "epoch": 0.41304166666666664,
      "grad_norm": 0.7939113974571228,
      "learning_rate": 0.00019158351618396823,
      "loss": 3.8332,
      "step": 198260
    },
    {
      "epoch": 0.4130625,
      "grad_norm": 0.7759754061698914,
      "learning_rate": 0.000191574043941151,
      "loss": 3.7339,
      "step": 198270
    },
    {
      "epoch": 0.41308333333333336,
      "grad_norm": 0.7967934012413025,
      "learning_rate": 0.00019156457151875043,
      "loss": 3.8512,
      "step": 198280
    },
    {
      "epoch": 0.41310416666666666,
      "grad_norm": 0.754275381565094,
      "learning_rate": 0.00019155509891680733,
      "loss": 3.7918,
      "step": 198290
    },
    {
      "epoch": 0.413125,
      "grad_norm": 0.6219320297241211,
      "learning_rate": 0.00019154562613536266,
      "loss": 3.789,
      "step": 198300
    },
    {
      "epoch": 0.4131458333333333,
      "grad_norm": 0.8237580060958862,
      "learning_rate": 0.00019153615317445732,
      "loss": 3.8097,
      "step": 198310
    },
    {
      "epoch": 0.4131666666666667,
      "grad_norm": 0.8411357998847961,
      "learning_rate": 0.00019152668003413225,
      "loss": 3.9184,
      "step": 198320
    },
    {
      "epoch": 0.4131875,
      "grad_norm": 0.7279715538024902,
      "learning_rate": 0.00019151720671442836,
      "loss": 4.0715,
      "step": 198330
    },
    {
      "epoch": 0.41320833333333334,
      "grad_norm": 0.7586517333984375,
      "learning_rate": 0.00019150773321538657,
      "loss": 3.6677,
      "step": 198340
    },
    {
      "epoch": 0.41322916666666665,
      "grad_norm": 0.7961942553520203,
      "learning_rate": 0.00019149825953704782,
      "loss": 3.8742,
      "step": 198350
    },
    {
      "epoch": 0.41325,
      "grad_norm": 1.0230562686920166,
      "learning_rate": 0.00019148878567945297,
      "loss": 3.8938,
      "step": 198360
    },
    {
      "epoch": 0.4132708333333333,
      "grad_norm": 0.8926021456718445,
      "learning_rate": 0.000191479311642643,
      "loss": 3.8602,
      "step": 198370
    },
    {
      "epoch": 0.41329166666666667,
      "grad_norm": 0.7439395189285278,
      "learning_rate": 0.00019146983742665885,
      "loss": 3.7997,
      "step": 198380
    },
    {
      "epoch": 0.4133125,
      "grad_norm": 0.7783722877502441,
      "learning_rate": 0.00019146036303154137,
      "loss": 3.7298,
      "step": 198390
    },
    {
      "epoch": 0.41333333333333333,
      "grad_norm": 0.7356916666030884,
      "learning_rate": 0.0001914508884573316,
      "loss": 3.8134,
      "step": 198400
    },
    {
      "epoch": 0.4133541666666667,
      "grad_norm": 0.809155285358429,
      "learning_rate": 0.00019144141370407036,
      "loss": 3.8559,
      "step": 198410
    },
    {
      "epoch": 0.413375,
      "grad_norm": 0.8309485912322998,
      "learning_rate": 0.00019143193877179862,
      "loss": 3.9171,
      "step": 198420
    },
    {
      "epoch": 0.41339583333333335,
      "grad_norm": 0.835631251335144,
      "learning_rate": 0.0001914224636605573,
      "loss": 3.7052,
      "step": 198430
    },
    {
      "epoch": 0.41341666666666665,
      "grad_norm": 0.795270562171936,
      "learning_rate": 0.00019141298837038734,
      "loss": 3.7865,
      "step": 198440
    },
    {
      "epoch": 0.4134375,
      "grad_norm": 0.7851257920265198,
      "learning_rate": 0.00019140351290132965,
      "loss": 3.9523,
      "step": 198450
    },
    {
      "epoch": 0.4134583333333333,
      "grad_norm": 0.7136538028717041,
      "learning_rate": 0.0001913940372534252,
      "loss": 3.7683,
      "step": 198460
    },
    {
      "epoch": 0.4134791666666667,
      "grad_norm": 0.8994428515434265,
      "learning_rate": 0.00019138456142671486,
      "loss": 3.8863,
      "step": 198470
    },
    {
      "epoch": 0.4135,
      "grad_norm": 0.8952925205230713,
      "learning_rate": 0.0001913750854212396,
      "loss": 3.7884,
      "step": 198480
    },
    {
      "epoch": 0.41352083333333334,
      "grad_norm": 0.743414044380188,
      "learning_rate": 0.00019136560923704038,
      "loss": 4.0244,
      "step": 198490
    },
    {
      "epoch": 0.41354166666666664,
      "grad_norm": 0.8370794653892517,
      "learning_rate": 0.00019135613287415808,
      "loss": 3.8214,
      "step": 198500
    },
    {
      "epoch": 0.4135625,
      "grad_norm": 0.7573451399803162,
      "learning_rate": 0.00019134665633263365,
      "loss": 3.7444,
      "step": 198510
    },
    {
      "epoch": 0.41358333333333336,
      "grad_norm": 0.8078216910362244,
      "learning_rate": 0.00019133717961250803,
      "loss": 3.7993,
      "step": 198520
    },
    {
      "epoch": 0.41360416666666666,
      "grad_norm": 0.8079633116722107,
      "learning_rate": 0.00019132770271382217,
      "loss": 3.7968,
      "step": 198530
    },
    {
      "epoch": 0.413625,
      "grad_norm": 0.8114941120147705,
      "learning_rate": 0.00019131822563661698,
      "loss": 3.8027,
      "step": 198540
    },
    {
      "epoch": 0.4136458333333333,
      "grad_norm": 0.7553297281265259,
      "learning_rate": 0.00019130874838093343,
      "loss": 3.9017,
      "step": 198550
    },
    {
      "epoch": 0.4136666666666667,
      "grad_norm": 0.7746846079826355,
      "learning_rate": 0.0001912992709468124,
      "loss": 3.8274,
      "step": 198560
    },
    {
      "epoch": 0.4136875,
      "grad_norm": 0.8298183083534241,
      "learning_rate": 0.00019128979333429496,
      "loss": 3.7511,
      "step": 198570
    },
    {
      "epoch": 0.41370833333333334,
      "grad_norm": 0.7616881132125854,
      "learning_rate": 0.00019128031554342185,
      "loss": 3.9803,
      "step": 198580
    },
    {
      "epoch": 0.41372916666666665,
      "grad_norm": 0.70205157995224,
      "learning_rate": 0.00019127083757423415,
      "loss": 3.7173,
      "step": 198590
    },
    {
      "epoch": 0.41375,
      "grad_norm": 0.7722429037094116,
      "learning_rate": 0.0001912613594267728,
      "loss": 3.6835,
      "step": 198600
    },
    {
      "epoch": 0.4137708333333333,
      "grad_norm": 0.7739621996879578,
      "learning_rate": 0.00019125188110107868,
      "loss": 3.8872,
      "step": 198610
    },
    {
      "epoch": 0.41379166666666667,
      "grad_norm": 0.8723918199539185,
      "learning_rate": 0.00019124240259719278,
      "loss": 3.8614,
      "step": 198620
    },
    {
      "epoch": 0.4138125,
      "grad_norm": 2.365004301071167,
      "learning_rate": 0.000191232923915156,
      "loss": 4.0527,
      "step": 198630
    },
    {
      "epoch": 0.41383333333333333,
      "grad_norm": 0.8172308802604675,
      "learning_rate": 0.0001912234450550093,
      "loss": 3.719,
      "step": 198640
    },
    {
      "epoch": 0.4138541666666667,
      "grad_norm": 0.7569607496261597,
      "learning_rate": 0.00019121396601679368,
      "loss": 3.7849,
      "step": 198650
    },
    {
      "epoch": 0.413875,
      "grad_norm": 0.7671511769294739,
      "learning_rate": 0.00019120448680055,
      "loss": 3.8199,
      "step": 198660
    },
    {
      "epoch": 0.41389583333333335,
      "grad_norm": 0.7994363307952881,
      "learning_rate": 0.00019119500740631928,
      "loss": 3.8616,
      "step": 198670
    },
    {
      "epoch": 0.41391666666666665,
      "grad_norm": 1.0068621635437012,
      "learning_rate": 0.0001911855278341424,
      "loss": 3.7902,
      "step": 198680
    },
    {
      "epoch": 0.4139375,
      "grad_norm": 0.713026225566864,
      "learning_rate": 0.00019117604808406035,
      "loss": 3.6569,
      "step": 198690
    },
    {
      "epoch": 0.4139583333333333,
      "grad_norm": 0.7590259909629822,
      "learning_rate": 0.0001911665681561141,
      "loss": 3.8427,
      "step": 198700
    },
    {
      "epoch": 0.4139791666666667,
      "grad_norm": 0.6807935833930969,
      "learning_rate": 0.00019115708805034456,
      "loss": 3.8887,
      "step": 198710
    },
    {
      "epoch": 0.414,
      "grad_norm": 0.744163990020752,
      "learning_rate": 0.00019114760776679267,
      "loss": 3.8077,
      "step": 198720
    },
    {
      "epoch": 0.41402083333333334,
      "grad_norm": 1.0975089073181152,
      "learning_rate": 0.0001911381273054994,
      "loss": 4.0175,
      "step": 198730
    },
    {
      "epoch": 0.41404166666666664,
      "grad_norm": 0.8291214108467102,
      "learning_rate": 0.00019112864666650573,
      "loss": 3.9745,
      "step": 198740
    },
    {
      "epoch": 0.4140625,
      "grad_norm": 1.5781528949737549,
      "learning_rate": 0.0001911191658498526,
      "loss": 3.7831,
      "step": 198750
    },
    {
      "epoch": 0.41408333333333336,
      "grad_norm": 0.7879693508148193,
      "learning_rate": 0.0001911096848555809,
      "loss": 3.8194,
      "step": 198760
    },
    {
      "epoch": 0.41410416666666666,
      "grad_norm": 0.7140738368034363,
      "learning_rate": 0.00019110020368373167,
      "loss": 3.7598,
      "step": 198770
    },
    {
      "epoch": 0.414125,
      "grad_norm": 0.7697778940200806,
      "learning_rate": 0.00019109072233434584,
      "loss": 3.7566,
      "step": 198780
    },
    {
      "epoch": 0.4141458333333333,
      "grad_norm": 0.8523765802383423,
      "learning_rate": 0.0001910812408074643,
      "loss": 3.6077,
      "step": 198790
    },
    {
      "epoch": 0.4141666666666667,
      "grad_norm": 0.723342776298523,
      "learning_rate": 0.00019107175910312808,
      "loss": 3.8768,
      "step": 198800
    },
    {
      "epoch": 0.4141875,
      "grad_norm": 1.075643539428711,
      "learning_rate": 0.00019106227722137816,
      "loss": 3.9847,
      "step": 198810
    },
    {
      "epoch": 0.41420833333333335,
      "grad_norm": 0.7704694867134094,
      "learning_rate": 0.00019105279516225542,
      "loss": 3.9955,
      "step": 198820
    },
    {
      "epoch": 0.41422916666666665,
      "grad_norm": 0.6968965530395508,
      "learning_rate": 0.00019104331292580084,
      "loss": 4.0033,
      "step": 198830
    },
    {
      "epoch": 0.41425,
      "grad_norm": 0.7532533407211304,
      "learning_rate": 0.0001910338305120554,
      "loss": 3.9577,
      "step": 198840
    },
    {
      "epoch": 0.4142708333333333,
      "grad_norm": 0.6429358720779419,
      "learning_rate": 0.0001910243479210601,
      "loss": 3.8132,
      "step": 198850
    },
    {
      "epoch": 0.41429166666666667,
      "grad_norm": 0.6919031739234924,
      "learning_rate": 0.0001910148651528558,
      "loss": 3.7023,
      "step": 198860
    },
    {
      "epoch": 0.4143125,
      "grad_norm": 0.8179826736450195,
      "learning_rate": 0.00019100538220748355,
      "loss": 3.9273,
      "step": 198870
    },
    {
      "epoch": 0.41433333333333333,
      "grad_norm": 0.8286969661712646,
      "learning_rate": 0.0001909958990849843,
      "loss": 3.8759,
      "step": 198880
    },
    {
      "epoch": 0.4143541666666667,
      "grad_norm": 0.8045631051063538,
      "learning_rate": 0.00019098641578539895,
      "loss": 3.8343,
      "step": 198890
    },
    {
      "epoch": 0.414375,
      "grad_norm": 0.8925571441650391,
      "learning_rate": 0.0001909769323087685,
      "loss": 3.9202,
      "step": 198900
    },
    {
      "epoch": 0.41439583333333335,
      "grad_norm": 1.097497582435608,
      "learning_rate": 0.000190967448655134,
      "loss": 3.821,
      "step": 198910
    },
    {
      "epoch": 0.41441666666666666,
      "grad_norm": 0.6804782748222351,
      "learning_rate": 0.00019095796482453625,
      "loss": 3.971,
      "step": 198920
    },
    {
      "epoch": 0.4144375,
      "grad_norm": 0.8191559314727783,
      "learning_rate": 0.00019094848081701633,
      "loss": 3.7938,
      "step": 198930
    },
    {
      "epoch": 0.4144583333333333,
      "grad_norm": 0.8288017511367798,
      "learning_rate": 0.0001909389966326152,
      "loss": 3.7698,
      "step": 198940
    },
    {
      "epoch": 0.4144791666666667,
      "grad_norm": 0.8324046730995178,
      "learning_rate": 0.00019092951227137379,
      "loss": 3.7211,
      "step": 198950
    },
    {
      "epoch": 0.4145,
      "grad_norm": 0.8604570627212524,
      "learning_rate": 0.00019092002773333307,
      "loss": 3.9088,
      "step": 198960
    },
    {
      "epoch": 0.41452083333333334,
      "grad_norm": 0.8147269487380981,
      "learning_rate": 0.00019091054301853408,
      "loss": 3.7533,
      "step": 198970
    },
    {
      "epoch": 0.41454166666666664,
      "grad_norm": 0.7927502393722534,
      "learning_rate": 0.0001909010581270177,
      "loss": 3.8469,
      "step": 198980
    },
    {
      "epoch": 0.4145625,
      "grad_norm": 0.6908013820648193,
      "learning_rate": 0.00019089157305882495,
      "loss": 3.9193,
      "step": 198990
    },
    {
      "epoch": 0.41458333333333336,
      "grad_norm": 0.8029571175575256,
      "learning_rate": 0.0001908820878139968,
      "loss": 3.7874,
      "step": 199000
    },
    {
      "epoch": 0.41458333333333336,
      "eval_loss": 4.172617435455322,
      "eval_runtime": 9.6817,
      "eval_samples_per_second": 1.033,
      "eval_steps_per_second": 0.31,
      "step": 199000
    },
    {
      "epoch": 0.41460416666666666,
      "grad_norm": 0.9240431785583496,
      "learning_rate": 0.0001908726023925742,
      "loss": 3.9556,
      "step": 199010
    },
    {
      "epoch": 0.414625,
      "grad_norm": 0.8244194984436035,
      "learning_rate": 0.00019086311679459813,
      "loss": 3.9807,
      "step": 199020
    },
    {
      "epoch": 0.4146458333333333,
      "grad_norm": 0.881938636302948,
      "learning_rate": 0.0001908536310201096,
      "loss": 3.8278,
      "step": 199030
    },
    {
      "epoch": 0.4146666666666667,
      "grad_norm": 0.7881781458854675,
      "learning_rate": 0.00019084414506914953,
      "loss": 3.9413,
      "step": 199040
    },
    {
      "epoch": 0.4146875,
      "grad_norm": 1.0713762044906616,
      "learning_rate": 0.00019083465894175893,
      "loss": 3.8721,
      "step": 199050
    },
    {
      "epoch": 0.41470833333333335,
      "grad_norm": 0.712416410446167,
      "learning_rate": 0.00019082517263797872,
      "loss": 3.812,
      "step": 199060
    },
    {
      "epoch": 0.41472916666666665,
      "grad_norm": 0.7208976745605469,
      "learning_rate": 0.00019081568615785,
      "loss": 3.8806,
      "step": 199070
    },
    {
      "epoch": 0.41475,
      "grad_norm": 0.7111936807632446,
      "learning_rate": 0.00019080619950141364,
      "loss": 3.8666,
      "step": 199080
    },
    {
      "epoch": 0.4147708333333333,
      "grad_norm": 0.706294059753418,
      "learning_rate": 0.00019079671266871063,
      "loss": 3.9394,
      "step": 199090
    },
    {
      "epoch": 0.41479166666666667,
      "grad_norm": 0.8063806891441345,
      "learning_rate": 0.000190787225659782,
      "loss": 3.7449,
      "step": 199100
    },
    {
      "epoch": 0.4148125,
      "grad_norm": 0.7819275856018066,
      "learning_rate": 0.0001907777384746687,
      "loss": 3.8387,
      "step": 199110
    },
    {
      "epoch": 0.41483333333333333,
      "grad_norm": 0.7486871480941772,
      "learning_rate": 0.00019076825111341168,
      "loss": 3.8371,
      "step": 199120
    },
    {
      "epoch": 0.4148541666666667,
      "grad_norm": 0.9704729318618774,
      "learning_rate": 0.00019075876357605193,
      "loss": 3.9489,
      "step": 199130
    },
    {
      "epoch": 0.414875,
      "grad_norm": 0.7374415993690491,
      "learning_rate": 0.00019074927586263055,
      "loss": 4.0115,
      "step": 199140
    },
    {
      "epoch": 0.41489583333333335,
      "grad_norm": 0.7689446806907654,
      "learning_rate": 0.00019073978797318834,
      "loss": 3.8715,
      "step": 199150
    },
    {
      "epoch": 0.41491666666666666,
      "grad_norm": 0.7769610285758972,
      "learning_rate": 0.0001907302999077664,
      "loss": 3.8676,
      "step": 199160
    },
    {
      "epoch": 0.4149375,
      "grad_norm": 0.715311586856842,
      "learning_rate": 0.0001907208116664057,
      "loss": 3.6972,
      "step": 199170
    },
    {
      "epoch": 0.4149583333333333,
      "grad_norm": 1.0134958028793335,
      "learning_rate": 0.00019071132324914721,
      "loss": 3.8539,
      "step": 199180
    },
    {
      "epoch": 0.4149791666666667,
      "grad_norm": 0.8009616136550903,
      "learning_rate": 0.00019070183465603191,
      "loss": 3.681,
      "step": 199190
    },
    {
      "epoch": 0.415,
      "grad_norm": 1.0174041986465454,
      "learning_rate": 0.00019069234588710082,
      "loss": 3.7622,
      "step": 199200
    },
    {
      "epoch": 0.41502083333333334,
      "grad_norm": 1.482805848121643,
      "learning_rate": 0.00019068285694239485,
      "loss": 3.7307,
      "step": 199210
    },
    {
      "epoch": 0.41504166666666664,
      "grad_norm": 0.9934275150299072,
      "learning_rate": 0.00019067336782195509,
      "loss": 3.9773,
      "step": 199220
    },
    {
      "epoch": 0.4150625,
      "grad_norm": 0.9077218770980835,
      "learning_rate": 0.00019066387852582244,
      "loss": 3.7589,
      "step": 199230
    },
    {
      "epoch": 0.41508333333333336,
      "grad_norm": 0.8894057273864746,
      "learning_rate": 0.00019065438905403794,
      "loss": 3.6867,
      "step": 199240
    },
    {
      "epoch": 0.41510416666666666,
      "grad_norm": 0.7307252287864685,
      "learning_rate": 0.00019064489940664263,
      "loss": 3.7882,
      "step": 199250
    },
    {
      "epoch": 0.415125,
      "grad_norm": 0.8393940925598145,
      "learning_rate": 0.00019063540958367737,
      "loss": 3.8931,
      "step": 199260
    },
    {
      "epoch": 0.4151458333333333,
      "grad_norm": 0.7720737457275391,
      "learning_rate": 0.00019062591958518324,
      "loss": 3.7719,
      "step": 199270
    },
    {
      "epoch": 0.4151666666666667,
      "grad_norm": 0.8691018223762512,
      "learning_rate": 0.00019061642941120126,
      "loss": 3.8017,
      "step": 199280
    },
    {
      "epoch": 0.4151875,
      "grad_norm": 1.0695326328277588,
      "learning_rate": 0.00019060693906177236,
      "loss": 3.754,
      "step": 199290
    },
    {
      "epoch": 0.41520833333333335,
      "grad_norm": 0.8423741459846497,
      "learning_rate": 0.00019059744853693755,
      "loss": 3.7326,
      "step": 199300
    },
    {
      "epoch": 0.41522916666666665,
      "grad_norm": 0.7648728489875793,
      "learning_rate": 0.0001905879578367378,
      "loss": 3.9296,
      "step": 199310
    },
    {
      "epoch": 0.41525,
      "grad_norm": 0.8706427216529846,
      "learning_rate": 0.0001905784669612142,
      "loss": 3.9683,
      "step": 199320
    },
    {
      "epoch": 0.4152708333333333,
      "grad_norm": 0.9632470011711121,
      "learning_rate": 0.00019056897591040764,
      "loss": 3.7706,
      "step": 199330
    },
    {
      "epoch": 0.41529166666666667,
      "grad_norm": 0.7096273303031921,
      "learning_rate": 0.0001905594846843592,
      "loss": 3.9544,
      "step": 199340
    },
    {
      "epoch": 0.4153125,
      "grad_norm": 0.7309845685958862,
      "learning_rate": 0.0001905499932831098,
      "loss": 4.0164,
      "step": 199350
    },
    {
      "epoch": 0.41533333333333333,
      "grad_norm": 0.715699315071106,
      "learning_rate": 0.0001905405017067005,
      "loss": 3.7628,
      "step": 199360
    },
    {
      "epoch": 0.4153541666666667,
      "grad_norm": 0.8910897970199585,
      "learning_rate": 0.0001905310099551723,
      "loss": 3.6819,
      "step": 199370
    },
    {
      "epoch": 0.415375,
      "grad_norm": 0.9702208042144775,
      "learning_rate": 0.0001905215180285661,
      "loss": 3.8045,
      "step": 199380
    },
    {
      "epoch": 0.41539583333333335,
      "grad_norm": 0.85726398229599,
      "learning_rate": 0.00019051202592692304,
      "loss": 3.9932,
      "step": 199390
    },
    {
      "epoch": 0.41541666666666666,
      "grad_norm": 0.850956916809082,
      "learning_rate": 0.00019050253365028406,
      "loss": 3.9068,
      "step": 199400
    },
    {
      "epoch": 0.4154375,
      "grad_norm": 0.8499026298522949,
      "learning_rate": 0.00019049304119869018,
      "loss": 3.9513,
      "step": 199410
    },
    {
      "epoch": 0.4154583333333333,
      "grad_norm": 0.7932860851287842,
      "learning_rate": 0.00019048354857218242,
      "loss": 3.7989,
      "step": 199420
    },
    {
      "epoch": 0.4154791666666667,
      "grad_norm": 0.826318085193634,
      "learning_rate": 0.00019047405577080165,
      "loss": 3.7804,
      "step": 199430
    },
    {
      "epoch": 0.4155,
      "grad_norm": 0.7504119873046875,
      "learning_rate": 0.0001904645627945891,
      "loss": 3.8296,
      "step": 199440
    },
    {
      "epoch": 0.41552083333333334,
      "grad_norm": 0.8166970610618591,
      "learning_rate": 0.0001904550696435856,
      "loss": 3.8083,
      "step": 199450
    },
    {
      "epoch": 0.41554166666666664,
      "grad_norm": 0.9541258215904236,
      "learning_rate": 0.00019044557631783216,
      "loss": 3.7528,
      "step": 199460
    },
    {
      "epoch": 0.4155625,
      "grad_norm": 0.7658985257148743,
      "learning_rate": 0.00019043608281736992,
      "loss": 3.8628,
      "step": 199470
    },
    {
      "epoch": 0.41558333333333336,
      "grad_norm": 0.8802781105041504,
      "learning_rate": 0.0001904265891422398,
      "loss": 3.965,
      "step": 199480
    },
    {
      "epoch": 0.41560416666666666,
      "grad_norm": 1.0288701057434082,
      "learning_rate": 0.00019041709529248277,
      "loss": 3.8484,
      "step": 199490
    },
    {
      "epoch": 0.415625,
      "grad_norm": 0.7604876160621643,
      "learning_rate": 0.00019040760126813993,
      "loss": 4.1488,
      "step": 199500
    },
    {
      "epoch": 0.4156458333333333,
      "grad_norm": 0.7074591517448425,
      "learning_rate": 0.00019039810706925222,
      "loss": 3.9581,
      "step": 199510
    },
    {
      "epoch": 0.4156666666666667,
      "grad_norm": 0.8093685507774353,
      "learning_rate": 0.0001903886126958607,
      "loss": 4.0144,
      "step": 199520
    },
    {
      "epoch": 0.4156875,
      "grad_norm": 0.8286947011947632,
      "learning_rate": 0.00019037911814800634,
      "loss": 3.9104,
      "step": 199530
    },
    {
      "epoch": 0.41570833333333335,
      "grad_norm": 0.7020241618156433,
      "learning_rate": 0.00019036962342573017,
      "loss": 3.8078,
      "step": 199540
    },
    {
      "epoch": 0.41572916666666665,
      "grad_norm": 0.7869219183921814,
      "learning_rate": 0.00019036012852907322,
      "loss": 3.9217,
      "step": 199550
    },
    {
      "epoch": 0.41575,
      "grad_norm": 0.7693302035331726,
      "learning_rate": 0.00019035063345807646,
      "loss": 3.7542,
      "step": 199560
    },
    {
      "epoch": 0.4157708333333333,
      "grad_norm": 0.777883768081665,
      "learning_rate": 0.00019034113821278097,
      "loss": 3.8111,
      "step": 199570
    },
    {
      "epoch": 0.41579166666666667,
      "grad_norm": 0.841885507106781,
      "learning_rate": 0.00019033164279322776,
      "loss": 4.0324,
      "step": 199580
    },
    {
      "epoch": 0.4158125,
      "grad_norm": 0.7735850811004639,
      "learning_rate": 0.00019032214719945774,
      "loss": 3.8801,
      "step": 199590
    },
    {
      "epoch": 0.41583333333333333,
      "grad_norm": 0.814636766910553,
      "learning_rate": 0.00019031265143151205,
      "loss": 3.7889,
      "step": 199600
    },
    {
      "epoch": 0.4158541666666667,
      "grad_norm": 0.879124104976654,
      "learning_rate": 0.0001903031554894317,
      "loss": 3.6898,
      "step": 199610
    },
    {
      "epoch": 0.415875,
      "grad_norm": 0.9087897539138794,
      "learning_rate": 0.00019029365937325762,
      "loss": 3.7181,
      "step": 199620
    },
    {
      "epoch": 0.41589583333333335,
      "grad_norm": 0.9419931769371033,
      "learning_rate": 0.00019028416308303084,
      "loss": 3.7858,
      "step": 199630
    },
    {
      "epoch": 0.41591666666666666,
      "grad_norm": 0.7302626967430115,
      "learning_rate": 0.00019027466661879252,
      "loss": 3.7917,
      "step": 199640
    },
    {
      "epoch": 0.4159375,
      "grad_norm": 0.8260369300842285,
      "learning_rate": 0.00019026516998058352,
      "loss": 3.9656,
      "step": 199650
    },
    {
      "epoch": 0.4159583333333333,
      "grad_norm": 0.7759503722190857,
      "learning_rate": 0.0001902556731684449,
      "loss": 3.7906,
      "step": 199660
    },
    {
      "epoch": 0.4159791666666667,
      "grad_norm": 1.003491759300232,
      "learning_rate": 0.00019024617618241778,
      "loss": 3.9008,
      "step": 199670
    },
    {
      "epoch": 0.416,
      "grad_norm": 0.7472840547561646,
      "learning_rate": 0.0001902366790225431,
      "loss": 3.7556,
      "step": 199680
    },
    {
      "epoch": 0.41602083333333334,
      "grad_norm": 0.9342556595802307,
      "learning_rate": 0.00019022718168886182,
      "loss": 3.9487,
      "step": 199690
    },
    {
      "epoch": 0.41604166666666664,
      "grad_norm": 0.8156266212463379,
      "learning_rate": 0.00019021768418141512,
      "loss": 3.8137,
      "step": 199700
    },
    {
      "epoch": 0.4160625,
      "grad_norm": 0.7328879833221436,
      "learning_rate": 0.00019020818650024388,
      "loss": 4.0311,
      "step": 199710
    },
    {
      "epoch": 0.41608333333333336,
      "grad_norm": 0.7535849809646606,
      "learning_rate": 0.00019019868864538923,
      "loss": 3.7706,
      "step": 199720
    },
    {
      "epoch": 0.41610416666666666,
      "grad_norm": 0.775215208530426,
      "learning_rate": 0.00019018919061689215,
      "loss": 3.9142,
      "step": 199730
    },
    {
      "epoch": 0.416125,
      "grad_norm": 0.7211182713508606,
      "learning_rate": 0.00019017969241479364,
      "loss": 3.9422,
      "step": 199740
    },
    {
      "epoch": 0.4161458333333333,
      "grad_norm": 0.9363105893135071,
      "learning_rate": 0.00019017019403913486,
      "loss": 3.7545,
      "step": 199750
    },
    {
      "epoch": 0.4161666666666667,
      "grad_norm": 0.8140429854393005,
      "learning_rate": 0.00019016069548995662,
      "loss": 3.8389,
      "step": 199760
    },
    {
      "epoch": 0.4161875,
      "grad_norm": 0.7205854058265686,
      "learning_rate": 0.00019015119676730013,
      "loss": 3.7622,
      "step": 199770
    },
    {
      "epoch": 0.41620833333333335,
      "grad_norm": 0.7920039892196655,
      "learning_rate": 0.0001901416978712064,
      "loss": 3.6505,
      "step": 199780
    },
    {
      "epoch": 0.41622916666666665,
      "grad_norm": 0.7781922817230225,
      "learning_rate": 0.00019013219880171636,
      "loss": 3.8322,
      "step": 199790
    },
    {
      "epoch": 0.41625,
      "grad_norm": 0.8522177338600159,
      "learning_rate": 0.0001901226995588711,
      "loss": 3.9525,
      "step": 199800
    },
    {
      "epoch": 0.4162708333333333,
      "grad_norm": 0.7993613481521606,
      "learning_rate": 0.00019011320014271173,
      "loss": 3.9354,
      "step": 199810
    },
    {
      "epoch": 0.41629166666666667,
      "grad_norm": 0.8590792417526245,
      "learning_rate": 0.00019010370055327916,
      "loss": 3.7547,
      "step": 199820
    },
    {
      "epoch": 0.4163125,
      "grad_norm": 0.691990852355957,
      "learning_rate": 0.00019009420079061447,
      "loss": 3.6725,
      "step": 199830
    },
    {
      "epoch": 0.41633333333333333,
      "grad_norm": 0.7905434966087341,
      "learning_rate": 0.00019008470085475875,
      "loss": 3.9423,
      "step": 199840
    },
    {
      "epoch": 0.4163541666666667,
      "grad_norm": 0.8244336247444153,
      "learning_rate": 0.00019007520074575295,
      "loss": 3.9544,
      "step": 199850
    },
    {
      "epoch": 0.416375,
      "grad_norm": 0.9567751288414001,
      "learning_rate": 0.00019006570046363816,
      "loss": 3.8559,
      "step": 199860
    },
    {
      "epoch": 0.41639583333333335,
      "grad_norm": 0.8306372761726379,
      "learning_rate": 0.0001900562000084554,
      "loss": 3.7673,
      "step": 199870
    },
    {
      "epoch": 0.41641666666666666,
      "grad_norm": 0.8394978642463684,
      "learning_rate": 0.00019004669938024572,
      "loss": 3.5233,
      "step": 199880
    },
    {
      "epoch": 0.4164375,
      "grad_norm": 0.6768643260002136,
      "learning_rate": 0.00019003719857905015,
      "loss": 3.7769,
      "step": 199890
    },
    {
      "epoch": 0.4164583333333333,
      "grad_norm": 0.8533174991607666,
      "learning_rate": 0.0001900276976049097,
      "loss": 3.8919,
      "step": 199900
    },
    {
      "epoch": 0.4164791666666667,
      "grad_norm": 0.8169505596160889,
      "learning_rate": 0.00019001819645786546,
      "loss": 3.8547,
      "step": 199910
    },
    {
      "epoch": 0.4165,
      "grad_norm": 0.7684786915779114,
      "learning_rate": 0.00019000869513795848,
      "loss": 3.9125,
      "step": 199920
    },
    {
      "epoch": 0.41652083333333334,
      "grad_norm": 0.7385995388031006,
      "learning_rate": 0.00018999919364522973,
      "loss": 3.8227,
      "step": 199930
    },
    {
      "epoch": 0.41654166666666664,
      "grad_norm": 0.8163550496101379,
      "learning_rate": 0.0001899896919797203,
      "loss": 3.8854,
      "step": 199940
    },
    {
      "epoch": 0.4165625,
      "grad_norm": 0.8800312280654907,
      "learning_rate": 0.00018998019014147127,
      "loss": 3.7076,
      "step": 199950
    },
    {
      "epoch": 0.41658333333333336,
      "grad_norm": 1.0500521659851074,
      "learning_rate": 0.00018997068813052362,
      "loss": 3.8038,
      "step": 199960
    },
    {
      "epoch": 0.41660416666666666,
      "grad_norm": 0.8036741018295288,
      "learning_rate": 0.0001899611859469184,
      "loss": 3.8135,
      "step": 199970
    },
    {
      "epoch": 0.416625,
      "grad_norm": 0.7582101225852966,
      "learning_rate": 0.00018995168359069671,
      "loss": 3.8412,
      "step": 199980
    },
    {
      "epoch": 0.4166458333333333,
      "grad_norm": 0.6640940308570862,
      "learning_rate": 0.00018994218106189954,
      "loss": 3.8096,
      "step": 199990
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.6817401051521301,
      "learning_rate": 0.00018993267836056794,
      "loss": 3.8914,
      "step": 200000
    },
    {
      "epoch": 0.4166666666666667,
      "eval_loss": 4.179460525512695,
      "eval_runtime": 8.4267,
      "eval_samples_per_second": 1.187,
      "eval_steps_per_second": 0.356,
      "step": 200000
    },
    {
      "epoch": 0.4166875,
      "grad_norm": 0.8203242421150208,
      "learning_rate": 0.000189923175486743,
      "loss": 3.7638,
      "step": 200010
    },
    {
      "epoch": 0.41670833333333335,
      "grad_norm": 0.7174976468086243,
      "learning_rate": 0.00018991367244046577,
      "loss": 3.7786,
      "step": 200020
    },
    {
      "epoch": 0.41672916666666665,
      "grad_norm": 0.7726994752883911,
      "learning_rate": 0.00018990416922177723,
      "loss": 3.7182,
      "step": 200030
    },
    {
      "epoch": 0.41675,
      "grad_norm": 0.8784170746803284,
      "learning_rate": 0.00018989466583071852,
      "loss": 3.7862,
      "step": 200040
    },
    {
      "epoch": 0.4167708333333333,
      "grad_norm": 0.8643956184387207,
      "learning_rate": 0.00018988516226733058,
      "loss": 3.8247,
      "step": 200050
    },
    {
      "epoch": 0.41679166666666667,
      "grad_norm": 0.7549756765365601,
      "learning_rate": 0.00018987565853165458,
      "loss": 3.8555,
      "step": 200060
    },
    {
      "epoch": 0.4168125,
      "grad_norm": 0.734376847743988,
      "learning_rate": 0.00018986615462373148,
      "loss": 3.754,
      "step": 200070
    },
    {
      "epoch": 0.41683333333333333,
      "grad_norm": 0.798651397228241,
      "learning_rate": 0.00018985665054360238,
      "loss": 3.9032,
      "step": 200080
    },
    {
      "epoch": 0.4168541666666667,
      "grad_norm": 0.7629038095474243,
      "learning_rate": 0.00018984714629130835,
      "loss": 3.8106,
      "step": 200090
    },
    {
      "epoch": 0.416875,
      "grad_norm": 0.76152503490448,
      "learning_rate": 0.00018983764186689041,
      "loss": 3.7382,
      "step": 200100
    },
    {
      "epoch": 0.41689583333333335,
      "grad_norm": 0.8454336524009705,
      "learning_rate": 0.00018982813727038965,
      "loss": 3.8905,
      "step": 200110
    },
    {
      "epoch": 0.41691666666666666,
      "grad_norm": 0.7636715173721313,
      "learning_rate": 0.00018981863250184709,
      "loss": 3.8588,
      "step": 200120
    },
    {
      "epoch": 0.4169375,
      "grad_norm": 0.7471469044685364,
      "learning_rate": 0.00018980912756130374,
      "loss": 3.8765,
      "step": 200130
    },
    {
      "epoch": 0.4169583333333333,
      "grad_norm": 0.8278932571411133,
      "learning_rate": 0.00018979962244880077,
      "loss": 3.7485,
      "step": 200140
    },
    {
      "epoch": 0.4169791666666667,
      "grad_norm": 0.8317841291427612,
      "learning_rate": 0.0001897901171643792,
      "loss": 3.8106,
      "step": 200150
    },
    {
      "epoch": 0.417,
      "grad_norm": 0.6751745939254761,
      "learning_rate": 0.00018978061170808,
      "loss": 3.8492,
      "step": 200160
    },
    {
      "epoch": 0.41702083333333334,
      "grad_norm": 0.8257759809494019,
      "learning_rate": 0.0001897711060799444,
      "loss": 3.8548,
      "step": 200170
    },
    {
      "epoch": 0.41704166666666664,
      "grad_norm": 0.8588259816169739,
      "learning_rate": 0.0001897616002800133,
      "loss": 3.7949,
      "step": 200180
    },
    {
      "epoch": 0.4170625,
      "grad_norm": 0.8665802478790283,
      "learning_rate": 0.00018975209430832787,
      "loss": 3.8934,
      "step": 200190
    },
    {
      "epoch": 0.4170833333333333,
      "grad_norm": 0.6818581819534302,
      "learning_rate": 0.00018974258816492907,
      "loss": 3.7257,
      "step": 200200
    },
    {
      "epoch": 0.41710416666666666,
      "grad_norm": 0.8245119452476501,
      "learning_rate": 0.00018973308184985804,
      "loss": 3.8506,
      "step": 200210
    },
    {
      "epoch": 0.417125,
      "grad_norm": 0.7563394904136658,
      "learning_rate": 0.00018972357536315587,
      "loss": 3.9945,
      "step": 200220
    },
    {
      "epoch": 0.4171458333333333,
      "grad_norm": 0.7716299295425415,
      "learning_rate": 0.00018971406870486353,
      "loss": 3.6025,
      "step": 200230
    },
    {
      "epoch": 0.4171666666666667,
      "grad_norm": 0.8433566093444824,
      "learning_rate": 0.00018970456187502213,
      "loss": 3.774,
      "step": 200240
    },
    {
      "epoch": 0.4171875,
      "grad_norm": 0.7124407291412354,
      "learning_rate": 0.00018969505487367278,
      "loss": 3.8543,
      "step": 200250
    },
    {
      "epoch": 0.41720833333333335,
      "grad_norm": 0.8316365480422974,
      "learning_rate": 0.00018968554770085647,
      "loss": 4.0047,
      "step": 200260
    },
    {
      "epoch": 0.41722916666666665,
      "grad_norm": 0.9200221300125122,
      "learning_rate": 0.0001896760403566143,
      "loss": 3.8114,
      "step": 200270
    },
    {
      "epoch": 0.41725,
      "grad_norm": 0.7209696769714355,
      "learning_rate": 0.00018966653284098738,
      "loss": 3.7988,
      "step": 200280
    },
    {
      "epoch": 0.4172708333333333,
      "grad_norm": 0.7592516541481018,
      "learning_rate": 0.00018965702515401673,
      "loss": 3.884,
      "step": 200290
    },
    {
      "epoch": 0.41729166666666667,
      "grad_norm": 0.7727393507957458,
      "learning_rate": 0.00018964751729574336,
      "loss": 3.8488,
      "step": 200300
    },
    {
      "epoch": 0.4173125,
      "grad_norm": 0.7654933333396912,
      "learning_rate": 0.00018963800926620854,
      "loss": 3.8845,
      "step": 200310
    },
    {
      "epoch": 0.41733333333333333,
      "grad_norm": 0.7799976468086243,
      "learning_rate": 0.0001896285010654531,
      "loss": 3.7664,
      "step": 200320
    },
    {
      "epoch": 0.4173541666666667,
      "grad_norm": 0.8571205139160156,
      "learning_rate": 0.00018961899269351822,
      "loss": 3.9403,
      "step": 200330
    },
    {
      "epoch": 0.417375,
      "grad_norm": 0.8802581429481506,
      "learning_rate": 0.00018960948415044506,
      "loss": 3.7916,
      "step": 200340
    },
    {
      "epoch": 0.41739583333333335,
      "grad_norm": 0.8390045166015625,
      "learning_rate": 0.00018959997543627454,
      "loss": 3.6901,
      "step": 200350
    },
    {
      "epoch": 0.41741666666666666,
      "grad_norm": 0.7877516746520996,
      "learning_rate": 0.00018959046655104783,
      "loss": 3.9136,
      "step": 200360
    },
    {
      "epoch": 0.4174375,
      "grad_norm": 0.7479024529457092,
      "learning_rate": 0.00018958095749480592,
      "loss": 3.7488,
      "step": 200370
    },
    {
      "epoch": 0.4174583333333333,
      "grad_norm": 0.7814350724220276,
      "learning_rate": 0.00018957144826759002,
      "loss": 3.8402,
      "step": 200380
    },
    {
      "epoch": 0.4174791666666667,
      "grad_norm": 0.7766282558441162,
      "learning_rate": 0.00018956193886944105,
      "loss": 3.69,
      "step": 200390
    },
    {
      "epoch": 0.4175,
      "grad_norm": 0.7414659261703491,
      "learning_rate": 0.0001895524293004002,
      "loss": 3.7491,
      "step": 200400
    },
    {
      "epoch": 0.41752083333333334,
      "grad_norm": 0.8362590670585632,
      "learning_rate": 0.0001895429195605085,
      "loss": 3.9958,
      "step": 200410
    },
    {
      "epoch": 0.41754166666666664,
      "grad_norm": 0.7947819828987122,
      "learning_rate": 0.00018953340964980705,
      "loss": 3.9444,
      "step": 200420
    },
    {
      "epoch": 0.4175625,
      "grad_norm": 0.8611812591552734,
      "learning_rate": 0.00018952389956833693,
      "loss": 3.9687,
      "step": 200430
    },
    {
      "epoch": 0.4175833333333333,
      "grad_norm": 0.7633215188980103,
      "learning_rate": 0.00018951438931613922,
      "loss": 3.6754,
      "step": 200440
    },
    {
      "epoch": 0.41760416666666667,
      "grad_norm": 0.7176138162612915,
      "learning_rate": 0.00018950487889325497,
      "loss": 3.8049,
      "step": 200450
    },
    {
      "epoch": 0.417625,
      "grad_norm": 1.060675024986267,
      "learning_rate": 0.00018949536829972525,
      "loss": 3.9425,
      "step": 200460
    },
    {
      "epoch": 0.4176458333333333,
      "grad_norm": 0.9646788239479065,
      "learning_rate": 0.0001894858575355912,
      "loss": 3.8215,
      "step": 200470
    },
    {
      "epoch": 0.4176666666666667,
      "grad_norm": 0.7587379813194275,
      "learning_rate": 0.00018947634660089393,
      "loss": 3.9925,
      "step": 200480
    },
    {
      "epoch": 0.4176875,
      "grad_norm": 0.8369232416152954,
      "learning_rate": 0.00018946683549567439,
      "loss": 3.9221,
      "step": 200490
    },
    {
      "epoch": 0.41770833333333335,
      "grad_norm": 0.8363253474235535,
      "learning_rate": 0.00018945732421997376,
      "loss": 3.8627,
      "step": 200500
    },
    {
      "epoch": 0.41772916666666665,
      "grad_norm": 0.8723824620246887,
      "learning_rate": 0.00018944781277383313,
      "loss": 4.0085,
      "step": 200510
    },
    {
      "epoch": 0.41775,
      "grad_norm": 0.7497814297676086,
      "learning_rate": 0.00018943830115729352,
      "loss": 3.8179,
      "step": 200520
    },
    {
      "epoch": 0.4177708333333333,
      "grad_norm": 0.8396056294441223,
      "learning_rate": 0.00018942878937039606,
      "loss": 3.8765,
      "step": 200530
    },
    {
      "epoch": 0.4177916666666667,
      "grad_norm": 0.7541133761405945,
      "learning_rate": 0.00018941927741318191,
      "loss": 3.8671,
      "step": 200540
    },
    {
      "epoch": 0.4178125,
      "grad_norm": 0.8598849177360535,
      "learning_rate": 0.00018940976528569205,
      "loss": 3.7699,
      "step": 200550
    },
    {
      "epoch": 0.41783333333333333,
      "grad_norm": 0.94449383020401,
      "learning_rate": 0.0001894002529879676,
      "loss": 3.8159,
      "step": 200560
    },
    {
      "epoch": 0.4178541666666667,
      "grad_norm": 0.858160138130188,
      "learning_rate": 0.00018939074052004963,
      "loss": 3.7803,
      "step": 200570
    },
    {
      "epoch": 0.417875,
      "grad_norm": 0.7624098658561707,
      "learning_rate": 0.00018938122788197926,
      "loss": 3.7354,
      "step": 200580
    },
    {
      "epoch": 0.41789583333333336,
      "grad_norm": 0.8211576342582703,
      "learning_rate": 0.0001893717150737976,
      "loss": 3.8736,
      "step": 200590
    },
    {
      "epoch": 0.41791666666666666,
      "grad_norm": 0.9594509601593018,
      "learning_rate": 0.0001893622020955457,
      "loss": 3.7328,
      "step": 200600
    },
    {
      "epoch": 0.4179375,
      "grad_norm": 0.6822031736373901,
      "learning_rate": 0.00018935268894726463,
      "loss": 4.0112,
      "step": 200610
    },
    {
      "epoch": 0.4179583333333333,
      "grad_norm": 0.8860327005386353,
      "learning_rate": 0.0001893431756289956,
      "loss": 3.8989,
      "step": 200620
    },
    {
      "epoch": 0.4179791666666667,
      "grad_norm": 0.7822662591934204,
      "learning_rate": 0.00018933366214077954,
      "loss": 3.8741,
      "step": 200630
    },
    {
      "epoch": 0.418,
      "grad_norm": 0.7291179299354553,
      "learning_rate": 0.00018932414848265767,
      "loss": 3.6689,
      "step": 200640
    },
    {
      "epoch": 0.41802083333333334,
      "grad_norm": 0.8608551621437073,
      "learning_rate": 0.0001893146346546711,
      "loss": 3.9657,
      "step": 200650
    },
    {
      "epoch": 0.41804166666666664,
      "grad_norm": 1.0479559898376465,
      "learning_rate": 0.00018930512065686074,
      "loss": 3.9344,
      "step": 200660
    },
    {
      "epoch": 0.4180625,
      "grad_norm": 0.9271143078804016,
      "learning_rate": 0.0001892956064892679,
      "loss": 3.7556,
      "step": 200670
    },
    {
      "epoch": 0.4180833333333333,
      "grad_norm": 0.7706537842750549,
      "learning_rate": 0.00018928609215193364,
      "loss": 3.8445,
      "step": 200680
    },
    {
      "epoch": 0.41810416666666667,
      "grad_norm": 0.6626061797142029,
      "learning_rate": 0.00018927657764489895,
      "loss": 3.6068,
      "step": 200690
    },
    {
      "epoch": 0.418125,
      "grad_norm": 0.7274951338768005,
      "learning_rate": 0.00018926706296820494,
      "loss": 3.9499,
      "step": 200700
    },
    {
      "epoch": 0.4181458333333333,
      "grad_norm": 0.7855287194252014,
      "learning_rate": 0.00018925754812189287,
      "loss": 3.8237,
      "step": 200710
    },
    {
      "epoch": 0.4181666666666667,
      "grad_norm": 0.7946954965591431,
      "learning_rate": 0.00018924803310600368,
      "loss": 3.743,
      "step": 200720
    },
    {
      "epoch": 0.4181875,
      "grad_norm": 0.8165044188499451,
      "learning_rate": 0.00018923851792057846,
      "loss": 3.8549,
      "step": 200730
    },
    {
      "epoch": 0.41820833333333335,
      "grad_norm": 0.857563316822052,
      "learning_rate": 0.0001892290025656585,
      "loss": 3.8744,
      "step": 200740
    },
    {
      "epoch": 0.41822916666666665,
      "grad_norm": 0.7646508812904358,
      "learning_rate": 0.00018921948704128468,
      "loss": 3.9262,
      "step": 200750
    },
    {
      "epoch": 0.41825,
      "grad_norm": 0.9292852282524109,
      "learning_rate": 0.00018920997134749826,
      "loss": 3.9453,
      "step": 200760
    },
    {
      "epoch": 0.4182708333333333,
      "grad_norm": 0.7333887815475464,
      "learning_rate": 0.00018920045548434023,
      "loss": 3.7551,
      "step": 200770
    },
    {
      "epoch": 0.4182916666666667,
      "grad_norm": 0.7885681986808777,
      "learning_rate": 0.0001891909394518518,
      "loss": 3.6865,
      "step": 200780
    },
    {
      "epoch": 0.4183125,
      "grad_norm": 0.7341709733009338,
      "learning_rate": 0.00018918142325007403,
      "loss": 3.8847,
      "step": 200790
    },
    {
      "epoch": 0.41833333333333333,
      "grad_norm": 0.7281590104103088,
      "learning_rate": 0.00018917190687904795,
      "loss": 4.0002,
      "step": 200800
    },
    {
      "epoch": 0.4183541666666667,
      "grad_norm": 0.7002066969871521,
      "learning_rate": 0.00018916239033881478,
      "loss": 3.7846,
      "step": 200810
    },
    {
      "epoch": 0.418375,
      "grad_norm": 0.7174164652824402,
      "learning_rate": 0.00018915287362941563,
      "loss": 3.791,
      "step": 200820
    },
    {
      "epoch": 0.41839583333333336,
      "grad_norm": 0.7395309805870056,
      "learning_rate": 0.00018914335675089148,
      "loss": 3.785,
      "step": 200830
    },
    {
      "epoch": 0.41841666666666666,
      "grad_norm": 0.7454773187637329,
      "learning_rate": 0.00018913383970328357,
      "loss": 3.7425,
      "step": 200840
    },
    {
      "epoch": 0.4184375,
      "grad_norm": 0.7836079001426697,
      "learning_rate": 0.00018912432248663295,
      "loss": 3.872,
      "step": 200850
    },
    {
      "epoch": 0.4184583333333333,
      "grad_norm": 0.9515683054924011,
      "learning_rate": 0.00018911480510098078,
      "loss": 3.7557,
      "step": 200860
    },
    {
      "epoch": 0.4184791666666667,
      "grad_norm": 0.7919839024543762,
      "learning_rate": 0.00018910528754636805,
      "loss": 3.8191,
      "step": 200870
    },
    {
      "epoch": 0.4185,
      "grad_norm": 0.8918582797050476,
      "learning_rate": 0.00018909576982283606,
      "loss": 3.9916,
      "step": 200880
    },
    {
      "epoch": 0.41852083333333334,
      "grad_norm": 0.8647940754890442,
      "learning_rate": 0.00018908625193042578,
      "loss": 3.8632,
      "step": 200890
    },
    {
      "epoch": 0.41854166666666665,
      "grad_norm": 0.7478999495506287,
      "learning_rate": 0.00018907673386917833,
      "loss": 3.7632,
      "step": 200900
    },
    {
      "epoch": 0.4185625,
      "grad_norm": 0.834283709526062,
      "learning_rate": 0.00018906721563913487,
      "loss": 3.9193,
      "step": 200910
    },
    {
      "epoch": 0.4185833333333333,
      "grad_norm": 0.8100249767303467,
      "learning_rate": 0.00018905769724033653,
      "loss": 3.94,
      "step": 200920
    },
    {
      "epoch": 0.41860416666666667,
      "grad_norm": 0.7465300559997559,
      "learning_rate": 0.00018904817867282438,
      "loss": 3.8422,
      "step": 200930
    },
    {
      "epoch": 0.418625,
      "grad_norm": 0.7901244759559631,
      "learning_rate": 0.00018903865993663953,
      "loss": 3.8995,
      "step": 200940
    },
    {
      "epoch": 0.41864583333333333,
      "grad_norm": 0.8126345872879028,
      "learning_rate": 0.00018902914103182316,
      "loss": 3.8794,
      "step": 200950
    },
    {
      "epoch": 0.4186666666666667,
      "grad_norm": 0.7306320071220398,
      "learning_rate": 0.00018901962195841632,
      "loss": 3.7953,
      "step": 200960
    },
    {
      "epoch": 0.4186875,
      "grad_norm": 0.8398685455322266,
      "learning_rate": 0.00018901010271646018,
      "loss": 3.7596,
      "step": 200970
    },
    {
      "epoch": 0.41870833333333335,
      "grad_norm": 0.792258083820343,
      "learning_rate": 0.00018900058330599583,
      "loss": 3.8987,
      "step": 200980
    },
    {
      "epoch": 0.41872916666666665,
      "grad_norm": 0.706995964050293,
      "learning_rate": 0.00018899106372706446,
      "loss": 3.6034,
      "step": 200990
    },
    {
      "epoch": 0.41875,
      "grad_norm": 0.7781939506530762,
      "learning_rate": 0.000188981543979707,
      "loss": 3.7419,
      "step": 201000
    },
    {
      "epoch": 0.41875,
      "eval_loss": 4.172621726989746,
      "eval_runtime": 8.5349,
      "eval_samples_per_second": 1.172,
      "eval_steps_per_second": 0.351,
      "step": 201000
    },
    {
      "epoch": 0.4187708333333333,
      "grad_norm": 0.7243933081626892,
      "learning_rate": 0.00018897202406396478,
      "loss": 3.6964,
      "step": 201010
    },
    {
      "epoch": 0.4187916666666667,
      "grad_norm": 0.6979290246963501,
      "learning_rate": 0.00018896250397987886,
      "loss": 3.7464,
      "step": 201020
    },
    {
      "epoch": 0.4188125,
      "grad_norm": 1.0133739709854126,
      "learning_rate": 0.00018895298372749027,
      "loss": 3.8357,
      "step": 201030
    },
    {
      "epoch": 0.41883333333333334,
      "grad_norm": 0.8935229182243347,
      "learning_rate": 0.00018894346330684028,
      "loss": 3.763,
      "step": 201040
    },
    {
      "epoch": 0.4188541666666667,
      "grad_norm": 0.7448928356170654,
      "learning_rate": 0.00018893394271796995,
      "loss": 3.8613,
      "step": 201050
    },
    {
      "epoch": 0.418875,
      "grad_norm": 0.8816865682601929,
      "learning_rate": 0.00018892442196092032,
      "loss": 3.8986,
      "step": 201060
    },
    {
      "epoch": 0.41889583333333336,
      "grad_norm": 0.8277308344841003,
      "learning_rate": 0.00018891490103573264,
      "loss": 3.9124,
      "step": 201070
    },
    {
      "epoch": 0.41891666666666666,
      "grad_norm": 0.7107089161872864,
      "learning_rate": 0.000188905379942448,
      "loss": 3.8621,
      "step": 201080
    },
    {
      "epoch": 0.4189375,
      "grad_norm": 0.7325539588928223,
      "learning_rate": 0.00018889585868110751,
      "loss": 3.9467,
      "step": 201090
    },
    {
      "epoch": 0.4189583333333333,
      "grad_norm": 0.7813218235969543,
      "learning_rate": 0.00018888633725175233,
      "loss": 4.0211,
      "step": 201100
    },
    {
      "epoch": 0.4189791666666667,
      "grad_norm": 0.8618518114089966,
      "learning_rate": 0.00018887681565442352,
      "loss": 3.6144,
      "step": 201110
    },
    {
      "epoch": 0.419,
      "grad_norm": 0.8052446842193604,
      "learning_rate": 0.00018886729388916228,
      "loss": 4.0791,
      "step": 201120
    },
    {
      "epoch": 0.41902083333333334,
      "grad_norm": 0.8097385764122009,
      "learning_rate": 0.0001888577719560097,
      "loss": 3.9074,
      "step": 201130
    },
    {
      "epoch": 0.41904166666666665,
      "grad_norm": 0.7471518516540527,
      "learning_rate": 0.00018884824985500694,
      "loss": 3.8649,
      "step": 201140
    },
    {
      "epoch": 0.4190625,
      "grad_norm": 0.9410489797592163,
      "learning_rate": 0.0001888387275861951,
      "loss": 3.8459,
      "step": 201150
    },
    {
      "epoch": 0.4190833333333333,
      "grad_norm": 0.7141719460487366,
      "learning_rate": 0.00018882920514961537,
      "loss": 3.856,
      "step": 201160
    },
    {
      "epoch": 0.41910416666666667,
      "grad_norm": 0.739279568195343,
      "learning_rate": 0.0001888196825453088,
      "loss": 3.7354,
      "step": 201170
    },
    {
      "epoch": 0.419125,
      "grad_norm": 0.6630445718765259,
      "learning_rate": 0.0001888101597733166,
      "loss": 3.8502,
      "step": 201180
    },
    {
      "epoch": 0.41914583333333333,
      "grad_norm": 0.9109294414520264,
      "learning_rate": 0.0001888006368336799,
      "loss": 3.9011,
      "step": 201190
    },
    {
      "epoch": 0.4191666666666667,
      "grad_norm": 0.8415393829345703,
      "learning_rate": 0.00018879111372643973,
      "loss": 3.7249,
      "step": 201200
    },
    {
      "epoch": 0.4191875,
      "grad_norm": 0.7898061871528625,
      "learning_rate": 0.00018878159045163738,
      "loss": 3.7445,
      "step": 201210
    },
    {
      "epoch": 0.41920833333333335,
      "grad_norm": 0.7220010757446289,
      "learning_rate": 0.00018877206700931382,
      "loss": 3.9044,
      "step": 201220
    },
    {
      "epoch": 0.41922916666666665,
      "grad_norm": 0.8874984979629517,
      "learning_rate": 0.00018876254339951032,
      "loss": 3.8389,
      "step": 201230
    },
    {
      "epoch": 0.41925,
      "grad_norm": 0.9523512125015259,
      "learning_rate": 0.000188753019622268,
      "loss": 3.9482,
      "step": 201240
    },
    {
      "epoch": 0.4192708333333333,
      "grad_norm": 0.7944964170455933,
      "learning_rate": 0.00018874349567762794,
      "loss": 3.9393,
      "step": 201250
    },
    {
      "epoch": 0.4192916666666667,
      "grad_norm": 0.7990260720252991,
      "learning_rate": 0.00018873397156563134,
      "loss": 3.9263,
      "step": 201260
    },
    {
      "epoch": 0.4193125,
      "grad_norm": 0.7970165610313416,
      "learning_rate": 0.00018872444728631932,
      "loss": 3.8844,
      "step": 201270
    },
    {
      "epoch": 0.41933333333333334,
      "grad_norm": 0.807394802570343,
      "learning_rate": 0.000188714922839733,
      "loss": 3.9889,
      "step": 201280
    },
    {
      "epoch": 0.41935416666666664,
      "grad_norm": 0.8069230914115906,
      "learning_rate": 0.00018870539822591354,
      "loss": 3.7695,
      "step": 201290
    },
    {
      "epoch": 0.419375,
      "grad_norm": 0.7753087282180786,
      "learning_rate": 0.00018869587344490208,
      "loss": 3.7397,
      "step": 201300
    },
    {
      "epoch": 0.41939583333333336,
      "grad_norm": 0.7049112319946289,
      "learning_rate": 0.00018868634849673977,
      "loss": 3.9622,
      "step": 201310
    },
    {
      "epoch": 0.41941666666666666,
      "grad_norm": 0.7433618903160095,
      "learning_rate": 0.00018867682338146772,
      "loss": 3.6714,
      "step": 201320
    },
    {
      "epoch": 0.4194375,
      "grad_norm": 0.7572590708732605,
      "learning_rate": 0.00018866729809912712,
      "loss": 3.7965,
      "step": 201330
    },
    {
      "epoch": 0.4194583333333333,
      "grad_norm": 0.856945812702179,
      "learning_rate": 0.00018865777264975912,
      "loss": 3.6798,
      "step": 201340
    },
    {
      "epoch": 0.4194791666666667,
      "grad_norm": 1.1078776121139526,
      "learning_rate": 0.00018864824703340485,
      "loss": 3.8012,
      "step": 201350
    },
    {
      "epoch": 0.4195,
      "grad_norm": 0.7882742881774902,
      "learning_rate": 0.0001886387212501054,
      "loss": 3.7479,
      "step": 201360
    },
    {
      "epoch": 0.41952083333333334,
      "grad_norm": 0.8686891198158264,
      "learning_rate": 0.00018862919529990198,
      "loss": 3.8774,
      "step": 201370
    },
    {
      "epoch": 0.41954166666666665,
      "grad_norm": 0.7320176959037781,
      "learning_rate": 0.00018861966918283578,
      "loss": 3.7947,
      "step": 201380
    },
    {
      "epoch": 0.4195625,
      "grad_norm": 0.9275818467140198,
      "learning_rate": 0.00018861014289894788,
      "loss": 3.779,
      "step": 201390
    },
    {
      "epoch": 0.4195833333333333,
      "grad_norm": 0.7678778171539307,
      "learning_rate": 0.00018860061644827936,
      "loss": 3.8346,
      "step": 201400
    },
    {
      "epoch": 0.41960416666666667,
      "grad_norm": 0.9171825647354126,
      "learning_rate": 0.00018859108983087155,
      "loss": 3.777,
      "step": 201410
    },
    {
      "epoch": 0.419625,
      "grad_norm": 0.6980154514312744,
      "learning_rate": 0.0001885815630467655,
      "loss": 4.0265,
      "step": 201420
    },
    {
      "epoch": 0.41964583333333333,
      "grad_norm": 0.7059293985366821,
      "learning_rate": 0.00018857203609600232,
      "loss": 3.8489,
      "step": 201430
    },
    {
      "epoch": 0.4196666666666667,
      "grad_norm": 0.7383190393447876,
      "learning_rate": 0.00018856250897862322,
      "loss": 4.0037,
      "step": 201440
    },
    {
      "epoch": 0.4196875,
      "grad_norm": 1.0127061605453491,
      "learning_rate": 0.00018855298169466938,
      "loss": 3.7209,
      "step": 201450
    },
    {
      "epoch": 0.41970833333333335,
      "grad_norm": 0.9873508214950562,
      "learning_rate": 0.0001885434542441819,
      "loss": 3.8646,
      "step": 201460
    },
    {
      "epoch": 0.41972916666666665,
      "grad_norm": 1.2512495517730713,
      "learning_rate": 0.00018853392662720195,
      "loss": 3.5885,
      "step": 201470
    },
    {
      "epoch": 0.41975,
      "grad_norm": 0.9056391716003418,
      "learning_rate": 0.0001885243988437707,
      "loss": 3.8109,
      "step": 201480
    },
    {
      "epoch": 0.4197708333333333,
      "grad_norm": 0.6956571936607361,
      "learning_rate": 0.00018851487089392932,
      "loss": 3.8915,
      "step": 201490
    },
    {
      "epoch": 0.4197916666666667,
      "grad_norm": 0.6465511918067932,
      "learning_rate": 0.0001885053427777189,
      "loss": 3.7951,
      "step": 201500
    },
    {
      "epoch": 0.4198125,
      "grad_norm": 1.4003839492797852,
      "learning_rate": 0.00018849581449518064,
      "loss": 3.8072,
      "step": 201510
    },
    {
      "epoch": 0.41983333333333334,
      "grad_norm": 0.7307578921318054,
      "learning_rate": 0.00018848628604635576,
      "loss": 3.7823,
      "step": 201520
    },
    {
      "epoch": 0.41985416666666664,
      "grad_norm": 0.8701221942901611,
      "learning_rate": 0.00018847675743128528,
      "loss": 4.0025,
      "step": 201530
    },
    {
      "epoch": 0.419875,
      "grad_norm": 0.7143467664718628,
      "learning_rate": 0.00018846722865001046,
      "loss": 3.6766,
      "step": 201540
    },
    {
      "epoch": 0.41989583333333336,
      "grad_norm": 0.9448525309562683,
      "learning_rate": 0.00018845769970257247,
      "loss": 3.6932,
      "step": 201550
    },
    {
      "epoch": 0.41991666666666666,
      "grad_norm": 0.8387852311134338,
      "learning_rate": 0.00018844817058901242,
      "loss": 3.7439,
      "step": 201560
    },
    {
      "epoch": 0.4199375,
      "grad_norm": 0.7072563171386719,
      "learning_rate": 0.00018843864130937147,
      "loss": 3.8384,
      "step": 201570
    },
    {
      "epoch": 0.4199583333333333,
      "grad_norm": 0.8286740183830261,
      "learning_rate": 0.00018842911186369086,
      "loss": 3.7285,
      "step": 201580
    },
    {
      "epoch": 0.4199791666666667,
      "grad_norm": 0.8787074685096741,
      "learning_rate": 0.00018841958225201166,
      "loss": 3.8117,
      "step": 201590
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7386990189552307,
      "learning_rate": 0.00018841005247437502,
      "loss": 3.7088,
      "step": 201600
    },
    {
      "epoch": 0.42002083333333334,
      "grad_norm": 0.7513259053230286,
      "learning_rate": 0.00018840052253082227,
      "loss": 3.8145,
      "step": 201610
    },
    {
      "epoch": 0.42004166666666665,
      "grad_norm": 0.9064454436302185,
      "learning_rate": 0.00018839099242139442,
      "loss": 3.7838,
      "step": 201620
    },
    {
      "epoch": 0.4200625,
      "grad_norm": 0.7430596947669983,
      "learning_rate": 0.00018838146214613267,
      "loss": 3.6672,
      "step": 201630
    },
    {
      "epoch": 0.4200833333333333,
      "grad_norm": 0.816681444644928,
      "learning_rate": 0.0001883719317050782,
      "loss": 3.8702,
      "step": 201640
    },
    {
      "epoch": 0.42010416666666667,
      "grad_norm": 0.8164026141166687,
      "learning_rate": 0.00018836240109827213,
      "loss": 3.702,
      "step": 201650
    },
    {
      "epoch": 0.420125,
      "grad_norm": 0.8016903400421143,
      "learning_rate": 0.0001883528703257557,
      "loss": 3.9207,
      "step": 201660
    },
    {
      "epoch": 0.42014583333333333,
      "grad_norm": 0.7013524770736694,
      "learning_rate": 0.00018834333938757005,
      "loss": 3.9845,
      "step": 201670
    },
    {
      "epoch": 0.4201666666666667,
      "grad_norm": 0.6952581405639648,
      "learning_rate": 0.00018833380828375636,
      "loss": 3.9008,
      "step": 201680
    },
    {
      "epoch": 0.4201875,
      "grad_norm": 1.0109745264053345,
      "learning_rate": 0.00018832427701435584,
      "loss": 3.853,
      "step": 201690
    },
    {
      "epoch": 0.42020833333333335,
      "grad_norm": 0.9381428360939026,
      "learning_rate": 0.00018831474557940954,
      "loss": 3.8885,
      "step": 201700
    },
    {
      "epoch": 0.42022916666666665,
      "grad_norm": 0.8084468841552734,
      "learning_rate": 0.0001883052139789587,
      "loss": 3.902,
      "step": 201710
    },
    {
      "epoch": 0.42025,
      "grad_norm": 0.7253992557525635,
      "learning_rate": 0.00018829568221304457,
      "loss": 3.8439,
      "step": 201720
    },
    {
      "epoch": 0.4202708333333333,
      "grad_norm": 0.8098652958869934,
      "learning_rate": 0.00018828615028170819,
      "loss": 3.8171,
      "step": 201730
    },
    {
      "epoch": 0.4202916666666667,
      "grad_norm": 0.767093300819397,
      "learning_rate": 0.0001882766181849908,
      "loss": 3.7487,
      "step": 201740
    },
    {
      "epoch": 0.4203125,
      "grad_norm": 0.7705782651901245,
      "learning_rate": 0.0001882670859229336,
      "loss": 3.774,
      "step": 201750
    },
    {
      "epoch": 0.42033333333333334,
      "grad_norm": 0.7546966671943665,
      "learning_rate": 0.0001882575534955777,
      "loss": 3.9771,
      "step": 201760
    },
    {
      "epoch": 0.42035416666666664,
      "grad_norm": 0.7873841524124146,
      "learning_rate": 0.00018824802090296433,
      "loss": 3.6565,
      "step": 201770
    },
    {
      "epoch": 0.420375,
      "grad_norm": 0.7843907475471497,
      "learning_rate": 0.00018823848814513466,
      "loss": 3.7971,
      "step": 201780
    },
    {
      "epoch": 0.42039583333333336,
      "grad_norm": 0.8537428975105286,
      "learning_rate": 0.00018822895522212988,
      "loss": 3.8095,
      "step": 201790
    },
    {
      "epoch": 0.42041666666666666,
      "grad_norm": 0.7859277725219727,
      "learning_rate": 0.00018821942213399111,
      "loss": 3.8221,
      "step": 201800
    },
    {
      "epoch": 0.4204375,
      "grad_norm": 0.8269096612930298,
      "learning_rate": 0.00018820988888075955,
      "loss": 4.0265,
      "step": 201810
    },
    {
      "epoch": 0.4204583333333333,
      "grad_norm": 0.8087285757064819,
      "learning_rate": 0.00018820035546247642,
      "loss": 3.893,
      "step": 201820
    },
    {
      "epoch": 0.4204791666666667,
      "grad_norm": 0.9784636497497559,
      "learning_rate": 0.00018819082187918287,
      "loss": 3.9151,
      "step": 201830
    },
    {
      "epoch": 0.4205,
      "grad_norm": 0.780439019203186,
      "learning_rate": 0.0001881812881309201,
      "loss": 4.0602,
      "step": 201840
    },
    {
      "epoch": 0.42052083333333334,
      "grad_norm": 0.8141613006591797,
      "learning_rate": 0.00018817175421772926,
      "loss": 4.0031,
      "step": 201850
    },
    {
      "epoch": 0.42054166666666665,
      "grad_norm": 0.8500816226005554,
      "learning_rate": 0.00018816222013965156,
      "loss": 3.8429,
      "step": 201860
    },
    {
      "epoch": 0.4205625,
      "grad_norm": 0.7437912225723267,
      "learning_rate": 0.00018815268589672814,
      "loss": 3.8795,
      "step": 201870
    },
    {
      "epoch": 0.4205833333333333,
      "grad_norm": 0.7291104793548584,
      "learning_rate": 0.0001881431514890003,
      "loss": 4.0343,
      "step": 201880
    },
    {
      "epoch": 0.42060416666666667,
      "grad_norm": 0.9318874478340149,
      "learning_rate": 0.00018813361691650908,
      "loss": 3.7775,
      "step": 201890
    },
    {
      "epoch": 0.420625,
      "grad_norm": 0.7810437679290771,
      "learning_rate": 0.00018812408217929572,
      "loss": 3.809,
      "step": 201900
    },
    {
      "epoch": 0.42064583333333333,
      "grad_norm": 0.7483349442481995,
      "learning_rate": 0.00018811454727740145,
      "loss": 3.7229,
      "step": 201910
    },
    {
      "epoch": 0.4206666666666667,
      "grad_norm": 0.7682240009307861,
      "learning_rate": 0.00018810501221086742,
      "loss": 3.855,
      "step": 201920
    },
    {
      "epoch": 0.4206875,
      "grad_norm": 0.8416233658790588,
      "learning_rate": 0.00018809547697973478,
      "loss": 3.6995,
      "step": 201930
    },
    {
      "epoch": 0.42070833333333335,
      "grad_norm": 0.86985182762146,
      "learning_rate": 0.0001880859415840448,
      "loss": 4.0215,
      "step": 201940
    },
    {
      "epoch": 0.42072916666666665,
      "grad_norm": 0.7774202823638916,
      "learning_rate": 0.00018807640602383865,
      "loss": 3.8048,
      "step": 201950
    },
    {
      "epoch": 0.42075,
      "grad_norm": 0.7352504134178162,
      "learning_rate": 0.00018806687029915745,
      "loss": 3.8733,
      "step": 201960
    },
    {
      "epoch": 0.4207708333333333,
      "grad_norm": 0.7339740991592407,
      "learning_rate": 0.00018805733441004246,
      "loss": 3.8216,
      "step": 201970
    },
    {
      "epoch": 0.4207916666666667,
      "grad_norm": 0.6679748296737671,
      "learning_rate": 0.00018804779835653485,
      "loss": 3.8685,
      "step": 201980
    },
    {
      "epoch": 0.4208125,
      "grad_norm": 0.9116439819335938,
      "learning_rate": 0.00018803826213867577,
      "loss": 3.8279,
      "step": 201990
    },
    {
      "epoch": 0.42083333333333334,
      "grad_norm": 0.8915414214134216,
      "learning_rate": 0.0001880287257565065,
      "loss": 3.8238,
      "step": 202000
    },
    {
      "epoch": 0.42083333333333334,
      "eval_loss": 4.169997215270996,
      "eval_runtime": 8.4902,
      "eval_samples_per_second": 1.178,
      "eval_steps_per_second": 0.353,
      "step": 202000
    },
    {
      "epoch": 0.42085416666666664,
      "grad_norm": 0.6732211709022522,
      "learning_rate": 0.00018801918921006818,
      "loss": 4.0309,
      "step": 202010
    },
    {
      "epoch": 0.420875,
      "grad_norm": 0.7753836512565613,
      "learning_rate": 0.000188009652499402,
      "loss": 3.9126,
      "step": 202020
    },
    {
      "epoch": 0.42089583333333336,
      "grad_norm": 1.1631708145141602,
      "learning_rate": 0.00018800011562454918,
      "loss": 3.7401,
      "step": 202030
    },
    {
      "epoch": 0.42091666666666666,
      "grad_norm": 0.7590880393981934,
      "learning_rate": 0.00018799057858555086,
      "loss": 4.087,
      "step": 202040
    },
    {
      "epoch": 0.4209375,
      "grad_norm": 0.8040362596511841,
      "learning_rate": 0.00018798104138244835,
      "loss": 3.7858,
      "step": 202050
    },
    {
      "epoch": 0.4209583333333333,
      "grad_norm": 0.7862784266471863,
      "learning_rate": 0.00018797150401528274,
      "loss": 3.7797,
      "step": 202060
    },
    {
      "epoch": 0.4209791666666667,
      "grad_norm": 0.8011205792427063,
      "learning_rate": 0.00018796196648409523,
      "loss": 3.837,
      "step": 202070
    },
    {
      "epoch": 0.421,
      "grad_norm": 0.8463070392608643,
      "learning_rate": 0.0001879524287889271,
      "loss": 3.8741,
      "step": 202080
    },
    {
      "epoch": 0.42102083333333334,
      "grad_norm": 0.7914961576461792,
      "learning_rate": 0.0001879428909298195,
      "loss": 3.758,
      "step": 202090
    },
    {
      "epoch": 0.42104166666666665,
      "grad_norm": 0.7763484120368958,
      "learning_rate": 0.0001879333529068136,
      "loss": 3.9615,
      "step": 202100
    },
    {
      "epoch": 0.4210625,
      "grad_norm": 0.773305356502533,
      "learning_rate": 0.00018792381471995065,
      "loss": 3.8847,
      "step": 202110
    },
    {
      "epoch": 0.4210833333333333,
      "grad_norm": 0.7306674122810364,
      "learning_rate": 0.00018791427636927183,
      "loss": 3.7016,
      "step": 202120
    },
    {
      "epoch": 0.42110416666666667,
      "grad_norm": 0.766841471195221,
      "learning_rate": 0.00018790473785481834,
      "loss": 3.6676,
      "step": 202130
    },
    {
      "epoch": 0.421125,
      "grad_norm": 0.7545976638793945,
      "learning_rate": 0.0001878951991766314,
      "loss": 3.9435,
      "step": 202140
    },
    {
      "epoch": 0.42114583333333333,
      "grad_norm": 0.7797034978866577,
      "learning_rate": 0.00018788566033475218,
      "loss": 3.7263,
      "step": 202150
    },
    {
      "epoch": 0.4211666666666667,
      "grad_norm": 0.8553351759910583,
      "learning_rate": 0.0001878761213292219,
      "loss": 3.8132,
      "step": 202160
    },
    {
      "epoch": 0.4211875,
      "grad_norm": 0.6885408163070679,
      "learning_rate": 0.0001878665821600818,
      "loss": 3.8075,
      "step": 202170
    },
    {
      "epoch": 0.42120833333333335,
      "grad_norm": 0.7380613088607788,
      "learning_rate": 0.000187857042827373,
      "loss": 3.7124,
      "step": 202180
    },
    {
      "epoch": 0.42122916666666665,
      "grad_norm": 0.8630980253219604,
      "learning_rate": 0.0001878475033311368,
      "loss": 3.8121,
      "step": 202190
    },
    {
      "epoch": 0.42125,
      "grad_norm": 0.8584334254264832,
      "learning_rate": 0.00018783796367141437,
      "loss": 4.0503,
      "step": 202200
    },
    {
      "epoch": 0.4212708333333333,
      "grad_norm": 0.7484185695648193,
      "learning_rate": 0.00018782842384824686,
      "loss": 3.9129,
      "step": 202210
    },
    {
      "epoch": 0.4212916666666667,
      "grad_norm": 0.870868444442749,
      "learning_rate": 0.00018781888386167558,
      "loss": 3.7968,
      "step": 202220
    },
    {
      "epoch": 0.4213125,
      "grad_norm": 0.7447863221168518,
      "learning_rate": 0.00018780934371174168,
      "loss": 3.983,
      "step": 202230
    },
    {
      "epoch": 0.42133333333333334,
      "grad_norm": 0.8499358892440796,
      "learning_rate": 0.0001877998033984864,
      "loss": 3.8387,
      "step": 202240
    },
    {
      "epoch": 0.42135416666666664,
      "grad_norm": 0.7881286144256592,
      "learning_rate": 0.00018779026292195096,
      "loss": 3.9754,
      "step": 202250
    },
    {
      "epoch": 0.421375,
      "grad_norm": 0.7992657423019409,
      "learning_rate": 0.0001877807222821765,
      "loss": 4.0471,
      "step": 202260
    },
    {
      "epoch": 0.42139583333333336,
      "grad_norm": 1.2852003574371338,
      "learning_rate": 0.0001877711814792042,
      "loss": 4.0281,
      "step": 202270
    },
    {
      "epoch": 0.42141666666666666,
      "grad_norm": 0.7349878549575806,
      "learning_rate": 0.00018776164051307546,
      "loss": 3.8228,
      "step": 202280
    },
    {
      "epoch": 0.4214375,
      "grad_norm": 0.7913859486579895,
      "learning_rate": 0.00018775209938383137,
      "loss": 3.7123,
      "step": 202290
    },
    {
      "epoch": 0.4214583333333333,
      "grad_norm": 0.8072953224182129,
      "learning_rate": 0.0001877425580915131,
      "loss": 3.876,
      "step": 202300
    },
    {
      "epoch": 0.4214791666666667,
      "grad_norm": 0.7706336379051208,
      "learning_rate": 0.00018773301663616197,
      "loss": 3.7718,
      "step": 202310
    },
    {
      "epoch": 0.4215,
      "grad_norm": 0.8937274813652039,
      "learning_rate": 0.00018772347501781912,
      "loss": 3.8718,
      "step": 202320
    },
    {
      "epoch": 0.42152083333333334,
      "grad_norm": 0.7795239090919495,
      "learning_rate": 0.00018771393323652576,
      "loss": 3.9681,
      "step": 202330
    },
    {
      "epoch": 0.42154166666666665,
      "grad_norm": 0.7507040500640869,
      "learning_rate": 0.00018770439129232316,
      "loss": 3.9042,
      "step": 202340
    },
    {
      "epoch": 0.4215625,
      "grad_norm": 0.6577082276344299,
      "learning_rate": 0.00018769484918525255,
      "loss": 3.9565,
      "step": 202350
    },
    {
      "epoch": 0.4215833333333333,
      "grad_norm": 0.7819051742553711,
      "learning_rate": 0.00018768530691535507,
      "loss": 3.7838,
      "step": 202360
    },
    {
      "epoch": 0.42160416666666667,
      "grad_norm": 0.7707928419113159,
      "learning_rate": 0.00018767576448267196,
      "loss": 3.9233,
      "step": 202370
    },
    {
      "epoch": 0.421625,
      "grad_norm": 0.703381359577179,
      "learning_rate": 0.00018766622188724451,
      "loss": 3.9275,
      "step": 202380
    },
    {
      "epoch": 0.42164583333333333,
      "grad_norm": 0.8225476741790771,
      "learning_rate": 0.00018765667912911391,
      "loss": 3.8916,
      "step": 202390
    },
    {
      "epoch": 0.4216666666666667,
      "grad_norm": 0.804125189781189,
      "learning_rate": 0.0001876471362083213,
      "loss": 3.8454,
      "step": 202400
    },
    {
      "epoch": 0.4216875,
      "grad_norm": 0.8489975929260254,
      "learning_rate": 0.00018763759312490796,
      "loss": 4.0013,
      "step": 202410
    },
    {
      "epoch": 0.42170833333333335,
      "grad_norm": 0.8234782814979553,
      "learning_rate": 0.0001876280498789152,
      "loss": 3.6622,
      "step": 202420
    },
    {
      "epoch": 0.42172916666666665,
      "grad_norm": 0.7393952012062073,
      "learning_rate": 0.0001876185064703841,
      "loss": 3.8953,
      "step": 202430
    },
    {
      "epoch": 0.42175,
      "grad_norm": 0.8823079466819763,
      "learning_rate": 0.0001876089628993559,
      "loss": 3.8931,
      "step": 202440
    },
    {
      "epoch": 0.4217708333333333,
      "grad_norm": 0.8710416555404663,
      "learning_rate": 0.00018759941916587195,
      "loss": 3.963,
      "step": 202450
    },
    {
      "epoch": 0.4217916666666667,
      "grad_norm": 0.7845208644866943,
      "learning_rate": 0.00018758987526997333,
      "loss": 4.0444,
      "step": 202460
    },
    {
      "epoch": 0.4218125,
      "grad_norm": 1.4088548421859741,
      "learning_rate": 0.00018758033121170134,
      "loss": 3.5999,
      "step": 202470
    },
    {
      "epoch": 0.42183333333333334,
      "grad_norm": 0.717625617980957,
      "learning_rate": 0.00018757078699109723,
      "loss": 3.8117,
      "step": 202480
    },
    {
      "epoch": 0.42185416666666664,
      "grad_norm": 0.8187295198440552,
      "learning_rate": 0.00018756124260820218,
      "loss": 3.7711,
      "step": 202490
    },
    {
      "epoch": 0.421875,
      "grad_norm": 0.7980281710624695,
      "learning_rate": 0.0001875516980630574,
      "loss": 3.8578,
      "step": 202500
    },
    {
      "epoch": 0.42189583333333336,
      "grad_norm": 0.6852888464927673,
      "learning_rate": 0.00018754215335570415,
      "loss": 3.9263,
      "step": 202510
    },
    {
      "epoch": 0.42191666666666666,
      "grad_norm": 0.7026048302650452,
      "learning_rate": 0.0001875326084861837,
      "loss": 3.7138,
      "step": 202520
    },
    {
      "epoch": 0.4219375,
      "grad_norm": 0.7105042338371277,
      "learning_rate": 0.00018752306345453718,
      "loss": 3.8022,
      "step": 202530
    },
    {
      "epoch": 0.4219583333333333,
      "grad_norm": 0.6935995817184448,
      "learning_rate": 0.00018751351826080595,
      "loss": 3.7361,
      "step": 202540
    },
    {
      "epoch": 0.4219791666666667,
      "grad_norm": 0.7866526246070862,
      "learning_rate": 0.0001875039729050311,
      "loss": 3.7864,
      "step": 202550
    },
    {
      "epoch": 0.422,
      "grad_norm": 0.9384071826934814,
      "learning_rate": 0.000187494427387254,
      "loss": 3.8636,
      "step": 202560
    },
    {
      "epoch": 0.42202083333333335,
      "grad_norm": 0.738645076751709,
      "learning_rate": 0.00018748488170751575,
      "loss": 3.8723,
      "step": 202570
    },
    {
      "epoch": 0.42204166666666665,
      "grad_norm": 0.8282898664474487,
      "learning_rate": 0.00018747533586585768,
      "loss": 3.9079,
      "step": 202580
    },
    {
      "epoch": 0.4220625,
      "grad_norm": 0.8386987447738647,
      "learning_rate": 0.000187465789862321,
      "loss": 3.7356,
      "step": 202590
    },
    {
      "epoch": 0.4220833333333333,
      "grad_norm": 0.7273796796798706,
      "learning_rate": 0.00018745624369694692,
      "loss": 3.8014,
      "step": 202600
    },
    {
      "epoch": 0.42210416666666667,
      "grad_norm": 0.9089832305908203,
      "learning_rate": 0.0001874466973697767,
      "loss": 3.9003,
      "step": 202610
    },
    {
      "epoch": 0.422125,
      "grad_norm": 0.7911281585693359,
      "learning_rate": 0.00018743715088085158,
      "loss": 3.9778,
      "step": 202620
    },
    {
      "epoch": 0.42214583333333333,
      "grad_norm": 0.7833452820777893,
      "learning_rate": 0.00018742760423021276,
      "loss": 3.9119,
      "step": 202630
    },
    {
      "epoch": 0.4221666666666667,
      "grad_norm": 0.864571750164032,
      "learning_rate": 0.0001874180574179015,
      "loss": 3.9837,
      "step": 202640
    },
    {
      "epoch": 0.4221875,
      "grad_norm": 0.7915517091751099,
      "learning_rate": 0.00018740851044395912,
      "loss": 3.947,
      "step": 202650
    },
    {
      "epoch": 0.42220833333333335,
      "grad_norm": 0.7303430438041687,
      "learning_rate": 0.0001873989633084267,
      "loss": 3.8975,
      "step": 202660
    },
    {
      "epoch": 0.42222916666666666,
      "grad_norm": 0.966611921787262,
      "learning_rate": 0.0001873894160113456,
      "loss": 4.1406,
      "step": 202670
    },
    {
      "epoch": 0.42225,
      "grad_norm": 0.7078004479408264,
      "learning_rate": 0.000187379868552757,
      "loss": 3.8017,
      "step": 202680
    },
    {
      "epoch": 0.4222708333333333,
      "grad_norm": 0.6633832454681396,
      "learning_rate": 0.00018737032093270217,
      "loss": 3.7815,
      "step": 202690
    },
    {
      "epoch": 0.4222916666666667,
      "grad_norm": 0.7328737378120422,
      "learning_rate": 0.00018736077315122237,
      "loss": 3.8572,
      "step": 202700
    },
    {
      "epoch": 0.4223125,
      "grad_norm": 0.7297853231430054,
      "learning_rate": 0.00018735122520835881,
      "loss": 3.9864,
      "step": 202710
    },
    {
      "epoch": 0.42233333333333334,
      "grad_norm": 0.7967939376831055,
      "learning_rate": 0.00018734167710415272,
      "loss": 3.8606,
      "step": 202720
    },
    {
      "epoch": 0.42235416666666664,
      "grad_norm": 0.9546130299568176,
      "learning_rate": 0.0001873321288386454,
      "loss": 3.8575,
      "step": 202730
    },
    {
      "epoch": 0.422375,
      "grad_norm": 0.7163494229316711,
      "learning_rate": 0.000187322580411878,
      "loss": 3.7959,
      "step": 202740
    },
    {
      "epoch": 0.42239583333333336,
      "grad_norm": 0.7750647068023682,
      "learning_rate": 0.00018731303182389187,
      "loss": 3.7305,
      "step": 202750
    },
    {
      "epoch": 0.42241666666666666,
      "grad_norm": 0.8851174116134644,
      "learning_rate": 0.00018730348307472824,
      "loss": 3.863,
      "step": 202760
    },
    {
      "epoch": 0.4224375,
      "grad_norm": 0.9136353135108948,
      "learning_rate": 0.00018729393416442824,
      "loss": 3.7195,
      "step": 202770
    },
    {
      "epoch": 0.4224583333333333,
      "grad_norm": 0.7346583008766174,
      "learning_rate": 0.00018728438509303327,
      "loss": 3.6933,
      "step": 202780
    },
    {
      "epoch": 0.4224791666666667,
      "grad_norm": 0.7574054598808289,
      "learning_rate": 0.00018727483586058452,
      "loss": 3.8021,
      "step": 202790
    },
    {
      "epoch": 0.4225,
      "grad_norm": 0.7599001526832581,
      "learning_rate": 0.00018726528646712323,
      "loss": 3.7766,
      "step": 202800
    },
    {
      "epoch": 0.42252083333333335,
      "grad_norm": 0.8293402194976807,
      "learning_rate": 0.0001872557369126906,
      "loss": 4.0268,
      "step": 202810
    },
    {
      "epoch": 0.42254166666666665,
      "grad_norm": 1.04499351978302,
      "learning_rate": 0.00018724618719732802,
      "loss": 3.8352,
      "step": 202820
    },
    {
      "epoch": 0.4225625,
      "grad_norm": 0.831601619720459,
      "learning_rate": 0.0001872366373210766,
      "loss": 3.9779,
      "step": 202830
    },
    {
      "epoch": 0.4225833333333333,
      "grad_norm": 0.8041279315948486,
      "learning_rate": 0.00018722708728397764,
      "loss": 3.6844,
      "step": 202840
    },
    {
      "epoch": 0.42260416666666667,
      "grad_norm": 0.7612014412879944,
      "learning_rate": 0.00018721753708607244,
      "loss": 3.7313,
      "step": 202850
    },
    {
      "epoch": 0.422625,
      "grad_norm": 0.7002764940261841,
      "learning_rate": 0.00018720798672740218,
      "loss": 4.0568,
      "step": 202860
    },
    {
      "epoch": 0.42264583333333333,
      "grad_norm": 0.7177851796150208,
      "learning_rate": 0.00018719843620800816,
      "loss": 3.8468,
      "step": 202870
    },
    {
      "epoch": 0.4226666666666667,
      "grad_norm": 0.8303511142730713,
      "learning_rate": 0.00018718888552793158,
      "loss": 4.0073,
      "step": 202880
    },
    {
      "epoch": 0.4226875,
      "grad_norm": 0.8431925773620605,
      "learning_rate": 0.00018717933468721378,
      "loss": 3.71,
      "step": 202890
    },
    {
      "epoch": 0.42270833333333335,
      "grad_norm": 0.7973652482032776,
      "learning_rate": 0.00018716978368589596,
      "loss": 3.8996,
      "step": 202900
    },
    {
      "epoch": 0.42272916666666666,
      "grad_norm": 1.1797184944152832,
      "learning_rate": 0.00018716023252401937,
      "loss": 3.8455,
      "step": 202910
    },
    {
      "epoch": 0.42275,
      "grad_norm": 0.8396512269973755,
      "learning_rate": 0.0001871506812016253,
      "loss": 3.8112,
      "step": 202920
    },
    {
      "epoch": 0.4227708333333333,
      "grad_norm": 0.7878580093383789,
      "learning_rate": 0.00018714112971875504,
      "loss": 3.9421,
      "step": 202930
    },
    {
      "epoch": 0.4227916666666667,
      "grad_norm": 0.7613718509674072,
      "learning_rate": 0.0001871315780754497,
      "loss": 3.8917,
      "step": 202940
    },
    {
      "epoch": 0.4228125,
      "grad_norm": 0.7784122824668884,
      "learning_rate": 0.0001871220262717507,
      "loss": 4.1024,
      "step": 202950
    },
    {
      "epoch": 0.42283333333333334,
      "grad_norm": 0.8747428059577942,
      "learning_rate": 0.00018711247430769926,
      "loss": 3.9375,
      "step": 202960
    },
    {
      "epoch": 0.42285416666666664,
      "grad_norm": 0.8848745226860046,
      "learning_rate": 0.00018710292218333653,
      "loss": 3.9188,
      "step": 202970
    },
    {
      "epoch": 0.422875,
      "grad_norm": 0.7491776347160339,
      "learning_rate": 0.00018709336989870397,
      "loss": 3.8928,
      "step": 202980
    },
    {
      "epoch": 0.42289583333333336,
      "grad_norm": 0.7610693573951721,
      "learning_rate": 0.0001870838174538427,
      "loss": 3.8362,
      "step": 202990
    },
    {
      "epoch": 0.42291666666666666,
      "grad_norm": 0.9917948842048645,
      "learning_rate": 0.000187074264848794,
      "loss": 3.8894,
      "step": 203000
    },
    {
      "epoch": 0.42291666666666666,
      "eval_loss": 4.179430961608887,
      "eval_runtime": 7.8735,
      "eval_samples_per_second": 1.27,
      "eval_steps_per_second": 0.381,
      "step": 203000
    },
    {
      "epoch": 0.4229375,
      "grad_norm": 0.7631996273994446,
      "learning_rate": 0.00018706471208359917,
      "loss": 3.8518,
      "step": 203010
    },
    {
      "epoch": 0.4229583333333333,
      "grad_norm": 0.7404912114143372,
      "learning_rate": 0.00018705515915829943,
      "loss": 3.8406,
      "step": 203020
    },
    {
      "epoch": 0.4229791666666667,
      "grad_norm": 1.1668901443481445,
      "learning_rate": 0.0001870456060729361,
      "loss": 3.8263,
      "step": 203030
    },
    {
      "epoch": 0.423,
      "grad_norm": 0.776280403137207,
      "learning_rate": 0.00018703605282755037,
      "loss": 3.8242,
      "step": 203040
    },
    {
      "epoch": 0.42302083333333335,
      "grad_norm": 0.7612826824188232,
      "learning_rate": 0.0001870264994221836,
      "loss": 3.8804,
      "step": 203050
    },
    {
      "epoch": 0.42304166666666665,
      "grad_norm": 0.7577881813049316,
      "learning_rate": 0.00018701694585687695,
      "loss": 3.8034,
      "step": 203060
    },
    {
      "epoch": 0.4230625,
      "grad_norm": 0.8209064602851868,
      "learning_rate": 0.00018700739213167183,
      "loss": 3.8411,
      "step": 203070
    },
    {
      "epoch": 0.4230833333333333,
      "grad_norm": 0.7172402739524841,
      "learning_rate": 0.00018699783824660938,
      "loss": 3.8379,
      "step": 203080
    },
    {
      "epoch": 0.42310416666666667,
      "grad_norm": 0.8950208425521851,
      "learning_rate": 0.0001869882842017309,
      "loss": 3.809,
      "step": 203090
    },
    {
      "epoch": 0.423125,
      "grad_norm": 0.89268559217453,
      "learning_rate": 0.00018697872999707768,
      "loss": 3.8666,
      "step": 203100
    },
    {
      "epoch": 0.42314583333333333,
      "grad_norm": 0.8372119069099426,
      "learning_rate": 0.000186969175632691,
      "loss": 3.768,
      "step": 203110
    },
    {
      "epoch": 0.4231666666666667,
      "grad_norm": 0.7588700652122498,
      "learning_rate": 0.0001869596211086121,
      "loss": 3.8035,
      "step": 203120
    },
    {
      "epoch": 0.4231875,
      "grad_norm": 0.8258703351020813,
      "learning_rate": 0.0001869500664248823,
      "loss": 3.6722,
      "step": 203130
    },
    {
      "epoch": 0.42320833333333335,
      "grad_norm": 0.797055184841156,
      "learning_rate": 0.00018694051158154278,
      "loss": 3.7027,
      "step": 203140
    },
    {
      "epoch": 0.42322916666666666,
      "grad_norm": 0.7143157720565796,
      "learning_rate": 0.00018693095657863496,
      "loss": 3.6886,
      "step": 203150
    },
    {
      "epoch": 0.42325,
      "grad_norm": 0.9035651087760925,
      "learning_rate": 0.00018692140141619994,
      "loss": 4.0567,
      "step": 203160
    },
    {
      "epoch": 0.4232708333333333,
      "grad_norm": 0.7936192750930786,
      "learning_rate": 0.00018691184609427906,
      "loss": 4.0178,
      "step": 203170
    },
    {
      "epoch": 0.4232916666666667,
      "grad_norm": 1.1577168703079224,
      "learning_rate": 0.0001869022906129137,
      "loss": 3.6285,
      "step": 203180
    },
    {
      "epoch": 0.4233125,
      "grad_norm": 0.7332436442375183,
      "learning_rate": 0.00018689273497214502,
      "loss": 3.6881,
      "step": 203190
    },
    {
      "epoch": 0.42333333333333334,
      "grad_norm": 0.9159241318702698,
      "learning_rate": 0.00018688317917201432,
      "loss": 3.9608,
      "step": 203200
    },
    {
      "epoch": 0.42335416666666664,
      "grad_norm": 0.7189387679100037,
      "learning_rate": 0.0001868736232125629,
      "loss": 3.9176,
      "step": 203210
    },
    {
      "epoch": 0.423375,
      "grad_norm": 0.7315757870674133,
      "learning_rate": 0.000186864067093832,
      "loss": 3.6527,
      "step": 203220
    },
    {
      "epoch": 0.42339583333333336,
      "grad_norm": 0.7040661573410034,
      "learning_rate": 0.00018685451081586297,
      "loss": 3.8907,
      "step": 203230
    },
    {
      "epoch": 0.42341666666666666,
      "grad_norm": 0.8587117791175842,
      "learning_rate": 0.00018684495437869698,
      "loss": 3.9194,
      "step": 203240
    },
    {
      "epoch": 0.4234375,
      "grad_norm": 0.7769238948822021,
      "learning_rate": 0.0001868353977823754,
      "loss": 3.9247,
      "step": 203250
    },
    {
      "epoch": 0.4234583333333333,
      "grad_norm": 0.8109422922134399,
      "learning_rate": 0.00018682584102693953,
      "loss": 4.0006,
      "step": 203260
    },
    {
      "epoch": 0.4234791666666667,
      "grad_norm": 0.871062159538269,
      "learning_rate": 0.0001868162841124305,
      "loss": 3.799,
      "step": 203270
    },
    {
      "epoch": 0.4235,
      "grad_norm": 0.7722070217132568,
      "learning_rate": 0.00018680672703888973,
      "loss": 3.911,
      "step": 203280
    },
    {
      "epoch": 0.42352083333333335,
      "grad_norm": 0.7925694584846497,
      "learning_rate": 0.0001867971698063585,
      "loss": 3.7288,
      "step": 203290
    },
    {
      "epoch": 0.42354166666666665,
      "grad_norm": 0.9185896515846252,
      "learning_rate": 0.00018678761241487809,
      "loss": 3.8191,
      "step": 203300
    },
    {
      "epoch": 0.4235625,
      "grad_norm": 0.7969110012054443,
      "learning_rate": 0.00018677805486448968,
      "loss": 4.0129,
      "step": 203310
    },
    {
      "epoch": 0.4235833333333333,
      "grad_norm": 0.9055123925209045,
      "learning_rate": 0.00018676849715523468,
      "loss": 3.758,
      "step": 203320
    },
    {
      "epoch": 0.42360416666666667,
      "grad_norm": 0.8249528408050537,
      "learning_rate": 0.0001867589392871543,
      "loss": 3.6672,
      "step": 203330
    },
    {
      "epoch": 0.423625,
      "grad_norm": 1.0604455471038818,
      "learning_rate": 0.00018674938126028983,
      "loss": 3.897,
      "step": 203340
    },
    {
      "epoch": 0.42364583333333333,
      "grad_norm": 0.8248727917671204,
      "learning_rate": 0.00018673982307468266,
      "loss": 3.7333,
      "step": 203350
    },
    {
      "epoch": 0.4236666666666667,
      "grad_norm": 0.7670652270317078,
      "learning_rate": 0.00018673026473037396,
      "loss": 3.7217,
      "step": 203360
    },
    {
      "epoch": 0.4236875,
      "grad_norm": 0.7835984826087952,
      "learning_rate": 0.00018672070622740504,
      "loss": 3.936,
      "step": 203370
    },
    {
      "epoch": 0.42370833333333335,
      "grad_norm": 0.8408973813056946,
      "learning_rate": 0.00018671114756581717,
      "loss": 3.7456,
      "step": 203380
    },
    {
      "epoch": 0.42372916666666666,
      "grad_norm": 0.8768576979637146,
      "learning_rate": 0.00018670158874565173,
      "loss": 3.973,
      "step": 203390
    },
    {
      "epoch": 0.42375,
      "grad_norm": 0.9221788048744202,
      "learning_rate": 0.0001866920297669499,
      "loss": 3.9759,
      "step": 203400
    },
    {
      "epoch": 0.4237708333333333,
      "grad_norm": 0.8324286937713623,
      "learning_rate": 0.00018668247062975308,
      "loss": 3.8998,
      "step": 203410
    },
    {
      "epoch": 0.4237916666666667,
      "grad_norm": 0.6321693062782288,
      "learning_rate": 0.0001866729113341025,
      "loss": 3.792,
      "step": 203420
    },
    {
      "epoch": 0.4238125,
      "grad_norm": 0.8513680100440979,
      "learning_rate": 0.0001866633518800395,
      "loss": 3.785,
      "step": 203430
    },
    {
      "epoch": 0.42383333333333334,
      "grad_norm": 0.9528352618217468,
      "learning_rate": 0.00018665379226760526,
      "loss": 3.8421,
      "step": 203440
    },
    {
      "epoch": 0.42385416666666664,
      "grad_norm": 1.6170732975006104,
      "learning_rate": 0.00018664423249684114,
      "loss": 3.6635,
      "step": 203450
    },
    {
      "epoch": 0.423875,
      "grad_norm": 0.6972495317459106,
      "learning_rate": 0.0001866346725677885,
      "loss": 3.8959,
      "step": 203460
    },
    {
      "epoch": 0.42389583333333336,
      "grad_norm": 0.744269073009491,
      "learning_rate": 0.00018662511248048852,
      "loss": 3.7746,
      "step": 203470
    },
    {
      "epoch": 0.42391666666666666,
      "grad_norm": 0.904720664024353,
      "learning_rate": 0.00018661555223498257,
      "loss": 3.7759,
      "step": 203480
    },
    {
      "epoch": 0.4239375,
      "grad_norm": 0.7663127779960632,
      "learning_rate": 0.00018660599183131197,
      "loss": 3.8416,
      "step": 203490
    },
    {
      "epoch": 0.4239583333333333,
      "grad_norm": 0.8915475606918335,
      "learning_rate": 0.00018659643126951793,
      "loss": 3.9334,
      "step": 203500
    },
    {
      "epoch": 0.4239791666666667,
      "grad_norm": 0.9148394465446472,
      "learning_rate": 0.00018658687054964177,
      "loss": 3.768,
      "step": 203510
    },
    {
      "epoch": 0.424,
      "grad_norm": 0.8491105437278748,
      "learning_rate": 0.00018657730967172487,
      "loss": 3.909,
      "step": 203520
    },
    {
      "epoch": 0.42402083333333335,
      "grad_norm": 0.8650269508361816,
      "learning_rate": 0.0001865677486358084,
      "loss": 3.8208,
      "step": 203530
    },
    {
      "epoch": 0.42404166666666665,
      "grad_norm": 0.7482050657272339,
      "learning_rate": 0.00018655818744193377,
      "loss": 3.7405,
      "step": 203540
    },
    {
      "epoch": 0.4240625,
      "grad_norm": 0.8740307688713074,
      "learning_rate": 0.00018654862609014227,
      "loss": 3.7228,
      "step": 203550
    },
    {
      "epoch": 0.4240833333333333,
      "grad_norm": 0.8281369805335999,
      "learning_rate": 0.00018653906458047516,
      "loss": 3.8002,
      "step": 203560
    },
    {
      "epoch": 0.42410416666666667,
      "grad_norm": 0.6836132407188416,
      "learning_rate": 0.00018652950291297372,
      "loss": 3.7377,
      "step": 203570
    },
    {
      "epoch": 0.424125,
      "grad_norm": 0.7322477698326111,
      "learning_rate": 0.0001865199410876793,
      "loss": 3.8253,
      "step": 203580
    },
    {
      "epoch": 0.42414583333333333,
      "grad_norm": 0.7863352298736572,
      "learning_rate": 0.0001865103791046332,
      "loss": 3.9982,
      "step": 203590
    },
    {
      "epoch": 0.4241666666666667,
      "grad_norm": 0.8457711935043335,
      "learning_rate": 0.0001865008169638767,
      "loss": 3.9307,
      "step": 203600
    },
    {
      "epoch": 0.4241875,
      "grad_norm": 0.7785376310348511,
      "learning_rate": 0.00018649125466545114,
      "loss": 3.7083,
      "step": 203610
    },
    {
      "epoch": 0.42420833333333335,
      "grad_norm": 1.3162661790847778,
      "learning_rate": 0.0001864816922093978,
      "loss": 3.8795,
      "step": 203620
    },
    {
      "epoch": 0.42422916666666666,
      "grad_norm": 0.8607888221740723,
      "learning_rate": 0.000186472129595758,
      "loss": 3.9639,
      "step": 203630
    },
    {
      "epoch": 0.42425,
      "grad_norm": 0.9053769707679749,
      "learning_rate": 0.000186462566824573,
      "loss": 3.7962,
      "step": 203640
    },
    {
      "epoch": 0.4242708333333333,
      "grad_norm": 0.8060861825942993,
      "learning_rate": 0.00018645300389588416,
      "loss": 3.7265,
      "step": 203650
    },
    {
      "epoch": 0.4242916666666667,
      "grad_norm": 0.795013427734375,
      "learning_rate": 0.0001864434408097328,
      "loss": 3.766,
      "step": 203660
    },
    {
      "epoch": 0.4243125,
      "grad_norm": 0.801575779914856,
      "learning_rate": 0.00018643387756616013,
      "loss": 3.9418,
      "step": 203670
    },
    {
      "epoch": 0.42433333333333334,
      "grad_norm": 0.7590999007225037,
      "learning_rate": 0.00018642431416520758,
      "loss": 3.739,
      "step": 203680
    },
    {
      "epoch": 0.42435416666666664,
      "grad_norm": 0.8223508596420288,
      "learning_rate": 0.00018641475060691645,
      "loss": 3.8352,
      "step": 203690
    },
    {
      "epoch": 0.424375,
      "grad_norm": 0.9033827781677246,
      "learning_rate": 0.00018640518689132796,
      "loss": 3.8168,
      "step": 203700
    },
    {
      "epoch": 0.42439583333333336,
      "grad_norm": 0.7561221718788147,
      "learning_rate": 0.00018639562301848346,
      "loss": 3.9248,
      "step": 203710
    },
    {
      "epoch": 0.42441666666666666,
      "grad_norm": 0.7547468543052673,
      "learning_rate": 0.00018638605898842433,
      "loss": 3.8753,
      "step": 203720
    },
    {
      "epoch": 0.4244375,
      "grad_norm": 0.9535515904426575,
      "learning_rate": 0.0001863764948011918,
      "loss": 3.9081,
      "step": 203730
    },
    {
      "epoch": 0.4244583333333333,
      "grad_norm": 0.7844325304031372,
      "learning_rate": 0.0001863669304568272,
      "loss": 3.8155,
      "step": 203740
    },
    {
      "epoch": 0.4244791666666667,
      "grad_norm": 0.7219519019126892,
      "learning_rate": 0.00018635736595537186,
      "loss": 4.0066,
      "step": 203750
    },
    {
      "epoch": 0.4245,
      "grad_norm": 0.974809467792511,
      "learning_rate": 0.00018634780129686709,
      "loss": 4.1166,
      "step": 203760
    },
    {
      "epoch": 0.42452083333333335,
      "grad_norm": 0.7785565257072449,
      "learning_rate": 0.0001863382364813542,
      "loss": 3.7934,
      "step": 203770
    },
    {
      "epoch": 0.42454166666666665,
      "grad_norm": 0.7311457991600037,
      "learning_rate": 0.00018632867150887453,
      "loss": 3.8412,
      "step": 203780
    },
    {
      "epoch": 0.4245625,
      "grad_norm": 0.7520766854286194,
      "learning_rate": 0.00018631910637946936,
      "loss": 3.7691,
      "step": 203790
    },
    {
      "epoch": 0.4245833333333333,
      "grad_norm": 0.8149049878120422,
      "learning_rate": 0.00018630954109318006,
      "loss": 3.8184,
      "step": 203800
    },
    {
      "epoch": 0.42460416666666667,
      "grad_norm": 0.7691165804862976,
      "learning_rate": 0.00018629997565004785,
      "loss": 3.9297,
      "step": 203810
    },
    {
      "epoch": 0.424625,
      "grad_norm": 0.8492720127105713,
      "learning_rate": 0.00018629041005011418,
      "loss": 3.8313,
      "step": 203820
    },
    {
      "epoch": 0.42464583333333333,
      "grad_norm": 0.6909393668174744,
      "learning_rate": 0.0001862808442934203,
      "loss": 4.0428,
      "step": 203830
    },
    {
      "epoch": 0.4246666666666667,
      "grad_norm": 0.9118713736534119,
      "learning_rate": 0.00018627127838000747,
      "loss": 3.9569,
      "step": 203840
    },
    {
      "epoch": 0.4246875,
      "grad_norm": 0.7478897571563721,
      "learning_rate": 0.00018626171230991714,
      "loss": 3.7902,
      "step": 203850
    },
    {
      "epoch": 0.42470833333333335,
      "grad_norm": 0.7100585103034973,
      "learning_rate": 0.00018625214608319055,
      "loss": 3.8134,
      "step": 203860
    },
    {
      "epoch": 0.42472916666666666,
      "grad_norm": 0.7874055504798889,
      "learning_rate": 0.00018624257969986904,
      "loss": 3.768,
      "step": 203870
    },
    {
      "epoch": 0.42475,
      "grad_norm": 0.7688024640083313,
      "learning_rate": 0.0001862330131599939,
      "loss": 3.747,
      "step": 203880
    },
    {
      "epoch": 0.4247708333333333,
      "grad_norm": 0.7888466715812683,
      "learning_rate": 0.00018622344646360652,
      "loss": 3.8137,
      "step": 203890
    },
    {
      "epoch": 0.4247916666666667,
      "grad_norm": 0.9598780274391174,
      "learning_rate": 0.00018621387961074819,
      "loss": 3.8619,
      "step": 203900
    },
    {
      "epoch": 0.4248125,
      "grad_norm": 0.8056150674819946,
      "learning_rate": 0.00018620431260146021,
      "loss": 3.9866,
      "step": 203910
    },
    {
      "epoch": 0.42483333333333334,
      "grad_norm": 0.9861893057823181,
      "learning_rate": 0.00018619474543578391,
      "loss": 3.8113,
      "step": 203920
    },
    {
      "epoch": 0.42485416666666664,
      "grad_norm": 0.7045373916625977,
      "learning_rate": 0.0001861851781137607,
      "loss": 3.8733,
      "step": 203930
    },
    {
      "epoch": 0.424875,
      "grad_norm": 0.8080033659934998,
      "learning_rate": 0.00018617561063543177,
      "loss": 3.9066,
      "step": 203940
    },
    {
      "epoch": 0.4248958333333333,
      "grad_norm": 0.9534060955047607,
      "learning_rate": 0.0001861660430008386,
      "loss": 3.7592,
      "step": 203950
    },
    {
      "epoch": 0.42491666666666666,
      "grad_norm": 0.8911580443382263,
      "learning_rate": 0.0001861564752100224,
      "loss": 3.775,
      "step": 203960
    },
    {
      "epoch": 0.4249375,
      "grad_norm": 0.7252312302589417,
      "learning_rate": 0.00018614690726302454,
      "loss": 3.8074,
      "step": 203970
    },
    {
      "epoch": 0.4249583333333333,
      "grad_norm": 0.9052013754844666,
      "learning_rate": 0.00018613733915988636,
      "loss": 3.749,
      "step": 203980
    },
    {
      "epoch": 0.4249791666666667,
      "grad_norm": 0.7280389666557312,
      "learning_rate": 0.00018612777090064916,
      "loss": 3.8911,
      "step": 203990
    },
    {
      "epoch": 0.425,
      "grad_norm": 0.8014105558395386,
      "learning_rate": 0.0001861182024853543,
      "loss": 3.8286,
      "step": 204000
    },
    {
      "epoch": 0.425,
      "eval_loss": 4.1889328956604,
      "eval_runtime": 8.965,
      "eval_samples_per_second": 1.115,
      "eval_steps_per_second": 0.335,
      "step": 204000
    },
    {
      "epoch": 0.42502083333333335,
      "grad_norm": 0.8225648999214172,
      "learning_rate": 0.00018610863391404307,
      "loss": 3.9131,
      "step": 204010
    },
    {
      "epoch": 0.42504166666666665,
      "grad_norm": 0.7488694190979004,
      "learning_rate": 0.00018609906518675693,
      "loss": 3.8728,
      "step": 204020
    },
    {
      "epoch": 0.4250625,
      "grad_norm": 0.7937237620353699,
      "learning_rate": 0.00018608949630353705,
      "loss": 3.8144,
      "step": 204030
    },
    {
      "epoch": 0.4250833333333333,
      "grad_norm": 0.747955322265625,
      "learning_rate": 0.00018607992726442477,
      "loss": 3.917,
      "step": 204040
    },
    {
      "epoch": 0.42510416666666667,
      "grad_norm": 0.6603049039840698,
      "learning_rate": 0.0001860703580694616,
      "loss": 3.821,
      "step": 204050
    },
    {
      "epoch": 0.425125,
      "grad_norm": 0.7571349740028381,
      "learning_rate": 0.0001860607887186887,
      "loss": 3.846,
      "step": 204060
    },
    {
      "epoch": 0.42514583333333333,
      "grad_norm": 0.7347087264060974,
      "learning_rate": 0.0001860512192121475,
      "loss": 3.8553,
      "step": 204070
    },
    {
      "epoch": 0.4251666666666667,
      "grad_norm": 1.224963903427124,
      "learning_rate": 0.00018604164954987926,
      "loss": 3.6845,
      "step": 204080
    },
    {
      "epoch": 0.4251875,
      "grad_norm": 1.0905221700668335,
      "learning_rate": 0.0001860320797319254,
      "loss": 3.8234,
      "step": 204090
    },
    {
      "epoch": 0.42520833333333335,
      "grad_norm": 0.7362592220306396,
      "learning_rate": 0.00018602250975832717,
      "loss": 4.0004,
      "step": 204100
    },
    {
      "epoch": 0.42522916666666666,
      "grad_norm": 0.7986324429512024,
      "learning_rate": 0.000186012939629126,
      "loss": 3.8069,
      "step": 204110
    },
    {
      "epoch": 0.42525,
      "grad_norm": 0.8714006543159485,
      "learning_rate": 0.00018600336934436316,
      "loss": 3.8567,
      "step": 204120
    },
    {
      "epoch": 0.4252708333333333,
      "grad_norm": 0.7272347807884216,
      "learning_rate": 0.00018599379890408004,
      "loss": 3.8712,
      "step": 204130
    },
    {
      "epoch": 0.4252916666666667,
      "grad_norm": 0.6466178894042969,
      "learning_rate": 0.00018598422830831793,
      "loss": 3.8476,
      "step": 204140
    },
    {
      "epoch": 0.4253125,
      "grad_norm": 0.8461854457855225,
      "learning_rate": 0.0001859746575571182,
      "loss": 3.7652,
      "step": 204150
    },
    {
      "epoch": 0.42533333333333334,
      "grad_norm": 0.7847316861152649,
      "learning_rate": 0.00018596508665052225,
      "loss": 3.7737,
      "step": 204160
    },
    {
      "epoch": 0.42535416666666664,
      "grad_norm": 0.6941251754760742,
      "learning_rate": 0.00018595551558857126,
      "loss": 3.8704,
      "step": 204170
    },
    {
      "epoch": 0.425375,
      "grad_norm": 1.0013316869735718,
      "learning_rate": 0.0001859459443713067,
      "loss": 3.8675,
      "step": 204180
    },
    {
      "epoch": 0.4253958333333333,
      "grad_norm": 0.6890354752540588,
      "learning_rate": 0.00018593637299876996,
      "loss": 3.8637,
      "step": 204190
    },
    {
      "epoch": 0.42541666666666667,
      "grad_norm": 0.9731955528259277,
      "learning_rate": 0.00018592680147100227,
      "loss": 3.9666,
      "step": 204200
    },
    {
      "epoch": 0.4254375,
      "grad_norm": 0.9031330347061157,
      "learning_rate": 0.000185917229788045,
      "loss": 3.999,
      "step": 204210
    },
    {
      "epoch": 0.4254583333333333,
      "grad_norm": 0.7701923251152039,
      "learning_rate": 0.00018590765794993953,
      "loss": 3.7706,
      "step": 204220
    },
    {
      "epoch": 0.4254791666666667,
      "grad_norm": 0.8529745936393738,
      "learning_rate": 0.0001858980859567272,
      "loss": 3.7928,
      "step": 204230
    },
    {
      "epoch": 0.4255,
      "grad_norm": 0.7185645699501038,
      "learning_rate": 0.00018588851380844934,
      "loss": 3.6502,
      "step": 204240
    },
    {
      "epoch": 0.42552083333333335,
      "grad_norm": 0.8023987412452698,
      "learning_rate": 0.0001858789415051473,
      "loss": 3.7753,
      "step": 204250
    },
    {
      "epoch": 0.42554166666666665,
      "grad_norm": 0.7661877870559692,
      "learning_rate": 0.00018586936904686242,
      "loss": 3.7464,
      "step": 204260
    },
    {
      "epoch": 0.4255625,
      "grad_norm": 0.7921116352081299,
      "learning_rate": 0.0001858597964336361,
      "loss": 3.7468,
      "step": 204270
    },
    {
      "epoch": 0.4255833333333333,
      "grad_norm": 0.7524197697639465,
      "learning_rate": 0.00018585022366550963,
      "loss": 3.8374,
      "step": 204280
    },
    {
      "epoch": 0.4256041666666667,
      "grad_norm": 0.7955407500267029,
      "learning_rate": 0.0001858406507425244,
      "loss": 3.8744,
      "step": 204290
    },
    {
      "epoch": 0.425625,
      "grad_norm": 0.7023957371711731,
      "learning_rate": 0.00018583107766472176,
      "loss": 3.757,
      "step": 204300
    },
    {
      "epoch": 0.42564583333333333,
      "grad_norm": 0.7077821493148804,
      "learning_rate": 0.000185821504432143,
      "loss": 3.8499,
      "step": 204310
    },
    {
      "epoch": 0.4256666666666667,
      "grad_norm": 0.8043984174728394,
      "learning_rate": 0.00018581193104482953,
      "loss": 3.7431,
      "step": 204320
    },
    {
      "epoch": 0.4256875,
      "grad_norm": 0.7183283567428589,
      "learning_rate": 0.00018580235750282272,
      "loss": 3.7612,
      "step": 204330
    },
    {
      "epoch": 0.42570833333333336,
      "grad_norm": 0.7681713700294495,
      "learning_rate": 0.00018579278380616388,
      "loss": 3.642,
      "step": 204340
    },
    {
      "epoch": 0.42572916666666666,
      "grad_norm": 0.7423334121704102,
      "learning_rate": 0.0001857832099548944,
      "loss": 3.932,
      "step": 204350
    },
    {
      "epoch": 0.42575,
      "grad_norm": 0.7360796928405762,
      "learning_rate": 0.00018577363594905562,
      "loss": 3.8337,
      "step": 204360
    },
    {
      "epoch": 0.4257708333333333,
      "grad_norm": 0.7960636019706726,
      "learning_rate": 0.00018576406178868888,
      "loss": 3.6027,
      "step": 204370
    },
    {
      "epoch": 0.4257916666666667,
      "grad_norm": 0.7596943974494934,
      "learning_rate": 0.0001857544874738355,
      "loss": 3.8093,
      "step": 204380
    },
    {
      "epoch": 0.4258125,
      "grad_norm": 0.7273600697517395,
      "learning_rate": 0.00018574491300453697,
      "loss": 3.8843,
      "step": 204390
    },
    {
      "epoch": 0.42583333333333334,
      "grad_norm": 0.744003415107727,
      "learning_rate": 0.00018573533838083452,
      "loss": 3.9336,
      "step": 204400
    },
    {
      "epoch": 0.42585416666666664,
      "grad_norm": 0.885864794254303,
      "learning_rate": 0.00018572576360276953,
      "loss": 4.0049,
      "step": 204410
    },
    {
      "epoch": 0.425875,
      "grad_norm": 0.795120894908905,
      "learning_rate": 0.00018571618867038343,
      "loss": 3.9195,
      "step": 204420
    },
    {
      "epoch": 0.4258958333333333,
      "grad_norm": 0.7216554880142212,
      "learning_rate": 0.00018570661358371753,
      "loss": 3.8704,
      "step": 204430
    },
    {
      "epoch": 0.42591666666666667,
      "grad_norm": 0.7463579773902893,
      "learning_rate": 0.00018569703834281319,
      "loss": 3.7264,
      "step": 204440
    },
    {
      "epoch": 0.4259375,
      "grad_norm": 0.7791361808776855,
      "learning_rate": 0.00018568746294771174,
      "loss": 3.8102,
      "step": 204450
    },
    {
      "epoch": 0.4259583333333333,
      "grad_norm": 0.782279908657074,
      "learning_rate": 0.0001856778873984546,
      "loss": 3.7845,
      "step": 204460
    },
    {
      "epoch": 0.4259791666666667,
      "grad_norm": 0.7355350852012634,
      "learning_rate": 0.00018566831169508313,
      "loss": 3.7375,
      "step": 204470
    },
    {
      "epoch": 0.426,
      "grad_norm": 0.80596923828125,
      "learning_rate": 0.00018565873583763863,
      "loss": 3.8728,
      "step": 204480
    },
    {
      "epoch": 0.42602083333333335,
      "grad_norm": 0.7417251467704773,
      "learning_rate": 0.00018564915982616253,
      "loss": 3.765,
      "step": 204490
    },
    {
      "epoch": 0.42604166666666665,
      "grad_norm": 0.8180227875709534,
      "learning_rate": 0.0001856395836606962,
      "loss": 4.0039,
      "step": 204500
    },
    {
      "epoch": 0.4260625,
      "grad_norm": 0.7837225198745728,
      "learning_rate": 0.0001856300073412809,
      "loss": 3.7159,
      "step": 204510
    },
    {
      "epoch": 0.4260833333333333,
      "grad_norm": 0.7584799528121948,
      "learning_rate": 0.0001856204308679581,
      "loss": 3.7515,
      "step": 204520
    },
    {
      "epoch": 0.4261041666666667,
      "grad_norm": 0.7718093395233154,
      "learning_rate": 0.0001856108542407692,
      "loss": 3.8315,
      "step": 204530
    },
    {
      "epoch": 0.426125,
      "grad_norm": 0.6984807252883911,
      "learning_rate": 0.0001856012774597554,
      "loss": 3.8496,
      "step": 204540
    },
    {
      "epoch": 0.42614583333333333,
      "grad_norm": 0.7824437618255615,
      "learning_rate": 0.00018559170052495825,
      "loss": 3.9163,
      "step": 204550
    },
    {
      "epoch": 0.4261666666666667,
      "grad_norm": 0.8571760058403015,
      "learning_rate": 0.00018558212343641902,
      "loss": 3.8915,
      "step": 204560
    },
    {
      "epoch": 0.4261875,
      "grad_norm": 0.6625521183013916,
      "learning_rate": 0.00018557254619417914,
      "loss": 3.7353,
      "step": 204570
    },
    {
      "epoch": 0.42620833333333336,
      "grad_norm": 0.8615989685058594,
      "learning_rate": 0.00018556296879827986,
      "loss": 3.7852,
      "step": 204580
    },
    {
      "epoch": 0.42622916666666666,
      "grad_norm": 0.9428996443748474,
      "learning_rate": 0.0001855533912487627,
      "loss": 3.7011,
      "step": 204590
    },
    {
      "epoch": 0.42625,
      "grad_norm": 0.7575734853744507,
      "learning_rate": 0.0001855438135456689,
      "loss": 3.8786,
      "step": 204600
    },
    {
      "epoch": 0.4262708333333333,
      "grad_norm": 0.6964179873466492,
      "learning_rate": 0.00018553423568903998,
      "loss": 3.8278,
      "step": 204610
    },
    {
      "epoch": 0.4262916666666667,
      "grad_norm": 0.742982804775238,
      "learning_rate": 0.00018552465767891717,
      "loss": 3.686,
      "step": 204620
    },
    {
      "epoch": 0.4263125,
      "grad_norm": 0.9606332182884216,
      "learning_rate": 0.0001855150795153419,
      "loss": 3.7659,
      "step": 204630
    },
    {
      "epoch": 0.42633333333333334,
      "grad_norm": 0.7835068702697754,
      "learning_rate": 0.00018550550119835556,
      "loss": 3.7497,
      "step": 204640
    },
    {
      "epoch": 0.42635416666666665,
      "grad_norm": 0.9306955933570862,
      "learning_rate": 0.00018549592272799952,
      "loss": 3.7528,
      "step": 204650
    },
    {
      "epoch": 0.426375,
      "grad_norm": 0.8261277675628662,
      "learning_rate": 0.0001854863441043151,
      "loss": 3.8011,
      "step": 204660
    },
    {
      "epoch": 0.4263958333333333,
      "grad_norm": 0.7493314743041992,
      "learning_rate": 0.00018547676532734375,
      "loss": 3.7092,
      "step": 204670
    },
    {
      "epoch": 0.42641666666666667,
      "grad_norm": 0.720406174659729,
      "learning_rate": 0.00018546718639712682,
      "loss": 3.9054,
      "step": 204680
    },
    {
      "epoch": 0.4264375,
      "grad_norm": 0.7821884751319885,
      "learning_rate": 0.00018545760731370568,
      "loss": 3.803,
      "step": 204690
    },
    {
      "epoch": 0.42645833333333333,
      "grad_norm": 0.8173019289970398,
      "learning_rate": 0.0001854480280771217,
      "loss": 3.8806,
      "step": 204700
    },
    {
      "epoch": 0.4264791666666667,
      "grad_norm": 0.765231728553772,
      "learning_rate": 0.00018543844868741628,
      "loss": 3.9378,
      "step": 204710
    },
    {
      "epoch": 0.4265,
      "grad_norm": 0.6810105443000793,
      "learning_rate": 0.0001854288691446308,
      "loss": 3.8177,
      "step": 204720
    },
    {
      "epoch": 0.42652083333333335,
      "grad_norm": 0.8670846223831177,
      "learning_rate": 0.00018541928944880662,
      "loss": 3.7452,
      "step": 204730
    },
    {
      "epoch": 0.42654166666666665,
      "grad_norm": 0.855144202709198,
      "learning_rate": 0.00018540970959998515,
      "loss": 3.8463,
      "step": 204740
    },
    {
      "epoch": 0.4265625,
      "grad_norm": 0.7602840662002563,
      "learning_rate": 0.00018540012959820772,
      "loss": 4.0969,
      "step": 204750
    },
    {
      "epoch": 0.4265833333333333,
      "grad_norm": 0.9871722459793091,
      "learning_rate": 0.00018539054944351574,
      "loss": 3.7805,
      "step": 204760
    },
    {
      "epoch": 0.4266041666666667,
      "grad_norm": 0.6738527417182922,
      "learning_rate": 0.0001853809691359506,
      "loss": 3.7482,
      "step": 204770
    },
    {
      "epoch": 0.426625,
      "grad_norm": 0.7625249028205872,
      "learning_rate": 0.0001853713886755537,
      "loss": 3.9137,
      "step": 204780
    },
    {
      "epoch": 0.42664583333333334,
      "grad_norm": 1.031105399131775,
      "learning_rate": 0.00018536180806236639,
      "loss": 3.6117,
      "step": 204790
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 0.7910388112068176,
      "learning_rate": 0.00018535222729643003,
      "loss": 3.842,
      "step": 204800
    },
    {
      "epoch": 0.4266875,
      "grad_norm": 0.8100233674049377,
      "learning_rate": 0.0001853426463777861,
      "loss": 3.8145,
      "step": 204810
    },
    {
      "epoch": 0.42670833333333336,
      "grad_norm": 0.8459026217460632,
      "learning_rate": 0.00018533306530647587,
      "loss": 3.9541,
      "step": 204820
    },
    {
      "epoch": 0.42672916666666666,
      "grad_norm": 0.8755667805671692,
      "learning_rate": 0.00018532348408254083,
      "loss": 3.7197,
      "step": 204830
    },
    {
      "epoch": 0.42675,
      "grad_norm": 0.8626455664634705,
      "learning_rate": 0.0001853139027060223,
      "loss": 3.7329,
      "step": 204840
    },
    {
      "epoch": 0.4267708333333333,
      "grad_norm": 0.7538270354270935,
      "learning_rate": 0.00018530432117696167,
      "loss": 3.8356,
      "step": 204850
    },
    {
      "epoch": 0.4267916666666667,
      "grad_norm": 0.8621108531951904,
      "learning_rate": 0.0001852947394954004,
      "loss": 3.9377,
      "step": 204860
    },
    {
      "epoch": 0.4268125,
      "grad_norm": 0.812701404094696,
      "learning_rate": 0.00018528515766137981,
      "loss": 3.902,
      "step": 204870
    },
    {
      "epoch": 0.42683333333333334,
      "grad_norm": 0.7952451109886169,
      "learning_rate": 0.00018527557567494125,
      "loss": 3.9882,
      "step": 204880
    },
    {
      "epoch": 0.42685416666666665,
      "grad_norm": 0.7224379777908325,
      "learning_rate": 0.00018526599353612628,
      "loss": 3.8124,
      "step": 204890
    },
    {
      "epoch": 0.426875,
      "grad_norm": 0.9119526147842407,
      "learning_rate": 0.00018525641124497608,
      "loss": 3.9399,
      "step": 204900
    },
    {
      "epoch": 0.4268958333333333,
      "grad_norm": 0.842302143573761,
      "learning_rate": 0.00018524682880153215,
      "loss": 3.8233,
      "step": 204910
    },
    {
      "epoch": 0.42691666666666667,
      "grad_norm": 0.8082537651062012,
      "learning_rate": 0.0001852372462058359,
      "loss": 3.9008,
      "step": 204920
    },
    {
      "epoch": 0.4269375,
      "grad_norm": 0.9020940661430359,
      "learning_rate": 0.00018522766345792867,
      "loss": 3.9688,
      "step": 204930
    },
    {
      "epoch": 0.42695833333333333,
      "grad_norm": 0.7180628180503845,
      "learning_rate": 0.00018521808055785188,
      "loss": 3.8511,
      "step": 204940
    },
    {
      "epoch": 0.4269791666666667,
      "grad_norm": 0.9056506752967834,
      "learning_rate": 0.00018520849750564694,
      "loss": 3.9042,
      "step": 204950
    },
    {
      "epoch": 0.427,
      "grad_norm": 0.8303362727165222,
      "learning_rate": 0.00018519891430135522,
      "loss": 3.6918,
      "step": 204960
    },
    {
      "epoch": 0.42702083333333335,
      "grad_norm": 0.8226765394210815,
      "learning_rate": 0.00018518933094501813,
      "loss": 3.9441,
      "step": 204970
    },
    {
      "epoch": 0.42704166666666665,
      "grad_norm": 0.7465816140174866,
      "learning_rate": 0.00018517974743667703,
      "loss": 3.7792,
      "step": 204980
    },
    {
      "epoch": 0.4270625,
      "grad_norm": 1.0268819332122803,
      "learning_rate": 0.00018517016377637337,
      "loss": 3.7457,
      "step": 204990
    },
    {
      "epoch": 0.4270833333333333,
      "grad_norm": 0.8045231103897095,
      "learning_rate": 0.0001851605799641485,
      "loss": 3.8354,
      "step": 205000
    },
    {
      "epoch": 0.4270833333333333,
      "eval_loss": 4.183697700500488,
      "eval_runtime": 7.8551,
      "eval_samples_per_second": 1.273,
      "eval_steps_per_second": 0.382,
      "step": 205000
    },
    {
      "epoch": 0.4271041666666667,
      "grad_norm": 0.8671076893806458,
      "learning_rate": 0.0001851509960000439,
      "loss": 4.0419,
      "step": 205010
    },
    {
      "epoch": 0.427125,
      "grad_norm": 0.853135883808136,
      "learning_rate": 0.00018514141188410085,
      "loss": 3.7441,
      "step": 205020
    },
    {
      "epoch": 0.42714583333333334,
      "grad_norm": 0.7638596892356873,
      "learning_rate": 0.00018513182761636086,
      "loss": 3.817,
      "step": 205030
    },
    {
      "epoch": 0.42716666666666664,
      "grad_norm": 0.7222057580947876,
      "learning_rate": 0.0001851222431968652,
      "loss": 3.991,
      "step": 205040
    },
    {
      "epoch": 0.4271875,
      "grad_norm": 0.7180519700050354,
      "learning_rate": 0.0001851126586256554,
      "loss": 3.955,
      "step": 205050
    },
    {
      "epoch": 0.42720833333333336,
      "grad_norm": 0.7934364676475525,
      "learning_rate": 0.00018510307390277286,
      "loss": 3.8852,
      "step": 205060
    },
    {
      "epoch": 0.42722916666666666,
      "grad_norm": 0.7602272629737854,
      "learning_rate": 0.00018509348902825888,
      "loss": 3.8528,
      "step": 205070
    },
    {
      "epoch": 0.42725,
      "grad_norm": 0.8665509819984436,
      "learning_rate": 0.00018508390400215493,
      "loss": 3.8269,
      "step": 205080
    },
    {
      "epoch": 0.4272708333333333,
      "grad_norm": 0.8584831953048706,
      "learning_rate": 0.0001850743188245024,
      "loss": 3.8472,
      "step": 205090
    },
    {
      "epoch": 0.4272916666666667,
      "grad_norm": 0.9512306451797485,
      "learning_rate": 0.00018506473349534275,
      "loss": 3.676,
      "step": 205100
    },
    {
      "epoch": 0.4273125,
      "grad_norm": 0.724471926689148,
      "learning_rate": 0.00018505514801471723,
      "loss": 3.8789,
      "step": 205110
    },
    {
      "epoch": 0.42733333333333334,
      "grad_norm": 0.7928404808044434,
      "learning_rate": 0.00018504556238266743,
      "loss": 3.799,
      "step": 205120
    },
    {
      "epoch": 0.42735416666666665,
      "grad_norm": 1.0083822011947632,
      "learning_rate": 0.00018503597659923465,
      "loss": 3.7518,
      "step": 205130
    },
    {
      "epoch": 0.427375,
      "grad_norm": 0.8056104183197021,
      "learning_rate": 0.00018502639066446028,
      "loss": 4.0181,
      "step": 205140
    },
    {
      "epoch": 0.4273958333333333,
      "grad_norm": 0.7527151107788086,
      "learning_rate": 0.0001850168045783858,
      "loss": 3.8295,
      "step": 205150
    },
    {
      "epoch": 0.42741666666666667,
      "grad_norm": 0.9122253060340881,
      "learning_rate": 0.00018500721834105257,
      "loss": 3.9628,
      "step": 205160
    },
    {
      "epoch": 0.4274375,
      "grad_norm": 0.9417088627815247,
      "learning_rate": 0.00018499763195250202,
      "loss": 3.8649,
      "step": 205170
    },
    {
      "epoch": 0.42745833333333333,
      "grad_norm": 0.783983051776886,
      "learning_rate": 0.0001849880454127756,
      "loss": 3.7455,
      "step": 205180
    },
    {
      "epoch": 0.4274791666666667,
      "grad_norm": 0.7052674889564514,
      "learning_rate": 0.0001849784587219146,
      "loss": 3.9795,
      "step": 205190
    },
    {
      "epoch": 0.4275,
      "grad_norm": 0.8509355187416077,
      "learning_rate": 0.00018496887187996057,
      "loss": 3.7979,
      "step": 205200
    },
    {
      "epoch": 0.42752083333333335,
      "grad_norm": 1.0761526823043823,
      "learning_rate": 0.0001849592848869548,
      "loss": 3.8964,
      "step": 205210
    },
    {
      "epoch": 0.42754166666666665,
      "grad_norm": 0.7628764510154724,
      "learning_rate": 0.00018494969774293877,
      "loss": 4.1372,
      "step": 205220
    },
    {
      "epoch": 0.4275625,
      "grad_norm": 0.9813461303710938,
      "learning_rate": 0.00018494011044795393,
      "loss": 3.7719,
      "step": 205230
    },
    {
      "epoch": 0.4275833333333333,
      "grad_norm": 0.7779101729393005,
      "learning_rate": 0.00018493052300204158,
      "loss": 3.7698,
      "step": 205240
    },
    {
      "epoch": 0.4276041666666667,
      "grad_norm": 0.6958789229393005,
      "learning_rate": 0.00018492093540524316,
      "loss": 3.8799,
      "step": 205250
    },
    {
      "epoch": 0.427625,
      "grad_norm": 0.7525084018707275,
      "learning_rate": 0.00018491134765760022,
      "loss": 3.7489,
      "step": 205260
    },
    {
      "epoch": 0.42764583333333334,
      "grad_norm": 1.089812994003296,
      "learning_rate": 0.00018490175975915404,
      "loss": 3.9482,
      "step": 205270
    },
    {
      "epoch": 0.42766666666666664,
      "grad_norm": 0.8033272624015808,
      "learning_rate": 0.00018489217170994604,
      "loss": 3.9282,
      "step": 205280
    },
    {
      "epoch": 0.4276875,
      "grad_norm": 0.6690013408660889,
      "learning_rate": 0.0001848825835100177,
      "loss": 3.7641,
      "step": 205290
    },
    {
      "epoch": 0.42770833333333336,
      "grad_norm": 0.9086427092552185,
      "learning_rate": 0.00018487299515941043,
      "loss": 3.9321,
      "step": 205300
    },
    {
      "epoch": 0.42772916666666666,
      "grad_norm": 0.7191168069839478,
      "learning_rate": 0.0001848634066581656,
      "loss": 3.8864,
      "step": 205310
    },
    {
      "epoch": 0.42775,
      "grad_norm": 0.8165661692619324,
      "learning_rate": 0.00018485381800632464,
      "loss": 3.8101,
      "step": 205320
    },
    {
      "epoch": 0.4277708333333333,
      "grad_norm": 0.8144954442977905,
      "learning_rate": 0.000184844229203929,
      "loss": 3.6067,
      "step": 205330
    },
    {
      "epoch": 0.4277916666666667,
      "grad_norm": 0.7842534780502319,
      "learning_rate": 0.00018483464025102007,
      "loss": 3.8811,
      "step": 205340
    },
    {
      "epoch": 0.4278125,
      "grad_norm": 0.7958270311355591,
      "learning_rate": 0.0001848250511476393,
      "loss": 3.6827,
      "step": 205350
    },
    {
      "epoch": 0.42783333333333334,
      "grad_norm": 0.7725892663002014,
      "learning_rate": 0.00018481546189382807,
      "loss": 3.7739,
      "step": 205360
    },
    {
      "epoch": 0.42785416666666665,
      "grad_norm": 0.8502694368362427,
      "learning_rate": 0.00018480587248962787,
      "loss": 3.7653,
      "step": 205370
    },
    {
      "epoch": 0.427875,
      "grad_norm": 0.740541398525238,
      "learning_rate": 0.00018479628293508003,
      "loss": 3.8451,
      "step": 205380
    },
    {
      "epoch": 0.4278958333333333,
      "grad_norm": 0.8534749150276184,
      "learning_rate": 0.000184786693230226,
      "loss": 3.8573,
      "step": 205390
    },
    {
      "epoch": 0.42791666666666667,
      "grad_norm": 0.8129382729530334,
      "learning_rate": 0.0001847771033751073,
      "loss": 3.7862,
      "step": 205400
    },
    {
      "epoch": 0.4279375,
      "grad_norm": 0.7412385940551758,
      "learning_rate": 0.00018476751336976522,
      "loss": 3.8886,
      "step": 205410
    },
    {
      "epoch": 0.42795833333333333,
      "grad_norm": 0.8372806310653687,
      "learning_rate": 0.00018475792321424127,
      "loss": 3.8311,
      "step": 205420
    },
    {
      "epoch": 0.4279791666666667,
      "grad_norm": 0.7183703780174255,
      "learning_rate": 0.00018474833290857689,
      "loss": 3.8935,
      "step": 205430
    },
    {
      "epoch": 0.428,
      "grad_norm": 0.8000779151916504,
      "learning_rate": 0.00018473874245281341,
      "loss": 3.7657,
      "step": 205440
    },
    {
      "epoch": 0.42802083333333335,
      "grad_norm": 0.7562931776046753,
      "learning_rate": 0.0001847291518469923,
      "loss": 3.7202,
      "step": 205450
    },
    {
      "epoch": 0.42804166666666665,
      "grad_norm": 0.740311861038208,
      "learning_rate": 0.00018471956109115506,
      "loss": 3.8547,
      "step": 205460
    },
    {
      "epoch": 0.4280625,
      "grad_norm": 0.7738710045814514,
      "learning_rate": 0.000184709970185343,
      "loss": 3.9157,
      "step": 205470
    },
    {
      "epoch": 0.4280833333333333,
      "grad_norm": 0.9126008749008179,
      "learning_rate": 0.00018470037912959763,
      "loss": 3.8398,
      "step": 205480
    },
    {
      "epoch": 0.4281041666666667,
      "grad_norm": 0.8485434055328369,
      "learning_rate": 0.00018469078792396037,
      "loss": 4.0298,
      "step": 205490
    },
    {
      "epoch": 0.428125,
      "grad_norm": 0.7557910680770874,
      "learning_rate": 0.00018468119656847264,
      "loss": 3.8761,
      "step": 205500
    },
    {
      "epoch": 0.42814583333333334,
      "grad_norm": 0.9253383874893188,
      "learning_rate": 0.00018467160506317583,
      "loss": 4.1051,
      "step": 205510
    },
    {
      "epoch": 0.42816666666666664,
      "grad_norm": 0.7529454231262207,
      "learning_rate": 0.00018466201340811147,
      "loss": 3.7621,
      "step": 205520
    },
    {
      "epoch": 0.4281875,
      "grad_norm": 0.7560766935348511,
      "learning_rate": 0.00018465242160332088,
      "loss": 3.8172,
      "step": 205530
    },
    {
      "epoch": 0.42820833333333336,
      "grad_norm": 0.7696878910064697,
      "learning_rate": 0.00018464282964884558,
      "loss": 3.7534,
      "step": 205540
    },
    {
      "epoch": 0.42822916666666666,
      "grad_norm": 1.0487927198410034,
      "learning_rate": 0.00018463323754472694,
      "loss": 3.8446,
      "step": 205550
    },
    {
      "epoch": 0.42825,
      "grad_norm": 0.9102507829666138,
      "learning_rate": 0.00018462364529100642,
      "loss": 3.9397,
      "step": 205560
    },
    {
      "epoch": 0.4282708333333333,
      "grad_norm": 0.7705972194671631,
      "learning_rate": 0.0001846140528877255,
      "loss": 3.838,
      "step": 205570
    },
    {
      "epoch": 0.4282916666666667,
      "grad_norm": 0.7091596126556396,
      "learning_rate": 0.0001846044603349255,
      "loss": 3.8685,
      "step": 205580
    },
    {
      "epoch": 0.4283125,
      "grad_norm": 0.7541450262069702,
      "learning_rate": 0.000184594867632648,
      "loss": 3.9121,
      "step": 205590
    },
    {
      "epoch": 0.42833333333333334,
      "grad_norm": 0.9630944728851318,
      "learning_rate": 0.00018458527478093436,
      "loss": 3.9214,
      "step": 205600
    },
    {
      "epoch": 0.42835416666666665,
      "grad_norm": 0.7683776617050171,
      "learning_rate": 0.00018457568177982596,
      "loss": 3.8413,
      "step": 205610
    },
    {
      "epoch": 0.428375,
      "grad_norm": 0.8751146793365479,
      "learning_rate": 0.0001845660886293644,
      "loss": 3.7962,
      "step": 205620
    },
    {
      "epoch": 0.4283958333333333,
      "grad_norm": 0.7882677912712097,
      "learning_rate": 0.00018455649532959096,
      "loss": 3.8275,
      "step": 205630
    },
    {
      "epoch": 0.42841666666666667,
      "grad_norm": 0.7007756233215332,
      "learning_rate": 0.00018454690188054714,
      "loss": 4.0702,
      "step": 205640
    },
    {
      "epoch": 0.4284375,
      "grad_norm": 0.7952508926391602,
      "learning_rate": 0.00018453730828227435,
      "loss": 4.0174,
      "step": 205650
    },
    {
      "epoch": 0.42845833333333333,
      "grad_norm": 0.8587927222251892,
      "learning_rate": 0.0001845277145348141,
      "loss": 3.8914,
      "step": 205660
    },
    {
      "epoch": 0.4284791666666667,
      "grad_norm": 0.8449845314025879,
      "learning_rate": 0.00018451812063820778,
      "loss": 3.8639,
      "step": 205670
    },
    {
      "epoch": 0.4285,
      "grad_norm": 1.0052040815353394,
      "learning_rate": 0.00018450852659249685,
      "loss": 3.8778,
      "step": 205680
    },
    {
      "epoch": 0.42852083333333335,
      "grad_norm": 0.7628552913665771,
      "learning_rate": 0.00018449893239772273,
      "loss": 3.8574,
      "step": 205690
    },
    {
      "epoch": 0.42854166666666665,
      "grad_norm": 0.7074677348136902,
      "learning_rate": 0.00018448933805392687,
      "loss": 3.7803,
      "step": 205700
    },
    {
      "epoch": 0.4285625,
      "grad_norm": 0.748049259185791,
      "learning_rate": 0.00018447974356115073,
      "loss": 3.9919,
      "step": 205710
    },
    {
      "epoch": 0.4285833333333333,
      "grad_norm": 0.7913044691085815,
      "learning_rate": 0.00018447014891943576,
      "loss": 3.8291,
      "step": 205720
    },
    {
      "epoch": 0.4286041666666667,
      "grad_norm": 0.8407151699066162,
      "learning_rate": 0.00018446055412882337,
      "loss": 3.7156,
      "step": 205730
    },
    {
      "epoch": 0.428625,
      "grad_norm": 0.9888330101966858,
      "learning_rate": 0.00018445095918935507,
      "loss": 3.8216,
      "step": 205740
    },
    {
      "epoch": 0.42864583333333334,
      "grad_norm": 0.687968909740448,
      "learning_rate": 0.0001844413641010722,
      "loss": 3.8819,
      "step": 205750
    },
    {
      "epoch": 0.42866666666666664,
      "grad_norm": 0.7321026921272278,
      "learning_rate": 0.00018443176886401633,
      "loss": 3.8899,
      "step": 205760
    },
    {
      "epoch": 0.4286875,
      "grad_norm": 0.8357200026512146,
      "learning_rate": 0.00018442217347822883,
      "loss": 3.7122,
      "step": 205770
    },
    {
      "epoch": 0.42870833333333336,
      "grad_norm": 0.79695063829422,
      "learning_rate": 0.0001844125779437511,
      "loss": 3.8893,
      "step": 205780
    },
    {
      "epoch": 0.42872916666666666,
      "grad_norm": 0.9920585751533508,
      "learning_rate": 0.00018440298226062474,
      "loss": 3.8949,
      "step": 205790
    },
    {
      "epoch": 0.42875,
      "grad_norm": 0.8837742805480957,
      "learning_rate": 0.0001843933864288911,
      "loss": 3.7612,
      "step": 205800
    },
    {
      "epoch": 0.4287708333333333,
      "grad_norm": 0.8702191710472107,
      "learning_rate": 0.0001843837904485916,
      "loss": 3.722,
      "step": 205810
    },
    {
      "epoch": 0.4287916666666667,
      "grad_norm": 0.7004632949829102,
      "learning_rate": 0.00018437419431976778,
      "loss": 3.7171,
      "step": 205820
    },
    {
      "epoch": 0.4288125,
      "grad_norm": 0.8147491812705994,
      "learning_rate": 0.000184364598042461,
      "loss": 3.804,
      "step": 205830
    },
    {
      "epoch": 0.42883333333333334,
      "grad_norm": 0.8041006326675415,
      "learning_rate": 0.0001843550016167128,
      "loss": 3.8135,
      "step": 205840
    },
    {
      "epoch": 0.42885416666666665,
      "grad_norm": 0.7917842864990234,
      "learning_rate": 0.00018434540504256458,
      "loss": 3.7979,
      "step": 205850
    },
    {
      "epoch": 0.428875,
      "grad_norm": 0.8432973623275757,
      "learning_rate": 0.00018433580832005782,
      "loss": 3.7806,
      "step": 205860
    },
    {
      "epoch": 0.4288958333333333,
      "grad_norm": 0.7768725156784058,
      "learning_rate": 0.00018432621144923392,
      "loss": 3.6413,
      "step": 205870
    },
    {
      "epoch": 0.42891666666666667,
      "grad_norm": 0.8276515603065491,
      "learning_rate": 0.00018431661443013442,
      "loss": 3.8553,
      "step": 205880
    },
    {
      "epoch": 0.4289375,
      "grad_norm": 0.7917028665542603,
      "learning_rate": 0.0001843070172628007,
      "loss": 3.795,
      "step": 205890
    },
    {
      "epoch": 0.42895833333333333,
      "grad_norm": 0.6980118751525879,
      "learning_rate": 0.00018429741994727424,
      "loss": 3.8056,
      "step": 205900
    },
    {
      "epoch": 0.4289791666666667,
      "grad_norm": 0.8739801645278931,
      "learning_rate": 0.00018428782248359652,
      "loss": 3.8603,
      "step": 205910
    },
    {
      "epoch": 0.429,
      "grad_norm": 0.8284547924995422,
      "learning_rate": 0.00018427822487180896,
      "loss": 3.8338,
      "step": 205920
    },
    {
      "epoch": 0.42902083333333335,
      "grad_norm": 0.742342472076416,
      "learning_rate": 0.0001842686271119531,
      "loss": 3.8809,
      "step": 205930
    },
    {
      "epoch": 0.42904166666666665,
      "grad_norm": 0.7969412803649902,
      "learning_rate": 0.00018425902920407027,
      "loss": 3.8855,
      "step": 205940
    },
    {
      "epoch": 0.4290625,
      "grad_norm": 0.7209224700927734,
      "learning_rate": 0.00018424943114820198,
      "loss": 3.8222,
      "step": 205950
    },
    {
      "epoch": 0.4290833333333333,
      "grad_norm": 0.9164575934410095,
      "learning_rate": 0.00018423983294438975,
      "loss": 3.8167,
      "step": 205960
    },
    {
      "epoch": 0.4291041666666667,
      "grad_norm": 0.901239812374115,
      "learning_rate": 0.000184230234592675,
      "loss": 3.6639,
      "step": 205970
    },
    {
      "epoch": 0.429125,
      "grad_norm": 0.9109711050987244,
      "learning_rate": 0.00018422063609309914,
      "loss": 4.1574,
      "step": 205980
    },
    {
      "epoch": 0.42914583333333334,
      "grad_norm": 0.7068051099777222,
      "learning_rate": 0.00018421103744570373,
      "loss": 3.7438,
      "step": 205990
    },
    {
      "epoch": 0.42916666666666664,
      "grad_norm": 0.7832737565040588,
      "learning_rate": 0.00018420143865053012,
      "loss": 3.7126,
      "step": 206000
    },
    {
      "epoch": 0.42916666666666664,
      "eval_loss": 4.181492805480957,
      "eval_runtime": 8.3712,
      "eval_samples_per_second": 1.195,
      "eval_steps_per_second": 0.358,
      "step": 206000
    },
    {
      "epoch": 0.4291875,
      "grad_norm": 0.7280004620552063,
      "learning_rate": 0.0001841918397076199,
      "loss": 3.8411,
      "step": 206010
    },
    {
      "epoch": 0.42920833333333336,
      "grad_norm": 0.8106138706207275,
      "learning_rate": 0.0001841822406170144,
      "loss": 3.6321,
      "step": 206020
    },
    {
      "epoch": 0.42922916666666666,
      "grad_norm": 0.9709250330924988,
      "learning_rate": 0.0001841726413787552,
      "loss": 3.8637,
      "step": 206030
    },
    {
      "epoch": 0.42925,
      "grad_norm": 0.9134735465049744,
      "learning_rate": 0.00018416304199288366,
      "loss": 3.8483,
      "step": 206040
    },
    {
      "epoch": 0.4292708333333333,
      "grad_norm": 0.9627252221107483,
      "learning_rate": 0.00018415344245944137,
      "loss": 3.918,
      "step": 206050
    },
    {
      "epoch": 0.4292916666666667,
      "grad_norm": 0.8446924090385437,
      "learning_rate": 0.00018414384277846968,
      "loss": 3.8553,
      "step": 206060
    },
    {
      "epoch": 0.4293125,
      "grad_norm": 0.8628605008125305,
      "learning_rate": 0.00018413424295001015,
      "loss": 3.7766,
      "step": 206070
    },
    {
      "epoch": 0.42933333333333334,
      "grad_norm": 0.7785059809684753,
      "learning_rate": 0.00018412464297410414,
      "loss": 3.8856,
      "step": 206080
    },
    {
      "epoch": 0.42935416666666665,
      "grad_norm": 0.8498415350914001,
      "learning_rate": 0.00018411504285079325,
      "loss": 3.911,
      "step": 206090
    },
    {
      "epoch": 0.429375,
      "grad_norm": 0.9845200777053833,
      "learning_rate": 0.00018410544258011885,
      "loss": 3.7073,
      "step": 206100
    },
    {
      "epoch": 0.4293958333333333,
      "grad_norm": 0.8998635411262512,
      "learning_rate": 0.0001840958421621224,
      "loss": 3.7737,
      "step": 206110
    },
    {
      "epoch": 0.42941666666666667,
      "grad_norm": 0.9043747186660767,
      "learning_rate": 0.00018408624159684542,
      "loss": 3.8585,
      "step": 206120
    },
    {
      "epoch": 0.4294375,
      "grad_norm": 0.824752926826477,
      "learning_rate": 0.00018407664088432942,
      "loss": 3.9571,
      "step": 206130
    },
    {
      "epoch": 0.42945833333333333,
      "grad_norm": 0.8155061602592468,
      "learning_rate": 0.00018406704002461575,
      "loss": 3.8954,
      "step": 206140
    },
    {
      "epoch": 0.4294791666666667,
      "grad_norm": 0.6997689008712769,
      "learning_rate": 0.00018405743901774596,
      "loss": 3.897,
      "step": 206150
    },
    {
      "epoch": 0.4295,
      "grad_norm": 0.6739857792854309,
      "learning_rate": 0.0001840478378637616,
      "loss": 3.9049,
      "step": 206160
    },
    {
      "epoch": 0.42952083333333335,
      "grad_norm": 0.7794989943504333,
      "learning_rate": 0.00018403823656270397,
      "loss": 3.8878,
      "step": 206170
    },
    {
      "epoch": 0.42954166666666665,
      "grad_norm": 0.8287559151649475,
      "learning_rate": 0.00018402863511461466,
      "loss": 3.8614,
      "step": 206180
    },
    {
      "epoch": 0.4295625,
      "grad_norm": 0.778748095035553,
      "learning_rate": 0.00018401903351953513,
      "loss": 3.7654,
      "step": 206190
    },
    {
      "epoch": 0.4295833333333333,
      "grad_norm": 0.9569399952888489,
      "learning_rate": 0.00018400943177750685,
      "loss": 3.829,
      "step": 206200
    },
    {
      "epoch": 0.4296041666666667,
      "grad_norm": 0.9910017251968384,
      "learning_rate": 0.00018399982988857123,
      "loss": 3.9167,
      "step": 206210
    },
    {
      "epoch": 0.429625,
      "grad_norm": 0.7821748852729797,
      "learning_rate": 0.00018399022785276986,
      "loss": 3.8695,
      "step": 206220
    },
    {
      "epoch": 0.42964583333333334,
      "grad_norm": 0.7664909958839417,
      "learning_rate": 0.00018398062567014412,
      "loss": 3.6428,
      "step": 206230
    },
    {
      "epoch": 0.42966666666666664,
      "grad_norm": 0.7677032351493835,
      "learning_rate": 0.0001839710233407356,
      "loss": 4.0329,
      "step": 206240
    },
    {
      "epoch": 0.4296875,
      "grad_norm": 0.7374138832092285,
      "learning_rate": 0.0001839614208645856,
      "loss": 3.7519,
      "step": 206250
    },
    {
      "epoch": 0.42970833333333336,
      "grad_norm": 0.8046454191207886,
      "learning_rate": 0.00018395181824173575,
      "loss": 4.0451,
      "step": 206260
    },
    {
      "epoch": 0.42972916666666666,
      "grad_norm": 0.7398189902305603,
      "learning_rate": 0.00018394221547222753,
      "loss": 3.8587,
      "step": 206270
    },
    {
      "epoch": 0.42975,
      "grad_norm": 0.9621027112007141,
      "learning_rate": 0.0001839326125561023,
      "loss": 3.9389,
      "step": 206280
    },
    {
      "epoch": 0.4297708333333333,
      "grad_norm": 0.8169060945510864,
      "learning_rate": 0.00018392300949340162,
      "loss": 3.9541,
      "step": 206290
    },
    {
      "epoch": 0.4297916666666667,
      "grad_norm": 0.7229405641555786,
      "learning_rate": 0.00018391340628416705,
      "loss": 3.9626,
      "step": 206300
    },
    {
      "epoch": 0.4298125,
      "grad_norm": 0.6938542127609253,
      "learning_rate": 0.00018390380292843993,
      "loss": 3.6108,
      "step": 206310
    },
    {
      "epoch": 0.42983333333333335,
      "grad_norm": 1.0210577249526978,
      "learning_rate": 0.00018389419942626178,
      "loss": 3.792,
      "step": 206320
    },
    {
      "epoch": 0.42985416666666665,
      "grad_norm": 0.800136387348175,
      "learning_rate": 0.00018388459577767415,
      "loss": 3.9303,
      "step": 206330
    },
    {
      "epoch": 0.429875,
      "grad_norm": 0.8367266058921814,
      "learning_rate": 0.00018387499198271846,
      "loss": 3.8751,
      "step": 206340
    },
    {
      "epoch": 0.4298958333333333,
      "grad_norm": 0.8279484510421753,
      "learning_rate": 0.0001838653880414362,
      "loss": 3.887,
      "step": 206350
    },
    {
      "epoch": 0.42991666666666667,
      "grad_norm": 0.896356463432312,
      "learning_rate": 0.00018385578395386888,
      "loss": 3.6928,
      "step": 206360
    },
    {
      "epoch": 0.4299375,
      "grad_norm": 0.785905659198761,
      "learning_rate": 0.00018384617972005797,
      "loss": 3.7742,
      "step": 206370
    },
    {
      "epoch": 0.42995833333333333,
      "grad_norm": 0.8018097281455994,
      "learning_rate": 0.00018383657534004497,
      "loss": 3.839,
      "step": 206380
    },
    {
      "epoch": 0.4299791666666667,
      "grad_norm": 0.6482791304588318,
      "learning_rate": 0.00018382697081387135,
      "loss": 3.5746,
      "step": 206390
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9160952568054199,
      "learning_rate": 0.00018381736614157858,
      "loss": 3.9146,
      "step": 206400
    },
    {
      "epoch": 0.43002083333333335,
      "grad_norm": 0.775667130947113,
      "learning_rate": 0.00018380776132320822,
      "loss": 3.8991,
      "step": 206410
    },
    {
      "epoch": 0.43004166666666666,
      "grad_norm": 0.9641433954238892,
      "learning_rate": 0.00018379815635880168,
      "loss": 3.7489,
      "step": 206420
    },
    {
      "epoch": 0.4300625,
      "grad_norm": 0.7539523839950562,
      "learning_rate": 0.00018378855124840052,
      "loss": 3.7591,
      "step": 206430
    },
    {
      "epoch": 0.4300833333333333,
      "grad_norm": 0.7237296104431152,
      "learning_rate": 0.0001837789459920462,
      "loss": 3.9442,
      "step": 206440
    },
    {
      "epoch": 0.4301041666666667,
      "grad_norm": 0.7621439695358276,
      "learning_rate": 0.00018376934058978014,
      "loss": 3.8546,
      "step": 206450
    },
    {
      "epoch": 0.430125,
      "grad_norm": 0.857535183429718,
      "learning_rate": 0.00018375973504164395,
      "loss": 3.6996,
      "step": 206460
    },
    {
      "epoch": 0.43014583333333334,
      "grad_norm": 0.8976488709449768,
      "learning_rate": 0.00018375012934767907,
      "loss": 3.7652,
      "step": 206470
    },
    {
      "epoch": 0.43016666666666664,
      "grad_norm": 0.8193817138671875,
      "learning_rate": 0.00018374052350792695,
      "loss": 3.9162,
      "step": 206480
    },
    {
      "epoch": 0.4301875,
      "grad_norm": 0.7082227468490601,
      "learning_rate": 0.00018373091752242916,
      "loss": 3.9627,
      "step": 206490
    },
    {
      "epoch": 0.43020833333333336,
      "grad_norm": 0.7908051013946533,
      "learning_rate": 0.00018372131139122715,
      "loss": 3.6211,
      "step": 206500
    },
    {
      "epoch": 0.43022916666666666,
      "grad_norm": 0.8223373293876648,
      "learning_rate": 0.0001837117051143624,
      "loss": 3.7812,
      "step": 206510
    },
    {
      "epoch": 0.43025,
      "grad_norm": 0.7809675335884094,
      "learning_rate": 0.00018370209869187645,
      "loss": 3.9125,
      "step": 206520
    },
    {
      "epoch": 0.4302708333333333,
      "grad_norm": 0.8596075773239136,
      "learning_rate": 0.00018369249212381075,
      "loss": 3.8536,
      "step": 206530
    },
    {
      "epoch": 0.4302916666666667,
      "grad_norm": 0.8193033337593079,
      "learning_rate": 0.00018368288541020683,
      "loss": 3.7073,
      "step": 206540
    },
    {
      "epoch": 0.4303125,
      "grad_norm": 0.7216776609420776,
      "learning_rate": 0.0001836732785511062,
      "loss": 3.6629,
      "step": 206550
    },
    {
      "epoch": 0.43033333333333335,
      "grad_norm": 0.7575981616973877,
      "learning_rate": 0.00018366367154655034,
      "loss": 3.7886,
      "step": 206560
    },
    {
      "epoch": 0.43035416666666665,
      "grad_norm": 0.9197195768356323,
      "learning_rate": 0.0001836540643965807,
      "loss": 3.8054,
      "step": 206570
    },
    {
      "epoch": 0.430375,
      "grad_norm": 0.8511732816696167,
      "learning_rate": 0.00018364445710123884,
      "loss": 4.1702,
      "step": 206580
    },
    {
      "epoch": 0.4303958333333333,
      "grad_norm": 0.9376140832901001,
      "learning_rate": 0.00018363484966056625,
      "loss": 3.7618,
      "step": 206590
    },
    {
      "epoch": 0.43041666666666667,
      "grad_norm": 0.7879073619842529,
      "learning_rate": 0.0001836252420746044,
      "loss": 3.7007,
      "step": 206600
    },
    {
      "epoch": 0.4304375,
      "grad_norm": 0.7198535203933716,
      "learning_rate": 0.00018361563434339485,
      "loss": 3.8982,
      "step": 206610
    },
    {
      "epoch": 0.43045833333333333,
      "grad_norm": 0.8498836159706116,
      "learning_rate": 0.00018360602646697906,
      "loss": 3.6758,
      "step": 206620
    },
    {
      "epoch": 0.4304791666666667,
      "grad_norm": 0.7522179484367371,
      "learning_rate": 0.0001835964184453985,
      "loss": 3.9899,
      "step": 206630
    },
    {
      "epoch": 0.4305,
      "grad_norm": 0.7687954306602478,
      "learning_rate": 0.0001835868102786948,
      "loss": 3.7524,
      "step": 206640
    },
    {
      "epoch": 0.43052083333333335,
      "grad_norm": 0.7963894605636597,
      "learning_rate": 0.00018357720196690927,
      "loss": 3.6557,
      "step": 206650
    },
    {
      "epoch": 0.43054166666666666,
      "grad_norm": 0.9040944576263428,
      "learning_rate": 0.00018356759351008362,
      "loss": 3.7804,
      "step": 206660
    },
    {
      "epoch": 0.4305625,
      "grad_norm": 0.7550665736198425,
      "learning_rate": 0.0001835579849082592,
      "loss": 3.7622,
      "step": 206670
    },
    {
      "epoch": 0.4305833333333333,
      "grad_norm": 0.8315896987915039,
      "learning_rate": 0.0001835483761614775,
      "loss": 3.8618,
      "step": 206680
    },
    {
      "epoch": 0.4306041666666667,
      "grad_norm": 0.9155840277671814,
      "learning_rate": 0.00018353876726978017,
      "loss": 3.7829,
      "step": 206690
    },
    {
      "epoch": 0.430625,
      "grad_norm": 0.7279244661331177,
      "learning_rate": 0.00018352915823320864,
      "loss": 3.7739,
      "step": 206700
    },
    {
      "epoch": 0.43064583333333334,
      "grad_norm": 0.7530396580696106,
      "learning_rate": 0.00018351954905180442,
      "loss": 3.9233,
      "step": 206710
    },
    {
      "epoch": 0.43066666666666664,
      "grad_norm": 0.7441376447677612,
      "learning_rate": 0.000183509939725609,
      "loss": 3.9572,
      "step": 206720
    },
    {
      "epoch": 0.4306875,
      "grad_norm": 0.7243021726608276,
      "learning_rate": 0.0001835003302546639,
      "loss": 3.8563,
      "step": 206730
    },
    {
      "epoch": 0.43070833333333336,
      "grad_norm": 0.8614996075630188,
      "learning_rate": 0.00018349072063901062,
      "loss": 3.8208,
      "step": 206740
    },
    {
      "epoch": 0.43072916666666666,
      "grad_norm": 0.7522733211517334,
      "learning_rate": 0.00018348111087869074,
      "loss": 3.6675,
      "step": 206750
    },
    {
      "epoch": 0.43075,
      "grad_norm": 0.9297455549240112,
      "learning_rate": 0.00018347150097374566,
      "loss": 4.0591,
      "step": 206760
    },
    {
      "epoch": 0.4307708333333333,
      "grad_norm": 0.8553590774536133,
      "learning_rate": 0.00018346189092421697,
      "loss": 3.8023,
      "step": 206770
    },
    {
      "epoch": 0.4307916666666667,
      "grad_norm": 0.7999243140220642,
      "learning_rate": 0.00018345228073014615,
      "loss": 3.9453,
      "step": 206780
    },
    {
      "epoch": 0.4308125,
      "grad_norm": 0.8690823912620544,
      "learning_rate": 0.0001834426703915747,
      "loss": 3.707,
      "step": 206790
    },
    {
      "epoch": 0.43083333333333335,
      "grad_norm": 0.9157531261444092,
      "learning_rate": 0.0001834330599085442,
      "loss": 3.7403,
      "step": 206800
    },
    {
      "epoch": 0.43085416666666665,
      "grad_norm": 0.7729436755180359,
      "learning_rate": 0.0001834234492810961,
      "loss": 3.8002,
      "step": 206810
    },
    {
      "epoch": 0.430875,
      "grad_norm": 0.8123563528060913,
      "learning_rate": 0.00018341383850927186,
      "loss": 3.9344,
      "step": 206820
    },
    {
      "epoch": 0.4308958333333333,
      "grad_norm": 0.9864732027053833,
      "learning_rate": 0.00018340422759311316,
      "loss": 3.8024,
      "step": 206830
    },
    {
      "epoch": 0.43091666666666667,
      "grad_norm": 0.8532047271728516,
      "learning_rate": 0.00018339461653266138,
      "loss": 3.9271,
      "step": 206840
    },
    {
      "epoch": 0.4309375,
      "grad_norm": 0.7690160870552063,
      "learning_rate": 0.00018338500532795804,
      "loss": 3.8811,
      "step": 206850
    },
    {
      "epoch": 0.43095833333333333,
      "grad_norm": 0.7794817090034485,
      "learning_rate": 0.00018337539397904475,
      "loss": 3.8166,
      "step": 206860
    },
    {
      "epoch": 0.4309791666666667,
      "grad_norm": 1.057051658630371,
      "learning_rate": 0.00018336578248596296,
      "loss": 3.8154,
      "step": 206870
    },
    {
      "epoch": 0.431,
      "grad_norm": 0.7434570789337158,
      "learning_rate": 0.00018335617084875417,
      "loss": 3.7825,
      "step": 206880
    },
    {
      "epoch": 0.43102083333333335,
      "grad_norm": 0.8900854587554932,
      "learning_rate": 0.00018334655906745995,
      "loss": 3.7729,
      "step": 206890
    },
    {
      "epoch": 0.43104166666666666,
      "grad_norm": 0.9012640714645386,
      "learning_rate": 0.00018333694714212174,
      "loss": 3.9384,
      "step": 206900
    },
    {
      "epoch": 0.4310625,
      "grad_norm": 0.7531497478485107,
      "learning_rate": 0.00018332733507278118,
      "loss": 3.7971,
      "step": 206910
    },
    {
      "epoch": 0.4310833333333333,
      "grad_norm": 1.144641637802124,
      "learning_rate": 0.0001833177228594797,
      "loss": 3.6705,
      "step": 206920
    },
    {
      "epoch": 0.4311041666666667,
      "grad_norm": 0.8579440116882324,
      "learning_rate": 0.00018330811050225885,
      "loss": 3.9902,
      "step": 206930
    },
    {
      "epoch": 0.431125,
      "grad_norm": 1.0953242778778076,
      "learning_rate": 0.00018329849800116015,
      "loss": 3.841,
      "step": 206940
    },
    {
      "epoch": 0.43114583333333334,
      "grad_norm": 0.9625450372695923,
      "learning_rate": 0.00018328888535622506,
      "loss": 4.0487,
      "step": 206950
    },
    {
      "epoch": 0.43116666666666664,
      "grad_norm": 0.820186197757721,
      "learning_rate": 0.00018327927256749522,
      "loss": 3.8175,
      "step": 206960
    },
    {
      "epoch": 0.4311875,
      "grad_norm": 0.7987155318260193,
      "learning_rate": 0.00018326965963501212,
      "loss": 3.7777,
      "step": 206970
    },
    {
      "epoch": 0.43120833333333336,
      "grad_norm": 0.7517746090888977,
      "learning_rate": 0.0001832600465588172,
      "loss": 3.8363,
      "step": 206980
    },
    {
      "epoch": 0.43122916666666666,
      "grad_norm": 0.7787301540374756,
      "learning_rate": 0.00018325043333895205,
      "loss": 3.7265,
      "step": 206990
    },
    {
      "epoch": 0.43125,
      "grad_norm": 0.8794935345649719,
      "learning_rate": 0.00018324081997545826,
      "loss": 3.9142,
      "step": 207000
    },
    {
      "epoch": 0.43125,
      "eval_loss": 4.185522556304932,
      "eval_runtime": 8.3704,
      "eval_samples_per_second": 1.195,
      "eval_steps_per_second": 0.358,
      "step": 207000
    },
    {
      "epoch": 0.4312708333333333,
      "grad_norm": 0.82520592212677,
      "learning_rate": 0.00018323120646837723,
      "loss": 3.8657,
      "step": 207010
    },
    {
      "epoch": 0.4312916666666667,
      "grad_norm": 0.7424102425575256,
      "learning_rate": 0.0001832215928177505,
      "loss": 3.7658,
      "step": 207020
    },
    {
      "epoch": 0.4313125,
      "grad_norm": 0.7998181581497192,
      "learning_rate": 0.0001832119790236197,
      "loss": 3.8533,
      "step": 207030
    },
    {
      "epoch": 0.43133333333333335,
      "grad_norm": 0.8534506559371948,
      "learning_rate": 0.00018320236508602628,
      "loss": 3.7717,
      "step": 207040
    },
    {
      "epoch": 0.43135416666666665,
      "grad_norm": 0.7832796573638916,
      "learning_rate": 0.00018319275100501178,
      "loss": 3.9075,
      "step": 207050
    },
    {
      "epoch": 0.431375,
      "grad_norm": 0.7600787878036499,
      "learning_rate": 0.00018318313678061777,
      "loss": 3.8563,
      "step": 207060
    },
    {
      "epoch": 0.4313958333333333,
      "grad_norm": 0.743025541305542,
      "learning_rate": 0.0001831735224128857,
      "loss": 3.8008,
      "step": 207070
    },
    {
      "epoch": 0.43141666666666667,
      "grad_norm": 0.7583100199699402,
      "learning_rate": 0.00018316390790185718,
      "loss": 3.8786,
      "step": 207080
    },
    {
      "epoch": 0.4314375,
      "grad_norm": 0.9088884592056274,
      "learning_rate": 0.00018315429324757367,
      "loss": 3.6377,
      "step": 207090
    },
    {
      "epoch": 0.43145833333333333,
      "grad_norm": 0.7866679430007935,
      "learning_rate": 0.00018314467845007674,
      "loss": 3.9186,
      "step": 207100
    },
    {
      "epoch": 0.4314791666666667,
      "grad_norm": 0.8780816793441772,
      "learning_rate": 0.00018313506350940792,
      "loss": 3.8369,
      "step": 207110
    },
    {
      "epoch": 0.4315,
      "grad_norm": 0.762877881526947,
      "learning_rate": 0.00018312544842560879,
      "loss": 3.8152,
      "step": 207120
    },
    {
      "epoch": 0.43152083333333335,
      "grad_norm": 0.9932261109352112,
      "learning_rate": 0.0001831158331987208,
      "loss": 3.8211,
      "step": 207130
    },
    {
      "epoch": 0.43154166666666666,
      "grad_norm": 0.8469245433807373,
      "learning_rate": 0.00018310621782878552,
      "loss": 3.8955,
      "step": 207140
    },
    {
      "epoch": 0.4315625,
      "grad_norm": 0.8083776831626892,
      "learning_rate": 0.00018309660231584444,
      "loss": 3.8491,
      "step": 207150
    },
    {
      "epoch": 0.4315833333333333,
      "grad_norm": 0.7998141646385193,
      "learning_rate": 0.0001830869866599392,
      "loss": 3.7549,
      "step": 207160
    },
    {
      "epoch": 0.4316041666666667,
      "grad_norm": 0.819893479347229,
      "learning_rate": 0.00018307737086111127,
      "loss": 3.7578,
      "step": 207170
    },
    {
      "epoch": 0.431625,
      "grad_norm": 0.854897141456604,
      "learning_rate": 0.00018306775491940216,
      "loss": 3.8407,
      "step": 207180
    },
    {
      "epoch": 0.43164583333333334,
      "grad_norm": 0.6897852420806885,
      "learning_rate": 0.0001830581388348534,
      "loss": 3.7946,
      "step": 207190
    },
    {
      "epoch": 0.43166666666666664,
      "grad_norm": 0.7938188314437866,
      "learning_rate": 0.00018304852260750667,
      "loss": 3.7777,
      "step": 207200
    },
    {
      "epoch": 0.4316875,
      "grad_norm": 0.9218350052833557,
      "learning_rate": 0.00018303890623740335,
      "loss": 3.8077,
      "step": 207210
    },
    {
      "epoch": 0.43170833333333336,
      "grad_norm": 0.7944429516792297,
      "learning_rate": 0.000183029289724585,
      "loss": 3.8102,
      "step": 207220
    },
    {
      "epoch": 0.43172916666666666,
      "grad_norm": 0.7374851703643799,
      "learning_rate": 0.00018301967306909322,
      "loss": 3.9697,
      "step": 207230
    },
    {
      "epoch": 0.43175,
      "grad_norm": 0.8995527625083923,
      "learning_rate": 0.00018301005627096957,
      "loss": 3.5761,
      "step": 207240
    },
    {
      "epoch": 0.4317708333333333,
      "grad_norm": 0.8441669940948486,
      "learning_rate": 0.0001830004393302555,
      "loss": 3.7172,
      "step": 207250
    },
    {
      "epoch": 0.4317916666666667,
      "grad_norm": 0.782701849937439,
      "learning_rate": 0.00018299082224699256,
      "loss": 3.771,
      "step": 207260
    },
    {
      "epoch": 0.4318125,
      "grad_norm": 0.8283251523971558,
      "learning_rate": 0.00018298120502122236,
      "loss": 3.7747,
      "step": 207270
    },
    {
      "epoch": 0.43183333333333335,
      "grad_norm": 0.796387255191803,
      "learning_rate": 0.00018297158765298642,
      "loss": 3.9277,
      "step": 207280
    },
    {
      "epoch": 0.43185416666666665,
      "grad_norm": 0.8309842348098755,
      "learning_rate": 0.00018296197014232627,
      "loss": 3.8266,
      "step": 207290
    },
    {
      "epoch": 0.431875,
      "grad_norm": 0.8083744049072266,
      "learning_rate": 0.00018295235248928343,
      "loss": 3.8127,
      "step": 207300
    },
    {
      "epoch": 0.4318958333333333,
      "grad_norm": 0.8594186305999756,
      "learning_rate": 0.0001829427346938995,
      "loss": 3.8652,
      "step": 207310
    },
    {
      "epoch": 0.43191666666666667,
      "grad_norm": 0.7486647963523865,
      "learning_rate": 0.00018293311675621597,
      "loss": 3.8047,
      "step": 207320
    },
    {
      "epoch": 0.4319375,
      "grad_norm": 0.9366651177406311,
      "learning_rate": 0.00018292349867627444,
      "loss": 4.035,
      "step": 207330
    },
    {
      "epoch": 0.43195833333333333,
      "grad_norm": 0.8502764105796814,
      "learning_rate": 0.00018291388045411642,
      "loss": 3.9097,
      "step": 207340
    },
    {
      "epoch": 0.4319791666666667,
      "grad_norm": 0.77420973777771,
      "learning_rate": 0.00018290426208978345,
      "loss": 3.8612,
      "step": 207350
    },
    {
      "epoch": 0.432,
      "grad_norm": 0.8187873363494873,
      "learning_rate": 0.00018289464358331708,
      "loss": 3.9456,
      "step": 207360
    },
    {
      "epoch": 0.43202083333333335,
      "grad_norm": 0.8250513672828674,
      "learning_rate": 0.0001828850249347589,
      "loss": 3.8011,
      "step": 207370
    },
    {
      "epoch": 0.43204166666666666,
      "grad_norm": 0.8576856255531311,
      "learning_rate": 0.00018287540614415044,
      "loss": 3.8473,
      "step": 207380
    },
    {
      "epoch": 0.4320625,
      "grad_norm": 0.9771116971969604,
      "learning_rate": 0.00018286578721153323,
      "loss": 3.762,
      "step": 207390
    },
    {
      "epoch": 0.4320833333333333,
      "grad_norm": 0.8253902196884155,
      "learning_rate": 0.00018285616813694882,
      "loss": 3.8216,
      "step": 207400
    },
    {
      "epoch": 0.4321041666666667,
      "grad_norm": 0.7795158624649048,
      "learning_rate": 0.00018284654892043877,
      "loss": 3.987,
      "step": 207410
    },
    {
      "epoch": 0.432125,
      "grad_norm": 0.8849601149559021,
      "learning_rate": 0.0001828369295620446,
      "loss": 3.9051,
      "step": 207420
    },
    {
      "epoch": 0.43214583333333334,
      "grad_norm": 1.0591092109680176,
      "learning_rate": 0.00018282731006180795,
      "loss": 3.8453,
      "step": 207430
    },
    {
      "epoch": 0.43216666666666664,
      "grad_norm": 0.7880326509475708,
      "learning_rate": 0.00018281769041977026,
      "loss": 3.7553,
      "step": 207440
    },
    {
      "epoch": 0.4321875,
      "grad_norm": 0.6823621988296509,
      "learning_rate": 0.00018280807063597316,
      "loss": 3.7262,
      "step": 207450
    },
    {
      "epoch": 0.43220833333333336,
      "grad_norm": 0.9762961268424988,
      "learning_rate": 0.00018279845071045818,
      "loss": 3.7405,
      "step": 207460
    },
    {
      "epoch": 0.43222916666666666,
      "grad_norm": 0.7198057770729065,
      "learning_rate": 0.0001827888306432669,
      "loss": 3.8746,
      "step": 207470
    },
    {
      "epoch": 0.43225,
      "grad_norm": 0.7086723446846008,
      "learning_rate": 0.0001827792104344408,
      "loss": 3.7933,
      "step": 207480
    },
    {
      "epoch": 0.4322708333333333,
      "grad_norm": 0.7627623081207275,
      "learning_rate": 0.00018276959008402152,
      "loss": 3.8467,
      "step": 207490
    },
    {
      "epoch": 0.4322916666666667,
      "grad_norm": 0.7122981548309326,
      "learning_rate": 0.00018275996959205059,
      "loss": 3.826,
      "step": 207500
    },
    {
      "epoch": 0.4323125,
      "grad_norm": 0.817501425743103,
      "learning_rate": 0.00018275034895856956,
      "loss": 3.7583,
      "step": 207510
    },
    {
      "epoch": 0.43233333333333335,
      "grad_norm": 0.8994112014770508,
      "learning_rate": 0.00018274072818361993,
      "loss": 3.8016,
      "step": 207520
    },
    {
      "epoch": 0.43235416666666665,
      "grad_norm": 1.0551892518997192,
      "learning_rate": 0.0001827311072672434,
      "loss": 3.8564,
      "step": 207530
    },
    {
      "epoch": 0.432375,
      "grad_norm": 0.7899003028869629,
      "learning_rate": 0.0001827214862094814,
      "loss": 3.8598,
      "step": 207540
    },
    {
      "epoch": 0.4323958333333333,
      "grad_norm": 0.8202320337295532,
      "learning_rate": 0.00018271186501037548,
      "loss": 3.846,
      "step": 207550
    },
    {
      "epoch": 0.43241666666666667,
      "grad_norm": 0.8056160807609558,
      "learning_rate": 0.00018270224366996734,
      "loss": 3.8942,
      "step": 207560
    },
    {
      "epoch": 0.4324375,
      "grad_norm": 0.8055658936500549,
      "learning_rate": 0.00018269262218829842,
      "loss": 4.0188,
      "step": 207570
    },
    {
      "epoch": 0.43245833333333333,
      "grad_norm": 0.801734983921051,
      "learning_rate": 0.0001826830005654103,
      "loss": 3.774,
      "step": 207580
    },
    {
      "epoch": 0.4324791666666667,
      "grad_norm": 0.7480078935623169,
      "learning_rate": 0.00018267337880134457,
      "loss": 3.6819,
      "step": 207590
    },
    {
      "epoch": 0.4325,
      "grad_norm": 0.7609944939613342,
      "learning_rate": 0.00018266375689614272,
      "loss": 3.9219,
      "step": 207600
    },
    {
      "epoch": 0.43252083333333335,
      "grad_norm": 0.8218675851821899,
      "learning_rate": 0.00018265413484984643,
      "loss": 3.9136,
      "step": 207610
    },
    {
      "epoch": 0.43254166666666666,
      "grad_norm": 0.9583386182785034,
      "learning_rate": 0.0001826445126624972,
      "loss": 3.7125,
      "step": 207620
    },
    {
      "epoch": 0.4325625,
      "grad_norm": 0.8305111527442932,
      "learning_rate": 0.00018263489033413656,
      "loss": 3.7962,
      "step": 207630
    },
    {
      "epoch": 0.4325833333333333,
      "grad_norm": 0.7413859963417053,
      "learning_rate": 0.00018262526786480616,
      "loss": 4.0241,
      "step": 207640
    },
    {
      "epoch": 0.4326041666666667,
      "grad_norm": 0.7767468690872192,
      "learning_rate": 0.00018261564525454748,
      "loss": 3.5896,
      "step": 207650
    },
    {
      "epoch": 0.432625,
      "grad_norm": 0.8085338473320007,
      "learning_rate": 0.00018260602250340214,
      "loss": 3.7709,
      "step": 207660
    },
    {
      "epoch": 0.43264583333333334,
      "grad_norm": 1.0053980350494385,
      "learning_rate": 0.00018259639961141168,
      "loss": 3.7879,
      "step": 207670
    },
    {
      "epoch": 0.43266666666666664,
      "grad_norm": 0.8515087962150574,
      "learning_rate": 0.0001825867765786177,
      "loss": 3.8207,
      "step": 207680
    },
    {
      "epoch": 0.4326875,
      "grad_norm": 0.7791982293128967,
      "learning_rate": 0.0001825771534050617,
      "loss": 3.8627,
      "step": 207690
    },
    {
      "epoch": 0.4327083333333333,
      "grad_norm": 0.8299640417098999,
      "learning_rate": 0.00018256753009078533,
      "loss": 3.8406,
      "step": 207700
    },
    {
      "epoch": 0.43272916666666666,
      "grad_norm": 0.9890199303627014,
      "learning_rate": 0.00018255790663583013,
      "loss": 3.7888,
      "step": 207710
    },
    {
      "epoch": 0.43275,
      "grad_norm": 0.7550107836723328,
      "learning_rate": 0.00018254828304023758,
      "loss": 3.9279,
      "step": 207720
    },
    {
      "epoch": 0.4327708333333333,
      "grad_norm": 0.9651886820793152,
      "learning_rate": 0.00018253865930404944,
      "loss": 3.8856,
      "step": 207730
    },
    {
      "epoch": 0.4327916666666667,
      "grad_norm": 0.7187902331352234,
      "learning_rate": 0.00018252903542730712,
      "loss": 3.7802,
      "step": 207740
    },
    {
      "epoch": 0.4328125,
      "grad_norm": 0.6594244837760925,
      "learning_rate": 0.00018251941141005223,
      "loss": 3.8436,
      "step": 207750
    },
    {
      "epoch": 0.43283333333333335,
      "grad_norm": 0.7630617022514343,
      "learning_rate": 0.0001825097872523264,
      "loss": 3.693,
      "step": 207760
    },
    {
      "epoch": 0.43285416666666665,
      "grad_norm": 0.751835823059082,
      "learning_rate": 0.0001825001629541711,
      "loss": 3.662,
      "step": 207770
    },
    {
      "epoch": 0.432875,
      "grad_norm": 0.7197529077529907,
      "learning_rate": 0.000182490538515628,
      "loss": 3.7089,
      "step": 207780
    },
    {
      "epoch": 0.4328958333333333,
      "grad_norm": 0.7376833558082581,
      "learning_rate": 0.0001824809139367386,
      "loss": 3.841,
      "step": 207790
    },
    {
      "epoch": 0.43291666666666667,
      "grad_norm": 0.8559402227401733,
      "learning_rate": 0.00018247128921754452,
      "loss": 3.6981,
      "step": 207800
    },
    {
      "epoch": 0.4329375,
      "grad_norm": 0.7167046666145325,
      "learning_rate": 0.00018246166435808737,
      "loss": 3.9464,
      "step": 207810
    },
    {
      "epoch": 0.43295833333333333,
      "grad_norm": 0.9893655776977539,
      "learning_rate": 0.00018245203935840862,
      "loss": 3.98,
      "step": 207820
    },
    {
      "epoch": 0.4329791666666667,
      "grad_norm": 0.9883699417114258,
      "learning_rate": 0.00018244241421854992,
      "loss": 3.6313,
      "step": 207830
    },
    {
      "epoch": 0.433,
      "grad_norm": 0.8015648126602173,
      "learning_rate": 0.00018243278893855286,
      "loss": 3.6507,
      "step": 207840
    },
    {
      "epoch": 0.43302083333333335,
      "grad_norm": 0.7882227301597595,
      "learning_rate": 0.00018242316351845894,
      "loss": 3.7232,
      "step": 207850
    },
    {
      "epoch": 0.43304166666666666,
      "grad_norm": 0.8424578309059143,
      "learning_rate": 0.00018241353795830982,
      "loss": 3.8582,
      "step": 207860
    },
    {
      "epoch": 0.4330625,
      "grad_norm": 1.061166763305664,
      "learning_rate": 0.00018240391225814704,
      "loss": 3.8424,
      "step": 207870
    },
    {
      "epoch": 0.4330833333333333,
      "grad_norm": 0.7493866682052612,
      "learning_rate": 0.00018239428641801222,
      "loss": 4.0157,
      "step": 207880
    },
    {
      "epoch": 0.4331041666666667,
      "grad_norm": 0.7303786277770996,
      "learning_rate": 0.00018238466043794685,
      "loss": 3.7143,
      "step": 207890
    },
    {
      "epoch": 0.433125,
      "grad_norm": 0.8751944899559021,
      "learning_rate": 0.0001823750343179926,
      "loss": 3.8841,
      "step": 207900
    },
    {
      "epoch": 0.43314583333333334,
      "grad_norm": 0.8335487246513367,
      "learning_rate": 0.00018236540805819103,
      "loss": 4.0186,
      "step": 207910
    },
    {
      "epoch": 0.43316666666666664,
      "grad_norm": 0.7729525566101074,
      "learning_rate": 0.00018235578165858366,
      "loss": 3.8497,
      "step": 207920
    },
    {
      "epoch": 0.4331875,
      "grad_norm": 0.7446258068084717,
      "learning_rate": 0.00018234615511921213,
      "loss": 3.9215,
      "step": 207930
    },
    {
      "epoch": 0.4332083333333333,
      "grad_norm": 0.7540627121925354,
      "learning_rate": 0.00018233652844011806,
      "loss": 3.7197,
      "step": 207940
    },
    {
      "epoch": 0.43322916666666667,
      "grad_norm": 0.8304574489593506,
      "learning_rate": 0.00018232690162134295,
      "loss": 3.9061,
      "step": 207950
    },
    {
      "epoch": 0.43325,
      "grad_norm": 0.859424352645874,
      "learning_rate": 0.0001823172746629284,
      "loss": 3.963,
      "step": 207960
    },
    {
      "epoch": 0.4332708333333333,
      "grad_norm": 0.7345826029777527,
      "learning_rate": 0.00018230764756491607,
      "loss": 3.8397,
      "step": 207970
    },
    {
      "epoch": 0.4332916666666667,
      "grad_norm": 0.771390438079834,
      "learning_rate": 0.00018229802032734745,
      "loss": 3.8929,
      "step": 207980
    },
    {
      "epoch": 0.4333125,
      "grad_norm": 0.7714633345603943,
      "learning_rate": 0.00018228839295026417,
      "loss": 3.8758,
      "step": 207990
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 0.6950007081031799,
      "learning_rate": 0.00018227876543370784,
      "loss": 3.7889,
      "step": 208000
    },
    {
      "epoch": 0.43333333333333335,
      "eval_loss": 4.170814514160156,
      "eval_runtime": 8.0367,
      "eval_samples_per_second": 1.244,
      "eval_steps_per_second": 0.373,
      "step": 208000
    },
    {
      "epoch": 0.43335416666666665,
      "grad_norm": 0.7274959683418274,
      "learning_rate": 0.00018226913777772002,
      "loss": 3.9681,
      "step": 208010
    },
    {
      "epoch": 0.433375,
      "grad_norm": 0.9508122205734253,
      "learning_rate": 0.00018225950998234224,
      "loss": 3.6953,
      "step": 208020
    },
    {
      "epoch": 0.4333958333333333,
      "grad_norm": 0.8272225856781006,
      "learning_rate": 0.0001822498820476162,
      "loss": 3.724,
      "step": 208030
    },
    {
      "epoch": 0.4334166666666667,
      "grad_norm": 0.8461803197860718,
      "learning_rate": 0.00018224025397358342,
      "loss": 3.895,
      "step": 208040
    },
    {
      "epoch": 0.4334375,
      "grad_norm": 0.8123310208320618,
      "learning_rate": 0.0001822306257602855,
      "loss": 3.8536,
      "step": 208050
    },
    {
      "epoch": 0.43345833333333333,
      "grad_norm": 0.8979122042655945,
      "learning_rate": 0.00018222099740776402,
      "loss": 3.8043,
      "step": 208060
    },
    {
      "epoch": 0.4334791666666667,
      "grad_norm": 0.8987290859222412,
      "learning_rate": 0.00018221136891606064,
      "loss": 3.9724,
      "step": 208070
    },
    {
      "epoch": 0.4335,
      "grad_norm": 0.8626311421394348,
      "learning_rate": 0.00018220174028521686,
      "loss": 3.8404,
      "step": 208080
    },
    {
      "epoch": 0.43352083333333336,
      "grad_norm": 0.7940520644187927,
      "learning_rate": 0.00018219211151527428,
      "loss": 3.6709,
      "step": 208090
    },
    {
      "epoch": 0.43354166666666666,
      "grad_norm": 0.8633231520652771,
      "learning_rate": 0.0001821824826062746,
      "loss": 3.6292,
      "step": 208100
    },
    {
      "epoch": 0.4335625,
      "grad_norm": 0.7753564715385437,
      "learning_rate": 0.00018217285355825926,
      "loss": 3.9696,
      "step": 208110
    },
    {
      "epoch": 0.4335833333333333,
      "grad_norm": 0.8508853912353516,
      "learning_rate": 0.00018216322437126996,
      "loss": 3.9095,
      "step": 208120
    },
    {
      "epoch": 0.4336041666666667,
      "grad_norm": 0.7684170007705688,
      "learning_rate": 0.00018215359504534826,
      "loss": 3.7855,
      "step": 208130
    },
    {
      "epoch": 0.433625,
      "grad_norm": 0.7563600540161133,
      "learning_rate": 0.00018214396558053573,
      "loss": 3.7955,
      "step": 208140
    },
    {
      "epoch": 0.43364583333333334,
      "grad_norm": 0.8234724402427673,
      "learning_rate": 0.00018213433597687404,
      "loss": 3.8276,
      "step": 208150
    },
    {
      "epoch": 0.43366666666666664,
      "grad_norm": 0.7608926296234131,
      "learning_rate": 0.0001821247062344047,
      "loss": 3.9285,
      "step": 208160
    },
    {
      "epoch": 0.4336875,
      "grad_norm": 0.8238089084625244,
      "learning_rate": 0.00018211507635316934,
      "loss": 3.8375,
      "step": 208170
    },
    {
      "epoch": 0.4337083333333333,
      "grad_norm": 0.8051163554191589,
      "learning_rate": 0.0001821054463332096,
      "loss": 3.8243,
      "step": 208180
    },
    {
      "epoch": 0.43372916666666667,
      "grad_norm": 0.777932345867157,
      "learning_rate": 0.00018209581617456702,
      "loss": 3.8286,
      "step": 208190
    },
    {
      "epoch": 0.43375,
      "grad_norm": 0.8068484663963318,
      "learning_rate": 0.0001820861858772832,
      "loss": 3.8329,
      "step": 208200
    },
    {
      "epoch": 0.4337708333333333,
      "grad_norm": 0.7492770552635193,
      "learning_rate": 0.0001820765554413998,
      "loss": 3.8303,
      "step": 208210
    },
    {
      "epoch": 0.4337916666666667,
      "grad_norm": 0.7292279601097107,
      "learning_rate": 0.00018206692486695832,
      "loss": 3.8702,
      "step": 208220
    },
    {
      "epoch": 0.4338125,
      "grad_norm": 0.8248967528343201,
      "learning_rate": 0.00018205729415400046,
      "loss": 3.8385,
      "step": 208230
    },
    {
      "epoch": 0.43383333333333335,
      "grad_norm": 0.7958106398582458,
      "learning_rate": 0.00018204766330256778,
      "loss": 3.9689,
      "step": 208240
    },
    {
      "epoch": 0.43385416666666665,
      "grad_norm": 0.7573406100273132,
      "learning_rate": 0.00018203803231270187,
      "loss": 3.8217,
      "step": 208250
    },
    {
      "epoch": 0.433875,
      "grad_norm": 0.6914507150650024,
      "learning_rate": 0.00018202840118444435,
      "loss": 3.8873,
      "step": 208260
    },
    {
      "epoch": 0.4338958333333333,
      "grad_norm": 0.8463522791862488,
      "learning_rate": 0.0001820187699178368,
      "loss": 3.9275,
      "step": 208270
    },
    {
      "epoch": 0.4339166666666667,
      "grad_norm": 0.7889243364334106,
      "learning_rate": 0.00018200913851292082,
      "loss": 3.8196,
      "step": 208280
    },
    {
      "epoch": 0.4339375,
      "grad_norm": 0.8893856406211853,
      "learning_rate": 0.00018199950696973804,
      "loss": 3.7536,
      "step": 208290
    },
    {
      "epoch": 0.43395833333333333,
      "grad_norm": 0.9027045369148254,
      "learning_rate": 0.00018198987528833006,
      "loss": 3.7548,
      "step": 208300
    },
    {
      "epoch": 0.4339791666666667,
      "grad_norm": 0.8285607695579529,
      "learning_rate": 0.00018198024346873849,
      "loss": 3.9778,
      "step": 208310
    },
    {
      "epoch": 0.434,
      "grad_norm": 0.8366113901138306,
      "learning_rate": 0.00018197061151100497,
      "loss": 3.8288,
      "step": 208320
    },
    {
      "epoch": 0.43402083333333336,
      "grad_norm": 0.7719199061393738,
      "learning_rate": 0.00018196097941517098,
      "loss": 3.8048,
      "step": 208330
    },
    {
      "epoch": 0.43404166666666666,
      "grad_norm": 0.8233954310417175,
      "learning_rate": 0.00018195134718127827,
      "loss": 3.8417,
      "step": 208340
    },
    {
      "epoch": 0.4340625,
      "grad_norm": 0.7839246988296509,
      "learning_rate": 0.00018194171480936838,
      "loss": 3.755,
      "step": 208350
    },
    {
      "epoch": 0.4340833333333333,
      "grad_norm": 0.7157460451126099,
      "learning_rate": 0.0001819320822994829,
      "loss": 3.9982,
      "step": 208360
    },
    {
      "epoch": 0.4341041666666667,
      "grad_norm": 0.859723687171936,
      "learning_rate": 0.00018192244965166348,
      "loss": 3.8682,
      "step": 208370
    },
    {
      "epoch": 0.434125,
      "grad_norm": 0.9251923561096191,
      "learning_rate": 0.00018191281686595173,
      "loss": 3.8192,
      "step": 208380
    },
    {
      "epoch": 0.43414583333333334,
      "grad_norm": 0.7327032089233398,
      "learning_rate": 0.0001819031839423892,
      "loss": 3.8705,
      "step": 208390
    },
    {
      "epoch": 0.43416666666666665,
      "grad_norm": 0.9486697912216187,
      "learning_rate": 0.00018189355088101756,
      "loss": 3.9135,
      "step": 208400
    },
    {
      "epoch": 0.4341875,
      "grad_norm": 0.8451166749000549,
      "learning_rate": 0.00018188391768187844,
      "loss": 3.7275,
      "step": 208410
    },
    {
      "epoch": 0.4342083333333333,
      "grad_norm": 0.7566480040550232,
      "learning_rate": 0.00018187428434501336,
      "loss": 3.6261,
      "step": 208420
    },
    {
      "epoch": 0.43422916666666667,
      "grad_norm": 0.7847558259963989,
      "learning_rate": 0.00018186465087046406,
      "loss": 3.6691,
      "step": 208430
    },
    {
      "epoch": 0.43425,
      "grad_norm": 0.872482180595398,
      "learning_rate": 0.00018185501725827201,
      "loss": 3.7975,
      "step": 208440
    },
    {
      "epoch": 0.43427083333333333,
      "grad_norm": 0.9098115563392639,
      "learning_rate": 0.00018184538350847894,
      "loss": 3.9137,
      "step": 208450
    },
    {
      "epoch": 0.4342916666666667,
      "grad_norm": 1.265606164932251,
      "learning_rate": 0.00018183574962112639,
      "loss": 4.0414,
      "step": 208460
    },
    {
      "epoch": 0.4343125,
      "grad_norm": 0.7586963772773743,
      "learning_rate": 0.00018182611559625601,
      "loss": 3.9059,
      "step": 208470
    },
    {
      "epoch": 0.43433333333333335,
      "grad_norm": 0.9377641677856445,
      "learning_rate": 0.00018181648143390943,
      "loss": 3.64,
      "step": 208480
    },
    {
      "epoch": 0.43435416666666665,
      "grad_norm": 0.809766411781311,
      "learning_rate": 0.00018180684713412819,
      "loss": 3.7143,
      "step": 208490
    },
    {
      "epoch": 0.434375,
      "grad_norm": 0.7546241879463196,
      "learning_rate": 0.000181797212696954,
      "loss": 3.8723,
      "step": 208500
    },
    {
      "epoch": 0.4343958333333333,
      "grad_norm": 0.9650313854217529,
      "learning_rate": 0.00018178757812242847,
      "loss": 3.9559,
      "step": 208510
    },
    {
      "epoch": 0.4344166666666667,
      "grad_norm": 1.0003015995025635,
      "learning_rate": 0.0001817779434105931,
      "loss": 3.7454,
      "step": 208520
    },
    {
      "epoch": 0.4344375,
      "grad_norm": 0.7617179155349731,
      "learning_rate": 0.00018176830856148966,
      "loss": 3.7393,
      "step": 208530
    },
    {
      "epoch": 0.43445833333333334,
      "grad_norm": 0.8510213494300842,
      "learning_rate": 0.0001817586735751597,
      "loss": 3.8862,
      "step": 208540
    },
    {
      "epoch": 0.4344791666666667,
      "grad_norm": 0.8035252690315247,
      "learning_rate": 0.00018174903845164482,
      "loss": 3.8478,
      "step": 208550
    },
    {
      "epoch": 0.4345,
      "grad_norm": 0.8793908953666687,
      "learning_rate": 0.00018173940319098664,
      "loss": 3.7136,
      "step": 208560
    },
    {
      "epoch": 0.43452083333333336,
      "grad_norm": 0.8511660099029541,
      "learning_rate": 0.00018172976779322689,
      "loss": 3.7607,
      "step": 208570
    },
    {
      "epoch": 0.43454166666666666,
      "grad_norm": 0.7488276362419128,
      "learning_rate": 0.00018172013225840701,
      "loss": 3.6394,
      "step": 208580
    },
    {
      "epoch": 0.4345625,
      "grad_norm": 0.8447898030281067,
      "learning_rate": 0.00018171049658656873,
      "loss": 3.737,
      "step": 208590
    },
    {
      "epoch": 0.4345833333333333,
      "grad_norm": 0.9057482481002808,
      "learning_rate": 0.0001817008607777537,
      "loss": 3.6993,
      "step": 208600
    },
    {
      "epoch": 0.4346041666666667,
      "grad_norm": 0.7545719146728516,
      "learning_rate": 0.00018169122483200346,
      "loss": 3.8324,
      "step": 208610
    },
    {
      "epoch": 0.434625,
      "grad_norm": 0.9093561172485352,
      "learning_rate": 0.00018168158874935967,
      "loss": 3.8668,
      "step": 208620
    },
    {
      "epoch": 0.43464583333333334,
      "grad_norm": 0.798478901386261,
      "learning_rate": 0.000181671952529864,
      "loss": 3.9525,
      "step": 208630
    },
    {
      "epoch": 0.43466666666666665,
      "grad_norm": 0.8029657602310181,
      "learning_rate": 0.00018166231617355798,
      "loss": 3.8405,
      "step": 208640
    },
    {
      "epoch": 0.4346875,
      "grad_norm": 0.7577787041664124,
      "learning_rate": 0.0001816526796804833,
      "loss": 3.778,
      "step": 208650
    },
    {
      "epoch": 0.4347083333333333,
      "grad_norm": 0.974405825138092,
      "learning_rate": 0.0001816430430506816,
      "loss": 3.887,
      "step": 208660
    },
    {
      "epoch": 0.43472916666666667,
      "grad_norm": 0.901889979839325,
      "learning_rate": 0.00018163340628419444,
      "loss": 3.8616,
      "step": 208670
    },
    {
      "epoch": 0.43475,
      "grad_norm": 0.7190169095993042,
      "learning_rate": 0.0001816237693810635,
      "loss": 3.5249,
      "step": 208680
    },
    {
      "epoch": 0.43477083333333333,
      "grad_norm": 1.4250811338424683,
      "learning_rate": 0.0001816141323413304,
      "loss": 3.8981,
      "step": 208690
    },
    {
      "epoch": 0.4347916666666667,
      "grad_norm": 0.7482745051383972,
      "learning_rate": 0.00018160449516503677,
      "loss": 3.6386,
      "step": 208700
    },
    {
      "epoch": 0.4348125,
      "grad_norm": 0.7708972692489624,
      "learning_rate": 0.00018159485785222424,
      "loss": 3.7921,
      "step": 208710
    },
    {
      "epoch": 0.43483333333333335,
      "grad_norm": 0.8348468542098999,
      "learning_rate": 0.0001815852204029344,
      "loss": 3.7359,
      "step": 208720
    },
    {
      "epoch": 0.43485416666666665,
      "grad_norm": 0.766510009765625,
      "learning_rate": 0.00018157558281720892,
      "loss": 3.7297,
      "step": 208730
    },
    {
      "epoch": 0.434875,
      "grad_norm": 0.8678532838821411,
      "learning_rate": 0.00018156594509508947,
      "loss": 3.6945,
      "step": 208740
    },
    {
      "epoch": 0.4348958333333333,
      "grad_norm": 0.987484872341156,
      "learning_rate": 0.00018155630723661756,
      "loss": 3.7217,
      "step": 208750
    },
    {
      "epoch": 0.4349166666666667,
      "grad_norm": 0.851628303527832,
      "learning_rate": 0.0001815466692418349,
      "loss": 4.0162,
      "step": 208760
    },
    {
      "epoch": 0.4349375,
      "grad_norm": 0.7476059198379517,
      "learning_rate": 0.00018153703111078317,
      "loss": 3.8092,
      "step": 208770
    },
    {
      "epoch": 0.43495833333333334,
      "grad_norm": 0.7883020043373108,
      "learning_rate": 0.00018152739284350391,
      "loss": 3.8479,
      "step": 208780
    },
    {
      "epoch": 0.43497916666666664,
      "grad_norm": 0.7865336537361145,
      "learning_rate": 0.00018151775444003875,
      "loss": 3.9781,
      "step": 208790
    },
    {
      "epoch": 0.435,
      "grad_norm": 0.8991426825523376,
      "learning_rate": 0.00018150811590042946,
      "loss": 3.7166,
      "step": 208800
    },
    {
      "epoch": 0.43502083333333336,
      "grad_norm": 0.8468983769416809,
      "learning_rate": 0.00018149847722471755,
      "loss": 3.7983,
      "step": 208810
    },
    {
      "epoch": 0.43504166666666666,
      "grad_norm": 0.8908661007881165,
      "learning_rate": 0.00018148883841294467,
      "loss": 3.9367,
      "step": 208820
    },
    {
      "epoch": 0.4350625,
      "grad_norm": 0.8477795720100403,
      "learning_rate": 0.00018147919946515247,
      "loss": 3.6947,
      "step": 208830
    },
    {
      "epoch": 0.4350833333333333,
      "grad_norm": 0.7919015884399414,
      "learning_rate": 0.00018146956038138257,
      "loss": 3.6645,
      "step": 208840
    },
    {
      "epoch": 0.4351041666666667,
      "grad_norm": 1.0683948993682861,
      "learning_rate": 0.00018145992116167664,
      "loss": 3.8034,
      "step": 208850
    },
    {
      "epoch": 0.435125,
      "grad_norm": 0.9621480107307434,
      "learning_rate": 0.00018145028180607632,
      "loss": 3.6951,
      "step": 208860
    },
    {
      "epoch": 0.43514583333333334,
      "grad_norm": 0.8473472595214844,
      "learning_rate": 0.00018144064231462325,
      "loss": 3.8238,
      "step": 208870
    },
    {
      "epoch": 0.43516666666666665,
      "grad_norm": 0.6957193613052368,
      "learning_rate": 0.00018143100268735903,
      "loss": 3.8829,
      "step": 208880
    },
    {
      "epoch": 0.4351875,
      "grad_norm": 0.7809086441993713,
      "learning_rate": 0.00018142136292432527,
      "loss": 3.7741,
      "step": 208890
    },
    {
      "epoch": 0.4352083333333333,
      "grad_norm": 0.7445915341377258,
      "learning_rate": 0.0001814117230255637,
      "loss": 3.8277,
      "step": 208900
    },
    {
      "epoch": 0.43522916666666667,
      "grad_norm": 0.7847577333450317,
      "learning_rate": 0.00018140208299111598,
      "loss": 3.6721,
      "step": 208910
    },
    {
      "epoch": 0.43525,
      "grad_norm": 0.7478131651878357,
      "learning_rate": 0.00018139244282102358,
      "loss": 3.682,
      "step": 208920
    },
    {
      "epoch": 0.43527083333333333,
      "grad_norm": 0.7901372313499451,
      "learning_rate": 0.00018138280251532829,
      "loss": 3.7955,
      "step": 208930
    },
    {
      "epoch": 0.4352916666666667,
      "grad_norm": 0.9728734493255615,
      "learning_rate": 0.00018137316207407177,
      "loss": 3.9328,
      "step": 208940
    },
    {
      "epoch": 0.4353125,
      "grad_norm": 0.7794193029403687,
      "learning_rate": 0.0001813635214972956,
      "loss": 3.7489,
      "step": 208950
    },
    {
      "epoch": 0.43533333333333335,
      "grad_norm": 0.7464315295219421,
      "learning_rate": 0.00018135388078504135,
      "loss": 3.8018,
      "step": 208960
    },
    {
      "epoch": 0.43535416666666665,
      "grad_norm": 0.6676692962646484,
      "learning_rate": 0.0001813442399373508,
      "loss": 3.6738,
      "step": 208970
    },
    {
      "epoch": 0.435375,
      "grad_norm": 0.836347222328186,
      "learning_rate": 0.0001813345989542656,
      "loss": 3.7404,
      "step": 208980
    },
    {
      "epoch": 0.4353958333333333,
      "grad_norm": 0.7766205072402954,
      "learning_rate": 0.00018132495783582721,
      "loss": 3.7619,
      "step": 208990
    },
    {
      "epoch": 0.4354166666666667,
      "grad_norm": 0.6495918035507202,
      "learning_rate": 0.00018131531658207748,
      "loss": 3.8422,
      "step": 209000
    },
    {
      "epoch": 0.4354166666666667,
      "eval_loss": 4.1662797927856445,
      "eval_runtime": 8.3849,
      "eval_samples_per_second": 1.193,
      "eval_steps_per_second": 0.358,
      "step": 209000
    },
    {
      "epoch": 0.4354375,
      "grad_norm": 0.769953191280365,
      "learning_rate": 0.00018130567519305797,
      "loss": 3.7383,
      "step": 209010
    },
    {
      "epoch": 0.43545833333333334,
      "grad_norm": 0.9271477460861206,
      "learning_rate": 0.00018129603366881031,
      "loss": 3.7234,
      "step": 209020
    },
    {
      "epoch": 0.43547916666666664,
      "grad_norm": 1.0151878595352173,
      "learning_rate": 0.0001812863920093762,
      "loss": 4.0302,
      "step": 209030
    },
    {
      "epoch": 0.4355,
      "grad_norm": 0.8187085390090942,
      "learning_rate": 0.00018127675021479726,
      "loss": 3.7481,
      "step": 209040
    },
    {
      "epoch": 0.43552083333333336,
      "grad_norm": 0.7418402433395386,
      "learning_rate": 0.00018126710828511513,
      "loss": 3.871,
      "step": 209050
    },
    {
      "epoch": 0.43554166666666666,
      "grad_norm": 1.1640779972076416,
      "learning_rate": 0.00018125746622037146,
      "loss": 3.9585,
      "step": 209060
    },
    {
      "epoch": 0.4355625,
      "grad_norm": 0.8786638379096985,
      "learning_rate": 0.0001812478240206079,
      "loss": 3.7899,
      "step": 209070
    },
    {
      "epoch": 0.4355833333333333,
      "grad_norm": 0.7654379606246948,
      "learning_rate": 0.00018123818168586618,
      "loss": 3.798,
      "step": 209080
    },
    {
      "epoch": 0.4356041666666667,
      "grad_norm": 0.8615878224372864,
      "learning_rate": 0.0001812285392161878,
      "loss": 3.8466,
      "step": 209090
    },
    {
      "epoch": 0.435625,
      "grad_norm": 0.9675484895706177,
      "learning_rate": 0.0001812188966116145,
      "loss": 3.9769,
      "step": 209100
    },
    {
      "epoch": 0.43564583333333334,
      "grad_norm": 0.7667577862739563,
      "learning_rate": 0.00018120925387218797,
      "loss": 3.9515,
      "step": 209110
    },
    {
      "epoch": 0.43566666666666665,
      "grad_norm": 0.7534943222999573,
      "learning_rate": 0.00018119961099794977,
      "loss": 3.9373,
      "step": 209120
    },
    {
      "epoch": 0.4356875,
      "grad_norm": 0.899193525314331,
      "learning_rate": 0.0001811899679889416,
      "loss": 3.6924,
      "step": 209130
    },
    {
      "epoch": 0.4357083333333333,
      "grad_norm": 0.8501291871070862,
      "learning_rate": 0.00018118032484520518,
      "loss": 3.7296,
      "step": 209140
    },
    {
      "epoch": 0.43572916666666667,
      "grad_norm": 0.7494193315505981,
      "learning_rate": 0.00018117068156678202,
      "loss": 3.9227,
      "step": 209150
    },
    {
      "epoch": 0.43575,
      "grad_norm": 0.8709792494773865,
      "learning_rate": 0.0001811610381537139,
      "loss": 3.8994,
      "step": 209160
    },
    {
      "epoch": 0.43577083333333333,
      "grad_norm": 0.7497573494911194,
      "learning_rate": 0.0001811513946060424,
      "loss": 3.8258,
      "step": 209170
    },
    {
      "epoch": 0.4357916666666667,
      "grad_norm": 0.8117873072624207,
      "learning_rate": 0.00018114175092380922,
      "loss": 3.9288,
      "step": 209180
    },
    {
      "epoch": 0.4358125,
      "grad_norm": 0.7636282444000244,
      "learning_rate": 0.00018113210710705603,
      "loss": 3.895,
      "step": 209190
    },
    {
      "epoch": 0.43583333333333335,
      "grad_norm": 0.7997605204582214,
      "learning_rate": 0.00018112246315582443,
      "loss": 3.74,
      "step": 209200
    },
    {
      "epoch": 0.43585416666666665,
      "grad_norm": 0.8351267576217651,
      "learning_rate": 0.0001811128190701561,
      "loss": 3.6693,
      "step": 209210
    },
    {
      "epoch": 0.435875,
      "grad_norm": 0.8384615778923035,
      "learning_rate": 0.00018110317485009271,
      "loss": 3.8983,
      "step": 209220
    },
    {
      "epoch": 0.4358958333333333,
      "grad_norm": 0.9426823258399963,
      "learning_rate": 0.00018109353049567593,
      "loss": 3.6569,
      "step": 209230
    },
    {
      "epoch": 0.4359166666666667,
      "grad_norm": 0.8069962859153748,
      "learning_rate": 0.00018108388600694738,
      "loss": 3.9404,
      "step": 209240
    },
    {
      "epoch": 0.4359375,
      "grad_norm": 0.6922447681427002,
      "learning_rate": 0.0001810742413839488,
      "loss": 3.7524,
      "step": 209250
    },
    {
      "epoch": 0.43595833333333334,
      "grad_norm": 1.0277308225631714,
      "learning_rate": 0.00018106459662672175,
      "loss": 3.8177,
      "step": 209260
    },
    {
      "epoch": 0.43597916666666664,
      "grad_norm": 0.7385871410369873,
      "learning_rate": 0.00018105495173530796,
      "loss": 3.8033,
      "step": 209270
    },
    {
      "epoch": 0.436,
      "grad_norm": 0.7691906690597534,
      "learning_rate": 0.00018104530670974908,
      "loss": 3.728,
      "step": 209280
    },
    {
      "epoch": 0.43602083333333336,
      "grad_norm": 1.0515928268432617,
      "learning_rate": 0.0001810356615500867,
      "loss": 3.801,
      "step": 209290
    },
    {
      "epoch": 0.43604166666666666,
      "grad_norm": 0.8400045037269592,
      "learning_rate": 0.00018102601625636267,
      "loss": 3.8166,
      "step": 209300
    },
    {
      "epoch": 0.4360625,
      "grad_norm": 0.7464209198951721,
      "learning_rate": 0.00018101637082861843,
      "loss": 3.7817,
      "step": 209310
    },
    {
      "epoch": 0.4360833333333333,
      "grad_norm": 0.9569619297981262,
      "learning_rate": 0.00018100672526689577,
      "loss": 3.8638,
      "step": 209320
    },
    {
      "epoch": 0.4361041666666667,
      "grad_norm": 0.756924033164978,
      "learning_rate": 0.0001809970795712363,
      "loss": 3.9048,
      "step": 209330
    },
    {
      "epoch": 0.436125,
      "grad_norm": 0.800409734249115,
      "learning_rate": 0.00018098743374168178,
      "loss": 3.8023,
      "step": 209340
    },
    {
      "epoch": 0.43614583333333334,
      "grad_norm": 0.8357544541358948,
      "learning_rate": 0.00018097778777827377,
      "loss": 3.5998,
      "step": 209350
    },
    {
      "epoch": 0.43616666666666665,
      "grad_norm": 0.8125721216201782,
      "learning_rate": 0.00018096814168105398,
      "loss": 3.9185,
      "step": 209360
    },
    {
      "epoch": 0.4361875,
      "grad_norm": 0.7776438593864441,
      "learning_rate": 0.00018095849545006406,
      "loss": 3.8246,
      "step": 209370
    },
    {
      "epoch": 0.4362083333333333,
      "grad_norm": 1.064680576324463,
      "learning_rate": 0.00018094884908534574,
      "loss": 3.7832,
      "step": 209380
    },
    {
      "epoch": 0.43622916666666667,
      "grad_norm": 0.8944137096405029,
      "learning_rate": 0.00018093920258694063,
      "loss": 3.7199,
      "step": 209390
    },
    {
      "epoch": 0.43625,
      "grad_norm": 0.7406811118125916,
      "learning_rate": 0.0001809295559548904,
      "loss": 3.8517,
      "step": 209400
    },
    {
      "epoch": 0.43627083333333333,
      "grad_norm": 0.9873038530349731,
      "learning_rate": 0.00018091990918923674,
      "loss": 3.6712,
      "step": 209410
    },
    {
      "epoch": 0.4362916666666667,
      "grad_norm": 0.9372523427009583,
      "learning_rate": 0.00018091026229002127,
      "loss": 3.766,
      "step": 209420
    },
    {
      "epoch": 0.4363125,
      "grad_norm": 0.763837993144989,
      "learning_rate": 0.00018090061525728572,
      "loss": 3.9301,
      "step": 209430
    },
    {
      "epoch": 0.43633333333333335,
      "grad_norm": 0.9357160925865173,
      "learning_rate": 0.0001808909680910718,
      "loss": 4.0646,
      "step": 209440
    },
    {
      "epoch": 0.43635416666666665,
      "grad_norm": 0.7338935136795044,
      "learning_rate": 0.00018088132079142107,
      "loss": 3.7949,
      "step": 209450
    },
    {
      "epoch": 0.436375,
      "grad_norm": 0.7316713929176331,
      "learning_rate": 0.00018087167335837525,
      "loss": 3.8413,
      "step": 209460
    },
    {
      "epoch": 0.4363958333333333,
      "grad_norm": 0.7749177813529968,
      "learning_rate": 0.0001808620257919761,
      "loss": 3.6922,
      "step": 209470
    },
    {
      "epoch": 0.4364166666666667,
      "grad_norm": 0.7456467747688293,
      "learning_rate": 0.00018085237809226513,
      "loss": 3.8603,
      "step": 209480
    },
    {
      "epoch": 0.4364375,
      "grad_norm": 0.7710333466529846,
      "learning_rate": 0.0001808427302592841,
      "loss": 3.9523,
      "step": 209490
    },
    {
      "epoch": 0.43645833333333334,
      "grad_norm": 0.7572890520095825,
      "learning_rate": 0.00018083308229307476,
      "loss": 4.0579,
      "step": 209500
    },
    {
      "epoch": 0.43647916666666664,
      "grad_norm": 0.8027890920639038,
      "learning_rate": 0.00018082343419367866,
      "loss": 3.8062,
      "step": 209510
    },
    {
      "epoch": 0.4365,
      "grad_norm": 0.8070124387741089,
      "learning_rate": 0.00018081378596113753,
      "loss": 4.0759,
      "step": 209520
    },
    {
      "epoch": 0.43652083333333336,
      "grad_norm": 0.8695814609527588,
      "learning_rate": 0.000180804137595493,
      "loss": 3.8125,
      "step": 209530
    },
    {
      "epoch": 0.43654166666666666,
      "grad_norm": 0.8810652494430542,
      "learning_rate": 0.00018079448909678682,
      "loss": 3.7984,
      "step": 209540
    },
    {
      "epoch": 0.4365625,
      "grad_norm": 0.7681264877319336,
      "learning_rate": 0.00018078484046506063,
      "loss": 4.0618,
      "step": 209550
    },
    {
      "epoch": 0.4365833333333333,
      "grad_norm": 0.8999792337417603,
      "learning_rate": 0.00018077519170035615,
      "loss": 3.8858,
      "step": 209560
    },
    {
      "epoch": 0.4366041666666667,
      "grad_norm": 0.7340844869613647,
      "learning_rate": 0.00018076554280271502,
      "loss": 3.7236,
      "step": 209570
    },
    {
      "epoch": 0.436625,
      "grad_norm": 0.6987677812576294,
      "learning_rate": 0.0001807558937721789,
      "loss": 3.77,
      "step": 209580
    },
    {
      "epoch": 0.43664583333333334,
      "grad_norm": 0.9763569235801697,
      "learning_rate": 0.00018074624460878946,
      "loss": 3.6019,
      "step": 209590
    },
    {
      "epoch": 0.43666666666666665,
      "grad_norm": 1.1763261556625366,
      "learning_rate": 0.00018073659531258845,
      "loss": 3.8062,
      "step": 209600
    },
    {
      "epoch": 0.4366875,
      "grad_norm": 0.8611657023429871,
      "learning_rate": 0.00018072694588361753,
      "loss": 3.8272,
      "step": 209610
    },
    {
      "epoch": 0.4367083333333333,
      "grad_norm": 0.8093331456184387,
      "learning_rate": 0.0001807172963219183,
      "loss": 3.7735,
      "step": 209620
    },
    {
      "epoch": 0.43672916666666667,
      "grad_norm": 1.1905746459960938,
      "learning_rate": 0.0001807076466275326,
      "loss": 3.8889,
      "step": 209630
    },
    {
      "epoch": 0.43675,
      "grad_norm": 0.8441787362098694,
      "learning_rate": 0.00018069799680050198,
      "loss": 3.6715,
      "step": 209640
    },
    {
      "epoch": 0.43677083333333333,
      "grad_norm": 0.7898692488670349,
      "learning_rate": 0.00018068834684086818,
      "loss": 3.7993,
      "step": 209650
    },
    {
      "epoch": 0.4367916666666667,
      "grad_norm": 0.907351553440094,
      "learning_rate": 0.00018067869674867282,
      "loss": 3.8247,
      "step": 209660
    },
    {
      "epoch": 0.4368125,
      "grad_norm": 0.8169718980789185,
      "learning_rate": 0.00018066904652395767,
      "loss": 3.8094,
      "step": 209670
    },
    {
      "epoch": 0.43683333333333335,
      "grad_norm": 0.7437605261802673,
      "learning_rate": 0.00018065939616676438,
      "loss": 3.8261,
      "step": 209680
    },
    {
      "epoch": 0.43685416666666665,
      "grad_norm": 0.8080320954322815,
      "learning_rate": 0.00018064974567713463,
      "loss": 3.9367,
      "step": 209690
    },
    {
      "epoch": 0.436875,
      "grad_norm": 0.7378320693969727,
      "learning_rate": 0.0001806400950551101,
      "loss": 3.8158,
      "step": 209700
    },
    {
      "epoch": 0.4368958333333333,
      "grad_norm": 0.7838791012763977,
      "learning_rate": 0.0001806304443007325,
      "loss": 3.894,
      "step": 209710
    },
    {
      "epoch": 0.4369166666666667,
      "grad_norm": 0.6402467489242554,
      "learning_rate": 0.00018062079341404355,
      "loss": 3.717,
      "step": 209720
    },
    {
      "epoch": 0.4369375,
      "grad_norm": 1.1769472360610962,
      "learning_rate": 0.0001806111423950848,
      "loss": 3.7089,
      "step": 209730
    },
    {
      "epoch": 0.43695833333333334,
      "grad_norm": 0.8121064901351929,
      "learning_rate": 0.0001806014912438981,
      "loss": 3.8425,
      "step": 209740
    },
    {
      "epoch": 0.43697916666666664,
      "grad_norm": 0.7748070955276489,
      "learning_rate": 0.0001805918399605251,
      "loss": 3.741,
      "step": 209750
    },
    {
      "epoch": 0.437,
      "grad_norm": 0.829071044921875,
      "learning_rate": 0.00018058218854500734,
      "loss": 3.729,
      "step": 209760
    },
    {
      "epoch": 0.43702083333333336,
      "grad_norm": 0.8138737678527832,
      "learning_rate": 0.0001805725369973867,
      "loss": 3.6874,
      "step": 209770
    },
    {
      "epoch": 0.43704166666666666,
      "grad_norm": 0.7522696256637573,
      "learning_rate": 0.00018056288531770483,
      "loss": 3.8259,
      "step": 209780
    },
    {
      "epoch": 0.4370625,
      "grad_norm": 1.045863151550293,
      "learning_rate": 0.00018055323350600334,
      "loss": 3.8231,
      "step": 209790
    },
    {
      "epoch": 0.4370833333333333,
      "grad_norm": 0.7095304131507874,
      "learning_rate": 0.000180543581562324,
      "loss": 3.6839,
      "step": 209800
    },
    {
      "epoch": 0.4371041666666667,
      "grad_norm": 0.7149321436882019,
      "learning_rate": 0.0001805339294867085,
      "loss": 3.7071,
      "step": 209810
    },
    {
      "epoch": 0.437125,
      "grad_norm": 1.0195941925048828,
      "learning_rate": 0.00018052427727919848,
      "loss": 3.6683,
      "step": 209820
    },
    {
      "epoch": 0.43714583333333334,
      "grad_norm": 0.7685490846633911,
      "learning_rate": 0.00018051462493983567,
      "loss": 3.7298,
      "step": 209830
    },
    {
      "epoch": 0.43716666666666665,
      "grad_norm": 0.6788873672485352,
      "learning_rate": 0.00018050497246866178,
      "loss": 3.6251,
      "step": 209840
    },
    {
      "epoch": 0.4371875,
      "grad_norm": 0.7777615785598755,
      "learning_rate": 0.00018049531986571844,
      "loss": 3.6384,
      "step": 209850
    },
    {
      "epoch": 0.4372083333333333,
      "grad_norm": 0.7891573905944824,
      "learning_rate": 0.0001804856671310474,
      "loss": 3.8576,
      "step": 209860
    },
    {
      "epoch": 0.43722916666666667,
      "grad_norm": 0.841916561126709,
      "learning_rate": 0.0001804760142646904,
      "loss": 3.8986,
      "step": 209870
    },
    {
      "epoch": 0.43725,
      "grad_norm": 0.7952195405960083,
      "learning_rate": 0.00018046636126668904,
      "loss": 3.7813,
      "step": 209880
    },
    {
      "epoch": 0.43727083333333333,
      "grad_norm": 0.8528276681900024,
      "learning_rate": 0.00018045670813708503,
      "loss": 3.7089,
      "step": 209890
    },
    {
      "epoch": 0.4372916666666667,
      "grad_norm": 0.9026359915733337,
      "learning_rate": 0.00018044705487592016,
      "loss": 3.8075,
      "step": 209900
    },
    {
      "epoch": 0.4373125,
      "grad_norm": 0.9326280951499939,
      "learning_rate": 0.000180437401483236,
      "loss": 3.6967,
      "step": 209910
    },
    {
      "epoch": 0.43733333333333335,
      "grad_norm": 0.8418026566505432,
      "learning_rate": 0.00018042774795907435,
      "loss": 3.8619,
      "step": 209920
    },
    {
      "epoch": 0.43735416666666665,
      "grad_norm": 0.769836962223053,
      "learning_rate": 0.00018041809430347684,
      "loss": 3.7737,
      "step": 209930
    },
    {
      "epoch": 0.437375,
      "grad_norm": 0.7939190864562988,
      "learning_rate": 0.00018040844051648525,
      "loss": 3.827,
      "step": 209940
    },
    {
      "epoch": 0.4373958333333333,
      "grad_norm": 0.6719022989273071,
      "learning_rate": 0.00018039878659814124,
      "loss": 3.8161,
      "step": 209950
    },
    {
      "epoch": 0.4374166666666667,
      "grad_norm": 0.7646161913871765,
      "learning_rate": 0.00018038913254848644,
      "loss": 3.7922,
      "step": 209960
    },
    {
      "epoch": 0.4374375,
      "grad_norm": 0.6647078394889832,
      "learning_rate": 0.00018037947836756265,
      "loss": 3.8598,
      "step": 209970
    },
    {
      "epoch": 0.43745833333333334,
      "grad_norm": 0.6670778393745422,
      "learning_rate": 0.00018036982405541158,
      "loss": 3.7305,
      "step": 209980
    },
    {
      "epoch": 0.43747916666666664,
      "grad_norm": 0.7648993730545044,
      "learning_rate": 0.00018036016961207483,
      "loss": 3.9673,
      "step": 209990
    },
    {
      "epoch": 0.4375,
      "grad_norm": 0.836171567440033,
      "learning_rate": 0.0001803505150375942,
      "loss": 3.672,
      "step": 210000
    },
    {
      "epoch": 0.4375,
      "eval_loss": 4.182221412658691,
      "eval_runtime": 8.1293,
      "eval_samples_per_second": 1.23,
      "eval_steps_per_second": 0.369,
      "step": 210000
    },
    {
      "epoch": 0.43752083333333336,
      "grad_norm": 0.8707994222640991,
      "learning_rate": 0.00018034086033201133,
      "loss": 3.8061,
      "step": 210010
    },
    {
      "epoch": 0.43754166666666666,
      "grad_norm": 0.8111225962638855,
      "learning_rate": 0.000180331205495368,
      "loss": 3.8625,
      "step": 210020
    },
    {
      "epoch": 0.4375625,
      "grad_norm": 0.91038978099823,
      "learning_rate": 0.00018032155052770583,
      "loss": 3.7915,
      "step": 210030
    },
    {
      "epoch": 0.4375833333333333,
      "grad_norm": 0.8375064134597778,
      "learning_rate": 0.0001803118954290666,
      "loss": 3.7212,
      "step": 210040
    },
    {
      "epoch": 0.4376041666666667,
      "grad_norm": 0.788590669631958,
      "learning_rate": 0.0001803022401994919,
      "loss": 3.8081,
      "step": 210050
    },
    {
      "epoch": 0.437625,
      "grad_norm": 0.9080971479415894,
      "learning_rate": 0.0001802925848390236,
      "loss": 3.7001,
      "step": 210060
    },
    {
      "epoch": 0.43764583333333335,
      "grad_norm": 0.7935925126075745,
      "learning_rate": 0.0001802829293477033,
      "loss": 3.8346,
      "step": 210070
    },
    {
      "epoch": 0.43766666666666665,
      "grad_norm": 0.8996718525886536,
      "learning_rate": 0.0001802732737255727,
      "loss": 3.8495,
      "step": 210080
    },
    {
      "epoch": 0.4376875,
      "grad_norm": 0.8170092701911926,
      "learning_rate": 0.00018026361797267358,
      "loss": 3.873,
      "step": 210090
    },
    {
      "epoch": 0.4377083333333333,
      "grad_norm": 0.851235032081604,
      "learning_rate": 0.00018025396208904757,
      "loss": 3.8364,
      "step": 210100
    },
    {
      "epoch": 0.43772916666666667,
      "grad_norm": 0.7970091104507446,
      "learning_rate": 0.00018024430607473647,
      "loss": 3.851,
      "step": 210110
    },
    {
      "epoch": 0.43775,
      "grad_norm": 0.8474779725074768,
      "learning_rate": 0.0001802346499297819,
      "loss": 3.8333,
      "step": 210120
    },
    {
      "epoch": 0.43777083333333333,
      "grad_norm": 0.8214547038078308,
      "learning_rate": 0.00018022499365422562,
      "loss": 3.683,
      "step": 210130
    },
    {
      "epoch": 0.4377916666666667,
      "grad_norm": 0.7910937666893005,
      "learning_rate": 0.00018021533724810933,
      "loss": 3.8303,
      "step": 210140
    },
    {
      "epoch": 0.4378125,
      "grad_norm": 0.8400898575782776,
      "learning_rate": 0.00018020568071147478,
      "loss": 3.8178,
      "step": 210150
    },
    {
      "epoch": 0.43783333333333335,
      "grad_norm": 0.7335537075996399,
      "learning_rate": 0.0001801960240443636,
      "loss": 3.6319,
      "step": 210160
    },
    {
      "epoch": 0.43785416666666666,
      "grad_norm": 0.8035138845443726,
      "learning_rate": 0.00018018636724681758,
      "loss": 3.758,
      "step": 210170
    },
    {
      "epoch": 0.437875,
      "grad_norm": 0.7410905361175537,
      "learning_rate": 0.0001801767103188784,
      "loss": 3.9671,
      "step": 210180
    },
    {
      "epoch": 0.4378958333333333,
      "grad_norm": 0.8857408165931702,
      "learning_rate": 0.00018016705326058774,
      "loss": 3.9518,
      "step": 210190
    },
    {
      "epoch": 0.4379166666666667,
      "grad_norm": 0.7543896436691284,
      "learning_rate": 0.00018015739607198737,
      "loss": 3.879,
      "step": 210200
    },
    {
      "epoch": 0.4379375,
      "grad_norm": 0.7872442603111267,
      "learning_rate": 0.00018014773875311898,
      "loss": 3.8156,
      "step": 210210
    },
    {
      "epoch": 0.43795833333333334,
      "grad_norm": 0.7444895505905151,
      "learning_rate": 0.0001801380813040243,
      "loss": 3.8927,
      "step": 210220
    },
    {
      "epoch": 0.43797916666666664,
      "grad_norm": 0.6755317449569702,
      "learning_rate": 0.00018012842372474504,
      "loss": 3.9417,
      "step": 210230
    },
    {
      "epoch": 0.438,
      "grad_norm": 0.8582130670547485,
      "learning_rate": 0.0001801187660153229,
      "loss": 3.7736,
      "step": 210240
    },
    {
      "epoch": 0.43802083333333336,
      "grad_norm": 0.8586702346801758,
      "learning_rate": 0.00018010910817579964,
      "loss": 3.7554,
      "step": 210250
    },
    {
      "epoch": 0.43804166666666666,
      "grad_norm": 0.9712880849838257,
      "learning_rate": 0.00018009945020621692,
      "loss": 3.8862,
      "step": 210260
    },
    {
      "epoch": 0.4380625,
      "grad_norm": 0.8801212310791016,
      "learning_rate": 0.0001800897921066165,
      "loss": 3.6767,
      "step": 210270
    },
    {
      "epoch": 0.4380833333333333,
      "grad_norm": 0.8726341128349304,
      "learning_rate": 0.0001800801338770401,
      "loss": 3.8692,
      "step": 210280
    },
    {
      "epoch": 0.4381041666666667,
      "grad_norm": 0.8761811256408691,
      "learning_rate": 0.00018007047551752943,
      "loss": 3.8777,
      "step": 210290
    },
    {
      "epoch": 0.438125,
      "grad_norm": 0.6600484848022461,
      "learning_rate": 0.00018006081702812618,
      "loss": 3.6749,
      "step": 210300
    },
    {
      "epoch": 0.43814583333333335,
      "grad_norm": 0.9111180901527405,
      "learning_rate": 0.00018005115840887212,
      "loss": 3.9054,
      "step": 210310
    },
    {
      "epoch": 0.43816666666666665,
      "grad_norm": 0.776627779006958,
      "learning_rate": 0.00018004149965980898,
      "loss": 3.8608,
      "step": 210320
    },
    {
      "epoch": 0.4381875,
      "grad_norm": 0.804289698600769,
      "learning_rate": 0.00018003184078097838,
      "loss": 3.7692,
      "step": 210330
    },
    {
      "epoch": 0.4382083333333333,
      "grad_norm": 0.7797996997833252,
      "learning_rate": 0.0001800221817724222,
      "loss": 3.8282,
      "step": 210340
    },
    {
      "epoch": 0.43822916666666667,
      "grad_norm": 0.7995768189430237,
      "learning_rate": 0.00018001252263418206,
      "loss": 3.7638,
      "step": 210350
    },
    {
      "epoch": 0.43825,
      "grad_norm": 1.0265908241271973,
      "learning_rate": 0.0001800028633662996,
      "loss": 3.7624,
      "step": 210360
    },
    {
      "epoch": 0.43827083333333333,
      "grad_norm": 0.963118314743042,
      "learning_rate": 0.0001799932039688168,
      "loss": 3.6853,
      "step": 210370
    },
    {
      "epoch": 0.4382916666666667,
      "grad_norm": 0.7742981314659119,
      "learning_rate": 0.00017998354444177513,
      "loss": 3.6098,
      "step": 210380
    },
    {
      "epoch": 0.4383125,
      "grad_norm": 0.756222128868103,
      "learning_rate": 0.00017997388478521647,
      "loss": 4.0478,
      "step": 210390
    },
    {
      "epoch": 0.43833333333333335,
      "grad_norm": 0.8193797469139099,
      "learning_rate": 0.00017996422499918244,
      "loss": 4.0202,
      "step": 210400
    },
    {
      "epoch": 0.43835416666666666,
      "grad_norm": 0.9903436303138733,
      "learning_rate": 0.00017995456508371484,
      "loss": 3.769,
      "step": 210410
    },
    {
      "epoch": 0.438375,
      "grad_norm": 0.8906968832015991,
      "learning_rate": 0.00017994490503885538,
      "loss": 3.7244,
      "step": 210420
    },
    {
      "epoch": 0.4383958333333333,
      "grad_norm": 0.8758535385131836,
      "learning_rate": 0.00017993524486464578,
      "loss": 3.9095,
      "step": 210430
    },
    {
      "epoch": 0.4384166666666667,
      "grad_norm": 0.8432766795158386,
      "learning_rate": 0.00017992558456112774,
      "loss": 3.767,
      "step": 210440
    },
    {
      "epoch": 0.4384375,
      "grad_norm": 0.8250760436058044,
      "learning_rate": 0.0001799159241283431,
      "loss": 3.8208,
      "step": 210450
    },
    {
      "epoch": 0.43845833333333334,
      "grad_norm": 0.7808998823165894,
      "learning_rate": 0.00017990626356633344,
      "loss": 3.873,
      "step": 210460
    },
    {
      "epoch": 0.43847916666666664,
      "grad_norm": 0.9241129159927368,
      "learning_rate": 0.0001798966028751406,
      "loss": 3.7245,
      "step": 210470
    },
    {
      "epoch": 0.4385,
      "grad_norm": 0.734272301197052,
      "learning_rate": 0.00017988694205480627,
      "loss": 3.7817,
      "step": 210480
    },
    {
      "epoch": 0.43852083333333336,
      "grad_norm": 0.7567998170852661,
      "learning_rate": 0.0001798772811053721,
      "loss": 3.7313,
      "step": 210490
    },
    {
      "epoch": 0.43854166666666666,
      "grad_norm": 0.7064087390899658,
      "learning_rate": 0.00017986762002687997,
      "loss": 3.7816,
      "step": 210500
    },
    {
      "epoch": 0.4385625,
      "grad_norm": 0.905417799949646,
      "learning_rate": 0.00017985795881937157,
      "loss": 3.784,
      "step": 210510
    },
    {
      "epoch": 0.4385833333333333,
      "grad_norm": 0.913794755935669,
      "learning_rate": 0.0001798482974828886,
      "loss": 3.5853,
      "step": 210520
    },
    {
      "epoch": 0.4386041666666667,
      "grad_norm": 0.7481670379638672,
      "learning_rate": 0.00017983863601747275,
      "loss": 3.7514,
      "step": 210530
    },
    {
      "epoch": 0.438625,
      "grad_norm": 0.8919413685798645,
      "learning_rate": 0.00017982897442316584,
      "loss": 3.9662,
      "step": 210540
    },
    {
      "epoch": 0.43864583333333335,
      "grad_norm": 0.8081535696983337,
      "learning_rate": 0.00017981931270000956,
      "loss": 3.9438,
      "step": 210550
    },
    {
      "epoch": 0.43866666666666665,
      "grad_norm": 0.7278322577476501,
      "learning_rate": 0.0001798096508480456,
      "loss": 3.8239,
      "step": 210560
    },
    {
      "epoch": 0.4386875,
      "grad_norm": 0.7810259461402893,
      "learning_rate": 0.00017979998886731582,
      "loss": 3.7756,
      "step": 210570
    },
    {
      "epoch": 0.4387083333333333,
      "grad_norm": 0.7696817517280579,
      "learning_rate": 0.00017979032675786188,
      "loss": 3.8816,
      "step": 210580
    },
    {
      "epoch": 0.43872916666666667,
      "grad_norm": 0.804514467716217,
      "learning_rate": 0.00017978066451972548,
      "loss": 3.8417,
      "step": 210590
    },
    {
      "epoch": 0.43875,
      "grad_norm": 0.6824528574943542,
      "learning_rate": 0.00017977100215294843,
      "loss": 3.5892,
      "step": 210600
    },
    {
      "epoch": 0.43877083333333333,
      "grad_norm": 0.8115639686584473,
      "learning_rate": 0.0001797613396575724,
      "loss": 3.7798,
      "step": 210610
    },
    {
      "epoch": 0.4387916666666667,
      "grad_norm": 0.7801589965820312,
      "learning_rate": 0.00017975167703363924,
      "loss": 3.9516,
      "step": 210620
    },
    {
      "epoch": 0.4388125,
      "grad_norm": 0.9746991991996765,
      "learning_rate": 0.0001797420142811905,
      "loss": 3.7556,
      "step": 210630
    },
    {
      "epoch": 0.43883333333333335,
      "grad_norm": 0.8290380239486694,
      "learning_rate": 0.00017973235140026812,
      "loss": 3.8219,
      "step": 210640
    },
    {
      "epoch": 0.43885416666666666,
      "grad_norm": 0.6858564615249634,
      "learning_rate": 0.00017972268839091371,
      "loss": 3.9227,
      "step": 210650
    },
    {
      "epoch": 0.438875,
      "grad_norm": 1.1679524183273315,
      "learning_rate": 0.00017971302525316904,
      "loss": 3.7668,
      "step": 210660
    },
    {
      "epoch": 0.4388958333333333,
      "grad_norm": 0.7593138217926025,
      "learning_rate": 0.0001797033619870759,
      "loss": 3.7936,
      "step": 210670
    },
    {
      "epoch": 0.4389166666666667,
      "grad_norm": 0.7975792288780212,
      "learning_rate": 0.00017969369859267598,
      "loss": 3.6732,
      "step": 210680
    },
    {
      "epoch": 0.4389375,
      "grad_norm": 0.7382201552391052,
      "learning_rate": 0.00017968403507001105,
      "loss": 3.9091,
      "step": 210690
    },
    {
      "epoch": 0.43895833333333334,
      "grad_norm": 0.7824475169181824,
      "learning_rate": 0.00017967437141912275,
      "loss": 3.8678,
      "step": 210700
    },
    {
      "epoch": 0.43897916666666664,
      "grad_norm": 0.8132422566413879,
      "learning_rate": 0.00017966470764005303,
      "loss": 3.8808,
      "step": 210710
    },
    {
      "epoch": 0.439,
      "grad_norm": 0.8016163110733032,
      "learning_rate": 0.00017965504373284346,
      "loss": 3.6523,
      "step": 210720
    },
    {
      "epoch": 0.43902083333333336,
      "grad_norm": 0.8771795630455017,
      "learning_rate": 0.00017964537969753584,
      "loss": 3.8233,
      "step": 210730
    },
    {
      "epoch": 0.43904166666666666,
      "grad_norm": 0.7962482571601868,
      "learning_rate": 0.00017963571553417194,
      "loss": 4.0261,
      "step": 210740
    },
    {
      "epoch": 0.4390625,
      "grad_norm": 0.7430986762046814,
      "learning_rate": 0.00017962605124279343,
      "loss": 3.7495,
      "step": 210750
    },
    {
      "epoch": 0.4390833333333333,
      "grad_norm": 1.0089248418807983,
      "learning_rate": 0.00017961638682344213,
      "loss": 3.7971,
      "step": 210760
    },
    {
      "epoch": 0.4391041666666667,
      "grad_norm": 1.0742998123168945,
      "learning_rate": 0.00017960672227615977,
      "loss": 3.7863,
      "step": 210770
    },
    {
      "epoch": 0.439125,
      "grad_norm": 0.7390615940093994,
      "learning_rate": 0.0001795970576009881,
      "loss": 3.8205,
      "step": 210780
    },
    {
      "epoch": 0.43914583333333335,
      "grad_norm": 0.8705231547355652,
      "learning_rate": 0.00017958739279796883,
      "loss": 3.7087,
      "step": 210790
    },
    {
      "epoch": 0.43916666666666665,
      "grad_norm": 0.7367106676101685,
      "learning_rate": 0.00017957772786714372,
      "loss": 3.8228,
      "step": 210800
    },
    {
      "epoch": 0.4391875,
      "grad_norm": 0.8433371186256409,
      "learning_rate": 0.00017956806280855457,
      "loss": 3.8102,
      "step": 210810
    },
    {
      "epoch": 0.4392083333333333,
      "grad_norm": 0.9827256798744202,
      "learning_rate": 0.00017955839762224312,
      "loss": 3.737,
      "step": 210820
    },
    {
      "epoch": 0.43922916666666667,
      "grad_norm": 0.8381146192550659,
      "learning_rate": 0.000179548732308251,
      "loss": 3.7635,
      "step": 210830
    },
    {
      "epoch": 0.43925,
      "grad_norm": 0.9160526990890503,
      "learning_rate": 0.00017953906686662014,
      "loss": 3.8636,
      "step": 210840
    },
    {
      "epoch": 0.43927083333333333,
      "grad_norm": 0.7465947866439819,
      "learning_rate": 0.00017952940129739218,
      "loss": 3.6631,
      "step": 210850
    },
    {
      "epoch": 0.4392916666666667,
      "grad_norm": 0.8918412327766418,
      "learning_rate": 0.00017951973560060885,
      "loss": 3.9533,
      "step": 210860
    },
    {
      "epoch": 0.4393125,
      "grad_norm": 0.78873610496521,
      "learning_rate": 0.000179510069776312,
      "loss": 3.7499,
      "step": 210870
    },
    {
      "epoch": 0.43933333333333335,
      "grad_norm": 0.6762484312057495,
      "learning_rate": 0.00017950040382454333,
      "loss": 3.8356,
      "step": 210880
    },
    {
      "epoch": 0.43935416666666666,
      "grad_norm": 0.7651450634002686,
      "learning_rate": 0.00017949073774534458,
      "loss": 3.8138,
      "step": 210890
    },
    {
      "epoch": 0.439375,
      "grad_norm": 0.7717065215110779,
      "learning_rate": 0.00017948107153875745,
      "loss": 3.7622,
      "step": 210900
    },
    {
      "epoch": 0.4393958333333333,
      "grad_norm": 0.8753150105476379,
      "learning_rate": 0.00017947140520482388,
      "loss": 3.8874,
      "step": 210910
    },
    {
      "epoch": 0.4394166666666667,
      "grad_norm": 0.8148205280303955,
      "learning_rate": 0.00017946173874358544,
      "loss": 3.87,
      "step": 210920
    },
    {
      "epoch": 0.4394375,
      "grad_norm": 0.7915153503417969,
      "learning_rate": 0.00017945207215508397,
      "loss": 3.8038,
      "step": 210930
    },
    {
      "epoch": 0.43945833333333334,
      "grad_norm": 0.6788990497589111,
      "learning_rate": 0.00017944240543936118,
      "loss": 3.5031,
      "step": 210940
    },
    {
      "epoch": 0.43947916666666664,
      "grad_norm": 0.8279882073402405,
      "learning_rate": 0.00017943273859645885,
      "loss": 3.9141,
      "step": 210950
    },
    {
      "epoch": 0.4395,
      "grad_norm": 0.7451470494270325,
      "learning_rate": 0.00017942307162641875,
      "loss": 3.8973,
      "step": 210960
    },
    {
      "epoch": 0.43952083333333336,
      "grad_norm": 0.7166095972061157,
      "learning_rate": 0.00017941340452928264,
      "loss": 3.7997,
      "step": 210970
    },
    {
      "epoch": 0.43954166666666666,
      "grad_norm": 0.7444528937339783,
      "learning_rate": 0.00017940373730509224,
      "loss": 3.8316,
      "step": 210980
    },
    {
      "epoch": 0.4395625,
      "grad_norm": 0.7141744494438171,
      "learning_rate": 0.00017939406995388934,
      "loss": 3.7732,
      "step": 210990
    },
    {
      "epoch": 0.4395833333333333,
      "grad_norm": 0.8806841969490051,
      "learning_rate": 0.00017938440247571572,
      "loss": 3.7588,
      "step": 211000
    },
    {
      "epoch": 0.4395833333333333,
      "eval_loss": 4.178143501281738,
      "eval_runtime": 8.0908,
      "eval_samples_per_second": 1.236,
      "eval_steps_per_second": 0.371,
      "step": 211000
    },
    {
      "epoch": 0.4396041666666667,
      "grad_norm": 0.7681498527526855,
      "learning_rate": 0.0001793747348706131,
      "loss": 3.7349,
      "step": 211010
    },
    {
      "epoch": 0.439625,
      "grad_norm": 0.8106517195701599,
      "learning_rate": 0.00017936506713862326,
      "loss": 3.828,
      "step": 211020
    },
    {
      "epoch": 0.43964583333333335,
      "grad_norm": 0.7291443943977356,
      "learning_rate": 0.0001793553992797879,
      "loss": 3.7529,
      "step": 211030
    },
    {
      "epoch": 0.43966666666666665,
      "grad_norm": 0.764638364315033,
      "learning_rate": 0.00017934573129414888,
      "loss": 3.6974,
      "step": 211040
    },
    {
      "epoch": 0.4396875,
      "grad_norm": 0.7479116320610046,
      "learning_rate": 0.00017933606318174797,
      "loss": 3.7891,
      "step": 211050
    },
    {
      "epoch": 0.4397083333333333,
      "grad_norm": 0.7968180775642395,
      "learning_rate": 0.0001793263949426268,
      "loss": 3.68,
      "step": 211060
    },
    {
      "epoch": 0.43972916666666667,
      "grad_norm": 0.8980262279510498,
      "learning_rate": 0.00017931672657682724,
      "loss": 3.7221,
      "step": 211070
    },
    {
      "epoch": 0.43975,
      "grad_norm": 0.8458971977233887,
      "learning_rate": 0.00017930705808439103,
      "loss": 3.9094,
      "step": 211080
    },
    {
      "epoch": 0.43977083333333333,
      "grad_norm": 0.7272441983222961,
      "learning_rate": 0.0001792973894653599,
      "loss": 3.726,
      "step": 211090
    },
    {
      "epoch": 0.4397916666666667,
      "grad_norm": 0.7297682762145996,
      "learning_rate": 0.00017928772071977567,
      "loss": 3.9644,
      "step": 211100
    },
    {
      "epoch": 0.4398125,
      "grad_norm": 0.726782500743866,
      "learning_rate": 0.00017927805184768007,
      "loss": 3.7437,
      "step": 211110
    },
    {
      "epoch": 0.43983333333333335,
      "grad_norm": 0.7994661927223206,
      "learning_rate": 0.00017926838284911488,
      "loss": 3.8767,
      "step": 211120
    },
    {
      "epoch": 0.43985416666666666,
      "grad_norm": 0.7033007740974426,
      "learning_rate": 0.00017925871372412186,
      "loss": 3.742,
      "step": 211130
    },
    {
      "epoch": 0.439875,
      "grad_norm": 0.804852306842804,
      "learning_rate": 0.00017924904447274277,
      "loss": 3.9923,
      "step": 211140
    },
    {
      "epoch": 0.4398958333333333,
      "grad_norm": 0.7681237459182739,
      "learning_rate": 0.0001792393750950194,
      "loss": 3.7647,
      "step": 211150
    },
    {
      "epoch": 0.4399166666666667,
      "grad_norm": 0.7879598736763,
      "learning_rate": 0.0001792297055909935,
      "loss": 3.8686,
      "step": 211160
    },
    {
      "epoch": 0.4399375,
      "grad_norm": 0.9263802766799927,
      "learning_rate": 0.0001792200359607068,
      "loss": 3.8904,
      "step": 211170
    },
    {
      "epoch": 0.43995833333333334,
      "grad_norm": 0.8541470170021057,
      "learning_rate": 0.00017921036620420117,
      "loss": 3.9913,
      "step": 211180
    },
    {
      "epoch": 0.43997916666666664,
      "grad_norm": 0.8049418926239014,
      "learning_rate": 0.00017920069632151834,
      "loss": 3.8172,
      "step": 211190
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8243117928504944,
      "learning_rate": 0.00017919102631269997,
      "loss": 3.8202,
      "step": 211200
    },
    {
      "epoch": 0.44002083333333336,
      "grad_norm": 0.7382334470748901,
      "learning_rate": 0.000179181356177788,
      "loss": 4.0161,
      "step": 211210
    },
    {
      "epoch": 0.44004166666666666,
      "grad_norm": 0.750576913356781,
      "learning_rate": 0.0001791716859168241,
      "loss": 3.7231,
      "step": 211220
    },
    {
      "epoch": 0.4400625,
      "grad_norm": 0.713325023651123,
      "learning_rate": 0.00017916201552985002,
      "loss": 3.9498,
      "step": 211230
    },
    {
      "epoch": 0.4400833333333333,
      "grad_norm": 0.8719093203544617,
      "learning_rate": 0.00017915234501690762,
      "loss": 3.9992,
      "step": 211240
    },
    {
      "epoch": 0.4401041666666667,
      "grad_norm": 0.8743228912353516,
      "learning_rate": 0.00017914267437803863,
      "loss": 3.7605,
      "step": 211250
    },
    {
      "epoch": 0.440125,
      "grad_norm": 0.849057137966156,
      "learning_rate": 0.00017913300361328482,
      "loss": 3.6789,
      "step": 211260
    },
    {
      "epoch": 0.44014583333333335,
      "grad_norm": 1.0318020582199097,
      "learning_rate": 0.00017912333272268797,
      "loss": 3.8094,
      "step": 211270
    },
    {
      "epoch": 0.44016666666666665,
      "grad_norm": 0.7795277833938599,
      "learning_rate": 0.00017911366170628984,
      "loss": 3.8349,
      "step": 211280
    },
    {
      "epoch": 0.4401875,
      "grad_norm": 0.8385195732116699,
      "learning_rate": 0.0001791039905641322,
      "loss": 3.8724,
      "step": 211290
    },
    {
      "epoch": 0.4402083333333333,
      "grad_norm": 0.7889752984046936,
      "learning_rate": 0.00017909431929625684,
      "loss": 3.592,
      "step": 211300
    },
    {
      "epoch": 0.44022916666666667,
      "grad_norm": 0.7646567821502686,
      "learning_rate": 0.00017908464790270556,
      "loss": 3.7565,
      "step": 211310
    },
    {
      "epoch": 0.44025,
      "grad_norm": 0.7405385375022888,
      "learning_rate": 0.0001790749763835201,
      "loss": 3.841,
      "step": 211320
    },
    {
      "epoch": 0.44027083333333333,
      "grad_norm": 0.7512730360031128,
      "learning_rate": 0.00017906530473874225,
      "loss": 3.7402,
      "step": 211330
    },
    {
      "epoch": 0.4402916666666667,
      "grad_norm": 0.778616189956665,
      "learning_rate": 0.0001790556329684138,
      "loss": 3.9756,
      "step": 211340
    },
    {
      "epoch": 0.4403125,
      "grad_norm": 0.9321921467781067,
      "learning_rate": 0.00017904596107257655,
      "loss": 3.7438,
      "step": 211350
    },
    {
      "epoch": 0.44033333333333335,
      "grad_norm": 0.7105545997619629,
      "learning_rate": 0.0001790362890512722,
      "loss": 3.6506,
      "step": 211360
    },
    {
      "epoch": 0.44035416666666666,
      "grad_norm": 0.9841898679733276,
      "learning_rate": 0.00017902661690454255,
      "loss": 3.7331,
      "step": 211370
    },
    {
      "epoch": 0.440375,
      "grad_norm": 0.9285456538200378,
      "learning_rate": 0.00017901694463242948,
      "loss": 3.8314,
      "step": 211380
    },
    {
      "epoch": 0.4403958333333333,
      "grad_norm": 0.8375517129898071,
      "learning_rate": 0.00017900727223497462,
      "loss": 3.882,
      "step": 211390
    },
    {
      "epoch": 0.4404166666666667,
      "grad_norm": 0.9690690636634827,
      "learning_rate": 0.00017899759971221985,
      "loss": 3.8146,
      "step": 211400
    },
    {
      "epoch": 0.4404375,
      "grad_norm": 0.7738112211227417,
      "learning_rate": 0.00017898792706420698,
      "loss": 3.9024,
      "step": 211410
    },
    {
      "epoch": 0.44045833333333334,
      "grad_norm": 0.768258273601532,
      "learning_rate": 0.00017897825429097767,
      "loss": 3.5631,
      "step": 211420
    },
    {
      "epoch": 0.44047916666666664,
      "grad_norm": 0.8878409266471863,
      "learning_rate": 0.00017896858139257376,
      "loss": 4.0236,
      "step": 211430
    },
    {
      "epoch": 0.4405,
      "grad_norm": 0.7776740789413452,
      "learning_rate": 0.0001789589083690371,
      "loss": 4.1142,
      "step": 211440
    },
    {
      "epoch": 0.4405208333333333,
      "grad_norm": 0.6911435127258301,
      "learning_rate": 0.0001789492352204094,
      "loss": 3.7435,
      "step": 211450
    },
    {
      "epoch": 0.44054166666666666,
      "grad_norm": 0.87449711561203,
      "learning_rate": 0.00017893956194673248,
      "loss": 3.9088,
      "step": 211460
    },
    {
      "epoch": 0.4405625,
      "grad_norm": 0.8759812116622925,
      "learning_rate": 0.0001789298885480481,
      "loss": 3.8174,
      "step": 211470
    },
    {
      "epoch": 0.4405833333333333,
      "grad_norm": 0.7833624482154846,
      "learning_rate": 0.00017892021502439803,
      "loss": 3.835,
      "step": 211480
    },
    {
      "epoch": 0.4406041666666667,
      "grad_norm": 0.7437711358070374,
      "learning_rate": 0.00017891054137582406,
      "loss": 3.7708,
      "step": 211490
    },
    {
      "epoch": 0.440625,
      "grad_norm": 0.8041120767593384,
      "learning_rate": 0.00017890086760236805,
      "loss": 3.998,
      "step": 211500
    },
    {
      "epoch": 0.44064583333333335,
      "grad_norm": 0.7618263959884644,
      "learning_rate": 0.0001788911937040717,
      "loss": 3.8887,
      "step": 211510
    },
    {
      "epoch": 0.44066666666666665,
      "grad_norm": 0.8129239678382874,
      "learning_rate": 0.00017888151968097686,
      "loss": 3.7718,
      "step": 211520
    },
    {
      "epoch": 0.4406875,
      "grad_norm": 0.8745570182800293,
      "learning_rate": 0.00017887184553312522,
      "loss": 3.899,
      "step": 211530
    },
    {
      "epoch": 0.4407083333333333,
      "grad_norm": 0.7515487670898438,
      "learning_rate": 0.0001788621712605587,
      "loss": 3.7651,
      "step": 211540
    },
    {
      "epoch": 0.44072916666666667,
      "grad_norm": 0.778276264667511,
      "learning_rate": 0.00017885249686331903,
      "loss": 3.9725,
      "step": 211550
    },
    {
      "epoch": 0.44075,
      "grad_norm": 0.7770708799362183,
      "learning_rate": 0.00017884282234144791,
      "loss": 3.8021,
      "step": 211560
    },
    {
      "epoch": 0.44077083333333333,
      "grad_norm": 0.9878765344619751,
      "learning_rate": 0.0001788331476949873,
      "loss": 3.8294,
      "step": 211570
    },
    {
      "epoch": 0.4407916666666667,
      "grad_norm": 0.6858434081077576,
      "learning_rate": 0.00017882347292397891,
      "loss": 3.8004,
      "step": 211580
    },
    {
      "epoch": 0.4408125,
      "grad_norm": 0.76804518699646,
      "learning_rate": 0.00017881379802846446,
      "loss": 3.819,
      "step": 211590
    },
    {
      "epoch": 0.44083333333333335,
      "grad_norm": 0.8067342638969421,
      "learning_rate": 0.00017880412300848582,
      "loss": 3.8407,
      "step": 211600
    },
    {
      "epoch": 0.44085416666666666,
      "grad_norm": 0.838468611240387,
      "learning_rate": 0.00017879444786408482,
      "loss": 3.9089,
      "step": 211610
    },
    {
      "epoch": 0.440875,
      "grad_norm": 0.6768023371696472,
      "learning_rate": 0.00017878477259530316,
      "loss": 3.6901,
      "step": 211620
    },
    {
      "epoch": 0.4408958333333333,
      "grad_norm": 0.7578606009483337,
      "learning_rate": 0.00017877509720218269,
      "loss": 3.8278,
      "step": 211630
    },
    {
      "epoch": 0.4409166666666667,
      "grad_norm": 0.7771626710891724,
      "learning_rate": 0.00017876542168476523,
      "loss": 3.9302,
      "step": 211640
    },
    {
      "epoch": 0.4409375,
      "grad_norm": 0.695706844329834,
      "learning_rate": 0.0001787557460430925,
      "loss": 3.8173,
      "step": 211650
    },
    {
      "epoch": 0.44095833333333334,
      "grad_norm": 0.899723470211029,
      "learning_rate": 0.0001787460702772063,
      "loss": 3.882,
      "step": 211660
    },
    {
      "epoch": 0.44097916666666664,
      "grad_norm": 0.8998716473579407,
      "learning_rate": 0.00017873639438714846,
      "loss": 3.8138,
      "step": 211670
    },
    {
      "epoch": 0.441,
      "grad_norm": 0.9100516438484192,
      "learning_rate": 0.00017872671837296082,
      "loss": 3.9158,
      "step": 211680
    },
    {
      "epoch": 0.4410208333333333,
      "grad_norm": 0.848365843296051,
      "learning_rate": 0.00017871704223468513,
      "loss": 3.8478,
      "step": 211690
    },
    {
      "epoch": 0.44104166666666667,
      "grad_norm": 0.8689812421798706,
      "learning_rate": 0.00017870736597236307,
      "loss": 3.6769,
      "step": 211700
    },
    {
      "epoch": 0.4410625,
      "grad_norm": 0.6637271046638489,
      "learning_rate": 0.00017869768958603667,
      "loss": 3.7493,
      "step": 211710
    },
    {
      "epoch": 0.4410833333333333,
      "grad_norm": 0.8742327690124512,
      "learning_rate": 0.0001786880130757476,
      "loss": 3.6873,
      "step": 211720
    },
    {
      "epoch": 0.4411041666666667,
      "grad_norm": 0.7452598214149475,
      "learning_rate": 0.00017867833644153762,
      "loss": 3.8681,
      "step": 211730
    },
    {
      "epoch": 0.441125,
      "grad_norm": 0.9405038356781006,
      "learning_rate": 0.0001786686596834486,
      "loss": 3.8848,
      "step": 211740
    },
    {
      "epoch": 0.44114583333333335,
      "grad_norm": 0.9892112612724304,
      "learning_rate": 0.00017865898280152234,
      "loss": 3.8369,
      "step": 211750
    },
    {
      "epoch": 0.44116666666666665,
      "grad_norm": 0.7732619047164917,
      "learning_rate": 0.0001786493057958006,
      "loss": 3.5727,
      "step": 211760
    },
    {
      "epoch": 0.4411875,
      "grad_norm": 1.0193116664886475,
      "learning_rate": 0.00017863962866632516,
      "loss": 3.8497,
      "step": 211770
    },
    {
      "epoch": 0.4412083333333333,
      "grad_norm": 0.8899561166763306,
      "learning_rate": 0.00017862995141313792,
      "loss": 3.8072,
      "step": 211780
    },
    {
      "epoch": 0.4412291666666667,
      "grad_norm": 0.791211724281311,
      "learning_rate": 0.0001786202740362806,
      "loss": 3.782,
      "step": 211790
    },
    {
      "epoch": 0.44125,
      "grad_norm": 1.01499605178833,
      "learning_rate": 0.00017861059653579502,
      "loss": 3.7404,
      "step": 211800
    },
    {
      "epoch": 0.44127083333333333,
      "grad_norm": 0.8100991249084473,
      "learning_rate": 0.000178600918911723,
      "loss": 3.8542,
      "step": 211810
    },
    {
      "epoch": 0.4412916666666667,
      "grad_norm": 0.9277762174606323,
      "learning_rate": 0.00017859124116410632,
      "loss": 3.7729,
      "step": 211820
    },
    {
      "epoch": 0.4413125,
      "grad_norm": 1.4207651615142822,
      "learning_rate": 0.0001785815632929868,
      "loss": 3.6979,
      "step": 211830
    },
    {
      "epoch": 0.44133333333333336,
      "grad_norm": 1.0842111110687256,
      "learning_rate": 0.00017857188529840623,
      "loss": 4.0211,
      "step": 211840
    },
    {
      "epoch": 0.44135416666666666,
      "grad_norm": 0.7345304489135742,
      "learning_rate": 0.00017856220718040646,
      "loss": 3.7508,
      "step": 211850
    },
    {
      "epoch": 0.441375,
      "grad_norm": 0.8142982125282288,
      "learning_rate": 0.0001785525289390292,
      "loss": 4.0555,
      "step": 211860
    },
    {
      "epoch": 0.4413958333333333,
      "grad_norm": 0.8791422843933105,
      "learning_rate": 0.00017854285057431637,
      "loss": 3.576,
      "step": 211870
    },
    {
      "epoch": 0.4414166666666667,
      "grad_norm": 0.7898887395858765,
      "learning_rate": 0.0001785331720863097,
      "loss": 3.716,
      "step": 211880
    },
    {
      "epoch": 0.4414375,
      "grad_norm": 0.7097875475883484,
      "learning_rate": 0.00017852349347505104,
      "loss": 3.875,
      "step": 211890
    },
    {
      "epoch": 0.44145833333333334,
      "grad_norm": 0.9029527306556702,
      "learning_rate": 0.00017851381474058212,
      "loss": 3.9212,
      "step": 211900
    },
    {
      "epoch": 0.44147916666666664,
      "grad_norm": 0.7609792947769165,
      "learning_rate": 0.00017850413588294485,
      "loss": 3.9647,
      "step": 211910
    },
    {
      "epoch": 0.4415,
      "grad_norm": 0.8799642324447632,
      "learning_rate": 0.00017849445690218106,
      "loss": 3.8631,
      "step": 211920
    },
    {
      "epoch": 0.4415208333333333,
      "grad_norm": 0.7759531736373901,
      "learning_rate": 0.00017848477779833238,
      "loss": 3.9223,
      "step": 211930
    },
    {
      "epoch": 0.44154166666666667,
      "grad_norm": 0.8906785249710083,
      "learning_rate": 0.00017847509857144082,
      "loss": 3.7998,
      "step": 211940
    },
    {
      "epoch": 0.4415625,
      "grad_norm": 0.829611599445343,
      "learning_rate": 0.0001784654192215481,
      "loss": 3.8182,
      "step": 211950
    },
    {
      "epoch": 0.4415833333333333,
      "grad_norm": 0.7601538896560669,
      "learning_rate": 0.00017845573974869597,
      "loss": 3.9434,
      "step": 211960
    },
    {
      "epoch": 0.4416041666666667,
      "grad_norm": 0.910615086555481,
      "learning_rate": 0.00017844606015292636,
      "loss": 3.749,
      "step": 211970
    },
    {
      "epoch": 0.441625,
      "grad_norm": 0.8115794062614441,
      "learning_rate": 0.000178436380434281,
      "loss": 3.858,
      "step": 211980
    },
    {
      "epoch": 0.44164583333333335,
      "grad_norm": 0.6761053204536438,
      "learning_rate": 0.00017842670059280177,
      "loss": 3.6457,
      "step": 211990
    },
    {
      "epoch": 0.44166666666666665,
      "grad_norm": 0.9326620101928711,
      "learning_rate": 0.00017841702062853043,
      "loss": 3.8026,
      "step": 212000
    },
    {
      "epoch": 0.44166666666666665,
      "eval_loss": 4.1645917892456055,
      "eval_runtime": 8.5428,
      "eval_samples_per_second": 1.171,
      "eval_steps_per_second": 0.351,
      "step": 212000
    },
    {
      "epoch": 0.4416875,
      "grad_norm": 0.727075457572937,
      "learning_rate": 0.00017840734054150878,
      "loss": 3.6179,
      "step": 212010
    },
    {
      "epoch": 0.4417083333333333,
      "grad_norm": 0.9204686880111694,
      "learning_rate": 0.00017839766033177868,
      "loss": 3.7122,
      "step": 212020
    },
    {
      "epoch": 0.4417291666666667,
      "grad_norm": 0.9439092874526978,
      "learning_rate": 0.00017838797999938195,
      "loss": 3.8387,
      "step": 212030
    },
    {
      "epoch": 0.44175,
      "grad_norm": 0.8876492977142334,
      "learning_rate": 0.00017837829954436035,
      "loss": 3.9945,
      "step": 212040
    },
    {
      "epoch": 0.44177083333333333,
      "grad_norm": 0.8367992043495178,
      "learning_rate": 0.00017836861896675576,
      "loss": 3.7666,
      "step": 212050
    },
    {
      "epoch": 0.4417916666666667,
      "grad_norm": 0.8965807557106018,
      "learning_rate": 0.00017835893826660996,
      "loss": 3.6846,
      "step": 212060
    },
    {
      "epoch": 0.4418125,
      "grad_norm": 0.9070982933044434,
      "learning_rate": 0.00017834925744396473,
      "loss": 3.7092,
      "step": 212070
    },
    {
      "epoch": 0.44183333333333336,
      "grad_norm": 0.7909185886383057,
      "learning_rate": 0.00017833957649886198,
      "loss": 3.6148,
      "step": 212080
    },
    {
      "epoch": 0.44185416666666666,
      "grad_norm": 0.8390197157859802,
      "learning_rate": 0.00017832989543134349,
      "loss": 3.8061,
      "step": 212090
    },
    {
      "epoch": 0.441875,
      "grad_norm": 0.7975754141807556,
      "learning_rate": 0.000178320214241451,
      "loss": 3.7414,
      "step": 212100
    },
    {
      "epoch": 0.4418958333333333,
      "grad_norm": 0.837310254573822,
      "learning_rate": 0.00017831053292922648,
      "loss": 3.6444,
      "step": 212110
    },
    {
      "epoch": 0.4419166666666667,
      "grad_norm": 0.7457195520401001,
      "learning_rate": 0.0001783008514947116,
      "loss": 3.7256,
      "step": 212120
    },
    {
      "epoch": 0.4419375,
      "grad_norm": 0.8194074630737305,
      "learning_rate": 0.00017829116993794825,
      "loss": 3.8307,
      "step": 212130
    },
    {
      "epoch": 0.44195833333333334,
      "grad_norm": 0.7590765357017517,
      "learning_rate": 0.00017828148825897825,
      "loss": 3.789,
      "step": 212140
    },
    {
      "epoch": 0.44197916666666665,
      "grad_norm": 0.9366446137428284,
      "learning_rate": 0.0001782718064578434,
      "loss": 3.7697,
      "step": 212150
    },
    {
      "epoch": 0.442,
      "grad_norm": 0.7424368858337402,
      "learning_rate": 0.0001782621245345856,
      "loss": 3.8051,
      "step": 212160
    },
    {
      "epoch": 0.4420208333333333,
      "grad_norm": 0.7771121263504028,
      "learning_rate": 0.00017825244248924652,
      "loss": 3.9133,
      "step": 212170
    },
    {
      "epoch": 0.44204166666666667,
      "grad_norm": 0.7403721809387207,
      "learning_rate": 0.0001782427603218681,
      "loss": 3.7049,
      "step": 212180
    },
    {
      "epoch": 0.4420625,
      "grad_norm": 0.8848803639411926,
      "learning_rate": 0.00017823307803249217,
      "loss": 3.8889,
      "step": 212190
    },
    {
      "epoch": 0.44208333333333333,
      "grad_norm": 0.891830325126648,
      "learning_rate": 0.00017822339562116048,
      "loss": 3.7415,
      "step": 212200
    },
    {
      "epoch": 0.4421041666666667,
      "grad_norm": 0.8653658628463745,
      "learning_rate": 0.00017821371308791495,
      "loss": 3.8661,
      "step": 212210
    },
    {
      "epoch": 0.442125,
      "grad_norm": 0.7692564129829407,
      "learning_rate": 0.0001782040304327973,
      "loss": 3.7531,
      "step": 212220
    },
    {
      "epoch": 0.44214583333333335,
      "grad_norm": 0.8058370351791382,
      "learning_rate": 0.0001781943476558494,
      "loss": 3.929,
      "step": 212230
    },
    {
      "epoch": 0.44216666666666665,
      "grad_norm": 0.8056944608688354,
      "learning_rate": 0.00017818466475711308,
      "loss": 3.9216,
      "step": 212240
    },
    {
      "epoch": 0.4421875,
      "grad_norm": 0.9036310911178589,
      "learning_rate": 0.0001781749817366302,
      "loss": 3.6843,
      "step": 212250
    },
    {
      "epoch": 0.4422083333333333,
      "grad_norm": 0.7104048132896423,
      "learning_rate": 0.0001781652985944425,
      "loss": 3.9348,
      "step": 212260
    },
    {
      "epoch": 0.4422291666666667,
      "grad_norm": 0.8581287860870361,
      "learning_rate": 0.0001781556153305919,
      "loss": 3.9284,
      "step": 212270
    },
    {
      "epoch": 0.44225,
      "grad_norm": 0.6819022297859192,
      "learning_rate": 0.0001781459319451202,
      "loss": 3.781,
      "step": 212280
    },
    {
      "epoch": 0.44227083333333334,
      "grad_norm": 0.7307923436164856,
      "learning_rate": 0.00017813624843806918,
      "loss": 3.7037,
      "step": 212290
    },
    {
      "epoch": 0.4422916666666667,
      "grad_norm": 1.0654447078704834,
      "learning_rate": 0.00017812656480948065,
      "loss": 3.7489,
      "step": 212300
    },
    {
      "epoch": 0.4423125,
      "grad_norm": 0.8024397492408752,
      "learning_rate": 0.0001781168810593966,
      "loss": 3.8682,
      "step": 212310
    },
    {
      "epoch": 0.44233333333333336,
      "grad_norm": 0.7886845469474792,
      "learning_rate": 0.0001781071971878587,
      "loss": 3.7188,
      "step": 212320
    },
    {
      "epoch": 0.44235416666666666,
      "grad_norm": 0.7908526062965393,
      "learning_rate": 0.00017809751319490882,
      "loss": 3.7276,
      "step": 212330
    },
    {
      "epoch": 0.442375,
      "grad_norm": 0.8009665012359619,
      "learning_rate": 0.00017808782908058885,
      "loss": 3.6149,
      "step": 212340
    },
    {
      "epoch": 0.4423958333333333,
      "grad_norm": 0.8704243898391724,
      "learning_rate": 0.0001780781448449405,
      "loss": 3.783,
      "step": 212350
    },
    {
      "epoch": 0.4424166666666667,
      "grad_norm": 0.7369353175163269,
      "learning_rate": 0.00017806846048800578,
      "loss": 3.6256,
      "step": 212360
    },
    {
      "epoch": 0.4424375,
      "grad_norm": 0.8492236137390137,
      "learning_rate": 0.00017805877600982634,
      "loss": 3.619,
      "step": 212370
    },
    {
      "epoch": 0.44245833333333334,
      "grad_norm": 0.7848181128501892,
      "learning_rate": 0.00017804909141044413,
      "loss": 3.6451,
      "step": 212380
    },
    {
      "epoch": 0.44247916666666665,
      "grad_norm": 0.6955427527427673,
      "learning_rate": 0.00017803940668990097,
      "loss": 3.8219,
      "step": 212390
    },
    {
      "epoch": 0.4425,
      "grad_norm": 0.7324879765510559,
      "learning_rate": 0.0001780297218482386,
      "loss": 3.7914,
      "step": 212400
    },
    {
      "epoch": 0.4425208333333333,
      "grad_norm": 0.7494047284126282,
      "learning_rate": 0.00017802003688549897,
      "loss": 3.7766,
      "step": 212410
    },
    {
      "epoch": 0.44254166666666667,
      "grad_norm": 0.8263557553291321,
      "learning_rate": 0.0001780103518017239,
      "loss": 3.8223,
      "step": 212420
    },
    {
      "epoch": 0.4425625,
      "grad_norm": 0.8419903516769409,
      "learning_rate": 0.00017800066659695514,
      "loss": 3.939,
      "step": 212430
    },
    {
      "epoch": 0.44258333333333333,
      "grad_norm": 0.9603239893913269,
      "learning_rate": 0.0001779909812712346,
      "loss": 3.9084,
      "step": 212440
    },
    {
      "epoch": 0.4426041666666667,
      "grad_norm": 0.7589095234870911,
      "learning_rate": 0.00017798129582460414,
      "loss": 3.7877,
      "step": 212450
    },
    {
      "epoch": 0.442625,
      "grad_norm": 0.9449288249015808,
      "learning_rate": 0.00017797161025710556,
      "loss": 3.9016,
      "step": 212460
    },
    {
      "epoch": 0.44264583333333335,
      "grad_norm": 0.9956856966018677,
      "learning_rate": 0.0001779619245687806,
      "loss": 3.7663,
      "step": 212470
    },
    {
      "epoch": 0.44266666666666665,
      "grad_norm": 0.7861401438713074,
      "learning_rate": 0.00017795223875967132,
      "loss": 3.833,
      "step": 212480
    },
    {
      "epoch": 0.4426875,
      "grad_norm": 1.0341215133666992,
      "learning_rate": 0.00017794255282981938,
      "loss": 3.6708,
      "step": 212490
    },
    {
      "epoch": 0.4427083333333333,
      "grad_norm": 0.8550284504890442,
      "learning_rate": 0.0001779328667792666,
      "loss": 3.8725,
      "step": 212500
    },
    {
      "epoch": 0.4427291666666667,
      "grad_norm": 0.8224042057991028,
      "learning_rate": 0.000177923180608055,
      "loss": 3.7392,
      "step": 212510
    },
    {
      "epoch": 0.44275,
      "grad_norm": 0.8772582411766052,
      "learning_rate": 0.00017791349431622627,
      "loss": 3.755,
      "step": 212520
    },
    {
      "epoch": 0.44277083333333334,
      "grad_norm": 0.8299959897994995,
      "learning_rate": 0.00017790380790382227,
      "loss": 3.723,
      "step": 212530
    },
    {
      "epoch": 0.44279166666666664,
      "grad_norm": 0.837450385093689,
      "learning_rate": 0.00017789412137088491,
      "loss": 4.0332,
      "step": 212540
    },
    {
      "epoch": 0.4428125,
      "grad_norm": 0.7772297859191895,
      "learning_rate": 0.00017788443471745597,
      "loss": 3.8541,
      "step": 212550
    },
    {
      "epoch": 0.44283333333333336,
      "grad_norm": 0.8234270811080933,
      "learning_rate": 0.00017787474794357728,
      "loss": 3.8622,
      "step": 212560
    },
    {
      "epoch": 0.44285416666666666,
      "grad_norm": 0.8047751188278198,
      "learning_rate": 0.00017786506104929074,
      "loss": 3.7901,
      "step": 212570
    },
    {
      "epoch": 0.442875,
      "grad_norm": 0.7008612155914307,
      "learning_rate": 0.00017785537403463818,
      "loss": 3.6778,
      "step": 212580
    },
    {
      "epoch": 0.4428958333333333,
      "grad_norm": 0.930452823638916,
      "learning_rate": 0.00017784568689966143,
      "loss": 3.7415,
      "step": 212590
    },
    {
      "epoch": 0.4429166666666667,
      "grad_norm": 0.9135437607765198,
      "learning_rate": 0.00017783599964440227,
      "loss": 3.7766,
      "step": 212600
    },
    {
      "epoch": 0.4429375,
      "grad_norm": 0.8899117112159729,
      "learning_rate": 0.00017782631226890267,
      "loss": 3.7571,
      "step": 212610
    },
    {
      "epoch": 0.44295833333333334,
      "grad_norm": 0.8148990273475647,
      "learning_rate": 0.00017781662477320444,
      "loss": 3.7547,
      "step": 212620
    },
    {
      "epoch": 0.44297916666666665,
      "grad_norm": 0.8423427939414978,
      "learning_rate": 0.00017780693715734936,
      "loss": 3.6172,
      "step": 212630
    },
    {
      "epoch": 0.443,
      "grad_norm": 0.8480051755905151,
      "learning_rate": 0.0001777972494213793,
      "loss": 3.8063,
      "step": 212640
    },
    {
      "epoch": 0.4430208333333333,
      "grad_norm": 0.7726395726203918,
      "learning_rate": 0.00017778756156533617,
      "loss": 3.6192,
      "step": 212650
    },
    {
      "epoch": 0.44304166666666667,
      "grad_norm": 0.7311259508132935,
      "learning_rate": 0.00017777787358926172,
      "loss": 3.8087,
      "step": 212660
    },
    {
      "epoch": 0.4430625,
      "grad_norm": 0.7788465619087219,
      "learning_rate": 0.0001777681854931979,
      "loss": 3.7302,
      "step": 212670
    },
    {
      "epoch": 0.44308333333333333,
      "grad_norm": 0.7532663941383362,
      "learning_rate": 0.0001777584972771865,
      "loss": 3.8512,
      "step": 212680
    },
    {
      "epoch": 0.4431041666666667,
      "grad_norm": 0.8790428042411804,
      "learning_rate": 0.00017774880894126934,
      "loss": 3.8645,
      "step": 212690
    },
    {
      "epoch": 0.443125,
      "grad_norm": 0.7977872490882874,
      "learning_rate": 0.00017773912048548837,
      "loss": 3.7905,
      "step": 212700
    },
    {
      "epoch": 0.44314583333333335,
      "grad_norm": 0.7473382949829102,
      "learning_rate": 0.00017772943190988536,
      "loss": 3.8447,
      "step": 212710
    },
    {
      "epoch": 0.44316666666666665,
      "grad_norm": 0.7589622735977173,
      "learning_rate": 0.00017771974321450216,
      "loss": 4.0232,
      "step": 212720
    },
    {
      "epoch": 0.4431875,
      "grad_norm": 0.8485053181648254,
      "learning_rate": 0.00017771005439938062,
      "loss": 3.9809,
      "step": 212730
    },
    {
      "epoch": 0.4432083333333333,
      "grad_norm": 0.895158588886261,
      "learning_rate": 0.00017770036546456268,
      "loss": 3.7643,
      "step": 212740
    },
    {
      "epoch": 0.4432291666666667,
      "grad_norm": 1.0477451086044312,
      "learning_rate": 0.00017769067641009006,
      "loss": 3.7844,
      "step": 212750
    },
    {
      "epoch": 0.44325,
      "grad_norm": 0.7399527430534363,
      "learning_rate": 0.00017768098723600474,
      "loss": 3.8416,
      "step": 212760
    },
    {
      "epoch": 0.44327083333333334,
      "grad_norm": 0.7079674005508423,
      "learning_rate": 0.00017767129794234846,
      "loss": 3.6217,
      "step": 212770
    },
    {
      "epoch": 0.44329166666666664,
      "grad_norm": 0.9229689836502075,
      "learning_rate": 0.00017766160852916314,
      "loss": 3.7829,
      "step": 212780
    },
    {
      "epoch": 0.4433125,
      "grad_norm": 0.8335080146789551,
      "learning_rate": 0.0001776519189964907,
      "loss": 3.7349,
      "step": 212790
    },
    {
      "epoch": 0.44333333333333336,
      "grad_norm": 0.7991507649421692,
      "learning_rate": 0.00017764222934437278,
      "loss": 3.8785,
      "step": 212800
    },
    {
      "epoch": 0.44335416666666666,
      "grad_norm": 0.7021991014480591,
      "learning_rate": 0.00017763253957285143,
      "loss": 3.9073,
      "step": 212810
    },
    {
      "epoch": 0.443375,
      "grad_norm": 0.8302923440933228,
      "learning_rate": 0.00017762284968196848,
      "loss": 3.6937,
      "step": 212820
    },
    {
      "epoch": 0.4433958333333333,
      "grad_norm": 0.9184975624084473,
      "learning_rate": 0.00017761315967176574,
      "loss": 3.7816,
      "step": 212830
    },
    {
      "epoch": 0.4434166666666667,
      "grad_norm": 0.8563464879989624,
      "learning_rate": 0.00017760346954228504,
      "loss": 3.7067,
      "step": 212840
    },
    {
      "epoch": 0.4434375,
      "grad_norm": 0.7728320956230164,
      "learning_rate": 0.0001775937792935683,
      "loss": 3.7833,
      "step": 212850
    },
    {
      "epoch": 0.44345833333333334,
      "grad_norm": 0.7440637350082397,
      "learning_rate": 0.00017758408892565736,
      "loss": 3.9705,
      "step": 212860
    },
    {
      "epoch": 0.44347916666666665,
      "grad_norm": 0.879744827747345,
      "learning_rate": 0.00017757439843859408,
      "loss": 3.8375,
      "step": 212870
    },
    {
      "epoch": 0.4435,
      "grad_norm": 0.7936941385269165,
      "learning_rate": 0.00017756470783242032,
      "loss": 3.8282,
      "step": 212880
    },
    {
      "epoch": 0.4435208333333333,
      "grad_norm": 0.7885787487030029,
      "learning_rate": 0.00017755501710717793,
      "loss": 3.7582,
      "step": 212890
    },
    {
      "epoch": 0.44354166666666667,
      "grad_norm": 0.8258886337280273,
      "learning_rate": 0.00017754532626290873,
      "loss": 3.7065,
      "step": 212900
    },
    {
      "epoch": 0.4435625,
      "grad_norm": 1.0775156021118164,
      "learning_rate": 0.00017753563529965467,
      "loss": 3.7431,
      "step": 212910
    },
    {
      "epoch": 0.44358333333333333,
      "grad_norm": 0.8022864460945129,
      "learning_rate": 0.00017752594421745755,
      "loss": 3.7779,
      "step": 212920
    },
    {
      "epoch": 0.4436041666666667,
      "grad_norm": 0.7652286887168884,
      "learning_rate": 0.00017751625301635923,
      "loss": 3.7369,
      "step": 212930
    },
    {
      "epoch": 0.443625,
      "grad_norm": 0.8027490973472595,
      "learning_rate": 0.00017750656169640162,
      "loss": 3.5895,
      "step": 212940
    },
    {
      "epoch": 0.44364583333333335,
      "grad_norm": 0.7258865833282471,
      "learning_rate": 0.0001774968702576265,
      "loss": 3.7861,
      "step": 212950
    },
    {
      "epoch": 0.44366666666666665,
      "grad_norm": 0.8028922080993652,
      "learning_rate": 0.00017748717870007586,
      "loss": 3.8496,
      "step": 212960
    },
    {
      "epoch": 0.4436875,
      "grad_norm": 0.7533273696899414,
      "learning_rate": 0.00017747748702379143,
      "loss": 3.7823,
      "step": 212970
    },
    {
      "epoch": 0.4437083333333333,
      "grad_norm": 0.7537243366241455,
      "learning_rate": 0.0001774677952288152,
      "loss": 3.7143,
      "step": 212980
    },
    {
      "epoch": 0.4437291666666667,
      "grad_norm": 0.9096549153327942,
      "learning_rate": 0.00017745810331518892,
      "loss": 3.9045,
      "step": 212990
    },
    {
      "epoch": 0.44375,
      "grad_norm": 0.81485515832901,
      "learning_rate": 0.00017744841128295444,
      "loss": 3.6782,
      "step": 213000
    },
    {
      "epoch": 0.44375,
      "eval_loss": 4.154639720916748,
      "eval_runtime": 9.6859,
      "eval_samples_per_second": 1.032,
      "eval_steps_per_second": 0.31,
      "step": 213000
    },
    {
      "epoch": 0.44377083333333334,
      "grad_norm": 0.739080548286438,
      "learning_rate": 0.00017743871913215381,
      "loss": 3.6915,
      "step": 213010
    },
    {
      "epoch": 0.44379166666666664,
      "grad_norm": 0.7856892347335815,
      "learning_rate": 0.00017742902686282872,
      "loss": 3.9793,
      "step": 213020
    },
    {
      "epoch": 0.4438125,
      "grad_norm": 0.8181655406951904,
      "learning_rate": 0.00017741933447502106,
      "loss": 3.7343,
      "step": 213030
    },
    {
      "epoch": 0.44383333333333336,
      "grad_norm": 0.9712103605270386,
      "learning_rate": 0.00017740964196877277,
      "loss": 3.7578,
      "step": 213040
    },
    {
      "epoch": 0.44385416666666666,
      "grad_norm": 0.9334967732429504,
      "learning_rate": 0.00017739994934412562,
      "loss": 3.4665,
      "step": 213050
    },
    {
      "epoch": 0.443875,
      "grad_norm": 0.7464433312416077,
      "learning_rate": 0.00017739025660112157,
      "loss": 3.827,
      "step": 213060
    },
    {
      "epoch": 0.4438958333333333,
      "grad_norm": 0.7570880055427551,
      "learning_rate": 0.00017738056373980246,
      "loss": 3.6562,
      "step": 213070
    },
    {
      "epoch": 0.4439166666666667,
      "grad_norm": 0.7591307163238525,
      "learning_rate": 0.00017737087076021018,
      "loss": 3.8642,
      "step": 213080
    },
    {
      "epoch": 0.4439375,
      "grad_norm": 0.7253750562667847,
      "learning_rate": 0.00017736117766238655,
      "loss": 3.8652,
      "step": 213090
    },
    {
      "epoch": 0.44395833333333334,
      "grad_norm": 0.8147680759429932,
      "learning_rate": 0.00017735148444637341,
      "loss": 3.674,
      "step": 213100
    },
    {
      "epoch": 0.44397916666666665,
      "grad_norm": 0.8776649236679077,
      "learning_rate": 0.00017734179111221276,
      "loss": 3.6828,
      "step": 213110
    },
    {
      "epoch": 0.444,
      "grad_norm": 0.8217876553535461,
      "learning_rate": 0.0001773320976599464,
      "loss": 3.6282,
      "step": 213120
    },
    {
      "epoch": 0.4440208333333333,
      "grad_norm": 0.6699659824371338,
      "learning_rate": 0.00017732240408961615,
      "loss": 3.7487,
      "step": 213130
    },
    {
      "epoch": 0.44404166666666667,
      "grad_norm": 0.8363955020904541,
      "learning_rate": 0.0001773127104012639,
      "loss": 3.6593,
      "step": 213140
    },
    {
      "epoch": 0.4440625,
      "grad_norm": 0.7808507680892944,
      "learning_rate": 0.0001773030165949316,
      "loss": 3.9884,
      "step": 213150
    },
    {
      "epoch": 0.44408333333333333,
      "grad_norm": 0.8082558512687683,
      "learning_rate": 0.00017729332267066113,
      "loss": 3.9405,
      "step": 213160
    },
    {
      "epoch": 0.4441041666666667,
      "grad_norm": 0.9318697452545166,
      "learning_rate": 0.00017728362862849418,
      "loss": 3.9366,
      "step": 213170
    },
    {
      "epoch": 0.444125,
      "grad_norm": 0.9069943428039551,
      "learning_rate": 0.00017727393446847288,
      "loss": 3.7122,
      "step": 213180
    },
    {
      "epoch": 0.44414583333333335,
      "grad_norm": 0.8115567564964294,
      "learning_rate": 0.0001772642401906389,
      "loss": 3.7927,
      "step": 213190
    },
    {
      "epoch": 0.44416666666666665,
      "grad_norm": 0.7877859473228455,
      "learning_rate": 0.0001772545457950342,
      "loss": 3.7596,
      "step": 213200
    },
    {
      "epoch": 0.4441875,
      "grad_norm": 0.8085097074508667,
      "learning_rate": 0.00017724485128170066,
      "loss": 3.8824,
      "step": 213210
    },
    {
      "epoch": 0.4442083333333333,
      "grad_norm": 1.0215250253677368,
      "learning_rate": 0.00017723515665068017,
      "loss": 3.7143,
      "step": 213220
    },
    {
      "epoch": 0.4442291666666667,
      "grad_norm": 0.7590799331665039,
      "learning_rate": 0.00017722546190201456,
      "loss": 3.7441,
      "step": 213230
    },
    {
      "epoch": 0.44425,
      "grad_norm": 1.2060296535491943,
      "learning_rate": 0.00017721576703574573,
      "loss": 3.8998,
      "step": 213240
    },
    {
      "epoch": 0.44427083333333334,
      "grad_norm": 0.7964367866516113,
      "learning_rate": 0.00017720607205191555,
      "loss": 3.625,
      "step": 213250
    },
    {
      "epoch": 0.44429166666666664,
      "grad_norm": 0.8894115090370178,
      "learning_rate": 0.000177196376950566,
      "loss": 3.9325,
      "step": 213260
    },
    {
      "epoch": 0.4443125,
      "grad_norm": 0.8056159615516663,
      "learning_rate": 0.0001771866817317387,
      "loss": 3.7356,
      "step": 213270
    },
    {
      "epoch": 0.44433333333333336,
      "grad_norm": 0.8397482633590698,
      "learning_rate": 0.00017717698639547582,
      "loss": 3.7411,
      "step": 213280
    },
    {
      "epoch": 0.44435416666666666,
      "grad_norm": 0.7424691915512085,
      "learning_rate": 0.0001771672909418191,
      "loss": 3.648,
      "step": 213290
    },
    {
      "epoch": 0.444375,
      "grad_norm": 0.8670456409454346,
      "learning_rate": 0.0001771575953708104,
      "loss": 3.8086,
      "step": 213300
    },
    {
      "epoch": 0.4443958333333333,
      "grad_norm": 0.7747915983200073,
      "learning_rate": 0.00017714789968249165,
      "loss": 3.9185,
      "step": 213310
    },
    {
      "epoch": 0.4444166666666667,
      "grad_norm": 0.7092797160148621,
      "learning_rate": 0.00017713820387690478,
      "loss": 3.771,
      "step": 213320
    },
    {
      "epoch": 0.4444375,
      "grad_norm": 0.8652082085609436,
      "learning_rate": 0.00017712850795409152,
      "loss": 3.7226,
      "step": 213330
    },
    {
      "epoch": 0.44445833333333334,
      "grad_norm": 0.7716449499130249,
      "learning_rate": 0.00017711881191409388,
      "loss": 3.8701,
      "step": 213340
    },
    {
      "epoch": 0.44447916666666665,
      "grad_norm": 0.7934971451759338,
      "learning_rate": 0.00017710911575695372,
      "loss": 3.7712,
      "step": 213350
    },
    {
      "epoch": 0.4445,
      "grad_norm": 0.7466546297073364,
      "learning_rate": 0.0001770994194827129,
      "loss": 3.9078,
      "step": 213360
    },
    {
      "epoch": 0.4445208333333333,
      "grad_norm": 0.7687228322029114,
      "learning_rate": 0.00017708972309141328,
      "loss": 3.7124,
      "step": 213370
    },
    {
      "epoch": 0.44454166666666667,
      "grad_norm": 0.7348003387451172,
      "learning_rate": 0.00017708002658309687,
      "loss": 3.757,
      "step": 213380
    },
    {
      "epoch": 0.4445625,
      "grad_norm": 0.9961374402046204,
      "learning_rate": 0.0001770703299578054,
      "loss": 3.7825,
      "step": 213390
    },
    {
      "epoch": 0.44458333333333333,
      "grad_norm": 0.8854426741600037,
      "learning_rate": 0.00017706063321558082,
      "loss": 3.8525,
      "step": 213400
    },
    {
      "epoch": 0.4446041666666667,
      "grad_norm": 0.8673180937767029,
      "learning_rate": 0.000177050936356465,
      "loss": 3.8651,
      "step": 213410
    },
    {
      "epoch": 0.444625,
      "grad_norm": 0.6599836349487305,
      "learning_rate": 0.00017704123938049987,
      "loss": 3.8997,
      "step": 213420
    },
    {
      "epoch": 0.44464583333333335,
      "grad_norm": 1.0286238193511963,
      "learning_rate": 0.00017703154228772728,
      "loss": 3.6796,
      "step": 213430
    },
    {
      "epoch": 0.44466666666666665,
      "grad_norm": 0.7521723508834839,
      "learning_rate": 0.00017702184507818915,
      "loss": 3.8314,
      "step": 213440
    },
    {
      "epoch": 0.4446875,
      "grad_norm": 0.6966525316238403,
      "learning_rate": 0.0001770121477519273,
      "loss": 3.5803,
      "step": 213450
    },
    {
      "epoch": 0.4447083333333333,
      "grad_norm": 0.8025906085968018,
      "learning_rate": 0.00017700245030898373,
      "loss": 3.8389,
      "step": 213460
    },
    {
      "epoch": 0.4447291666666667,
      "grad_norm": 0.6883004903793335,
      "learning_rate": 0.0001769927527494002,
      "loss": 3.708,
      "step": 213470
    },
    {
      "epoch": 0.44475,
      "grad_norm": 0.6851367354393005,
      "learning_rate": 0.0001769830550732187,
      "loss": 3.8116,
      "step": 213480
    },
    {
      "epoch": 0.44477083333333334,
      "grad_norm": 0.745442271232605,
      "learning_rate": 0.00017697335728048105,
      "loss": 3.673,
      "step": 213490
    },
    {
      "epoch": 0.44479166666666664,
      "grad_norm": 0.7911413311958313,
      "learning_rate": 0.00017696365937122917,
      "loss": 3.6754,
      "step": 213500
    },
    {
      "epoch": 0.4448125,
      "grad_norm": 0.7929508090019226,
      "learning_rate": 0.00017695396134550498,
      "loss": 3.8757,
      "step": 213510
    },
    {
      "epoch": 0.44483333333333336,
      "grad_norm": 0.779678463935852,
      "learning_rate": 0.0001769442632033504,
      "loss": 3.5578,
      "step": 213520
    },
    {
      "epoch": 0.44485416666666666,
      "grad_norm": 0.8368452787399292,
      "learning_rate": 0.00017693456494480717,
      "loss": 3.9428,
      "step": 213530
    },
    {
      "epoch": 0.444875,
      "grad_norm": 0.7393520474433899,
      "learning_rate": 0.0001769248665699173,
      "loss": 3.7483,
      "step": 213540
    },
    {
      "epoch": 0.4448958333333333,
      "grad_norm": 1.0898358821868896,
      "learning_rate": 0.00017691516807872272,
      "loss": 3.7186,
      "step": 213550
    },
    {
      "epoch": 0.4449166666666667,
      "grad_norm": 0.7913667559623718,
      "learning_rate": 0.00017690546947126524,
      "loss": 3.7179,
      "step": 213560
    },
    {
      "epoch": 0.4449375,
      "grad_norm": 0.8677204251289368,
      "learning_rate": 0.00017689577074758679,
      "loss": 3.7414,
      "step": 213570
    },
    {
      "epoch": 0.44495833333333334,
      "grad_norm": 0.8356863856315613,
      "learning_rate": 0.00017688607190772924,
      "loss": 3.5397,
      "step": 213580
    },
    {
      "epoch": 0.44497916666666665,
      "grad_norm": 0.8272428512573242,
      "learning_rate": 0.00017687637295173448,
      "loss": 3.9051,
      "step": 213590
    },
    {
      "epoch": 0.445,
      "grad_norm": 0.912655234336853,
      "learning_rate": 0.00017686667387964444,
      "loss": 3.8023,
      "step": 213600
    },
    {
      "epoch": 0.4450208333333333,
      "grad_norm": 0.8235670328140259,
      "learning_rate": 0.00017685697469150104,
      "loss": 3.8151,
      "step": 213610
    },
    {
      "epoch": 0.44504166666666667,
      "grad_norm": 0.7781650424003601,
      "learning_rate": 0.0001768472753873461,
      "loss": 3.8137,
      "step": 213620
    },
    {
      "epoch": 0.4450625,
      "grad_norm": 0.8373658061027527,
      "learning_rate": 0.0001768375759672216,
      "loss": 3.799,
      "step": 213630
    },
    {
      "epoch": 0.44508333333333333,
      "grad_norm": 0.9785881042480469,
      "learning_rate": 0.00017682787643116934,
      "loss": 3.8008,
      "step": 213640
    },
    {
      "epoch": 0.4451041666666667,
      "grad_norm": 0.8967382907867432,
      "learning_rate": 0.0001768181767792313,
      "loss": 3.7612,
      "step": 213650
    },
    {
      "epoch": 0.445125,
      "grad_norm": 0.769804835319519,
      "learning_rate": 0.00017680847701144936,
      "loss": 4.0018,
      "step": 213660
    },
    {
      "epoch": 0.44514583333333335,
      "grad_norm": 0.944730281829834,
      "learning_rate": 0.00017679877712786538,
      "loss": 3.8407,
      "step": 213670
    },
    {
      "epoch": 0.44516666666666665,
      "grad_norm": 1.1008672714233398,
      "learning_rate": 0.00017678907712852132,
      "loss": 3.7848,
      "step": 213680
    },
    {
      "epoch": 0.4451875,
      "grad_norm": 0.7689015865325928,
      "learning_rate": 0.0001767793770134591,
      "loss": 3.9082,
      "step": 213690
    },
    {
      "epoch": 0.4452083333333333,
      "grad_norm": 0.7483569979667664,
      "learning_rate": 0.00017676967678272048,
      "loss": 3.8413,
      "step": 213700
    },
    {
      "epoch": 0.4452291666666667,
      "grad_norm": 0.8540282845497131,
      "learning_rate": 0.00017675997643634746,
      "loss": 3.7557,
      "step": 213710
    },
    {
      "epoch": 0.44525,
      "grad_norm": 0.7750794291496277,
      "learning_rate": 0.00017675027597438198,
      "loss": 3.9305,
      "step": 213720
    },
    {
      "epoch": 0.44527083333333334,
      "grad_norm": 0.8106008172035217,
      "learning_rate": 0.0001767405753968659,
      "loss": 3.8462,
      "step": 213730
    },
    {
      "epoch": 0.44529166666666664,
      "grad_norm": 0.7009249925613403,
      "learning_rate": 0.00017673087470384107,
      "loss": 3.6982,
      "step": 213740
    },
    {
      "epoch": 0.4453125,
      "grad_norm": 0.8325538039207458,
      "learning_rate": 0.00017672117389534947,
      "loss": 3.6927,
      "step": 213750
    },
    {
      "epoch": 0.44533333333333336,
      "grad_norm": 0.7151668071746826,
      "learning_rate": 0.00017671147297143296,
      "loss": 3.9579,
      "step": 213760
    },
    {
      "epoch": 0.44535416666666666,
      "grad_norm": 0.968100905418396,
      "learning_rate": 0.0001767017719321335,
      "loss": 3.8383,
      "step": 213770
    },
    {
      "epoch": 0.445375,
      "grad_norm": 0.8982349038124084,
      "learning_rate": 0.0001766920707774929,
      "loss": 3.7261,
      "step": 213780
    },
    {
      "epoch": 0.4453958333333333,
      "grad_norm": 0.7369963526725769,
      "learning_rate": 0.00017668236950755314,
      "loss": 3.6348,
      "step": 213790
    },
    {
      "epoch": 0.4454166666666667,
      "grad_norm": 0.8299223184585571,
      "learning_rate": 0.00017667266812235614,
      "loss": 4.0263,
      "step": 213800
    },
    {
      "epoch": 0.4454375,
      "grad_norm": 0.865476667881012,
      "learning_rate": 0.00017666296662194374,
      "loss": 3.7265,
      "step": 213810
    },
    {
      "epoch": 0.44545833333333335,
      "grad_norm": 0.8694138526916504,
      "learning_rate": 0.0001766532650063579,
      "loss": 3.8721,
      "step": 213820
    },
    {
      "epoch": 0.44547916666666665,
      "grad_norm": 0.732003927230835,
      "learning_rate": 0.0001766435632756405,
      "loss": 3.644,
      "step": 213830
    },
    {
      "epoch": 0.4455,
      "grad_norm": 1.1233018636703491,
      "learning_rate": 0.0001766338614298334,
      "loss": 3.7813,
      "step": 213840
    },
    {
      "epoch": 0.4455208333333333,
      "grad_norm": 0.8639100193977356,
      "learning_rate": 0.00017662415946897864,
      "loss": 3.852,
      "step": 213850
    },
    {
      "epoch": 0.44554166666666667,
      "grad_norm": 0.8594472408294678,
      "learning_rate": 0.000176614457393118,
      "loss": 3.7085,
      "step": 213860
    },
    {
      "epoch": 0.4455625,
      "grad_norm": 0.717110812664032,
      "learning_rate": 0.0001766047552022934,
      "loss": 3.785,
      "step": 213870
    },
    {
      "epoch": 0.44558333333333333,
      "grad_norm": 0.8506201505661011,
      "learning_rate": 0.00017659505289654688,
      "loss": 3.7451,
      "step": 213880
    },
    {
      "epoch": 0.4456041666666667,
      "grad_norm": 0.799103319644928,
      "learning_rate": 0.00017658535047592025,
      "loss": 3.7809,
      "step": 213890
    },
    {
      "epoch": 0.445625,
      "grad_norm": 0.7818989157676697,
      "learning_rate": 0.00017657564794045538,
      "loss": 3.8166,
      "step": 213900
    },
    {
      "epoch": 0.44564583333333335,
      "grad_norm": 0.872761070728302,
      "learning_rate": 0.00017656594529019424,
      "loss": 3.8066,
      "step": 213910
    },
    {
      "epoch": 0.44566666666666666,
      "grad_norm": 0.814357578754425,
      "learning_rate": 0.00017655624252517873,
      "loss": 3.6931,
      "step": 213920
    },
    {
      "epoch": 0.4456875,
      "grad_norm": 0.7624467611312866,
      "learning_rate": 0.0001765465396454508,
      "loss": 3.7005,
      "step": 213930
    },
    {
      "epoch": 0.4457083333333333,
      "grad_norm": 0.954084575176239,
      "learning_rate": 0.00017653683665105226,
      "loss": 3.6728,
      "step": 213940
    },
    {
      "epoch": 0.4457291666666667,
      "grad_norm": 0.9292888045310974,
      "learning_rate": 0.00017652713354202515,
      "loss": 3.7712,
      "step": 213950
    },
    {
      "epoch": 0.44575,
      "grad_norm": 0.9821249842643738,
      "learning_rate": 0.0001765174303184113,
      "loss": 3.9097,
      "step": 213960
    },
    {
      "epoch": 0.44577083333333334,
      "grad_norm": 0.8444068431854248,
      "learning_rate": 0.00017650772698025264,
      "loss": 3.702,
      "step": 213970
    },
    {
      "epoch": 0.44579166666666664,
      "grad_norm": 0.8181887865066528,
      "learning_rate": 0.00017649802352759112,
      "loss": 3.8574,
      "step": 213980
    },
    {
      "epoch": 0.4458125,
      "grad_norm": 0.8363041877746582,
      "learning_rate": 0.0001764883199604686,
      "loss": 3.8991,
      "step": 213990
    },
    {
      "epoch": 0.44583333333333336,
      "grad_norm": 0.8255643844604492,
      "learning_rate": 0.00017647861627892702,
      "loss": 3.8097,
      "step": 214000
    },
    {
      "epoch": 0.44583333333333336,
      "eval_loss": 4.1580095291137695,
      "eval_runtime": 9.2182,
      "eval_samples_per_second": 1.085,
      "eval_steps_per_second": 0.325,
      "step": 214000
    },
    {
      "epoch": 0.44585416666666666,
      "grad_norm": 0.8010110855102539,
      "learning_rate": 0.0001764689124830083,
      "loss": 3.7712,
      "step": 214010
    },
    {
      "epoch": 0.445875,
      "grad_norm": 0.7918362617492676,
      "learning_rate": 0.0001764592085727544,
      "loss": 3.8192,
      "step": 214020
    },
    {
      "epoch": 0.4458958333333333,
      "grad_norm": 0.7001497745513916,
      "learning_rate": 0.0001764495045482072,
      "loss": 3.8575,
      "step": 214030
    },
    {
      "epoch": 0.4459166666666667,
      "grad_norm": 0.7755666375160217,
      "learning_rate": 0.00017643980040940848,
      "loss": 3.8123,
      "step": 214040
    },
    {
      "epoch": 0.4459375,
      "grad_norm": 0.9082217216491699,
      "learning_rate": 0.0001764300961564004,
      "loss": 3.6774,
      "step": 214050
    },
    {
      "epoch": 0.44595833333333335,
      "grad_norm": 0.9027419686317444,
      "learning_rate": 0.00017642039178922476,
      "loss": 3.9336,
      "step": 214060
    },
    {
      "epoch": 0.44597916666666665,
      "grad_norm": 0.8057785034179688,
      "learning_rate": 0.00017641068730792344,
      "loss": 3.8631,
      "step": 214070
    },
    {
      "epoch": 0.446,
      "grad_norm": 0.9600836038589478,
      "learning_rate": 0.00017640098271253847,
      "loss": 3.6436,
      "step": 214080
    },
    {
      "epoch": 0.4460208333333333,
      "grad_norm": 0.7495188117027283,
      "learning_rate": 0.00017639127800311166,
      "loss": 3.7976,
      "step": 214090
    },
    {
      "epoch": 0.44604166666666667,
      "grad_norm": 0.7718276977539062,
      "learning_rate": 0.00017638157317968495,
      "loss": 3.6735,
      "step": 214100
    },
    {
      "epoch": 0.4460625,
      "grad_norm": 0.8330195546150208,
      "learning_rate": 0.00017637186824230033,
      "loss": 3.7157,
      "step": 214110
    },
    {
      "epoch": 0.44608333333333333,
      "grad_norm": 0.8479641079902649,
      "learning_rate": 0.00017636216319099967,
      "loss": 3.7775,
      "step": 214120
    },
    {
      "epoch": 0.4461041666666667,
      "grad_norm": 0.8485685586929321,
      "learning_rate": 0.0001763524580258249,
      "loss": 3.8395,
      "step": 214130
    },
    {
      "epoch": 0.446125,
      "grad_norm": 0.6909132599830627,
      "learning_rate": 0.00017634275274681794,
      "loss": 3.7385,
      "step": 214140
    },
    {
      "epoch": 0.44614583333333335,
      "grad_norm": 0.78793865442276,
      "learning_rate": 0.0001763330473540207,
      "loss": 3.6868,
      "step": 214150
    },
    {
      "epoch": 0.44616666666666666,
      "grad_norm": 0.8029932975769043,
      "learning_rate": 0.00017632334184747517,
      "loss": 3.8711,
      "step": 214160
    },
    {
      "epoch": 0.4461875,
      "grad_norm": 0.7528717517852783,
      "learning_rate": 0.00017631363622722313,
      "loss": 3.8087,
      "step": 214170
    },
    {
      "epoch": 0.4462083333333333,
      "grad_norm": 0.7855353951454163,
      "learning_rate": 0.00017630393049330667,
      "loss": 3.8945,
      "step": 214180
    },
    {
      "epoch": 0.4462291666666667,
      "grad_norm": 0.8706746101379395,
      "learning_rate": 0.00017629422464576766,
      "loss": 3.7863,
      "step": 214190
    },
    {
      "epoch": 0.44625,
      "grad_norm": 0.7104641795158386,
      "learning_rate": 0.000176284518684648,
      "loss": 3.8315,
      "step": 214200
    },
    {
      "epoch": 0.44627083333333334,
      "grad_norm": 0.9554730653762817,
      "learning_rate": 0.00017627481260998955,
      "loss": 3.8499,
      "step": 214210
    },
    {
      "epoch": 0.44629166666666664,
      "grad_norm": 0.7681565880775452,
      "learning_rate": 0.00017626510642183436,
      "loss": 3.8295,
      "step": 214220
    },
    {
      "epoch": 0.4463125,
      "grad_norm": 0.8620387315750122,
      "learning_rate": 0.0001762554001202243,
      "loss": 3.6268,
      "step": 214230
    },
    {
      "epoch": 0.44633333333333336,
      "grad_norm": 0.8427082896232605,
      "learning_rate": 0.00017624569370520128,
      "loss": 3.6881,
      "step": 214240
    },
    {
      "epoch": 0.44635416666666666,
      "grad_norm": 0.9575964212417603,
      "learning_rate": 0.00017623598717680732,
      "loss": 3.711,
      "step": 214250
    },
    {
      "epoch": 0.446375,
      "grad_norm": 0.8452014923095703,
      "learning_rate": 0.00017622628053508423,
      "loss": 3.8493,
      "step": 214260
    },
    {
      "epoch": 0.4463958333333333,
      "grad_norm": 1.1715470552444458,
      "learning_rate": 0.000176216573780074,
      "loss": 3.8365,
      "step": 214270
    },
    {
      "epoch": 0.4464166666666667,
      "grad_norm": 0.7649202942848206,
      "learning_rate": 0.00017620686691181852,
      "loss": 3.7124,
      "step": 214280
    },
    {
      "epoch": 0.4464375,
      "grad_norm": 0.8967770338058472,
      "learning_rate": 0.0001761971599303598,
      "loss": 3.7957,
      "step": 214290
    },
    {
      "epoch": 0.44645833333333335,
      "grad_norm": 0.7683911323547363,
      "learning_rate": 0.00017618745283573968,
      "loss": 3.8035,
      "step": 214300
    },
    {
      "epoch": 0.44647916666666665,
      "grad_norm": 1.0750616788864136,
      "learning_rate": 0.00017617774562800014,
      "loss": 3.6453,
      "step": 214310
    },
    {
      "epoch": 0.4465,
      "grad_norm": 0.8130404949188232,
      "learning_rate": 0.00017616803830718312,
      "loss": 3.8659,
      "step": 214320
    },
    {
      "epoch": 0.4465208333333333,
      "grad_norm": 0.7337655425071716,
      "learning_rate": 0.00017615833087333057,
      "loss": 3.7009,
      "step": 214330
    },
    {
      "epoch": 0.44654166666666667,
      "grad_norm": 0.7917225360870361,
      "learning_rate": 0.00017614862332648425,
      "loss": 3.6498,
      "step": 214340
    },
    {
      "epoch": 0.4465625,
      "grad_norm": 0.9824923276901245,
      "learning_rate": 0.00017613891566668633,
      "loss": 3.7539,
      "step": 214350
    },
    {
      "epoch": 0.44658333333333333,
      "grad_norm": 0.7389124631881714,
      "learning_rate": 0.00017612920789397866,
      "loss": 3.8938,
      "step": 214360
    },
    {
      "epoch": 0.4466041666666667,
      "grad_norm": 0.798223078250885,
      "learning_rate": 0.00017611950000840303,
      "loss": 3.71,
      "step": 214370
    },
    {
      "epoch": 0.446625,
      "grad_norm": 0.8466336727142334,
      "learning_rate": 0.0001761097920100016,
      "loss": 3.7808,
      "step": 214380
    },
    {
      "epoch": 0.44664583333333335,
      "grad_norm": 0.7181200981140137,
      "learning_rate": 0.00017610008389881622,
      "loss": 4.0441,
      "step": 214390
    },
    {
      "epoch": 0.44666666666666666,
      "grad_norm": 0.8873786926269531,
      "learning_rate": 0.00017609037567488877,
      "loss": 3.6901,
      "step": 214400
    },
    {
      "epoch": 0.4466875,
      "grad_norm": 0.8188546895980835,
      "learning_rate": 0.00017608066733826124,
      "loss": 3.8884,
      "step": 214410
    },
    {
      "epoch": 0.4467083333333333,
      "grad_norm": 0.73487788438797,
      "learning_rate": 0.00017607095888897553,
      "loss": 3.7473,
      "step": 214420
    },
    {
      "epoch": 0.4467291666666667,
      "grad_norm": 0.9867056608200073,
      "learning_rate": 0.0001760612503270736,
      "loss": 3.9922,
      "step": 214430
    },
    {
      "epoch": 0.44675,
      "grad_norm": 0.7497615218162537,
      "learning_rate": 0.0001760515416525974,
      "loss": 3.9021,
      "step": 214440
    },
    {
      "epoch": 0.44677083333333334,
      "grad_norm": 0.7356224656105042,
      "learning_rate": 0.00017604183286558885,
      "loss": 3.616,
      "step": 214450
    },
    {
      "epoch": 0.44679166666666664,
      "grad_norm": 0.7594048380851746,
      "learning_rate": 0.0001760321239660899,
      "loss": 3.914,
      "step": 214460
    },
    {
      "epoch": 0.4468125,
      "grad_norm": 0.9826551675796509,
      "learning_rate": 0.00017602241495414243,
      "loss": 3.8734,
      "step": 214470
    },
    {
      "epoch": 0.44683333333333336,
      "grad_norm": 0.9730439782142639,
      "learning_rate": 0.0001760127058297885,
      "loss": 3.6658,
      "step": 214480
    },
    {
      "epoch": 0.44685416666666666,
      "grad_norm": 0.7166223526000977,
      "learning_rate": 0.0001760029965930699,
      "loss": 3.7667,
      "step": 214490
    },
    {
      "epoch": 0.446875,
      "grad_norm": 0.7896225452423096,
      "learning_rate": 0.00017599328724402871,
      "loss": 4.0105,
      "step": 214500
    },
    {
      "epoch": 0.4468958333333333,
      "grad_norm": 0.7995703220367432,
      "learning_rate": 0.00017598357778270674,
      "loss": 3.8394,
      "step": 214510
    },
    {
      "epoch": 0.4469166666666667,
      "grad_norm": 0.8195056915283203,
      "learning_rate": 0.00017597386820914605,
      "loss": 3.8788,
      "step": 214520
    },
    {
      "epoch": 0.4469375,
      "grad_norm": 0.8750748634338379,
      "learning_rate": 0.00017596415852338856,
      "loss": 3.7218,
      "step": 214530
    },
    {
      "epoch": 0.44695833333333335,
      "grad_norm": 0.8186057806015015,
      "learning_rate": 0.00017595444872547613,
      "loss": 3.5963,
      "step": 214540
    },
    {
      "epoch": 0.44697916666666665,
      "grad_norm": 0.7060443162918091,
      "learning_rate": 0.00017594473881545075,
      "loss": 3.7598,
      "step": 214550
    },
    {
      "epoch": 0.447,
      "grad_norm": 0.6645843982696533,
      "learning_rate": 0.00017593502879335442,
      "loss": 3.6422,
      "step": 214560
    },
    {
      "epoch": 0.4470208333333333,
      "grad_norm": 1.0080379247665405,
      "learning_rate": 0.00017592531865922898,
      "loss": 3.6265,
      "step": 214570
    },
    {
      "epoch": 0.44704166666666667,
      "grad_norm": 0.8886909484863281,
      "learning_rate": 0.00017591560841311642,
      "loss": 3.8571,
      "step": 214580
    },
    {
      "epoch": 0.4470625,
      "grad_norm": 0.7752467393875122,
      "learning_rate": 0.00017590589805505875,
      "loss": 3.8938,
      "step": 214590
    },
    {
      "epoch": 0.44708333333333333,
      "grad_norm": 0.8520585298538208,
      "learning_rate": 0.00017589618758509783,
      "loss": 3.7016,
      "step": 214600
    },
    {
      "epoch": 0.4471041666666667,
      "grad_norm": 0.8697054386138916,
      "learning_rate": 0.00017588647700327563,
      "loss": 4.0156,
      "step": 214610
    },
    {
      "epoch": 0.447125,
      "grad_norm": 0.7935067415237427,
      "learning_rate": 0.00017587676630963404,
      "loss": 3.7902,
      "step": 214620
    },
    {
      "epoch": 0.44714583333333335,
      "grad_norm": 0.7041186690330505,
      "learning_rate": 0.00017586705550421514,
      "loss": 3.8352,
      "step": 214630
    },
    {
      "epoch": 0.44716666666666666,
      "grad_norm": 0.7932531833648682,
      "learning_rate": 0.00017585734458706073,
      "loss": 3.6849,
      "step": 214640
    },
    {
      "epoch": 0.4471875,
      "grad_norm": 1.0002894401550293,
      "learning_rate": 0.00017584763355821286,
      "loss": 3.7204,
      "step": 214650
    },
    {
      "epoch": 0.4472083333333333,
      "grad_norm": 1.063299298286438,
      "learning_rate": 0.00017583792241771345,
      "loss": 3.6395,
      "step": 214660
    },
    {
      "epoch": 0.4472291666666667,
      "grad_norm": 1.0004831552505493,
      "learning_rate": 0.00017582821116560445,
      "loss": 3.8816,
      "step": 214670
    },
    {
      "epoch": 0.44725,
      "grad_norm": 0.870795726776123,
      "learning_rate": 0.0001758184998019278,
      "loss": 3.8097,
      "step": 214680
    },
    {
      "epoch": 0.44727083333333334,
      "grad_norm": 0.9137346744537354,
      "learning_rate": 0.0001758087883267254,
      "loss": 3.6959,
      "step": 214690
    },
    {
      "epoch": 0.44729166666666664,
      "grad_norm": 0.7298315763473511,
      "learning_rate": 0.00017579907674003935,
      "loss": 3.7373,
      "step": 214700
    },
    {
      "epoch": 0.4473125,
      "grad_norm": 0.8754300475120544,
      "learning_rate": 0.0001757893650419114,
      "loss": 3.7581,
      "step": 214710
    },
    {
      "epoch": 0.44733333333333336,
      "grad_norm": 0.7854869961738586,
      "learning_rate": 0.00017577965323238364,
      "loss": 3.7876,
      "step": 214720
    },
    {
      "epoch": 0.44735416666666666,
      "grad_norm": 0.8215636610984802,
      "learning_rate": 0.00017576994131149803,
      "loss": 3.7476,
      "step": 214730
    },
    {
      "epoch": 0.447375,
      "grad_norm": 0.7893928289413452,
      "learning_rate": 0.0001757602292792964,
      "loss": 3.8958,
      "step": 214740
    },
    {
      "epoch": 0.4473958333333333,
      "grad_norm": 0.773267388343811,
      "learning_rate": 0.00017575051713582084,
      "loss": 3.8059,
      "step": 214750
    },
    {
      "epoch": 0.4474166666666667,
      "grad_norm": 0.8675936460494995,
      "learning_rate": 0.0001757408048811132,
      "loss": 3.7053,
      "step": 214760
    },
    {
      "epoch": 0.4474375,
      "grad_norm": 0.8037567138671875,
      "learning_rate": 0.00017573109251521547,
      "loss": 3.9607,
      "step": 214770
    },
    {
      "epoch": 0.44745833333333335,
      "grad_norm": 0.7914549112319946,
      "learning_rate": 0.00017572138003816963,
      "loss": 3.8113,
      "step": 214780
    },
    {
      "epoch": 0.44747916666666665,
      "grad_norm": 0.7812988758087158,
      "learning_rate": 0.0001757116674500176,
      "loss": 4.0012,
      "step": 214790
    },
    {
      "epoch": 0.4475,
      "grad_norm": 0.8573732972145081,
      "learning_rate": 0.00017570195475080132,
      "loss": 3.8874,
      "step": 214800
    },
    {
      "epoch": 0.4475208333333333,
      "grad_norm": 0.7257622480392456,
      "learning_rate": 0.00017569224194056274,
      "loss": 4.0531,
      "step": 214810
    },
    {
      "epoch": 0.44754166666666667,
      "grad_norm": 1.0605189800262451,
      "learning_rate": 0.0001756825290193439,
      "loss": 3.7496,
      "step": 214820
    },
    {
      "epoch": 0.4475625,
      "grad_norm": 0.8284671902656555,
      "learning_rate": 0.00017567281598718668,
      "loss": 3.6739,
      "step": 214830
    },
    {
      "epoch": 0.44758333333333333,
      "grad_norm": 0.8550987839698792,
      "learning_rate": 0.0001756631028441331,
      "loss": 3.8344,
      "step": 214840
    },
    {
      "epoch": 0.4476041666666667,
      "grad_norm": 0.7809669971466064,
      "learning_rate": 0.00017565338959022502,
      "loss": 3.8591,
      "step": 214850
    },
    {
      "epoch": 0.447625,
      "grad_norm": 0.7107248306274414,
      "learning_rate": 0.00017564367622550448,
      "loss": 3.8691,
      "step": 214860
    },
    {
      "epoch": 0.44764583333333335,
      "grad_norm": 0.9155358076095581,
      "learning_rate": 0.00017563396275001338,
      "loss": 3.7215,
      "step": 214870
    },
    {
      "epoch": 0.44766666666666666,
      "grad_norm": 0.715234637260437,
      "learning_rate": 0.00017562424916379372,
      "loss": 3.7313,
      "step": 214880
    },
    {
      "epoch": 0.4476875,
      "grad_norm": 0.7842194437980652,
      "learning_rate": 0.00017561453546688748,
      "loss": 3.8499,
      "step": 214890
    },
    {
      "epoch": 0.4477083333333333,
      "grad_norm": 0.8562299013137817,
      "learning_rate": 0.00017560482165933657,
      "loss": 3.7789,
      "step": 214900
    },
    {
      "epoch": 0.4477291666666667,
      "grad_norm": 0.7116127610206604,
      "learning_rate": 0.00017559510774118293,
      "loss": 3.8453,
      "step": 214910
    },
    {
      "epoch": 0.44775,
      "grad_norm": 0.9237556457519531,
      "learning_rate": 0.00017558539371246863,
      "loss": 3.8468,
      "step": 214920
    },
    {
      "epoch": 0.44777083333333334,
      "grad_norm": 0.8943806886672974,
      "learning_rate": 0.0001755756795732355,
      "loss": 3.8092,
      "step": 214930
    },
    {
      "epoch": 0.44779166666666664,
      "grad_norm": 0.8136578798294067,
      "learning_rate": 0.00017556596532352552,
      "loss": 3.8074,
      "step": 214940
    },
    {
      "epoch": 0.4478125,
      "grad_norm": 0.7771613001823425,
      "learning_rate": 0.00017555625096338074,
      "loss": 3.658,
      "step": 214950
    },
    {
      "epoch": 0.44783333333333336,
      "grad_norm": 0.8500675559043884,
      "learning_rate": 0.0001755465364928431,
      "loss": 3.7987,
      "step": 214960
    },
    {
      "epoch": 0.44785416666666666,
      "grad_norm": 0.85542231798172,
      "learning_rate": 0.0001755368219119545,
      "loss": 3.7802,
      "step": 214970
    },
    {
      "epoch": 0.447875,
      "grad_norm": 0.8222873210906982,
      "learning_rate": 0.00017552710722075693,
      "loss": 3.7866,
      "step": 214980
    },
    {
      "epoch": 0.4478958333333333,
      "grad_norm": 0.7990843057632446,
      "learning_rate": 0.00017551739241929235,
      "loss": 3.6876,
      "step": 214990
    },
    {
      "epoch": 0.4479166666666667,
      "grad_norm": 0.7937467098236084,
      "learning_rate": 0.00017550767750760277,
      "loss": 3.793,
      "step": 215000
    },
    {
      "epoch": 0.4479166666666667,
      "eval_loss": 4.1565070152282715,
      "eval_runtime": 8.6468,
      "eval_samples_per_second": 1.157,
      "eval_steps_per_second": 0.347,
      "step": 215000
    },
    {
      "epoch": 0.4479375,
      "grad_norm": 1.1378090381622314,
      "learning_rate": 0.0001754979624857301,
      "loss": 3.822,
      "step": 215010
    },
    {
      "epoch": 0.44795833333333335,
      "grad_norm": 0.933527410030365,
      "learning_rate": 0.00017548824735371635,
      "loss": 3.8087,
      "step": 215020
    },
    {
      "epoch": 0.44797916666666665,
      "grad_norm": 0.7943490147590637,
      "learning_rate": 0.00017547853211160344,
      "loss": 3.7619,
      "step": 215030
    },
    {
      "epoch": 0.448,
      "grad_norm": 0.7854326963424683,
      "learning_rate": 0.00017546881675943333,
      "loss": 3.7344,
      "step": 215040
    },
    {
      "epoch": 0.4480208333333333,
      "grad_norm": 0.7288934588432312,
      "learning_rate": 0.00017545910129724803,
      "loss": 3.7422,
      "step": 215050
    },
    {
      "epoch": 0.44804166666666667,
      "grad_norm": 0.6541165709495544,
      "learning_rate": 0.00017544938572508953,
      "loss": 3.6719,
      "step": 215060
    },
    {
      "epoch": 0.4480625,
      "grad_norm": 0.7758232951164246,
      "learning_rate": 0.00017543967004299968,
      "loss": 3.8758,
      "step": 215070
    },
    {
      "epoch": 0.44808333333333333,
      "grad_norm": 0.7127532958984375,
      "learning_rate": 0.00017542995425102057,
      "loss": 3.9148,
      "step": 215080
    },
    {
      "epoch": 0.4481041666666667,
      "grad_norm": 0.8910031318664551,
      "learning_rate": 0.00017542023834919417,
      "loss": 3.7007,
      "step": 215090
    },
    {
      "epoch": 0.448125,
      "grad_norm": 0.7891069650650024,
      "learning_rate": 0.00017541052233756237,
      "loss": 3.7785,
      "step": 215100
    },
    {
      "epoch": 0.44814583333333335,
      "grad_norm": 0.844314455986023,
      "learning_rate": 0.0001754008062161671,
      "loss": 3.8829,
      "step": 215110
    },
    {
      "epoch": 0.44816666666666666,
      "grad_norm": 0.7885832786560059,
      "learning_rate": 0.0001753910899850505,
      "loss": 3.7713,
      "step": 215120
    },
    {
      "epoch": 0.4481875,
      "grad_norm": 0.8106919527053833,
      "learning_rate": 0.0001753813736442544,
      "loss": 3.8383,
      "step": 215130
    },
    {
      "epoch": 0.4482083333333333,
      "grad_norm": 1.0063552856445312,
      "learning_rate": 0.00017537165719382083,
      "loss": 3.8095,
      "step": 215140
    },
    {
      "epoch": 0.4482291666666667,
      "grad_norm": 0.8840637803077698,
      "learning_rate": 0.0001753619406337917,
      "loss": 3.7534,
      "step": 215150
    },
    {
      "epoch": 0.44825,
      "grad_norm": 0.7692446112632751,
      "learning_rate": 0.0001753522239642091,
      "loss": 3.7368,
      "step": 215160
    },
    {
      "epoch": 0.44827083333333334,
      "grad_norm": 0.950550377368927,
      "learning_rate": 0.00017534250718511483,
      "loss": 3.8626,
      "step": 215170
    },
    {
      "epoch": 0.44829166666666664,
      "grad_norm": 0.7708231806755066,
      "learning_rate": 0.00017533279029655104,
      "loss": 3.8146,
      "step": 215180
    },
    {
      "epoch": 0.4483125,
      "grad_norm": 0.8880558609962463,
      "learning_rate": 0.00017532307329855957,
      "loss": 3.8345,
      "step": 215190
    },
    {
      "epoch": 0.4483333333333333,
      "grad_norm": 1.2596217393875122,
      "learning_rate": 0.00017531335619118253,
      "loss": 3.6492,
      "step": 215200
    },
    {
      "epoch": 0.44835416666666666,
      "grad_norm": 0.8783251643180847,
      "learning_rate": 0.0001753036389744617,
      "loss": 3.7013,
      "step": 215210
    },
    {
      "epoch": 0.448375,
      "grad_norm": 0.8291942477226257,
      "learning_rate": 0.0001752939216484392,
      "loss": 3.828,
      "step": 215220
    },
    {
      "epoch": 0.4483958333333333,
      "grad_norm": 0.8141917586326599,
      "learning_rate": 0.00017528420421315704,
      "loss": 3.7938,
      "step": 215230
    },
    {
      "epoch": 0.4484166666666667,
      "grad_norm": 0.8778463006019592,
      "learning_rate": 0.00017527448666865704,
      "loss": 3.6986,
      "step": 215240
    },
    {
      "epoch": 0.4484375,
      "grad_norm": 0.7465651631355286,
      "learning_rate": 0.0001752647690149813,
      "loss": 3.7195,
      "step": 215250
    },
    {
      "epoch": 0.44845833333333335,
      "grad_norm": 0.7647963166236877,
      "learning_rate": 0.00017525505125217178,
      "loss": 3.9825,
      "step": 215260
    },
    {
      "epoch": 0.44847916666666665,
      "grad_norm": 0.7937787771224976,
      "learning_rate": 0.00017524533338027042,
      "loss": 3.782,
      "step": 215270
    },
    {
      "epoch": 0.4485,
      "grad_norm": 0.8034719228744507,
      "learning_rate": 0.00017523561539931916,
      "loss": 3.8817,
      "step": 215280
    },
    {
      "epoch": 0.4485208333333333,
      "grad_norm": 0.8585010170936584,
      "learning_rate": 0.0001752258973093601,
      "loss": 3.6786,
      "step": 215290
    },
    {
      "epoch": 0.44854166666666667,
      "grad_norm": 0.7742725014686584,
      "learning_rate": 0.00017521617911043513,
      "loss": 3.8161,
      "step": 215300
    },
    {
      "epoch": 0.4485625,
      "grad_norm": 0.75807124376297,
      "learning_rate": 0.0001752064608025862,
      "loss": 3.7165,
      "step": 215310
    },
    {
      "epoch": 0.44858333333333333,
      "grad_norm": 0.8075869083404541,
      "learning_rate": 0.0001751967423858554,
      "loss": 3.9062,
      "step": 215320
    },
    {
      "epoch": 0.4486041666666667,
      "grad_norm": 0.7581374049186707,
      "learning_rate": 0.00017518702386028464,
      "loss": 3.8544,
      "step": 215330
    },
    {
      "epoch": 0.448625,
      "grad_norm": 0.8769021034240723,
      "learning_rate": 0.00017517730522591585,
      "loss": 3.6908,
      "step": 215340
    },
    {
      "epoch": 0.44864583333333335,
      "grad_norm": 0.8281258344650269,
      "learning_rate": 0.00017516758648279112,
      "loss": 3.735,
      "step": 215350
    },
    {
      "epoch": 0.44866666666666666,
      "grad_norm": 0.73085618019104,
      "learning_rate": 0.00017515786763095238,
      "loss": 3.7334,
      "step": 215360
    },
    {
      "epoch": 0.4486875,
      "grad_norm": 0.9479342103004456,
      "learning_rate": 0.0001751481486704416,
      "loss": 3.8367,
      "step": 215370
    },
    {
      "epoch": 0.4487083333333333,
      "grad_norm": 0.8081554174423218,
      "learning_rate": 0.00017513842960130077,
      "loss": 3.7277,
      "step": 215380
    },
    {
      "epoch": 0.4487291666666667,
      "grad_norm": 0.7506730556488037,
      "learning_rate": 0.00017512871042357187,
      "loss": 3.6782,
      "step": 215390
    },
    {
      "epoch": 0.44875,
      "grad_norm": 1.0043771266937256,
      "learning_rate": 0.0001751189911372969,
      "loss": 3.7636,
      "step": 215400
    },
    {
      "epoch": 0.44877083333333334,
      "grad_norm": 0.8112907409667969,
      "learning_rate": 0.0001751092717425178,
      "loss": 3.8495,
      "step": 215410
    },
    {
      "epoch": 0.44879166666666664,
      "grad_norm": 0.7732560038566589,
      "learning_rate": 0.0001750995522392766,
      "loss": 3.7339,
      "step": 215420
    },
    {
      "epoch": 0.4488125,
      "grad_norm": 0.7651111483573914,
      "learning_rate": 0.0001750898326276153,
      "loss": 3.8248,
      "step": 215430
    },
    {
      "epoch": 0.4488333333333333,
      "grad_norm": 0.7819613218307495,
      "learning_rate": 0.0001750801129075758,
      "loss": 3.5886,
      "step": 215440
    },
    {
      "epoch": 0.44885416666666667,
      "grad_norm": 0.8480401039123535,
      "learning_rate": 0.00017507039307920017,
      "loss": 3.7705,
      "step": 215450
    },
    {
      "epoch": 0.448875,
      "grad_norm": 1.0237189531326294,
      "learning_rate": 0.0001750606731425304,
      "loss": 3.8808,
      "step": 215460
    },
    {
      "epoch": 0.4488958333333333,
      "grad_norm": 0.7806090116500854,
      "learning_rate": 0.0001750509530976084,
      "loss": 3.843,
      "step": 215470
    },
    {
      "epoch": 0.4489166666666667,
      "grad_norm": 0.9135294556617737,
      "learning_rate": 0.0001750412329444762,
      "loss": 3.8125,
      "step": 215480
    },
    {
      "epoch": 0.4489375,
      "grad_norm": 1.0160961151123047,
      "learning_rate": 0.00017503151268317578,
      "loss": 3.8453,
      "step": 215490
    },
    {
      "epoch": 0.44895833333333335,
      "grad_norm": 0.7163739204406738,
      "learning_rate": 0.00017502179231374915,
      "loss": 3.7706,
      "step": 215500
    },
    {
      "epoch": 0.44897916666666665,
      "grad_norm": 0.9369239807128906,
      "learning_rate": 0.00017501207183623826,
      "loss": 3.884,
      "step": 215510
    },
    {
      "epoch": 0.449,
      "grad_norm": 0.8486090302467346,
      "learning_rate": 0.00017500235125068514,
      "loss": 3.8444,
      "step": 215520
    },
    {
      "epoch": 0.4490208333333333,
      "grad_norm": 0.7928500175476074,
      "learning_rate": 0.00017499263055713174,
      "loss": 3.8308,
      "step": 215530
    },
    {
      "epoch": 0.4490416666666667,
      "grad_norm": 0.8487524390220642,
      "learning_rate": 0.0001749829097556201,
      "loss": 3.7277,
      "step": 215540
    },
    {
      "epoch": 0.4490625,
      "grad_norm": 0.94408118724823,
      "learning_rate": 0.00017497318884619216,
      "loss": 3.7872,
      "step": 215550
    },
    {
      "epoch": 0.44908333333333333,
      "grad_norm": 0.804016649723053,
      "learning_rate": 0.00017496346782888995,
      "loss": 3.6524,
      "step": 215560
    },
    {
      "epoch": 0.4491041666666667,
      "grad_norm": 0.8014283180236816,
      "learning_rate": 0.00017495374670375546,
      "loss": 3.6256,
      "step": 215570
    },
    {
      "epoch": 0.449125,
      "grad_norm": 0.9298773407936096,
      "learning_rate": 0.00017494402547083056,
      "loss": 3.75,
      "step": 215580
    },
    {
      "epoch": 0.44914583333333336,
      "grad_norm": 0.7368490695953369,
      "learning_rate": 0.0001749343041301574,
      "loss": 3.7604,
      "step": 215590
    },
    {
      "epoch": 0.44916666666666666,
      "grad_norm": 0.7665882706642151,
      "learning_rate": 0.00017492458268177796,
      "loss": 3.9413,
      "step": 215600
    },
    {
      "epoch": 0.4491875,
      "grad_norm": 0.8987945318222046,
      "learning_rate": 0.00017491486112573411,
      "loss": 3.7186,
      "step": 215610
    },
    {
      "epoch": 0.4492083333333333,
      "grad_norm": 0.7535707950592041,
      "learning_rate": 0.000174905139462068,
      "loss": 3.7387,
      "step": 215620
    },
    {
      "epoch": 0.4492291666666667,
      "grad_norm": 0.8079168200492859,
      "learning_rate": 0.00017489541769082152,
      "loss": 3.8578,
      "step": 215630
    },
    {
      "epoch": 0.44925,
      "grad_norm": 0.8705726265907288,
      "learning_rate": 0.00017488569581203665,
      "loss": 3.8274,
      "step": 215640
    },
    {
      "epoch": 0.44927083333333334,
      "grad_norm": 0.7783911228179932,
      "learning_rate": 0.00017487597382575548,
      "loss": 3.6736,
      "step": 215650
    },
    {
      "epoch": 0.44929166666666664,
      "grad_norm": 0.7423486709594727,
      "learning_rate": 0.00017486625173201992,
      "loss": 3.6404,
      "step": 215660
    },
    {
      "epoch": 0.4493125,
      "grad_norm": 0.8914962410926819,
      "learning_rate": 0.000174856529530872,
      "loss": 3.772,
      "step": 215670
    },
    {
      "epoch": 0.4493333333333333,
      "grad_norm": 0.8766016960144043,
      "learning_rate": 0.00017484680722235372,
      "loss": 3.9159,
      "step": 215680
    },
    {
      "epoch": 0.44935416666666667,
      "grad_norm": 0.7841625809669495,
      "learning_rate": 0.00017483708480650704,
      "loss": 3.8903,
      "step": 215690
    },
    {
      "epoch": 0.449375,
      "grad_norm": 0.6906731724739075,
      "learning_rate": 0.000174827362283374,
      "loss": 3.8087,
      "step": 215700
    },
    {
      "epoch": 0.4493958333333333,
      "grad_norm": 0.8470136523246765,
      "learning_rate": 0.00017481763965299658,
      "loss": 3.8489,
      "step": 215710
    },
    {
      "epoch": 0.4494166666666667,
      "grad_norm": 0.8734012246131897,
      "learning_rate": 0.0001748079169154168,
      "loss": 3.9047,
      "step": 215720
    },
    {
      "epoch": 0.4494375,
      "grad_norm": 0.8758447766304016,
      "learning_rate": 0.0001747981940706766,
      "loss": 3.8365,
      "step": 215730
    },
    {
      "epoch": 0.44945833333333335,
      "grad_norm": 0.8708831071853638,
      "learning_rate": 0.00017478847111881802,
      "loss": 3.8309,
      "step": 215740
    },
    {
      "epoch": 0.44947916666666665,
      "grad_norm": 0.9377384781837463,
      "learning_rate": 0.00017477874805988308,
      "loss": 3.9034,
      "step": 215750
    },
    {
      "epoch": 0.4495,
      "grad_norm": 0.8048405647277832,
      "learning_rate": 0.00017476902489391377,
      "loss": 3.9932,
      "step": 215760
    },
    {
      "epoch": 0.4495208333333333,
      "grad_norm": 0.817423939704895,
      "learning_rate": 0.0001747593016209521,
      "loss": 3.8043,
      "step": 215770
    },
    {
      "epoch": 0.4495416666666667,
      "grad_norm": 0.7732683420181274,
      "learning_rate": 0.00017474957824103996,
      "loss": 4.1341,
      "step": 215780
    },
    {
      "epoch": 0.4495625,
      "grad_norm": 0.8460540175437927,
      "learning_rate": 0.00017473985475421953,
      "loss": 3.7421,
      "step": 215790
    },
    {
      "epoch": 0.44958333333333333,
      "grad_norm": 0.8162462115287781,
      "learning_rate": 0.00017473013116053266,
      "loss": 3.7604,
      "step": 215800
    },
    {
      "epoch": 0.4496041666666667,
      "grad_norm": 0.8267875909805298,
      "learning_rate": 0.00017472040746002138,
      "loss": 3.7783,
      "step": 215810
    },
    {
      "epoch": 0.449625,
      "grad_norm": 1.1064860820770264,
      "learning_rate": 0.0001747106836527278,
      "loss": 3.7491,
      "step": 215820
    },
    {
      "epoch": 0.44964583333333336,
      "grad_norm": 0.7917606830596924,
      "learning_rate": 0.00017470095973869384,
      "loss": 3.6414,
      "step": 215830
    },
    {
      "epoch": 0.44966666666666666,
      "grad_norm": 0.834942102432251,
      "learning_rate": 0.0001746912357179615,
      "loss": 3.6955,
      "step": 215840
    },
    {
      "epoch": 0.4496875,
      "grad_norm": 0.744361937046051,
      "learning_rate": 0.00017468151159057276,
      "loss": 3.74,
      "step": 215850
    },
    {
      "epoch": 0.4497083333333333,
      "grad_norm": 0.6989733576774597,
      "learning_rate": 0.00017467178735656972,
      "loss": 3.6281,
      "step": 215860
    },
    {
      "epoch": 0.4497291666666667,
      "grad_norm": 0.7147067189216614,
      "learning_rate": 0.00017466206301599427,
      "loss": 3.7762,
      "step": 215870
    },
    {
      "epoch": 0.44975,
      "grad_norm": 0.7760608196258545,
      "learning_rate": 0.0001746523385688885,
      "loss": 3.9405,
      "step": 215880
    },
    {
      "epoch": 0.44977083333333334,
      "grad_norm": 0.8180449604988098,
      "learning_rate": 0.00017464261401529436,
      "loss": 3.6461,
      "step": 215890
    },
    {
      "epoch": 0.44979166666666665,
      "grad_norm": 0.6959348320960999,
      "learning_rate": 0.00017463288935525392,
      "loss": 3.7483,
      "step": 215900
    },
    {
      "epoch": 0.4498125,
      "grad_norm": 0.7888557314872742,
      "learning_rate": 0.0001746231645888091,
      "loss": 3.8013,
      "step": 215910
    },
    {
      "epoch": 0.4498333333333333,
      "grad_norm": 0.8482787609100342,
      "learning_rate": 0.000174613439716002,
      "loss": 3.8395,
      "step": 215920
    },
    {
      "epoch": 0.44985416666666667,
      "grad_norm": 0.7984509468078613,
      "learning_rate": 0.00017460371473687457,
      "loss": 3.7784,
      "step": 215930
    },
    {
      "epoch": 0.449875,
      "grad_norm": 0.7700648307800293,
      "learning_rate": 0.0001745939896514688,
      "loss": 3.9812,
      "step": 215940
    },
    {
      "epoch": 0.44989583333333333,
      "grad_norm": 0.7132558226585388,
      "learning_rate": 0.00017458426445982677,
      "loss": 3.7097,
      "step": 215950
    },
    {
      "epoch": 0.4499166666666667,
      "grad_norm": 0.9005542397499084,
      "learning_rate": 0.00017457453916199046,
      "loss": 3.8311,
      "step": 215960
    },
    {
      "epoch": 0.4499375,
      "grad_norm": 0.8259812593460083,
      "learning_rate": 0.00017456481375800186,
      "loss": 3.6786,
      "step": 215970
    },
    {
      "epoch": 0.44995833333333335,
      "grad_norm": 0.7062476873397827,
      "learning_rate": 0.00017455508824790292,
      "loss": 3.808,
      "step": 215980
    },
    {
      "epoch": 0.44997916666666665,
      "grad_norm": 0.9407413005828857,
      "learning_rate": 0.00017454536263173583,
      "loss": 3.6629,
      "step": 215990
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.7949005961418152,
      "learning_rate": 0.0001745356369095424,
      "loss": 3.747,
      "step": 216000
    },
    {
      "epoch": 0.45,
      "eval_loss": 4.156289577484131,
      "eval_runtime": 8.3813,
      "eval_samples_per_second": 1.193,
      "eval_steps_per_second": 0.358,
      "step": 216000
    },
    {
      "epoch": 0.4500208333333333,
      "grad_norm": 0.7580996751785278,
      "learning_rate": 0.00017452591108136473,
      "loss": 3.8188,
      "step": 216010
    },
    {
      "epoch": 0.4500416666666667,
      "grad_norm": 0.6966575384140015,
      "learning_rate": 0.0001745161851472449,
      "loss": 3.9063,
      "step": 216020
    },
    {
      "epoch": 0.4500625,
      "grad_norm": 0.7621318697929382,
      "learning_rate": 0.00017450645910722478,
      "loss": 3.8846,
      "step": 216030
    },
    {
      "epoch": 0.45008333333333334,
      "grad_norm": 0.9449453949928284,
      "learning_rate": 0.00017449673296134651,
      "loss": 3.7675,
      "step": 216040
    },
    {
      "epoch": 0.4501041666666667,
      "grad_norm": 1.0156474113464355,
      "learning_rate": 0.00017448700670965204,
      "loss": 3.7782,
      "step": 216050
    },
    {
      "epoch": 0.450125,
      "grad_norm": 0.7609302997589111,
      "learning_rate": 0.00017447728035218337,
      "loss": 3.9044,
      "step": 216060
    },
    {
      "epoch": 0.45014583333333336,
      "grad_norm": 0.8396399021148682,
      "learning_rate": 0.0001744675538889826,
      "loss": 3.8281,
      "step": 216070
    },
    {
      "epoch": 0.45016666666666666,
      "grad_norm": 0.7796765565872192,
      "learning_rate": 0.0001744578273200916,
      "loss": 3.8069,
      "step": 216080
    },
    {
      "epoch": 0.4501875,
      "grad_norm": 0.7012739181518555,
      "learning_rate": 0.0001744481006455525,
      "loss": 3.8757,
      "step": 216090
    },
    {
      "epoch": 0.4502083333333333,
      "grad_norm": 0.790378212928772,
      "learning_rate": 0.00017443837386540731,
      "loss": 3.7402,
      "step": 216100
    },
    {
      "epoch": 0.4502291666666667,
      "grad_norm": 0.7463567852973938,
      "learning_rate": 0.00017442864697969797,
      "loss": 3.8417,
      "step": 216110
    },
    {
      "epoch": 0.45025,
      "grad_norm": 0.7820798754692078,
      "learning_rate": 0.00017441891998846656,
      "loss": 3.8356,
      "step": 216120
    },
    {
      "epoch": 0.45027083333333334,
      "grad_norm": 0.995353102684021,
      "learning_rate": 0.00017440919289175513,
      "loss": 3.8416,
      "step": 216130
    },
    {
      "epoch": 0.45029166666666665,
      "grad_norm": 0.7659251093864441,
      "learning_rate": 0.0001743994656896056,
      "loss": 3.8322,
      "step": 216140
    },
    {
      "epoch": 0.4503125,
      "grad_norm": 0.9555308222770691,
      "learning_rate": 0.00017438973838206003,
      "loss": 3.8315,
      "step": 216150
    },
    {
      "epoch": 0.4503333333333333,
      "grad_norm": 0.7954477667808533,
      "learning_rate": 0.00017438001096916047,
      "loss": 3.7526,
      "step": 216160
    },
    {
      "epoch": 0.45035416666666667,
      "grad_norm": 0.7683753371238708,
      "learning_rate": 0.0001743702834509489,
      "loss": 3.9427,
      "step": 216170
    },
    {
      "epoch": 0.450375,
      "grad_norm": 0.8624082207679749,
      "learning_rate": 0.0001743605558274673,
      "loss": 3.804,
      "step": 216180
    },
    {
      "epoch": 0.45039583333333333,
      "grad_norm": 0.8716701865196228,
      "learning_rate": 0.00017435082809875784,
      "loss": 3.7067,
      "step": 216190
    },
    {
      "epoch": 0.4504166666666667,
      "grad_norm": 0.7941856384277344,
      "learning_rate": 0.0001743411002648624,
      "loss": 3.8055,
      "step": 216200
    },
    {
      "epoch": 0.4504375,
      "grad_norm": 0.8711944818496704,
      "learning_rate": 0.00017433137232582304,
      "loss": 3.8793,
      "step": 216210
    },
    {
      "epoch": 0.45045833333333335,
      "grad_norm": 0.7927721738815308,
      "learning_rate": 0.00017432164428168178,
      "loss": 3.8666,
      "step": 216220
    },
    {
      "epoch": 0.45047916666666665,
      "grad_norm": 0.8056866526603699,
      "learning_rate": 0.00017431191613248066,
      "loss": 3.7973,
      "step": 216230
    },
    {
      "epoch": 0.4505,
      "grad_norm": 1.212087631225586,
      "learning_rate": 0.00017430218787826163,
      "loss": 3.7144,
      "step": 216240
    },
    {
      "epoch": 0.4505208333333333,
      "grad_norm": 0.817513644695282,
      "learning_rate": 0.00017429245951906683,
      "loss": 3.9755,
      "step": 216250
    },
    {
      "epoch": 0.4505416666666667,
      "grad_norm": 0.9482408165931702,
      "learning_rate": 0.00017428273105493818,
      "loss": 3.7801,
      "step": 216260
    },
    {
      "epoch": 0.4505625,
      "grad_norm": 0.7662644982337952,
      "learning_rate": 0.0001742730024859178,
      "loss": 3.8496,
      "step": 216270
    },
    {
      "epoch": 0.45058333333333334,
      "grad_norm": 1.0409396886825562,
      "learning_rate": 0.0001742632738120476,
      "loss": 3.7779,
      "step": 216280
    },
    {
      "epoch": 0.45060416666666664,
      "grad_norm": 0.7639393210411072,
      "learning_rate": 0.00017425354503336967,
      "loss": 3.5953,
      "step": 216290
    },
    {
      "epoch": 0.450625,
      "grad_norm": 0.867588460445404,
      "learning_rate": 0.00017424381614992608,
      "loss": 3.7733,
      "step": 216300
    },
    {
      "epoch": 0.45064583333333336,
      "grad_norm": 0.7782843708992004,
      "learning_rate": 0.0001742340871617587,
      "loss": 3.7533,
      "step": 216310
    },
    {
      "epoch": 0.45066666666666666,
      "grad_norm": 0.8843962550163269,
      "learning_rate": 0.00017422435806890973,
      "loss": 3.7678,
      "step": 216320
    },
    {
      "epoch": 0.4506875,
      "grad_norm": 0.8073654174804688,
      "learning_rate": 0.00017421462887142112,
      "loss": 3.9142,
      "step": 216330
    },
    {
      "epoch": 0.4507083333333333,
      "grad_norm": 0.7346264719963074,
      "learning_rate": 0.0001742048995693349,
      "loss": 3.7376,
      "step": 216340
    },
    {
      "epoch": 0.4507291666666667,
      "grad_norm": 0.8211929202079773,
      "learning_rate": 0.00017419517016269305,
      "loss": 3.9087,
      "step": 216350
    },
    {
      "epoch": 0.45075,
      "grad_norm": 0.8521855473518372,
      "learning_rate": 0.00017418544065153768,
      "loss": 3.529,
      "step": 216360
    },
    {
      "epoch": 0.45077083333333334,
      "grad_norm": 0.8206595778465271,
      "learning_rate": 0.00017417571103591078,
      "loss": 3.7502,
      "step": 216370
    },
    {
      "epoch": 0.45079166666666665,
      "grad_norm": 0.7197787761688232,
      "learning_rate": 0.00017416598131585436,
      "loss": 3.6952,
      "step": 216380
    },
    {
      "epoch": 0.4508125,
      "grad_norm": 0.7789478898048401,
      "learning_rate": 0.00017415625149141045,
      "loss": 3.8767,
      "step": 216390
    },
    {
      "epoch": 0.4508333333333333,
      "grad_norm": 0.7701003551483154,
      "learning_rate": 0.00017414652156262113,
      "loss": 3.9099,
      "step": 216400
    },
    {
      "epoch": 0.45085416666666667,
      "grad_norm": 1.0443813800811768,
      "learning_rate": 0.0001741367915295284,
      "loss": 3.8281,
      "step": 216410
    },
    {
      "epoch": 0.450875,
      "grad_norm": 0.9841074347496033,
      "learning_rate": 0.00017412706139217424,
      "loss": 3.7241,
      "step": 216420
    },
    {
      "epoch": 0.45089583333333333,
      "grad_norm": 0.7698702216148376,
      "learning_rate": 0.00017411733115060076,
      "loss": 3.8705,
      "step": 216430
    },
    {
      "epoch": 0.4509166666666667,
      "grad_norm": 0.7554059028625488,
      "learning_rate": 0.00017410760080484994,
      "loss": 3.9041,
      "step": 216440
    },
    {
      "epoch": 0.4509375,
      "grad_norm": 0.8630182147026062,
      "learning_rate": 0.00017409787035496384,
      "loss": 3.9881,
      "step": 216450
    },
    {
      "epoch": 0.45095833333333335,
      "grad_norm": 0.9134306907653809,
      "learning_rate": 0.00017408813980098446,
      "loss": 3.8996,
      "step": 216460
    },
    {
      "epoch": 0.45097916666666665,
      "grad_norm": 0.72993403673172,
      "learning_rate": 0.0001740784091429539,
      "loss": 3.8315,
      "step": 216470
    },
    {
      "epoch": 0.451,
      "grad_norm": 0.7104971408843994,
      "learning_rate": 0.0001740686783809141,
      "loss": 3.8505,
      "step": 216480
    },
    {
      "epoch": 0.4510208333333333,
      "grad_norm": 0.9423898458480835,
      "learning_rate": 0.00017405894751490713,
      "loss": 3.8329,
      "step": 216490
    },
    {
      "epoch": 0.4510416666666667,
      "grad_norm": 0.7812149524688721,
      "learning_rate": 0.00017404921654497508,
      "loss": 3.8217,
      "step": 216500
    },
    {
      "epoch": 0.4510625,
      "grad_norm": 0.8556984066963196,
      "learning_rate": 0.00017403948547115987,
      "loss": 3.7146,
      "step": 216510
    },
    {
      "epoch": 0.45108333333333334,
      "grad_norm": 1.2992008924484253,
      "learning_rate": 0.00017402975429350366,
      "loss": 3.726,
      "step": 216520
    },
    {
      "epoch": 0.45110416666666664,
      "grad_norm": 1.2046942710876465,
      "learning_rate": 0.00017402002301204837,
      "loss": 3.599,
      "step": 216530
    },
    {
      "epoch": 0.451125,
      "grad_norm": 0.883773684501648,
      "learning_rate": 0.00017401029162683612,
      "loss": 3.606,
      "step": 216540
    },
    {
      "epoch": 0.45114583333333336,
      "grad_norm": 0.8433945775032043,
      "learning_rate": 0.0001740005601379089,
      "loss": 3.7269,
      "step": 216550
    },
    {
      "epoch": 0.45116666666666666,
      "grad_norm": 0.8739691972732544,
      "learning_rate": 0.00017399082854530876,
      "loss": 3.7336,
      "step": 216560
    },
    {
      "epoch": 0.4511875,
      "grad_norm": 0.8587899208068848,
      "learning_rate": 0.00017398109684907775,
      "loss": 3.5907,
      "step": 216570
    },
    {
      "epoch": 0.4512083333333333,
      "grad_norm": 1.101157546043396,
      "learning_rate": 0.00017397136504925786,
      "loss": 3.7087,
      "step": 216580
    },
    {
      "epoch": 0.4512291666666667,
      "grad_norm": 0.8483184576034546,
      "learning_rate": 0.0001739616331458912,
      "loss": 3.6796,
      "step": 216590
    },
    {
      "epoch": 0.45125,
      "grad_norm": 0.9438574314117432,
      "learning_rate": 0.00017395190113901976,
      "loss": 3.7493,
      "step": 216600
    },
    {
      "epoch": 0.45127083333333334,
      "grad_norm": 0.849819004535675,
      "learning_rate": 0.00017394216902868556,
      "loss": 3.7021,
      "step": 216610
    },
    {
      "epoch": 0.45129166666666665,
      "grad_norm": 0.7518360614776611,
      "learning_rate": 0.00017393243681493068,
      "loss": 3.726,
      "step": 216620
    },
    {
      "epoch": 0.4513125,
      "grad_norm": 0.8224295973777771,
      "learning_rate": 0.00017392270449779717,
      "loss": 3.7194,
      "step": 216630
    },
    {
      "epoch": 0.4513333333333333,
      "grad_norm": 0.8760061860084534,
      "learning_rate": 0.00017391297207732705,
      "loss": 3.9085,
      "step": 216640
    },
    {
      "epoch": 0.45135416666666667,
      "grad_norm": 0.8657108545303345,
      "learning_rate": 0.00017390323955356228,
      "loss": 3.7926,
      "step": 216650
    },
    {
      "epoch": 0.451375,
      "grad_norm": 1.6623421907424927,
      "learning_rate": 0.0001738935069265451,
      "loss": 3.718,
      "step": 216660
    },
    {
      "epoch": 0.45139583333333333,
      "grad_norm": 0.796965479850769,
      "learning_rate": 0.00017388377419631735,
      "loss": 3.8183,
      "step": 216670
    },
    {
      "epoch": 0.4514166666666667,
      "grad_norm": 0.799042820930481,
      "learning_rate": 0.00017387404136292114,
      "loss": 3.8275,
      "step": 216680
    },
    {
      "epoch": 0.4514375,
      "grad_norm": 0.725004255771637,
      "learning_rate": 0.00017386430842639857,
      "loss": 3.7725,
      "step": 216690
    },
    {
      "epoch": 0.45145833333333335,
      "grad_norm": 0.9010224938392639,
      "learning_rate": 0.0001738545753867916,
      "loss": 3.8763,
      "step": 216700
    },
    {
      "epoch": 0.45147916666666665,
      "grad_norm": 1.0398283004760742,
      "learning_rate": 0.0001738448422441423,
      "loss": 3.7599,
      "step": 216710
    },
    {
      "epoch": 0.4515,
      "grad_norm": 0.9753854870796204,
      "learning_rate": 0.00017383510899849275,
      "loss": 3.5771,
      "step": 216720
    },
    {
      "epoch": 0.4515208333333333,
      "grad_norm": 0.774868369102478,
      "learning_rate": 0.00017382537564988493,
      "loss": 3.8034,
      "step": 216730
    },
    {
      "epoch": 0.4515416666666667,
      "grad_norm": 0.739957332611084,
      "learning_rate": 0.00017381564219836094,
      "loss": 3.7579,
      "step": 216740
    },
    {
      "epoch": 0.4515625,
      "grad_norm": 0.7793959379196167,
      "learning_rate": 0.0001738059086439628,
      "loss": 3.9039,
      "step": 216750
    },
    {
      "epoch": 0.45158333333333334,
      "grad_norm": 0.7133806347846985,
      "learning_rate": 0.00017379617498673253,
      "loss": 3.8622,
      "step": 216760
    },
    {
      "epoch": 0.45160416666666664,
      "grad_norm": 0.8296646475791931,
      "learning_rate": 0.00017378644122671222,
      "loss": 3.7577,
      "step": 216770
    },
    {
      "epoch": 0.451625,
      "grad_norm": 0.8210142850875854,
      "learning_rate": 0.00017377670736394392,
      "loss": 3.7344,
      "step": 216780
    },
    {
      "epoch": 0.45164583333333336,
      "grad_norm": 0.8802955150604248,
      "learning_rate": 0.00017376697339846963,
      "loss": 3.682,
      "step": 216790
    },
    {
      "epoch": 0.45166666666666666,
      "grad_norm": 0.7736446857452393,
      "learning_rate": 0.0001737572393303315,
      "loss": 3.6378,
      "step": 216800
    },
    {
      "epoch": 0.4516875,
      "grad_norm": 0.7409669160842896,
      "learning_rate": 0.00017374750515957137,
      "loss": 3.656,
      "step": 216810
    },
    {
      "epoch": 0.4517083333333333,
      "grad_norm": 0.806618332862854,
      "learning_rate": 0.0001737377708862315,
      "loss": 3.8559,
      "step": 216820
    },
    {
      "epoch": 0.4517291666666667,
      "grad_norm": 0.9308168292045593,
      "learning_rate": 0.00017372803651035385,
      "loss": 3.8125,
      "step": 216830
    },
    {
      "epoch": 0.45175,
      "grad_norm": 0.8999598026275635,
      "learning_rate": 0.0001737183020319805,
      "loss": 3.8663,
      "step": 216840
    },
    {
      "epoch": 0.45177083333333334,
      "grad_norm": 0.7780296206474304,
      "learning_rate": 0.00017370856745115338,
      "loss": 3.8706,
      "step": 216850
    },
    {
      "epoch": 0.45179166666666665,
      "grad_norm": 0.7435666918754578,
      "learning_rate": 0.00017369883276791473,
      "loss": 3.7497,
      "step": 216860
    },
    {
      "epoch": 0.4518125,
      "grad_norm": 0.8182092308998108,
      "learning_rate": 0.00017368909798230644,
      "loss": 3.9398,
      "step": 216870
    },
    {
      "epoch": 0.4518333333333333,
      "grad_norm": 0.7221056222915649,
      "learning_rate": 0.0001736793630943706,
      "loss": 3.9252,
      "step": 216880
    },
    {
      "epoch": 0.45185416666666667,
      "grad_norm": 0.7520015239715576,
      "learning_rate": 0.0001736696281041494,
      "loss": 3.8266,
      "step": 216890
    },
    {
      "epoch": 0.451875,
      "grad_norm": 0.9728971719741821,
      "learning_rate": 0.0001736598930116847,
      "loss": 3.6138,
      "step": 216900
    },
    {
      "epoch": 0.45189583333333333,
      "grad_norm": 0.8150849342346191,
      "learning_rate": 0.00017365015781701864,
      "loss": 3.8644,
      "step": 216910
    },
    {
      "epoch": 0.4519166666666667,
      "grad_norm": 0.8892695307731628,
      "learning_rate": 0.00017364042252019326,
      "loss": 3.8364,
      "step": 216920
    },
    {
      "epoch": 0.4519375,
      "grad_norm": 0.7942922115325928,
      "learning_rate": 0.00017363068712125058,
      "loss": 3.7595,
      "step": 216930
    },
    {
      "epoch": 0.45195833333333335,
      "grad_norm": 0.7935887575149536,
      "learning_rate": 0.0001736209516202327,
      "loss": 4.0373,
      "step": 216940
    },
    {
      "epoch": 0.45197916666666665,
      "grad_norm": 0.7952449917793274,
      "learning_rate": 0.00017361121601718166,
      "loss": 3.7227,
      "step": 216950
    },
    {
      "epoch": 0.452,
      "grad_norm": 0.7587540745735168,
      "learning_rate": 0.00017360148031213952,
      "loss": 3.8909,
      "step": 216960
    },
    {
      "epoch": 0.4520208333333333,
      "grad_norm": 0.8064977526664734,
      "learning_rate": 0.00017359174450514838,
      "loss": 3.9808,
      "step": 216970
    },
    {
      "epoch": 0.4520416666666667,
      "grad_norm": 0.8022285103797913,
      "learning_rate": 0.00017358200859625016,
      "loss": 3.8597,
      "step": 216980
    },
    {
      "epoch": 0.4520625,
      "grad_norm": 1.041601538658142,
      "learning_rate": 0.00017357227258548702,
      "loss": 3.544,
      "step": 216990
    },
    {
      "epoch": 0.45208333333333334,
      "grad_norm": 0.8355773687362671,
      "learning_rate": 0.00017356253647290103,
      "loss": 3.717,
      "step": 217000
    },
    {
      "epoch": 0.45208333333333334,
      "eval_loss": 4.151869297027588,
      "eval_runtime": 9.895,
      "eval_samples_per_second": 1.011,
      "eval_steps_per_second": 0.303,
      "step": 217000
    },
    {
      "epoch": 0.45210416666666664,
      "grad_norm": 0.7888913154602051,
      "learning_rate": 0.00017355280025853413,
      "loss": 3.7868,
      "step": 217010
    },
    {
      "epoch": 0.452125,
      "grad_norm": 0.779207170009613,
      "learning_rate": 0.00017354306394242852,
      "loss": 3.7977,
      "step": 217020
    },
    {
      "epoch": 0.45214583333333336,
      "grad_norm": 0.9342320561408997,
      "learning_rate": 0.00017353332752462623,
      "loss": 3.8091,
      "step": 217030
    },
    {
      "epoch": 0.45216666666666666,
      "grad_norm": 0.9117669463157654,
      "learning_rate": 0.00017352359100516923,
      "loss": 3.8271,
      "step": 217040
    },
    {
      "epoch": 0.4521875,
      "grad_norm": 0.8630363345146179,
      "learning_rate": 0.00017351385438409958,
      "loss": 3.8129,
      "step": 217050
    },
    {
      "epoch": 0.4522083333333333,
      "grad_norm": 0.9072793126106262,
      "learning_rate": 0.00017350411766145946,
      "loss": 3.9204,
      "step": 217060
    },
    {
      "epoch": 0.4522291666666667,
      "grad_norm": 1.0138133764266968,
      "learning_rate": 0.00017349438083729082,
      "loss": 3.8545,
      "step": 217070
    },
    {
      "epoch": 0.45225,
      "grad_norm": 0.9151679873466492,
      "learning_rate": 0.00017348464391163577,
      "loss": 3.7597,
      "step": 217080
    },
    {
      "epoch": 0.45227083333333334,
      "grad_norm": 0.7968862652778625,
      "learning_rate": 0.00017347490688453637,
      "loss": 3.8279,
      "step": 217090
    },
    {
      "epoch": 0.45229166666666665,
      "grad_norm": 0.6762734055519104,
      "learning_rate": 0.00017346516975603462,
      "loss": 3.861,
      "step": 217100
    },
    {
      "epoch": 0.4523125,
      "grad_norm": 0.7840186357498169,
      "learning_rate": 0.00017345543252617263,
      "loss": 3.8003,
      "step": 217110
    },
    {
      "epoch": 0.4523333333333333,
      "grad_norm": 0.8638504147529602,
      "learning_rate": 0.00017344569519499246,
      "loss": 3.7848,
      "step": 217120
    },
    {
      "epoch": 0.45235416666666667,
      "grad_norm": 0.9686731696128845,
      "learning_rate": 0.0001734359577625362,
      "loss": 4.0166,
      "step": 217130
    },
    {
      "epoch": 0.452375,
      "grad_norm": 0.8230546116828918,
      "learning_rate": 0.0001734262202288459,
      "loss": 3.6967,
      "step": 217140
    },
    {
      "epoch": 0.45239583333333333,
      "grad_norm": 0.7277012467384338,
      "learning_rate": 0.00017341648259396354,
      "loss": 3.7525,
      "step": 217150
    },
    {
      "epoch": 0.4524166666666667,
      "grad_norm": 0.7513730525970459,
      "learning_rate": 0.00017340674485793125,
      "loss": 3.9458,
      "step": 217160
    },
    {
      "epoch": 0.4524375,
      "grad_norm": 0.7277050614356995,
      "learning_rate": 0.00017339700702079114,
      "loss": 3.7639,
      "step": 217170
    },
    {
      "epoch": 0.45245833333333335,
      "grad_norm": 0.8039734363555908,
      "learning_rate": 0.00017338726908258512,
      "loss": 3.7979,
      "step": 217180
    },
    {
      "epoch": 0.45247916666666665,
      "grad_norm": 0.8736911416053772,
      "learning_rate": 0.00017337753104335545,
      "loss": 3.8823,
      "step": 217190
    },
    {
      "epoch": 0.4525,
      "grad_norm": 0.9038739204406738,
      "learning_rate": 0.0001733677929031441,
      "loss": 3.7761,
      "step": 217200
    },
    {
      "epoch": 0.4525208333333333,
      "grad_norm": 0.8169524073600769,
      "learning_rate": 0.0001733580546619931,
      "loss": 3.8413,
      "step": 217210
    },
    {
      "epoch": 0.4525416666666667,
      "grad_norm": 0.7553784251213074,
      "learning_rate": 0.0001733483163199445,
      "loss": 3.6409,
      "step": 217220
    },
    {
      "epoch": 0.4525625,
      "grad_norm": 0.7736367583274841,
      "learning_rate": 0.00017333857787704048,
      "loss": 3.7007,
      "step": 217230
    },
    {
      "epoch": 0.45258333333333334,
      "grad_norm": 1.2058753967285156,
      "learning_rate": 0.00017332883933332305,
      "loss": 3.7953,
      "step": 217240
    },
    {
      "epoch": 0.45260416666666664,
      "grad_norm": 0.8891177773475647,
      "learning_rate": 0.00017331910068883424,
      "loss": 3.7466,
      "step": 217250
    },
    {
      "epoch": 0.452625,
      "grad_norm": 0.9139989018440247,
      "learning_rate": 0.00017330936194361615,
      "loss": 3.8287,
      "step": 217260
    },
    {
      "epoch": 0.45264583333333336,
      "grad_norm": 0.8254039287567139,
      "learning_rate": 0.00017329962309771085,
      "loss": 3.8405,
      "step": 217270
    },
    {
      "epoch": 0.45266666666666666,
      "grad_norm": 0.7801703810691833,
      "learning_rate": 0.0001732898841511604,
      "loss": 3.8595,
      "step": 217280
    },
    {
      "epoch": 0.4526875,
      "grad_norm": 0.7287602424621582,
      "learning_rate": 0.00017328014510400688,
      "loss": 3.7072,
      "step": 217290
    },
    {
      "epoch": 0.4527083333333333,
      "grad_norm": 0.8303400874137878,
      "learning_rate": 0.0001732704059562923,
      "loss": 3.8769,
      "step": 217300
    },
    {
      "epoch": 0.4527291666666667,
      "grad_norm": 0.8478646874427795,
      "learning_rate": 0.00017326066670805883,
      "loss": 3.8144,
      "step": 217310
    },
    {
      "epoch": 0.45275,
      "grad_norm": 0.9436466097831726,
      "learning_rate": 0.00017325092735934848,
      "loss": 4.073,
      "step": 217320
    },
    {
      "epoch": 0.45277083333333334,
      "grad_norm": 0.8821792602539062,
      "learning_rate": 0.0001732411879102033,
      "loss": 3.8843,
      "step": 217330
    },
    {
      "epoch": 0.45279166666666665,
      "grad_norm": 0.8682423233985901,
      "learning_rate": 0.00017323144836066542,
      "loss": 3.9062,
      "step": 217340
    },
    {
      "epoch": 0.4528125,
      "grad_norm": 0.7122232913970947,
      "learning_rate": 0.00017322170871077682,
      "loss": 3.8224,
      "step": 217350
    },
    {
      "epoch": 0.4528333333333333,
      "grad_norm": 1.0047842264175415,
      "learning_rate": 0.00017321196896057968,
      "loss": 3.7963,
      "step": 217360
    },
    {
      "epoch": 0.45285416666666667,
      "grad_norm": 0.7178120017051697,
      "learning_rate": 0.00017320222911011606,
      "loss": 3.8311,
      "step": 217370
    },
    {
      "epoch": 0.452875,
      "grad_norm": 0.915178120136261,
      "learning_rate": 0.00017319248915942788,
      "loss": 3.6411,
      "step": 217380
    },
    {
      "epoch": 0.45289583333333333,
      "grad_norm": 1.0569053888320923,
      "learning_rate": 0.00017318274910855744,
      "loss": 3.676,
      "step": 217390
    },
    {
      "epoch": 0.4529166666666667,
      "grad_norm": 0.7061107158660889,
      "learning_rate": 0.00017317300895754666,
      "loss": 3.781,
      "step": 217400
    },
    {
      "epoch": 0.4529375,
      "grad_norm": 0.7996729612350464,
      "learning_rate": 0.00017316326870643763,
      "loss": 3.5753,
      "step": 217410
    },
    {
      "epoch": 0.45295833333333335,
      "grad_norm": 0.914371907711029,
      "learning_rate": 0.00017315352835527246,
      "loss": 3.7531,
      "step": 217420
    },
    {
      "epoch": 0.45297916666666665,
      "grad_norm": 0.7915447950363159,
      "learning_rate": 0.0001731437879040932,
      "loss": 3.8395,
      "step": 217430
    },
    {
      "epoch": 0.453,
      "grad_norm": 0.7286117672920227,
      "learning_rate": 0.000173134047352942,
      "loss": 3.8923,
      "step": 217440
    },
    {
      "epoch": 0.4530208333333333,
      "grad_norm": 0.8189336061477661,
      "learning_rate": 0.0001731243067018608,
      "loss": 3.7666,
      "step": 217450
    },
    {
      "epoch": 0.4530416666666667,
      "grad_norm": 0.970719039440155,
      "learning_rate": 0.0001731145659508918,
      "loss": 3.7933,
      "step": 217460
    },
    {
      "epoch": 0.4530625,
      "grad_norm": 1.146239995956421,
      "learning_rate": 0.00017310482510007698,
      "loss": 3.7833,
      "step": 217470
    },
    {
      "epoch": 0.45308333333333334,
      "grad_norm": 0.790720522403717,
      "learning_rate": 0.00017309508414945846,
      "loss": 3.5984,
      "step": 217480
    },
    {
      "epoch": 0.45310416666666664,
      "grad_norm": 0.6875238418579102,
      "learning_rate": 0.00017308534309907835,
      "loss": 3.6911,
      "step": 217490
    },
    {
      "epoch": 0.453125,
      "grad_norm": 0.7342221736907959,
      "learning_rate": 0.0001730756019489787,
      "loss": 3.7151,
      "step": 217500
    },
    {
      "epoch": 0.45314583333333336,
      "grad_norm": 0.908808171749115,
      "learning_rate": 0.00017306586069920155,
      "loss": 3.9267,
      "step": 217510
    },
    {
      "epoch": 0.45316666666666666,
      "grad_norm": 0.6588169932365417,
      "learning_rate": 0.00017305611934978902,
      "loss": 3.7507,
      "step": 217520
    },
    {
      "epoch": 0.4531875,
      "grad_norm": 0.796554446220398,
      "learning_rate": 0.00017304637790078325,
      "loss": 3.7557,
      "step": 217530
    },
    {
      "epoch": 0.4532083333333333,
      "grad_norm": 0.7809433341026306,
      "learning_rate": 0.0001730366363522262,
      "loss": 3.6249,
      "step": 217540
    },
    {
      "epoch": 0.4532291666666667,
      "grad_norm": 0.7606410384178162,
      "learning_rate": 0.00017302689470415994,
      "loss": 3.7079,
      "step": 217550
    },
    {
      "epoch": 0.45325,
      "grad_norm": 0.800999104976654,
      "learning_rate": 0.0001730171529566267,
      "loss": 3.7763,
      "step": 217560
    },
    {
      "epoch": 0.45327083333333335,
      "grad_norm": 0.8233857154846191,
      "learning_rate": 0.00017300741110966845,
      "loss": 3.8883,
      "step": 217570
    },
    {
      "epoch": 0.45329166666666665,
      "grad_norm": 0.902513861656189,
      "learning_rate": 0.00017299766916332724,
      "loss": 3.8106,
      "step": 217580
    },
    {
      "epoch": 0.4533125,
      "grad_norm": 0.7622156739234924,
      "learning_rate": 0.00017298792711764526,
      "loss": 3.7213,
      "step": 217590
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 0.8058487176895142,
      "learning_rate": 0.0001729781849726645,
      "loss": 3.82,
      "step": 217600
    },
    {
      "epoch": 0.45335416666666667,
      "grad_norm": 1.093421220779419,
      "learning_rate": 0.00017296844272842707,
      "loss": 3.7461,
      "step": 217610
    },
    {
      "epoch": 0.453375,
      "grad_norm": 0.9807572960853577,
      "learning_rate": 0.00017295870038497505,
      "loss": 3.6565,
      "step": 217620
    },
    {
      "epoch": 0.45339583333333333,
      "grad_norm": 0.7390802502632141,
      "learning_rate": 0.00017294895794235058,
      "loss": 3.7713,
      "step": 217630
    },
    {
      "epoch": 0.4534166666666667,
      "grad_norm": 0.8889816403388977,
      "learning_rate": 0.00017293921540059568,
      "loss": 3.6075,
      "step": 217640
    },
    {
      "epoch": 0.4534375,
      "grad_norm": 0.8057641386985779,
      "learning_rate": 0.00017292947275975243,
      "loss": 3.7768,
      "step": 217650
    },
    {
      "epoch": 0.45345833333333335,
      "grad_norm": 0.8617154955863953,
      "learning_rate": 0.00017291973001986295,
      "loss": 3.7657,
      "step": 217660
    },
    {
      "epoch": 0.45347916666666666,
      "grad_norm": 0.7076300382614136,
      "learning_rate": 0.0001729099871809693,
      "loss": 3.6084,
      "step": 217670
    },
    {
      "epoch": 0.4535,
      "grad_norm": 0.8649404644966125,
      "learning_rate": 0.00017290024424311356,
      "loss": 3.7795,
      "step": 217680
    },
    {
      "epoch": 0.4535208333333333,
      "grad_norm": 0.7291880249977112,
      "learning_rate": 0.00017289050120633786,
      "loss": 3.7355,
      "step": 217690
    },
    {
      "epoch": 0.4535416666666667,
      "grad_norm": 0.7097411751747131,
      "learning_rate": 0.00017288075807068425,
      "loss": 3.9413,
      "step": 217700
    },
    {
      "epoch": 0.4535625,
      "grad_norm": 0.7850999236106873,
      "learning_rate": 0.0001728710148361948,
      "loss": 3.885,
      "step": 217710
    },
    {
      "epoch": 0.45358333333333334,
      "grad_norm": 0.8612011671066284,
      "learning_rate": 0.00017286127150291164,
      "loss": 3.7781,
      "step": 217720
    },
    {
      "epoch": 0.45360416666666664,
      "grad_norm": 0.836765706539154,
      "learning_rate": 0.00017285152807087684,
      "loss": 3.6946,
      "step": 217730
    },
    {
      "epoch": 0.453625,
      "grad_norm": 0.7507131695747375,
      "learning_rate": 0.00017284178454013248,
      "loss": 3.7322,
      "step": 217740
    },
    {
      "epoch": 0.45364583333333336,
      "grad_norm": 0.8808727264404297,
      "learning_rate": 0.0001728320409107206,
      "loss": 3.697,
      "step": 217750
    },
    {
      "epoch": 0.45366666666666666,
      "grad_norm": 0.7235748171806335,
      "learning_rate": 0.0001728222971826834,
      "loss": 3.8741,
      "step": 217760
    },
    {
      "epoch": 0.4536875,
      "grad_norm": 0.7377535700798035,
      "learning_rate": 0.00017281255335606293,
      "loss": 3.8225,
      "step": 217770
    },
    {
      "epoch": 0.4537083333333333,
      "grad_norm": 0.7860040664672852,
      "learning_rate": 0.00017280280943090121,
      "loss": 3.8699,
      "step": 217780
    },
    {
      "epoch": 0.4537291666666667,
      "grad_norm": 0.8296602964401245,
      "learning_rate": 0.00017279306540724038,
      "loss": 3.7969,
      "step": 217790
    },
    {
      "epoch": 0.45375,
      "grad_norm": 1.2353572845458984,
      "learning_rate": 0.00017278332128512256,
      "loss": 3.7197,
      "step": 217800
    },
    {
      "epoch": 0.45377083333333335,
      "grad_norm": 0.8749423623085022,
      "learning_rate": 0.00017277357706458978,
      "loss": 3.7355,
      "step": 217810
    },
    {
      "epoch": 0.45379166666666665,
      "grad_norm": 0.8459696769714355,
      "learning_rate": 0.00017276383274568416,
      "loss": 3.818,
      "step": 217820
    },
    {
      "epoch": 0.4538125,
      "grad_norm": 0.6585549116134644,
      "learning_rate": 0.00017275408832844783,
      "loss": 3.8954,
      "step": 217830
    },
    {
      "epoch": 0.4538333333333333,
      "grad_norm": 0.8029689788818359,
      "learning_rate": 0.00017274434381292283,
      "loss": 3.819,
      "step": 217840
    },
    {
      "epoch": 0.45385416666666667,
      "grad_norm": 0.7736260890960693,
      "learning_rate": 0.00017273459919915128,
      "loss": 3.7047,
      "step": 217850
    },
    {
      "epoch": 0.453875,
      "grad_norm": 0.7886266112327576,
      "learning_rate": 0.0001727248544871752,
      "loss": 3.7844,
      "step": 217860
    },
    {
      "epoch": 0.45389583333333333,
      "grad_norm": 0.8095819354057312,
      "learning_rate": 0.00017271510967703684,
      "loss": 3.7487,
      "step": 217870
    },
    {
      "epoch": 0.4539166666666667,
      "grad_norm": 0.8887430429458618,
      "learning_rate": 0.0001727053647687781,
      "loss": 3.8255,
      "step": 217880
    },
    {
      "epoch": 0.4539375,
      "grad_norm": 0.7762162089347839,
      "learning_rate": 0.0001726956197624412,
      "loss": 3.592,
      "step": 217890
    },
    {
      "epoch": 0.45395833333333335,
      "grad_norm": 0.7066401839256287,
      "learning_rate": 0.00017268587465806825,
      "loss": 3.7478,
      "step": 217900
    },
    {
      "epoch": 0.45397916666666666,
      "grad_norm": 0.7805790305137634,
      "learning_rate": 0.00017267612945570128,
      "loss": 3.7471,
      "step": 217910
    },
    {
      "epoch": 0.454,
      "grad_norm": 0.7345669865608215,
      "learning_rate": 0.00017266638415538237,
      "loss": 3.8602,
      "step": 217920
    },
    {
      "epoch": 0.4540208333333333,
      "grad_norm": 1.0154682397842407,
      "learning_rate": 0.0001726566387571537,
      "loss": 3.82,
      "step": 217930
    },
    {
      "epoch": 0.4540416666666667,
      "grad_norm": 0.8125444650650024,
      "learning_rate": 0.0001726468932610573,
      "loss": 3.8172,
      "step": 217940
    },
    {
      "epoch": 0.4540625,
      "grad_norm": 0.8638689517974854,
      "learning_rate": 0.00017263714766713525,
      "loss": 3.8814,
      "step": 217950
    },
    {
      "epoch": 0.45408333333333334,
      "grad_norm": 0.7318537831306458,
      "learning_rate": 0.00017262740197542973,
      "loss": 3.8109,
      "step": 217960
    },
    {
      "epoch": 0.45410416666666664,
      "grad_norm": 0.7659697532653809,
      "learning_rate": 0.0001726176561859828,
      "loss": 3.602,
      "step": 217970
    },
    {
      "epoch": 0.454125,
      "grad_norm": 0.8679311275482178,
      "learning_rate": 0.00017260791029883652,
      "loss": 3.669,
      "step": 217980
    },
    {
      "epoch": 0.45414583333333336,
      "grad_norm": 0.7393779158592224,
      "learning_rate": 0.00017259816431403302,
      "loss": 3.5254,
      "step": 217990
    },
    {
      "epoch": 0.45416666666666666,
      "grad_norm": 0.8472098112106323,
      "learning_rate": 0.0001725884182316144,
      "loss": 3.7103,
      "step": 218000
    },
    {
      "epoch": 0.45416666666666666,
      "eval_loss": 4.148288726806641,
      "eval_runtime": 8.6925,
      "eval_samples_per_second": 1.15,
      "eval_steps_per_second": 0.345,
      "step": 218000
    },
    {
      "epoch": 0.4541875,
      "grad_norm": 0.7369346022605896,
      "learning_rate": 0.00017257867205162277,
      "loss": 3.7817,
      "step": 218010
    },
    {
      "epoch": 0.4542083333333333,
      "grad_norm": 0.7741173505783081,
      "learning_rate": 0.00017256892577410015,
      "loss": 4.1485,
      "step": 218020
    },
    {
      "epoch": 0.4542291666666667,
      "grad_norm": 0.8230578899383545,
      "learning_rate": 0.00017255917939908876,
      "loss": 3.7502,
      "step": 218030
    },
    {
      "epoch": 0.45425,
      "grad_norm": 0.6980988383293152,
      "learning_rate": 0.00017254943292663067,
      "loss": 3.746,
      "step": 218040
    },
    {
      "epoch": 0.45427083333333335,
      "grad_norm": 0.8670674562454224,
      "learning_rate": 0.00017253968635676787,
      "loss": 3.8522,
      "step": 218050
    },
    {
      "epoch": 0.45429166666666665,
      "grad_norm": 0.7881518602371216,
      "learning_rate": 0.0001725299396895426,
      "loss": 3.6499,
      "step": 218060
    },
    {
      "epoch": 0.4543125,
      "grad_norm": 0.7973877191543579,
      "learning_rate": 0.00017252019292499695,
      "loss": 3.6722,
      "step": 218070
    },
    {
      "epoch": 0.4543333333333333,
      "grad_norm": 0.7993258833885193,
      "learning_rate": 0.00017251044606317293,
      "loss": 3.8472,
      "step": 218080
    },
    {
      "epoch": 0.45435416666666667,
      "grad_norm": 0.7771761417388916,
      "learning_rate": 0.00017250069910411267,
      "loss": 3.7835,
      "step": 218090
    },
    {
      "epoch": 0.454375,
      "grad_norm": 0.8837060332298279,
      "learning_rate": 0.00017249095204785835,
      "loss": 3.6678,
      "step": 218100
    },
    {
      "epoch": 0.45439583333333333,
      "grad_norm": 0.7574945688247681,
      "learning_rate": 0.00017248120489445198,
      "loss": 3.8832,
      "step": 218110
    },
    {
      "epoch": 0.4544166666666667,
      "grad_norm": 0.7225365042686462,
      "learning_rate": 0.00017247145764393574,
      "loss": 3.8841,
      "step": 218120
    },
    {
      "epoch": 0.4544375,
      "grad_norm": 0.8323838710784912,
      "learning_rate": 0.00017246171029635168,
      "loss": 3.8165,
      "step": 218130
    },
    {
      "epoch": 0.45445833333333335,
      "grad_norm": 0.8078937530517578,
      "learning_rate": 0.00017245196285174192,
      "loss": 3.7712,
      "step": 218140
    },
    {
      "epoch": 0.45447916666666666,
      "grad_norm": 1.1000299453735352,
      "learning_rate": 0.00017244221531014856,
      "loss": 3.8606,
      "step": 218150
    },
    {
      "epoch": 0.4545,
      "grad_norm": 0.6988959312438965,
      "learning_rate": 0.0001724324676716137,
      "loss": 3.7117,
      "step": 218160
    },
    {
      "epoch": 0.4545208333333333,
      "grad_norm": 0.8009812831878662,
      "learning_rate": 0.0001724227199361795,
      "loss": 3.7877,
      "step": 218170
    },
    {
      "epoch": 0.4545416666666667,
      "grad_norm": 0.8037193417549133,
      "learning_rate": 0.000172412972103888,
      "loss": 3.9145,
      "step": 218180
    },
    {
      "epoch": 0.4545625,
      "grad_norm": 0.9699211716651917,
      "learning_rate": 0.00017240322417478134,
      "loss": 3.7966,
      "step": 218190
    },
    {
      "epoch": 0.45458333333333334,
      "grad_norm": 0.7788385152816772,
      "learning_rate": 0.0001723934761489016,
      "loss": 3.8502,
      "step": 218200
    },
    {
      "epoch": 0.45460416666666664,
      "grad_norm": 0.7822967767715454,
      "learning_rate": 0.00017238372802629097,
      "loss": 3.7608,
      "step": 218210
    },
    {
      "epoch": 0.454625,
      "grad_norm": 0.8308568596839905,
      "learning_rate": 0.00017237397980699137,
      "loss": 3.7902,
      "step": 218220
    },
    {
      "epoch": 0.45464583333333336,
      "grad_norm": 0.7792600989341736,
      "learning_rate": 0.00017236423149104516,
      "loss": 3.8323,
      "step": 218230
    },
    {
      "epoch": 0.45466666666666666,
      "grad_norm": 0.7557525038719177,
      "learning_rate": 0.00017235448307849428,
      "loss": 3.855,
      "step": 218240
    },
    {
      "epoch": 0.4546875,
      "grad_norm": 0.8274843692779541,
      "learning_rate": 0.00017234473456938083,
      "loss": 3.7552,
      "step": 218250
    },
    {
      "epoch": 0.4547083333333333,
      "grad_norm": 1.0716373920440674,
      "learning_rate": 0.00017233498596374704,
      "loss": 3.879,
      "step": 218260
    },
    {
      "epoch": 0.4547291666666667,
      "grad_norm": 0.7757552266120911,
      "learning_rate": 0.00017232523726163493,
      "loss": 3.8846,
      "step": 218270
    },
    {
      "epoch": 0.45475,
      "grad_norm": 1.0746111869812012,
      "learning_rate": 0.00017231548846308664,
      "loss": 3.8334,
      "step": 218280
    },
    {
      "epoch": 0.45477083333333335,
      "grad_norm": 0.8203228712081909,
      "learning_rate": 0.00017230573956814426,
      "loss": 3.6614,
      "step": 218290
    },
    {
      "epoch": 0.45479166666666665,
      "grad_norm": 0.7722915410995483,
      "learning_rate": 0.00017229599057684992,
      "loss": 3.7284,
      "step": 218300
    },
    {
      "epoch": 0.4548125,
      "grad_norm": 0.8024721741676331,
      "learning_rate": 0.0001722862414892457,
      "loss": 3.8387,
      "step": 218310
    },
    {
      "epoch": 0.4548333333333333,
      "grad_norm": 0.7200015187263489,
      "learning_rate": 0.00017227649230537378,
      "loss": 3.7109,
      "step": 218320
    },
    {
      "epoch": 0.45485416666666667,
      "grad_norm": 0.8475274443626404,
      "learning_rate": 0.0001722667430252762,
      "loss": 3.8353,
      "step": 218330
    },
    {
      "epoch": 0.454875,
      "grad_norm": 0.7423941493034363,
      "learning_rate": 0.00017225699364899511,
      "loss": 3.8459,
      "step": 218340
    },
    {
      "epoch": 0.45489583333333333,
      "grad_norm": 0.8286141157150269,
      "learning_rate": 0.00017224724417657264,
      "loss": 3.7465,
      "step": 218350
    },
    {
      "epoch": 0.4549166666666667,
      "grad_norm": 0.8147937059402466,
      "learning_rate": 0.00017223749460805086,
      "loss": 3.584,
      "step": 218360
    },
    {
      "epoch": 0.4549375,
      "grad_norm": 0.8389596343040466,
      "learning_rate": 0.0001722277449434719,
      "loss": 3.7332,
      "step": 218370
    },
    {
      "epoch": 0.45495833333333335,
      "grad_norm": 0.7822895646095276,
      "learning_rate": 0.0001722179951828779,
      "loss": 3.6459,
      "step": 218380
    },
    {
      "epoch": 0.45497916666666666,
      "grad_norm": 0.761294960975647,
      "learning_rate": 0.00017220824532631092,
      "loss": 3.7419,
      "step": 218390
    },
    {
      "epoch": 0.455,
      "grad_norm": 0.8572676181793213,
      "learning_rate": 0.00017219849537381316,
      "loss": 3.8037,
      "step": 218400
    },
    {
      "epoch": 0.4550208333333333,
      "grad_norm": 0.8528864979743958,
      "learning_rate": 0.00017218874532542666,
      "loss": 3.7396,
      "step": 218410
    },
    {
      "epoch": 0.4550416666666667,
      "grad_norm": 0.8909938931465149,
      "learning_rate": 0.00017217899518119355,
      "loss": 3.8645,
      "step": 218420
    },
    {
      "epoch": 0.4550625,
      "grad_norm": 0.9837232232093811,
      "learning_rate": 0.00017216924494115602,
      "loss": 3.9614,
      "step": 218430
    },
    {
      "epoch": 0.45508333333333334,
      "grad_norm": 0.7781339883804321,
      "learning_rate": 0.00017215949460535606,
      "loss": 3.8337,
      "step": 218440
    },
    {
      "epoch": 0.45510416666666664,
      "grad_norm": 1.0524715185165405,
      "learning_rate": 0.00017214974417383586,
      "loss": 3.7272,
      "step": 218450
    },
    {
      "epoch": 0.455125,
      "grad_norm": 0.8629060387611389,
      "learning_rate": 0.00017213999364663757,
      "loss": 3.7718,
      "step": 218460
    },
    {
      "epoch": 0.45514583333333336,
      "grad_norm": 0.732679009437561,
      "learning_rate": 0.00017213024302380325,
      "loss": 3.8257,
      "step": 218470
    },
    {
      "epoch": 0.45516666666666666,
      "grad_norm": 0.7513032555580139,
      "learning_rate": 0.00017212049230537504,
      "loss": 3.7588,
      "step": 218480
    },
    {
      "epoch": 0.4551875,
      "grad_norm": 0.6877059936523438,
      "learning_rate": 0.00017211074149139506,
      "loss": 3.8513,
      "step": 218490
    },
    {
      "epoch": 0.4552083333333333,
      "grad_norm": 0.8337559103965759,
      "learning_rate": 0.0001721009905819054,
      "loss": 3.8034,
      "step": 218500
    },
    {
      "epoch": 0.4552291666666667,
      "grad_norm": 0.8632776141166687,
      "learning_rate": 0.00017209123957694826,
      "loss": 3.9006,
      "step": 218510
    },
    {
      "epoch": 0.45525,
      "grad_norm": 0.7264158725738525,
      "learning_rate": 0.00017208148847656568,
      "loss": 3.8674,
      "step": 218520
    },
    {
      "epoch": 0.45527083333333335,
      "grad_norm": 0.8898013830184937,
      "learning_rate": 0.00017207173728079985,
      "loss": 3.8356,
      "step": 218530
    },
    {
      "epoch": 0.45529166666666665,
      "grad_norm": 0.7565621733665466,
      "learning_rate": 0.0001720619859896928,
      "loss": 3.7024,
      "step": 218540
    },
    {
      "epoch": 0.4553125,
      "grad_norm": 0.7746410369873047,
      "learning_rate": 0.0001720522346032867,
      "loss": 3.8094,
      "step": 218550
    },
    {
      "epoch": 0.4553333333333333,
      "grad_norm": 0.7673349380493164,
      "learning_rate": 0.0001720424831216237,
      "loss": 3.8878,
      "step": 218560
    },
    {
      "epoch": 0.45535416666666667,
      "grad_norm": 0.78758305311203,
      "learning_rate": 0.00017203273154474595,
      "loss": 3.7225,
      "step": 218570
    },
    {
      "epoch": 0.455375,
      "grad_norm": 0.7935782670974731,
      "learning_rate": 0.00017202297987269546,
      "loss": 3.8717,
      "step": 218580
    },
    {
      "epoch": 0.45539583333333333,
      "grad_norm": 0.7014261484146118,
      "learning_rate": 0.0001720132281055144,
      "loss": 3.6653,
      "step": 218590
    },
    {
      "epoch": 0.4554166666666667,
      "grad_norm": 0.7789018750190735,
      "learning_rate": 0.00017200347624324495,
      "loss": 3.7785,
      "step": 218600
    },
    {
      "epoch": 0.4554375,
      "grad_norm": 0.818281352519989,
      "learning_rate": 0.00017199372428592914,
      "loss": 3.7946,
      "step": 218610
    },
    {
      "epoch": 0.45545833333333335,
      "grad_norm": 0.8071275353431702,
      "learning_rate": 0.00017198397223360917,
      "loss": 3.7453,
      "step": 218620
    },
    {
      "epoch": 0.45547916666666666,
      "grad_norm": 0.813357949256897,
      "learning_rate": 0.00017197422008632718,
      "loss": 3.7192,
      "step": 218630
    },
    {
      "epoch": 0.4555,
      "grad_norm": 1.270334243774414,
      "learning_rate": 0.00017196446784412524,
      "loss": 3.8421,
      "step": 218640
    },
    {
      "epoch": 0.4555208333333333,
      "grad_norm": 0.7270114421844482,
      "learning_rate": 0.00017195471550704547,
      "loss": 3.9043,
      "step": 218650
    },
    {
      "epoch": 0.4555416666666667,
      "grad_norm": 1.1128486394882202,
      "learning_rate": 0.00017194496307513,
      "loss": 3.8504,
      "step": 218660
    },
    {
      "epoch": 0.4555625,
      "grad_norm": 0.7624912261962891,
      "learning_rate": 0.00017193521054842102,
      "loss": 3.6749,
      "step": 218670
    },
    {
      "epoch": 0.45558333333333334,
      "grad_norm": 1.2019790410995483,
      "learning_rate": 0.00017192545792696058,
      "loss": 3.8611,
      "step": 218680
    },
    {
      "epoch": 0.45560416666666664,
      "grad_norm": 0.8258681893348694,
      "learning_rate": 0.00017191570521079086,
      "loss": 3.5991,
      "step": 218690
    },
    {
      "epoch": 0.455625,
      "grad_norm": 0.8012904524803162,
      "learning_rate": 0.00017190595239995396,
      "loss": 3.7732,
      "step": 218700
    },
    {
      "epoch": 0.45564583333333336,
      "grad_norm": 0.8173849582672119,
      "learning_rate": 0.00017189619949449207,
      "loss": 3.8633,
      "step": 218710
    },
    {
      "epoch": 0.45566666666666666,
      "grad_norm": 0.8810386657714844,
      "learning_rate": 0.00017188644649444718,
      "loss": 3.8316,
      "step": 218720
    },
    {
      "epoch": 0.4556875,
      "grad_norm": 0.8981626033782959,
      "learning_rate": 0.00017187669339986154,
      "loss": 3.6965,
      "step": 218730
    },
    {
      "epoch": 0.4557083333333333,
      "grad_norm": 0.7730531096458435,
      "learning_rate": 0.00017186694021077727,
      "loss": 3.6998,
      "step": 218740
    },
    {
      "epoch": 0.4557291666666667,
      "grad_norm": 0.762697696685791,
      "learning_rate": 0.00017185718692723644,
      "loss": 3.7989,
      "step": 218750
    },
    {
      "epoch": 0.45575,
      "grad_norm": 0.7460417151451111,
      "learning_rate": 0.00017184743354928123,
      "loss": 3.7349,
      "step": 218760
    },
    {
      "epoch": 0.45577083333333335,
      "grad_norm": 0.7717882394790649,
      "learning_rate": 0.00017183768007695378,
      "loss": 3.8515,
      "step": 218770
    },
    {
      "epoch": 0.45579166666666665,
      "grad_norm": 0.7283890247344971,
      "learning_rate": 0.00017182792651029613,
      "loss": 3.6093,
      "step": 218780
    },
    {
      "epoch": 0.4558125,
      "grad_norm": 0.8800604343414307,
      "learning_rate": 0.0001718181728493505,
      "loss": 3.9141,
      "step": 218790
    },
    {
      "epoch": 0.4558333333333333,
      "grad_norm": 0.7821611762046814,
      "learning_rate": 0.00017180841909415905,
      "loss": 3.6967,
      "step": 218800
    },
    {
      "epoch": 0.45585416666666667,
      "grad_norm": 0.7295961976051331,
      "learning_rate": 0.00017179866524476381,
      "loss": 3.8867,
      "step": 218810
    },
    {
      "epoch": 0.455875,
      "grad_norm": 0.7289102077484131,
      "learning_rate": 0.00017178891130120697,
      "loss": 3.7792,
      "step": 218820
    },
    {
      "epoch": 0.45589583333333333,
      "grad_norm": 0.6983069181442261,
      "learning_rate": 0.00017177915726353067,
      "loss": 3.9154,
      "step": 218830
    },
    {
      "epoch": 0.4559166666666667,
      "grad_norm": 0.7597332000732422,
      "learning_rate": 0.00017176940313177704,
      "loss": 3.7095,
      "step": 218840
    },
    {
      "epoch": 0.4559375,
      "grad_norm": 0.7909107804298401,
      "learning_rate": 0.0001717596489059882,
      "loss": 3.6148,
      "step": 218850
    },
    {
      "epoch": 0.45595833333333335,
      "grad_norm": 0.7810595035552979,
      "learning_rate": 0.00017174989458620626,
      "loss": 3.7516,
      "step": 218860
    },
    {
      "epoch": 0.45597916666666666,
      "grad_norm": 0.7618619203567505,
      "learning_rate": 0.0001717401401724734,
      "loss": 3.7557,
      "step": 218870
    },
    {
      "epoch": 0.456,
      "grad_norm": 0.8564801216125488,
      "learning_rate": 0.00017173038566483176,
      "loss": 3.7193,
      "step": 218880
    },
    {
      "epoch": 0.4560208333333333,
      "grad_norm": 0.7154435515403748,
      "learning_rate": 0.00017172063106332347,
      "loss": 3.704,
      "step": 218890
    },
    {
      "epoch": 0.4560416666666667,
      "grad_norm": 0.7948931455612183,
      "learning_rate": 0.0001717108763679906,
      "loss": 3.667,
      "step": 218900
    },
    {
      "epoch": 0.4560625,
      "grad_norm": 0.7961582541465759,
      "learning_rate": 0.0001717011215788754,
      "loss": 3.7665,
      "step": 218910
    },
    {
      "epoch": 0.45608333333333334,
      "grad_norm": 0.9010810256004333,
      "learning_rate": 0.0001716913666960199,
      "loss": 3.7817,
      "step": 218920
    },
    {
      "epoch": 0.45610416666666664,
      "grad_norm": 0.7524495124816895,
      "learning_rate": 0.00017168161171946626,
      "loss": 3.6196,
      "step": 218930
    },
    {
      "epoch": 0.456125,
      "grad_norm": 0.7880049347877502,
      "learning_rate": 0.0001716718566492567,
      "loss": 3.7558,
      "step": 218940
    },
    {
      "epoch": 0.4561458333333333,
      "grad_norm": 0.8277205228805542,
      "learning_rate": 0.00017166210148543323,
      "loss": 3.7202,
      "step": 218950
    },
    {
      "epoch": 0.45616666666666666,
      "grad_norm": 0.9361151456832886,
      "learning_rate": 0.00017165234622803808,
      "loss": 3.6774,
      "step": 218960
    },
    {
      "epoch": 0.4561875,
      "grad_norm": 0.9162286520004272,
      "learning_rate": 0.0001716425908771134,
      "loss": 3.8115,
      "step": 218970
    },
    {
      "epoch": 0.4562083333333333,
      "grad_norm": 0.6665968894958496,
      "learning_rate": 0.0001716328354327013,
      "loss": 3.8328,
      "step": 218980
    },
    {
      "epoch": 0.4562291666666667,
      "grad_norm": 0.8023574948310852,
      "learning_rate": 0.00017162307989484384,
      "loss": 3.7981,
      "step": 218990
    },
    {
      "epoch": 0.45625,
      "grad_norm": 0.8268207311630249,
      "learning_rate": 0.0001716133242635833,
      "loss": 3.7573,
      "step": 219000
    },
    {
      "epoch": 0.45625,
      "eval_loss": 4.15047550201416,
      "eval_runtime": 8.8732,
      "eval_samples_per_second": 1.127,
      "eval_steps_per_second": 0.338,
      "step": 219000
    },
    {
      "epoch": 0.45627083333333335,
      "grad_norm": 0.751360297203064,
      "learning_rate": 0.00017160356853896172,
      "loss": 3.7845,
      "step": 219010
    },
    {
      "epoch": 0.45629166666666665,
      "grad_norm": 0.8720105290412903,
      "learning_rate": 0.0001715938127210213,
      "loss": 3.9415,
      "step": 219020
    },
    {
      "epoch": 0.4563125,
      "grad_norm": 0.7486757040023804,
      "learning_rate": 0.00017158405680980416,
      "loss": 3.9959,
      "step": 219030
    },
    {
      "epoch": 0.4563333333333333,
      "grad_norm": 0.8906260132789612,
      "learning_rate": 0.00017157430080535244,
      "loss": 3.9921,
      "step": 219040
    },
    {
      "epoch": 0.45635416666666667,
      "grad_norm": 0.757412850856781,
      "learning_rate": 0.00017156454470770825,
      "loss": 3.8292,
      "step": 219050
    },
    {
      "epoch": 0.456375,
      "grad_norm": 0.8478199243545532,
      "learning_rate": 0.00017155478851691377,
      "loss": 3.6089,
      "step": 219060
    },
    {
      "epoch": 0.45639583333333333,
      "grad_norm": 0.6786128282546997,
      "learning_rate": 0.00017154503223301113,
      "loss": 3.8325,
      "step": 219070
    },
    {
      "epoch": 0.4564166666666667,
      "grad_norm": 0.9046443104743958,
      "learning_rate": 0.00017153527585604252,
      "loss": 3.8334,
      "step": 219080
    },
    {
      "epoch": 0.4564375,
      "grad_norm": 0.7578355073928833,
      "learning_rate": 0.00017152551938605,
      "loss": 3.8558,
      "step": 219090
    },
    {
      "epoch": 0.45645833333333335,
      "grad_norm": 0.8471924066543579,
      "learning_rate": 0.00017151576282307574,
      "loss": 3.8092,
      "step": 219100
    },
    {
      "epoch": 0.45647916666666666,
      "grad_norm": 0.779146671295166,
      "learning_rate": 0.00017150600616716198,
      "loss": 3.8223,
      "step": 219110
    },
    {
      "epoch": 0.4565,
      "grad_norm": 0.8328258991241455,
      "learning_rate": 0.0001714962494183507,
      "loss": 3.7924,
      "step": 219120
    },
    {
      "epoch": 0.4565208333333333,
      "grad_norm": 0.8565951585769653,
      "learning_rate": 0.00017148649257668416,
      "loss": 3.6469,
      "step": 219130
    },
    {
      "epoch": 0.4565416666666667,
      "grad_norm": 0.8038803339004517,
      "learning_rate": 0.00017147673564220454,
      "loss": 3.9771,
      "step": 219140
    },
    {
      "epoch": 0.4565625,
      "grad_norm": 0.8147815465927124,
      "learning_rate": 0.00017146697861495386,
      "loss": 3.7996,
      "step": 219150
    },
    {
      "epoch": 0.45658333333333334,
      "grad_norm": 2.5945873260498047,
      "learning_rate": 0.00017145722149497432,
      "loss": 3.7237,
      "step": 219160
    },
    {
      "epoch": 0.45660416666666664,
      "grad_norm": 0.6684133410453796,
      "learning_rate": 0.0001714474642823081,
      "loss": 3.9184,
      "step": 219170
    },
    {
      "epoch": 0.456625,
      "grad_norm": 0.8181803822517395,
      "learning_rate": 0.00017143770697699732,
      "loss": 4.037,
      "step": 219180
    },
    {
      "epoch": 0.4566458333333333,
      "grad_norm": 0.9839320778846741,
      "learning_rate": 0.00017142794957908413,
      "loss": 3.8841,
      "step": 219190
    },
    {
      "epoch": 0.45666666666666667,
      "grad_norm": 0.897142767906189,
      "learning_rate": 0.0001714181920886107,
      "loss": 3.7887,
      "step": 219200
    },
    {
      "epoch": 0.4566875,
      "grad_norm": 0.8115758299827576,
      "learning_rate": 0.00017140843450561913,
      "loss": 3.7843,
      "step": 219210
    },
    {
      "epoch": 0.4567083333333333,
      "grad_norm": 0.9418210387229919,
      "learning_rate": 0.0001713986768301516,
      "loss": 3.6889,
      "step": 219220
    },
    {
      "epoch": 0.4567291666666667,
      "grad_norm": 0.8847978711128235,
      "learning_rate": 0.00017138891906225026,
      "loss": 3.7589,
      "step": 219230
    },
    {
      "epoch": 0.45675,
      "grad_norm": 0.7648297548294067,
      "learning_rate": 0.00017137916120195723,
      "loss": 3.859,
      "step": 219240
    },
    {
      "epoch": 0.45677083333333335,
      "grad_norm": 1.185360312461853,
      "learning_rate": 0.00017136940324931474,
      "loss": 3.6324,
      "step": 219250
    },
    {
      "epoch": 0.45679166666666665,
      "grad_norm": 0.9159495234489441,
      "learning_rate": 0.00017135964520436487,
      "loss": 3.8848,
      "step": 219260
    },
    {
      "epoch": 0.4568125,
      "grad_norm": 2.5212371349334717,
      "learning_rate": 0.00017134988706714977,
      "loss": 3.8148,
      "step": 219270
    },
    {
      "epoch": 0.4568333333333333,
      "grad_norm": 0.7687273025512695,
      "learning_rate": 0.00017134012883771163,
      "loss": 3.8338,
      "step": 219280
    },
    {
      "epoch": 0.4568541666666667,
      "grad_norm": 1.0452102422714233,
      "learning_rate": 0.00017133037051609255,
      "loss": 3.7855,
      "step": 219290
    },
    {
      "epoch": 0.456875,
      "grad_norm": 0.7641792893409729,
      "learning_rate": 0.00017132061210233475,
      "loss": 3.7807,
      "step": 219300
    },
    {
      "epoch": 0.45689583333333333,
      "grad_norm": 0.8689104318618774,
      "learning_rate": 0.0001713108535964803,
      "loss": 3.7879,
      "step": 219310
    },
    {
      "epoch": 0.4569166666666667,
      "grad_norm": 0.7557772397994995,
      "learning_rate": 0.00017130109499857138,
      "loss": 3.7653,
      "step": 219320
    },
    {
      "epoch": 0.4569375,
      "grad_norm": 0.9439741373062134,
      "learning_rate": 0.00017129133630865024,
      "loss": 3.7402,
      "step": 219330
    },
    {
      "epoch": 0.45695833333333336,
      "grad_norm": 0.8176093697547913,
      "learning_rate": 0.00017128157752675893,
      "loss": 3.6747,
      "step": 219340
    },
    {
      "epoch": 0.45697916666666666,
      "grad_norm": 0.9321174621582031,
      "learning_rate": 0.00017127181865293962,
      "loss": 3.7362,
      "step": 219350
    },
    {
      "epoch": 0.457,
      "grad_norm": 1.0569850206375122,
      "learning_rate": 0.00017126205968723447,
      "loss": 3.7758,
      "step": 219360
    },
    {
      "epoch": 0.4570208333333333,
      "grad_norm": 0.7713190913200378,
      "learning_rate": 0.00017125230062968563,
      "loss": 3.7678,
      "step": 219370
    },
    {
      "epoch": 0.4570416666666667,
      "grad_norm": 0.9762965440750122,
      "learning_rate": 0.00017124254148033526,
      "loss": 3.8074,
      "step": 219380
    },
    {
      "epoch": 0.4570625,
      "grad_norm": 0.9658845067024231,
      "learning_rate": 0.00017123278223922555,
      "loss": 3.7759,
      "step": 219390
    },
    {
      "epoch": 0.45708333333333334,
      "grad_norm": 0.8500241041183472,
      "learning_rate": 0.00017122302290639862,
      "loss": 3.7501,
      "step": 219400
    },
    {
      "epoch": 0.45710416666666664,
      "grad_norm": 0.7608730792999268,
      "learning_rate": 0.0001712132634818966,
      "loss": 3.8319,
      "step": 219410
    },
    {
      "epoch": 0.457125,
      "grad_norm": 0.927487850189209,
      "learning_rate": 0.00017120350396576168,
      "loss": 3.9141,
      "step": 219420
    },
    {
      "epoch": 0.4571458333333333,
      "grad_norm": 0.8771998286247253,
      "learning_rate": 0.00017119374435803605,
      "loss": 3.5914,
      "step": 219430
    },
    {
      "epoch": 0.45716666666666667,
      "grad_norm": 0.9081494808197021,
      "learning_rate": 0.00017118398465876183,
      "loss": 3.9672,
      "step": 219440
    },
    {
      "epoch": 0.4571875,
      "grad_norm": 0.7478479146957397,
      "learning_rate": 0.00017117422486798115,
      "loss": 3.5222,
      "step": 219450
    },
    {
      "epoch": 0.4572083333333333,
      "grad_norm": 0.9104452133178711,
      "learning_rate": 0.00017116446498573618,
      "loss": 3.7999,
      "step": 219460
    },
    {
      "epoch": 0.4572291666666667,
      "grad_norm": 0.7853668332099915,
      "learning_rate": 0.0001711547050120692,
      "loss": 3.7357,
      "step": 219470
    },
    {
      "epoch": 0.45725,
      "grad_norm": 0.7233616709709167,
      "learning_rate": 0.0001711449449470222,
      "loss": 3.7243,
      "step": 219480
    },
    {
      "epoch": 0.45727083333333335,
      "grad_norm": 1.1575287580490112,
      "learning_rate": 0.00017113518479063738,
      "loss": 3.765,
      "step": 219490
    },
    {
      "epoch": 0.45729166666666665,
      "grad_norm": 0.742274284362793,
      "learning_rate": 0.00017112542454295697,
      "loss": 3.608,
      "step": 219500
    },
    {
      "epoch": 0.4573125,
      "grad_norm": 0.8922272324562073,
      "learning_rate": 0.00017111566420402308,
      "loss": 3.7218,
      "step": 219510
    },
    {
      "epoch": 0.4573333333333333,
      "grad_norm": 0.8301978707313538,
      "learning_rate": 0.00017110590377387785,
      "loss": 3.774,
      "step": 219520
    },
    {
      "epoch": 0.4573541666666667,
      "grad_norm": 0.8381142020225525,
      "learning_rate": 0.00017109614325256351,
      "loss": 3.8639,
      "step": 219530
    },
    {
      "epoch": 0.457375,
      "grad_norm": 0.9717937111854553,
      "learning_rate": 0.00017108638264012218,
      "loss": 3.7494,
      "step": 219540
    },
    {
      "epoch": 0.45739583333333333,
      "grad_norm": 0.8942884802818298,
      "learning_rate": 0.00017107662193659601,
      "loss": 3.6762,
      "step": 219550
    },
    {
      "epoch": 0.4574166666666667,
      "grad_norm": 0.8162727952003479,
      "learning_rate": 0.0001710668611420272,
      "loss": 3.7071,
      "step": 219560
    },
    {
      "epoch": 0.4574375,
      "grad_norm": 0.7827759385108948,
      "learning_rate": 0.00017105710025645785,
      "loss": 3.5898,
      "step": 219570
    },
    {
      "epoch": 0.45745833333333336,
      "grad_norm": 0.8990097045898438,
      "learning_rate": 0.00017104733927993015,
      "loss": 3.7416,
      "step": 219580
    },
    {
      "epoch": 0.45747916666666666,
      "grad_norm": 1.0860484838485718,
      "learning_rate": 0.00017103757821248635,
      "loss": 3.8464,
      "step": 219590
    },
    {
      "epoch": 0.4575,
      "grad_norm": 0.7419610619544983,
      "learning_rate": 0.00017102781705416846,
      "loss": 3.7224,
      "step": 219600
    },
    {
      "epoch": 0.4575208333333333,
      "grad_norm": 0.8776785135269165,
      "learning_rate": 0.0001710180558050188,
      "loss": 3.8233,
      "step": 219610
    },
    {
      "epoch": 0.4575416666666667,
      "grad_norm": 1.0578442811965942,
      "learning_rate": 0.00017100829446507938,
      "loss": 3.7637,
      "step": 219620
    },
    {
      "epoch": 0.4575625,
      "grad_norm": 0.9930617809295654,
      "learning_rate": 0.00017099853303439248,
      "loss": 3.7528,
      "step": 219630
    },
    {
      "epoch": 0.45758333333333334,
      "grad_norm": 0.7591001987457275,
      "learning_rate": 0.00017098877151300025,
      "loss": 3.7594,
      "step": 219640
    },
    {
      "epoch": 0.45760416666666665,
      "grad_norm": 0.82375168800354,
      "learning_rate": 0.0001709790099009448,
      "loss": 3.6985,
      "step": 219650
    },
    {
      "epoch": 0.457625,
      "grad_norm": 0.7359263300895691,
      "learning_rate": 0.00017096924819826832,
      "loss": 3.741,
      "step": 219660
    },
    {
      "epoch": 0.4576458333333333,
      "grad_norm": 1.1539673805236816,
      "learning_rate": 0.00017095948640501304,
      "loss": 3.8041,
      "step": 219670
    },
    {
      "epoch": 0.45766666666666667,
      "grad_norm": 0.8553886413574219,
      "learning_rate": 0.00017094972452122106,
      "loss": 3.9377,
      "step": 219680
    },
    {
      "epoch": 0.4576875,
      "grad_norm": 0.8701058030128479,
      "learning_rate": 0.0001709399625469345,
      "loss": 3.8447,
      "step": 219690
    },
    {
      "epoch": 0.45770833333333333,
      "grad_norm": 0.7315616011619568,
      "learning_rate": 0.00017093020048219567,
      "loss": 3.9413,
      "step": 219700
    },
    {
      "epoch": 0.4577291666666667,
      "grad_norm": 0.899935781955719,
      "learning_rate": 0.0001709204383270466,
      "loss": 3.8014,
      "step": 219710
    },
    {
      "epoch": 0.45775,
      "grad_norm": 1.2129939794540405,
      "learning_rate": 0.00017091067608152958,
      "loss": 3.6977,
      "step": 219720
    },
    {
      "epoch": 0.45777083333333335,
      "grad_norm": 0.7983981370925903,
      "learning_rate": 0.00017090091374568665,
      "loss": 3.6479,
      "step": 219730
    },
    {
      "epoch": 0.45779166666666665,
      "grad_norm": 0.7602488994598389,
      "learning_rate": 0.0001708911513195601,
      "loss": 3.6011,
      "step": 219740
    },
    {
      "epoch": 0.4578125,
      "grad_norm": 1.0645568370819092,
      "learning_rate": 0.00017088138880319199,
      "loss": 3.7031,
      "step": 219750
    },
    {
      "epoch": 0.4578333333333333,
      "grad_norm": 0.9460079669952393,
      "learning_rate": 0.00017087162619662462,
      "loss": 3.8679,
      "step": 219760
    },
    {
      "epoch": 0.4578541666666667,
      "grad_norm": 0.8927690982818604,
      "learning_rate": 0.00017086186349990002,
      "loss": 3.6889,
      "step": 219770
    },
    {
      "epoch": 0.457875,
      "grad_norm": 0.8712805509567261,
      "learning_rate": 0.0001708521007130605,
      "loss": 3.783,
      "step": 219780
    },
    {
      "epoch": 0.45789583333333334,
      "grad_norm": 0.7301400899887085,
      "learning_rate": 0.00017084233783614807,
      "loss": 3.7996,
      "step": 219790
    },
    {
      "epoch": 0.4579166666666667,
      "grad_norm": 1.1122722625732422,
      "learning_rate": 0.00017083257486920505,
      "loss": 3.7741,
      "step": 219800
    },
    {
      "epoch": 0.4579375,
      "grad_norm": 0.8793350458145142,
      "learning_rate": 0.00017082281181227354,
      "loss": 3.8149,
      "step": 219810
    },
    {
      "epoch": 0.45795833333333336,
      "grad_norm": 0.7474536299705505,
      "learning_rate": 0.00017081304866539568,
      "loss": 3.7091,
      "step": 219820
    },
    {
      "epoch": 0.45797916666666666,
      "grad_norm": 0.7472434639930725,
      "learning_rate": 0.0001708032854286137,
      "loss": 3.8479,
      "step": 219830
    },
    {
      "epoch": 0.458,
      "grad_norm": 0.7660989761352539,
      "learning_rate": 0.00017079352210196987,
      "loss": 3.7604,
      "step": 219840
    },
    {
      "epoch": 0.4580208333333333,
      "grad_norm": 0.7624331712722778,
      "learning_rate": 0.00017078375868550616,
      "loss": 3.7714,
      "step": 219850
    },
    {
      "epoch": 0.4580416666666667,
      "grad_norm": 0.9100207686424255,
      "learning_rate": 0.0001707739951792648,
      "loss": 3.6188,
      "step": 219860
    },
    {
      "epoch": 0.4580625,
      "grad_norm": 0.787821352481842,
      "learning_rate": 0.0001707642315832881,
      "loss": 3.8285,
      "step": 219870
    },
    {
      "epoch": 0.45808333333333334,
      "grad_norm": 0.739037811756134,
      "learning_rate": 0.0001707544678976181,
      "loss": 3.8119,
      "step": 219880
    },
    {
      "epoch": 0.45810416666666665,
      "grad_norm": 0.8047354817390442,
      "learning_rate": 0.000170744704122297,
      "loss": 3.6431,
      "step": 219890
    },
    {
      "epoch": 0.458125,
      "grad_norm": 0.8144229650497437,
      "learning_rate": 0.00017073494025736702,
      "loss": 3.8587,
      "step": 219900
    },
    {
      "epoch": 0.4581458333333333,
      "grad_norm": 0.8619356751441956,
      "learning_rate": 0.00017072517630287027,
      "loss": 3.9457,
      "step": 219910
    },
    {
      "epoch": 0.45816666666666667,
      "grad_norm": 0.8226284384727478,
      "learning_rate": 0.000170715412258849,
      "loss": 3.8722,
      "step": 219920
    },
    {
      "epoch": 0.4581875,
      "grad_norm": 0.8004904389381409,
      "learning_rate": 0.0001707056481253453,
      "loss": 3.817,
      "step": 219930
    },
    {
      "epoch": 0.45820833333333333,
      "grad_norm": 0.7752457857131958,
      "learning_rate": 0.00017069588390240142,
      "loss": 3.7826,
      "step": 219940
    },
    {
      "epoch": 0.4582291666666667,
      "grad_norm": 0.7409631609916687,
      "learning_rate": 0.00017068611959005953,
      "loss": 3.7166,
      "step": 219950
    },
    {
      "epoch": 0.45825,
      "grad_norm": 0.764103353023529,
      "learning_rate": 0.00017067635518836177,
      "loss": 3.8449,
      "step": 219960
    },
    {
      "epoch": 0.45827083333333335,
      "grad_norm": 0.8463153839111328,
      "learning_rate": 0.00017066659069735034,
      "loss": 3.7301,
      "step": 219970
    },
    {
      "epoch": 0.45829166666666665,
      "grad_norm": 0.840232789516449,
      "learning_rate": 0.00017065682611706748,
      "loss": 3.7492,
      "step": 219980
    },
    {
      "epoch": 0.4583125,
      "grad_norm": 0.735422670841217,
      "learning_rate": 0.0001706470614475552,
      "loss": 3.6654,
      "step": 219990
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 0.7775730490684509,
      "learning_rate": 0.00017063729668885584,
      "loss": 3.7231,
      "step": 220000
    },
    {
      "epoch": 0.4583333333333333,
      "eval_loss": 4.1425981521606445,
      "eval_runtime": 8.9797,
      "eval_samples_per_second": 1.114,
      "eval_steps_per_second": 0.334,
      "step": 220000
    },
    {
      "epoch": 0.4583541666666667,
      "grad_norm": 0.8501764535903931,
      "learning_rate": 0.00017062753184101154,
      "loss": 3.8275,
      "step": 220010
    },
    {
      "epoch": 0.458375,
      "grad_norm": 0.8231067657470703,
      "learning_rate": 0.00017061776690406447,
      "loss": 3.8979,
      "step": 220020
    },
    {
      "epoch": 0.45839583333333334,
      "grad_norm": 0.8277459144592285,
      "learning_rate": 0.00017060800187805678,
      "loss": 3.9804,
      "step": 220030
    },
    {
      "epoch": 0.45841666666666664,
      "grad_norm": 0.7142825126647949,
      "learning_rate": 0.00017059823676303067,
      "loss": 3.7302,
      "step": 220040
    },
    {
      "epoch": 0.4584375,
      "grad_norm": 0.8563107848167419,
      "learning_rate": 0.0001705884715590284,
      "loss": 3.7673,
      "step": 220050
    },
    {
      "epoch": 0.45845833333333336,
      "grad_norm": 0.8774808645248413,
      "learning_rate": 0.000170578706266092,
      "loss": 3.6282,
      "step": 220060
    },
    {
      "epoch": 0.45847916666666666,
      "grad_norm": 0.7778774499893188,
      "learning_rate": 0.00017056894088426377,
      "loss": 3.8181,
      "step": 220070
    },
    {
      "epoch": 0.4585,
      "grad_norm": 0.8166449666023254,
      "learning_rate": 0.00017055917541358587,
      "loss": 3.9548,
      "step": 220080
    },
    {
      "epoch": 0.4585208333333333,
      "grad_norm": 0.922298014163971,
      "learning_rate": 0.00017054940985410043,
      "loss": 3.8889,
      "step": 220090
    },
    {
      "epoch": 0.4585416666666667,
      "grad_norm": 0.6993547677993774,
      "learning_rate": 0.0001705396442058497,
      "loss": 3.6674,
      "step": 220100
    },
    {
      "epoch": 0.4585625,
      "grad_norm": 0.8893345594406128,
      "learning_rate": 0.00017052987846887587,
      "loss": 3.6574,
      "step": 220110
    },
    {
      "epoch": 0.45858333333333334,
      "grad_norm": 0.8526577353477478,
      "learning_rate": 0.00017052011264322105,
      "loss": 3.5985,
      "step": 220120
    },
    {
      "epoch": 0.45860416666666665,
      "grad_norm": 0.740217924118042,
      "learning_rate": 0.00017051034672892746,
      "loss": 3.6734,
      "step": 220130
    },
    {
      "epoch": 0.458625,
      "grad_norm": 0.7700844407081604,
      "learning_rate": 0.00017050058072603732,
      "loss": 3.8275,
      "step": 220140
    },
    {
      "epoch": 0.4586458333333333,
      "grad_norm": 0.9219442009925842,
      "learning_rate": 0.00017049081463459278,
      "loss": 3.5982,
      "step": 220150
    },
    {
      "epoch": 0.45866666666666667,
      "grad_norm": 0.7035115361213684,
      "learning_rate": 0.000170481048454636,
      "loss": 3.7776,
      "step": 220160
    },
    {
      "epoch": 0.4586875,
      "grad_norm": 0.908542811870575,
      "learning_rate": 0.0001704712821862092,
      "loss": 3.7609,
      "step": 220170
    },
    {
      "epoch": 0.45870833333333333,
      "grad_norm": 0.7746953964233398,
      "learning_rate": 0.00017046151582935463,
      "loss": 3.8558,
      "step": 220180
    },
    {
      "epoch": 0.4587291666666667,
      "grad_norm": 0.872236430644989,
      "learning_rate": 0.00017045174938411434,
      "loss": 3.8726,
      "step": 220190
    },
    {
      "epoch": 0.45875,
      "grad_norm": 1.0350972414016724,
      "learning_rate": 0.00017044198285053063,
      "loss": 3.612,
      "step": 220200
    },
    {
      "epoch": 0.45877083333333335,
      "grad_norm": 0.7276204824447632,
      "learning_rate": 0.00017043221622864562,
      "loss": 4.0027,
      "step": 220210
    },
    {
      "epoch": 0.45879166666666665,
      "grad_norm": 0.7745700478553772,
      "learning_rate": 0.00017042244951850154,
      "loss": 3.7279,
      "step": 220220
    },
    {
      "epoch": 0.4588125,
      "grad_norm": 0.8390336632728577,
      "learning_rate": 0.00017041268272014056,
      "loss": 3.8372,
      "step": 220230
    },
    {
      "epoch": 0.4588333333333333,
      "grad_norm": 0.7449542284011841,
      "learning_rate": 0.00017040291583360486,
      "loss": 3.7601,
      "step": 220240
    },
    {
      "epoch": 0.4588541666666667,
      "grad_norm": 0.7099915146827698,
      "learning_rate": 0.00017039314885893664,
      "loss": 3.786,
      "step": 220250
    },
    {
      "epoch": 0.458875,
      "grad_norm": 0.8269923329353333,
      "learning_rate": 0.00017038338179617809,
      "loss": 3.7079,
      "step": 220260
    },
    {
      "epoch": 0.45889583333333334,
      "grad_norm": 0.820916473865509,
      "learning_rate": 0.00017037361464537141,
      "loss": 3.8176,
      "step": 220270
    },
    {
      "epoch": 0.45891666666666664,
      "grad_norm": 0.8043529391288757,
      "learning_rate": 0.00017036384740655875,
      "loss": 3.7685,
      "step": 220280
    },
    {
      "epoch": 0.4589375,
      "grad_norm": 0.7751107811927795,
      "learning_rate": 0.00017035408007978238,
      "loss": 3.8464,
      "step": 220290
    },
    {
      "epoch": 0.45895833333333336,
      "grad_norm": 0.7072528600692749,
      "learning_rate": 0.0001703443126650844,
      "loss": 3.7045,
      "step": 220300
    },
    {
      "epoch": 0.45897916666666666,
      "grad_norm": 1.0691814422607422,
      "learning_rate": 0.00017033454516250703,
      "loss": 3.8293,
      "step": 220310
    },
    {
      "epoch": 0.459,
      "grad_norm": 0.8234767913818359,
      "learning_rate": 0.0001703247775720925,
      "loss": 3.873,
      "step": 220320
    },
    {
      "epoch": 0.4590208333333333,
      "grad_norm": 0.7013203501701355,
      "learning_rate": 0.00017031500989388298,
      "loss": 3.6498,
      "step": 220330
    },
    {
      "epoch": 0.4590416666666667,
      "grad_norm": 1.0000829696655273,
      "learning_rate": 0.0001703052421279207,
      "loss": 3.8259,
      "step": 220340
    },
    {
      "epoch": 0.4590625,
      "grad_norm": 0.8685656189918518,
      "learning_rate": 0.00017029547427424775,
      "loss": 3.8574,
      "step": 220350
    },
    {
      "epoch": 0.45908333333333334,
      "grad_norm": 0.7718852162361145,
      "learning_rate": 0.0001702857063329064,
      "loss": 3.6931,
      "step": 220360
    },
    {
      "epoch": 0.45910416666666665,
      "grad_norm": 0.8078737258911133,
      "learning_rate": 0.00017027593830393884,
      "loss": 3.8053,
      "step": 220370
    },
    {
      "epoch": 0.459125,
      "grad_norm": 0.8166176676750183,
      "learning_rate": 0.00017026617018738724,
      "loss": 3.5749,
      "step": 220380
    },
    {
      "epoch": 0.4591458333333333,
      "grad_norm": 0.8486027121543884,
      "learning_rate": 0.00017025640198329374,
      "loss": 3.7847,
      "step": 220390
    },
    {
      "epoch": 0.45916666666666667,
      "grad_norm": 0.7520732283592224,
      "learning_rate": 0.0001702466336917007,
      "loss": 3.7072,
      "step": 220400
    },
    {
      "epoch": 0.4591875,
      "grad_norm": 0.8408654928207397,
      "learning_rate": 0.0001702368653126502,
      "loss": 3.763,
      "step": 220410
    },
    {
      "epoch": 0.45920833333333333,
      "grad_norm": 0.7549915313720703,
      "learning_rate": 0.00017022709684618443,
      "loss": 3.7859,
      "step": 220420
    },
    {
      "epoch": 0.4592291666666667,
      "grad_norm": 0.7373976111412048,
      "learning_rate": 0.0001702173282923456,
      "loss": 3.6919,
      "step": 220430
    },
    {
      "epoch": 0.45925,
      "grad_norm": 0.7782188653945923,
      "learning_rate": 0.00017020755965117595,
      "loss": 3.7195,
      "step": 220440
    },
    {
      "epoch": 0.45927083333333335,
      "grad_norm": 0.771436870098114,
      "learning_rate": 0.00017019779092271762,
      "loss": 3.8085,
      "step": 220450
    },
    {
      "epoch": 0.45929166666666665,
      "grad_norm": 0.9513305425643921,
      "learning_rate": 0.00017018802210701283,
      "loss": 3.9152,
      "step": 220460
    },
    {
      "epoch": 0.4593125,
      "grad_norm": 1.0814149379730225,
      "learning_rate": 0.00017017825320410376,
      "loss": 3.6562,
      "step": 220470
    },
    {
      "epoch": 0.4593333333333333,
      "grad_norm": 0.833652913570404,
      "learning_rate": 0.00017016848421403264,
      "loss": 3.5346,
      "step": 220480
    },
    {
      "epoch": 0.4593541666666667,
      "grad_norm": 0.8618701696395874,
      "learning_rate": 0.00017015871513684162,
      "loss": 3.9271,
      "step": 220490
    },
    {
      "epoch": 0.459375,
      "grad_norm": 0.8234668374061584,
      "learning_rate": 0.00017014894597257296,
      "loss": 3.8934,
      "step": 220500
    },
    {
      "epoch": 0.45939583333333334,
      "grad_norm": 0.9198883771896362,
      "learning_rate": 0.0001701391767212689,
      "loss": 3.8154,
      "step": 220510
    },
    {
      "epoch": 0.45941666666666664,
      "grad_norm": 0.924156665802002,
      "learning_rate": 0.00017012940738297144,
      "loss": 3.7839,
      "step": 220520
    },
    {
      "epoch": 0.4594375,
      "grad_norm": 0.9153794646263123,
      "learning_rate": 0.00017011963795772293,
      "loss": 3.8056,
      "step": 220530
    },
    {
      "epoch": 0.45945833333333336,
      "grad_norm": 0.7760573029518127,
      "learning_rate": 0.00017010986844556562,
      "loss": 3.7751,
      "step": 220540
    },
    {
      "epoch": 0.45947916666666666,
      "grad_norm": 0.8305556774139404,
      "learning_rate": 0.00017010009884654162,
      "loss": 3.6637,
      "step": 220550
    },
    {
      "epoch": 0.4595,
      "grad_norm": 0.877032995223999,
      "learning_rate": 0.00017009032916069308,
      "loss": 3.7447,
      "step": 220560
    },
    {
      "epoch": 0.4595208333333333,
      "grad_norm": 0.7942046523094177,
      "learning_rate": 0.00017008055938806237,
      "loss": 3.7175,
      "step": 220570
    },
    {
      "epoch": 0.4595416666666667,
      "grad_norm": 0.756837785243988,
      "learning_rate": 0.00017007078952869153,
      "loss": 3.6609,
      "step": 220580
    },
    {
      "epoch": 0.4595625,
      "grad_norm": 0.9123280644416809,
      "learning_rate": 0.00017006101958262285,
      "loss": 3.7479,
      "step": 220590
    },
    {
      "epoch": 0.45958333333333334,
      "grad_norm": 0.8096187114715576,
      "learning_rate": 0.00017005124954989846,
      "loss": 3.8632,
      "step": 220600
    },
    {
      "epoch": 0.45960416666666665,
      "grad_norm": 0.7626628875732422,
      "learning_rate": 0.00017004147943056063,
      "loss": 3.9305,
      "step": 220610
    },
    {
      "epoch": 0.459625,
      "grad_norm": 0.8335962295532227,
      "learning_rate": 0.00017003170922465157,
      "loss": 3.8923,
      "step": 220620
    },
    {
      "epoch": 0.4596458333333333,
      "grad_norm": 0.8199586272239685,
      "learning_rate": 0.00017002193893221344,
      "loss": 3.6956,
      "step": 220630
    },
    {
      "epoch": 0.45966666666666667,
      "grad_norm": 0.9444777369499207,
      "learning_rate": 0.00017001216855328844,
      "loss": 3.7329,
      "step": 220640
    },
    {
      "epoch": 0.4596875,
      "grad_norm": 0.8088565468788147,
      "learning_rate": 0.00017000239808791885,
      "loss": 3.684,
      "step": 220650
    },
    {
      "epoch": 0.45970833333333333,
      "grad_norm": 0.7878642082214355,
      "learning_rate": 0.00016999262753614674,
      "loss": 3.7273,
      "step": 220660
    },
    {
      "epoch": 0.4597291666666667,
      "grad_norm": 0.9916898012161255,
      "learning_rate": 0.0001699828568980144,
      "loss": 3.699,
      "step": 220670
    },
    {
      "epoch": 0.45975,
      "grad_norm": 0.8677585124969482,
      "learning_rate": 0.00016997308617356413,
      "loss": 3.8326,
      "step": 220680
    },
    {
      "epoch": 0.45977083333333335,
      "grad_norm": 0.8363224267959595,
      "learning_rate": 0.00016996331536283792,
      "loss": 3.5713,
      "step": 220690
    },
    {
      "epoch": 0.45979166666666665,
      "grad_norm": 0.7600246667861938,
      "learning_rate": 0.00016995354446587812,
      "loss": 3.7007,
      "step": 220700
    },
    {
      "epoch": 0.4598125,
      "grad_norm": 0.8004423379898071,
      "learning_rate": 0.00016994377348272693,
      "loss": 3.721,
      "step": 220710
    },
    {
      "epoch": 0.4598333333333333,
      "grad_norm": 0.8100301623344421,
      "learning_rate": 0.00016993400241342653,
      "loss": 3.7651,
      "step": 220720
    },
    {
      "epoch": 0.4598541666666667,
      "grad_norm": 0.7936304807662964,
      "learning_rate": 0.0001699242312580191,
      "loss": 3.7095,
      "step": 220730
    },
    {
      "epoch": 0.459875,
      "grad_norm": 0.6941196322441101,
      "learning_rate": 0.0001699144600165469,
      "loss": 3.7956,
      "step": 220740
    },
    {
      "epoch": 0.45989583333333334,
      "grad_norm": 0.9330064654350281,
      "learning_rate": 0.00016990468868905215,
      "loss": 3.6566,
      "step": 220750
    },
    {
      "epoch": 0.45991666666666664,
      "grad_norm": 0.7870584726333618,
      "learning_rate": 0.00016989491727557692,
      "loss": 3.835,
      "step": 220760
    },
    {
      "epoch": 0.4599375,
      "grad_norm": 0.7580074071884155,
      "learning_rate": 0.00016988514577616365,
      "loss": 3.9357,
      "step": 220770
    },
    {
      "epoch": 0.45995833333333336,
      "grad_norm": 0.803006112575531,
      "learning_rate": 0.00016987537419085432,
      "loss": 3.9389,
      "step": 220780
    },
    {
      "epoch": 0.45997916666666666,
      "grad_norm": 0.8595545291900635,
      "learning_rate": 0.0001698656025196913,
      "loss": 3.566,
      "step": 220790
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8003968596458435,
      "learning_rate": 0.0001698558307627167,
      "loss": 3.8384,
      "step": 220800
    },
    {
      "epoch": 0.4600208333333333,
      "grad_norm": 0.7793731093406677,
      "learning_rate": 0.0001698460589199728,
      "loss": 3.8569,
      "step": 220810
    },
    {
      "epoch": 0.4600416666666667,
      "grad_norm": 1.1517497301101685,
      "learning_rate": 0.00016983628699150178,
      "loss": 3.8989,
      "step": 220820
    },
    {
      "epoch": 0.4600625,
      "grad_norm": 0.7725074887275696,
      "learning_rate": 0.00016982651497734585,
      "loss": 3.7012,
      "step": 220830
    },
    {
      "epoch": 0.46008333333333334,
      "grad_norm": 0.9558659195899963,
      "learning_rate": 0.00016981674287754717,
      "loss": 3.7535,
      "step": 220840
    },
    {
      "epoch": 0.46010416666666665,
      "grad_norm": 0.7737710475921631,
      "learning_rate": 0.0001698069706921481,
      "loss": 3.6217,
      "step": 220850
    },
    {
      "epoch": 0.460125,
      "grad_norm": 1.0339395999908447,
      "learning_rate": 0.0001697971984211907,
      "loss": 3.7102,
      "step": 220860
    },
    {
      "epoch": 0.4601458333333333,
      "grad_norm": 0.8827157616615295,
      "learning_rate": 0.00016978742606471722,
      "loss": 3.7528,
      "step": 220870
    },
    {
      "epoch": 0.46016666666666667,
      "grad_norm": 0.7868515849113464,
      "learning_rate": 0.00016977765362276995,
      "loss": 3.7818,
      "step": 220880
    },
    {
      "epoch": 0.4601875,
      "grad_norm": 1.0241581201553345,
      "learning_rate": 0.000169767881095391,
      "loss": 3.7097,
      "step": 220890
    },
    {
      "epoch": 0.46020833333333333,
      "grad_norm": 0.9194632768630981,
      "learning_rate": 0.00016975810848262265,
      "loss": 3.766,
      "step": 220900
    },
    {
      "epoch": 0.4602291666666667,
      "grad_norm": 0.8121387362480164,
      "learning_rate": 0.0001697483357845071,
      "loss": 3.8808,
      "step": 220910
    },
    {
      "epoch": 0.46025,
      "grad_norm": 0.821517288684845,
      "learning_rate": 0.00016973856300108654,
      "loss": 3.5711,
      "step": 220920
    },
    {
      "epoch": 0.46027083333333335,
      "grad_norm": 0.832450807094574,
      "learning_rate": 0.0001697287901324032,
      "loss": 3.9144,
      "step": 220930
    },
    {
      "epoch": 0.46029166666666665,
      "grad_norm": 0.758123517036438,
      "learning_rate": 0.0001697190171784993,
      "loss": 3.9766,
      "step": 220940
    },
    {
      "epoch": 0.4603125,
      "grad_norm": 0.8637113571166992,
      "learning_rate": 0.00016970924413941705,
      "loss": 3.8464,
      "step": 220950
    },
    {
      "epoch": 0.4603333333333333,
      "grad_norm": 0.7833142876625061,
      "learning_rate": 0.00016969947101519865,
      "loss": 3.8443,
      "step": 220960
    },
    {
      "epoch": 0.4603541666666667,
      "grad_norm": 0.9736403822898865,
      "learning_rate": 0.00016968969780588634,
      "loss": 3.8824,
      "step": 220970
    },
    {
      "epoch": 0.460375,
      "grad_norm": 0.9971780776977539,
      "learning_rate": 0.00016967992451152235,
      "loss": 3.8455,
      "step": 220980
    },
    {
      "epoch": 0.46039583333333334,
      "grad_norm": 0.8133119940757751,
      "learning_rate": 0.0001696701511321489,
      "loss": 3.6656,
      "step": 220990
    },
    {
      "epoch": 0.46041666666666664,
      "grad_norm": 0.7150852084159851,
      "learning_rate": 0.0001696603776678081,
      "loss": 3.7455,
      "step": 221000
    },
    {
      "epoch": 0.46041666666666664,
      "eval_loss": 4.146733283996582,
      "eval_runtime": 9.3497,
      "eval_samples_per_second": 1.07,
      "eval_steps_per_second": 0.321,
      "step": 221000
    },
    {
      "epoch": 0.4604375,
      "grad_norm": 0.7470450401306152,
      "learning_rate": 0.0001696506041185423,
      "loss": 3.8419,
      "step": 221010
    },
    {
      "epoch": 0.46045833333333336,
      "grad_norm": 0.7039724588394165,
      "learning_rate": 0.00016964083048439372,
      "loss": 3.8774,
      "step": 221020
    },
    {
      "epoch": 0.46047916666666666,
      "grad_norm": 0.8503072261810303,
      "learning_rate": 0.00016963105676540445,
      "loss": 3.7206,
      "step": 221030
    },
    {
      "epoch": 0.4605,
      "grad_norm": 0.7773278951644897,
      "learning_rate": 0.00016962128296161676,
      "loss": 3.8894,
      "step": 221040
    },
    {
      "epoch": 0.4605208333333333,
      "grad_norm": 0.8193216919898987,
      "learning_rate": 0.000169611509073073,
      "loss": 3.7463,
      "step": 221050
    },
    {
      "epoch": 0.4605416666666667,
      "grad_norm": 1.146841049194336,
      "learning_rate": 0.00016960173509981518,
      "loss": 3.9624,
      "step": 221060
    },
    {
      "epoch": 0.4605625,
      "grad_norm": 0.7686074376106262,
      "learning_rate": 0.00016959196104188572,
      "loss": 3.7357,
      "step": 221070
    },
    {
      "epoch": 0.46058333333333334,
      "grad_norm": 0.782802939414978,
      "learning_rate": 0.00016958218689932668,
      "loss": 3.8086,
      "step": 221080
    },
    {
      "epoch": 0.46060416666666665,
      "grad_norm": 0.8917909860610962,
      "learning_rate": 0.00016957241267218036,
      "loss": 3.6353,
      "step": 221090
    },
    {
      "epoch": 0.460625,
      "grad_norm": 0.716413140296936,
      "learning_rate": 0.00016956263836048895,
      "loss": 3.7539,
      "step": 221100
    },
    {
      "epoch": 0.4606458333333333,
      "grad_norm": 0.7250229120254517,
      "learning_rate": 0.00016955286396429467,
      "loss": 3.7755,
      "step": 221110
    },
    {
      "epoch": 0.46066666666666667,
      "grad_norm": 0.9646468162536621,
      "learning_rate": 0.00016954308948363982,
      "loss": 3.865,
      "step": 221120
    },
    {
      "epoch": 0.4606875,
      "grad_norm": 0.75331711769104,
      "learning_rate": 0.00016953331491856652,
      "loss": 3.644,
      "step": 221130
    },
    {
      "epoch": 0.46070833333333333,
      "grad_norm": 0.720634937286377,
      "learning_rate": 0.00016952354026911702,
      "loss": 3.7177,
      "step": 221140
    },
    {
      "epoch": 0.4607291666666667,
      "grad_norm": 0.7741722464561462,
      "learning_rate": 0.00016951376553533357,
      "loss": 3.6438,
      "step": 221150
    },
    {
      "epoch": 0.46075,
      "grad_norm": 0.8232144713401794,
      "learning_rate": 0.0001695039907172584,
      "loss": 3.8252,
      "step": 221160
    },
    {
      "epoch": 0.46077083333333335,
      "grad_norm": 0.7346193194389343,
      "learning_rate": 0.00016949421581493365,
      "loss": 3.7985,
      "step": 221170
    },
    {
      "epoch": 0.46079166666666665,
      "grad_norm": 0.7063388824462891,
      "learning_rate": 0.00016948444082840163,
      "loss": 3.7925,
      "step": 221180
    },
    {
      "epoch": 0.4608125,
      "grad_norm": 1.0569474697113037,
      "learning_rate": 0.00016947466575770455,
      "loss": 3.8305,
      "step": 221190
    },
    {
      "epoch": 0.4608333333333333,
      "grad_norm": 0.7419787645339966,
      "learning_rate": 0.00016946489060288463,
      "loss": 3.783,
      "step": 221200
    },
    {
      "epoch": 0.4608541666666667,
      "grad_norm": 0.7055012583732605,
      "learning_rate": 0.0001694551153639841,
      "loss": 3.8098,
      "step": 221210
    },
    {
      "epoch": 0.460875,
      "grad_norm": 0.8316978216171265,
      "learning_rate": 0.00016944534004104515,
      "loss": 3.5386,
      "step": 221220
    },
    {
      "epoch": 0.46089583333333334,
      "grad_norm": 0.6684609055519104,
      "learning_rate": 0.00016943556463411,
      "loss": 3.8782,
      "step": 221230
    },
    {
      "epoch": 0.46091666666666664,
      "grad_norm": 0.7786193490028381,
      "learning_rate": 0.00016942578914322097,
      "loss": 3.7271,
      "step": 221240
    },
    {
      "epoch": 0.4609375,
      "grad_norm": 0.8318102955818176,
      "learning_rate": 0.00016941601356842018,
      "loss": 3.5572,
      "step": 221250
    },
    {
      "epoch": 0.46095833333333336,
      "grad_norm": 0.7170676589012146,
      "learning_rate": 0.00016940623790974985,
      "loss": 3.8165,
      "step": 221260
    },
    {
      "epoch": 0.46097916666666666,
      "grad_norm": 0.7655773758888245,
      "learning_rate": 0.00016939646216725235,
      "loss": 3.7722,
      "step": 221270
    },
    {
      "epoch": 0.461,
      "grad_norm": 0.7482348680496216,
      "learning_rate": 0.00016938668634096976,
      "loss": 3.842,
      "step": 221280
    },
    {
      "epoch": 0.4610208333333333,
      "grad_norm": 0.7778684496879578,
      "learning_rate": 0.00016937691043094436,
      "loss": 3.7272,
      "step": 221290
    },
    {
      "epoch": 0.4610416666666667,
      "grad_norm": 0.8355151414871216,
      "learning_rate": 0.00016936713443721838,
      "loss": 3.7446,
      "step": 221300
    },
    {
      "epoch": 0.4610625,
      "grad_norm": 0.8779925107955933,
      "learning_rate": 0.00016935735835983405,
      "loss": 3.5275,
      "step": 221310
    },
    {
      "epoch": 0.46108333333333335,
      "grad_norm": 0.8222759366035461,
      "learning_rate": 0.00016934758219883358,
      "loss": 3.6993,
      "step": 221320
    },
    {
      "epoch": 0.46110416666666665,
      "grad_norm": 0.8416501879692078,
      "learning_rate": 0.00016933780595425923,
      "loss": 3.7516,
      "step": 221330
    },
    {
      "epoch": 0.461125,
      "grad_norm": 0.9258973598480225,
      "learning_rate": 0.0001693280296261532,
      "loss": 3.6563,
      "step": 221340
    },
    {
      "epoch": 0.4611458333333333,
      "grad_norm": 1.0352729558944702,
      "learning_rate": 0.00016931825321455773,
      "loss": 3.8773,
      "step": 221350
    },
    {
      "epoch": 0.46116666666666667,
      "grad_norm": 1.018092155456543,
      "learning_rate": 0.00016930847671951509,
      "loss": 3.7214,
      "step": 221360
    },
    {
      "epoch": 0.4611875,
      "grad_norm": 0.7486717700958252,
      "learning_rate": 0.0001692987001410674,
      "loss": 3.8313,
      "step": 221370
    },
    {
      "epoch": 0.46120833333333333,
      "grad_norm": 0.9151196479797363,
      "learning_rate": 0.00016928892347925704,
      "loss": 3.8841,
      "step": 221380
    },
    {
      "epoch": 0.4612291666666667,
      "grad_norm": 0.8734813332557678,
      "learning_rate": 0.00016927914673412611,
      "loss": 3.7865,
      "step": 221390
    },
    {
      "epoch": 0.46125,
      "grad_norm": 0.8591883778572083,
      "learning_rate": 0.00016926936990571692,
      "loss": 3.5925,
      "step": 221400
    },
    {
      "epoch": 0.46127083333333335,
      "grad_norm": 0.8597381114959717,
      "learning_rate": 0.0001692595929940717,
      "loss": 3.8082,
      "step": 221410
    },
    {
      "epoch": 0.46129166666666666,
      "grad_norm": 1.2096810340881348,
      "learning_rate": 0.00016924981599923265,
      "loss": 3.9646,
      "step": 221420
    },
    {
      "epoch": 0.4613125,
      "grad_norm": 0.7720241546630859,
      "learning_rate": 0.00016924003892124196,
      "loss": 3.8712,
      "step": 221430
    },
    {
      "epoch": 0.4613333333333333,
      "grad_norm": 0.7987568378448486,
      "learning_rate": 0.00016923026176014202,
      "loss": 3.8497,
      "step": 221440
    },
    {
      "epoch": 0.4613541666666667,
      "grad_norm": 0.7857821583747864,
      "learning_rate": 0.0001692204845159749,
      "loss": 3.7607,
      "step": 221450
    },
    {
      "epoch": 0.461375,
      "grad_norm": 0.8003969192504883,
      "learning_rate": 0.00016921070718878286,
      "loss": 3.8724,
      "step": 221460
    },
    {
      "epoch": 0.46139583333333334,
      "grad_norm": 0.8217565417289734,
      "learning_rate": 0.00016920092977860824,
      "loss": 3.7507,
      "step": 221470
    },
    {
      "epoch": 0.46141666666666664,
      "grad_norm": 0.7749701142311096,
      "learning_rate": 0.00016919115228549315,
      "loss": 3.8867,
      "step": 221480
    },
    {
      "epoch": 0.4614375,
      "grad_norm": 0.8326733112335205,
      "learning_rate": 0.00016918137470947993,
      "loss": 3.7561,
      "step": 221490
    },
    {
      "epoch": 0.46145833333333336,
      "grad_norm": 0.83988356590271,
      "learning_rate": 0.00016917159705061072,
      "loss": 3.9154,
      "step": 221500
    },
    {
      "epoch": 0.46147916666666666,
      "grad_norm": 0.9083678722381592,
      "learning_rate": 0.0001691618193089278,
      "loss": 3.8711,
      "step": 221510
    },
    {
      "epoch": 0.4615,
      "grad_norm": 1.0035313367843628,
      "learning_rate": 0.00016915204148447349,
      "loss": 3.7547,
      "step": 221520
    },
    {
      "epoch": 0.4615208333333333,
      "grad_norm": 1.0802021026611328,
      "learning_rate": 0.00016914226357728982,
      "loss": 3.8808,
      "step": 221530
    },
    {
      "epoch": 0.4615416666666667,
      "grad_norm": 0.7900787591934204,
      "learning_rate": 0.00016913248558741918,
      "loss": 3.777,
      "step": 221540
    },
    {
      "epoch": 0.4615625,
      "grad_norm": 0.7892264127731323,
      "learning_rate": 0.00016912270751490383,
      "loss": 3.8202,
      "step": 221550
    },
    {
      "epoch": 0.46158333333333335,
      "grad_norm": 0.9459362626075745,
      "learning_rate": 0.0001691129293597859,
      "loss": 3.8301,
      "step": 221560
    },
    {
      "epoch": 0.46160416666666665,
      "grad_norm": 0.8530253171920776,
      "learning_rate": 0.0001691031511221077,
      "loss": 3.9099,
      "step": 221570
    },
    {
      "epoch": 0.461625,
      "grad_norm": 0.9193543195724487,
      "learning_rate": 0.00016909337280191148,
      "loss": 3.8071,
      "step": 221580
    },
    {
      "epoch": 0.4616458333333333,
      "grad_norm": 0.7571919560432434,
      "learning_rate": 0.0001690835943992394,
      "loss": 3.8038,
      "step": 221590
    },
    {
      "epoch": 0.46166666666666667,
      "grad_norm": 1.3468972444534302,
      "learning_rate": 0.00016907381591413373,
      "loss": 3.7679,
      "step": 221600
    },
    {
      "epoch": 0.4616875,
      "grad_norm": 0.8056535720825195,
      "learning_rate": 0.0001690640373466368,
      "loss": 3.6471,
      "step": 221610
    },
    {
      "epoch": 0.46170833333333333,
      "grad_norm": 0.7744746208190918,
      "learning_rate": 0.0001690542586967907,
      "loss": 3.7567,
      "step": 221620
    },
    {
      "epoch": 0.4617291666666667,
      "grad_norm": 0.9554961323738098,
      "learning_rate": 0.00016904447996463775,
      "loss": 3.6476,
      "step": 221630
    },
    {
      "epoch": 0.46175,
      "grad_norm": 0.7472438216209412,
      "learning_rate": 0.00016903470115022028,
      "loss": 3.8606,
      "step": 221640
    },
    {
      "epoch": 0.46177083333333335,
      "grad_norm": 0.8417534828186035,
      "learning_rate": 0.00016902492225358032,
      "loss": 3.5949,
      "step": 221650
    },
    {
      "epoch": 0.46179166666666666,
      "grad_norm": 0.8670024275779724,
      "learning_rate": 0.00016901514327476028,
      "loss": 3.7041,
      "step": 221660
    },
    {
      "epoch": 0.4618125,
      "grad_norm": 0.7389832735061646,
      "learning_rate": 0.00016900536421380233,
      "loss": 3.7619,
      "step": 221670
    },
    {
      "epoch": 0.4618333333333333,
      "grad_norm": 0.8193883895874023,
      "learning_rate": 0.00016899558507074873,
      "loss": 3.6862,
      "step": 221680
    },
    {
      "epoch": 0.4618541666666667,
      "grad_norm": 0.8072526454925537,
      "learning_rate": 0.00016898580584564173,
      "loss": 3.844,
      "step": 221690
    },
    {
      "epoch": 0.461875,
      "grad_norm": 0.79622483253479,
      "learning_rate": 0.00016897602653852357,
      "loss": 3.6936,
      "step": 221700
    },
    {
      "epoch": 0.46189583333333334,
      "grad_norm": 0.808476448059082,
      "learning_rate": 0.0001689662471494365,
      "loss": 3.6679,
      "step": 221710
    },
    {
      "epoch": 0.46191666666666664,
      "grad_norm": 0.7229758501052856,
      "learning_rate": 0.00016895646767842276,
      "loss": 3.9229,
      "step": 221720
    },
    {
      "epoch": 0.4619375,
      "grad_norm": 0.7803975343704224,
      "learning_rate": 0.0001689466881255245,
      "loss": 3.752,
      "step": 221730
    },
    {
      "epoch": 0.46195833333333336,
      "grad_norm": 0.9650906324386597,
      "learning_rate": 0.0001689369084907841,
      "loss": 3.8736,
      "step": 221740
    },
    {
      "epoch": 0.46197916666666666,
      "grad_norm": 0.7127496600151062,
      "learning_rate": 0.00016892712877424377,
      "loss": 3.5508,
      "step": 221750
    },
    {
      "epoch": 0.462,
      "grad_norm": 0.8777227401733398,
      "learning_rate": 0.0001689173489759457,
      "loss": 3.6967,
      "step": 221760
    },
    {
      "epoch": 0.4620208333333333,
      "grad_norm": 1.079394817352295,
      "learning_rate": 0.0001689075690959322,
      "loss": 3.9857,
      "step": 221770
    },
    {
      "epoch": 0.4620416666666667,
      "grad_norm": 0.7317348718643188,
      "learning_rate": 0.0001688977891342455,
      "loss": 3.796,
      "step": 221780
    },
    {
      "epoch": 0.4620625,
      "grad_norm": 0.9438573718070984,
      "learning_rate": 0.0001688880090909278,
      "loss": 3.8189,
      "step": 221790
    },
    {
      "epoch": 0.46208333333333335,
      "grad_norm": 0.7762559056282043,
      "learning_rate": 0.00016887822896602137,
      "loss": 3.8405,
      "step": 221800
    },
    {
      "epoch": 0.46210416666666665,
      "grad_norm": 0.7969009280204773,
      "learning_rate": 0.00016886844875956846,
      "loss": 3.7351,
      "step": 221810
    },
    {
      "epoch": 0.462125,
      "grad_norm": 1.0296231508255005,
      "learning_rate": 0.00016885866847161135,
      "loss": 3.8039,
      "step": 221820
    },
    {
      "epoch": 0.4621458333333333,
      "grad_norm": 0.78813636302948,
      "learning_rate": 0.00016884888810219224,
      "loss": 3.7398,
      "step": 221830
    },
    {
      "epoch": 0.46216666666666667,
      "grad_norm": 0.7998591065406799,
      "learning_rate": 0.0001688391076513534,
      "loss": 3.764,
      "step": 221840
    },
    {
      "epoch": 0.4621875,
      "grad_norm": 0.7700837850570679,
      "learning_rate": 0.00016882932711913707,
      "loss": 3.8588,
      "step": 221850
    },
    {
      "epoch": 0.46220833333333333,
      "grad_norm": 0.7719722986221313,
      "learning_rate": 0.00016881954650558548,
      "loss": 3.9269,
      "step": 221860
    },
    {
      "epoch": 0.4622291666666667,
      "grad_norm": 0.8255566954612732,
      "learning_rate": 0.00016880976581074093,
      "loss": 3.9351,
      "step": 221870
    },
    {
      "epoch": 0.46225,
      "grad_norm": 1.1153481006622314,
      "learning_rate": 0.00016879998503464561,
      "loss": 3.7256,
      "step": 221880
    },
    {
      "epoch": 0.46227083333333335,
      "grad_norm": 0.7414870262145996,
      "learning_rate": 0.00016879020417734182,
      "loss": 3.8617,
      "step": 221890
    },
    {
      "epoch": 0.46229166666666666,
      "grad_norm": 1.0031033754348755,
      "learning_rate": 0.00016878042323887176,
      "loss": 3.8184,
      "step": 221900
    },
    {
      "epoch": 0.4623125,
      "grad_norm": 0.8511600494384766,
      "learning_rate": 0.00016877064221927773,
      "loss": 3.5705,
      "step": 221910
    },
    {
      "epoch": 0.4623333333333333,
      "grad_norm": 0.8371368646621704,
      "learning_rate": 0.00016876086111860197,
      "loss": 3.7047,
      "step": 221920
    },
    {
      "epoch": 0.4623541666666667,
      "grad_norm": 0.7669222354888916,
      "learning_rate": 0.00016875107993688667,
      "loss": 3.6794,
      "step": 221930
    },
    {
      "epoch": 0.462375,
      "grad_norm": 0.8532522916793823,
      "learning_rate": 0.00016874129867417415,
      "loss": 3.9331,
      "step": 221940
    },
    {
      "epoch": 0.46239583333333334,
      "grad_norm": 0.8327512741088867,
      "learning_rate": 0.00016873151733050665,
      "loss": 3.9279,
      "step": 221950
    },
    {
      "epoch": 0.46241666666666664,
      "grad_norm": 0.7357062697410583,
      "learning_rate": 0.00016872173590592638,
      "loss": 3.7904,
      "step": 221960
    },
    {
      "epoch": 0.4624375,
      "grad_norm": 0.7963746190071106,
      "learning_rate": 0.0001687119544004757,
      "loss": 3.8195,
      "step": 221970
    },
    {
      "epoch": 0.46245833333333336,
      "grad_norm": 0.9312625527381897,
      "learning_rate": 0.0001687021728141967,
      "loss": 3.7993,
      "step": 221980
    },
    {
      "epoch": 0.46247916666666666,
      "grad_norm": 0.9927231073379517,
      "learning_rate": 0.0001686923911471317,
      "loss": 3.9296,
      "step": 221990
    },
    {
      "epoch": 0.4625,
      "grad_norm": 1.0613319873809814,
      "learning_rate": 0.00016868260939932305,
      "loss": 3.9432,
      "step": 222000
    },
    {
      "epoch": 0.4625,
      "eval_loss": 4.13936710357666,
      "eval_runtime": 8.91,
      "eval_samples_per_second": 1.122,
      "eval_steps_per_second": 0.337,
      "step": 222000
    },
    {
      "epoch": 0.4625208333333333,
      "grad_norm": 0.7299660444259644,
      "learning_rate": 0.00016867282757081285,
      "loss": 3.8051,
      "step": 222010
    },
    {
      "epoch": 0.4625416666666667,
      "grad_norm": 0.838535726070404,
      "learning_rate": 0.0001686630456616435,
      "loss": 3.8074,
      "step": 222020
    },
    {
      "epoch": 0.4625625,
      "grad_norm": 0.7766153812408447,
      "learning_rate": 0.0001686532636718571,
      "loss": 3.765,
      "step": 222030
    },
    {
      "epoch": 0.46258333333333335,
      "grad_norm": 0.8483501672744751,
      "learning_rate": 0.00016864348160149605,
      "loss": 3.8082,
      "step": 222040
    },
    {
      "epoch": 0.46260416666666665,
      "grad_norm": 1.0936299562454224,
      "learning_rate": 0.00016863369945060248,
      "loss": 3.791,
      "step": 222050
    },
    {
      "epoch": 0.462625,
      "grad_norm": 0.8069839477539062,
      "learning_rate": 0.00016862391721921872,
      "loss": 3.8552,
      "step": 222060
    },
    {
      "epoch": 0.4626458333333333,
      "grad_norm": 0.8413720726966858,
      "learning_rate": 0.00016861413490738706,
      "loss": 3.8323,
      "step": 222070
    },
    {
      "epoch": 0.46266666666666667,
      "grad_norm": 0.7966737747192383,
      "learning_rate": 0.00016860435251514963,
      "loss": 3.6756,
      "step": 222080
    },
    {
      "epoch": 0.4626875,
      "grad_norm": 0.7346048355102539,
      "learning_rate": 0.00016859457004254886,
      "loss": 3.6706,
      "step": 222090
    },
    {
      "epoch": 0.46270833333333333,
      "grad_norm": 0.8743836283683777,
      "learning_rate": 0.0001685847874896268,
      "loss": 3.6614,
      "step": 222100
    },
    {
      "epoch": 0.4627291666666667,
      "grad_norm": 0.8093528747558594,
      "learning_rate": 0.0001685750048564259,
      "loss": 3.8155,
      "step": 222110
    },
    {
      "epoch": 0.46275,
      "grad_norm": 0.9239513874053955,
      "learning_rate": 0.00016856522214298827,
      "loss": 3.9581,
      "step": 222120
    },
    {
      "epoch": 0.46277083333333335,
      "grad_norm": 0.7181947231292725,
      "learning_rate": 0.00016855543934935624,
      "loss": 3.526,
      "step": 222130
    },
    {
      "epoch": 0.46279166666666666,
      "grad_norm": 0.7861930131912231,
      "learning_rate": 0.0001685456564755721,
      "loss": 3.8349,
      "step": 222140
    },
    {
      "epoch": 0.4628125,
      "grad_norm": 1.0277209281921387,
      "learning_rate": 0.00016853587352167804,
      "loss": 3.7948,
      "step": 222150
    },
    {
      "epoch": 0.4628333333333333,
      "grad_norm": 0.7507704496383667,
      "learning_rate": 0.00016852609048771634,
      "loss": 3.7894,
      "step": 222160
    },
    {
      "epoch": 0.4628541666666667,
      "grad_norm": 0.7754372358322144,
      "learning_rate": 0.00016851630737372926,
      "loss": 3.7987,
      "step": 222170
    },
    {
      "epoch": 0.462875,
      "grad_norm": 0.8078725337982178,
      "learning_rate": 0.00016850652417975905,
      "loss": 3.8096,
      "step": 222180
    },
    {
      "epoch": 0.46289583333333334,
      "grad_norm": 1.0512539148330688,
      "learning_rate": 0.000168496740905848,
      "loss": 3.7149,
      "step": 222190
    },
    {
      "epoch": 0.46291666666666664,
      "grad_norm": 0.815074622631073,
      "learning_rate": 0.0001684869575520383,
      "loss": 3.6432,
      "step": 222200
    },
    {
      "epoch": 0.4629375,
      "grad_norm": 0.7869535684585571,
      "learning_rate": 0.00016847717411837233,
      "loss": 3.7117,
      "step": 222210
    },
    {
      "epoch": 0.46295833333333336,
      "grad_norm": 0.9501515626907349,
      "learning_rate": 0.00016846739060489226,
      "loss": 3.8577,
      "step": 222220
    },
    {
      "epoch": 0.46297916666666666,
      "grad_norm": 0.8248891234397888,
      "learning_rate": 0.00016845760701164034,
      "loss": 3.8218,
      "step": 222230
    },
    {
      "epoch": 0.463,
      "grad_norm": 0.7145325541496277,
      "learning_rate": 0.00016844782333865892,
      "loss": 3.663,
      "step": 222240
    },
    {
      "epoch": 0.4630208333333333,
      "grad_norm": 0.7189818024635315,
      "learning_rate": 0.0001684380395859902,
      "loss": 3.9165,
      "step": 222250
    },
    {
      "epoch": 0.4630416666666667,
      "grad_norm": 0.7312400937080383,
      "learning_rate": 0.00016842825575367638,
      "loss": 3.771,
      "step": 222260
    },
    {
      "epoch": 0.4630625,
      "grad_norm": 0.7727596759796143,
      "learning_rate": 0.00016841847184175985,
      "loss": 3.6862,
      "step": 222270
    },
    {
      "epoch": 0.46308333333333335,
      "grad_norm": 0.8892219662666321,
      "learning_rate": 0.0001684086878502828,
      "loss": 3.8682,
      "step": 222280
    },
    {
      "epoch": 0.46310416666666665,
      "grad_norm": 0.8403570652008057,
      "learning_rate": 0.00016839890377928752,
      "loss": 3.7946,
      "step": 222290
    },
    {
      "epoch": 0.463125,
      "grad_norm": 0.782971978187561,
      "learning_rate": 0.0001683891196288162,
      "loss": 3.7574,
      "step": 222300
    },
    {
      "epoch": 0.4631458333333333,
      "grad_norm": 0.8474482297897339,
      "learning_rate": 0.00016837933539891122,
      "loss": 3.8581,
      "step": 222310
    },
    {
      "epoch": 0.46316666666666667,
      "grad_norm": 1.5447614192962646,
      "learning_rate": 0.0001683695510896148,
      "loss": 3.7392,
      "step": 222320
    },
    {
      "epoch": 0.4631875,
      "grad_norm": 0.9117458462715149,
      "learning_rate": 0.0001683597667009691,
      "loss": 3.6731,
      "step": 222330
    },
    {
      "epoch": 0.46320833333333333,
      "grad_norm": 1.0152233839035034,
      "learning_rate": 0.00016834998223301659,
      "loss": 3.8245,
      "step": 222340
    },
    {
      "epoch": 0.4632291666666667,
      "grad_norm": 0.7222715616226196,
      "learning_rate": 0.00016834019768579935,
      "loss": 3.6791,
      "step": 222350
    },
    {
      "epoch": 0.46325,
      "grad_norm": 0.7819578647613525,
      "learning_rate": 0.0001683304130593597,
      "loss": 3.777,
      "step": 222360
    },
    {
      "epoch": 0.46327083333333335,
      "grad_norm": 0.8470057845115662,
      "learning_rate": 0.00016832062835373999,
      "loss": 3.8023,
      "step": 222370
    },
    {
      "epoch": 0.46329166666666666,
      "grad_norm": 0.7686922550201416,
      "learning_rate": 0.00016831084356898237,
      "loss": 3.8057,
      "step": 222380
    },
    {
      "epoch": 0.4633125,
      "grad_norm": 0.9454940557479858,
      "learning_rate": 0.00016830105870512918,
      "loss": 3.8789,
      "step": 222390
    },
    {
      "epoch": 0.4633333333333333,
      "grad_norm": 0.880603015422821,
      "learning_rate": 0.0001682912737622226,
      "loss": 3.9441,
      "step": 222400
    },
    {
      "epoch": 0.4633541666666667,
      "grad_norm": 0.7725039124488831,
      "learning_rate": 0.000168281488740305,
      "loss": 3.7799,
      "step": 222410
    },
    {
      "epoch": 0.463375,
      "grad_norm": 0.8636214733123779,
      "learning_rate": 0.00016827170363941865,
      "loss": 3.7813,
      "step": 222420
    },
    {
      "epoch": 0.46339583333333334,
      "grad_norm": 0.765695333480835,
      "learning_rate": 0.00016826191845960569,
      "loss": 4.0301,
      "step": 222430
    },
    {
      "epoch": 0.46341666666666664,
      "grad_norm": 0.852015495300293,
      "learning_rate": 0.0001682521332009085,
      "loss": 3.5655,
      "step": 222440
    },
    {
      "epoch": 0.4634375,
      "grad_norm": 0.9142760038375854,
      "learning_rate": 0.00016824234786336936,
      "loss": 3.8812,
      "step": 222450
    },
    {
      "epoch": 0.46345833333333336,
      "grad_norm": 0.7526705861091614,
      "learning_rate": 0.00016823256244703045,
      "loss": 3.6522,
      "step": 222460
    },
    {
      "epoch": 0.46347916666666666,
      "grad_norm": 0.8138163089752197,
      "learning_rate": 0.00016822277695193407,
      "loss": 3.8087,
      "step": 222470
    },
    {
      "epoch": 0.4635,
      "grad_norm": 0.8184010982513428,
      "learning_rate": 0.00016821299137812257,
      "loss": 3.8437,
      "step": 222480
    },
    {
      "epoch": 0.4635208333333333,
      "grad_norm": 0.7098002433776855,
      "learning_rate": 0.00016820320572563815,
      "loss": 3.7332,
      "step": 222490
    },
    {
      "epoch": 0.4635416666666667,
      "grad_norm": 0.7575036883354187,
      "learning_rate": 0.000168193419994523,
      "loss": 3.9095,
      "step": 222500
    },
    {
      "epoch": 0.4635625,
      "grad_norm": 1.0019989013671875,
      "learning_rate": 0.0001681836341848196,
      "loss": 3.7931,
      "step": 222510
    },
    {
      "epoch": 0.46358333333333335,
      "grad_norm": 0.719712495803833,
      "learning_rate": 0.00016817384829657004,
      "loss": 3.7607,
      "step": 222520
    },
    {
      "epoch": 0.46360416666666665,
      "grad_norm": 1.2884126901626587,
      "learning_rate": 0.00016816406232981663,
      "loss": 3.7725,
      "step": 222530
    },
    {
      "epoch": 0.463625,
      "grad_norm": 0.7437517046928406,
      "learning_rate": 0.00016815427628460167,
      "loss": 3.9007,
      "step": 222540
    },
    {
      "epoch": 0.4636458333333333,
      "grad_norm": 0.8649863600730896,
      "learning_rate": 0.00016814449016096743,
      "loss": 3.6302,
      "step": 222550
    },
    {
      "epoch": 0.46366666666666667,
      "grad_norm": 0.7276339530944824,
      "learning_rate": 0.00016813470395895616,
      "loss": 3.9135,
      "step": 222560
    },
    {
      "epoch": 0.4636875,
      "grad_norm": 0.8082275390625,
      "learning_rate": 0.00016812491767861018,
      "loss": 3.9344,
      "step": 222570
    },
    {
      "epoch": 0.46370833333333333,
      "grad_norm": 0.7379996180534363,
      "learning_rate": 0.00016811513131997173,
      "loss": 3.7767,
      "step": 222580
    },
    {
      "epoch": 0.4637291666666667,
      "grad_norm": 0.7936822772026062,
      "learning_rate": 0.00016810534488308307,
      "loss": 3.8822,
      "step": 222590
    },
    {
      "epoch": 0.46375,
      "grad_norm": 0.8818913698196411,
      "learning_rate": 0.00016809555836798645,
      "loss": 3.7009,
      "step": 222600
    },
    {
      "epoch": 0.46377083333333335,
      "grad_norm": 0.8004165291786194,
      "learning_rate": 0.0001680857717747242,
      "loss": 3.8056,
      "step": 222610
    },
    {
      "epoch": 0.46379166666666666,
      "grad_norm": 0.7975832223892212,
      "learning_rate": 0.00016807598510333862,
      "loss": 3.6679,
      "step": 222620
    },
    {
      "epoch": 0.4638125,
      "grad_norm": 0.7577750086784363,
      "learning_rate": 0.0001680661983538719,
      "loss": 3.7345,
      "step": 222630
    },
    {
      "epoch": 0.4638333333333333,
      "grad_norm": 0.9252198338508606,
      "learning_rate": 0.00016805641152636635,
      "loss": 3.9563,
      "step": 222640
    },
    {
      "epoch": 0.4638541666666667,
      "grad_norm": 0.866720974445343,
      "learning_rate": 0.00016804662462086426,
      "loss": 3.8652,
      "step": 222650
    },
    {
      "epoch": 0.463875,
      "grad_norm": 0.8097475171089172,
      "learning_rate": 0.0001680368376374079,
      "loss": 3.7023,
      "step": 222660
    },
    {
      "epoch": 0.46389583333333334,
      "grad_norm": 0.8791565299034119,
      "learning_rate": 0.00016802705057603951,
      "loss": 3.8489,
      "step": 222670
    },
    {
      "epoch": 0.46391666666666664,
      "grad_norm": 0.8223558068275452,
      "learning_rate": 0.00016801726343680144,
      "loss": 3.8986,
      "step": 222680
    },
    {
      "epoch": 0.4639375,
      "grad_norm": 0.8072295784950256,
      "learning_rate": 0.00016800747621973592,
      "loss": 3.9084,
      "step": 222690
    },
    {
      "epoch": 0.4639583333333333,
      "grad_norm": 0.9138394594192505,
      "learning_rate": 0.0001679976889248852,
      "loss": 3.8983,
      "step": 222700
    },
    {
      "epoch": 0.46397916666666666,
      "grad_norm": 0.790212094783783,
      "learning_rate": 0.0001679879015522916,
      "loss": 3.7289,
      "step": 222710
    },
    {
      "epoch": 0.464,
      "grad_norm": 0.8013148307800293,
      "learning_rate": 0.0001679781141019974,
      "loss": 3.7749,
      "step": 222720
    },
    {
      "epoch": 0.4640208333333333,
      "grad_norm": 0.9082274436950684,
      "learning_rate": 0.00016796832657404485,
      "loss": 3.8362,
      "step": 222730
    },
    {
      "epoch": 0.4640416666666667,
      "grad_norm": 0.9016486406326294,
      "learning_rate": 0.00016795853896847625,
      "loss": 3.7666,
      "step": 222740
    },
    {
      "epoch": 0.4640625,
      "grad_norm": 0.748769998550415,
      "learning_rate": 0.00016794875128533387,
      "loss": 3.816,
      "step": 222750
    },
    {
      "epoch": 0.46408333333333335,
      "grad_norm": 0.8408363461494446,
      "learning_rate": 0.00016793896352465998,
      "loss": 3.7591,
      "step": 222760
    },
    {
      "epoch": 0.46410416666666665,
      "grad_norm": 0.7777091860771179,
      "learning_rate": 0.00016792917568649686,
      "loss": 3.6887,
      "step": 222770
    },
    {
      "epoch": 0.464125,
      "grad_norm": 0.8678504824638367,
      "learning_rate": 0.00016791938777088681,
      "loss": 3.9016,
      "step": 222780
    },
    {
      "epoch": 0.4641458333333333,
      "grad_norm": 0.7643671035766602,
      "learning_rate": 0.00016790959977787214,
      "loss": 3.9622,
      "step": 222790
    },
    {
      "epoch": 0.46416666666666667,
      "grad_norm": 0.7271153330802917,
      "learning_rate": 0.00016789981170749503,
      "loss": 3.7806,
      "step": 222800
    },
    {
      "epoch": 0.4641875,
      "grad_norm": 0.8383708000183105,
      "learning_rate": 0.00016789002355979782,
      "loss": 3.7308,
      "step": 222810
    },
    {
      "epoch": 0.46420833333333333,
      "grad_norm": 0.7539501786231995,
      "learning_rate": 0.00016788023533482284,
      "loss": 3.6178,
      "step": 222820
    },
    {
      "epoch": 0.4642291666666667,
      "grad_norm": 0.8544238805770874,
      "learning_rate": 0.00016787044703261224,
      "loss": 3.6771,
      "step": 222830
    },
    {
      "epoch": 0.46425,
      "grad_norm": 0.7796106338500977,
      "learning_rate": 0.00016786065865320845,
      "loss": 3.9626,
      "step": 222840
    },
    {
      "epoch": 0.46427083333333335,
      "grad_norm": 0.7327075600624084,
      "learning_rate": 0.00016785087019665365,
      "loss": 3.9383,
      "step": 222850
    },
    {
      "epoch": 0.46429166666666666,
      "grad_norm": 1.0255827903747559,
      "learning_rate": 0.0001678410816629902,
      "loss": 3.7953,
      "step": 222860
    },
    {
      "epoch": 0.4643125,
      "grad_norm": 0.8498647212982178,
      "learning_rate": 0.0001678312930522603,
      "loss": 3.7579,
      "step": 222870
    },
    {
      "epoch": 0.4643333333333333,
      "grad_norm": 0.8448145985603333,
      "learning_rate": 0.00016782150436450626,
      "loss": 3.6967,
      "step": 222880
    },
    {
      "epoch": 0.4643541666666667,
      "grad_norm": 0.7973641157150269,
      "learning_rate": 0.0001678117155997704,
      "loss": 3.7696,
      "step": 222890
    },
    {
      "epoch": 0.464375,
      "grad_norm": 0.9291381239891052,
      "learning_rate": 0.00016780192675809496,
      "loss": 3.6015,
      "step": 222900
    },
    {
      "epoch": 0.46439583333333334,
      "grad_norm": 0.8425190448760986,
      "learning_rate": 0.00016779213783952226,
      "loss": 3.7328,
      "step": 222910
    },
    {
      "epoch": 0.46441666666666664,
      "grad_norm": 0.8949713110923767,
      "learning_rate": 0.0001677823488440946,
      "loss": 3.708,
      "step": 222920
    },
    {
      "epoch": 0.4644375,
      "grad_norm": 0.7796653509140015,
      "learning_rate": 0.00016777255977185417,
      "loss": 3.8273,
      "step": 222930
    },
    {
      "epoch": 0.4644583333333333,
      "grad_norm": 0.8037875890731812,
      "learning_rate": 0.00016776277062284335,
      "loss": 3.9148,
      "step": 222940
    },
    {
      "epoch": 0.46447916666666667,
      "grad_norm": 0.9115292429924011,
      "learning_rate": 0.00016775298139710436,
      "loss": 3.9828,
      "step": 222950
    },
    {
      "epoch": 0.4645,
      "grad_norm": 0.9382224678993225,
      "learning_rate": 0.00016774319209467956,
      "loss": 3.5188,
      "step": 222960
    },
    {
      "epoch": 0.4645208333333333,
      "grad_norm": 0.9511173963546753,
      "learning_rate": 0.00016773340271561117,
      "loss": 3.8442,
      "step": 222970
    },
    {
      "epoch": 0.4645416666666667,
      "grad_norm": 0.9329807162284851,
      "learning_rate": 0.00016772361325994155,
      "loss": 3.7218,
      "step": 222980
    },
    {
      "epoch": 0.4645625,
      "grad_norm": 0.7614380121231079,
      "learning_rate": 0.00016771382372771286,
      "loss": 3.759,
      "step": 222990
    },
    {
      "epoch": 0.46458333333333335,
      "grad_norm": 1.0379951000213623,
      "learning_rate": 0.0001677040341189675,
      "loss": 3.7637,
      "step": 223000
    },
    {
      "epoch": 0.46458333333333335,
      "eval_loss": 4.149186134338379,
      "eval_runtime": 8.2831,
      "eval_samples_per_second": 1.207,
      "eval_steps_per_second": 0.362,
      "step": 223000
    },
    {
      "epoch": 0.46460416666666665,
      "grad_norm": 0.8941602110862732,
      "learning_rate": 0.0001676942444337477,
      "loss": 3.6884,
      "step": 223010
    },
    {
      "epoch": 0.464625,
      "grad_norm": 0.79176926612854,
      "learning_rate": 0.0001676844546720958,
      "loss": 3.8897,
      "step": 223020
    },
    {
      "epoch": 0.4646458333333333,
      "grad_norm": 0.7623655796051025,
      "learning_rate": 0.00016767466483405403,
      "loss": 3.8288,
      "step": 223030
    },
    {
      "epoch": 0.4646666666666667,
      "grad_norm": 0.8246926665306091,
      "learning_rate": 0.00016766487491966473,
      "loss": 3.7625,
      "step": 223040
    },
    {
      "epoch": 0.4646875,
      "grad_norm": 0.7823286652565002,
      "learning_rate": 0.00016765508492897014,
      "loss": 3.7259,
      "step": 223050
    },
    {
      "epoch": 0.46470833333333333,
      "grad_norm": 1.008324384689331,
      "learning_rate": 0.00016764529486201259,
      "loss": 3.877,
      "step": 223060
    },
    {
      "epoch": 0.4647291666666667,
      "grad_norm": 1.0417627096176147,
      "learning_rate": 0.0001676355047188343,
      "loss": 3.8613,
      "step": 223070
    },
    {
      "epoch": 0.46475,
      "grad_norm": 0.8888673186302185,
      "learning_rate": 0.00016762571449947767,
      "loss": 3.7179,
      "step": 223080
    },
    {
      "epoch": 0.46477083333333336,
      "grad_norm": 0.854038655757904,
      "learning_rate": 0.00016761592420398488,
      "loss": 3.9276,
      "step": 223090
    },
    {
      "epoch": 0.46479166666666666,
      "grad_norm": 1.483106255531311,
      "learning_rate": 0.0001676061338323983,
      "loss": 3.8019,
      "step": 223100
    },
    {
      "epoch": 0.4648125,
      "grad_norm": 0.8497472405433655,
      "learning_rate": 0.0001675963433847602,
      "loss": 3.7829,
      "step": 223110
    },
    {
      "epoch": 0.4648333333333333,
      "grad_norm": 0.8773394823074341,
      "learning_rate": 0.00016758655286111288,
      "loss": 3.8125,
      "step": 223120
    },
    {
      "epoch": 0.4648541666666667,
      "grad_norm": 0.7421497702598572,
      "learning_rate": 0.00016757676226149853,
      "loss": 3.836,
      "step": 223130
    },
    {
      "epoch": 0.464875,
      "grad_norm": 0.7649416923522949,
      "learning_rate": 0.00016756697158595957,
      "loss": 3.7709,
      "step": 223140
    },
    {
      "epoch": 0.46489583333333334,
      "grad_norm": 0.7940268516540527,
      "learning_rate": 0.0001675571808345383,
      "loss": 3.8151,
      "step": 223150
    },
    {
      "epoch": 0.46491666666666664,
      "grad_norm": 0.8167563080787659,
      "learning_rate": 0.0001675473900072769,
      "loss": 3.8397,
      "step": 223160
    },
    {
      "epoch": 0.4649375,
      "grad_norm": 0.7907664179801941,
      "learning_rate": 0.00016753759910421772,
      "loss": 3.6439,
      "step": 223170
    },
    {
      "epoch": 0.4649583333333333,
      "grad_norm": 0.7607872486114502,
      "learning_rate": 0.0001675278081254031,
      "loss": 3.5982,
      "step": 223180
    },
    {
      "epoch": 0.46497916666666667,
      "grad_norm": 0.8540717363357544,
      "learning_rate": 0.00016751801707087525,
      "loss": 3.5638,
      "step": 223190
    },
    {
      "epoch": 0.465,
      "grad_norm": 0.9516304135322571,
      "learning_rate": 0.00016750822594067648,
      "loss": 3.7218,
      "step": 223200
    },
    {
      "epoch": 0.4650208333333333,
      "grad_norm": 0.7672188878059387,
      "learning_rate": 0.00016749843473484917,
      "loss": 3.7029,
      "step": 223210
    },
    {
      "epoch": 0.4650416666666667,
      "grad_norm": 0.9024828672409058,
      "learning_rate": 0.00016748864345343548,
      "loss": 3.6541,
      "step": 223220
    },
    {
      "epoch": 0.4650625,
      "grad_norm": 0.8611644506454468,
      "learning_rate": 0.00016747885209647778,
      "loss": 3.8441,
      "step": 223230
    },
    {
      "epoch": 0.46508333333333335,
      "grad_norm": 0.9937095046043396,
      "learning_rate": 0.00016746906066401838,
      "loss": 3.7589,
      "step": 223240
    },
    {
      "epoch": 0.46510416666666665,
      "grad_norm": 0.8240371942520142,
      "learning_rate": 0.00016745926915609957,
      "loss": 3.8081,
      "step": 223250
    },
    {
      "epoch": 0.465125,
      "grad_norm": 0.6775085926055908,
      "learning_rate": 0.00016744947757276358,
      "loss": 3.6601,
      "step": 223260
    },
    {
      "epoch": 0.4651458333333333,
      "grad_norm": 0.889300525188446,
      "learning_rate": 0.00016743968591405282,
      "loss": 3.9111,
      "step": 223270
    },
    {
      "epoch": 0.4651666666666667,
      "grad_norm": 0.7517461180686951,
      "learning_rate": 0.00016742989418000947,
      "loss": 3.7888,
      "step": 223280
    },
    {
      "epoch": 0.4651875,
      "grad_norm": 0.7001150846481323,
      "learning_rate": 0.0001674201023706759,
      "loss": 3.8543,
      "step": 223290
    },
    {
      "epoch": 0.46520833333333333,
      "grad_norm": 0.979048490524292,
      "learning_rate": 0.00016741031048609433,
      "loss": 3.7486,
      "step": 223300
    },
    {
      "epoch": 0.4652291666666667,
      "grad_norm": 0.7436097264289856,
      "learning_rate": 0.00016740051852630715,
      "loss": 3.9216,
      "step": 223310
    },
    {
      "epoch": 0.46525,
      "grad_norm": 0.7835223078727722,
      "learning_rate": 0.00016739072649135666,
      "loss": 3.7979,
      "step": 223320
    },
    {
      "epoch": 0.46527083333333336,
      "grad_norm": 0.7831153273582458,
      "learning_rate": 0.00016738093438128506,
      "loss": 3.7358,
      "step": 223330
    },
    {
      "epoch": 0.46529166666666666,
      "grad_norm": 1.0158685445785522,
      "learning_rate": 0.0001673711421961347,
      "loss": 3.7786,
      "step": 223340
    },
    {
      "epoch": 0.4653125,
      "grad_norm": 0.7378234267234802,
      "learning_rate": 0.00016736134993594793,
      "loss": 3.8406,
      "step": 223350
    },
    {
      "epoch": 0.4653333333333333,
      "grad_norm": 0.908941924571991,
      "learning_rate": 0.00016735155760076698,
      "loss": 3.8486,
      "step": 223360
    },
    {
      "epoch": 0.4653541666666667,
      "grad_norm": 0.8976974487304688,
      "learning_rate": 0.0001673417651906341,
      "loss": 3.9516,
      "step": 223370
    },
    {
      "epoch": 0.465375,
      "grad_norm": 0.8001694679260254,
      "learning_rate": 0.00016733197270559175,
      "loss": 3.9258,
      "step": 223380
    },
    {
      "epoch": 0.46539583333333334,
      "grad_norm": 0.8108555674552917,
      "learning_rate": 0.00016732218014568214,
      "loss": 3.8195,
      "step": 223390
    },
    {
      "epoch": 0.46541666666666665,
      "grad_norm": 0.7545124292373657,
      "learning_rate": 0.00016731238751094748,
      "loss": 3.7978,
      "step": 223400
    },
    {
      "epoch": 0.4654375,
      "grad_norm": 0.8217412829399109,
      "learning_rate": 0.00016730259480143023,
      "loss": 3.838,
      "step": 223410
    },
    {
      "epoch": 0.4654583333333333,
      "grad_norm": 0.850852370262146,
      "learning_rate": 0.0001672928020171726,
      "loss": 3.8075,
      "step": 223420
    },
    {
      "epoch": 0.46547916666666667,
      "grad_norm": 0.7797484993934631,
      "learning_rate": 0.00016728300915821691,
      "loss": 3.6952,
      "step": 223430
    },
    {
      "epoch": 0.4655,
      "grad_norm": 0.9306201338768005,
      "learning_rate": 0.00016727321622460548,
      "loss": 3.7518,
      "step": 223440
    },
    {
      "epoch": 0.46552083333333333,
      "grad_norm": 0.9621143341064453,
      "learning_rate": 0.00016726342321638057,
      "loss": 3.6942,
      "step": 223450
    },
    {
      "epoch": 0.4655416666666667,
      "grad_norm": 0.7437914609909058,
      "learning_rate": 0.00016725363013358455,
      "loss": 3.7188,
      "step": 223460
    },
    {
      "epoch": 0.4655625,
      "grad_norm": 0.8886086940765381,
      "learning_rate": 0.0001672438369762596,
      "loss": 4.0057,
      "step": 223470
    },
    {
      "epoch": 0.46558333333333335,
      "grad_norm": 0.7142632007598877,
      "learning_rate": 0.00016723404374444813,
      "loss": 3.5974,
      "step": 223480
    },
    {
      "epoch": 0.46560416666666665,
      "grad_norm": 0.9385099411010742,
      "learning_rate": 0.00016722425043819245,
      "loss": 3.7698,
      "step": 223490
    },
    {
      "epoch": 0.465625,
      "grad_norm": 0.7726926803588867,
      "learning_rate": 0.00016721445705753478,
      "loss": 3.7246,
      "step": 223500
    },
    {
      "epoch": 0.4656458333333333,
      "grad_norm": 0.7642173767089844,
      "learning_rate": 0.00016720466360251748,
      "loss": 3.8732,
      "step": 223510
    },
    {
      "epoch": 0.4656666666666667,
      "grad_norm": 0.8700418472290039,
      "learning_rate": 0.0001671948700731829,
      "loss": 3.8135,
      "step": 223520
    },
    {
      "epoch": 0.4656875,
      "grad_norm": 0.8468251824378967,
      "learning_rate": 0.00016718507646957322,
      "loss": 3.7894,
      "step": 223530
    },
    {
      "epoch": 0.46570833333333334,
      "grad_norm": 0.7881520390510559,
      "learning_rate": 0.0001671752827917308,
      "loss": 3.5644,
      "step": 223540
    },
    {
      "epoch": 0.4657291666666667,
      "grad_norm": 0.8900400400161743,
      "learning_rate": 0.00016716548903969802,
      "loss": 3.7676,
      "step": 223550
    },
    {
      "epoch": 0.46575,
      "grad_norm": 0.897833526134491,
      "learning_rate": 0.0001671556952135171,
      "loss": 3.8701,
      "step": 223560
    },
    {
      "epoch": 0.46577083333333336,
      "grad_norm": 0.7373180985450745,
      "learning_rate": 0.00016714590131323035,
      "loss": 3.6768,
      "step": 223570
    },
    {
      "epoch": 0.46579166666666666,
      "grad_norm": 1.281656265258789,
      "learning_rate": 0.0001671361073388801,
      "loss": 3.8767,
      "step": 223580
    },
    {
      "epoch": 0.4658125,
      "grad_norm": 1.1284189224243164,
      "learning_rate": 0.00016712631329050863,
      "loss": 3.7764,
      "step": 223590
    },
    {
      "epoch": 0.4658333333333333,
      "grad_norm": 0.8126698136329651,
      "learning_rate": 0.0001671165191681583,
      "loss": 3.7447,
      "step": 223600
    },
    {
      "epoch": 0.4658541666666667,
      "grad_norm": 0.8763267397880554,
      "learning_rate": 0.00016710672497187134,
      "loss": 3.7598,
      "step": 223610
    },
    {
      "epoch": 0.465875,
      "grad_norm": 0.7884641885757446,
      "learning_rate": 0.00016709693070169013,
      "loss": 3.8334,
      "step": 223620
    },
    {
      "epoch": 0.46589583333333334,
      "grad_norm": 0.7796435356140137,
      "learning_rate": 0.00016708713635765694,
      "loss": 3.7276,
      "step": 223630
    },
    {
      "epoch": 0.46591666666666665,
      "grad_norm": 0.8690237998962402,
      "learning_rate": 0.00016707734193981407,
      "loss": 3.699,
      "step": 223640
    },
    {
      "epoch": 0.4659375,
      "grad_norm": 0.834554135799408,
      "learning_rate": 0.0001670675474482039,
      "loss": 3.8496,
      "step": 223650
    },
    {
      "epoch": 0.4659583333333333,
      "grad_norm": 0.6947638392448425,
      "learning_rate": 0.00016705775288286868,
      "loss": 3.7922,
      "step": 223660
    },
    {
      "epoch": 0.46597916666666667,
      "grad_norm": 0.8487679362297058,
      "learning_rate": 0.00016704795824385062,
      "loss": 3.6439,
      "step": 223670
    },
    {
      "epoch": 0.466,
      "grad_norm": 0.887407124042511,
      "learning_rate": 0.0001670381635311922,
      "loss": 3.785,
      "step": 223680
    },
    {
      "epoch": 0.46602083333333333,
      "grad_norm": 0.812969982624054,
      "learning_rate": 0.00016702836874493568,
      "loss": 3.6148,
      "step": 223690
    },
    {
      "epoch": 0.4660416666666667,
      "grad_norm": 0.9026166200637817,
      "learning_rate": 0.00016701857388512324,
      "loss": 3.8291,
      "step": 223700
    },
    {
      "epoch": 0.4660625,
      "grad_norm": 0.7860164046287537,
      "learning_rate": 0.00016700877895179742,
      "loss": 3.7119,
      "step": 223710
    },
    {
      "epoch": 0.46608333333333335,
      "grad_norm": 0.7644955515861511,
      "learning_rate": 0.00016699898394500036,
      "loss": 3.8062,
      "step": 223720
    },
    {
      "epoch": 0.46610416666666665,
      "grad_norm": 0.9550212025642395,
      "learning_rate": 0.00016698918886477442,
      "loss": 3.8367,
      "step": 223730
    },
    {
      "epoch": 0.466125,
      "grad_norm": 0.8337997198104858,
      "learning_rate": 0.0001669793937111619,
      "loss": 3.7839,
      "step": 223740
    },
    {
      "epoch": 0.4661458333333333,
      "grad_norm": 0.8516108989715576,
      "learning_rate": 0.00016696959848420514,
      "loss": 3.754,
      "step": 223750
    },
    {
      "epoch": 0.4661666666666667,
      "grad_norm": 0.8470874428749084,
      "learning_rate": 0.0001669598031839464,
      "loss": 3.7482,
      "step": 223760
    },
    {
      "epoch": 0.4661875,
      "grad_norm": 0.8338283896446228,
      "learning_rate": 0.00016695000781042805,
      "loss": 3.7592,
      "step": 223770
    },
    {
      "epoch": 0.46620833333333334,
      "grad_norm": 0.8197217583656311,
      "learning_rate": 0.00016694021236369236,
      "loss": 3.7042,
      "step": 223780
    },
    {
      "epoch": 0.46622916666666664,
      "grad_norm": 0.739554762840271,
      "learning_rate": 0.0001669304168437817,
      "loss": 3.7978,
      "step": 223790
    },
    {
      "epoch": 0.46625,
      "grad_norm": 0.7582670450210571,
      "learning_rate": 0.00016692062125073828,
      "loss": 3.9002,
      "step": 223800
    },
    {
      "epoch": 0.46627083333333336,
      "grad_norm": 0.9558904767036438,
      "learning_rate": 0.00016691082558460446,
      "loss": 3.7299,
      "step": 223810
    },
    {
      "epoch": 0.46629166666666666,
      "grad_norm": 0.8666735291481018,
      "learning_rate": 0.00016690102984542264,
      "loss": 3.9281,
      "step": 223820
    },
    {
      "epoch": 0.4663125,
      "grad_norm": 0.8439291715621948,
      "learning_rate": 0.00016689123403323502,
      "loss": 3.7975,
      "step": 223830
    },
    {
      "epoch": 0.4663333333333333,
      "grad_norm": 0.8764895796775818,
      "learning_rate": 0.00016688143814808394,
      "loss": 3.7534,
      "step": 223840
    },
    {
      "epoch": 0.4663541666666667,
      "grad_norm": 0.87038654088974,
      "learning_rate": 0.00016687164219001178,
      "loss": 3.8074,
      "step": 223850
    },
    {
      "epoch": 0.466375,
      "grad_norm": 0.8127730488777161,
      "learning_rate": 0.0001668618461590608,
      "loss": 3.7831,
      "step": 223860
    },
    {
      "epoch": 0.46639583333333334,
      "grad_norm": 0.8215051889419556,
      "learning_rate": 0.00016685205005527323,
      "loss": 3.8644,
      "step": 223870
    },
    {
      "epoch": 0.46641666666666665,
      "grad_norm": 0.883123517036438,
      "learning_rate": 0.0001668422538786916,
      "loss": 3.8191,
      "step": 223880
    },
    {
      "epoch": 0.4664375,
      "grad_norm": 1.0747649669647217,
      "learning_rate": 0.00016683245762935802,
      "loss": 3.9074,
      "step": 223890
    },
    {
      "epoch": 0.4664583333333333,
      "grad_norm": 0.7648152709007263,
      "learning_rate": 0.00016682266130731488,
      "loss": 3.7496,
      "step": 223900
    },
    {
      "epoch": 0.46647916666666667,
      "grad_norm": 0.8081389665603638,
      "learning_rate": 0.00016681286491260455,
      "loss": 3.7569,
      "step": 223910
    },
    {
      "epoch": 0.4665,
      "grad_norm": 0.7337508201599121,
      "learning_rate": 0.00016680306844526926,
      "loss": 3.7979,
      "step": 223920
    },
    {
      "epoch": 0.46652083333333333,
      "grad_norm": 0.7008667588233948,
      "learning_rate": 0.00016679327190535138,
      "loss": 3.7753,
      "step": 223930
    },
    {
      "epoch": 0.4665416666666667,
      "grad_norm": 0.7688866853713989,
      "learning_rate": 0.00016678347529289322,
      "loss": 3.8371,
      "step": 223940
    },
    {
      "epoch": 0.4665625,
      "grad_norm": 0.9124560356140137,
      "learning_rate": 0.0001667736786079371,
      "loss": 3.7789,
      "step": 223950
    },
    {
      "epoch": 0.46658333333333335,
      "grad_norm": 0.9724833965301514,
      "learning_rate": 0.0001667638818505253,
      "loss": 3.8114,
      "step": 223960
    },
    {
      "epoch": 0.46660416666666665,
      "grad_norm": 0.7335253953933716,
      "learning_rate": 0.00016675408502070017,
      "loss": 3.6086,
      "step": 223970
    },
    {
      "epoch": 0.466625,
      "grad_norm": 0.7664363384246826,
      "learning_rate": 0.00016674428811850402,
      "loss": 3.7687,
      "step": 223980
    },
    {
      "epoch": 0.4666458333333333,
      "grad_norm": 0.8201785683631897,
      "learning_rate": 0.0001667344911439792,
      "loss": 3.8853,
      "step": 223990
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 0.8590123653411865,
      "learning_rate": 0.00016672469409716796,
      "loss": 3.7523,
      "step": 224000
    },
    {
      "epoch": 0.4666666666666667,
      "eval_loss": 4.148809909820557,
      "eval_runtime": 9.1422,
      "eval_samples_per_second": 1.094,
      "eval_steps_per_second": 0.328,
      "step": 224000
    },
    {
      "epoch": 0.4666875,
      "grad_norm": 0.9864657521247864,
      "learning_rate": 0.00016671489697811268,
      "loss": 3.9981,
      "step": 224010
    },
    {
      "epoch": 0.46670833333333334,
      "grad_norm": 0.8990445137023926,
      "learning_rate": 0.0001667050997868557,
      "loss": 3.8319,
      "step": 224020
    },
    {
      "epoch": 0.46672916666666664,
      "grad_norm": 0.9168655872344971,
      "learning_rate": 0.00016669530252343929,
      "loss": 3.7516,
      "step": 224030
    },
    {
      "epoch": 0.46675,
      "grad_norm": 0.9416508674621582,
      "learning_rate": 0.00016668550518790572,
      "loss": 3.8641,
      "step": 224040
    },
    {
      "epoch": 0.46677083333333336,
      "grad_norm": 0.862949550151825,
      "learning_rate": 0.00016667570778029745,
      "loss": 3.7506,
      "step": 224050
    },
    {
      "epoch": 0.46679166666666666,
      "grad_norm": 0.8647269606590271,
      "learning_rate": 0.0001666659103006567,
      "loss": 3.785,
      "step": 224060
    },
    {
      "epoch": 0.4668125,
      "grad_norm": 0.7431991696357727,
      "learning_rate": 0.00016665611274902577,
      "loss": 3.81,
      "step": 224070
    },
    {
      "epoch": 0.4668333333333333,
      "grad_norm": 0.8254965543746948,
      "learning_rate": 0.0001666463151254471,
      "loss": 3.9189,
      "step": 224080
    },
    {
      "epoch": 0.4668541666666667,
      "grad_norm": 0.7683814764022827,
      "learning_rate": 0.00016663651742996287,
      "loss": 3.9465,
      "step": 224090
    },
    {
      "epoch": 0.466875,
      "grad_norm": 0.7117984890937805,
      "learning_rate": 0.00016662671966261548,
      "loss": 3.7647,
      "step": 224100
    },
    {
      "epoch": 0.46689583333333334,
      "grad_norm": 0.8881855607032776,
      "learning_rate": 0.00016661692182344727,
      "loss": 3.9666,
      "step": 224110
    },
    {
      "epoch": 0.46691666666666665,
      "grad_norm": 0.8338346481323242,
      "learning_rate": 0.00016660712391250053,
      "loss": 3.7812,
      "step": 224120
    },
    {
      "epoch": 0.4669375,
      "grad_norm": 1.023353934288025,
      "learning_rate": 0.00016659732592981758,
      "loss": 3.7329,
      "step": 224130
    },
    {
      "epoch": 0.4669583333333333,
      "grad_norm": 0.8865991830825806,
      "learning_rate": 0.00016658752787544076,
      "loss": 3.6541,
      "step": 224140
    },
    {
      "epoch": 0.46697916666666667,
      "grad_norm": 0.9499744772911072,
      "learning_rate": 0.00016657772974941237,
      "loss": 3.7838,
      "step": 224150
    },
    {
      "epoch": 0.467,
      "grad_norm": 0.9912816882133484,
      "learning_rate": 0.0001665679315517748,
      "loss": 3.8766,
      "step": 224160
    },
    {
      "epoch": 0.46702083333333333,
      "grad_norm": 0.7459051609039307,
      "learning_rate": 0.00016655813328257023,
      "loss": 3.8737,
      "step": 224170
    },
    {
      "epoch": 0.4670416666666667,
      "grad_norm": 0.9178169369697571,
      "learning_rate": 0.00016654833494184114,
      "loss": 3.6452,
      "step": 224180
    },
    {
      "epoch": 0.4670625,
      "grad_norm": 0.8616552948951721,
      "learning_rate": 0.00016653853652962982,
      "loss": 3.8874,
      "step": 224190
    },
    {
      "epoch": 0.46708333333333335,
      "grad_norm": 0.7220520973205566,
      "learning_rate": 0.0001665287380459785,
      "loss": 3.8019,
      "step": 224200
    },
    {
      "epoch": 0.46710416666666665,
      "grad_norm": 0.9472835063934326,
      "learning_rate": 0.00016651893949092957,
      "loss": 3.6284,
      "step": 224210
    },
    {
      "epoch": 0.467125,
      "grad_norm": 0.7657212615013123,
      "learning_rate": 0.00016650914086452544,
      "loss": 3.8605,
      "step": 224220
    },
    {
      "epoch": 0.4671458333333333,
      "grad_norm": 0.9849211573600769,
      "learning_rate": 0.0001664993421668083,
      "loss": 3.7011,
      "step": 224230
    },
    {
      "epoch": 0.4671666666666667,
      "grad_norm": 0.7332902550697327,
      "learning_rate": 0.00016648954339782053,
      "loss": 3.7362,
      "step": 224240
    },
    {
      "epoch": 0.4671875,
      "grad_norm": 0.919920802116394,
      "learning_rate": 0.0001664797445576045,
      "loss": 3.9145,
      "step": 224250
    },
    {
      "epoch": 0.46720833333333334,
      "grad_norm": 0.7639548182487488,
      "learning_rate": 0.00016646994564620247,
      "loss": 3.9745,
      "step": 224260
    },
    {
      "epoch": 0.46722916666666664,
      "grad_norm": 0.9446194171905518,
      "learning_rate": 0.00016646014666365675,
      "loss": 3.7383,
      "step": 224270
    },
    {
      "epoch": 0.46725,
      "grad_norm": 0.8261222243309021,
      "learning_rate": 0.0001664503476100098,
      "loss": 3.7752,
      "step": 224280
    },
    {
      "epoch": 0.46727083333333336,
      "grad_norm": 0.8901962041854858,
      "learning_rate": 0.00016644054848530382,
      "loss": 3.8698,
      "step": 224290
    },
    {
      "epoch": 0.46729166666666666,
      "grad_norm": 0.8175672292709351,
      "learning_rate": 0.00016643074928958116,
      "loss": 3.9213,
      "step": 224300
    },
    {
      "epoch": 0.4673125,
      "grad_norm": 1.320687174797058,
      "learning_rate": 0.00016642095002288417,
      "loss": 3.5537,
      "step": 224310
    },
    {
      "epoch": 0.4673333333333333,
      "grad_norm": 0.799224853515625,
      "learning_rate": 0.0001664111506852552,
      "loss": 3.643,
      "step": 224320
    },
    {
      "epoch": 0.4673541666666667,
      "grad_norm": 0.9029486775398254,
      "learning_rate": 0.00016640135127673656,
      "loss": 3.8509,
      "step": 224330
    },
    {
      "epoch": 0.467375,
      "grad_norm": 0.9050658345222473,
      "learning_rate": 0.00016639155179737055,
      "loss": 3.7874,
      "step": 224340
    },
    {
      "epoch": 0.46739583333333334,
      "grad_norm": 0.8850465416908264,
      "learning_rate": 0.00016638175224719951,
      "loss": 3.7808,
      "step": 224350
    },
    {
      "epoch": 0.46741666666666665,
      "grad_norm": 0.7028394937515259,
      "learning_rate": 0.00016637195262626586,
      "loss": 3.7127,
      "step": 224360
    },
    {
      "epoch": 0.4674375,
      "grad_norm": 0.7088708877563477,
      "learning_rate": 0.00016636215293461173,
      "loss": 3.8422,
      "step": 224370
    },
    {
      "epoch": 0.4674583333333333,
      "grad_norm": 0.8617327809333801,
      "learning_rate": 0.00016635235317227968,
      "loss": 3.7794,
      "step": 224380
    },
    {
      "epoch": 0.46747916666666667,
      "grad_norm": 0.7738561034202576,
      "learning_rate": 0.00016634255333931194,
      "loss": 3.8168,
      "step": 224390
    },
    {
      "epoch": 0.4675,
      "grad_norm": 0.7865903973579407,
      "learning_rate": 0.00016633275343575077,
      "loss": 3.5135,
      "step": 224400
    },
    {
      "epoch": 0.46752083333333333,
      "grad_norm": 0.7339752316474915,
      "learning_rate": 0.00016632295346163858,
      "loss": 3.6396,
      "step": 224410
    },
    {
      "epoch": 0.4675416666666667,
      "grad_norm": 0.8469595313072205,
      "learning_rate": 0.00016631315341701777,
      "loss": 3.6746,
      "step": 224420
    },
    {
      "epoch": 0.4675625,
      "grad_norm": 0.9113942980766296,
      "learning_rate": 0.00016630335330193051,
      "loss": 3.8105,
      "step": 224430
    },
    {
      "epoch": 0.46758333333333335,
      "grad_norm": 0.7488046288490295,
      "learning_rate": 0.0001662935531164192,
      "loss": 3.5845,
      "step": 224440
    },
    {
      "epoch": 0.46760416666666665,
      "grad_norm": 1.1078015565872192,
      "learning_rate": 0.0001662837528605263,
      "loss": 3.7264,
      "step": 224450
    },
    {
      "epoch": 0.467625,
      "grad_norm": 0.724351704120636,
      "learning_rate": 0.00016627395253429397,
      "loss": 3.8902,
      "step": 224460
    },
    {
      "epoch": 0.4676458333333333,
      "grad_norm": 0.7399930953979492,
      "learning_rate": 0.00016626415213776458,
      "loss": 3.7186,
      "step": 224470
    },
    {
      "epoch": 0.4676666666666667,
      "grad_norm": 0.8928064703941345,
      "learning_rate": 0.00016625435167098051,
      "loss": 3.6465,
      "step": 224480
    },
    {
      "epoch": 0.4676875,
      "grad_norm": 0.9657009243965149,
      "learning_rate": 0.00016624455113398412,
      "loss": 3.8074,
      "step": 224490
    },
    {
      "epoch": 0.46770833333333334,
      "grad_norm": 0.7824445366859436,
      "learning_rate": 0.0001662347505268176,
      "loss": 3.7965,
      "step": 224500
    },
    {
      "epoch": 0.46772916666666664,
      "grad_norm": 0.8481934666633606,
      "learning_rate": 0.00016622494984952347,
      "loss": 3.993,
      "step": 224510
    },
    {
      "epoch": 0.46775,
      "grad_norm": 0.8152917623519897,
      "learning_rate": 0.00016621514910214395,
      "loss": 3.8396,
      "step": 224520
    },
    {
      "epoch": 0.46777083333333336,
      "grad_norm": 0.7649905681610107,
      "learning_rate": 0.00016620534828472143,
      "loss": 3.7769,
      "step": 224530
    },
    {
      "epoch": 0.46779166666666666,
      "grad_norm": 0.7194926738739014,
      "learning_rate": 0.0001661955473972982,
      "loss": 3.8821,
      "step": 224540
    },
    {
      "epoch": 0.4678125,
      "grad_norm": 0.9820581078529358,
      "learning_rate": 0.00016618574643991659,
      "loss": 3.7613,
      "step": 224550
    },
    {
      "epoch": 0.4678333333333333,
      "grad_norm": 0.9121659398078918,
      "learning_rate": 0.00016617594541261903,
      "loss": 3.837,
      "step": 224560
    },
    {
      "epoch": 0.4678541666666667,
      "grad_norm": 0.8734673857688904,
      "learning_rate": 0.0001661661443154477,
      "loss": 3.7297,
      "step": 224570
    },
    {
      "epoch": 0.467875,
      "grad_norm": 0.8304921388626099,
      "learning_rate": 0.00016615634314844508,
      "loss": 3.9151,
      "step": 224580
    },
    {
      "epoch": 0.46789583333333334,
      "grad_norm": 0.7955940365791321,
      "learning_rate": 0.00016614654191165345,
      "loss": 3.8418,
      "step": 224590
    },
    {
      "epoch": 0.46791666666666665,
      "grad_norm": 0.8014965653419495,
      "learning_rate": 0.00016613674060511515,
      "loss": 3.696,
      "step": 224600
    },
    {
      "epoch": 0.4679375,
      "grad_norm": 0.7397921085357666,
      "learning_rate": 0.00016612693922887252,
      "loss": 3.7764,
      "step": 224610
    },
    {
      "epoch": 0.4679583333333333,
      "grad_norm": 0.8979021310806274,
      "learning_rate": 0.0001661171377829679,
      "loss": 3.8615,
      "step": 224620
    },
    {
      "epoch": 0.46797916666666667,
      "grad_norm": 0.8592299818992615,
      "learning_rate": 0.00016610733626744358,
      "loss": 3.7647,
      "step": 224630
    },
    {
      "epoch": 0.468,
      "grad_norm": 1.0090444087982178,
      "learning_rate": 0.000166097534682342,
      "loss": 3.7756,
      "step": 224640
    },
    {
      "epoch": 0.46802083333333333,
      "grad_norm": 0.9358735084533691,
      "learning_rate": 0.00016608773302770539,
      "loss": 3.7333,
      "step": 224650
    },
    {
      "epoch": 0.4680416666666667,
      "grad_norm": 0.794660210609436,
      "learning_rate": 0.00016607793130357618,
      "loss": 3.7465,
      "step": 224660
    },
    {
      "epoch": 0.4680625,
      "grad_norm": 0.8284441232681274,
      "learning_rate": 0.00016606812950999665,
      "loss": 3.7669,
      "step": 224670
    },
    {
      "epoch": 0.46808333333333335,
      "grad_norm": 0.7739323377609253,
      "learning_rate": 0.00016605832764700915,
      "loss": 3.8068,
      "step": 224680
    },
    {
      "epoch": 0.46810416666666665,
      "grad_norm": 1.2158453464508057,
      "learning_rate": 0.00016604852571465607,
      "loss": 3.7153,
      "step": 224690
    },
    {
      "epoch": 0.468125,
      "grad_norm": 0.8980115056037903,
      "learning_rate": 0.00016603872371297968,
      "loss": 3.8883,
      "step": 224700
    },
    {
      "epoch": 0.4681458333333333,
      "grad_norm": 0.850796103477478,
      "learning_rate": 0.00016602892164202236,
      "loss": 3.7552,
      "step": 224710
    },
    {
      "epoch": 0.4681666666666667,
      "grad_norm": 0.7888875603675842,
      "learning_rate": 0.00016601911950182645,
      "loss": 3.5911,
      "step": 224720
    },
    {
      "epoch": 0.4681875,
      "grad_norm": 0.8434686064720154,
      "learning_rate": 0.0001660093172924343,
      "loss": 3.8441,
      "step": 224730
    },
    {
      "epoch": 0.46820833333333334,
      "grad_norm": 0.7645642757415771,
      "learning_rate": 0.00016599951501388818,
      "loss": 3.6761,
      "step": 224740
    },
    {
      "epoch": 0.46822916666666664,
      "grad_norm": 0.9499536156654358,
      "learning_rate": 0.00016598971266623057,
      "loss": 3.9239,
      "step": 224750
    },
    {
      "epoch": 0.46825,
      "grad_norm": 0.7729924321174622,
      "learning_rate": 0.0001659799102495037,
      "loss": 3.8169,
      "step": 224760
    },
    {
      "epoch": 0.46827083333333336,
      "grad_norm": 0.7984365820884705,
      "learning_rate": 0.0001659701077637499,
      "loss": 3.8863,
      "step": 224770
    },
    {
      "epoch": 0.46829166666666666,
      "grad_norm": 0.7800073027610779,
      "learning_rate": 0.0001659603052090116,
      "loss": 3.6191,
      "step": 224780
    },
    {
      "epoch": 0.4683125,
      "grad_norm": 0.7727203965187073,
      "learning_rate": 0.00016595050258533107,
      "loss": 3.8264,
      "step": 224790
    },
    {
      "epoch": 0.4683333333333333,
      "grad_norm": 0.7334296703338623,
      "learning_rate": 0.00016594069989275072,
      "loss": 4.001,
      "step": 224800
    },
    {
      "epoch": 0.4683541666666667,
      "grad_norm": 0.9942912459373474,
      "learning_rate": 0.0001659308971313128,
      "loss": 3.7218,
      "step": 224810
    },
    {
      "epoch": 0.468375,
      "grad_norm": 0.7928405404090881,
      "learning_rate": 0.00016592109430105977,
      "loss": 3.8857,
      "step": 224820
    },
    {
      "epoch": 0.46839583333333334,
      "grad_norm": 1.0561097860336304,
      "learning_rate": 0.00016591129140203388,
      "loss": 3.7298,
      "step": 224830
    },
    {
      "epoch": 0.46841666666666665,
      "grad_norm": 0.8756690621376038,
      "learning_rate": 0.0001659014884342775,
      "loss": 3.9418,
      "step": 224840
    },
    {
      "epoch": 0.4684375,
      "grad_norm": 0.7636091709136963,
      "learning_rate": 0.00016589168539783299,
      "loss": 3.8477,
      "step": 224850
    },
    {
      "epoch": 0.4684583333333333,
      "grad_norm": 0.8017902970314026,
      "learning_rate": 0.0001658818822927427,
      "loss": 3.9228,
      "step": 224860
    },
    {
      "epoch": 0.46847916666666667,
      "grad_norm": 0.77058345079422,
      "learning_rate": 0.000165872079119049,
      "loss": 3.8471,
      "step": 224870
    },
    {
      "epoch": 0.4685,
      "grad_norm": 0.8034422397613525,
      "learning_rate": 0.00016586227587679417,
      "loss": 3.7531,
      "step": 224880
    },
    {
      "epoch": 0.46852083333333333,
      "grad_norm": 0.8427528738975525,
      "learning_rate": 0.0001658524725660206,
      "loss": 3.7636,
      "step": 224890
    },
    {
      "epoch": 0.4685416666666667,
      "grad_norm": 0.864006519317627,
      "learning_rate": 0.00016584266918677056,
      "loss": 3.8491,
      "step": 224900
    },
    {
      "epoch": 0.4685625,
      "grad_norm": 1.2768466472625732,
      "learning_rate": 0.00016583286573908652,
      "loss": 3.9122,
      "step": 224910
    },
    {
      "epoch": 0.46858333333333335,
      "grad_norm": 0.8659995794296265,
      "learning_rate": 0.00016582306222301076,
      "loss": 3.8249,
      "step": 224920
    },
    {
      "epoch": 0.46860416666666665,
      "grad_norm": 0.846079409122467,
      "learning_rate": 0.00016581325863858565,
      "loss": 3.8878,
      "step": 224930
    },
    {
      "epoch": 0.468625,
      "grad_norm": 0.8664073348045349,
      "learning_rate": 0.00016580345498585345,
      "loss": 3.4894,
      "step": 224940
    },
    {
      "epoch": 0.4686458333333333,
      "grad_norm": 0.8474528193473816,
      "learning_rate": 0.00016579365126485668,
      "loss": 3.8316,
      "step": 224950
    },
    {
      "epoch": 0.4686666666666667,
      "grad_norm": 0.7367271184921265,
      "learning_rate": 0.00016578384747563754,
      "loss": 3.8288,
      "step": 224960
    },
    {
      "epoch": 0.4686875,
      "grad_norm": 0.8933739066123962,
      "learning_rate": 0.0001657740436182384,
      "loss": 3.7431,
      "step": 224970
    },
    {
      "epoch": 0.46870833333333334,
      "grad_norm": 0.9663851857185364,
      "learning_rate": 0.00016576423969270166,
      "loss": 3.7431,
      "step": 224980
    },
    {
      "epoch": 0.46872916666666664,
      "grad_norm": 0.8698368668556213,
      "learning_rate": 0.00016575443569906968,
      "loss": 3.867,
      "step": 224990
    },
    {
      "epoch": 0.46875,
      "grad_norm": 0.8523585796356201,
      "learning_rate": 0.0001657446316373847,
      "loss": 3.8442,
      "step": 225000
    },
    {
      "epoch": 0.46875,
      "eval_loss": 4.142125129699707,
      "eval_runtime": 9.7083,
      "eval_samples_per_second": 1.03,
      "eval_steps_per_second": 0.309,
      "step": 225000
    },
    {
      "epoch": 0.46877083333333336,
      "grad_norm": 0.8174184560775757,
      "learning_rate": 0.00016573482750768917,
      "loss": 3.7406,
      "step": 225010
    },
    {
      "epoch": 0.46879166666666666,
      "grad_norm": 0.6784088611602783,
      "learning_rate": 0.00016572502331002544,
      "loss": 3.77,
      "step": 225020
    },
    {
      "epoch": 0.4688125,
      "grad_norm": 0.8146467208862305,
      "learning_rate": 0.0001657152190444358,
      "loss": 3.857,
      "step": 225030
    },
    {
      "epoch": 0.4688333333333333,
      "grad_norm": 0.9012477993965149,
      "learning_rate": 0.00016570541471096266,
      "loss": 3.9221,
      "step": 225040
    },
    {
      "epoch": 0.4688541666666667,
      "grad_norm": 0.8427361249923706,
      "learning_rate": 0.00016569561030964835,
      "loss": 3.858,
      "step": 225050
    },
    {
      "epoch": 0.468875,
      "grad_norm": 0.9596291184425354,
      "learning_rate": 0.00016568580584053522,
      "loss": 3.611,
      "step": 225060
    },
    {
      "epoch": 0.46889583333333335,
      "grad_norm": 1.136823296546936,
      "learning_rate": 0.00016567600130366558,
      "loss": 3.8284,
      "step": 225070
    },
    {
      "epoch": 0.46891666666666665,
      "grad_norm": 0.7365906238555908,
      "learning_rate": 0.00016566619669908185,
      "loss": 3.6168,
      "step": 225080
    },
    {
      "epoch": 0.4689375,
      "grad_norm": 0.7720869779586792,
      "learning_rate": 0.00016565639202682637,
      "loss": 3.8785,
      "step": 225090
    },
    {
      "epoch": 0.4689583333333333,
      "grad_norm": 0.8175726532936096,
      "learning_rate": 0.00016564658728694144,
      "loss": 3.6963,
      "step": 225100
    },
    {
      "epoch": 0.46897916666666667,
      "grad_norm": 0.8535445928573608,
      "learning_rate": 0.00016563678247946941,
      "loss": 3.8157,
      "step": 225110
    },
    {
      "epoch": 0.469,
      "grad_norm": 0.8799079060554504,
      "learning_rate": 0.00016562697760445276,
      "loss": 3.8269,
      "step": 225120
    },
    {
      "epoch": 0.46902083333333333,
      "grad_norm": 0.8523691296577454,
      "learning_rate": 0.0001656171726619337,
      "loss": 3.763,
      "step": 225130
    },
    {
      "epoch": 0.4690416666666667,
      "grad_norm": 0.7879198789596558,
      "learning_rate": 0.0001656073676519546,
      "loss": 3.7462,
      "step": 225140
    },
    {
      "epoch": 0.4690625,
      "grad_norm": 0.8577151894569397,
      "learning_rate": 0.00016559756257455792,
      "loss": 3.8767,
      "step": 225150
    },
    {
      "epoch": 0.46908333333333335,
      "grad_norm": 0.960282564163208,
      "learning_rate": 0.0001655877574297859,
      "loss": 3.8053,
      "step": 225160
    },
    {
      "epoch": 0.46910416666666666,
      "grad_norm": 0.8333992958068848,
      "learning_rate": 0.00016557795221768096,
      "loss": 3.8376,
      "step": 225170
    },
    {
      "epoch": 0.469125,
      "grad_norm": 0.7392314076423645,
      "learning_rate": 0.00016556814693828543,
      "loss": 3.8832,
      "step": 225180
    },
    {
      "epoch": 0.4691458333333333,
      "grad_norm": 0.771009624004364,
      "learning_rate": 0.00016555834159164167,
      "loss": 3.58,
      "step": 225190
    },
    {
      "epoch": 0.4691666666666667,
      "grad_norm": 0.7487099766731262,
      "learning_rate": 0.00016554853617779203,
      "loss": 3.7646,
      "step": 225200
    },
    {
      "epoch": 0.4691875,
      "grad_norm": 0.7778368592262268,
      "learning_rate": 0.00016553873069677884,
      "loss": 3.587,
      "step": 225210
    },
    {
      "epoch": 0.46920833333333334,
      "grad_norm": 0.8353567719459534,
      "learning_rate": 0.00016552892514864453,
      "loss": 3.862,
      "step": 225220
    },
    {
      "epoch": 0.46922916666666664,
      "grad_norm": 0.8641624450683594,
      "learning_rate": 0.0001655191195334314,
      "loss": 4.0297,
      "step": 225230
    },
    {
      "epoch": 0.46925,
      "grad_norm": 0.7972431182861328,
      "learning_rate": 0.00016550931385118177,
      "loss": 3.8245,
      "step": 225240
    },
    {
      "epoch": 0.46927083333333336,
      "grad_norm": 0.7169433236122131,
      "learning_rate": 0.00016549950810193807,
      "loss": 3.8768,
      "step": 225250
    },
    {
      "epoch": 0.46929166666666666,
      "grad_norm": 0.7126947641372681,
      "learning_rate": 0.00016548970228574266,
      "loss": 3.8534,
      "step": 225260
    },
    {
      "epoch": 0.4693125,
      "grad_norm": 0.8596822619438171,
      "learning_rate": 0.00016547989640263783,
      "loss": 3.7659,
      "step": 225270
    },
    {
      "epoch": 0.4693333333333333,
      "grad_norm": 0.9159911870956421,
      "learning_rate": 0.00016547009045266597,
      "loss": 3.6048,
      "step": 225280
    },
    {
      "epoch": 0.4693541666666667,
      "grad_norm": 0.8788585662841797,
      "learning_rate": 0.0001654602844358695,
      "loss": 3.7434,
      "step": 225290
    },
    {
      "epoch": 0.469375,
      "grad_norm": 0.7998286485671997,
      "learning_rate": 0.00016545047835229065,
      "loss": 3.7391,
      "step": 225300
    },
    {
      "epoch": 0.46939583333333335,
      "grad_norm": 0.785643994808197,
      "learning_rate": 0.00016544067220197186,
      "loss": 3.8074,
      "step": 225310
    },
    {
      "epoch": 0.46941666666666665,
      "grad_norm": 0.7965156435966492,
      "learning_rate": 0.00016543086598495553,
      "loss": 3.668,
      "step": 225320
    },
    {
      "epoch": 0.4694375,
      "grad_norm": 0.8066239953041077,
      "learning_rate": 0.00016542105970128394,
      "loss": 3.6157,
      "step": 225330
    },
    {
      "epoch": 0.4694583333333333,
      "grad_norm": 0.7863004207611084,
      "learning_rate": 0.00016541125335099946,
      "loss": 3.6166,
      "step": 225340
    },
    {
      "epoch": 0.46947916666666667,
      "grad_norm": 0.7859873175621033,
      "learning_rate": 0.00016540144693414448,
      "loss": 3.9598,
      "step": 225350
    },
    {
      "epoch": 0.4695,
      "grad_norm": 0.9211409687995911,
      "learning_rate": 0.00016539164045076136,
      "loss": 3.7501,
      "step": 225360
    },
    {
      "epoch": 0.46952083333333333,
      "grad_norm": 1.2956644296646118,
      "learning_rate": 0.00016538183390089244,
      "loss": 3.844,
      "step": 225370
    },
    {
      "epoch": 0.4695416666666667,
      "grad_norm": 0.7569009065628052,
      "learning_rate": 0.00016537202728458006,
      "loss": 3.7568,
      "step": 225380
    },
    {
      "epoch": 0.4695625,
      "grad_norm": 0.7815629243850708,
      "learning_rate": 0.00016536222060186661,
      "loss": 3.814,
      "step": 225390
    },
    {
      "epoch": 0.46958333333333335,
      "grad_norm": 0.8124348521232605,
      "learning_rate": 0.00016535241385279447,
      "loss": 3.9407,
      "step": 225400
    },
    {
      "epoch": 0.46960416666666666,
      "grad_norm": 1.0008658170700073,
      "learning_rate": 0.00016534260703740598,
      "loss": 3.8453,
      "step": 225410
    },
    {
      "epoch": 0.469625,
      "grad_norm": 0.7546469569206238,
      "learning_rate": 0.00016533280015574347,
      "loss": 3.7974,
      "step": 225420
    },
    {
      "epoch": 0.4696458333333333,
      "grad_norm": 0.9010321497917175,
      "learning_rate": 0.0001653229932078494,
      "loss": 3.6264,
      "step": 225430
    },
    {
      "epoch": 0.4696666666666667,
      "grad_norm": 0.8977168798446655,
      "learning_rate": 0.000165313186193766,
      "loss": 3.9762,
      "step": 225440
    },
    {
      "epoch": 0.4696875,
      "grad_norm": 0.8530576825141907,
      "learning_rate": 0.00016530337911353568,
      "loss": 3.6374,
      "step": 225450
    },
    {
      "epoch": 0.46970833333333334,
      "grad_norm": 0.8972012996673584,
      "learning_rate": 0.0001652935719672009,
      "loss": 3.6157,
      "step": 225460
    },
    {
      "epoch": 0.46972916666666664,
      "grad_norm": 0.7144170999526978,
      "learning_rate": 0.00016528376475480387,
      "loss": 3.7112,
      "step": 225470
    },
    {
      "epoch": 0.46975,
      "grad_norm": 0.7592948079109192,
      "learning_rate": 0.00016527395747638706,
      "loss": 3.7028,
      "step": 225480
    },
    {
      "epoch": 0.46977083333333336,
      "grad_norm": 0.9128591418266296,
      "learning_rate": 0.0001652641501319928,
      "loss": 3.5715,
      "step": 225490
    },
    {
      "epoch": 0.46979166666666666,
      "grad_norm": 0.8189800977706909,
      "learning_rate": 0.00016525434272166345,
      "loss": 3.7834,
      "step": 225500
    },
    {
      "epoch": 0.4698125,
      "grad_norm": 1.1110864877700806,
      "learning_rate": 0.00016524453524544136,
      "loss": 3.7569,
      "step": 225510
    },
    {
      "epoch": 0.4698333333333333,
      "grad_norm": 0.818157970905304,
      "learning_rate": 0.00016523472770336894,
      "loss": 3.7972,
      "step": 225520
    },
    {
      "epoch": 0.4698541666666667,
      "grad_norm": 0.66258305311203,
      "learning_rate": 0.0001652249200954885,
      "loss": 3.6674,
      "step": 225530
    },
    {
      "epoch": 0.469875,
      "grad_norm": 1.6403461694717407,
      "learning_rate": 0.00016521511242184245,
      "loss": 3.673,
      "step": 225540
    },
    {
      "epoch": 0.46989583333333335,
      "grad_norm": 0.8751895427703857,
      "learning_rate": 0.00016520530468247313,
      "loss": 3.7974,
      "step": 225550
    },
    {
      "epoch": 0.46991666666666665,
      "grad_norm": 0.7522923350334167,
      "learning_rate": 0.0001651954968774229,
      "loss": 3.787,
      "step": 225560
    },
    {
      "epoch": 0.4699375,
      "grad_norm": 0.7383357286453247,
      "learning_rate": 0.00016518568900673414,
      "loss": 3.7966,
      "step": 225570
    },
    {
      "epoch": 0.4699583333333333,
      "grad_norm": 0.9628143310546875,
      "learning_rate": 0.00016517588107044925,
      "loss": 3.792,
      "step": 225580
    },
    {
      "epoch": 0.46997916666666667,
      "grad_norm": 0.7688388824462891,
      "learning_rate": 0.00016516607306861053,
      "loss": 3.7089,
      "step": 225590
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7982146143913269,
      "learning_rate": 0.0001651562650012604,
      "loss": 3.6692,
      "step": 225600
    },
    {
      "epoch": 0.47002083333333333,
      "grad_norm": 0.9291075468063354,
      "learning_rate": 0.00016514645686844116,
      "loss": 3.7337,
      "step": 225610
    },
    {
      "epoch": 0.4700416666666667,
      "grad_norm": 0.8634339570999146,
      "learning_rate": 0.00016513664867019525,
      "loss": 3.8375,
      "step": 225620
    },
    {
      "epoch": 0.4700625,
      "grad_norm": 0.970316469669342,
      "learning_rate": 0.00016512684040656504,
      "loss": 3.8125,
      "step": 225630
    },
    {
      "epoch": 0.47008333333333335,
      "grad_norm": 0.7843782901763916,
      "learning_rate": 0.00016511703207759278,
      "loss": 3.7571,
      "step": 225640
    },
    {
      "epoch": 0.47010416666666666,
      "grad_norm": 0.8274247646331787,
      "learning_rate": 0.00016510722368332103,
      "loss": 3.7405,
      "step": 225650
    },
    {
      "epoch": 0.470125,
      "grad_norm": 0.9801017642021179,
      "learning_rate": 0.000165097415223792,
      "loss": 3.8111,
      "step": 225660
    },
    {
      "epoch": 0.4701458333333333,
      "grad_norm": 0.8625889420509338,
      "learning_rate": 0.0001650876066990481,
      "loss": 3.6749,
      "step": 225670
    },
    {
      "epoch": 0.4701666666666667,
      "grad_norm": 0.6803331971168518,
      "learning_rate": 0.00016507779810913175,
      "loss": 3.7674,
      "step": 225680
    },
    {
      "epoch": 0.4701875,
      "grad_norm": 0.8155810832977295,
      "learning_rate": 0.00016506798945408523,
      "loss": 3.7554,
      "step": 225690
    },
    {
      "epoch": 0.47020833333333334,
      "grad_norm": 0.9601907134056091,
      "learning_rate": 0.00016505818073395102,
      "loss": 3.5622,
      "step": 225700
    },
    {
      "epoch": 0.47022916666666664,
      "grad_norm": 1.1240626573562622,
      "learning_rate": 0.0001650483719487714,
      "loss": 3.9392,
      "step": 225710
    },
    {
      "epoch": 0.47025,
      "grad_norm": 0.9275110960006714,
      "learning_rate": 0.00016503856309858873,
      "loss": 3.7252,
      "step": 225720
    },
    {
      "epoch": 0.47027083333333336,
      "grad_norm": 1.127220869064331,
      "learning_rate": 0.00016502875418344546,
      "loss": 3.7626,
      "step": 225730
    },
    {
      "epoch": 0.47029166666666666,
      "grad_norm": 0.7473388314247131,
      "learning_rate": 0.00016501894520338394,
      "loss": 3.7113,
      "step": 225740
    },
    {
      "epoch": 0.4703125,
      "grad_norm": 0.8152471780776978,
      "learning_rate": 0.00016500913615844647,
      "loss": 3.8261,
      "step": 225750
    },
    {
      "epoch": 0.4703333333333333,
      "grad_norm": 1.0937944650650024,
      "learning_rate": 0.00016499932704867553,
      "loss": 3.6794,
      "step": 225760
    },
    {
      "epoch": 0.4703541666666667,
      "grad_norm": 0.883999228477478,
      "learning_rate": 0.00016498951787411337,
      "loss": 3.7134,
      "step": 225770
    },
    {
      "epoch": 0.470375,
      "grad_norm": 0.8321181535720825,
      "learning_rate": 0.0001649797086348025,
      "loss": 3.8772,
      "step": 225780
    },
    {
      "epoch": 0.47039583333333335,
      "grad_norm": 0.8259491324424744,
      "learning_rate": 0.00016496989933078522,
      "loss": 3.7211,
      "step": 225790
    },
    {
      "epoch": 0.47041666666666665,
      "grad_norm": 2.100511074066162,
      "learning_rate": 0.00016496008996210384,
      "loss": 3.8165,
      "step": 225800
    },
    {
      "epoch": 0.4704375,
      "grad_norm": 0.9876300692558289,
      "learning_rate": 0.0001649502805288008,
      "loss": 3.6658,
      "step": 225810
    },
    {
      "epoch": 0.4704583333333333,
      "grad_norm": 1.068649172782898,
      "learning_rate": 0.0001649404710309185,
      "loss": 3.6812,
      "step": 225820
    },
    {
      "epoch": 0.47047916666666667,
      "grad_norm": 1.0427896976470947,
      "learning_rate": 0.00016493066146849926,
      "loss": 3.8841,
      "step": 225830
    },
    {
      "epoch": 0.4705,
      "grad_norm": 0.9972540736198425,
      "learning_rate": 0.00016492085184158546,
      "loss": 3.8353,
      "step": 225840
    },
    {
      "epoch": 0.47052083333333333,
      "grad_norm": 0.8213891983032227,
      "learning_rate": 0.0001649110421502195,
      "loss": 3.7345,
      "step": 225850
    },
    {
      "epoch": 0.4705416666666667,
      "grad_norm": 0.7756562232971191,
      "learning_rate": 0.00016490123239444373,
      "loss": 3.8502,
      "step": 225860
    },
    {
      "epoch": 0.4705625,
      "grad_norm": 0.7311167120933533,
      "learning_rate": 0.00016489142257430055,
      "loss": 3.7265,
      "step": 225870
    },
    {
      "epoch": 0.47058333333333335,
      "grad_norm": 0.7712534666061401,
      "learning_rate": 0.00016488161268983232,
      "loss": 3.733,
      "step": 225880
    },
    {
      "epoch": 0.47060416666666666,
      "grad_norm": 0.7671815156936646,
      "learning_rate": 0.0001648718027410814,
      "loss": 3.7447,
      "step": 225890
    },
    {
      "epoch": 0.470625,
      "grad_norm": 0.7090163826942444,
      "learning_rate": 0.0001648619927280902,
      "loss": 3.7813,
      "step": 225900
    },
    {
      "epoch": 0.4706458333333333,
      "grad_norm": 0.7213902473449707,
      "learning_rate": 0.00016485218265090102,
      "loss": 3.887,
      "step": 225910
    },
    {
      "epoch": 0.4706666666666667,
      "grad_norm": 0.9289348125457764,
      "learning_rate": 0.00016484237250955633,
      "loss": 3.7724,
      "step": 225920
    },
    {
      "epoch": 0.4706875,
      "grad_norm": 0.7630125880241394,
      "learning_rate": 0.0001648325623040985,
      "loss": 3.773,
      "step": 225930
    },
    {
      "epoch": 0.47070833333333334,
      "grad_norm": 0.9476146697998047,
      "learning_rate": 0.0001648227520345698,
      "loss": 3.7131,
      "step": 225940
    },
    {
      "epoch": 0.47072916666666664,
      "grad_norm": 0.7641808390617371,
      "learning_rate": 0.0001648129417010127,
      "loss": 3.7893,
      "step": 225950
    },
    {
      "epoch": 0.47075,
      "grad_norm": 1.1200429201126099,
      "learning_rate": 0.0001648031313034696,
      "loss": 3.8664,
      "step": 225960
    },
    {
      "epoch": 0.47077083333333336,
      "grad_norm": 0.8386549353599548,
      "learning_rate": 0.00016479332084198283,
      "loss": 3.8101,
      "step": 225970
    },
    {
      "epoch": 0.47079166666666666,
      "grad_norm": 0.7656286358833313,
      "learning_rate": 0.0001647835103165947,
      "loss": 3.7552,
      "step": 225980
    },
    {
      "epoch": 0.4708125,
      "grad_norm": 0.9352438449859619,
      "learning_rate": 0.00016477369972734774,
      "loss": 3.8812,
      "step": 225990
    },
    {
      "epoch": 0.4708333333333333,
      "grad_norm": 0.850771427154541,
      "learning_rate": 0.00016476388907428417,
      "loss": 3.8075,
      "step": 226000
    },
    {
      "epoch": 0.4708333333333333,
      "eval_loss": 4.148852348327637,
      "eval_runtime": 8.3654,
      "eval_samples_per_second": 1.195,
      "eval_steps_per_second": 0.359,
      "step": 226000
    },
    {
      "epoch": 0.4708541666666667,
      "grad_norm": 0.8392989635467529,
      "learning_rate": 0.00016475407835744646,
      "loss": 3.9955,
      "step": 226010
    },
    {
      "epoch": 0.470875,
      "grad_norm": 0.7623253464698792,
      "learning_rate": 0.000164744267576877,
      "loss": 3.7878,
      "step": 226020
    },
    {
      "epoch": 0.47089583333333335,
      "grad_norm": 0.8776353001594543,
      "learning_rate": 0.00016473445673261816,
      "loss": 3.7594,
      "step": 226030
    },
    {
      "epoch": 0.47091666666666665,
      "grad_norm": 0.9028559923171997,
      "learning_rate": 0.00016472464582471228,
      "loss": 3.8856,
      "step": 226040
    },
    {
      "epoch": 0.4709375,
      "grad_norm": 0.7348147034645081,
      "learning_rate": 0.00016471483485320173,
      "loss": 3.733,
      "step": 226050
    },
    {
      "epoch": 0.4709583333333333,
      "grad_norm": 0.9258595108985901,
      "learning_rate": 0.00016470502381812894,
      "loss": 3.7031,
      "step": 226060
    },
    {
      "epoch": 0.47097916666666667,
      "grad_norm": 0.9270889163017273,
      "learning_rate": 0.00016469521271953626,
      "loss": 3.7308,
      "step": 226070
    },
    {
      "epoch": 0.471,
      "grad_norm": 0.813610315322876,
      "learning_rate": 0.00016468540155746604,
      "loss": 3.7481,
      "step": 226080
    },
    {
      "epoch": 0.47102083333333333,
      "grad_norm": 0.671093225479126,
      "learning_rate": 0.00016467559033196076,
      "loss": 3.9735,
      "step": 226090
    },
    {
      "epoch": 0.4710416666666667,
      "grad_norm": 1.005251407623291,
      "learning_rate": 0.00016466577904306274,
      "loss": 3.7984,
      "step": 226100
    },
    {
      "epoch": 0.4710625,
      "grad_norm": 0.8697835206985474,
      "learning_rate": 0.00016465596769081432,
      "loss": 3.6637,
      "step": 226110
    },
    {
      "epoch": 0.47108333333333335,
      "grad_norm": 0.7569875121116638,
      "learning_rate": 0.0001646461562752579,
      "loss": 3.6775,
      "step": 226120
    },
    {
      "epoch": 0.47110416666666666,
      "grad_norm": 1.0275557041168213,
      "learning_rate": 0.000164636344796436,
      "loss": 3.7347,
      "step": 226130
    },
    {
      "epoch": 0.471125,
      "grad_norm": 0.8567780256271362,
      "learning_rate": 0.00016462653325439072,
      "loss": 3.8395,
      "step": 226140
    },
    {
      "epoch": 0.4711458333333333,
      "grad_norm": 0.9958568811416626,
      "learning_rate": 0.0001646167216491647,
      "loss": 3.7776,
      "step": 226150
    },
    {
      "epoch": 0.4711666666666667,
      "grad_norm": 0.7447893023490906,
      "learning_rate": 0.00016460690998080027,
      "loss": 3.6251,
      "step": 226160
    },
    {
      "epoch": 0.4711875,
      "grad_norm": 0.7754477262496948,
      "learning_rate": 0.00016459709824933973,
      "loss": 3.6849,
      "step": 226170
    },
    {
      "epoch": 0.47120833333333334,
      "grad_norm": 0.8091292977333069,
      "learning_rate": 0.0001645872864548254,
      "loss": 3.9622,
      "step": 226180
    },
    {
      "epoch": 0.47122916666666664,
      "grad_norm": 0.8410753011703491,
      "learning_rate": 0.00016457747459729992,
      "loss": 3.6004,
      "step": 226190
    },
    {
      "epoch": 0.47125,
      "grad_norm": 0.8813212513923645,
      "learning_rate": 0.00016456766267680545,
      "loss": 3.808,
      "step": 226200
    },
    {
      "epoch": 0.47127083333333336,
      "grad_norm": 0.7297114729881287,
      "learning_rate": 0.00016455785069338446,
      "loss": 3.5956,
      "step": 226210
    },
    {
      "epoch": 0.47129166666666666,
      "grad_norm": 0.9210508465766907,
      "learning_rate": 0.0001645480386470793,
      "loss": 3.7253,
      "step": 226220
    },
    {
      "epoch": 0.4713125,
      "grad_norm": 0.8107841610908508,
      "learning_rate": 0.0001645382265379324,
      "loss": 3.7886,
      "step": 226230
    },
    {
      "epoch": 0.4713333333333333,
      "grad_norm": 1.128147840499878,
      "learning_rate": 0.0001645284143659861,
      "loss": 3.8576,
      "step": 226240
    },
    {
      "epoch": 0.4713541666666667,
      "grad_norm": 0.906702995300293,
      "learning_rate": 0.00016451860213128277,
      "loss": 3.7823,
      "step": 226250
    },
    {
      "epoch": 0.471375,
      "grad_norm": 0.8221896290779114,
      "learning_rate": 0.00016450878983386485,
      "loss": 3.7689,
      "step": 226260
    },
    {
      "epoch": 0.47139583333333335,
      "grad_norm": 0.858232319355011,
      "learning_rate": 0.0001644989774737747,
      "loss": 3.918,
      "step": 226270
    },
    {
      "epoch": 0.47141666666666665,
      "grad_norm": 0.8336163759231567,
      "learning_rate": 0.0001644891650510547,
      "loss": 3.835,
      "step": 226280
    },
    {
      "epoch": 0.4714375,
      "grad_norm": 0.9002066254615784,
      "learning_rate": 0.00016447935256574728,
      "loss": 3.8222,
      "step": 226290
    },
    {
      "epoch": 0.4714583333333333,
      "grad_norm": 0.7856312394142151,
      "learning_rate": 0.00016446954001789478,
      "loss": 3.816,
      "step": 226300
    },
    {
      "epoch": 0.47147916666666667,
      "grad_norm": 0.7806979417800903,
      "learning_rate": 0.00016445972740753955,
      "loss": 3.6831,
      "step": 226310
    },
    {
      "epoch": 0.4715,
      "grad_norm": 0.7903416752815247,
      "learning_rate": 0.00016444991473472403,
      "loss": 3.6144,
      "step": 226320
    },
    {
      "epoch": 0.47152083333333333,
      "grad_norm": 0.7555422186851501,
      "learning_rate": 0.00016444010199949066,
      "loss": 3.7182,
      "step": 226330
    },
    {
      "epoch": 0.4715416666666667,
      "grad_norm": 0.8829309940338135,
      "learning_rate": 0.00016443028920188168,
      "loss": 3.7092,
      "step": 226340
    },
    {
      "epoch": 0.4715625,
      "grad_norm": 0.7289914488792419,
      "learning_rate": 0.00016442047634193958,
      "loss": 3.7941,
      "step": 226350
    },
    {
      "epoch": 0.47158333333333335,
      "grad_norm": 0.7583680152893066,
      "learning_rate": 0.0001644106634197068,
      "loss": 3.7688,
      "step": 226360
    },
    {
      "epoch": 0.47160416666666666,
      "grad_norm": 0.7993601560592651,
      "learning_rate": 0.00016440085043522562,
      "loss": 3.866,
      "step": 226370
    },
    {
      "epoch": 0.471625,
      "grad_norm": 0.786700963973999,
      "learning_rate": 0.00016439103738853845,
      "loss": 3.7113,
      "step": 226380
    },
    {
      "epoch": 0.4716458333333333,
      "grad_norm": 0.8397699594497681,
      "learning_rate": 0.0001643812242796877,
      "loss": 3.7643,
      "step": 226390
    },
    {
      "epoch": 0.4716666666666667,
      "grad_norm": 0.9132807850837708,
      "learning_rate": 0.00016437141110871574,
      "loss": 3.8058,
      "step": 226400
    },
    {
      "epoch": 0.4716875,
      "grad_norm": 0.7413688898086548,
      "learning_rate": 0.00016436159787566499,
      "loss": 3.6777,
      "step": 226410
    },
    {
      "epoch": 0.47170833333333334,
      "grad_norm": 0.8878917694091797,
      "learning_rate": 0.0001643517845805778,
      "loss": 3.6798,
      "step": 226420
    },
    {
      "epoch": 0.47172916666666664,
      "grad_norm": 0.7743085622787476,
      "learning_rate": 0.00016434197122349665,
      "loss": 3.7179,
      "step": 226430
    },
    {
      "epoch": 0.47175,
      "grad_norm": 0.8695520758628845,
      "learning_rate": 0.00016433215780446378,
      "loss": 3.7408,
      "step": 226440
    },
    {
      "epoch": 0.4717708333333333,
      "grad_norm": 0.7941675782203674,
      "learning_rate": 0.0001643223443235217,
      "loss": 3.9229,
      "step": 226450
    },
    {
      "epoch": 0.47179166666666666,
      "grad_norm": 0.7743933796882629,
      "learning_rate": 0.00016431253078071274,
      "loss": 3.7735,
      "step": 226460
    },
    {
      "epoch": 0.4718125,
      "grad_norm": 0.8557159900665283,
      "learning_rate": 0.0001643027171760794,
      "loss": 3.77,
      "step": 226470
    },
    {
      "epoch": 0.4718333333333333,
      "grad_norm": 0.9053312540054321,
      "learning_rate": 0.00016429290350966383,
      "loss": 3.6873,
      "step": 226480
    },
    {
      "epoch": 0.4718541666666667,
      "grad_norm": 0.7381752729415894,
      "learning_rate": 0.00016428308978150866,
      "loss": 3.6447,
      "step": 226490
    },
    {
      "epoch": 0.471875,
      "grad_norm": 1.0196051597595215,
      "learning_rate": 0.00016427327599165622,
      "loss": 3.8952,
      "step": 226500
    },
    {
      "epoch": 0.47189583333333335,
      "grad_norm": 0.954865038394928,
      "learning_rate": 0.00016426346214014882,
      "loss": 3.7399,
      "step": 226510
    },
    {
      "epoch": 0.47191666666666665,
      "grad_norm": 0.8579328060150146,
      "learning_rate": 0.000164253648227029,
      "loss": 3.6605,
      "step": 226520
    },
    {
      "epoch": 0.4719375,
      "grad_norm": 0.7338458895683289,
      "learning_rate": 0.00016424383425233898,
      "loss": 3.7305,
      "step": 226530
    },
    {
      "epoch": 0.4719583333333333,
      "grad_norm": 0.8664455413818359,
      "learning_rate": 0.00016423402021612126,
      "loss": 3.7968,
      "step": 226540
    },
    {
      "epoch": 0.47197916666666667,
      "grad_norm": 0.8946070075035095,
      "learning_rate": 0.00016422420611841818,
      "loss": 3.5693,
      "step": 226550
    },
    {
      "epoch": 0.472,
      "grad_norm": 0.7256364822387695,
      "learning_rate": 0.00016421439195927218,
      "loss": 3.4817,
      "step": 226560
    },
    {
      "epoch": 0.47202083333333333,
      "grad_norm": 1.042657494544983,
      "learning_rate": 0.00016420457773872564,
      "loss": 3.783,
      "step": 226570
    },
    {
      "epoch": 0.4720416666666667,
      "grad_norm": 1.0469563007354736,
      "learning_rate": 0.00016419476345682095,
      "loss": 3.7564,
      "step": 226580
    },
    {
      "epoch": 0.4720625,
      "grad_norm": 0.9739368557929993,
      "learning_rate": 0.00016418494911360048,
      "loss": 3.7396,
      "step": 226590
    },
    {
      "epoch": 0.47208333333333335,
      "grad_norm": 0.9682168364524841,
      "learning_rate": 0.00016417513470910666,
      "loss": 3.7182,
      "step": 226600
    },
    {
      "epoch": 0.47210416666666666,
      "grad_norm": 0.9078302383422852,
      "learning_rate": 0.00016416532024338186,
      "loss": 3.9199,
      "step": 226610
    },
    {
      "epoch": 0.472125,
      "grad_norm": 0.8195754885673523,
      "learning_rate": 0.0001641555057164685,
      "loss": 3.6696,
      "step": 226620
    },
    {
      "epoch": 0.4721458333333333,
      "grad_norm": 0.7974441051483154,
      "learning_rate": 0.00016414569112840893,
      "loss": 3.7683,
      "step": 226630
    },
    {
      "epoch": 0.4721666666666667,
      "grad_norm": 0.7289552688598633,
      "learning_rate": 0.00016413587647924559,
      "loss": 3.7026,
      "step": 226640
    },
    {
      "epoch": 0.4721875,
      "grad_norm": 0.7523401975631714,
      "learning_rate": 0.00016412606176902087,
      "loss": 3.7364,
      "step": 226650
    },
    {
      "epoch": 0.47220833333333334,
      "grad_norm": 0.7617624402046204,
      "learning_rate": 0.00016411624699777717,
      "loss": 3.6849,
      "step": 226660
    },
    {
      "epoch": 0.47222916666666664,
      "grad_norm": 0.8834340572357178,
      "learning_rate": 0.00016410643216555686,
      "loss": 3.8563,
      "step": 226670
    },
    {
      "epoch": 0.47225,
      "grad_norm": 0.7925580143928528,
      "learning_rate": 0.00016409661727240227,
      "loss": 3.8737,
      "step": 226680
    },
    {
      "epoch": 0.4722708333333333,
      "grad_norm": 0.9355202913284302,
      "learning_rate": 0.00016408680231835596,
      "loss": 3.6871,
      "step": 226690
    },
    {
      "epoch": 0.47229166666666667,
      "grad_norm": 0.6861701607704163,
      "learning_rate": 0.00016407698730346024,
      "loss": 3.709,
      "step": 226700
    },
    {
      "epoch": 0.4723125,
      "grad_norm": 0.7431336045265198,
      "learning_rate": 0.00016406717222775745,
      "loss": 3.8567,
      "step": 226710
    },
    {
      "epoch": 0.4723333333333333,
      "grad_norm": 1.3009042739868164,
      "learning_rate": 0.00016405735709129008,
      "loss": 3.7883,
      "step": 226720
    },
    {
      "epoch": 0.4723541666666667,
      "grad_norm": 0.7734141945838928,
      "learning_rate": 0.00016404754189410048,
      "loss": 3.7016,
      "step": 226730
    },
    {
      "epoch": 0.472375,
      "grad_norm": 0.7488307356834412,
      "learning_rate": 0.00016403772663623107,
      "loss": 3.8482,
      "step": 226740
    },
    {
      "epoch": 0.47239583333333335,
      "grad_norm": 0.8183852434158325,
      "learning_rate": 0.00016402791131772424,
      "loss": 3.7439,
      "step": 226750
    },
    {
      "epoch": 0.47241666666666665,
      "grad_norm": 0.7257822155952454,
      "learning_rate": 0.00016401809593862238,
      "loss": 3.8757,
      "step": 226760
    },
    {
      "epoch": 0.4724375,
      "grad_norm": 0.8071761131286621,
      "learning_rate": 0.00016400828049896788,
      "loss": 3.8869,
      "step": 226770
    },
    {
      "epoch": 0.4724583333333333,
      "grad_norm": 0.8906059861183167,
      "learning_rate": 0.00016399846499880316,
      "loss": 3.7512,
      "step": 226780
    },
    {
      "epoch": 0.4724791666666667,
      "grad_norm": 0.9111548662185669,
      "learning_rate": 0.00016398864943817064,
      "loss": 3.8127,
      "step": 226790
    },
    {
      "epoch": 0.4725,
      "grad_norm": 0.9463064074516296,
      "learning_rate": 0.0001639788338171127,
      "loss": 3.7527,
      "step": 226800
    },
    {
      "epoch": 0.47252083333333333,
      "grad_norm": 0.8409653306007385,
      "learning_rate": 0.00016396901813567168,
      "loss": 3.658,
      "step": 226810
    },
    {
      "epoch": 0.4725416666666667,
      "grad_norm": 0.9257847666740417,
      "learning_rate": 0.00016395920239389,
      "loss": 3.8425,
      "step": 226820
    },
    {
      "epoch": 0.4725625,
      "grad_norm": 0.7816317677497864,
      "learning_rate": 0.0001639493865918102,
      "loss": 3.7967,
      "step": 226830
    },
    {
      "epoch": 0.47258333333333336,
      "grad_norm": 0.9597019553184509,
      "learning_rate": 0.0001639395707294745,
      "loss": 3.6641,
      "step": 226840
    },
    {
      "epoch": 0.47260416666666666,
      "grad_norm": 0.9290925860404968,
      "learning_rate": 0.00016392975480692537,
      "loss": 3.6373,
      "step": 226850
    },
    {
      "epoch": 0.472625,
      "grad_norm": 1.1017229557037354,
      "learning_rate": 0.00016391993882420525,
      "loss": 3.7364,
      "step": 226860
    },
    {
      "epoch": 0.4726458333333333,
      "grad_norm": 0.8387703895568848,
      "learning_rate": 0.0001639101227813565,
      "loss": 3.8409,
      "step": 226870
    },
    {
      "epoch": 0.4726666666666667,
      "grad_norm": 0.8601564764976501,
      "learning_rate": 0.00016390030667842148,
      "loss": 3.7652,
      "step": 226880
    },
    {
      "epoch": 0.4726875,
      "grad_norm": 0.8212698698043823,
      "learning_rate": 0.0001638904905154427,
      "loss": 3.7442,
      "step": 226890
    },
    {
      "epoch": 0.47270833333333334,
      "grad_norm": 0.8179763555526733,
      "learning_rate": 0.00016388067429246245,
      "loss": 3.8344,
      "step": 226900
    },
    {
      "epoch": 0.47272916666666664,
      "grad_norm": 0.8377020359039307,
      "learning_rate": 0.0001638708580095232,
      "loss": 3.9181,
      "step": 226910
    },
    {
      "epoch": 0.47275,
      "grad_norm": 0.8885354995727539,
      "learning_rate": 0.00016386104166666736,
      "loss": 3.676,
      "step": 226920
    },
    {
      "epoch": 0.4727708333333333,
      "grad_norm": 0.8667125701904297,
      "learning_rate": 0.00016385122526393726,
      "loss": 3.7522,
      "step": 226930
    },
    {
      "epoch": 0.47279166666666667,
      "grad_norm": 0.8643789291381836,
      "learning_rate": 0.00016384140880137534,
      "loss": 3.8016,
      "step": 226940
    },
    {
      "epoch": 0.4728125,
      "grad_norm": 0.7453768253326416,
      "learning_rate": 0.00016383159227902405,
      "loss": 3.9635,
      "step": 226950
    },
    {
      "epoch": 0.4728333333333333,
      "grad_norm": 0.7197169661521912,
      "learning_rate": 0.00016382177569692575,
      "loss": 3.8694,
      "step": 226960
    },
    {
      "epoch": 0.4728541666666667,
      "grad_norm": 0.8067252039909363,
      "learning_rate": 0.0001638119590551229,
      "loss": 3.894,
      "step": 226970
    },
    {
      "epoch": 0.472875,
      "grad_norm": 0.6897529363632202,
      "learning_rate": 0.00016380214235365773,
      "loss": 3.8238,
      "step": 226980
    },
    {
      "epoch": 0.47289583333333335,
      "grad_norm": 0.8564261794090271,
      "learning_rate": 0.00016379232559257285,
      "loss": 3.8585,
      "step": 226990
    },
    {
      "epoch": 0.47291666666666665,
      "grad_norm": 0.8269258737564087,
      "learning_rate": 0.00016378250877191063,
      "loss": 3.8635,
      "step": 227000
    },
    {
      "epoch": 0.47291666666666665,
      "eval_loss": 4.142796516418457,
      "eval_runtime": 8.5918,
      "eval_samples_per_second": 1.164,
      "eval_steps_per_second": 0.349,
      "step": 227000
    },
    {
      "epoch": 0.4729375,
      "grad_norm": 0.761660635471344,
      "learning_rate": 0.00016377269189171335,
      "loss": 3.596,
      "step": 227010
    },
    {
      "epoch": 0.4729583333333333,
      "grad_norm": 0.8378297090530396,
      "learning_rate": 0.00016376287495202348,
      "loss": 4.0284,
      "step": 227020
    },
    {
      "epoch": 0.4729791666666667,
      "grad_norm": 1.2264515161514282,
      "learning_rate": 0.0001637530579528835,
      "loss": 3.7451,
      "step": 227030
    },
    {
      "epoch": 0.473,
      "grad_norm": 0.7333104610443115,
      "learning_rate": 0.00016374324089433572,
      "loss": 3.7115,
      "step": 227040
    },
    {
      "epoch": 0.47302083333333333,
      "grad_norm": 0.7491182088851929,
      "learning_rate": 0.00016373342377642254,
      "loss": 3.7746,
      "step": 227050
    },
    {
      "epoch": 0.4730416666666667,
      "grad_norm": 0.8470300436019897,
      "learning_rate": 0.0001637236065991865,
      "loss": 3.6983,
      "step": 227060
    },
    {
      "epoch": 0.4730625,
      "grad_norm": 0.7615286111831665,
      "learning_rate": 0.00016371378936266986,
      "loss": 3.7544,
      "step": 227070
    },
    {
      "epoch": 0.47308333333333336,
      "grad_norm": 0.7230088114738464,
      "learning_rate": 0.00016370397206691507,
      "loss": 3.7831,
      "step": 227080
    },
    {
      "epoch": 0.47310416666666666,
      "grad_norm": 0.8773234486579895,
      "learning_rate": 0.00016369415471196455,
      "loss": 3.737,
      "step": 227090
    },
    {
      "epoch": 0.473125,
      "grad_norm": 0.7876203060150146,
      "learning_rate": 0.00016368433729786072,
      "loss": 3.8757,
      "step": 227100
    },
    {
      "epoch": 0.4731458333333333,
      "grad_norm": 0.769987165927887,
      "learning_rate": 0.00016367451982464594,
      "loss": 3.7161,
      "step": 227110
    },
    {
      "epoch": 0.4731666666666667,
      "grad_norm": 0.7911025881767273,
      "learning_rate": 0.00016366470229236266,
      "loss": 3.7005,
      "step": 227120
    },
    {
      "epoch": 0.4731875,
      "grad_norm": 0.9301880598068237,
      "learning_rate": 0.00016365488470105328,
      "loss": 3.9957,
      "step": 227130
    },
    {
      "epoch": 0.47320833333333334,
      "grad_norm": 0.9231680035591125,
      "learning_rate": 0.0001636450670507602,
      "loss": 3.8336,
      "step": 227140
    },
    {
      "epoch": 0.47322916666666665,
      "grad_norm": 0.9368084073066711,
      "learning_rate": 0.00016363524934152583,
      "loss": 3.7703,
      "step": 227150
    },
    {
      "epoch": 0.47325,
      "grad_norm": 0.8308490514755249,
      "learning_rate": 0.00016362543157339256,
      "loss": 3.6457,
      "step": 227160
    },
    {
      "epoch": 0.4732708333333333,
      "grad_norm": 0.8809034824371338,
      "learning_rate": 0.0001636156137464029,
      "loss": 3.6957,
      "step": 227170
    },
    {
      "epoch": 0.47329166666666667,
      "grad_norm": 0.8602746725082397,
      "learning_rate": 0.00016360579586059907,
      "loss": 3.7981,
      "step": 227180
    },
    {
      "epoch": 0.4733125,
      "grad_norm": 0.9987384676933289,
      "learning_rate": 0.00016359597791602365,
      "loss": 3.5688,
      "step": 227190
    },
    {
      "epoch": 0.47333333333333333,
      "grad_norm": 0.7536695003509521,
      "learning_rate": 0.000163586159912719,
      "loss": 3.7361,
      "step": 227200
    },
    {
      "epoch": 0.4733541666666667,
      "grad_norm": 0.8220461010932922,
      "learning_rate": 0.00016357634185072746,
      "loss": 3.7033,
      "step": 227210
    },
    {
      "epoch": 0.473375,
      "grad_norm": 0.8272463083267212,
      "learning_rate": 0.00016356652373009152,
      "loss": 3.727,
      "step": 227220
    },
    {
      "epoch": 0.47339583333333335,
      "grad_norm": 0.8154260516166687,
      "learning_rate": 0.0001635567055508536,
      "loss": 3.8701,
      "step": 227230
    },
    {
      "epoch": 0.47341666666666665,
      "grad_norm": 0.7421369552612305,
      "learning_rate": 0.00016354688731305607,
      "loss": 3.6728,
      "step": 227240
    },
    {
      "epoch": 0.4734375,
      "grad_norm": 0.8149720430374146,
      "learning_rate": 0.00016353706901674133,
      "loss": 3.9101,
      "step": 227250
    },
    {
      "epoch": 0.4734583333333333,
      "grad_norm": 0.7927610874176025,
      "learning_rate": 0.00016352725066195182,
      "loss": 3.6851,
      "step": 227260
    },
    {
      "epoch": 0.4734791666666667,
      "grad_norm": 1.2020131349563599,
      "learning_rate": 0.0001635174322487299,
      "loss": 3.9349,
      "step": 227270
    },
    {
      "epoch": 0.4735,
      "grad_norm": 0.888550877571106,
      "learning_rate": 0.00016350761377711807,
      "loss": 3.6573,
      "step": 227280
    },
    {
      "epoch": 0.47352083333333334,
      "grad_norm": 0.8059419989585876,
      "learning_rate": 0.00016349779524715868,
      "loss": 3.6832,
      "step": 227290
    },
    {
      "epoch": 0.4735416666666667,
      "grad_norm": 0.7590266466140747,
      "learning_rate": 0.00016348797665889417,
      "loss": 3.8677,
      "step": 227300
    },
    {
      "epoch": 0.4735625,
      "grad_norm": 0.771146297454834,
      "learning_rate": 0.0001634781580123669,
      "loss": 3.9154,
      "step": 227310
    },
    {
      "epoch": 0.47358333333333336,
      "grad_norm": 0.8782133460044861,
      "learning_rate": 0.00016346833930761936,
      "loss": 3.8035,
      "step": 227320
    },
    {
      "epoch": 0.47360416666666666,
      "grad_norm": 0.9415056109428406,
      "learning_rate": 0.00016345852054469394,
      "loss": 4.0253,
      "step": 227330
    },
    {
      "epoch": 0.473625,
      "grad_norm": 0.8358776569366455,
      "learning_rate": 0.000163448701723633,
      "loss": 3.7367,
      "step": 227340
    },
    {
      "epoch": 0.4736458333333333,
      "grad_norm": 0.7987793684005737,
      "learning_rate": 0.00016343888284447902,
      "loss": 3.801,
      "step": 227350
    },
    {
      "epoch": 0.4736666666666667,
      "grad_norm": 1.0317327976226807,
      "learning_rate": 0.00016342906390727437,
      "loss": 3.9832,
      "step": 227360
    },
    {
      "epoch": 0.4736875,
      "grad_norm": 0.7927701473236084,
      "learning_rate": 0.00016341924491206149,
      "loss": 3.8412,
      "step": 227370
    },
    {
      "epoch": 0.47370833333333334,
      "grad_norm": 0.825200617313385,
      "learning_rate": 0.00016340942585888276,
      "loss": 3.7801,
      "step": 227380
    },
    {
      "epoch": 0.47372916666666665,
      "grad_norm": 0.9196262955665588,
      "learning_rate": 0.00016339960674778065,
      "loss": 3.7982,
      "step": 227390
    },
    {
      "epoch": 0.47375,
      "grad_norm": 0.8892752528190613,
      "learning_rate": 0.00016338978757879754,
      "loss": 3.7747,
      "step": 227400
    },
    {
      "epoch": 0.4737708333333333,
      "grad_norm": 0.7764261364936829,
      "learning_rate": 0.00016337996835197582,
      "loss": 3.75,
      "step": 227410
    },
    {
      "epoch": 0.47379166666666667,
      "grad_norm": 0.7660861611366272,
      "learning_rate": 0.00016337014906735796,
      "loss": 3.8589,
      "step": 227420
    },
    {
      "epoch": 0.4738125,
      "grad_norm": 0.8235524296760559,
      "learning_rate": 0.00016336032972498634,
      "loss": 3.8292,
      "step": 227430
    },
    {
      "epoch": 0.47383333333333333,
      "grad_norm": 0.7637166976928711,
      "learning_rate": 0.0001633505103249034,
      "loss": 3.712,
      "step": 227440
    },
    {
      "epoch": 0.4738541666666667,
      "grad_norm": 0.8065471053123474,
      "learning_rate": 0.0001633406908671515,
      "loss": 3.6576,
      "step": 227450
    },
    {
      "epoch": 0.473875,
      "grad_norm": 0.7661262154579163,
      "learning_rate": 0.00016333087135177312,
      "loss": 3.6737,
      "step": 227460
    },
    {
      "epoch": 0.47389583333333335,
      "grad_norm": 0.7833986282348633,
      "learning_rate": 0.00016332105177881064,
      "loss": 3.6005,
      "step": 227470
    },
    {
      "epoch": 0.47391666666666665,
      "grad_norm": 0.7500713467597961,
      "learning_rate": 0.00016331123214830651,
      "loss": 3.4844,
      "step": 227480
    },
    {
      "epoch": 0.4739375,
      "grad_norm": 0.8255361914634705,
      "learning_rate": 0.0001633014124603031,
      "loss": 3.7798,
      "step": 227490
    },
    {
      "epoch": 0.4739583333333333,
      "grad_norm": 0.9472163319587708,
      "learning_rate": 0.00016329159271484287,
      "loss": 3.6964,
      "step": 227500
    },
    {
      "epoch": 0.4739791666666667,
      "grad_norm": 0.8229089379310608,
      "learning_rate": 0.0001632817729119682,
      "loss": 3.8527,
      "step": 227510
    },
    {
      "epoch": 0.474,
      "grad_norm": 0.8591821789741516,
      "learning_rate": 0.00016327195305172154,
      "loss": 3.8027,
      "step": 227520
    },
    {
      "epoch": 0.47402083333333334,
      "grad_norm": 0.7603195309638977,
      "learning_rate": 0.00016326213313414532,
      "loss": 3.8303,
      "step": 227530
    },
    {
      "epoch": 0.47404166666666664,
      "grad_norm": 0.8146430253982544,
      "learning_rate": 0.00016325231315928194,
      "loss": 3.7691,
      "step": 227540
    },
    {
      "epoch": 0.4740625,
      "grad_norm": 0.7859088182449341,
      "learning_rate": 0.00016324249312717375,
      "loss": 3.8232,
      "step": 227550
    },
    {
      "epoch": 0.47408333333333336,
      "grad_norm": 0.8986679911613464,
      "learning_rate": 0.00016323267303786331,
      "loss": 3.6519,
      "step": 227560
    },
    {
      "epoch": 0.47410416666666666,
      "grad_norm": 0.7392051219940186,
      "learning_rate": 0.00016322285289139293,
      "loss": 3.6459,
      "step": 227570
    },
    {
      "epoch": 0.474125,
      "grad_norm": 0.766987144947052,
      "learning_rate": 0.00016321303268780502,
      "loss": 3.799,
      "step": 227580
    },
    {
      "epoch": 0.4741458333333333,
      "grad_norm": 0.8531661033630371,
      "learning_rate": 0.0001632032124271421,
      "loss": 3.931,
      "step": 227590
    },
    {
      "epoch": 0.4741666666666667,
      "grad_norm": 0.7248126268386841,
      "learning_rate": 0.00016319339210944646,
      "loss": 3.7928,
      "step": 227600
    },
    {
      "epoch": 0.4741875,
      "grad_norm": 0.8522660136222839,
      "learning_rate": 0.00016318357173476065,
      "loss": 3.7509,
      "step": 227610
    },
    {
      "epoch": 0.47420833333333334,
      "grad_norm": 0.735779345035553,
      "learning_rate": 0.000163173751303127,
      "loss": 3.6122,
      "step": 227620
    },
    {
      "epoch": 0.47422916666666665,
      "grad_norm": 0.806473970413208,
      "learning_rate": 0.00016316393081458797,
      "loss": 3.4936,
      "step": 227630
    },
    {
      "epoch": 0.47425,
      "grad_norm": 0.8034382462501526,
      "learning_rate": 0.00016315411026918594,
      "loss": 3.8921,
      "step": 227640
    },
    {
      "epoch": 0.4742708333333333,
      "grad_norm": 0.900280773639679,
      "learning_rate": 0.00016314428966696337,
      "loss": 3.6905,
      "step": 227650
    },
    {
      "epoch": 0.47429166666666667,
      "grad_norm": 0.9954524636268616,
      "learning_rate": 0.0001631344690079627,
      "loss": 3.9203,
      "step": 227660
    },
    {
      "epoch": 0.4743125,
      "grad_norm": 0.8904805779457092,
      "learning_rate": 0.0001631246482922263,
      "loss": 3.6566,
      "step": 227670
    },
    {
      "epoch": 0.47433333333333333,
      "grad_norm": 1.0014939308166504,
      "learning_rate": 0.00016311482751979662,
      "loss": 3.94,
      "step": 227680
    },
    {
      "epoch": 0.4743541666666667,
      "grad_norm": 0.9665305614471436,
      "learning_rate": 0.0001631050066907161,
      "loss": 3.7407,
      "step": 227690
    },
    {
      "epoch": 0.474375,
      "grad_norm": 0.7354772686958313,
      "learning_rate": 0.00016309518580502714,
      "loss": 3.6057,
      "step": 227700
    },
    {
      "epoch": 0.47439583333333335,
      "grad_norm": 0.8283520340919495,
      "learning_rate": 0.00016308536486277212,
      "loss": 3.8077,
      "step": 227710
    },
    {
      "epoch": 0.47441666666666665,
      "grad_norm": 0.768034815788269,
      "learning_rate": 0.00016307554386399352,
      "loss": 3.8861,
      "step": 227720
    },
    {
      "epoch": 0.4744375,
      "grad_norm": 0.8699434399604797,
      "learning_rate": 0.0001630657228087338,
      "loss": 3.8206,
      "step": 227730
    },
    {
      "epoch": 0.4744583333333333,
      "grad_norm": 0.9987080693244934,
      "learning_rate": 0.00016305590169703524,
      "loss": 3.5644,
      "step": 227740
    },
    {
      "epoch": 0.4744791666666667,
      "grad_norm": 0.7712528109550476,
      "learning_rate": 0.00016304608052894037,
      "loss": 3.6487,
      "step": 227750
    },
    {
      "epoch": 0.4745,
      "grad_norm": 0.7696032524108887,
      "learning_rate": 0.00016303625930449165,
      "loss": 3.8903,
      "step": 227760
    },
    {
      "epoch": 0.47452083333333334,
      "grad_norm": 0.8821707367897034,
      "learning_rate": 0.00016302643802373142,
      "loss": 3.7238,
      "step": 227770
    },
    {
      "epoch": 0.47454166666666664,
      "grad_norm": 0.8345845937728882,
      "learning_rate": 0.00016301661668670207,
      "loss": 3.7711,
      "step": 227780
    },
    {
      "epoch": 0.4745625,
      "grad_norm": 0.8561860918998718,
      "learning_rate": 0.0001630067952934462,
      "loss": 3.7193,
      "step": 227790
    },
    {
      "epoch": 0.47458333333333336,
      "grad_norm": 0.8571158051490784,
      "learning_rate": 0.00016299697384400606,
      "loss": 3.761,
      "step": 227800
    },
    {
      "epoch": 0.47460416666666666,
      "grad_norm": 0.950771152973175,
      "learning_rate": 0.00016298715233842415,
      "loss": 3.5039,
      "step": 227810
    },
    {
      "epoch": 0.474625,
      "grad_norm": 1.0040191411972046,
      "learning_rate": 0.00016297733077674288,
      "loss": 3.8703,
      "step": 227820
    },
    {
      "epoch": 0.4746458333333333,
      "grad_norm": 0.7227426767349243,
      "learning_rate": 0.00016296750915900467,
      "loss": 3.8975,
      "step": 227830
    },
    {
      "epoch": 0.4746666666666667,
      "grad_norm": 0.8414962291717529,
      "learning_rate": 0.00016295768748525197,
      "loss": 3.7769,
      "step": 227840
    },
    {
      "epoch": 0.4746875,
      "grad_norm": 0.823146641254425,
      "learning_rate": 0.00016294786575552717,
      "loss": 3.6887,
      "step": 227850
    },
    {
      "epoch": 0.47470833333333334,
      "grad_norm": 0.8215775489807129,
      "learning_rate": 0.00016293804396987272,
      "loss": 3.7495,
      "step": 227860
    },
    {
      "epoch": 0.47472916666666665,
      "grad_norm": 0.82856285572052,
      "learning_rate": 0.00016292822212833106,
      "loss": 3.8793,
      "step": 227870
    },
    {
      "epoch": 0.47475,
      "grad_norm": 0.8049535155296326,
      "learning_rate": 0.00016291840023094457,
      "loss": 3.7855,
      "step": 227880
    },
    {
      "epoch": 0.4747708333333333,
      "grad_norm": 0.7628368735313416,
      "learning_rate": 0.0001629085782777557,
      "loss": 3.6912,
      "step": 227890
    },
    {
      "epoch": 0.47479166666666667,
      "grad_norm": 0.7663231492042542,
      "learning_rate": 0.00016289875626880694,
      "loss": 3.9367,
      "step": 227900
    },
    {
      "epoch": 0.4748125,
      "grad_norm": 0.7834097743034363,
      "learning_rate": 0.0001628889342041406,
      "loss": 3.8573,
      "step": 227910
    },
    {
      "epoch": 0.47483333333333333,
      "grad_norm": 0.8143627643585205,
      "learning_rate": 0.00016287911208379916,
      "loss": 3.8232,
      "step": 227920
    },
    {
      "epoch": 0.4748541666666667,
      "grad_norm": 0.9738169312477112,
      "learning_rate": 0.00016286928990782515,
      "loss": 3.9208,
      "step": 227930
    },
    {
      "epoch": 0.474875,
      "grad_norm": 0.7816861271858215,
      "learning_rate": 0.00016285946767626082,
      "loss": 3.896,
      "step": 227940
    },
    {
      "epoch": 0.47489583333333335,
      "grad_norm": 1.003248691558838,
      "learning_rate": 0.00016284964538914866,
      "loss": 3.6108,
      "step": 227950
    },
    {
      "epoch": 0.47491666666666665,
      "grad_norm": 1.0429067611694336,
      "learning_rate": 0.00016283982304653115,
      "loss": 3.9945,
      "step": 227960
    },
    {
      "epoch": 0.4749375,
      "grad_norm": 0.8397911787033081,
      "learning_rate": 0.0001628300006484507,
      "loss": 3.6384,
      "step": 227970
    },
    {
      "epoch": 0.4749583333333333,
      "grad_norm": 0.9337669014930725,
      "learning_rate": 0.0001628201781949497,
      "loss": 3.7376,
      "step": 227980
    },
    {
      "epoch": 0.4749791666666667,
      "grad_norm": 0.9492710828781128,
      "learning_rate": 0.00016281035568607062,
      "loss": 3.7624,
      "step": 227990
    },
    {
      "epoch": 0.475,
      "grad_norm": 0.873110294342041,
      "learning_rate": 0.00016280053312185588,
      "loss": 3.7968,
      "step": 228000
    },
    {
      "epoch": 0.475,
      "eval_loss": 4.127738952636719,
      "eval_runtime": 8.021,
      "eval_samples_per_second": 1.247,
      "eval_steps_per_second": 0.374,
      "step": 228000
    },
    {
      "epoch": 0.47502083333333334,
      "grad_norm": 0.8834174275398254,
      "learning_rate": 0.00016279071050234785,
      "loss": 3.5336,
      "step": 228010
    },
    {
      "epoch": 0.47504166666666664,
      "grad_norm": 0.7786921262741089,
      "learning_rate": 0.0001627808878275891,
      "loss": 3.7946,
      "step": 228020
    },
    {
      "epoch": 0.4750625,
      "grad_norm": 0.7235152125358582,
      "learning_rate": 0.0001627710650976219,
      "loss": 3.8107,
      "step": 228030
    },
    {
      "epoch": 0.47508333333333336,
      "grad_norm": 0.8739823698997498,
      "learning_rate": 0.00016276124231248882,
      "loss": 3.808,
      "step": 228040
    },
    {
      "epoch": 0.47510416666666666,
      "grad_norm": 0.7277241945266724,
      "learning_rate": 0.00016275141947223216,
      "loss": 3.7962,
      "step": 228050
    },
    {
      "epoch": 0.475125,
      "grad_norm": 0.8840017914772034,
      "learning_rate": 0.00016274159657689443,
      "loss": 3.9772,
      "step": 228060
    },
    {
      "epoch": 0.4751458333333333,
      "grad_norm": 0.80140221118927,
      "learning_rate": 0.0001627317736265181,
      "loss": 3.8639,
      "step": 228070
    },
    {
      "epoch": 0.4751666666666667,
      "grad_norm": 0.8941497206687927,
      "learning_rate": 0.0001627219506211455,
      "loss": 3.7295,
      "step": 228080
    },
    {
      "epoch": 0.4751875,
      "grad_norm": 0.9040611982345581,
      "learning_rate": 0.0001627121275608191,
      "loss": 3.649,
      "step": 228090
    },
    {
      "epoch": 0.47520833333333334,
      "grad_norm": 0.8316664099693298,
      "learning_rate": 0.00016270230444558138,
      "loss": 3.7996,
      "step": 228100
    },
    {
      "epoch": 0.47522916666666665,
      "grad_norm": 0.7508277893066406,
      "learning_rate": 0.00016269248127547475,
      "loss": 3.8545,
      "step": 228110
    },
    {
      "epoch": 0.47525,
      "grad_norm": 0.7950739860534668,
      "learning_rate": 0.00016268265805054153,
      "loss": 3.7818,
      "step": 228120
    },
    {
      "epoch": 0.4752708333333333,
      "grad_norm": 0.723667562007904,
      "learning_rate": 0.00016267283477082434,
      "loss": 3.9147,
      "step": 228130
    },
    {
      "epoch": 0.47529166666666667,
      "grad_norm": 0.7942192554473877,
      "learning_rate": 0.00016266301143636546,
      "loss": 3.7749,
      "step": 228140
    },
    {
      "epoch": 0.4753125,
      "grad_norm": 0.801341712474823,
      "learning_rate": 0.0001626531880472074,
      "loss": 3.8832,
      "step": 228150
    },
    {
      "epoch": 0.47533333333333333,
      "grad_norm": 0.8305797576904297,
      "learning_rate": 0.00016264336460339258,
      "loss": 3.8319,
      "step": 228160
    },
    {
      "epoch": 0.4753541666666667,
      "grad_norm": 0.9972256422042847,
      "learning_rate": 0.00016263354110496346,
      "loss": 3.5754,
      "step": 228170
    },
    {
      "epoch": 0.475375,
      "grad_norm": 0.6913699507713318,
      "learning_rate": 0.0001626237175519624,
      "loss": 3.9436,
      "step": 228180
    },
    {
      "epoch": 0.47539583333333335,
      "grad_norm": 0.7635405659675598,
      "learning_rate": 0.0001626138939444319,
      "loss": 3.6433,
      "step": 228190
    },
    {
      "epoch": 0.47541666666666665,
      "grad_norm": 0.9050591588020325,
      "learning_rate": 0.00016260407028241433,
      "loss": 3.8324,
      "step": 228200
    },
    {
      "epoch": 0.4754375,
      "grad_norm": 0.8827922344207764,
      "learning_rate": 0.0001625942465659522,
      "loss": 3.7896,
      "step": 228210
    },
    {
      "epoch": 0.4754583333333333,
      "grad_norm": 0.7541621923446655,
      "learning_rate": 0.00016258442279508794,
      "loss": 3.94,
      "step": 228220
    },
    {
      "epoch": 0.4754791666666667,
      "grad_norm": 0.7306566834449768,
      "learning_rate": 0.0001625745989698639,
      "loss": 3.6587,
      "step": 228230
    },
    {
      "epoch": 0.4755,
      "grad_norm": 0.795382022857666,
      "learning_rate": 0.00016256477509032262,
      "loss": 3.7774,
      "step": 228240
    },
    {
      "epoch": 0.47552083333333334,
      "grad_norm": 0.7677189111709595,
      "learning_rate": 0.00016255495115650645,
      "loss": 4.033,
      "step": 228250
    },
    {
      "epoch": 0.47554166666666664,
      "grad_norm": 0.8406087160110474,
      "learning_rate": 0.00016254512716845786,
      "loss": 3.7944,
      "step": 228260
    },
    {
      "epoch": 0.4755625,
      "grad_norm": 0.8020372986793518,
      "learning_rate": 0.00016253530312621933,
      "loss": 3.9667,
      "step": 228270
    },
    {
      "epoch": 0.47558333333333336,
      "grad_norm": 0.8360982537269592,
      "learning_rate": 0.00016252547902983317,
      "loss": 3.871,
      "step": 228280
    },
    {
      "epoch": 0.47560416666666666,
      "grad_norm": 0.7884853482246399,
      "learning_rate": 0.00016251565487934198,
      "loss": 3.8799,
      "step": 228290
    },
    {
      "epoch": 0.475625,
      "grad_norm": 0.7900139689445496,
      "learning_rate": 0.00016250583067478806,
      "loss": 3.683,
      "step": 228300
    },
    {
      "epoch": 0.4756458333333333,
      "grad_norm": 0.7006628513336182,
      "learning_rate": 0.00016249600641621395,
      "loss": 3.5529,
      "step": 228310
    },
    {
      "epoch": 0.4756666666666667,
      "grad_norm": 0.7690179944038391,
      "learning_rate": 0.000162486182103662,
      "loss": 3.744,
      "step": 228320
    },
    {
      "epoch": 0.4756875,
      "grad_norm": 1.0311105251312256,
      "learning_rate": 0.0001624763577371747,
      "loss": 3.8233,
      "step": 228330
    },
    {
      "epoch": 0.47570833333333334,
      "grad_norm": 0.8719469904899597,
      "learning_rate": 0.00016246653331679445,
      "loss": 3.8234,
      "step": 228340
    },
    {
      "epoch": 0.47572916666666665,
      "grad_norm": 0.8891952037811279,
      "learning_rate": 0.00016245670884256372,
      "loss": 3.7558,
      "step": 228350
    },
    {
      "epoch": 0.47575,
      "grad_norm": 0.7570291757583618,
      "learning_rate": 0.00016244688431452496,
      "loss": 3.8655,
      "step": 228360
    },
    {
      "epoch": 0.4757708333333333,
      "grad_norm": 0.8875386118888855,
      "learning_rate": 0.0001624370597327206,
      "loss": 3.8581,
      "step": 228370
    },
    {
      "epoch": 0.47579166666666667,
      "grad_norm": 1.194340705871582,
      "learning_rate": 0.000162427235097193,
      "loss": 3.8468,
      "step": 228380
    },
    {
      "epoch": 0.4758125,
      "grad_norm": 1.141671061515808,
      "learning_rate": 0.00016241741040798474,
      "loss": 3.8585,
      "step": 228390
    },
    {
      "epoch": 0.47583333333333333,
      "grad_norm": 0.8034887313842773,
      "learning_rate": 0.00016240758566513812,
      "loss": 3.689,
      "step": 228400
    },
    {
      "epoch": 0.4758541666666667,
      "grad_norm": 0.9106435775756836,
      "learning_rate": 0.0001623977608686957,
      "loss": 3.7971,
      "step": 228410
    },
    {
      "epoch": 0.475875,
      "grad_norm": 0.9232433438301086,
      "learning_rate": 0.0001623879360186998,
      "loss": 3.7516,
      "step": 228420
    },
    {
      "epoch": 0.47589583333333335,
      "grad_norm": 0.7635679841041565,
      "learning_rate": 0.000162378111115193,
      "loss": 3.876,
      "step": 228430
    },
    {
      "epoch": 0.47591666666666665,
      "grad_norm": 0.8366963267326355,
      "learning_rate": 0.0001623682861582176,
      "loss": 3.7603,
      "step": 228440
    },
    {
      "epoch": 0.4759375,
      "grad_norm": 1.0042202472686768,
      "learning_rate": 0.00016235846114781604,
      "loss": 3.6519,
      "step": 228450
    },
    {
      "epoch": 0.4759583333333333,
      "grad_norm": 0.7635241150856018,
      "learning_rate": 0.00016234863608403092,
      "loss": 3.7306,
      "step": 228460
    },
    {
      "epoch": 0.4759791666666667,
      "grad_norm": 0.7737174034118652,
      "learning_rate": 0.00016233881096690457,
      "loss": 3.689,
      "step": 228470
    },
    {
      "epoch": 0.476,
      "grad_norm": 0.7849186062812805,
      "learning_rate": 0.00016232898579647938,
      "loss": 3.7497,
      "step": 228480
    },
    {
      "epoch": 0.47602083333333334,
      "grad_norm": 0.7523106336593628,
      "learning_rate": 0.0001623191605727979,
      "loss": 3.754,
      "step": 228490
    },
    {
      "epoch": 0.47604166666666664,
      "grad_norm": 0.763850212097168,
      "learning_rate": 0.00016230933529590253,
      "loss": 3.8857,
      "step": 228500
    },
    {
      "epoch": 0.4760625,
      "grad_norm": 0.8738360404968262,
      "learning_rate": 0.00016229950996583567,
      "loss": 3.8079,
      "step": 228510
    },
    {
      "epoch": 0.47608333333333336,
      "grad_norm": 0.7495872378349304,
      "learning_rate": 0.0001622896845826398,
      "loss": 3.6595,
      "step": 228520
    },
    {
      "epoch": 0.47610416666666666,
      "grad_norm": 0.8518951535224915,
      "learning_rate": 0.0001622798591463574,
      "loss": 3.646,
      "step": 228530
    },
    {
      "epoch": 0.476125,
      "grad_norm": 0.7500289082527161,
      "learning_rate": 0.00016227003365703083,
      "loss": 3.7648,
      "step": 228540
    },
    {
      "epoch": 0.4761458333333333,
      "grad_norm": 0.7953646183013916,
      "learning_rate": 0.00016226020811470256,
      "loss": 3.8844,
      "step": 228550
    },
    {
      "epoch": 0.4761666666666667,
      "grad_norm": 0.8317655324935913,
      "learning_rate": 0.00016225038251941506,
      "loss": 3.6597,
      "step": 228560
    },
    {
      "epoch": 0.4761875,
      "grad_norm": 0.719887912273407,
      "learning_rate": 0.00016224055687121078,
      "loss": 3.8656,
      "step": 228570
    },
    {
      "epoch": 0.47620833333333334,
      "grad_norm": 0.751017689704895,
      "learning_rate": 0.00016223073117013211,
      "loss": 3.89,
      "step": 228580
    },
    {
      "epoch": 0.47622916666666665,
      "grad_norm": 0.9640151262283325,
      "learning_rate": 0.0001622209054162215,
      "loss": 3.9806,
      "step": 228590
    },
    {
      "epoch": 0.47625,
      "grad_norm": 0.760826826095581,
      "learning_rate": 0.0001622110796095215,
      "loss": 3.8259,
      "step": 228600
    },
    {
      "epoch": 0.4762708333333333,
      "grad_norm": 0.8251118659973145,
      "learning_rate": 0.0001622012537500744,
      "loss": 3.656,
      "step": 228610
    },
    {
      "epoch": 0.47629166666666667,
      "grad_norm": 0.8291637301445007,
      "learning_rate": 0.0001621914278379227,
      "loss": 3.6652,
      "step": 228620
    },
    {
      "epoch": 0.4763125,
      "grad_norm": 0.7060231566429138,
      "learning_rate": 0.00016218160187310893,
      "loss": 3.868,
      "step": 228630
    },
    {
      "epoch": 0.47633333333333333,
      "grad_norm": 0.8745769262313843,
      "learning_rate": 0.00016217177585567543,
      "loss": 3.8909,
      "step": 228640
    },
    {
      "epoch": 0.4763541666666667,
      "grad_norm": 0.7834623456001282,
      "learning_rate": 0.0001621619497856646,
      "loss": 3.8957,
      "step": 228650
    },
    {
      "epoch": 0.476375,
      "grad_norm": 0.8267910480499268,
      "learning_rate": 0.00016215212366311907,
      "loss": 3.6456,
      "step": 228660
    },
    {
      "epoch": 0.47639583333333335,
      "grad_norm": 0.8497092127799988,
      "learning_rate": 0.00016214229748808112,
      "loss": 3.7391,
      "step": 228670
    },
    {
      "epoch": 0.47641666666666665,
      "grad_norm": 0.8391067385673523,
      "learning_rate": 0.00016213247126059326,
      "loss": 3.8318,
      "step": 228680
    },
    {
      "epoch": 0.4764375,
      "grad_norm": 0.941072940826416,
      "learning_rate": 0.00016212264498069795,
      "loss": 3.7317,
      "step": 228690
    },
    {
      "epoch": 0.4764583333333333,
      "grad_norm": 0.7729248404502869,
      "learning_rate": 0.00016211281864843757,
      "loss": 3.8356,
      "step": 228700
    },
    {
      "epoch": 0.4764791666666667,
      "grad_norm": 1.371205449104309,
      "learning_rate": 0.00016210299226385465,
      "loss": 3.8465,
      "step": 228710
    },
    {
      "epoch": 0.4765,
      "grad_norm": 0.7827930450439453,
      "learning_rate": 0.00016209316582699155,
      "loss": 4.068,
      "step": 228720
    },
    {
      "epoch": 0.47652083333333334,
      "grad_norm": 0.8592396974563599,
      "learning_rate": 0.00016208333933789078,
      "loss": 3.8053,
      "step": 228730
    },
    {
      "epoch": 0.47654166666666664,
      "grad_norm": 0.8393040895462036,
      "learning_rate": 0.00016207351279659484,
      "loss": 3.734,
      "step": 228740
    },
    {
      "epoch": 0.4765625,
      "grad_norm": 0.7171294093132019,
      "learning_rate": 0.00016206368620314598,
      "loss": 3.6731,
      "step": 228750
    },
    {
      "epoch": 0.47658333333333336,
      "grad_norm": 0.7481410503387451,
      "learning_rate": 0.0001620538595575868,
      "loss": 3.7484,
      "step": 228760
    },
    {
      "epoch": 0.47660416666666666,
      "grad_norm": 0.7725155353546143,
      "learning_rate": 0.0001620440328599598,
      "loss": 3.7777,
      "step": 228770
    },
    {
      "epoch": 0.476625,
      "grad_norm": 0.9456274509429932,
      "learning_rate": 0.00016203420611030723,
      "loss": 3.6317,
      "step": 228780
    },
    {
      "epoch": 0.4766458333333333,
      "grad_norm": 0.8510338664054871,
      "learning_rate": 0.00016202437930867172,
      "loss": 3.9799,
      "step": 228790
    },
    {
      "epoch": 0.4766666666666667,
      "grad_norm": 1.029837727546692,
      "learning_rate": 0.00016201455245509568,
      "loss": 3.7881,
      "step": 228800
    },
    {
      "epoch": 0.4766875,
      "grad_norm": 0.7245389223098755,
      "learning_rate": 0.0001620047255496215,
      "loss": 3.789,
      "step": 228810
    },
    {
      "epoch": 0.47670833333333335,
      "grad_norm": 0.9351601004600525,
      "learning_rate": 0.0001619948985922916,
      "loss": 3.7199,
      "step": 228820
    },
    {
      "epoch": 0.47672916666666665,
      "grad_norm": 0.8301877379417419,
      "learning_rate": 0.00016198507158314858,
      "loss": 3.967,
      "step": 228830
    },
    {
      "epoch": 0.47675,
      "grad_norm": 0.8606275916099548,
      "learning_rate": 0.00016197524452223476,
      "loss": 3.9276,
      "step": 228840
    },
    {
      "epoch": 0.4767708333333333,
      "grad_norm": 1.1603678464889526,
      "learning_rate": 0.00016196541740959257,
      "loss": 3.8573,
      "step": 228850
    },
    {
      "epoch": 0.47679166666666667,
      "grad_norm": 0.7398732900619507,
      "learning_rate": 0.0001619555902452646,
      "loss": 3.9054,
      "step": 228860
    },
    {
      "epoch": 0.4768125,
      "grad_norm": 0.8473144769668579,
      "learning_rate": 0.00016194576302929316,
      "loss": 3.6304,
      "step": 228870
    },
    {
      "epoch": 0.47683333333333333,
      "grad_norm": 0.7654320001602173,
      "learning_rate": 0.00016193593576172076,
      "loss": 3.6827,
      "step": 228880
    },
    {
      "epoch": 0.4768541666666667,
      "grad_norm": 0.8336262106895447,
      "learning_rate": 0.00016192610844258982,
      "loss": 3.7552,
      "step": 228890
    },
    {
      "epoch": 0.476875,
      "grad_norm": 0.8448069095611572,
      "learning_rate": 0.00016191628107194286,
      "loss": 3.7303,
      "step": 228900
    },
    {
      "epoch": 0.47689583333333335,
      "grad_norm": 0.7654362916946411,
      "learning_rate": 0.0001619064536498223,
      "loss": 3.8745,
      "step": 228910
    },
    {
      "epoch": 0.47691666666666666,
      "grad_norm": 0.7897612452507019,
      "learning_rate": 0.00016189662617627047,
      "loss": 3.7848,
      "step": 228920
    },
    {
      "epoch": 0.4769375,
      "grad_norm": 0.8401338458061218,
      "learning_rate": 0.00016188679865133,
      "loss": 3.6983,
      "step": 228930
    },
    {
      "epoch": 0.4769583333333333,
      "grad_norm": 0.9035077095031738,
      "learning_rate": 0.00016187697107504327,
      "loss": 3.8698,
      "step": 228940
    },
    {
      "epoch": 0.4769791666666667,
      "grad_norm": 0.7898954749107361,
      "learning_rate": 0.00016186714344745267,
      "loss": 3.8177,
      "step": 228950
    },
    {
      "epoch": 0.477,
      "grad_norm": 0.8747239112854004,
      "learning_rate": 0.00016185731576860075,
      "loss": 3.8415,
      "step": 228960
    },
    {
      "epoch": 0.47702083333333334,
      "grad_norm": 0.7685192823410034,
      "learning_rate": 0.00016184748803852996,
      "loss": 3.6939,
      "step": 228970
    },
    {
      "epoch": 0.47704166666666664,
      "grad_norm": 0.749917209148407,
      "learning_rate": 0.00016183766025728265,
      "loss": 3.6672,
      "step": 228980
    },
    {
      "epoch": 0.4770625,
      "grad_norm": 0.9158730506896973,
      "learning_rate": 0.0001618278324249013,
      "loss": 3.8959,
      "step": 228990
    },
    {
      "epoch": 0.47708333333333336,
      "grad_norm": 0.8715074062347412,
      "learning_rate": 0.0001618180045414285,
      "loss": 4.0897,
      "step": 229000
    },
    {
      "epoch": 0.47708333333333336,
      "eval_loss": 4.136749744415283,
      "eval_runtime": 8.8807,
      "eval_samples_per_second": 1.126,
      "eval_steps_per_second": 0.338,
      "step": 229000
    },
    {
      "epoch": 0.47710416666666666,
      "grad_norm": 0.7412958741188049,
      "learning_rate": 0.00016180817660690653,
      "loss": 3.7317,
      "step": 229010
    },
    {
      "epoch": 0.477125,
      "grad_norm": 0.8139125108718872,
      "learning_rate": 0.00016179834862137794,
      "loss": 3.858,
      "step": 229020
    },
    {
      "epoch": 0.4771458333333333,
      "grad_norm": 0.7810802459716797,
      "learning_rate": 0.0001617885205848851,
      "loss": 3.7356,
      "step": 229030
    },
    {
      "epoch": 0.4771666666666667,
      "grad_norm": 0.8357306718826294,
      "learning_rate": 0.00016177869249747056,
      "loss": 3.7756,
      "step": 229040
    },
    {
      "epoch": 0.4771875,
      "grad_norm": 0.7172038555145264,
      "learning_rate": 0.00016176886435917675,
      "loss": 3.87,
      "step": 229050
    },
    {
      "epoch": 0.47720833333333335,
      "grad_norm": 0.8407300710678101,
      "learning_rate": 0.00016175903617004608,
      "loss": 3.6422,
      "step": 229060
    },
    {
      "epoch": 0.47722916666666665,
      "grad_norm": 0.8289372324943542,
      "learning_rate": 0.000161749207930121,
      "loss": 3.8654,
      "step": 229070
    },
    {
      "epoch": 0.47725,
      "grad_norm": 0.912600040435791,
      "learning_rate": 0.00016173937963944403,
      "loss": 3.7989,
      "step": 229080
    },
    {
      "epoch": 0.4772708333333333,
      "grad_norm": 0.7445048093795776,
      "learning_rate": 0.0001617295512980576,
      "loss": 3.7733,
      "step": 229090
    },
    {
      "epoch": 0.47729166666666667,
      "grad_norm": 0.8953526616096497,
      "learning_rate": 0.0001617197229060041,
      "loss": 3.8171,
      "step": 229100
    },
    {
      "epoch": 0.4773125,
      "grad_norm": 0.8351220488548279,
      "learning_rate": 0.00016170989446332609,
      "loss": 3.6334,
      "step": 229110
    },
    {
      "epoch": 0.47733333333333333,
      "grad_norm": 0.7068291306495667,
      "learning_rate": 0.00016170006597006592,
      "loss": 3.8559,
      "step": 229120
    },
    {
      "epoch": 0.4773541666666667,
      "grad_norm": 0.8325375318527222,
      "learning_rate": 0.0001616902374262661,
      "loss": 3.7224,
      "step": 229130
    },
    {
      "epoch": 0.477375,
      "grad_norm": 0.8971415758132935,
      "learning_rate": 0.00016168040883196916,
      "loss": 3.7627,
      "step": 229140
    },
    {
      "epoch": 0.47739583333333335,
      "grad_norm": 0.7571191787719727,
      "learning_rate": 0.00016167058018721738,
      "loss": 3.8077,
      "step": 229150
    },
    {
      "epoch": 0.47741666666666666,
      "grad_norm": 0.7498718500137329,
      "learning_rate": 0.0001616607514920534,
      "loss": 3.7651,
      "step": 229160
    },
    {
      "epoch": 0.4774375,
      "grad_norm": 0.7839042544364929,
      "learning_rate": 0.00016165092274651952,
      "loss": 3.8519,
      "step": 229170
    },
    {
      "epoch": 0.4774583333333333,
      "grad_norm": 0.7997812628746033,
      "learning_rate": 0.0001616410939506583,
      "loss": 4.0118,
      "step": 229180
    },
    {
      "epoch": 0.4774791666666667,
      "grad_norm": 1.050424337387085,
      "learning_rate": 0.00016163126510451215,
      "loss": 3.5762,
      "step": 229190
    },
    {
      "epoch": 0.4775,
      "grad_norm": 0.9303550720214844,
      "learning_rate": 0.00016162143620812353,
      "loss": 3.6301,
      "step": 229200
    },
    {
      "epoch": 0.47752083333333334,
      "grad_norm": 0.9033229947090149,
      "learning_rate": 0.0001616116072615349,
      "loss": 3.8541,
      "step": 229210
    },
    {
      "epoch": 0.47754166666666664,
      "grad_norm": 0.7724407315254211,
      "learning_rate": 0.00016160177826478876,
      "loss": 3.8384,
      "step": 229220
    },
    {
      "epoch": 0.4775625,
      "grad_norm": 0.8436874747276306,
      "learning_rate": 0.0001615919492179275,
      "loss": 3.794,
      "step": 229230
    },
    {
      "epoch": 0.47758333333333336,
      "grad_norm": 0.9067524671554565,
      "learning_rate": 0.0001615821201209936,
      "loss": 3.7202,
      "step": 229240
    },
    {
      "epoch": 0.47760416666666666,
      "grad_norm": 0.795401930809021,
      "learning_rate": 0.00016157229097402956,
      "loss": 3.9054,
      "step": 229250
    },
    {
      "epoch": 0.477625,
      "grad_norm": 0.7843776941299438,
      "learning_rate": 0.00016156246177707778,
      "loss": 3.7608,
      "step": 229260
    },
    {
      "epoch": 0.4776458333333333,
      "grad_norm": 0.8859909176826477,
      "learning_rate": 0.00016155263253018077,
      "loss": 3.5968,
      "step": 229270
    },
    {
      "epoch": 0.4776666666666667,
      "grad_norm": 0.7826337218284607,
      "learning_rate": 0.0001615428032333809,
      "loss": 3.7854,
      "step": 229280
    },
    {
      "epoch": 0.4776875,
      "grad_norm": 0.7602784633636475,
      "learning_rate": 0.00016153297388672074,
      "loss": 3.8355,
      "step": 229290
    },
    {
      "epoch": 0.47770833333333335,
      "grad_norm": 0.8537604808807373,
      "learning_rate": 0.00016152314449024267,
      "loss": 3.7719,
      "step": 229300
    },
    {
      "epoch": 0.47772916666666665,
      "grad_norm": 1.0074741840362549,
      "learning_rate": 0.00016151331504398922,
      "loss": 3.7003,
      "step": 229310
    },
    {
      "epoch": 0.47775,
      "grad_norm": 0.7811405658721924,
      "learning_rate": 0.00016150348554800275,
      "loss": 3.7851,
      "step": 229320
    },
    {
      "epoch": 0.4777708333333333,
      "grad_norm": 0.876108705997467,
      "learning_rate": 0.00016149365600232583,
      "loss": 3.7386,
      "step": 229330
    },
    {
      "epoch": 0.47779166666666667,
      "grad_norm": 0.8036032319068909,
      "learning_rate": 0.00016148382640700083,
      "loss": 3.7465,
      "step": 229340
    },
    {
      "epoch": 0.4778125,
      "grad_norm": 0.8468268513679504,
      "learning_rate": 0.0001614739967620702,
      "loss": 3.7679,
      "step": 229350
    },
    {
      "epoch": 0.47783333333333333,
      "grad_norm": 0.8735573291778564,
      "learning_rate": 0.00016146416706757657,
      "loss": 3.8671,
      "step": 229360
    },
    {
      "epoch": 0.4778541666666667,
      "grad_norm": 1.1495633125305176,
      "learning_rate": 0.0001614543373235622,
      "loss": 3.7239,
      "step": 229370
    },
    {
      "epoch": 0.477875,
      "grad_norm": 0.8866831660270691,
      "learning_rate": 0.00016144450753006963,
      "loss": 3.7324,
      "step": 229380
    },
    {
      "epoch": 0.47789583333333335,
      "grad_norm": 0.8883616924285889,
      "learning_rate": 0.00016143467768714133,
      "loss": 3.8391,
      "step": 229390
    },
    {
      "epoch": 0.47791666666666666,
      "grad_norm": 0.7921784520149231,
      "learning_rate": 0.00016142484779481974,
      "loss": 3.8324,
      "step": 229400
    },
    {
      "epoch": 0.4779375,
      "grad_norm": 0.7288550734519958,
      "learning_rate": 0.00016141501785314733,
      "loss": 3.7835,
      "step": 229410
    },
    {
      "epoch": 0.4779583333333333,
      "grad_norm": 0.7539291977882385,
      "learning_rate": 0.00016140518786216654,
      "loss": 3.7114,
      "step": 229420
    },
    {
      "epoch": 0.4779791666666667,
      "grad_norm": 0.692521333694458,
      "learning_rate": 0.0001613953578219199,
      "loss": 3.7921,
      "step": 229430
    },
    {
      "epoch": 0.478,
      "grad_norm": 0.7478476762771606,
      "learning_rate": 0.00016138552773244978,
      "loss": 4.0096,
      "step": 229440
    },
    {
      "epoch": 0.47802083333333334,
      "grad_norm": 1.101895809173584,
      "learning_rate": 0.0001613756975937987,
      "loss": 3.8044,
      "step": 229450
    },
    {
      "epoch": 0.47804166666666664,
      "grad_norm": 0.8644420504570007,
      "learning_rate": 0.00016136586740600912,
      "loss": 3.6674,
      "step": 229460
    },
    {
      "epoch": 0.4780625,
      "grad_norm": 0.7128804922103882,
      "learning_rate": 0.00016135603716912352,
      "loss": 3.7748,
      "step": 229470
    },
    {
      "epoch": 0.47808333333333336,
      "grad_norm": 0.851717472076416,
      "learning_rate": 0.00016134620688318429,
      "loss": 3.7358,
      "step": 229480
    },
    {
      "epoch": 0.47810416666666666,
      "grad_norm": 0.7810768485069275,
      "learning_rate": 0.0001613363765482339,
      "loss": 3.8888,
      "step": 229490
    },
    {
      "epoch": 0.478125,
      "grad_norm": 0.8537858128547668,
      "learning_rate": 0.00016132654616431494,
      "loss": 3.7089,
      "step": 229500
    },
    {
      "epoch": 0.4781458333333333,
      "grad_norm": 0.7437524795532227,
      "learning_rate": 0.00016131671573146975,
      "loss": 3.8464,
      "step": 229510
    },
    {
      "epoch": 0.4781666666666667,
      "grad_norm": 0.7763436436653137,
      "learning_rate": 0.00016130688524974078,
      "loss": 3.7882,
      "step": 229520
    },
    {
      "epoch": 0.4781875,
      "grad_norm": 0.719814121723175,
      "learning_rate": 0.00016129705471917063,
      "loss": 3.656,
      "step": 229530
    },
    {
      "epoch": 0.47820833333333335,
      "grad_norm": 0.8274809718132019,
      "learning_rate": 0.0001612872241398016,
      "loss": 3.7939,
      "step": 229540
    },
    {
      "epoch": 0.47822916666666665,
      "grad_norm": 1.0051213502883911,
      "learning_rate": 0.00016127739351167627,
      "loss": 3.9278,
      "step": 229550
    },
    {
      "epoch": 0.47825,
      "grad_norm": 0.8052498698234558,
      "learning_rate": 0.00016126756283483702,
      "loss": 3.853,
      "step": 229560
    },
    {
      "epoch": 0.4782708333333333,
      "grad_norm": 0.8251380920410156,
      "learning_rate": 0.0001612577321093264,
      "loss": 3.8158,
      "step": 229570
    },
    {
      "epoch": 0.47829166666666667,
      "grad_norm": 0.8282797336578369,
      "learning_rate": 0.00016124790133518682,
      "loss": 3.6896,
      "step": 229580
    },
    {
      "epoch": 0.4783125,
      "grad_norm": 0.8443139791488647,
      "learning_rate": 0.00016123807051246077,
      "loss": 3.8269,
      "step": 229590
    },
    {
      "epoch": 0.47833333333333333,
      "grad_norm": 0.9949086904525757,
      "learning_rate": 0.0001612282396411907,
      "loss": 3.7313,
      "step": 229600
    },
    {
      "epoch": 0.4783541666666667,
      "grad_norm": 0.9953346848487854,
      "learning_rate": 0.00016121840872141907,
      "loss": 3.6039,
      "step": 229610
    },
    {
      "epoch": 0.478375,
      "grad_norm": 0.7515130043029785,
      "learning_rate": 0.00016120857775318834,
      "loss": 3.9107,
      "step": 229620
    },
    {
      "epoch": 0.47839583333333335,
      "grad_norm": 0.8041589856147766,
      "learning_rate": 0.000161198746736541,
      "loss": 3.8273,
      "step": 229630
    },
    {
      "epoch": 0.47841666666666666,
      "grad_norm": 0.9208921790122986,
      "learning_rate": 0.00016118891567151955,
      "loss": 3.7793,
      "step": 229640
    },
    {
      "epoch": 0.4784375,
      "grad_norm": 0.8542529940605164,
      "learning_rate": 0.00016117908455816636,
      "loss": 3.7476,
      "step": 229650
    },
    {
      "epoch": 0.4784583333333333,
      "grad_norm": 0.8553639054298401,
      "learning_rate": 0.00016116925339652394,
      "loss": 3.7636,
      "step": 229660
    },
    {
      "epoch": 0.4784791666666667,
      "grad_norm": 0.8859511017799377,
      "learning_rate": 0.00016115942218663485,
      "loss": 3.9309,
      "step": 229670
    },
    {
      "epoch": 0.4785,
      "grad_norm": 0.9248995184898376,
      "learning_rate": 0.00016114959092854142,
      "loss": 3.8899,
      "step": 229680
    },
    {
      "epoch": 0.47852083333333334,
      "grad_norm": 0.864948034286499,
      "learning_rate": 0.00016113975962228614,
      "loss": 3.7368,
      "step": 229690
    },
    {
      "epoch": 0.47854166666666664,
      "grad_norm": 0.8504670858383179,
      "learning_rate": 0.00016112992826791155,
      "loss": 3.7346,
      "step": 229700
    },
    {
      "epoch": 0.4785625,
      "grad_norm": 0.870907723903656,
      "learning_rate": 0.00016112009686546005,
      "loss": 3.8325,
      "step": 229710
    },
    {
      "epoch": 0.47858333333333336,
      "grad_norm": 0.7535873055458069,
      "learning_rate": 0.00016111026541497413,
      "loss": 3.7844,
      "step": 229720
    },
    {
      "epoch": 0.47860416666666666,
      "grad_norm": 1.1213343143463135,
      "learning_rate": 0.0001611004339164963,
      "loss": 3.9458,
      "step": 229730
    },
    {
      "epoch": 0.478625,
      "grad_norm": 0.909653902053833,
      "learning_rate": 0.00016109060237006896,
      "loss": 3.6834,
      "step": 229740
    },
    {
      "epoch": 0.4786458333333333,
      "grad_norm": 0.8650821447372437,
      "learning_rate": 0.0001610807707757346,
      "loss": 3.8023,
      "step": 229750
    },
    {
      "epoch": 0.4786666666666667,
      "grad_norm": 0.806545078754425,
      "learning_rate": 0.00016107093913353575,
      "loss": 3.7596,
      "step": 229760
    },
    {
      "epoch": 0.4786875,
      "grad_norm": 0.7686772346496582,
      "learning_rate": 0.00016106110744351475,
      "loss": 3.6901,
      "step": 229770
    },
    {
      "epoch": 0.47870833333333335,
      "grad_norm": 0.7121701240539551,
      "learning_rate": 0.00016105127570571417,
      "loss": 3.6866,
      "step": 229780
    },
    {
      "epoch": 0.47872916666666665,
      "grad_norm": 0.8258238434791565,
      "learning_rate": 0.00016104144392017645,
      "loss": 3.6685,
      "step": 229790
    },
    {
      "epoch": 0.47875,
      "grad_norm": 0.9686705470085144,
      "learning_rate": 0.0001610316120869441,
      "loss": 3.8213,
      "step": 229800
    },
    {
      "epoch": 0.4787708333333333,
      "grad_norm": 0.9980297088623047,
      "learning_rate": 0.00016102178020605958,
      "loss": 3.8537,
      "step": 229810
    },
    {
      "epoch": 0.47879166666666667,
      "grad_norm": 0.8754044771194458,
      "learning_rate": 0.00016101194827756522,
      "loss": 3.58,
      "step": 229820
    },
    {
      "epoch": 0.4788125,
      "grad_norm": 0.8927919864654541,
      "learning_rate": 0.00016100211630150365,
      "loss": 3.845,
      "step": 229830
    },
    {
      "epoch": 0.47883333333333333,
      "grad_norm": 0.7370420694351196,
      "learning_rate": 0.00016099228427791736,
      "loss": 3.6093,
      "step": 229840
    },
    {
      "epoch": 0.4788541666666667,
      "grad_norm": 0.8726911544799805,
      "learning_rate": 0.00016098245220684865,
      "loss": 3.9417,
      "step": 229850
    },
    {
      "epoch": 0.478875,
      "grad_norm": 0.7467332482337952,
      "learning_rate": 0.00016097262008834013,
      "loss": 3.7894,
      "step": 229860
    },
    {
      "epoch": 0.47889583333333335,
      "grad_norm": 0.9066689014434814,
      "learning_rate": 0.00016096278792243428,
      "loss": 3.5643,
      "step": 229870
    },
    {
      "epoch": 0.47891666666666666,
      "grad_norm": 0.8118236064910889,
      "learning_rate": 0.0001609529557091735,
      "loss": 3.6773,
      "step": 229880
    },
    {
      "epoch": 0.4789375,
      "grad_norm": 0.7763184309005737,
      "learning_rate": 0.00016094312344860028,
      "loss": 3.6662,
      "step": 229890
    },
    {
      "epoch": 0.4789583333333333,
      "grad_norm": 0.9999241232872009,
      "learning_rate": 0.0001609332911407571,
      "loss": 3.7956,
      "step": 229900
    },
    {
      "epoch": 0.4789791666666667,
      "grad_norm": 0.7827931046485901,
      "learning_rate": 0.0001609234587856864,
      "loss": 3.6066,
      "step": 229910
    },
    {
      "epoch": 0.479,
      "grad_norm": 0.7081454992294312,
      "learning_rate": 0.00016091362638343072,
      "loss": 3.8829,
      "step": 229920
    },
    {
      "epoch": 0.47902083333333334,
      "grad_norm": 0.7905850410461426,
      "learning_rate": 0.00016090379393403248,
      "loss": 3.8331,
      "step": 229930
    },
    {
      "epoch": 0.47904166666666664,
      "grad_norm": 0.9929302334785461,
      "learning_rate": 0.00016089396143753417,
      "loss": 3.5044,
      "step": 229940
    },
    {
      "epoch": 0.4790625,
      "grad_norm": 0.666082501411438,
      "learning_rate": 0.00016088412889397823,
      "loss": 3.6463,
      "step": 229950
    },
    {
      "epoch": 0.47908333333333336,
      "grad_norm": 0.6689411401748657,
      "learning_rate": 0.00016087429630340722,
      "loss": 3.6316,
      "step": 229960
    },
    {
      "epoch": 0.47910416666666666,
      "grad_norm": 0.790321946144104,
      "learning_rate": 0.00016086446366586353,
      "loss": 3.6876,
      "step": 229970
    },
    {
      "epoch": 0.479125,
      "grad_norm": 0.9304214715957642,
      "learning_rate": 0.00016085463098138966,
      "loss": 3.86,
      "step": 229980
    },
    {
      "epoch": 0.4791458333333333,
      "grad_norm": 1.0352319478988647,
      "learning_rate": 0.00016084479825002803,
      "loss": 3.8386,
      "step": 229990
    },
    {
      "epoch": 0.4791666666666667,
      "grad_norm": 0.9014192223548889,
      "learning_rate": 0.0001608349654718212,
      "loss": 3.7897,
      "step": 230000
    },
    {
      "epoch": 0.4791666666666667,
      "eval_loss": 4.138729095458984,
      "eval_runtime": 8.4709,
      "eval_samples_per_second": 1.181,
      "eval_steps_per_second": 0.354,
      "step": 230000
    },
    {
      "epoch": 0.4791875,
      "grad_norm": 0.7647166848182678,
      "learning_rate": 0.00016082513264681166,
      "loss": 3.8988,
      "step": 230010
    },
    {
      "epoch": 0.47920833333333335,
      "grad_norm": 0.7727860808372498,
      "learning_rate": 0.00016081529977504176,
      "loss": 3.7674,
      "step": 230020
    },
    {
      "epoch": 0.47922916666666665,
      "grad_norm": 0.860102653503418,
      "learning_rate": 0.00016080546685655404,
      "loss": 3.7393,
      "step": 230030
    },
    {
      "epoch": 0.47925,
      "grad_norm": 0.8416416049003601,
      "learning_rate": 0.00016079563389139107,
      "loss": 3.9853,
      "step": 230040
    },
    {
      "epoch": 0.4792708333333333,
      "grad_norm": 0.8311764597892761,
      "learning_rate": 0.00016078580087959519,
      "loss": 3.8764,
      "step": 230050
    },
    {
      "epoch": 0.47929166666666667,
      "grad_norm": 0.6700658202171326,
      "learning_rate": 0.00016077596782120888,
      "loss": 3.6535,
      "step": 230060
    },
    {
      "epoch": 0.4793125,
      "grad_norm": 0.8147128224372864,
      "learning_rate": 0.0001607661347162747,
      "loss": 3.7157,
      "step": 230070
    },
    {
      "epoch": 0.47933333333333333,
      "grad_norm": 0.9356420040130615,
      "learning_rate": 0.00016075630156483505,
      "loss": 3.8676,
      "step": 230080
    },
    {
      "epoch": 0.4793541666666667,
      "grad_norm": 0.7472735643386841,
      "learning_rate": 0.00016074646836693242,
      "loss": 3.875,
      "step": 230090
    },
    {
      "epoch": 0.479375,
      "grad_norm": 0.7957956790924072,
      "learning_rate": 0.00016073663512260932,
      "loss": 3.8339,
      "step": 230100
    },
    {
      "epoch": 0.47939583333333335,
      "grad_norm": 0.7476627826690674,
      "learning_rate": 0.00016072680183190822,
      "loss": 3.6781,
      "step": 230110
    },
    {
      "epoch": 0.47941666666666666,
      "grad_norm": 0.9320403337478638,
      "learning_rate": 0.00016071696849487158,
      "loss": 3.812,
      "step": 230120
    },
    {
      "epoch": 0.4794375,
      "grad_norm": 0.7490317821502686,
      "learning_rate": 0.00016070713511154183,
      "loss": 3.8645,
      "step": 230130
    },
    {
      "epoch": 0.4794583333333333,
      "grad_norm": 0.8749088644981384,
      "learning_rate": 0.00016069730168196157,
      "loss": 3.7823,
      "step": 230140
    },
    {
      "epoch": 0.4794791666666667,
      "grad_norm": 0.9265334010124207,
      "learning_rate": 0.00016068746820617315,
      "loss": 3.7521,
      "step": 230150
    },
    {
      "epoch": 0.4795,
      "grad_norm": 0.9863789081573486,
      "learning_rate": 0.0001606776346842191,
      "loss": 3.8316,
      "step": 230160
    },
    {
      "epoch": 0.47952083333333334,
      "grad_norm": 0.8269882202148438,
      "learning_rate": 0.0001606678011161419,
      "loss": 3.7312,
      "step": 230170
    },
    {
      "epoch": 0.47954166666666664,
      "grad_norm": 0.9786164164543152,
      "learning_rate": 0.00016065796750198408,
      "loss": 3.8258,
      "step": 230180
    },
    {
      "epoch": 0.4795625,
      "grad_norm": 0.8017245531082153,
      "learning_rate": 0.000160648133841788,
      "loss": 3.8342,
      "step": 230190
    },
    {
      "epoch": 0.4795833333333333,
      "grad_norm": 0.7659728527069092,
      "learning_rate": 0.0001606383001355962,
      "loss": 3.6549,
      "step": 230200
    },
    {
      "epoch": 0.47960416666666666,
      "grad_norm": 0.8087178468704224,
      "learning_rate": 0.00016062846638345118,
      "loss": 3.7998,
      "step": 230210
    },
    {
      "epoch": 0.479625,
      "grad_norm": 0.8293896317481995,
      "learning_rate": 0.00016061863258539535,
      "loss": 3.7064,
      "step": 230220
    },
    {
      "epoch": 0.4796458333333333,
      "grad_norm": 0.7700130939483643,
      "learning_rate": 0.00016060879874147126,
      "loss": 3.7661,
      "step": 230230
    },
    {
      "epoch": 0.4796666666666667,
      "grad_norm": 0.8129041194915771,
      "learning_rate": 0.00016059896485172136,
      "loss": 3.7588,
      "step": 230240
    },
    {
      "epoch": 0.4796875,
      "grad_norm": 0.8000212907791138,
      "learning_rate": 0.00016058913091618814,
      "loss": 3.763,
      "step": 230250
    },
    {
      "epoch": 0.47970833333333335,
      "grad_norm": 0.8093359470367432,
      "learning_rate": 0.00016057929693491404,
      "loss": 3.8627,
      "step": 230260
    },
    {
      "epoch": 0.47972916666666665,
      "grad_norm": 0.7540320158004761,
      "learning_rate": 0.00016056946290794155,
      "loss": 3.7265,
      "step": 230270
    },
    {
      "epoch": 0.47975,
      "grad_norm": 0.688214898109436,
      "learning_rate": 0.00016055962883531317,
      "loss": 3.8045,
      "step": 230280
    },
    {
      "epoch": 0.4797708333333333,
      "grad_norm": 0.9257739186286926,
      "learning_rate": 0.0001605497947170714,
      "loss": 3.7347,
      "step": 230290
    },
    {
      "epoch": 0.47979166666666667,
      "grad_norm": 0.795576810836792,
      "learning_rate": 0.0001605399605532587,
      "loss": 3.6877,
      "step": 230300
    },
    {
      "epoch": 0.4798125,
      "grad_norm": 0.7742559909820557,
      "learning_rate": 0.0001605301263439175,
      "loss": 3.5361,
      "step": 230310
    },
    {
      "epoch": 0.47983333333333333,
      "grad_norm": 0.7404083609580994,
      "learning_rate": 0.00016052029208909034,
      "loss": 3.7334,
      "step": 230320
    },
    {
      "epoch": 0.4798541666666667,
      "grad_norm": 0.7845640182495117,
      "learning_rate": 0.00016051045778881968,
      "loss": 3.677,
      "step": 230330
    },
    {
      "epoch": 0.479875,
      "grad_norm": 0.685012936592102,
      "learning_rate": 0.00016050062344314804,
      "loss": 3.9371,
      "step": 230340
    },
    {
      "epoch": 0.47989583333333335,
      "grad_norm": 0.6865050196647644,
      "learning_rate": 0.0001604907890521178,
      "loss": 3.7396,
      "step": 230350
    },
    {
      "epoch": 0.47991666666666666,
      "grad_norm": 0.7416980266571045,
      "learning_rate": 0.00016048095461577153,
      "loss": 3.6197,
      "step": 230360
    },
    {
      "epoch": 0.4799375,
      "grad_norm": 0.8970363736152649,
      "learning_rate": 0.00016047112013415173,
      "loss": 3.7367,
      "step": 230370
    },
    {
      "epoch": 0.4799583333333333,
      "grad_norm": 0.8633859157562256,
      "learning_rate": 0.0001604612856073008,
      "loss": 3.6065,
      "step": 230380
    },
    {
      "epoch": 0.4799791666666667,
      "grad_norm": 0.7904285788536072,
      "learning_rate": 0.0001604514510352612,
      "loss": 3.778,
      "step": 230390
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8044341802597046,
      "learning_rate": 0.00016044161641807556,
      "loss": 3.8618,
      "step": 230400
    },
    {
      "epoch": 0.48002083333333334,
      "grad_norm": 0.8593399524688721,
      "learning_rate": 0.00016043178175578624,
      "loss": 3.8238,
      "step": 230410
    },
    {
      "epoch": 0.48004166666666664,
      "grad_norm": 0.8992785215377808,
      "learning_rate": 0.00016042194704843574,
      "loss": 3.6255,
      "step": 230420
    },
    {
      "epoch": 0.4800625,
      "grad_norm": 0.8145643472671509,
      "learning_rate": 0.00016041211229606656,
      "loss": 3.7719,
      "step": 230430
    },
    {
      "epoch": 0.4800833333333333,
      "grad_norm": 0.7495779395103455,
      "learning_rate": 0.00016040227749872119,
      "loss": 3.9539,
      "step": 230440
    },
    {
      "epoch": 0.48010416666666667,
      "grad_norm": 0.8274098038673401,
      "learning_rate": 0.00016039244265644208,
      "loss": 3.7386,
      "step": 230450
    },
    {
      "epoch": 0.480125,
      "grad_norm": 0.7828303575515747,
      "learning_rate": 0.00016038260776927174,
      "loss": 3.6222,
      "step": 230460
    },
    {
      "epoch": 0.4801458333333333,
      "grad_norm": 0.9180668592453003,
      "learning_rate": 0.00016037277283725262,
      "loss": 3.775,
      "step": 230470
    },
    {
      "epoch": 0.4801666666666667,
      "grad_norm": 0.9560242295265198,
      "learning_rate": 0.00016036293786042728,
      "loss": 3.7544,
      "step": 230480
    },
    {
      "epoch": 0.4801875,
      "grad_norm": 0.9885742664337158,
      "learning_rate": 0.00016035310283883807,
      "loss": 3.7784,
      "step": 230490
    },
    {
      "epoch": 0.48020833333333335,
      "grad_norm": 0.8533060550689697,
      "learning_rate": 0.00016034326777252761,
      "loss": 3.6824,
      "step": 230500
    },
    {
      "epoch": 0.48022916666666665,
      "grad_norm": 0.6806742548942566,
      "learning_rate": 0.00016033343266153838,
      "loss": 3.7744,
      "step": 230510
    },
    {
      "epoch": 0.48025,
      "grad_norm": 1.095869779586792,
      "learning_rate": 0.00016032359750591267,
      "loss": 3.5429,
      "step": 230520
    },
    {
      "epoch": 0.4802708333333333,
      "grad_norm": 0.8272132873535156,
      "learning_rate": 0.00016031376230569321,
      "loss": 3.6401,
      "step": 230530
    },
    {
      "epoch": 0.4802916666666667,
      "grad_norm": 0.9360886812210083,
      "learning_rate": 0.00016030392706092237,
      "loss": 3.8017,
      "step": 230540
    },
    {
      "epoch": 0.4803125,
      "grad_norm": 0.798718273639679,
      "learning_rate": 0.00016029409177164262,
      "loss": 3.8473,
      "step": 230550
    },
    {
      "epoch": 0.48033333333333333,
      "grad_norm": 0.9022340178489685,
      "learning_rate": 0.00016028425643789646,
      "loss": 3.7388,
      "step": 230560
    },
    {
      "epoch": 0.4803541666666667,
      "grad_norm": 0.8365233540534973,
      "learning_rate": 0.00016027442105972644,
      "loss": 3.7731,
      "step": 230570
    },
    {
      "epoch": 0.480375,
      "grad_norm": 0.8202565312385559,
      "learning_rate": 0.00016026458563717493,
      "loss": 3.6287,
      "step": 230580
    },
    {
      "epoch": 0.48039583333333336,
      "grad_norm": 0.6964491009712219,
      "learning_rate": 0.00016025475017028445,
      "loss": 3.8517,
      "step": 230590
    },
    {
      "epoch": 0.48041666666666666,
      "grad_norm": 0.8007192611694336,
      "learning_rate": 0.00016024491465909757,
      "loss": 3.6941,
      "step": 230600
    },
    {
      "epoch": 0.4804375,
      "grad_norm": 0.8734384179115295,
      "learning_rate": 0.0001602350791036567,
      "loss": 3.8995,
      "step": 230610
    },
    {
      "epoch": 0.4804583333333333,
      "grad_norm": 0.7056005597114563,
      "learning_rate": 0.00016022524350400432,
      "loss": 3.8553,
      "step": 230620
    },
    {
      "epoch": 0.4804791666666667,
      "grad_norm": 0.9544219970703125,
      "learning_rate": 0.00016021540786018295,
      "loss": 3.5495,
      "step": 230630
    },
    {
      "epoch": 0.4805,
      "grad_norm": 0.9564304947853088,
      "learning_rate": 0.00016020557217223506,
      "loss": 3.8413,
      "step": 230640
    },
    {
      "epoch": 0.48052083333333334,
      "grad_norm": 0.9167498350143433,
      "learning_rate": 0.00016019573644020314,
      "loss": 3.7634,
      "step": 230650
    },
    {
      "epoch": 0.48054166666666664,
      "grad_norm": 0.9749056696891785,
      "learning_rate": 0.00016018590066412967,
      "loss": 3.6441,
      "step": 230660
    },
    {
      "epoch": 0.4805625,
      "grad_norm": 0.7779585123062134,
      "learning_rate": 0.00016017606484405712,
      "loss": 3.8175,
      "step": 230670
    },
    {
      "epoch": 0.4805833333333333,
      "grad_norm": 0.7108399271965027,
      "learning_rate": 0.00016016622898002808,
      "loss": 3.8174,
      "step": 230680
    },
    {
      "epoch": 0.48060416666666667,
      "grad_norm": 0.9790986776351929,
      "learning_rate": 0.00016015639307208487,
      "loss": 3.7354,
      "step": 230690
    },
    {
      "epoch": 0.480625,
      "grad_norm": 0.9246657490730286,
      "learning_rate": 0.00016014655712027006,
      "loss": 3.8008,
      "step": 230700
    },
    {
      "epoch": 0.4806458333333333,
      "grad_norm": 0.8374412655830383,
      "learning_rate": 0.0001601367211246262,
      "loss": 3.8476,
      "step": 230710
    },
    {
      "epoch": 0.4806666666666667,
      "grad_norm": 0.7306221127510071,
      "learning_rate": 0.00016012688508519564,
      "loss": 3.7977,
      "step": 230720
    },
    {
      "epoch": 0.4806875,
      "grad_norm": 0.909329354763031,
      "learning_rate": 0.00016011704900202099,
      "loss": 3.8453,
      "step": 230730
    },
    {
      "epoch": 0.48070833333333335,
      "grad_norm": 0.8251884579658508,
      "learning_rate": 0.00016010721287514472,
      "loss": 3.7097,
      "step": 230740
    },
    {
      "epoch": 0.48072916666666665,
      "grad_norm": 0.8902865052223206,
      "learning_rate": 0.00016009737670460926,
      "loss": 3.932,
      "step": 230750
    },
    {
      "epoch": 0.48075,
      "grad_norm": 0.8286138772964478,
      "learning_rate": 0.0001600875404904571,
      "loss": 3.7667,
      "step": 230760
    },
    {
      "epoch": 0.4807708333333333,
      "grad_norm": 0.751399576663971,
      "learning_rate": 0.0001600777042327308,
      "loss": 3.8978,
      "step": 230770
    },
    {
      "epoch": 0.4807916666666667,
      "grad_norm": 1.2039084434509277,
      "learning_rate": 0.00016006786793147282,
      "loss": 3.7728,
      "step": 230780
    },
    {
      "epoch": 0.4808125,
      "grad_norm": 0.823885977268219,
      "learning_rate": 0.0001600580315867256,
      "loss": 3.7935,
      "step": 230790
    },
    {
      "epoch": 0.48083333333333333,
      "grad_norm": 0.7569249272346497,
      "learning_rate": 0.0001600481951985317,
      "loss": 3.8657,
      "step": 230800
    },
    {
      "epoch": 0.4808541666666667,
      "grad_norm": 0.7724919319152832,
      "learning_rate": 0.00016003835876693352,
      "loss": 3.7529,
      "step": 230810
    },
    {
      "epoch": 0.480875,
      "grad_norm": 0.8572350144386292,
      "learning_rate": 0.00016002852229197363,
      "loss": 3.7717,
      "step": 230820
    },
    {
      "epoch": 0.48089583333333336,
      "grad_norm": 0.7646005749702454,
      "learning_rate": 0.00016001868577369453,
      "loss": 3.8148,
      "step": 230830
    },
    {
      "epoch": 0.48091666666666666,
      "grad_norm": 0.8245311975479126,
      "learning_rate": 0.0001600088492121386,
      "loss": 3.6375,
      "step": 230840
    },
    {
      "epoch": 0.4809375,
      "grad_norm": 0.8259185552597046,
      "learning_rate": 0.00015999901260734849,
      "loss": 3.927,
      "step": 230850
    },
    {
      "epoch": 0.4809583333333333,
      "grad_norm": 0.8293985724449158,
      "learning_rate": 0.00015998917595936652,
      "loss": 3.8568,
      "step": 230860
    },
    {
      "epoch": 0.4809791666666667,
      "grad_norm": 0.7529256939888,
      "learning_rate": 0.0001599793392682353,
      "loss": 3.8671,
      "step": 230870
    },
    {
      "epoch": 0.481,
      "grad_norm": 0.8596012592315674,
      "learning_rate": 0.00015996950253399734,
      "loss": 3.7864,
      "step": 230880
    },
    {
      "epoch": 0.48102083333333334,
      "grad_norm": 0.7496176958084106,
      "learning_rate": 0.000159959665756695,
      "loss": 3.8291,
      "step": 230890
    },
    {
      "epoch": 0.48104166666666665,
      "grad_norm": 0.8364896774291992,
      "learning_rate": 0.00015994982893637082,
      "loss": 3.8308,
      "step": 230900
    },
    {
      "epoch": 0.4810625,
      "grad_norm": 0.7445839047431946,
      "learning_rate": 0.00015993999207306741,
      "loss": 3.9802,
      "step": 230910
    },
    {
      "epoch": 0.4810833333333333,
      "grad_norm": 0.8514823913574219,
      "learning_rate": 0.00015993015516682714,
      "loss": 3.726,
      "step": 230920
    },
    {
      "epoch": 0.48110416666666667,
      "grad_norm": 0.7067281007766724,
      "learning_rate": 0.00015992031821769249,
      "loss": 3.8002,
      "step": 230930
    },
    {
      "epoch": 0.481125,
      "grad_norm": 0.7392174005508423,
      "learning_rate": 0.00015991048122570604,
      "loss": 3.6609,
      "step": 230940
    },
    {
      "epoch": 0.48114583333333333,
      "grad_norm": 0.7516330480575562,
      "learning_rate": 0.0001599006441909102,
      "loss": 3.7118,
      "step": 230950
    },
    {
      "epoch": 0.4811666666666667,
      "grad_norm": 0.9220281839370728,
      "learning_rate": 0.00015989080711334747,
      "loss": 3.7319,
      "step": 230960
    },
    {
      "epoch": 0.4811875,
      "grad_norm": 0.7853012681007385,
      "learning_rate": 0.00015988096999306045,
      "loss": 3.8043,
      "step": 230970
    },
    {
      "epoch": 0.48120833333333335,
      "grad_norm": 0.8925526142120361,
      "learning_rate": 0.0001598711328300915,
      "loss": 3.7841,
      "step": 230980
    },
    {
      "epoch": 0.48122916666666665,
      "grad_norm": 0.9217575788497925,
      "learning_rate": 0.00015986129562448317,
      "loss": 3.6651,
      "step": 230990
    },
    {
      "epoch": 0.48125,
      "grad_norm": 0.7695468664169312,
      "learning_rate": 0.00015985145837627793,
      "loss": 3.8465,
      "step": 231000
    },
    {
      "epoch": 0.48125,
      "eval_loss": 4.1335248947143555,
      "eval_runtime": 7.8411,
      "eval_samples_per_second": 1.275,
      "eval_steps_per_second": 0.383,
      "step": 231000
    },
    {
      "epoch": 0.4812708333333333,
      "grad_norm": 0.7601321935653687,
      "learning_rate": 0.00015984162108551828,
      "loss": 3.7657,
      "step": 231010
    },
    {
      "epoch": 0.4812916666666667,
      "grad_norm": 0.7396259903907776,
      "learning_rate": 0.00015983178375224679,
      "loss": 3.8526,
      "step": 231020
    },
    {
      "epoch": 0.4813125,
      "grad_norm": 0.7963302135467529,
      "learning_rate": 0.0001598219463765058,
      "loss": 3.7487,
      "step": 231030
    },
    {
      "epoch": 0.48133333333333334,
      "grad_norm": 0.6972326636314392,
      "learning_rate": 0.00015981210895833794,
      "loss": 3.715,
      "step": 231040
    },
    {
      "epoch": 0.4813541666666667,
      "grad_norm": 1.0136817693710327,
      "learning_rate": 0.00015980227149778566,
      "loss": 3.6972,
      "step": 231050
    },
    {
      "epoch": 0.481375,
      "grad_norm": 0.8413583636283875,
      "learning_rate": 0.00015979243399489142,
      "loss": 3.7608,
      "step": 231060
    },
    {
      "epoch": 0.48139583333333336,
      "grad_norm": 0.8979995846748352,
      "learning_rate": 0.0001597825964496978,
      "loss": 3.6652,
      "step": 231070
    },
    {
      "epoch": 0.48141666666666666,
      "grad_norm": 0.7696360349655151,
      "learning_rate": 0.00015977275886224716,
      "loss": 3.5768,
      "step": 231080
    },
    {
      "epoch": 0.4814375,
      "grad_norm": 0.7566185593605042,
      "learning_rate": 0.0001597629212325821,
      "loss": 3.7919,
      "step": 231090
    },
    {
      "epoch": 0.4814583333333333,
      "grad_norm": 0.7795522809028625,
      "learning_rate": 0.00015975308356074507,
      "loss": 3.6978,
      "step": 231100
    },
    {
      "epoch": 0.4814791666666667,
      "grad_norm": 0.7647190690040588,
      "learning_rate": 0.0001597432458467786,
      "loss": 3.5575,
      "step": 231110
    },
    {
      "epoch": 0.4815,
      "grad_norm": 0.8204790353775024,
      "learning_rate": 0.00015973340809072518,
      "loss": 3.8255,
      "step": 231120
    },
    {
      "epoch": 0.48152083333333334,
      "grad_norm": 0.8795076012611389,
      "learning_rate": 0.00015972357029262727,
      "loss": 3.7308,
      "step": 231130
    },
    {
      "epoch": 0.48154166666666665,
      "grad_norm": 0.8648297786712646,
      "learning_rate": 0.00015971373245252736,
      "loss": 3.8453,
      "step": 231140
    },
    {
      "epoch": 0.4815625,
      "grad_norm": 0.7565776109695435,
      "learning_rate": 0.000159703894570468,
      "loss": 3.7533,
      "step": 231150
    },
    {
      "epoch": 0.4815833333333333,
      "grad_norm": 0.8190926909446716,
      "learning_rate": 0.00015969405664649163,
      "loss": 3.7386,
      "step": 231160
    },
    {
      "epoch": 0.48160416666666667,
      "grad_norm": 0.8934994339942932,
      "learning_rate": 0.0001596842186806408,
      "loss": 3.616,
      "step": 231170
    },
    {
      "epoch": 0.481625,
      "grad_norm": 0.7718543410301208,
      "learning_rate": 0.00015967438067295798,
      "loss": 3.6569,
      "step": 231180
    },
    {
      "epoch": 0.48164583333333333,
      "grad_norm": 0.9578626155853271,
      "learning_rate": 0.00015966454262348565,
      "loss": 3.7766,
      "step": 231190
    },
    {
      "epoch": 0.4816666666666667,
      "grad_norm": 0.866264820098877,
      "learning_rate": 0.00015965470453226633,
      "loss": 3.7215,
      "step": 231200
    },
    {
      "epoch": 0.4816875,
      "grad_norm": 0.9085779786109924,
      "learning_rate": 0.00015964486639934248,
      "loss": 3.7483,
      "step": 231210
    },
    {
      "epoch": 0.48170833333333335,
      "grad_norm": 0.9859335422515869,
      "learning_rate": 0.00015963502822475666,
      "loss": 3.7091,
      "step": 231220
    },
    {
      "epoch": 0.48172916666666665,
      "grad_norm": 0.7593054175376892,
      "learning_rate": 0.0001596251900085513,
      "loss": 3.7407,
      "step": 231230
    },
    {
      "epoch": 0.48175,
      "grad_norm": 0.7766897082328796,
      "learning_rate": 0.000159615351750769,
      "loss": 3.9016,
      "step": 231240
    },
    {
      "epoch": 0.4817708333333333,
      "grad_norm": 0.9027536511421204,
      "learning_rate": 0.00015960551345145215,
      "loss": 3.7935,
      "step": 231250
    },
    {
      "epoch": 0.4817916666666667,
      "grad_norm": 0.6740047335624695,
      "learning_rate": 0.00015959567511064323,
      "loss": 3.8764,
      "step": 231260
    },
    {
      "epoch": 0.4818125,
      "grad_norm": 0.8810037970542908,
      "learning_rate": 0.00015958583672838489,
      "loss": 3.8358,
      "step": 231270
    },
    {
      "epoch": 0.48183333333333334,
      "grad_norm": 0.8253446221351624,
      "learning_rate": 0.00015957599830471945,
      "loss": 3.8109,
      "step": 231280
    },
    {
      "epoch": 0.48185416666666664,
      "grad_norm": 0.7994874715805054,
      "learning_rate": 0.00015956615983968948,
      "loss": 3.9029,
      "step": 231290
    },
    {
      "epoch": 0.481875,
      "grad_norm": 0.89557945728302,
      "learning_rate": 0.00015955632133333756,
      "loss": 3.8688,
      "step": 231300
    },
    {
      "epoch": 0.48189583333333336,
      "grad_norm": 2.8194892406463623,
      "learning_rate": 0.00015954648278570605,
      "loss": 3.6386,
      "step": 231310
    },
    {
      "epoch": 0.48191666666666666,
      "grad_norm": 0.8750600814819336,
      "learning_rate": 0.00015953664419683756,
      "loss": 3.7095,
      "step": 231320
    },
    {
      "epoch": 0.4819375,
      "grad_norm": 0.7543886303901672,
      "learning_rate": 0.0001595268055667745,
      "loss": 3.6563,
      "step": 231330
    },
    {
      "epoch": 0.4819583333333333,
      "grad_norm": 0.824982225894928,
      "learning_rate": 0.00015951696689555942,
      "loss": 3.8763,
      "step": 231340
    },
    {
      "epoch": 0.4819791666666667,
      "grad_norm": 0.8146476149559021,
      "learning_rate": 0.0001595071281832348,
      "loss": 3.6562,
      "step": 231350
    },
    {
      "epoch": 0.482,
      "grad_norm": 0.7538268566131592,
      "learning_rate": 0.0001594972894298432,
      "loss": 3.7523,
      "step": 231360
    },
    {
      "epoch": 0.48202083333333334,
      "grad_norm": 0.9126226902008057,
      "learning_rate": 0.00015948745063542702,
      "loss": 3.6618,
      "step": 231370
    },
    {
      "epoch": 0.48204166666666665,
      "grad_norm": 0.8467287421226501,
      "learning_rate": 0.00015947761180002887,
      "loss": 3.9504,
      "step": 231380
    },
    {
      "epoch": 0.4820625,
      "grad_norm": 0.796674907207489,
      "learning_rate": 0.0001594677729236911,
      "loss": 3.8507,
      "step": 231390
    },
    {
      "epoch": 0.4820833333333333,
      "grad_norm": 0.8228402733802795,
      "learning_rate": 0.00015945793400645633,
      "loss": 3.6256,
      "step": 231400
    },
    {
      "epoch": 0.48210416666666667,
      "grad_norm": 0.9298192262649536,
      "learning_rate": 0.00015944809504836707,
      "loss": 3.7353,
      "step": 231410
    },
    {
      "epoch": 0.482125,
      "grad_norm": 0.994321882724762,
      "learning_rate": 0.00015943825604946576,
      "loss": 3.8926,
      "step": 231420
    },
    {
      "epoch": 0.48214583333333333,
      "grad_norm": 1.3097590208053589,
      "learning_rate": 0.00015942841700979487,
      "loss": 3.6451,
      "step": 231430
    },
    {
      "epoch": 0.4821666666666667,
      "grad_norm": 0.8329955339431763,
      "learning_rate": 0.000159418577929397,
      "loss": 3.5774,
      "step": 231440
    },
    {
      "epoch": 0.4821875,
      "grad_norm": 0.7475482821464539,
      "learning_rate": 0.0001594087388083146,
      "loss": 3.7783,
      "step": 231450
    },
    {
      "epoch": 0.48220833333333335,
      "grad_norm": 0.9390319585800171,
      "learning_rate": 0.00015939889964659013,
      "loss": 3.7059,
      "step": 231460
    },
    {
      "epoch": 0.48222916666666665,
      "grad_norm": 0.7545727491378784,
      "learning_rate": 0.0001593890604442662,
      "loss": 3.6817,
      "step": 231470
    },
    {
      "epoch": 0.48225,
      "grad_norm": 0.7534033060073853,
      "learning_rate": 0.00015937922120138522,
      "loss": 3.8007,
      "step": 231480
    },
    {
      "epoch": 0.4822708333333333,
      "grad_norm": 0.873234212398529,
      "learning_rate": 0.00015936938191798972,
      "loss": 3.6967,
      "step": 231490
    },
    {
      "epoch": 0.4822916666666667,
      "grad_norm": 0.8255303502082825,
      "learning_rate": 0.00015935954259412217,
      "loss": 3.7309,
      "step": 231500
    },
    {
      "epoch": 0.4823125,
      "grad_norm": 0.8243657946586609,
      "learning_rate": 0.00015934970322982513,
      "loss": 3.6933,
      "step": 231510
    },
    {
      "epoch": 0.48233333333333334,
      "grad_norm": 0.7437993884086609,
      "learning_rate": 0.00015933986382514104,
      "loss": 3.768,
      "step": 231520
    },
    {
      "epoch": 0.48235416666666664,
      "grad_norm": 1.0088950395584106,
      "learning_rate": 0.00015933002438011247,
      "loss": 3.9672,
      "step": 231530
    },
    {
      "epoch": 0.482375,
      "grad_norm": 0.7760295867919922,
      "learning_rate": 0.00015932018489478187,
      "loss": 3.7119,
      "step": 231540
    },
    {
      "epoch": 0.48239583333333336,
      "grad_norm": 0.7500779032707214,
      "learning_rate": 0.00015931034536919181,
      "loss": 3.79,
      "step": 231550
    },
    {
      "epoch": 0.48241666666666666,
      "grad_norm": 0.8820001482963562,
      "learning_rate": 0.00015930050580338463,
      "loss": 3.6259,
      "step": 231560
    },
    {
      "epoch": 0.4824375,
      "grad_norm": 0.9076307415962219,
      "learning_rate": 0.00015929066619740304,
      "loss": 3.8344,
      "step": 231570
    },
    {
      "epoch": 0.4824583333333333,
      "grad_norm": 0.837989866733551,
      "learning_rate": 0.00015928082655128944,
      "loss": 3.7802,
      "step": 231580
    },
    {
      "epoch": 0.4824791666666667,
      "grad_norm": 0.8746243715286255,
      "learning_rate": 0.00015927098686508632,
      "loss": 3.6522,
      "step": 231590
    },
    {
      "epoch": 0.4825,
      "grad_norm": 0.8373181819915771,
      "learning_rate": 0.0001592611471388362,
      "loss": 3.7401,
      "step": 231600
    },
    {
      "epoch": 0.48252083333333334,
      "grad_norm": 0.7583537697792053,
      "learning_rate": 0.00015925130737258163,
      "loss": 3.8368,
      "step": 231610
    },
    {
      "epoch": 0.48254166666666665,
      "grad_norm": 0.7925186157226562,
      "learning_rate": 0.00015924146756636506,
      "loss": 3.815,
      "step": 231620
    },
    {
      "epoch": 0.4825625,
      "grad_norm": 0.8416827917098999,
      "learning_rate": 0.00015923162772022898,
      "loss": 3.7323,
      "step": 231630
    },
    {
      "epoch": 0.4825833333333333,
      "grad_norm": 0.8766319155693054,
      "learning_rate": 0.00015922178783421594,
      "loss": 3.844,
      "step": 231640
    },
    {
      "epoch": 0.48260416666666667,
      "grad_norm": 1.0779365301132202,
      "learning_rate": 0.00015921194790836845,
      "loss": 3.7812,
      "step": 231650
    },
    {
      "epoch": 0.482625,
      "grad_norm": 0.8669722080230713,
      "learning_rate": 0.00015920210794272894,
      "loss": 3.7228,
      "step": 231660
    },
    {
      "epoch": 0.48264583333333333,
      "grad_norm": 0.8535691499710083,
      "learning_rate": 0.00015919226793734,
      "loss": 3.7824,
      "step": 231670
    },
    {
      "epoch": 0.4826666666666667,
      "grad_norm": 0.9962921142578125,
      "learning_rate": 0.00015918242789224408,
      "loss": 3.8131,
      "step": 231680
    },
    {
      "epoch": 0.4826875,
      "grad_norm": 0.9407018423080444,
      "learning_rate": 0.00015917258780748374,
      "loss": 3.6781,
      "step": 231690
    },
    {
      "epoch": 0.48270833333333335,
      "grad_norm": 0.757737398147583,
      "learning_rate": 0.00015916274768310143,
      "loss": 3.6735,
      "step": 231700
    },
    {
      "epoch": 0.48272916666666665,
      "grad_norm": 0.7147023677825928,
      "learning_rate": 0.00015915290751913967,
      "loss": 3.847,
      "step": 231710
    },
    {
      "epoch": 0.48275,
      "grad_norm": 1.2085455656051636,
      "learning_rate": 0.00015914306731564098,
      "loss": 3.7522,
      "step": 231720
    },
    {
      "epoch": 0.4827708333333333,
      "grad_norm": 0.732002317905426,
      "learning_rate": 0.00015913322707264784,
      "loss": 3.6609,
      "step": 231730
    },
    {
      "epoch": 0.4827916666666667,
      "grad_norm": 0.7186861038208008,
      "learning_rate": 0.0001591233867902028,
      "loss": 3.8343,
      "step": 231740
    },
    {
      "epoch": 0.4828125,
      "grad_norm": 0.7348277568817139,
      "learning_rate": 0.00015911354646834836,
      "loss": 3.7308,
      "step": 231750
    },
    {
      "epoch": 0.48283333333333334,
      "grad_norm": 0.9893692135810852,
      "learning_rate": 0.00015910370610712696,
      "loss": 3.763,
      "step": 231760
    },
    {
      "epoch": 0.48285416666666664,
      "grad_norm": 0.8790050745010376,
      "learning_rate": 0.00015909386570658117,
      "loss": 3.6838,
      "step": 231770
    },
    {
      "epoch": 0.482875,
      "grad_norm": 0.7787964940071106,
      "learning_rate": 0.00015908402526675354,
      "loss": 3.6751,
      "step": 231780
    },
    {
      "epoch": 0.48289583333333336,
      "grad_norm": 0.7615320682525635,
      "learning_rate": 0.0001590741847876864,
      "loss": 3.6426,
      "step": 231790
    },
    {
      "epoch": 0.48291666666666666,
      "grad_norm": 0.7380886673927307,
      "learning_rate": 0.00015906434426942245,
      "loss": 3.8003,
      "step": 231800
    },
    {
      "epoch": 0.4829375,
      "grad_norm": 0.7264410853385925,
      "learning_rate": 0.00015905450371200413,
      "loss": 3.6466,
      "step": 231810
    },
    {
      "epoch": 0.4829583333333333,
      "grad_norm": 0.8507899641990662,
      "learning_rate": 0.0001590446631154739,
      "loss": 3.8016,
      "step": 231820
    },
    {
      "epoch": 0.4829791666666667,
      "grad_norm": 0.8420919179916382,
      "learning_rate": 0.00015903482247987434,
      "loss": 3.687,
      "step": 231830
    },
    {
      "epoch": 0.483,
      "grad_norm": 0.9035532474517822,
      "learning_rate": 0.00015902498180524787,
      "loss": 3.7586,
      "step": 231840
    },
    {
      "epoch": 0.48302083333333334,
      "grad_norm": 0.7619498372077942,
      "learning_rate": 0.0001590151410916371,
      "loss": 3.817,
      "step": 231850
    },
    {
      "epoch": 0.48304166666666665,
      "grad_norm": 0.8201980590820312,
      "learning_rate": 0.00015900530033908445,
      "loss": 3.7285,
      "step": 231860
    },
    {
      "epoch": 0.4830625,
      "grad_norm": 0.786008358001709,
      "learning_rate": 0.0001589954595476325,
      "loss": 3.8179,
      "step": 231870
    },
    {
      "epoch": 0.4830833333333333,
      "grad_norm": 0.8454810380935669,
      "learning_rate": 0.0001589856187173237,
      "loss": 3.8628,
      "step": 231880
    },
    {
      "epoch": 0.48310416666666667,
      "grad_norm": 0.8904035687446594,
      "learning_rate": 0.00015897577784820062,
      "loss": 3.702,
      "step": 231890
    },
    {
      "epoch": 0.483125,
      "grad_norm": 0.8001649975776672,
      "learning_rate": 0.0001589659369403057,
      "loss": 3.9081,
      "step": 231900
    },
    {
      "epoch": 0.48314583333333333,
      "grad_norm": 0.7375778555870056,
      "learning_rate": 0.00015895609599368148,
      "loss": 3.7265,
      "step": 231910
    },
    {
      "epoch": 0.4831666666666667,
      "grad_norm": 0.904308021068573,
      "learning_rate": 0.00015894625500837052,
      "loss": 3.7865,
      "step": 231920
    },
    {
      "epoch": 0.4831875,
      "grad_norm": 0.817367672920227,
      "learning_rate": 0.0001589364139844152,
      "loss": 3.7048,
      "step": 231930
    },
    {
      "epoch": 0.48320833333333335,
      "grad_norm": 0.7515365481376648,
      "learning_rate": 0.00015892657292185816,
      "loss": 3.8943,
      "step": 231940
    },
    {
      "epoch": 0.48322916666666665,
      "grad_norm": 0.91302490234375,
      "learning_rate": 0.00015891673182074189,
      "loss": 3.8225,
      "step": 231950
    },
    {
      "epoch": 0.48325,
      "grad_norm": 0.738050639629364,
      "learning_rate": 0.00015890689068110878,
      "loss": 3.6157,
      "step": 231960
    },
    {
      "epoch": 0.4832708333333333,
      "grad_norm": 0.7314541339874268,
      "learning_rate": 0.00015889704950300152,
      "loss": 3.8501,
      "step": 231970
    },
    {
      "epoch": 0.4832916666666667,
      "grad_norm": 0.8015196323394775,
      "learning_rate": 0.00015888720828646246,
      "loss": 3.5624,
      "step": 231980
    },
    {
      "epoch": 0.4833125,
      "grad_norm": 0.8287873864173889,
      "learning_rate": 0.0001588773670315342,
      "loss": 3.8525,
      "step": 231990
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 0.7610555291175842,
      "learning_rate": 0.00015886752573825922,
      "loss": 3.7556,
      "step": 232000
    },
    {
      "epoch": 0.48333333333333334,
      "eval_loss": 4.138880729675293,
      "eval_runtime": 8.7326,
      "eval_samples_per_second": 1.145,
      "eval_steps_per_second": 0.344,
      "step": 232000
    },
    {
      "epoch": 0.48335416666666664,
      "grad_norm": 0.8765048384666443,
      "learning_rate": 0.00015885768440668005,
      "loss": 3.8162,
      "step": 232010
    },
    {
      "epoch": 0.483375,
      "grad_norm": 0.7538217902183533,
      "learning_rate": 0.0001588478430368392,
      "loss": 3.7826,
      "step": 232020
    },
    {
      "epoch": 0.48339583333333336,
      "grad_norm": 1.037157416343689,
      "learning_rate": 0.00015883800162877916,
      "loss": 3.7079,
      "step": 232030
    },
    {
      "epoch": 0.48341666666666666,
      "grad_norm": 0.8796883225440979,
      "learning_rate": 0.00015882816018254243,
      "loss": 3.7719,
      "step": 232040
    },
    {
      "epoch": 0.4834375,
      "grad_norm": 0.9142357110977173,
      "learning_rate": 0.00015881831869817155,
      "loss": 3.7627,
      "step": 232050
    },
    {
      "epoch": 0.4834583333333333,
      "grad_norm": 0.7659239172935486,
      "learning_rate": 0.00015880847717570905,
      "loss": 3.8538,
      "step": 232060
    },
    {
      "epoch": 0.4834791666666667,
      "grad_norm": 0.7478051781654358,
      "learning_rate": 0.00015879863561519742,
      "loss": 3.7544,
      "step": 232070
    },
    {
      "epoch": 0.4835,
      "grad_norm": 0.9247142672538757,
      "learning_rate": 0.0001587887940166791,
      "loss": 3.8043,
      "step": 232080
    },
    {
      "epoch": 0.48352083333333334,
      "grad_norm": 0.9348586797714233,
      "learning_rate": 0.00015877895238019675,
      "loss": 3.8881,
      "step": 232090
    },
    {
      "epoch": 0.48354166666666665,
      "grad_norm": 0.8180157542228699,
      "learning_rate": 0.00015876911070579274,
      "loss": 3.9621,
      "step": 232100
    },
    {
      "epoch": 0.4835625,
      "grad_norm": 0.8172170519828796,
      "learning_rate": 0.00015875926899350972,
      "loss": 3.7451,
      "step": 232110
    },
    {
      "epoch": 0.4835833333333333,
      "grad_norm": 0.8073016405105591,
      "learning_rate": 0.00015874942724339005,
      "loss": 3.7576,
      "step": 232120
    },
    {
      "epoch": 0.48360416666666667,
      "grad_norm": 0.8993164300918579,
      "learning_rate": 0.0001587395854554763,
      "loss": 3.9539,
      "step": 232130
    },
    {
      "epoch": 0.483625,
      "grad_norm": 0.8052517771720886,
      "learning_rate": 0.00015872974362981108,
      "loss": 3.8399,
      "step": 232140
    },
    {
      "epoch": 0.48364583333333333,
      "grad_norm": 0.7859756350517273,
      "learning_rate": 0.00015871990176643681,
      "loss": 3.7987,
      "step": 232150
    },
    {
      "epoch": 0.4836666666666667,
      "grad_norm": 0.7334598898887634,
      "learning_rate": 0.00015871005986539593,
      "loss": 3.8562,
      "step": 232160
    },
    {
      "epoch": 0.4836875,
      "grad_norm": 0.7204068899154663,
      "learning_rate": 0.00015870021792673117,
      "loss": 3.8258,
      "step": 232170
    },
    {
      "epoch": 0.48370833333333335,
      "grad_norm": 0.7401258945465088,
      "learning_rate": 0.00015869037595048481,
      "loss": 3.69,
      "step": 232180
    },
    {
      "epoch": 0.48372916666666665,
      "grad_norm": 0.7552419304847717,
      "learning_rate": 0.0001586805339366995,
      "loss": 3.7539,
      "step": 232190
    },
    {
      "epoch": 0.48375,
      "grad_norm": 0.797454833984375,
      "learning_rate": 0.00015867069188541772,
      "loss": 3.6951,
      "step": 232200
    },
    {
      "epoch": 0.4837708333333333,
      "grad_norm": 0.7920878529548645,
      "learning_rate": 0.000158660849796682,
      "loss": 3.8151,
      "step": 232210
    },
    {
      "epoch": 0.4837916666666667,
      "grad_norm": 0.8161654472351074,
      "learning_rate": 0.00015865100767053478,
      "loss": 3.8398,
      "step": 232220
    },
    {
      "epoch": 0.4838125,
      "grad_norm": 0.7897419333457947,
      "learning_rate": 0.00015864116550701865,
      "loss": 3.8164,
      "step": 232230
    },
    {
      "epoch": 0.48383333333333334,
      "grad_norm": 0.7918409109115601,
      "learning_rate": 0.00015863132330617614,
      "loss": 3.6715,
      "step": 232240
    },
    {
      "epoch": 0.48385416666666664,
      "grad_norm": 0.8775952458381653,
      "learning_rate": 0.00015862148106804977,
      "loss": 3.7763,
      "step": 232250
    },
    {
      "epoch": 0.483875,
      "grad_norm": 0.8328529000282288,
      "learning_rate": 0.00015861163879268193,
      "loss": 3.9385,
      "step": 232260
    },
    {
      "epoch": 0.48389583333333336,
      "grad_norm": 0.746001124382019,
      "learning_rate": 0.00015860179648011523,
      "loss": 4.0005,
      "step": 232270
    },
    {
      "epoch": 0.48391666666666666,
      "grad_norm": 0.7574998140335083,
      "learning_rate": 0.0001585919541303922,
      "loss": 3.8194,
      "step": 232280
    },
    {
      "epoch": 0.4839375,
      "grad_norm": 0.8907180428504944,
      "learning_rate": 0.0001585821117435553,
      "loss": 3.7761,
      "step": 232290
    },
    {
      "epoch": 0.4839583333333333,
      "grad_norm": 0.7886906266212463,
      "learning_rate": 0.0001585722693196471,
      "loss": 3.9731,
      "step": 232300
    },
    {
      "epoch": 0.4839791666666667,
      "grad_norm": 0.7879371643066406,
      "learning_rate": 0.0001585624268587101,
      "loss": 3.8564,
      "step": 232310
    },
    {
      "epoch": 0.484,
      "grad_norm": 0.7424598932266235,
      "learning_rate": 0.00015855258436078682,
      "loss": 3.7106,
      "step": 232320
    },
    {
      "epoch": 0.48402083333333334,
      "grad_norm": 0.7808362245559692,
      "learning_rate": 0.0001585427418259197,
      "loss": 3.7829,
      "step": 232330
    },
    {
      "epoch": 0.48404166666666665,
      "grad_norm": 0.8030410408973694,
      "learning_rate": 0.00015853289925415136,
      "loss": 3.7696,
      "step": 232340
    },
    {
      "epoch": 0.4840625,
      "grad_norm": 0.8723728656768799,
      "learning_rate": 0.00015852305664552428,
      "loss": 3.7405,
      "step": 232350
    },
    {
      "epoch": 0.4840833333333333,
      "grad_norm": 0.7180720567703247,
      "learning_rate": 0.00015851321400008089,
      "loss": 3.7682,
      "step": 232360
    },
    {
      "epoch": 0.48410416666666667,
      "grad_norm": 0.770520806312561,
      "learning_rate": 0.0001585033713178639,
      "loss": 3.932,
      "step": 232370
    },
    {
      "epoch": 0.484125,
      "grad_norm": 0.7587515711784363,
      "learning_rate": 0.00015849352859891564,
      "loss": 3.8743,
      "step": 232380
    },
    {
      "epoch": 0.48414583333333333,
      "grad_norm": 0.7825639247894287,
      "learning_rate": 0.00015848368584327872,
      "loss": 3.858,
      "step": 232390
    },
    {
      "epoch": 0.4841666666666667,
      "grad_norm": 0.8302168846130371,
      "learning_rate": 0.00015847384305099562,
      "loss": 3.6722,
      "step": 232400
    },
    {
      "epoch": 0.4841875,
      "grad_norm": 0.9146000146865845,
      "learning_rate": 0.00015846400022210888,
      "loss": 3.7623,
      "step": 232410
    },
    {
      "epoch": 0.48420833333333335,
      "grad_norm": 0.8112497329711914,
      "learning_rate": 0.00015845415735666105,
      "loss": 3.7612,
      "step": 232420
    },
    {
      "epoch": 0.48422916666666665,
      "grad_norm": 0.8091453313827515,
      "learning_rate": 0.00015844431445469453,
      "loss": 3.7935,
      "step": 232430
    },
    {
      "epoch": 0.48425,
      "grad_norm": 0.7504743933677673,
      "learning_rate": 0.00015843447151625195,
      "loss": 3.8914,
      "step": 232440
    },
    {
      "epoch": 0.4842708333333333,
      "grad_norm": 0.8124918341636658,
      "learning_rate": 0.00015842462854137582,
      "loss": 3.9117,
      "step": 232450
    },
    {
      "epoch": 0.4842916666666667,
      "grad_norm": 0.9992333650588989,
      "learning_rate": 0.00015841478553010858,
      "loss": 3.7295,
      "step": 232460
    },
    {
      "epoch": 0.4843125,
      "grad_norm": 0.7567240595817566,
      "learning_rate": 0.0001584049424824928,
      "loss": 3.9476,
      "step": 232470
    },
    {
      "epoch": 0.48433333333333334,
      "grad_norm": 0.8164116740226746,
      "learning_rate": 0.00015839509939857106,
      "loss": 3.8472,
      "step": 232480
    },
    {
      "epoch": 0.48435416666666664,
      "grad_norm": 0.8366726636886597,
      "learning_rate": 0.00015838525627838578,
      "loss": 3.723,
      "step": 232490
    },
    {
      "epoch": 0.484375,
      "grad_norm": 0.8934683203697205,
      "learning_rate": 0.00015837541312197946,
      "loss": 3.7678,
      "step": 232500
    },
    {
      "epoch": 0.48439583333333336,
      "grad_norm": 0.7525472044944763,
      "learning_rate": 0.00015836556992939474,
      "loss": 3.8181,
      "step": 232510
    },
    {
      "epoch": 0.48441666666666666,
      "grad_norm": 0.8558514714241028,
      "learning_rate": 0.00015835572670067403,
      "loss": 3.8784,
      "step": 232520
    },
    {
      "epoch": 0.4844375,
      "grad_norm": 0.9100266098976135,
      "learning_rate": 0.00015834588343585987,
      "loss": 3.9713,
      "step": 232530
    },
    {
      "epoch": 0.4844583333333333,
      "grad_norm": 0.7529352307319641,
      "learning_rate": 0.00015833604013499488,
      "loss": 3.6905,
      "step": 232540
    },
    {
      "epoch": 0.4844791666666667,
      "grad_norm": 1.1195701360702515,
      "learning_rate": 0.00015832619679812142,
      "loss": 3.9124,
      "step": 232550
    },
    {
      "epoch": 0.4845,
      "grad_norm": 0.7439576387405396,
      "learning_rate": 0.00015831635342528213,
      "loss": 3.7625,
      "step": 232560
    },
    {
      "epoch": 0.48452083333333335,
      "grad_norm": 0.7193692326545715,
      "learning_rate": 0.00015830651001651943,
      "loss": 3.7895,
      "step": 232570
    },
    {
      "epoch": 0.48454166666666665,
      "grad_norm": 1.004589557647705,
      "learning_rate": 0.00015829666657187595,
      "loss": 3.8474,
      "step": 232580
    },
    {
      "epoch": 0.4845625,
      "grad_norm": 0.7684257626533508,
      "learning_rate": 0.0001582868230913941,
      "loss": 3.6969,
      "step": 232590
    },
    {
      "epoch": 0.4845833333333333,
      "grad_norm": 0.7774927616119385,
      "learning_rate": 0.0001582769795751165,
      "loss": 3.9128,
      "step": 232600
    },
    {
      "epoch": 0.48460416666666667,
      "grad_norm": 0.7564842700958252,
      "learning_rate": 0.0001582671360230856,
      "loss": 3.925,
      "step": 232610
    },
    {
      "epoch": 0.484625,
      "grad_norm": 0.8405055999755859,
      "learning_rate": 0.000158257292435344,
      "loss": 3.7794,
      "step": 232620
    },
    {
      "epoch": 0.48464583333333333,
      "grad_norm": 0.8224589824676514,
      "learning_rate": 0.00015824744881193407,
      "loss": 3.747,
      "step": 232630
    },
    {
      "epoch": 0.4846666666666667,
      "grad_norm": 0.7579730749130249,
      "learning_rate": 0.00015823760515289848,
      "loss": 3.7163,
      "step": 232640
    },
    {
      "epoch": 0.4846875,
      "grad_norm": 0.9374364614486694,
      "learning_rate": 0.00015822776145827972,
      "loss": 3.6882,
      "step": 232650
    },
    {
      "epoch": 0.48470833333333335,
      "grad_norm": 0.8515654802322388,
      "learning_rate": 0.00015821791772812022,
      "loss": 3.7885,
      "step": 232660
    },
    {
      "epoch": 0.48472916666666666,
      "grad_norm": 0.8199179768562317,
      "learning_rate": 0.00015820807396246263,
      "loss": 3.797,
      "step": 232670
    },
    {
      "epoch": 0.48475,
      "grad_norm": 1.1160411834716797,
      "learning_rate": 0.00015819823016134942,
      "loss": 3.8103,
      "step": 232680
    },
    {
      "epoch": 0.4847708333333333,
      "grad_norm": 0.8478168845176697,
      "learning_rate": 0.00015818838632482307,
      "loss": 3.9377,
      "step": 232690
    },
    {
      "epoch": 0.4847916666666667,
      "grad_norm": 0.9293464422225952,
      "learning_rate": 0.0001581785424529261,
      "loss": 3.7781,
      "step": 232700
    },
    {
      "epoch": 0.4848125,
      "grad_norm": 0.7811062932014465,
      "learning_rate": 0.00015816869854570114,
      "loss": 3.6317,
      "step": 232710
    },
    {
      "epoch": 0.48483333333333334,
      "grad_norm": 0.847146213054657,
      "learning_rate": 0.00015815885460319055,
      "loss": 3.8127,
      "step": 232720
    },
    {
      "epoch": 0.48485416666666664,
      "grad_norm": 0.746802568435669,
      "learning_rate": 0.000158149010625437,
      "loss": 3.7748,
      "step": 232730
    },
    {
      "epoch": 0.484875,
      "grad_norm": 0.8267939686775208,
      "learning_rate": 0.00015813916661248294,
      "loss": 3.7632,
      "step": 232740
    },
    {
      "epoch": 0.48489583333333336,
      "grad_norm": 0.7639265060424805,
      "learning_rate": 0.00015812932256437087,
      "loss": 3.8362,
      "step": 232750
    },
    {
      "epoch": 0.48491666666666666,
      "grad_norm": 0.9292352199554443,
      "learning_rate": 0.00015811947848114335,
      "loss": 3.8691,
      "step": 232760
    },
    {
      "epoch": 0.4849375,
      "grad_norm": 0.9181098937988281,
      "learning_rate": 0.00015810963436284294,
      "loss": 3.6715,
      "step": 232770
    },
    {
      "epoch": 0.4849583333333333,
      "grad_norm": 0.8704537749290466,
      "learning_rate": 0.0001580997902095121,
      "loss": 3.7909,
      "step": 232780
    },
    {
      "epoch": 0.4849791666666667,
      "grad_norm": 1.0314306020736694,
      "learning_rate": 0.00015808994602119333,
      "loss": 3.9516,
      "step": 232790
    },
    {
      "epoch": 0.485,
      "grad_norm": 0.9932656288146973,
      "learning_rate": 0.00015808010179792925,
      "loss": 3.7374,
      "step": 232800
    },
    {
      "epoch": 0.48502083333333335,
      "grad_norm": 0.8658761978149414,
      "learning_rate": 0.00015807025753976229,
      "loss": 4.0545,
      "step": 232810
    },
    {
      "epoch": 0.48504166666666665,
      "grad_norm": 0.9794010519981384,
      "learning_rate": 0.00015806041324673505,
      "loss": 3.8967,
      "step": 232820
    },
    {
      "epoch": 0.4850625,
      "grad_norm": 0.8249161839485168,
      "learning_rate": 0.00015805056891888996,
      "loss": 3.6619,
      "step": 232830
    },
    {
      "epoch": 0.4850833333333333,
      "grad_norm": 1.151687741279602,
      "learning_rate": 0.0001580407245562697,
      "loss": 3.8392,
      "step": 232840
    },
    {
      "epoch": 0.48510416666666667,
      "grad_norm": 0.8900823593139648,
      "learning_rate": 0.0001580308801589166,
      "loss": 3.9175,
      "step": 232850
    },
    {
      "epoch": 0.485125,
      "grad_norm": 0.8145301342010498,
      "learning_rate": 0.00015802103572687328,
      "loss": 3.7068,
      "step": 232860
    },
    {
      "epoch": 0.48514583333333333,
      "grad_norm": 0.7661280035972595,
      "learning_rate": 0.0001580111912601823,
      "loss": 3.8521,
      "step": 232870
    },
    {
      "epoch": 0.4851666666666667,
      "grad_norm": 0.8157902359962463,
      "learning_rate": 0.00015800134675888613,
      "loss": 3.6605,
      "step": 232880
    },
    {
      "epoch": 0.4851875,
      "grad_norm": 0.8128459453582764,
      "learning_rate": 0.0001579915022230273,
      "loss": 3.8311,
      "step": 232890
    },
    {
      "epoch": 0.48520833333333335,
      "grad_norm": 0.9269819855690002,
      "learning_rate": 0.00015798165765264834,
      "loss": 3.9192,
      "step": 232900
    },
    {
      "epoch": 0.48522916666666666,
      "grad_norm": 0.8096192479133606,
      "learning_rate": 0.0001579718130477918,
      "loss": 3.8303,
      "step": 232910
    },
    {
      "epoch": 0.48525,
      "grad_norm": 0.8991670608520508,
      "learning_rate": 0.00015796196840850017,
      "loss": 3.8538,
      "step": 232920
    },
    {
      "epoch": 0.4852708333333333,
      "grad_norm": 0.8774327039718628,
      "learning_rate": 0.00015795212373481598,
      "loss": 3.7753,
      "step": 232930
    },
    {
      "epoch": 0.4852916666666667,
      "grad_norm": 0.7879409193992615,
      "learning_rate": 0.00015794227902678177,
      "loss": 3.7346,
      "step": 232940
    },
    {
      "epoch": 0.4853125,
      "grad_norm": 0.8142565488815308,
      "learning_rate": 0.00015793243428444007,
      "loss": 3.7369,
      "step": 232950
    },
    {
      "epoch": 0.48533333333333334,
      "grad_norm": 0.7004496455192566,
      "learning_rate": 0.00015792258950783337,
      "loss": 3.7796,
      "step": 232960
    },
    {
      "epoch": 0.48535416666666664,
      "grad_norm": 0.817136824131012,
      "learning_rate": 0.00015791274469700425,
      "loss": 3.7472,
      "step": 232970
    },
    {
      "epoch": 0.485375,
      "grad_norm": 0.8153223395347595,
      "learning_rate": 0.0001579028998519952,
      "loss": 3.6881,
      "step": 232980
    },
    {
      "epoch": 0.48539583333333336,
      "grad_norm": 0.9653376340866089,
      "learning_rate": 0.00015789305497284877,
      "loss": 3.7326,
      "step": 232990
    },
    {
      "epoch": 0.48541666666666666,
      "grad_norm": 0.9751014709472656,
      "learning_rate": 0.00015788321005960737,
      "loss": 3.7213,
      "step": 233000
    },
    {
      "epoch": 0.48541666666666666,
      "eval_loss": 4.140509128570557,
      "eval_runtime": 7.9812,
      "eval_samples_per_second": 1.253,
      "eval_steps_per_second": 0.376,
      "step": 233000
    },
    {
      "epoch": 0.4854375,
      "grad_norm": 0.9185992479324341,
      "learning_rate": 0.00015787336511231375,
      "loss": 3.7753,
      "step": 233010
    },
    {
      "epoch": 0.4854583333333333,
      "grad_norm": 0.8205281496047974,
      "learning_rate": 0.00015786352013101023,
      "loss": 3.9091,
      "step": 233020
    },
    {
      "epoch": 0.4854791666666667,
      "grad_norm": 0.7302684187889099,
      "learning_rate": 0.00015785367511573942,
      "loss": 3.729,
      "step": 233030
    },
    {
      "epoch": 0.4855,
      "grad_norm": 0.8853422999382019,
      "learning_rate": 0.0001578438300665439,
      "loss": 3.9535,
      "step": 233040
    },
    {
      "epoch": 0.48552083333333335,
      "grad_norm": 0.8499074578285217,
      "learning_rate": 0.00015783398498346607,
      "loss": 3.9262,
      "step": 233050
    },
    {
      "epoch": 0.48554166666666665,
      "grad_norm": 0.8926004767417908,
      "learning_rate": 0.00015782413986654856,
      "loss": 3.823,
      "step": 233060
    },
    {
      "epoch": 0.4855625,
      "grad_norm": 0.7761168479919434,
      "learning_rate": 0.00015781429471583387,
      "loss": 3.7715,
      "step": 233070
    },
    {
      "epoch": 0.4855833333333333,
      "grad_norm": 0.89554363489151,
      "learning_rate": 0.0001578044495313645,
      "loss": 3.9441,
      "step": 233080
    },
    {
      "epoch": 0.48560416666666667,
      "grad_norm": 1.569985032081604,
      "learning_rate": 0.000157794604313183,
      "loss": 3.7381,
      "step": 233090
    },
    {
      "epoch": 0.485625,
      "grad_norm": 0.8921452164649963,
      "learning_rate": 0.0001577847590613319,
      "loss": 3.7334,
      "step": 233100
    },
    {
      "epoch": 0.48564583333333333,
      "grad_norm": 0.8977653384208679,
      "learning_rate": 0.00015777491377585371,
      "loss": 3.7369,
      "step": 233110
    },
    {
      "epoch": 0.4856666666666667,
      "grad_norm": 0.9199796915054321,
      "learning_rate": 0.00015776506845679097,
      "loss": 3.797,
      "step": 233120
    },
    {
      "epoch": 0.4856875,
      "grad_norm": 1.051110029220581,
      "learning_rate": 0.00015775522310418623,
      "loss": 3.8367,
      "step": 233130
    },
    {
      "epoch": 0.48570833333333335,
      "grad_norm": 0.7949117422103882,
      "learning_rate": 0.00015774537771808198,
      "loss": 3.6011,
      "step": 233140
    },
    {
      "epoch": 0.48572916666666666,
      "grad_norm": 0.7739816308021545,
      "learning_rate": 0.0001577355322985208,
      "loss": 3.8068,
      "step": 233150
    },
    {
      "epoch": 0.48575,
      "grad_norm": 0.8573943376541138,
      "learning_rate": 0.00015772568684554512,
      "loss": 3.8237,
      "step": 233160
    },
    {
      "epoch": 0.4857708333333333,
      "grad_norm": 1.0813746452331543,
      "learning_rate": 0.00015771584135919754,
      "loss": 3.8533,
      "step": 233170
    },
    {
      "epoch": 0.4857916666666667,
      "grad_norm": 0.6879247426986694,
      "learning_rate": 0.0001577059958395206,
      "loss": 3.929,
      "step": 233180
    },
    {
      "epoch": 0.4858125,
      "grad_norm": 0.928537130355835,
      "learning_rate": 0.00015769615028655686,
      "loss": 3.9312,
      "step": 233190
    },
    {
      "epoch": 0.48583333333333334,
      "grad_norm": 0.9973296523094177,
      "learning_rate": 0.0001576863047003487,
      "loss": 3.7273,
      "step": 233200
    },
    {
      "epoch": 0.48585416666666664,
      "grad_norm": 0.7801927924156189,
      "learning_rate": 0.0001576764590809388,
      "loss": 3.69,
      "step": 233210
    },
    {
      "epoch": 0.485875,
      "grad_norm": 0.7164983153343201,
      "learning_rate": 0.00015766661342836964,
      "loss": 3.747,
      "step": 233220
    },
    {
      "epoch": 0.48589583333333336,
      "grad_norm": 0.8273382186889648,
      "learning_rate": 0.0001576567677426837,
      "loss": 4.0186,
      "step": 233230
    },
    {
      "epoch": 0.48591666666666666,
      "grad_norm": 0.8067287802696228,
      "learning_rate": 0.0001576469220239236,
      "loss": 3.6433,
      "step": 233240
    },
    {
      "epoch": 0.4859375,
      "grad_norm": 0.841361939907074,
      "learning_rate": 0.0001576370762721318,
      "loss": 3.8522,
      "step": 233250
    },
    {
      "epoch": 0.4859583333333333,
      "grad_norm": 0.8031044006347656,
      "learning_rate": 0.00015762723048735086,
      "loss": 3.6795,
      "step": 233260
    },
    {
      "epoch": 0.4859791666666667,
      "grad_norm": 0.8702734708786011,
      "learning_rate": 0.0001576173846696233,
      "loss": 3.7732,
      "step": 233270
    },
    {
      "epoch": 0.486,
      "grad_norm": 0.7283257842063904,
      "learning_rate": 0.0001576075388189917,
      "loss": 3.7594,
      "step": 233280
    },
    {
      "epoch": 0.48602083333333335,
      "grad_norm": 0.7969305515289307,
      "learning_rate": 0.00015759769293549847,
      "loss": 3.8115,
      "step": 233290
    },
    {
      "epoch": 0.48604166666666665,
      "grad_norm": 0.8505333065986633,
      "learning_rate": 0.00015758784701918626,
      "loss": 3.8819,
      "step": 233300
    },
    {
      "epoch": 0.4860625,
      "grad_norm": 0.7839276194572449,
      "learning_rate": 0.00015757800107009756,
      "loss": 3.7598,
      "step": 233310
    },
    {
      "epoch": 0.4860833333333333,
      "grad_norm": 0.7212319374084473,
      "learning_rate": 0.0001575681550882749,
      "loss": 3.659,
      "step": 233320
    },
    {
      "epoch": 0.48610416666666667,
      "grad_norm": 0.8628067374229431,
      "learning_rate": 0.00015755830907376072,
      "loss": 3.8937,
      "step": 233330
    },
    {
      "epoch": 0.486125,
      "grad_norm": 0.9562207460403442,
      "learning_rate": 0.0001575484630265977,
      "loss": 3.8125,
      "step": 233340
    },
    {
      "epoch": 0.48614583333333333,
      "grad_norm": 0.7121869325637817,
      "learning_rate": 0.00015753861694682832,
      "loss": 3.5617,
      "step": 233350
    },
    {
      "epoch": 0.4861666666666667,
      "grad_norm": 0.8954808712005615,
      "learning_rate": 0.0001575287708344951,
      "loss": 3.7317,
      "step": 233360
    },
    {
      "epoch": 0.4861875,
      "grad_norm": 1.089167594909668,
      "learning_rate": 0.00015751892468964052,
      "loss": 3.8251,
      "step": 233370
    },
    {
      "epoch": 0.48620833333333335,
      "grad_norm": 0.762148380279541,
      "learning_rate": 0.00015750907851230724,
      "loss": 3.7618,
      "step": 233380
    },
    {
      "epoch": 0.48622916666666666,
      "grad_norm": 0.778984546661377,
      "learning_rate": 0.00015749923230253766,
      "loss": 3.836,
      "step": 233390
    },
    {
      "epoch": 0.48625,
      "grad_norm": 0.8027585744857788,
      "learning_rate": 0.00015748938606037437,
      "loss": 3.7592,
      "step": 233400
    },
    {
      "epoch": 0.4862708333333333,
      "grad_norm": 0.8196234703063965,
      "learning_rate": 0.0001574795397858599,
      "loss": 3.7079,
      "step": 233410
    },
    {
      "epoch": 0.4862916666666667,
      "grad_norm": 0.7884858250617981,
      "learning_rate": 0.0001574696934790368,
      "loss": 3.9791,
      "step": 233420
    },
    {
      "epoch": 0.4863125,
      "grad_norm": 0.741572380065918,
      "learning_rate": 0.00015745984713994756,
      "loss": 3.7365,
      "step": 233430
    },
    {
      "epoch": 0.48633333333333334,
      "grad_norm": 0.8236186504364014,
      "learning_rate": 0.00015745000076863473,
      "loss": 3.7965,
      "step": 233440
    },
    {
      "epoch": 0.48635416666666664,
      "grad_norm": 0.9954376220703125,
      "learning_rate": 0.00015744015436514082,
      "loss": 3.6565,
      "step": 233450
    },
    {
      "epoch": 0.486375,
      "grad_norm": 0.7586520910263062,
      "learning_rate": 0.00015743030792950843,
      "loss": 3.582,
      "step": 233460
    },
    {
      "epoch": 0.48639583333333336,
      "grad_norm": 0.8646568059921265,
      "learning_rate": 0.00015742046146178005,
      "loss": 3.7514,
      "step": 233470
    },
    {
      "epoch": 0.48641666666666666,
      "grad_norm": 0.8158363103866577,
      "learning_rate": 0.0001574106149619982,
      "loss": 3.8761,
      "step": 233480
    },
    {
      "epoch": 0.4864375,
      "grad_norm": 1.0972819328308105,
      "learning_rate": 0.00015740076843020543,
      "loss": 3.7738,
      "step": 233490
    },
    {
      "epoch": 0.4864583333333333,
      "grad_norm": 0.8053805232048035,
      "learning_rate": 0.00015739092186644425,
      "loss": 3.7663,
      "step": 233500
    },
    {
      "epoch": 0.4864791666666667,
      "grad_norm": 0.8950564861297607,
      "learning_rate": 0.00015738107527075724,
      "loss": 3.6816,
      "step": 233510
    },
    {
      "epoch": 0.4865,
      "grad_norm": 0.7443966865539551,
      "learning_rate": 0.00015737122864318694,
      "loss": 3.8225,
      "step": 233520
    },
    {
      "epoch": 0.48652083333333335,
      "grad_norm": 1.022658109664917,
      "learning_rate": 0.00015736138198377576,
      "loss": 3.6839,
      "step": 233530
    },
    {
      "epoch": 0.48654166666666665,
      "grad_norm": 0.9549194574356079,
      "learning_rate": 0.00015735153529256637,
      "loss": 3.868,
      "step": 233540
    },
    {
      "epoch": 0.4865625,
      "grad_norm": 0.73094242811203,
      "learning_rate": 0.0001573416885696013,
      "loss": 3.8383,
      "step": 233550
    },
    {
      "epoch": 0.4865833333333333,
      "grad_norm": 0.9215630292892456,
      "learning_rate": 0.00015733184181492297,
      "loss": 3.8668,
      "step": 233560
    },
    {
      "epoch": 0.48660416666666667,
      "grad_norm": 0.7202052474021912,
      "learning_rate": 0.00015732199502857403,
      "loss": 3.7465,
      "step": 233570
    },
    {
      "epoch": 0.486625,
      "grad_norm": 0.947358250617981,
      "learning_rate": 0.00015731214821059695,
      "loss": 3.8075,
      "step": 233580
    },
    {
      "epoch": 0.48664583333333333,
      "grad_norm": 0.7884178757667542,
      "learning_rate": 0.00015730230136103428,
      "loss": 3.7225,
      "step": 233590
    },
    {
      "epoch": 0.4866666666666667,
      "grad_norm": 0.7337406277656555,
      "learning_rate": 0.00015729245447992858,
      "loss": 3.8043,
      "step": 233600
    },
    {
      "epoch": 0.4866875,
      "grad_norm": 0.7780635952949524,
      "learning_rate": 0.00015728260756732234,
      "loss": 3.7127,
      "step": 233610
    },
    {
      "epoch": 0.48670833333333335,
      "grad_norm": 0.8112357258796692,
      "learning_rate": 0.00015727276062325814,
      "loss": 3.8408,
      "step": 233620
    },
    {
      "epoch": 0.48672916666666666,
      "grad_norm": 0.7268564105033875,
      "learning_rate": 0.0001572629136477785,
      "loss": 3.7843,
      "step": 233630
    },
    {
      "epoch": 0.48675,
      "grad_norm": 0.7389615178108215,
      "learning_rate": 0.00015725306664092593,
      "loss": 3.8345,
      "step": 233640
    },
    {
      "epoch": 0.4867708333333333,
      "grad_norm": 0.763015627861023,
      "learning_rate": 0.00015724321960274297,
      "loss": 3.8153,
      "step": 233650
    },
    {
      "epoch": 0.4867916666666667,
      "grad_norm": 0.8169787526130676,
      "learning_rate": 0.00015723337253327217,
      "loss": 3.7725,
      "step": 233660
    },
    {
      "epoch": 0.4868125,
      "grad_norm": 0.7747707962989807,
      "learning_rate": 0.00015722352543255606,
      "loss": 3.8234,
      "step": 233670
    },
    {
      "epoch": 0.48683333333333334,
      "grad_norm": 0.8617216944694519,
      "learning_rate": 0.0001572136783006372,
      "loss": 3.609,
      "step": 233680
    },
    {
      "epoch": 0.48685416666666664,
      "grad_norm": 0.6871325969696045,
      "learning_rate": 0.00015720383113755816,
      "loss": 3.7183,
      "step": 233690
    },
    {
      "epoch": 0.486875,
      "grad_norm": 0.8592485785484314,
      "learning_rate": 0.0001571939839433613,
      "loss": 3.8471,
      "step": 233700
    },
    {
      "epoch": 0.48689583333333336,
      "grad_norm": 0.8100702166557312,
      "learning_rate": 0.00015718413671808934,
      "loss": 3.7234,
      "step": 233710
    },
    {
      "epoch": 0.48691666666666666,
      "grad_norm": 0.8925784230232239,
      "learning_rate": 0.0001571742894617848,
      "loss": 3.7452,
      "step": 233720
    },
    {
      "epoch": 0.4869375,
      "grad_norm": 0.8158692121505737,
      "learning_rate": 0.00015716444217449009,
      "loss": 3.804,
      "step": 233730
    },
    {
      "epoch": 0.4869583333333333,
      "grad_norm": 0.785118043422699,
      "learning_rate": 0.00015715459485624787,
      "loss": 4.0074,
      "step": 233740
    },
    {
      "epoch": 0.4869791666666667,
      "grad_norm": 0.8050677180290222,
      "learning_rate": 0.0001571447475071006,
      "loss": 3.7286,
      "step": 233750
    },
    {
      "epoch": 0.487,
      "grad_norm": 0.9164366126060486,
      "learning_rate": 0.00015713490012709088,
      "loss": 3.9502,
      "step": 233760
    },
    {
      "epoch": 0.48702083333333335,
      "grad_norm": 0.8125970363616943,
      "learning_rate": 0.00015712505271626122,
      "loss": 3.6788,
      "step": 233770
    },
    {
      "epoch": 0.48704166666666665,
      "grad_norm": 0.8609405755996704,
      "learning_rate": 0.00015711520527465412,
      "loss": 3.8311,
      "step": 233780
    },
    {
      "epoch": 0.4870625,
      "grad_norm": 0.7399790287017822,
      "learning_rate": 0.0001571053578023122,
      "loss": 3.6422,
      "step": 233790
    },
    {
      "epoch": 0.4870833333333333,
      "grad_norm": 0.8042760491371155,
      "learning_rate": 0.00015709551029927788,
      "loss": 3.8387,
      "step": 233800
    },
    {
      "epoch": 0.48710416666666667,
      "grad_norm": 0.8555907607078552,
      "learning_rate": 0.00015708566276559382,
      "loss": 3.7898,
      "step": 233810
    },
    {
      "epoch": 0.487125,
      "grad_norm": 0.8043708801269531,
      "learning_rate": 0.00015707581520130244,
      "loss": 3.7632,
      "step": 233820
    },
    {
      "epoch": 0.48714583333333333,
      "grad_norm": 0.7736895680427551,
      "learning_rate": 0.00015706596760644637,
      "loss": 3.7606,
      "step": 233830
    },
    {
      "epoch": 0.4871666666666667,
      "grad_norm": 0.7746614217758179,
      "learning_rate": 0.00015705611998106814,
      "loss": 3.7679,
      "step": 233840
    },
    {
      "epoch": 0.4871875,
      "grad_norm": 0.7753486633300781,
      "learning_rate": 0.00015704627232521022,
      "loss": 3.7208,
      "step": 233850
    },
    {
      "epoch": 0.48720833333333335,
      "grad_norm": 0.7727866172790527,
      "learning_rate": 0.00015703642463891528,
      "loss": 3.7304,
      "step": 233860
    },
    {
      "epoch": 0.48722916666666666,
      "grad_norm": 0.8254439234733582,
      "learning_rate": 0.00015702657692222567,
      "loss": 3.6131,
      "step": 233870
    },
    {
      "epoch": 0.48725,
      "grad_norm": 0.8006172776222229,
      "learning_rate": 0.00015701672917518413,
      "loss": 3.7508,
      "step": 233880
    },
    {
      "epoch": 0.4872708333333333,
      "grad_norm": 0.8244531750679016,
      "learning_rate": 0.000157006881397833,
      "loss": 3.9011,
      "step": 233890
    },
    {
      "epoch": 0.4872916666666667,
      "grad_norm": 0.8339743614196777,
      "learning_rate": 0.00015699703359021495,
      "loss": 3.7458,
      "step": 233900
    },
    {
      "epoch": 0.4873125,
      "grad_norm": 0.7914035320281982,
      "learning_rate": 0.0001569871857523725,
      "loss": 3.7415,
      "step": 233910
    },
    {
      "epoch": 0.48733333333333334,
      "grad_norm": 1.0062429904937744,
      "learning_rate": 0.00015697733788434817,
      "loss": 3.8088,
      "step": 233920
    },
    {
      "epoch": 0.48735416666666664,
      "grad_norm": 0.9344354271888733,
      "learning_rate": 0.00015696748998618448,
      "loss": 3.773,
      "step": 233930
    },
    {
      "epoch": 0.487375,
      "grad_norm": 0.803929328918457,
      "learning_rate": 0.00015695764205792402,
      "loss": 3.7635,
      "step": 233940
    },
    {
      "epoch": 0.4873958333333333,
      "grad_norm": 0.8017346262931824,
      "learning_rate": 0.00015694779409960926,
      "loss": 3.8651,
      "step": 233950
    },
    {
      "epoch": 0.48741666666666666,
      "grad_norm": 0.7604084610939026,
      "learning_rate": 0.00015693794611128283,
      "loss": 3.7735,
      "step": 233960
    },
    {
      "epoch": 0.4874375,
      "grad_norm": 0.8014808297157288,
      "learning_rate": 0.00015692809809298718,
      "loss": 3.6933,
      "step": 233970
    },
    {
      "epoch": 0.4874583333333333,
      "grad_norm": 0.7734764814376831,
      "learning_rate": 0.0001569182500447649,
      "loss": 3.9053,
      "step": 233980
    },
    {
      "epoch": 0.4874791666666667,
      "grad_norm": 1.048708200454712,
      "learning_rate": 0.00015690840196665854,
      "loss": 3.7103,
      "step": 233990
    },
    {
      "epoch": 0.4875,
      "grad_norm": 0.8947287201881409,
      "learning_rate": 0.00015689855385871056,
      "loss": 3.8532,
      "step": 234000
    },
    {
      "epoch": 0.4875,
      "eval_loss": 4.1431779861450195,
      "eval_runtime": 8.961,
      "eval_samples_per_second": 1.116,
      "eval_steps_per_second": 0.335,
      "step": 234000
    },
    {
      "epoch": 0.48752083333333335,
      "grad_norm": 0.7267764806747437,
      "learning_rate": 0.00015688870572096362,
      "loss": 3.6719,
      "step": 234010
    },
    {
      "epoch": 0.48754166666666665,
      "grad_norm": 0.8094949126243591,
      "learning_rate": 0.00015687885755346018,
      "loss": 3.829,
      "step": 234020
    },
    {
      "epoch": 0.4875625,
      "grad_norm": 0.964349091053009,
      "learning_rate": 0.00015686900935624277,
      "loss": 3.8367,
      "step": 234030
    },
    {
      "epoch": 0.4875833333333333,
      "grad_norm": 0.7671712040901184,
      "learning_rate": 0.00015685916112935397,
      "loss": 4.0012,
      "step": 234040
    },
    {
      "epoch": 0.48760416666666667,
      "grad_norm": 0.8575470447540283,
      "learning_rate": 0.00015684931287283636,
      "loss": 3.8753,
      "step": 234050
    },
    {
      "epoch": 0.487625,
      "grad_norm": 0.853304922580719,
      "learning_rate": 0.0001568394645867324,
      "loss": 3.7975,
      "step": 234060
    },
    {
      "epoch": 0.48764583333333333,
      "grad_norm": 0.7782702445983887,
      "learning_rate": 0.00015682961627108463,
      "loss": 3.7612,
      "step": 234070
    },
    {
      "epoch": 0.4876666666666667,
      "grad_norm": 0.7197964191436768,
      "learning_rate": 0.00015681976792593567,
      "loss": 3.7833,
      "step": 234080
    },
    {
      "epoch": 0.4876875,
      "grad_norm": 1.0738098621368408,
      "learning_rate": 0.00015680991955132798,
      "loss": 3.6517,
      "step": 234090
    },
    {
      "epoch": 0.48770833333333335,
      "grad_norm": 1.0373574495315552,
      "learning_rate": 0.00015680007114730408,
      "loss": 3.8711,
      "step": 234100
    },
    {
      "epoch": 0.48772916666666666,
      "grad_norm": 0.8987431526184082,
      "learning_rate": 0.00015679022271390666,
      "loss": 3.8115,
      "step": 234110
    },
    {
      "epoch": 0.48775,
      "grad_norm": 0.8732088208198547,
      "learning_rate": 0.00015678037425117812,
      "loss": 3.7837,
      "step": 234120
    },
    {
      "epoch": 0.4877708333333333,
      "grad_norm": 1.062021255493164,
      "learning_rate": 0.0001567705257591611,
      "loss": 3.7666,
      "step": 234130
    },
    {
      "epoch": 0.4877916666666667,
      "grad_norm": 0.8396286368370056,
      "learning_rate": 0.00015676067723789801,
      "loss": 3.8552,
      "step": 234140
    },
    {
      "epoch": 0.4878125,
      "grad_norm": 0.7662497758865356,
      "learning_rate": 0.0001567508286874315,
      "loss": 3.8415,
      "step": 234150
    },
    {
      "epoch": 0.48783333333333334,
      "grad_norm": 0.7268974184989929,
      "learning_rate": 0.0001567409801078041,
      "loss": 3.7152,
      "step": 234160
    },
    {
      "epoch": 0.48785416666666664,
      "grad_norm": 0.7574536800384521,
      "learning_rate": 0.0001567311314990583,
      "loss": 3.9117,
      "step": 234170
    },
    {
      "epoch": 0.487875,
      "grad_norm": 0.7276398539543152,
      "learning_rate": 0.00015672128286123668,
      "loss": 3.7282,
      "step": 234180
    },
    {
      "epoch": 0.4878958333333333,
      "grad_norm": 0.8671106100082397,
      "learning_rate": 0.00015671143419438184,
      "loss": 3.6105,
      "step": 234190
    },
    {
      "epoch": 0.48791666666666667,
      "grad_norm": 0.7931151390075684,
      "learning_rate": 0.00015670158549853619,
      "loss": 3.924,
      "step": 234200
    },
    {
      "epoch": 0.4879375,
      "grad_norm": 0.9335227012634277,
      "learning_rate": 0.00015669173677374234,
      "loss": 3.4491,
      "step": 234210
    },
    {
      "epoch": 0.4879583333333333,
      "grad_norm": 0.8483383059501648,
      "learning_rate": 0.00015668188802004293,
      "loss": 3.76,
      "step": 234220
    },
    {
      "epoch": 0.4879791666666667,
      "grad_norm": 0.8600758910179138,
      "learning_rate": 0.0001566720392374803,
      "loss": 3.9874,
      "step": 234230
    },
    {
      "epoch": 0.488,
      "grad_norm": 0.8911506533622742,
      "learning_rate": 0.00015666219042609713,
      "loss": 3.7986,
      "step": 234240
    },
    {
      "epoch": 0.48802083333333335,
      "grad_norm": 0.7856730222702026,
      "learning_rate": 0.00015665234158593596,
      "loss": 3.6583,
      "step": 234250
    },
    {
      "epoch": 0.48804166666666665,
      "grad_norm": 0.9131378531455994,
      "learning_rate": 0.0001566424927170393,
      "loss": 3.9599,
      "step": 234260
    },
    {
      "epoch": 0.4880625,
      "grad_norm": 1.0933918952941895,
      "learning_rate": 0.00015663264381944968,
      "loss": 3.6522,
      "step": 234270
    },
    {
      "epoch": 0.4880833333333333,
      "grad_norm": 1.110974907875061,
      "learning_rate": 0.00015662279489320972,
      "loss": 3.8695,
      "step": 234280
    },
    {
      "epoch": 0.4881041666666667,
      "grad_norm": 0.79066401720047,
      "learning_rate": 0.00015661294593836183,
      "loss": 3.8385,
      "step": 234290
    },
    {
      "epoch": 0.488125,
      "grad_norm": 0.7356096506118774,
      "learning_rate": 0.00015660309695494866,
      "loss": 3.8845,
      "step": 234300
    },
    {
      "epoch": 0.48814583333333333,
      "grad_norm": 0.8209971189498901,
      "learning_rate": 0.00015659324794301276,
      "loss": 3.8009,
      "step": 234310
    },
    {
      "epoch": 0.4881666666666667,
      "grad_norm": 0.7803584933280945,
      "learning_rate": 0.00015658339890259662,
      "loss": 3.7912,
      "step": 234320
    },
    {
      "epoch": 0.4881875,
      "grad_norm": 0.8586584329605103,
      "learning_rate": 0.0001565735498337428,
      "loss": 3.8797,
      "step": 234330
    },
    {
      "epoch": 0.48820833333333336,
      "grad_norm": 0.8271716237068176,
      "learning_rate": 0.00015656370073649384,
      "loss": 3.8413,
      "step": 234340
    },
    {
      "epoch": 0.48822916666666666,
      "grad_norm": 0.7561136484146118,
      "learning_rate": 0.0001565538516108923,
      "loss": 3.6589,
      "step": 234350
    },
    {
      "epoch": 0.48825,
      "grad_norm": 0.8421869277954102,
      "learning_rate": 0.00015654400245698074,
      "loss": 3.8975,
      "step": 234360
    },
    {
      "epoch": 0.4882708333333333,
      "grad_norm": 0.7502440214157104,
      "learning_rate": 0.0001565341532748016,
      "loss": 3.9107,
      "step": 234370
    },
    {
      "epoch": 0.4882916666666667,
      "grad_norm": 0.8475939631462097,
      "learning_rate": 0.00015652430406439756,
      "loss": 3.7942,
      "step": 234380
    },
    {
      "epoch": 0.4883125,
      "grad_norm": 0.7767123579978943,
      "learning_rate": 0.00015651445482581114,
      "loss": 3.7003,
      "step": 234390
    },
    {
      "epoch": 0.48833333333333334,
      "grad_norm": 0.7110844850540161,
      "learning_rate": 0.00015650460555908477,
      "loss": 4.0305,
      "step": 234400
    },
    {
      "epoch": 0.48835416666666664,
      "grad_norm": 0.6668801307678223,
      "learning_rate": 0.00015649475626426112,
      "loss": 3.7077,
      "step": 234410
    },
    {
      "epoch": 0.488375,
      "grad_norm": 0.9449234008789062,
      "learning_rate": 0.00015648490694138273,
      "loss": 3.7773,
      "step": 234420
    },
    {
      "epoch": 0.4883958333333333,
      "grad_norm": 0.8078508973121643,
      "learning_rate": 0.00015647505759049208,
      "loss": 3.7256,
      "step": 234430
    },
    {
      "epoch": 0.48841666666666667,
      "grad_norm": 0.8367059826850891,
      "learning_rate": 0.00015646520821163172,
      "loss": 3.9207,
      "step": 234440
    },
    {
      "epoch": 0.4884375,
      "grad_norm": 0.8635444045066833,
      "learning_rate": 0.00015645535880484424,
      "loss": 3.7762,
      "step": 234450
    },
    {
      "epoch": 0.4884583333333333,
      "grad_norm": 0.9248596429824829,
      "learning_rate": 0.0001564455093701722,
      "loss": 3.8806,
      "step": 234460
    },
    {
      "epoch": 0.4884791666666667,
      "grad_norm": 0.7921488881111145,
      "learning_rate": 0.00015643565990765808,
      "loss": 3.7278,
      "step": 234470
    },
    {
      "epoch": 0.4885,
      "grad_norm": 0.9967122077941895,
      "learning_rate": 0.00015642581041734442,
      "loss": 3.9265,
      "step": 234480
    },
    {
      "epoch": 0.48852083333333335,
      "grad_norm": 0.7645508646965027,
      "learning_rate": 0.00015641596089927383,
      "loss": 3.873,
      "step": 234490
    },
    {
      "epoch": 0.48854166666666665,
      "grad_norm": 0.7507169246673584,
      "learning_rate": 0.00015640611135348884,
      "loss": 3.641,
      "step": 234500
    },
    {
      "epoch": 0.4885625,
      "grad_norm": 0.8479170799255371,
      "learning_rate": 0.00015639626178003198,
      "loss": 3.6145,
      "step": 234510
    },
    {
      "epoch": 0.4885833333333333,
      "grad_norm": 0.7859818935394287,
      "learning_rate": 0.0001563864121789458,
      "loss": 3.8531,
      "step": 234520
    },
    {
      "epoch": 0.4886041666666667,
      "grad_norm": 0.8327131867408752,
      "learning_rate": 0.00015637656255027287,
      "loss": 3.5858,
      "step": 234530
    },
    {
      "epoch": 0.488625,
      "grad_norm": 1.163349986076355,
      "learning_rate": 0.00015636671289405565,
      "loss": 3.8638,
      "step": 234540
    },
    {
      "epoch": 0.48864583333333333,
      "grad_norm": 0.7795119881629944,
      "learning_rate": 0.0001563568632103368,
      "loss": 3.6322,
      "step": 234550
    },
    {
      "epoch": 0.4886666666666667,
      "grad_norm": 0.8927139639854431,
      "learning_rate": 0.00015634701349915883,
      "loss": 3.7187,
      "step": 234560
    },
    {
      "epoch": 0.4886875,
      "grad_norm": 0.9084980487823486,
      "learning_rate": 0.0001563371637605642,
      "loss": 3.7555,
      "step": 234570
    },
    {
      "epoch": 0.48870833333333336,
      "grad_norm": 0.8625483512878418,
      "learning_rate": 0.0001563273139945956,
      "loss": 3.9138,
      "step": 234580
    },
    {
      "epoch": 0.48872916666666666,
      "grad_norm": 0.9556338787078857,
      "learning_rate": 0.00015631746420129554,
      "loss": 3.6247,
      "step": 234590
    },
    {
      "epoch": 0.48875,
      "grad_norm": 0.8514543771743774,
      "learning_rate": 0.00015630761438070644,
      "loss": 3.7615,
      "step": 234600
    },
    {
      "epoch": 0.4887708333333333,
      "grad_norm": 0.9989446997642517,
      "learning_rate": 0.00015629776453287102,
      "loss": 3.8992,
      "step": 234610
    },
    {
      "epoch": 0.4887916666666667,
      "grad_norm": 0.8335566520690918,
      "learning_rate": 0.00015628791465783172,
      "loss": 3.8174,
      "step": 234620
    },
    {
      "epoch": 0.4888125,
      "grad_norm": 0.8226330876350403,
      "learning_rate": 0.0001562780647556311,
      "loss": 3.9713,
      "step": 234630
    },
    {
      "epoch": 0.48883333333333334,
      "grad_norm": 0.7368574142456055,
      "learning_rate": 0.00015626821482631176,
      "loss": 3.7323,
      "step": 234640
    },
    {
      "epoch": 0.48885416666666665,
      "grad_norm": 0.8921124935150146,
      "learning_rate": 0.0001562583648699162,
      "loss": 3.6214,
      "step": 234650
    },
    {
      "epoch": 0.488875,
      "grad_norm": 0.7873488068580627,
      "learning_rate": 0.00015624851488648696,
      "loss": 3.8128,
      "step": 234660
    },
    {
      "epoch": 0.4888958333333333,
      "grad_norm": 0.9670159220695496,
      "learning_rate": 0.00015623866487606661,
      "loss": 3.8291,
      "step": 234670
    },
    {
      "epoch": 0.48891666666666667,
      "grad_norm": 0.7937772274017334,
      "learning_rate": 0.00015622881483869775,
      "loss": 3.938,
      "step": 234680
    },
    {
      "epoch": 0.4889375,
      "grad_norm": 0.8624200224876404,
      "learning_rate": 0.0001562189647744228,
      "loss": 3.7691,
      "step": 234690
    },
    {
      "epoch": 0.48895833333333333,
      "grad_norm": 0.8187088966369629,
      "learning_rate": 0.00015620911468328444,
      "loss": 3.6978,
      "step": 234700
    },
    {
      "epoch": 0.4889791666666667,
      "grad_norm": 0.8128949999809265,
      "learning_rate": 0.00015619926456532515,
      "loss": 3.7161,
      "step": 234710
    },
    {
      "epoch": 0.489,
      "grad_norm": 0.7830237746238708,
      "learning_rate": 0.00015618941442058746,
      "loss": 3.764,
      "step": 234720
    },
    {
      "epoch": 0.48902083333333335,
      "grad_norm": 0.9077374339103699,
      "learning_rate": 0.000156179564249114,
      "loss": 3.8685,
      "step": 234730
    },
    {
      "epoch": 0.48904166666666665,
      "grad_norm": 0.762794017791748,
      "learning_rate": 0.00015616971405094722,
      "loss": 3.7211,
      "step": 234740
    },
    {
      "epoch": 0.4890625,
      "grad_norm": 1.089318871498108,
      "learning_rate": 0.0001561598638261298,
      "loss": 3.8472,
      "step": 234750
    },
    {
      "epoch": 0.4890833333333333,
      "grad_norm": 0.9800418615341187,
      "learning_rate": 0.00015615001357470413,
      "loss": 3.8336,
      "step": 234760
    },
    {
      "epoch": 0.4891041666666667,
      "grad_norm": 0.7784766554832458,
      "learning_rate": 0.00015614016329671283,
      "loss": 3.6501,
      "step": 234770
    },
    {
      "epoch": 0.489125,
      "grad_norm": 0.7276133894920349,
      "learning_rate": 0.0001561303129921985,
      "loss": 3.8288,
      "step": 234780
    },
    {
      "epoch": 0.48914583333333334,
      "grad_norm": 0.894197940826416,
      "learning_rate": 0.00015612046266120364,
      "loss": 3.7672,
      "step": 234790
    },
    {
      "epoch": 0.4891666666666667,
      "grad_norm": 0.8361311554908752,
      "learning_rate": 0.00015611061230377072,
      "loss": 3.6075,
      "step": 234800
    },
    {
      "epoch": 0.4891875,
      "grad_norm": 0.7737029790878296,
      "learning_rate": 0.00015610076191994248,
      "loss": 3.8751,
      "step": 234810
    },
    {
      "epoch": 0.48920833333333336,
      "grad_norm": 0.861587643623352,
      "learning_rate": 0.0001560909115097613,
      "loss": 3.7083,
      "step": 234820
    },
    {
      "epoch": 0.48922916666666666,
      "grad_norm": 0.8532484769821167,
      "learning_rate": 0.00015608106107326984,
      "loss": 3.7209,
      "step": 234830
    },
    {
      "epoch": 0.48925,
      "grad_norm": 0.9481427669525146,
      "learning_rate": 0.00015607121061051056,
      "loss": 3.7871,
      "step": 234840
    },
    {
      "epoch": 0.4892708333333333,
      "grad_norm": 0.842890202999115,
      "learning_rate": 0.0001560613601215261,
      "loss": 3.8072,
      "step": 234850
    },
    {
      "epoch": 0.4892916666666667,
      "grad_norm": 0.7595095038414001,
      "learning_rate": 0.00015605150960635892,
      "loss": 3.9196,
      "step": 234860
    },
    {
      "epoch": 0.4893125,
      "grad_norm": 0.8914121389389038,
      "learning_rate": 0.00015604165906505163,
      "loss": 3.7525,
      "step": 234870
    },
    {
      "epoch": 0.48933333333333334,
      "grad_norm": 1.0095785856246948,
      "learning_rate": 0.00015603180849764676,
      "loss": 3.7696,
      "step": 234880
    },
    {
      "epoch": 0.48935416666666665,
      "grad_norm": 0.8854213356971741,
      "learning_rate": 0.00015602195790418685,
      "loss": 3.8181,
      "step": 234890
    },
    {
      "epoch": 0.489375,
      "grad_norm": 0.7968577742576599,
      "learning_rate": 0.00015601210728471453,
      "loss": 3.8169,
      "step": 234900
    },
    {
      "epoch": 0.4893958333333333,
      "grad_norm": 0.9125415086746216,
      "learning_rate": 0.0001560022566392722,
      "loss": 3.9109,
      "step": 234910
    },
    {
      "epoch": 0.48941666666666667,
      "grad_norm": 1.0441473722457886,
      "learning_rate": 0.00015599240596790256,
      "loss": 3.646,
      "step": 234920
    },
    {
      "epoch": 0.4894375,
      "grad_norm": 0.9129378199577332,
      "learning_rate": 0.0001559825552706481,
      "loss": 3.8854,
      "step": 234930
    },
    {
      "epoch": 0.48945833333333333,
      "grad_norm": 0.7904179096221924,
      "learning_rate": 0.0001559727045475513,
      "loss": 3.8705,
      "step": 234940
    },
    {
      "epoch": 0.4894791666666667,
      "grad_norm": 0.8748157024383545,
      "learning_rate": 0.00015596285379865485,
      "loss": 3.788,
      "step": 234950
    },
    {
      "epoch": 0.4895,
      "grad_norm": 0.7865133881568909,
      "learning_rate": 0.00015595300302400123,
      "loss": 3.8095,
      "step": 234960
    },
    {
      "epoch": 0.48952083333333335,
      "grad_norm": 0.8103500604629517,
      "learning_rate": 0.00015594315222363292,
      "loss": 3.6753,
      "step": 234970
    },
    {
      "epoch": 0.48954166666666665,
      "grad_norm": 1.2567400932312012,
      "learning_rate": 0.00015593330139759265,
      "loss": 3.7984,
      "step": 234980
    },
    {
      "epoch": 0.4895625,
      "grad_norm": 0.8089079260826111,
      "learning_rate": 0.00015592345054592279,
      "loss": 3.8666,
      "step": 234990
    },
    {
      "epoch": 0.4895833333333333,
      "grad_norm": 1.000014066696167,
      "learning_rate": 0.00015591359966866602,
      "loss": 3.8223,
      "step": 235000
    },
    {
      "epoch": 0.4895833333333333,
      "eval_loss": 4.132588863372803,
      "eval_runtime": 8.3358,
      "eval_samples_per_second": 1.2,
      "eval_steps_per_second": 0.36,
      "step": 235000
    },
    {
      "epoch": 0.4896041666666667,
      "grad_norm": 0.7661005854606628,
      "learning_rate": 0.0001559037487658648,
      "loss": 3.6834,
      "step": 235010
    },
    {
      "epoch": 0.489625,
      "grad_norm": 0.7644543051719666,
      "learning_rate": 0.00015589389783756172,
      "loss": 3.9397,
      "step": 235020
    },
    {
      "epoch": 0.48964583333333334,
      "grad_norm": 0.7473607659339905,
      "learning_rate": 0.00015588404688379935,
      "loss": 3.7671,
      "step": 235030
    },
    {
      "epoch": 0.48966666666666664,
      "grad_norm": 0.9157393574714661,
      "learning_rate": 0.00015587419590462024,
      "loss": 3.9115,
      "step": 235040
    },
    {
      "epoch": 0.4896875,
      "grad_norm": 0.9544522762298584,
      "learning_rate": 0.00015586434490006692,
      "loss": 3.817,
      "step": 235050
    },
    {
      "epoch": 0.48970833333333336,
      "grad_norm": 0.7560673952102661,
      "learning_rate": 0.00015585449387018195,
      "loss": 3.7806,
      "step": 235060
    },
    {
      "epoch": 0.48972916666666666,
      "grad_norm": 0.9179753065109253,
      "learning_rate": 0.00015584464281500783,
      "loss": 3.9336,
      "step": 235070
    },
    {
      "epoch": 0.48975,
      "grad_norm": 0.7273985743522644,
      "learning_rate": 0.00015583479173458722,
      "loss": 4.0164,
      "step": 235080
    },
    {
      "epoch": 0.4897708333333333,
      "grad_norm": 0.8069899678230286,
      "learning_rate": 0.00015582494062896265,
      "loss": 4.0096,
      "step": 235090
    },
    {
      "epoch": 0.4897916666666667,
      "grad_norm": 0.7777063250541687,
      "learning_rate": 0.0001558150894981766,
      "loss": 3.7048,
      "step": 235100
    },
    {
      "epoch": 0.4898125,
      "grad_norm": 0.816526472568512,
      "learning_rate": 0.00015580523834227164,
      "loss": 3.9061,
      "step": 235110
    },
    {
      "epoch": 0.48983333333333334,
      "grad_norm": 0.708540141582489,
      "learning_rate": 0.0001557953871612904,
      "loss": 3.6399,
      "step": 235120
    },
    {
      "epoch": 0.48985416666666665,
      "grad_norm": 0.7511759996414185,
      "learning_rate": 0.00015578553595527539,
      "loss": 3.7474,
      "step": 235130
    },
    {
      "epoch": 0.489875,
      "grad_norm": 0.7000854015350342,
      "learning_rate": 0.00015577568472426907,
      "loss": 3.6295,
      "step": 235140
    },
    {
      "epoch": 0.4898958333333333,
      "grad_norm": 0.849092960357666,
      "learning_rate": 0.00015576583346831418,
      "loss": 3.7986,
      "step": 235150
    },
    {
      "epoch": 0.48991666666666667,
      "grad_norm": 0.8782861828804016,
      "learning_rate": 0.00015575598218745313,
      "loss": 3.7554,
      "step": 235160
    },
    {
      "epoch": 0.4899375,
      "grad_norm": 0.7549872994422913,
      "learning_rate": 0.00015574613088172845,
      "loss": 3.8492,
      "step": 235170
    },
    {
      "epoch": 0.48995833333333333,
      "grad_norm": 0.7794297933578491,
      "learning_rate": 0.00015573627955118286,
      "loss": 3.8478,
      "step": 235180
    },
    {
      "epoch": 0.4899791666666667,
      "grad_norm": 0.7048370242118835,
      "learning_rate": 0.00015572642819585875,
      "loss": 3.8118,
      "step": 235190
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.7972383499145508,
      "learning_rate": 0.0001557165768157988,
      "loss": 3.7909,
      "step": 235200
    },
    {
      "epoch": 0.49002083333333335,
      "grad_norm": 1.0368807315826416,
      "learning_rate": 0.00015570672541104542,
      "loss": 3.9302,
      "step": 235210
    },
    {
      "epoch": 0.49004166666666665,
      "grad_norm": 0.8818864822387695,
      "learning_rate": 0.0001556968739816413,
      "loss": 3.8257,
      "step": 235220
    },
    {
      "epoch": 0.4900625,
      "grad_norm": 0.7991200685501099,
      "learning_rate": 0.00015568702252762893,
      "loss": 3.6529,
      "step": 235230
    },
    {
      "epoch": 0.4900833333333333,
      "grad_norm": 0.922165036201477,
      "learning_rate": 0.00015567717104905085,
      "loss": 3.9297,
      "step": 235240
    },
    {
      "epoch": 0.4901041666666667,
      "grad_norm": 0.8176373243331909,
      "learning_rate": 0.00015566731954594966,
      "loss": 3.8017,
      "step": 235250
    },
    {
      "epoch": 0.490125,
      "grad_norm": 0.8866477012634277,
      "learning_rate": 0.00015565746801836795,
      "loss": 3.8319,
      "step": 235260
    },
    {
      "epoch": 0.49014583333333334,
      "grad_norm": 0.8223537802696228,
      "learning_rate": 0.00015564761646634813,
      "loss": 3.7419,
      "step": 235270
    },
    {
      "epoch": 0.49016666666666664,
      "grad_norm": 0.9898844361305237,
      "learning_rate": 0.00015563776488993283,
      "loss": 3.6452,
      "step": 235280
    },
    {
      "epoch": 0.4901875,
      "grad_norm": 0.8475813865661621,
      "learning_rate": 0.0001556279132891647,
      "loss": 3.9041,
      "step": 235290
    },
    {
      "epoch": 0.49020833333333336,
      "grad_norm": 0.7791380882263184,
      "learning_rate": 0.00015561806166408614,
      "loss": 3.6228,
      "step": 235300
    },
    {
      "epoch": 0.49022916666666666,
      "grad_norm": 0.8530002236366272,
      "learning_rate": 0.00015560821001473982,
      "loss": 3.6751,
      "step": 235310
    },
    {
      "epoch": 0.49025,
      "grad_norm": 0.6849559545516968,
      "learning_rate": 0.00015559835834116827,
      "loss": 3.7262,
      "step": 235320
    },
    {
      "epoch": 0.4902708333333333,
      "grad_norm": 0.7576618194580078,
      "learning_rate": 0.00015558850664341398,
      "loss": 3.8205,
      "step": 235330
    },
    {
      "epoch": 0.4902916666666667,
      "grad_norm": 0.8947238922119141,
      "learning_rate": 0.00015557865492151957,
      "loss": 3.7719,
      "step": 235340
    },
    {
      "epoch": 0.4903125,
      "grad_norm": 1.250637412071228,
      "learning_rate": 0.00015556880317552758,
      "loss": 3.8607,
      "step": 235350
    },
    {
      "epoch": 0.49033333333333334,
      "grad_norm": 0.8480871915817261,
      "learning_rate": 0.00015555895140548055,
      "loss": 3.8392,
      "step": 235360
    },
    {
      "epoch": 0.49035416666666665,
      "grad_norm": 0.8989595174789429,
      "learning_rate": 0.00015554909961142108,
      "loss": 3.8498,
      "step": 235370
    },
    {
      "epoch": 0.490375,
      "grad_norm": 0.8222594857215881,
      "learning_rate": 0.00015553924779339168,
      "loss": 3.8975,
      "step": 235380
    },
    {
      "epoch": 0.4903958333333333,
      "grad_norm": 0.7262818813323975,
      "learning_rate": 0.00015552939595143492,
      "loss": 3.8377,
      "step": 235390
    },
    {
      "epoch": 0.49041666666666667,
      "grad_norm": 0.9339576363563538,
      "learning_rate": 0.00015551954408559335,
      "loss": 3.681,
      "step": 235400
    },
    {
      "epoch": 0.4904375,
      "grad_norm": 0.8609625697135925,
      "learning_rate": 0.00015550969219590955,
      "loss": 3.777,
      "step": 235410
    },
    {
      "epoch": 0.49045833333333333,
      "grad_norm": 0.8449187278747559,
      "learning_rate": 0.00015549984028242605,
      "loss": 3.7422,
      "step": 235420
    },
    {
      "epoch": 0.4904791666666667,
      "grad_norm": 0.8163049221038818,
      "learning_rate": 0.00015548998834518548,
      "loss": 3.9409,
      "step": 235430
    },
    {
      "epoch": 0.4905,
      "grad_norm": 0.8034218549728394,
      "learning_rate": 0.0001554801363842302,
      "loss": 3.8346,
      "step": 235440
    },
    {
      "epoch": 0.49052083333333335,
      "grad_norm": 0.803770899772644,
      "learning_rate": 0.000155470284399603,
      "loss": 3.5741,
      "step": 235450
    },
    {
      "epoch": 0.49054166666666665,
      "grad_norm": 0.8329446911811829,
      "learning_rate": 0.00015546043239134634,
      "loss": 3.9823,
      "step": 235460
    },
    {
      "epoch": 0.4905625,
      "grad_norm": 1.0219292640686035,
      "learning_rate": 0.0001554505803595027,
      "loss": 3.777,
      "step": 235470
    },
    {
      "epoch": 0.4905833333333333,
      "grad_norm": 0.7494893074035645,
      "learning_rate": 0.00015544072830411476,
      "loss": 3.8687,
      "step": 235480
    },
    {
      "epoch": 0.4906041666666667,
      "grad_norm": 0.7036474943161011,
      "learning_rate": 0.00015543087622522508,
      "loss": 3.7374,
      "step": 235490
    },
    {
      "epoch": 0.490625,
      "grad_norm": 1.0189059972763062,
      "learning_rate": 0.0001554210241228761,
      "loss": 3.7023,
      "step": 235500
    },
    {
      "epoch": 0.49064583333333334,
      "grad_norm": 0.7755102515220642,
      "learning_rate": 0.00015541117199711045,
      "loss": 3.8908,
      "step": 235510
    },
    {
      "epoch": 0.49066666666666664,
      "grad_norm": 0.7291206121444702,
      "learning_rate": 0.00015540131984797067,
      "loss": 3.7577,
      "step": 235520
    },
    {
      "epoch": 0.4906875,
      "grad_norm": 0.7362620830535889,
      "learning_rate": 0.00015539146767549932,
      "loss": 3.7942,
      "step": 235530
    },
    {
      "epoch": 0.49070833333333336,
      "grad_norm": 0.7746559977531433,
      "learning_rate": 0.00015538161547973901,
      "loss": 3.6881,
      "step": 235540
    },
    {
      "epoch": 0.49072916666666666,
      "grad_norm": 1.0306458473205566,
      "learning_rate": 0.00015537176326073222,
      "loss": 4.0593,
      "step": 235550
    },
    {
      "epoch": 0.49075,
      "grad_norm": 0.7855677008628845,
      "learning_rate": 0.00015536191101852152,
      "loss": 3.6171,
      "step": 235560
    },
    {
      "epoch": 0.4907708333333333,
      "grad_norm": 0.7502385973930359,
      "learning_rate": 0.0001553520587531495,
      "loss": 3.7606,
      "step": 235570
    },
    {
      "epoch": 0.4907916666666667,
      "grad_norm": 0.9229145050048828,
      "learning_rate": 0.0001553422064646587,
      "loss": 3.8217,
      "step": 235580
    },
    {
      "epoch": 0.4908125,
      "grad_norm": 0.8047158122062683,
      "learning_rate": 0.0001553323541530917,
      "loss": 3.7537,
      "step": 235590
    },
    {
      "epoch": 0.49083333333333334,
      "grad_norm": 0.8098453879356384,
      "learning_rate": 0.00015532250181849103,
      "loss": 3.7111,
      "step": 235600
    },
    {
      "epoch": 0.49085416666666665,
      "grad_norm": 0.8412448167800903,
      "learning_rate": 0.00015531264946089926,
      "loss": 3.8625,
      "step": 235610
    },
    {
      "epoch": 0.490875,
      "grad_norm": 0.7830023169517517,
      "learning_rate": 0.00015530279708035898,
      "loss": 3.6211,
      "step": 235620
    },
    {
      "epoch": 0.4908958333333333,
      "grad_norm": 0.7969603538513184,
      "learning_rate": 0.00015529294467691272,
      "loss": 3.7684,
      "step": 235630
    },
    {
      "epoch": 0.49091666666666667,
      "grad_norm": 0.845738410949707,
      "learning_rate": 0.00015528309225060295,
      "loss": 3.7991,
      "step": 235640
    },
    {
      "epoch": 0.4909375,
      "grad_norm": 0.7127753496170044,
      "learning_rate": 0.0001552732398014724,
      "loss": 3.6763,
      "step": 235650
    },
    {
      "epoch": 0.49095833333333333,
      "grad_norm": 0.9150704741477966,
      "learning_rate": 0.0001552633873295635,
      "loss": 3.9633,
      "step": 235660
    },
    {
      "epoch": 0.4909791666666667,
      "grad_norm": 0.8059213161468506,
      "learning_rate": 0.0001552535348349188,
      "loss": 3.798,
      "step": 235670
    },
    {
      "epoch": 0.491,
      "grad_norm": 0.812235951423645,
      "learning_rate": 0.000155243682317581,
      "loss": 3.9555,
      "step": 235680
    },
    {
      "epoch": 0.49102083333333335,
      "grad_norm": 0.7578210234642029,
      "learning_rate": 0.00015523382977759254,
      "loss": 3.7871,
      "step": 235690
    },
    {
      "epoch": 0.49104166666666665,
      "grad_norm": 0.7473713159561157,
      "learning_rate": 0.00015522397721499598,
      "loss": 3.7112,
      "step": 235700
    },
    {
      "epoch": 0.4910625,
      "grad_norm": 0.8470622897148132,
      "learning_rate": 0.00015521412462983391,
      "loss": 3.7857,
      "step": 235710
    },
    {
      "epoch": 0.4910833333333333,
      "grad_norm": 0.7807363867759705,
      "learning_rate": 0.0001552042720221489,
      "loss": 3.978,
      "step": 235720
    },
    {
      "epoch": 0.4911041666666667,
      "grad_norm": 0.9525055885314941,
      "learning_rate": 0.0001551944193919835,
      "loss": 3.73,
      "step": 235730
    },
    {
      "epoch": 0.491125,
      "grad_norm": 0.6710153222084045,
      "learning_rate": 0.00015518456673938028,
      "loss": 3.7109,
      "step": 235740
    },
    {
      "epoch": 0.49114583333333334,
      "grad_norm": 0.8636115193367004,
      "learning_rate": 0.00015517471406438176,
      "loss": 3.933,
      "step": 235750
    },
    {
      "epoch": 0.49116666666666664,
      "grad_norm": 0.7706542611122131,
      "learning_rate": 0.00015516486136703053,
      "loss": 3.891,
      "step": 235760
    },
    {
      "epoch": 0.4911875,
      "grad_norm": 0.8140743970870972,
      "learning_rate": 0.00015515500864736914,
      "loss": 3.7946,
      "step": 235770
    },
    {
      "epoch": 0.49120833333333336,
      "grad_norm": 0.8991857767105103,
      "learning_rate": 0.00015514515590544015,
      "loss": 3.707,
      "step": 235780
    },
    {
      "epoch": 0.49122916666666666,
      "grad_norm": 1.1070747375488281,
      "learning_rate": 0.00015513530314128617,
      "loss": 3.7758,
      "step": 235790
    },
    {
      "epoch": 0.49125,
      "grad_norm": 0.797847330570221,
      "learning_rate": 0.0001551254503549496,
      "loss": 3.5395,
      "step": 235800
    },
    {
      "epoch": 0.4912708333333333,
      "grad_norm": 0.794064462184906,
      "learning_rate": 0.00015511559754647318,
      "loss": 3.7462,
      "step": 235810
    },
    {
      "epoch": 0.4912916666666667,
      "grad_norm": 1.0096166133880615,
      "learning_rate": 0.00015510574471589946,
      "loss": 3.8854,
      "step": 235820
    },
    {
      "epoch": 0.4913125,
      "grad_norm": 0.7636401057243347,
      "learning_rate": 0.0001550958918632709,
      "loss": 3.7711,
      "step": 235830
    },
    {
      "epoch": 0.49133333333333334,
      "grad_norm": 0.7472187876701355,
      "learning_rate": 0.00015508603898863006,
      "loss": 3.7738,
      "step": 235840
    },
    {
      "epoch": 0.49135416666666665,
      "grad_norm": 0.915117084980011,
      "learning_rate": 0.0001550761860920196,
      "loss": 3.6777,
      "step": 235850
    },
    {
      "epoch": 0.491375,
      "grad_norm": 0.8288442492485046,
      "learning_rate": 0.000155066333173482,
      "loss": 3.7969,
      "step": 235860
    },
    {
      "epoch": 0.4913958333333333,
      "grad_norm": 0.7804641723632812,
      "learning_rate": 0.00015505648023305985,
      "loss": 3.857,
      "step": 235870
    },
    {
      "epoch": 0.49141666666666667,
      "grad_norm": 0.856688380241394,
      "learning_rate": 0.0001550466272707957,
      "loss": 3.6188,
      "step": 235880
    },
    {
      "epoch": 0.4914375,
      "grad_norm": 1.0065535306930542,
      "learning_rate": 0.00015503677428673214,
      "loss": 3.708,
      "step": 235890
    },
    {
      "epoch": 0.49145833333333333,
      "grad_norm": 0.8356528878211975,
      "learning_rate": 0.00015502692128091167,
      "loss": 4.0212,
      "step": 235900
    },
    {
      "epoch": 0.4914791666666667,
      "grad_norm": 0.8367645740509033,
      "learning_rate": 0.00015501706825337693,
      "loss": 3.7231,
      "step": 235910
    },
    {
      "epoch": 0.4915,
      "grad_norm": 0.8494184613227844,
      "learning_rate": 0.0001550072152041704,
      "loss": 3.7696,
      "step": 235920
    },
    {
      "epoch": 0.49152083333333335,
      "grad_norm": 1.0102367401123047,
      "learning_rate": 0.00015499736213333477,
      "loss": 3.8969,
      "step": 235930
    },
    {
      "epoch": 0.49154166666666665,
      "grad_norm": 0.6732763051986694,
      "learning_rate": 0.0001549875090409124,
      "loss": 3.6222,
      "step": 235940
    },
    {
      "epoch": 0.4915625,
      "grad_norm": 0.7388251423835754,
      "learning_rate": 0.00015497765592694602,
      "loss": 3.593,
      "step": 235950
    },
    {
      "epoch": 0.4915833333333333,
      "grad_norm": 0.9044736623764038,
      "learning_rate": 0.00015496780279147815,
      "loss": 3.7235,
      "step": 235960
    },
    {
      "epoch": 0.4916041666666667,
      "grad_norm": 0.7089267373085022,
      "learning_rate": 0.00015495794963455128,
      "loss": 3.655,
      "step": 235970
    },
    {
      "epoch": 0.491625,
      "grad_norm": 0.7649139761924744,
      "learning_rate": 0.0001549480964562081,
      "loss": 3.8649,
      "step": 235980
    },
    {
      "epoch": 0.49164583333333334,
      "grad_norm": 0.7881776094436646,
      "learning_rate": 0.00015493824325649107,
      "loss": 3.6949,
      "step": 235990
    },
    {
      "epoch": 0.49166666666666664,
      "grad_norm": 0.8524801135063171,
      "learning_rate": 0.0001549283900354428,
      "loss": 3.7056,
      "step": 236000
    },
    {
      "epoch": 0.49166666666666664,
      "eval_loss": 4.1450042724609375,
      "eval_runtime": 8.6895,
      "eval_samples_per_second": 1.151,
      "eval_steps_per_second": 0.345,
      "step": 236000
    },
    {
      "epoch": 0.4916875,
      "grad_norm": 0.7755500674247742,
      "learning_rate": 0.0001549185367931058,
      "loss": 3.8169,
      "step": 236010
    },
    {
      "epoch": 0.49170833333333336,
      "grad_norm": 0.8328870534896851,
      "learning_rate": 0.0001549086835295227,
      "loss": 3.9114,
      "step": 236020
    },
    {
      "epoch": 0.49172916666666666,
      "grad_norm": 0.9095317721366882,
      "learning_rate": 0.00015489883024473602,
      "loss": 3.674,
      "step": 236030
    },
    {
      "epoch": 0.49175,
      "grad_norm": 1.119794249534607,
      "learning_rate": 0.0001548889769387883,
      "loss": 3.6487,
      "step": 236040
    },
    {
      "epoch": 0.4917708333333333,
      "grad_norm": 0.8793802857398987,
      "learning_rate": 0.0001548791236117222,
      "loss": 3.689,
      "step": 236050
    },
    {
      "epoch": 0.4917916666666667,
      "grad_norm": 0.7747487425804138,
      "learning_rate": 0.0001548692702635802,
      "loss": 3.6623,
      "step": 236060
    },
    {
      "epoch": 0.4918125,
      "grad_norm": 0.8905462026596069,
      "learning_rate": 0.00015485941689440485,
      "loss": 3.7501,
      "step": 236070
    },
    {
      "epoch": 0.49183333333333334,
      "grad_norm": 1.0157231092453003,
      "learning_rate": 0.00015484956350423875,
      "loss": 3.878,
      "step": 236080
    },
    {
      "epoch": 0.49185416666666665,
      "grad_norm": 0.7810513377189636,
      "learning_rate": 0.00015483971009312448,
      "loss": 3.729,
      "step": 236090
    },
    {
      "epoch": 0.491875,
      "grad_norm": 0.8292986750602722,
      "learning_rate": 0.00015482985666110457,
      "loss": 3.8541,
      "step": 236100
    },
    {
      "epoch": 0.4918958333333333,
      "grad_norm": 0.8530462384223938,
      "learning_rate": 0.00015482000320822157,
      "loss": 3.909,
      "step": 236110
    },
    {
      "epoch": 0.49191666666666667,
      "grad_norm": 0.765103816986084,
      "learning_rate": 0.00015481014973451807,
      "loss": 3.7472,
      "step": 236120
    },
    {
      "epoch": 0.4919375,
      "grad_norm": 0.6936365962028503,
      "learning_rate": 0.00015480029624003665,
      "loss": 3.7832,
      "step": 236130
    },
    {
      "epoch": 0.49195833333333333,
      "grad_norm": 0.7278750538825989,
      "learning_rate": 0.0001547904427248198,
      "loss": 3.6953,
      "step": 236140
    },
    {
      "epoch": 0.4919791666666667,
      "grad_norm": 0.8188028931617737,
      "learning_rate": 0.00015478058918891018,
      "loss": 3.8541,
      "step": 236150
    },
    {
      "epoch": 0.492,
      "grad_norm": 0.7340289354324341,
      "learning_rate": 0.00015477073563235032,
      "loss": 3.8332,
      "step": 236160
    },
    {
      "epoch": 0.49202083333333335,
      "grad_norm": 1.0005484819412231,
      "learning_rate": 0.00015476088205518273,
      "loss": 3.7475,
      "step": 236170
    },
    {
      "epoch": 0.49204166666666665,
      "grad_norm": 0.7849753499031067,
      "learning_rate": 0.00015475102845745,
      "loss": 3.8718,
      "step": 236180
    },
    {
      "epoch": 0.4920625,
      "grad_norm": 0.877032995223999,
      "learning_rate": 0.00015474117483919479,
      "loss": 3.6983,
      "step": 236190
    },
    {
      "epoch": 0.4920833333333333,
      "grad_norm": 0.7774151563644409,
      "learning_rate": 0.0001547313212004595,
      "loss": 3.8307,
      "step": 236200
    },
    {
      "epoch": 0.4921041666666667,
      "grad_norm": 0.6696451306343079,
      "learning_rate": 0.0001547214675412868,
      "loss": 3.6881,
      "step": 236210
    },
    {
      "epoch": 0.492125,
      "grad_norm": 0.8640580773353577,
      "learning_rate": 0.00015471161386171922,
      "loss": 3.7836,
      "step": 236220
    },
    {
      "epoch": 0.49214583333333334,
      "grad_norm": 0.927125096321106,
      "learning_rate": 0.00015470176016179937,
      "loss": 3.637,
      "step": 236230
    },
    {
      "epoch": 0.49216666666666664,
      "grad_norm": 0.7499215006828308,
      "learning_rate": 0.00015469190644156974,
      "loss": 3.6658,
      "step": 236240
    },
    {
      "epoch": 0.4921875,
      "grad_norm": 0.8928934931755066,
      "learning_rate": 0.00015468205270107295,
      "loss": 3.5515,
      "step": 236250
    },
    {
      "epoch": 0.49220833333333336,
      "grad_norm": 0.8649415373802185,
      "learning_rate": 0.00015467219894035154,
      "loss": 3.5385,
      "step": 236260
    },
    {
      "epoch": 0.49222916666666666,
      "grad_norm": 0.7257828712463379,
      "learning_rate": 0.00015466234515944808,
      "loss": 3.7036,
      "step": 236270
    },
    {
      "epoch": 0.49225,
      "grad_norm": 0.7735306620597839,
      "learning_rate": 0.0001546524913584051,
      "loss": 3.8457,
      "step": 236280
    },
    {
      "epoch": 0.4922708333333333,
      "grad_norm": 0.9629421830177307,
      "learning_rate": 0.00015464263753726528,
      "loss": 3.7186,
      "step": 236290
    },
    {
      "epoch": 0.4922916666666667,
      "grad_norm": 0.7416477203369141,
      "learning_rate": 0.00015463278369607107,
      "loss": 3.9232,
      "step": 236300
    },
    {
      "epoch": 0.4923125,
      "grad_norm": 0.8733921051025391,
      "learning_rate": 0.00015462292983486504,
      "loss": 3.7586,
      "step": 236310
    },
    {
      "epoch": 0.49233333333333335,
      "grad_norm": 0.9895066022872925,
      "learning_rate": 0.00015461307595368977,
      "loss": 3.7554,
      "step": 236320
    },
    {
      "epoch": 0.49235416666666665,
      "grad_norm": 0.7014324069023132,
      "learning_rate": 0.0001546032220525879,
      "loss": 3.6899,
      "step": 236330
    },
    {
      "epoch": 0.492375,
      "grad_norm": 0.6560409069061279,
      "learning_rate": 0.00015459336813160188,
      "loss": 3.829,
      "step": 236340
    },
    {
      "epoch": 0.4923958333333333,
      "grad_norm": 0.7457616329193115,
      "learning_rate": 0.00015458351419077432,
      "loss": 3.6298,
      "step": 236350
    },
    {
      "epoch": 0.49241666666666667,
      "grad_norm": 0.8717552423477173,
      "learning_rate": 0.00015457366023014787,
      "loss": 3.7624,
      "step": 236360
    },
    {
      "epoch": 0.4924375,
      "grad_norm": 0.9576324820518494,
      "learning_rate": 0.00015456380624976495,
      "loss": 3.7616,
      "step": 236370
    },
    {
      "epoch": 0.49245833333333333,
      "grad_norm": 0.8243177533149719,
      "learning_rate": 0.00015455395224966823,
      "loss": 3.6837,
      "step": 236380
    },
    {
      "epoch": 0.4924791666666667,
      "grad_norm": 0.8536901473999023,
      "learning_rate": 0.00015454409822990018,
      "loss": 3.6875,
      "step": 236390
    },
    {
      "epoch": 0.4925,
      "grad_norm": 0.7731333374977112,
      "learning_rate": 0.00015453424419050347,
      "loss": 3.747,
      "step": 236400
    },
    {
      "epoch": 0.49252083333333335,
      "grad_norm": 0.7655118703842163,
      "learning_rate": 0.00015452439013152064,
      "loss": 3.759,
      "step": 236410
    },
    {
      "epoch": 0.49254166666666666,
      "grad_norm": 0.8325716257095337,
      "learning_rate": 0.00015451453605299417,
      "loss": 4.0062,
      "step": 236420
    },
    {
      "epoch": 0.4925625,
      "grad_norm": 0.7252935171127319,
      "learning_rate": 0.00015450468195496675,
      "loss": 3.7816,
      "step": 236430
    },
    {
      "epoch": 0.4925833333333333,
      "grad_norm": 0.8509171605110168,
      "learning_rate": 0.00015449482783748086,
      "loss": 3.6504,
      "step": 236440
    },
    {
      "epoch": 0.4926041666666667,
      "grad_norm": 0.9558171033859253,
      "learning_rate": 0.00015448497370057913,
      "loss": 3.7725,
      "step": 236450
    },
    {
      "epoch": 0.492625,
      "grad_norm": 0.9359307289123535,
      "learning_rate": 0.000154475119544304,
      "loss": 3.7173,
      "step": 236460
    },
    {
      "epoch": 0.49264583333333334,
      "grad_norm": 0.9915424585342407,
      "learning_rate": 0.0001544652653686982,
      "loss": 3.7494,
      "step": 236470
    },
    {
      "epoch": 0.49266666666666664,
      "grad_norm": 0.8903259038925171,
      "learning_rate": 0.0001544554111738042,
      "loss": 3.7616,
      "step": 236480
    },
    {
      "epoch": 0.4926875,
      "grad_norm": 0.8383105397224426,
      "learning_rate": 0.00015444555695966463,
      "loss": 3.6803,
      "step": 236490
    },
    {
      "epoch": 0.49270833333333336,
      "grad_norm": 0.8285077214241028,
      "learning_rate": 0.000154435702726322,
      "loss": 3.6033,
      "step": 236500
    },
    {
      "epoch": 0.49272916666666666,
      "grad_norm": 0.8966432213783264,
      "learning_rate": 0.0001544258484738188,
      "loss": 3.8525,
      "step": 236510
    },
    {
      "epoch": 0.49275,
      "grad_norm": 0.897567868232727,
      "learning_rate": 0.00015441599420219781,
      "loss": 3.848,
      "step": 236520
    },
    {
      "epoch": 0.4927708333333333,
      "grad_norm": 0.7597256302833557,
      "learning_rate": 0.00015440613991150138,
      "loss": 3.8934,
      "step": 236530
    },
    {
      "epoch": 0.4927916666666667,
      "grad_norm": 0.7917814254760742,
      "learning_rate": 0.00015439628560177222,
      "loss": 3.8221,
      "step": 236540
    },
    {
      "epoch": 0.4928125,
      "grad_norm": 0.8523826599121094,
      "learning_rate": 0.00015438643127305284,
      "loss": 3.749,
      "step": 236550
    },
    {
      "epoch": 0.49283333333333335,
      "grad_norm": 0.753792941570282,
      "learning_rate": 0.00015437657692538582,
      "loss": 3.6623,
      "step": 236560
    },
    {
      "epoch": 0.49285416666666665,
      "grad_norm": 0.7358757257461548,
      "learning_rate": 0.0001543667225588137,
      "loss": 3.7067,
      "step": 236570
    },
    {
      "epoch": 0.492875,
      "grad_norm": 0.9973975419998169,
      "learning_rate": 0.00015435686817337908,
      "loss": 3.8837,
      "step": 236580
    },
    {
      "epoch": 0.4928958333333333,
      "grad_norm": 0.7935978174209595,
      "learning_rate": 0.00015434701376912445,
      "loss": 3.7688,
      "step": 236590
    },
    {
      "epoch": 0.49291666666666667,
      "grad_norm": 0.8455824851989746,
      "learning_rate": 0.0001543371593460925,
      "loss": 3.6503,
      "step": 236600
    },
    {
      "epoch": 0.4929375,
      "grad_norm": 1.0410131216049194,
      "learning_rate": 0.00015432730490432575,
      "loss": 3.7588,
      "step": 236610
    },
    {
      "epoch": 0.49295833333333333,
      "grad_norm": 0.9217324256896973,
      "learning_rate": 0.00015431745044386673,
      "loss": 3.7576,
      "step": 236620
    },
    {
      "epoch": 0.4929791666666667,
      "grad_norm": 0.7305070757865906,
      "learning_rate": 0.00015430759596475808,
      "loss": 3.7333,
      "step": 236630
    },
    {
      "epoch": 0.493,
      "grad_norm": 0.7737119197845459,
      "learning_rate": 0.00015429774146704227,
      "loss": 3.6589,
      "step": 236640
    },
    {
      "epoch": 0.49302083333333335,
      "grad_norm": 0.7745954990386963,
      "learning_rate": 0.00015428788695076194,
      "loss": 3.731,
      "step": 236650
    },
    {
      "epoch": 0.49304166666666666,
      "grad_norm": 0.8564416170120239,
      "learning_rate": 0.00015427803241595966,
      "loss": 3.6838,
      "step": 236660
    },
    {
      "epoch": 0.4930625,
      "grad_norm": 0.8005573749542236,
      "learning_rate": 0.0001542681778626779,
      "loss": 3.7328,
      "step": 236670
    },
    {
      "epoch": 0.4930833333333333,
      "grad_norm": 0.9100181460380554,
      "learning_rate": 0.00015425832329095935,
      "loss": 3.724,
      "step": 236680
    },
    {
      "epoch": 0.4931041666666667,
      "grad_norm": 0.7759115695953369,
      "learning_rate": 0.00015424846870084653,
      "loss": 3.6992,
      "step": 236690
    },
    {
      "epoch": 0.493125,
      "grad_norm": 0.8707696795463562,
      "learning_rate": 0.000154238614092382,
      "loss": 3.5751,
      "step": 236700
    },
    {
      "epoch": 0.49314583333333334,
      "grad_norm": 0.8834092020988464,
      "learning_rate": 0.0001542287594656083,
      "loss": 3.8138,
      "step": 236710
    },
    {
      "epoch": 0.49316666666666664,
      "grad_norm": 0.8223856091499329,
      "learning_rate": 0.0001542189048205681,
      "loss": 3.6439,
      "step": 236720
    },
    {
      "epoch": 0.4931875,
      "grad_norm": 0.7340774536132812,
      "learning_rate": 0.00015420905015730386,
      "loss": 3.7794,
      "step": 236730
    },
    {
      "epoch": 0.49320833333333336,
      "grad_norm": 1.0857256650924683,
      "learning_rate": 0.00015419919547585815,
      "loss": 3.7853,
      "step": 236740
    },
    {
      "epoch": 0.49322916666666666,
      "grad_norm": 0.7525103688240051,
      "learning_rate": 0.00015418934077627368,
      "loss": 3.7982,
      "step": 236750
    },
    {
      "epoch": 0.49325,
      "grad_norm": 0.8160809874534607,
      "learning_rate": 0.00015417948605859287,
      "loss": 3.7208,
      "step": 236760
    },
    {
      "epoch": 0.4932708333333333,
      "grad_norm": 0.7059813737869263,
      "learning_rate": 0.0001541696313228583,
      "loss": 3.9709,
      "step": 236770
    },
    {
      "epoch": 0.4932916666666667,
      "grad_norm": 0.7481761574745178,
      "learning_rate": 0.0001541597765691126,
      "loss": 3.8605,
      "step": 236780
    },
    {
      "epoch": 0.4933125,
      "grad_norm": 0.7558107972145081,
      "learning_rate": 0.0001541499217973983,
      "loss": 3.7732,
      "step": 236790
    },
    {
      "epoch": 0.49333333333333335,
      "grad_norm": 0.8465986251831055,
      "learning_rate": 0.000154140067007758,
      "loss": 3.9258,
      "step": 236800
    },
    {
      "epoch": 0.49335416666666665,
      "grad_norm": 0.9274717569351196,
      "learning_rate": 0.00015413021220023426,
      "loss": 3.881,
      "step": 236810
    },
    {
      "epoch": 0.493375,
      "grad_norm": 0.8094309568405151,
      "learning_rate": 0.0001541203573748696,
      "loss": 3.6811,
      "step": 236820
    },
    {
      "epoch": 0.4933958333333333,
      "grad_norm": 0.8114022612571716,
      "learning_rate": 0.00015411050253170668,
      "loss": 3.5991,
      "step": 236830
    },
    {
      "epoch": 0.49341666666666667,
      "grad_norm": 0.8615202903747559,
      "learning_rate": 0.00015410064767078794,
      "loss": 3.7142,
      "step": 236840
    },
    {
      "epoch": 0.4934375,
      "grad_norm": 0.8161909580230713,
      "learning_rate": 0.00015409079279215607,
      "loss": 3.685,
      "step": 236850
    },
    {
      "epoch": 0.49345833333333333,
      "grad_norm": 0.7387424111366272,
      "learning_rate": 0.0001540809378958536,
      "loss": 3.7135,
      "step": 236860
    },
    {
      "epoch": 0.4934791666666667,
      "grad_norm": 0.8688302636146545,
      "learning_rate": 0.0001540710829819231,
      "loss": 3.8329,
      "step": 236870
    },
    {
      "epoch": 0.4935,
      "grad_norm": 0.8326995968818665,
      "learning_rate": 0.00015406122805040708,
      "loss": 3.6477,
      "step": 236880
    },
    {
      "epoch": 0.49352083333333335,
      "grad_norm": 0.8748881220817566,
      "learning_rate": 0.00015405137310134823,
      "loss": 3.7464,
      "step": 236890
    },
    {
      "epoch": 0.49354166666666666,
      "grad_norm": 0.796298086643219,
      "learning_rate": 0.00015404151813478903,
      "loss": 3.8389,
      "step": 236900
    },
    {
      "epoch": 0.4935625,
      "grad_norm": 0.6826839447021484,
      "learning_rate": 0.000154031663150772,
      "loss": 3.8467,
      "step": 236910
    },
    {
      "epoch": 0.4935833333333333,
      "grad_norm": 0.910941481590271,
      "learning_rate": 0.0001540218081493399,
      "loss": 3.8537,
      "step": 236920
    },
    {
      "epoch": 0.4936041666666667,
      "grad_norm": 1.1965008974075317,
      "learning_rate": 0.00015401195313053512,
      "loss": 3.8461,
      "step": 236930
    },
    {
      "epoch": 0.493625,
      "grad_norm": 0.7460291981697083,
      "learning_rate": 0.00015400209809440029,
      "loss": 3.907,
      "step": 236940
    },
    {
      "epoch": 0.49364583333333334,
      "grad_norm": 0.8585749864578247,
      "learning_rate": 0.00015399224304097798,
      "loss": 3.8084,
      "step": 236950
    },
    {
      "epoch": 0.49366666666666664,
      "grad_norm": 0.832073450088501,
      "learning_rate": 0.00015398238797031076,
      "loss": 3.8332,
      "step": 236960
    },
    {
      "epoch": 0.4936875,
      "grad_norm": 0.7869353890419006,
      "learning_rate": 0.0001539725328824412,
      "loss": 3.6027,
      "step": 236970
    },
    {
      "epoch": 0.49370833333333336,
      "grad_norm": 0.8285220265388489,
      "learning_rate": 0.0001539626777774119,
      "loss": 3.7469,
      "step": 236980
    },
    {
      "epoch": 0.49372916666666666,
      "grad_norm": 0.7577793002128601,
      "learning_rate": 0.00015395282265526537,
      "loss": 3.6798,
      "step": 236990
    },
    {
      "epoch": 0.49375,
      "grad_norm": 0.7302167415618896,
      "learning_rate": 0.00015394296751604423,
      "loss": 3.8021,
      "step": 237000
    },
    {
      "epoch": 0.49375,
      "eval_loss": 4.143740653991699,
      "eval_runtime": 8.4554,
      "eval_samples_per_second": 1.183,
      "eval_steps_per_second": 0.355,
      "step": 237000
    },
    {
      "epoch": 0.4937708333333333,
      "grad_norm": 0.7408103346824646,
      "learning_rate": 0.00015393311235979102,
      "loss": 3.803,
      "step": 237010
    },
    {
      "epoch": 0.4937916666666667,
      "grad_norm": 0.8002423048019409,
      "learning_rate": 0.0001539232571865483,
      "loss": 3.8289,
      "step": 237020
    },
    {
      "epoch": 0.4938125,
      "grad_norm": 0.74864661693573,
      "learning_rate": 0.00015391340199635872,
      "loss": 3.5696,
      "step": 237030
    },
    {
      "epoch": 0.49383333333333335,
      "grad_norm": 0.7922130227088928,
      "learning_rate": 0.0001539035467892647,
      "loss": 3.8901,
      "step": 237040
    },
    {
      "epoch": 0.49385416666666665,
      "grad_norm": 0.8571851253509521,
      "learning_rate": 0.00015389369156530895,
      "loss": 3.86,
      "step": 237050
    },
    {
      "epoch": 0.493875,
      "grad_norm": 0.7841837406158447,
      "learning_rate": 0.00015388383632453404,
      "loss": 3.7292,
      "step": 237060
    },
    {
      "epoch": 0.4938958333333333,
      "grad_norm": 1.1801837682724,
      "learning_rate": 0.00015387398106698246,
      "loss": 3.7747,
      "step": 237070
    },
    {
      "epoch": 0.49391666666666667,
      "grad_norm": 0.8239372968673706,
      "learning_rate": 0.0001538641257926968,
      "loss": 3.6872,
      "step": 237080
    },
    {
      "epoch": 0.4939375,
      "grad_norm": 0.7386560440063477,
      "learning_rate": 0.0001538542705017197,
      "loss": 3.8233,
      "step": 237090
    },
    {
      "epoch": 0.49395833333333333,
      "grad_norm": 1.040082335472107,
      "learning_rate": 0.00015384441519409358,
      "loss": 3.9668,
      "step": 237100
    },
    {
      "epoch": 0.4939791666666667,
      "grad_norm": 0.8851200938224792,
      "learning_rate": 0.00015383455986986118,
      "loss": 3.7802,
      "step": 237110
    },
    {
      "epoch": 0.494,
      "grad_norm": 0.7459439039230347,
      "learning_rate": 0.00015382470452906497,
      "loss": 3.8328,
      "step": 237120
    },
    {
      "epoch": 0.49402083333333335,
      "grad_norm": 0.8341724872589111,
      "learning_rate": 0.00015381484917174757,
      "loss": 3.7654,
      "step": 237130
    },
    {
      "epoch": 0.49404166666666666,
      "grad_norm": 1.0533506870269775,
      "learning_rate": 0.00015380499379795152,
      "loss": 3.7144,
      "step": 237140
    },
    {
      "epoch": 0.4940625,
      "grad_norm": 0.7694838643074036,
      "learning_rate": 0.00015379513840771942,
      "loss": 3.925,
      "step": 237150
    },
    {
      "epoch": 0.4940833333333333,
      "grad_norm": 0.8850077390670776,
      "learning_rate": 0.00015378528300109378,
      "loss": 3.7468,
      "step": 237160
    },
    {
      "epoch": 0.4941041666666667,
      "grad_norm": 0.8771915435791016,
      "learning_rate": 0.00015377542757811724,
      "loss": 3.7373,
      "step": 237170
    },
    {
      "epoch": 0.494125,
      "grad_norm": 0.9936367273330688,
      "learning_rate": 0.0001537655721388324,
      "loss": 3.7426,
      "step": 237180
    },
    {
      "epoch": 0.49414583333333334,
      "grad_norm": 0.8455718159675598,
      "learning_rate": 0.0001537557166832817,
      "loss": 3.7959,
      "step": 237190
    },
    {
      "epoch": 0.49416666666666664,
      "grad_norm": 0.9855799078941345,
      "learning_rate": 0.00015374586121150784,
      "loss": 4.039,
      "step": 237200
    },
    {
      "epoch": 0.4941875,
      "grad_norm": 0.7514578104019165,
      "learning_rate": 0.00015373600572355332,
      "loss": 3.8126,
      "step": 237210
    },
    {
      "epoch": 0.49420833333333336,
      "grad_norm": 0.7301512956619263,
      "learning_rate": 0.00015372615021946073,
      "loss": 3.8312,
      "step": 237220
    },
    {
      "epoch": 0.49422916666666666,
      "grad_norm": 0.849463701248169,
      "learning_rate": 0.0001537162946992727,
      "loss": 3.8147,
      "step": 237230
    },
    {
      "epoch": 0.49425,
      "grad_norm": 0.7926545143127441,
      "learning_rate": 0.00015370643916303166,
      "loss": 3.8385,
      "step": 237240
    },
    {
      "epoch": 0.4942708333333333,
      "grad_norm": 0.8066469430923462,
      "learning_rate": 0.00015369658361078035,
      "loss": 3.7023,
      "step": 237250
    },
    {
      "epoch": 0.4942916666666667,
      "grad_norm": 1.610530972480774,
      "learning_rate": 0.00015368672804256123,
      "loss": 3.811,
      "step": 237260
    },
    {
      "epoch": 0.4943125,
      "grad_norm": 0.8504158854484558,
      "learning_rate": 0.00015367687245841687,
      "loss": 3.9823,
      "step": 237270
    },
    {
      "epoch": 0.49433333333333335,
      "grad_norm": 0.7309313416481018,
      "learning_rate": 0.00015366701685838992,
      "loss": 3.6932,
      "step": 237280
    },
    {
      "epoch": 0.49435416666666665,
      "grad_norm": 0.869163453578949,
      "learning_rate": 0.0001536571612425229,
      "loss": 3.8335,
      "step": 237290
    },
    {
      "epoch": 0.494375,
      "grad_norm": 0.8276923298835754,
      "learning_rate": 0.00015364730561085837,
      "loss": 3.7681,
      "step": 237300
    },
    {
      "epoch": 0.4943958333333333,
      "grad_norm": 0.8588859438896179,
      "learning_rate": 0.00015363744996343894,
      "loss": 3.9334,
      "step": 237310
    },
    {
      "epoch": 0.49441666666666667,
      "grad_norm": 0.9168160557746887,
      "learning_rate": 0.00015362759430030717,
      "loss": 3.8569,
      "step": 237320
    },
    {
      "epoch": 0.4944375,
      "grad_norm": 1.1416724920272827,
      "learning_rate": 0.00015361773862150564,
      "loss": 3.7115,
      "step": 237330
    },
    {
      "epoch": 0.49445833333333333,
      "grad_norm": 0.8389923572540283,
      "learning_rate": 0.00015360788292707688,
      "loss": 3.9375,
      "step": 237340
    },
    {
      "epoch": 0.4944791666666667,
      "grad_norm": 0.6308863759040833,
      "learning_rate": 0.00015359802721706353,
      "loss": 3.5999,
      "step": 237350
    },
    {
      "epoch": 0.4945,
      "grad_norm": 0.7549574375152588,
      "learning_rate": 0.00015358817149150808,
      "loss": 3.6272,
      "step": 237360
    },
    {
      "epoch": 0.49452083333333335,
      "grad_norm": 0.9043022394180298,
      "learning_rate": 0.0001535783157504532,
      "loss": 3.7082,
      "step": 237370
    },
    {
      "epoch": 0.49454166666666666,
      "grad_norm": 0.9322233200073242,
      "learning_rate": 0.00015356845999394135,
      "loss": 3.7658,
      "step": 237380
    },
    {
      "epoch": 0.4945625,
      "grad_norm": 1.0539401769638062,
      "learning_rate": 0.0001535586042220152,
      "loss": 3.9039,
      "step": 237390
    },
    {
      "epoch": 0.4945833333333333,
      "grad_norm": 0.7042367458343506,
      "learning_rate": 0.00015354874843471732,
      "loss": 3.8086,
      "step": 237400
    },
    {
      "epoch": 0.4946041666666667,
      "grad_norm": 0.8298624157905579,
      "learning_rate": 0.0001535388926320902,
      "loss": 3.8271,
      "step": 237410
    },
    {
      "epoch": 0.494625,
      "grad_norm": 1.0226212739944458,
      "learning_rate": 0.0001535290368141765,
      "loss": 3.8812,
      "step": 237420
    },
    {
      "epoch": 0.49464583333333334,
      "grad_norm": 0.9711266756057739,
      "learning_rate": 0.00015351918098101876,
      "loss": 3.7052,
      "step": 237430
    },
    {
      "epoch": 0.49466666666666664,
      "grad_norm": 0.826080322265625,
      "learning_rate": 0.00015350932513265953,
      "loss": 3.7779,
      "step": 237440
    },
    {
      "epoch": 0.4946875,
      "grad_norm": 0.8664819598197937,
      "learning_rate": 0.0001534994692691414,
      "loss": 3.8166,
      "step": 237450
    },
    {
      "epoch": 0.49470833333333336,
      "grad_norm": 0.9297009706497192,
      "learning_rate": 0.00015348961339050696,
      "loss": 3.8415,
      "step": 237460
    },
    {
      "epoch": 0.49472916666666666,
      "grad_norm": 0.9680590629577637,
      "learning_rate": 0.00015347975749679878,
      "loss": 3.6752,
      "step": 237470
    },
    {
      "epoch": 0.49475,
      "grad_norm": 0.9130398035049438,
      "learning_rate": 0.0001534699015880594,
      "loss": 3.7989,
      "step": 237480
    },
    {
      "epoch": 0.4947708333333333,
      "grad_norm": 0.8203428387641907,
      "learning_rate": 0.00015346004566433143,
      "loss": 3.7676,
      "step": 237490
    },
    {
      "epoch": 0.4947916666666667,
      "grad_norm": 0.8196139931678772,
      "learning_rate": 0.00015345018972565743,
      "loss": 3.7994,
      "step": 237500
    },
    {
      "epoch": 0.4948125,
      "grad_norm": 0.8329639434814453,
      "learning_rate": 0.00015344033377207998,
      "loss": 3.6536,
      "step": 237510
    },
    {
      "epoch": 0.49483333333333335,
      "grad_norm": 0.8766422271728516,
      "learning_rate": 0.00015343047780364165,
      "loss": 3.9279,
      "step": 237520
    },
    {
      "epoch": 0.49485416666666665,
      "grad_norm": 0.8216445446014404,
      "learning_rate": 0.00015342062182038504,
      "loss": 3.7704,
      "step": 237530
    },
    {
      "epoch": 0.494875,
      "grad_norm": 1.0199394226074219,
      "learning_rate": 0.00015341076582235265,
      "loss": 3.8395,
      "step": 237540
    },
    {
      "epoch": 0.4948958333333333,
      "grad_norm": 0.9036005735397339,
      "learning_rate": 0.0001534009098095871,
      "loss": 3.8282,
      "step": 237550
    },
    {
      "epoch": 0.49491666666666667,
      "grad_norm": 0.8424267172813416,
      "learning_rate": 0.00015339105378213105,
      "loss": 3.8703,
      "step": 237560
    },
    {
      "epoch": 0.4949375,
      "grad_norm": 1.0036940574645996,
      "learning_rate": 0.00015338119774002695,
      "loss": 3.5282,
      "step": 237570
    },
    {
      "epoch": 0.49495833333333333,
      "grad_norm": 0.7361514568328857,
      "learning_rate": 0.00015337134168331732,
      "loss": 3.6634,
      "step": 237580
    },
    {
      "epoch": 0.4949791666666667,
      "grad_norm": 0.8247551918029785,
      "learning_rate": 0.00015336148561204496,
      "loss": 3.7606,
      "step": 237590
    },
    {
      "epoch": 0.495,
      "grad_norm": 0.7477384805679321,
      "learning_rate": 0.00015335162952625226,
      "loss": 3.8084,
      "step": 237600
    },
    {
      "epoch": 0.49502083333333335,
      "grad_norm": 0.8133105635643005,
      "learning_rate": 0.0001533417734259818,
      "loss": 3.7372,
      "step": 237610
    },
    {
      "epoch": 0.49504166666666666,
      "grad_norm": 0.7914823889732361,
      "learning_rate": 0.00015333191731127627,
      "loss": 3.9055,
      "step": 237620
    },
    {
      "epoch": 0.4950625,
      "grad_norm": 0.8277153372764587,
      "learning_rate": 0.00015332206118217815,
      "loss": 3.8207,
      "step": 237630
    },
    {
      "epoch": 0.4950833333333333,
      "grad_norm": 0.6751575469970703,
      "learning_rate": 0.00015331220503873004,
      "loss": 3.6561,
      "step": 237640
    },
    {
      "epoch": 0.4951041666666667,
      "grad_norm": 0.752768874168396,
      "learning_rate": 0.0001533023488809745,
      "loss": 3.7922,
      "step": 237650
    },
    {
      "epoch": 0.495125,
      "grad_norm": 0.9314393401145935,
      "learning_rate": 0.00015329249270895414,
      "loss": 3.6407,
      "step": 237660
    },
    {
      "epoch": 0.49514583333333334,
      "grad_norm": 0.7909165620803833,
      "learning_rate": 0.00015328263652271152,
      "loss": 3.8166,
      "step": 237670
    },
    {
      "epoch": 0.49516666666666664,
      "grad_norm": 0.7422119975090027,
      "learning_rate": 0.00015327278032228918,
      "loss": 3.5926,
      "step": 237680
    },
    {
      "epoch": 0.4951875,
      "grad_norm": 0.8067912459373474,
      "learning_rate": 0.00015326292410772975,
      "loss": 3.8076,
      "step": 237690
    },
    {
      "epoch": 0.4952083333333333,
      "grad_norm": 0.7497854828834534,
      "learning_rate": 0.00015325306787907582,
      "loss": 3.6887,
      "step": 237700
    },
    {
      "epoch": 0.49522916666666666,
      "grad_norm": 0.8297907710075378,
      "learning_rate": 0.00015324321163636984,
      "loss": 3.7447,
      "step": 237710
    },
    {
      "epoch": 0.49525,
      "grad_norm": 0.8359936475753784,
      "learning_rate": 0.0001532333553796545,
      "loss": 3.7763,
      "step": 237720
    },
    {
      "epoch": 0.4952708333333333,
      "grad_norm": 0.8241927027702332,
      "learning_rate": 0.0001532234991089724,
      "loss": 3.7246,
      "step": 237730
    },
    {
      "epoch": 0.4952916666666667,
      "grad_norm": 0.8751989603042603,
      "learning_rate": 0.00015321364282436595,
      "loss": 3.8346,
      "step": 237740
    },
    {
      "epoch": 0.4953125,
      "grad_norm": 0.8410475254058838,
      "learning_rate": 0.0001532037865258779,
      "loss": 3.9287,
      "step": 237750
    },
    {
      "epoch": 0.49533333333333335,
      "grad_norm": 0.7771235704421997,
      "learning_rate": 0.0001531939302135508,
      "loss": 3.7751,
      "step": 237760
    },
    {
      "epoch": 0.49535416666666665,
      "grad_norm": 1.0475361347198486,
      "learning_rate": 0.00015318407388742713,
      "loss": 3.6192,
      "step": 237770
    },
    {
      "epoch": 0.495375,
      "grad_norm": 0.9133773446083069,
      "learning_rate": 0.0001531742175475495,
      "loss": 3.7782,
      "step": 237780
    },
    {
      "epoch": 0.4953958333333333,
      "grad_norm": 0.9450029730796814,
      "learning_rate": 0.0001531643611939606,
      "loss": 3.7412,
      "step": 237790
    },
    {
      "epoch": 0.49541666666666667,
      "grad_norm": 0.8831245303153992,
      "learning_rate": 0.00015315450482670284,
      "loss": 3.7445,
      "step": 237800
    },
    {
      "epoch": 0.4954375,
      "grad_norm": 0.7825669646263123,
      "learning_rate": 0.00015314464844581887,
      "loss": 3.7837,
      "step": 237810
    },
    {
      "epoch": 0.49545833333333333,
      "grad_norm": 1.101222276687622,
      "learning_rate": 0.00015313479205135127,
      "loss": 3.7725,
      "step": 237820
    },
    {
      "epoch": 0.4954791666666667,
      "grad_norm": 0.764979362487793,
      "learning_rate": 0.00015312493564334265,
      "loss": 3.7392,
      "step": 237830
    },
    {
      "epoch": 0.4955,
      "grad_norm": 1.066288948059082,
      "learning_rate": 0.0001531150792218355,
      "loss": 3.8072,
      "step": 237840
    },
    {
      "epoch": 0.49552083333333335,
      "grad_norm": 0.7381714582443237,
      "learning_rate": 0.00015310522278687242,
      "loss": 3.6822,
      "step": 237850
    },
    {
      "epoch": 0.49554166666666666,
      "grad_norm": 1.0502980947494507,
      "learning_rate": 0.00015309536633849606,
      "loss": 3.6424,
      "step": 237860
    },
    {
      "epoch": 0.4955625,
      "grad_norm": 0.8648732304573059,
      "learning_rate": 0.00015308550987674894,
      "loss": 3.8306,
      "step": 237870
    },
    {
      "epoch": 0.4955833333333333,
      "grad_norm": 0.9311817288398743,
      "learning_rate": 0.00015307565340167358,
      "loss": 3.8352,
      "step": 237880
    },
    {
      "epoch": 0.4956041666666667,
      "grad_norm": 0.8496232032775879,
      "learning_rate": 0.00015306579691331266,
      "loss": 3.5791,
      "step": 237890
    },
    {
      "epoch": 0.495625,
      "grad_norm": 0.7807260155677795,
      "learning_rate": 0.00015305594041170871,
      "loss": 3.9763,
      "step": 237900
    },
    {
      "epoch": 0.49564583333333334,
      "grad_norm": 0.7292104363441467,
      "learning_rate": 0.0001530460838969043,
      "loss": 3.695,
      "step": 237910
    },
    {
      "epoch": 0.49566666666666664,
      "grad_norm": 0.8002505302429199,
      "learning_rate": 0.000153036227368942,
      "loss": 3.8198,
      "step": 237920
    },
    {
      "epoch": 0.4956875,
      "grad_norm": 0.8068302273750305,
      "learning_rate": 0.00015302637082786444,
      "loss": 3.7225,
      "step": 237930
    },
    {
      "epoch": 0.4957083333333333,
      "grad_norm": 0.9712274074554443,
      "learning_rate": 0.00015301651427371415,
      "loss": 3.7552,
      "step": 237940
    },
    {
      "epoch": 0.49572916666666667,
      "grad_norm": 0.9948316812515259,
      "learning_rate": 0.00015300665770653362,
      "loss": 3.7797,
      "step": 237950
    },
    {
      "epoch": 0.49575,
      "grad_norm": 0.8264886140823364,
      "learning_rate": 0.00015299680112636566,
      "loss": 3.7417,
      "step": 237960
    },
    {
      "epoch": 0.4957708333333333,
      "grad_norm": 0.8058579564094543,
      "learning_rate": 0.0001529869445332526,
      "loss": 3.8851,
      "step": 237970
    },
    {
      "epoch": 0.4957916666666667,
      "grad_norm": 0.9172646403312683,
      "learning_rate": 0.00015297708792723713,
      "loss": 3.944,
      "step": 237980
    },
    {
      "epoch": 0.4958125,
      "grad_norm": 0.831325888633728,
      "learning_rate": 0.0001529672313083619,
      "loss": 3.8181,
      "step": 237990
    },
    {
      "epoch": 0.49583333333333335,
      "grad_norm": 0.7609788775444031,
      "learning_rate": 0.00015295737467666934,
      "loss": 3.6611,
      "step": 238000
    },
    {
      "epoch": 0.49583333333333335,
      "eval_loss": 4.155806064605713,
      "eval_runtime": 8.3448,
      "eval_samples_per_second": 1.198,
      "eval_steps_per_second": 0.36,
      "step": 238000
    },
    {
      "epoch": 0.49585416666666665,
      "grad_norm": 0.8108037114143372,
      "learning_rate": 0.0001529475180322021,
      "loss": 3.8033,
      "step": 238010
    },
    {
      "epoch": 0.495875,
      "grad_norm": 0.7369520664215088,
      "learning_rate": 0.00015293766137500274,
      "loss": 3.8168,
      "step": 238020
    },
    {
      "epoch": 0.4958958333333333,
      "grad_norm": 0.9571312069892883,
      "learning_rate": 0.0001529278047051139,
      "loss": 3.6862,
      "step": 238030
    },
    {
      "epoch": 0.4959166666666667,
      "grad_norm": 0.9254497289657593,
      "learning_rate": 0.00015291794802257803,
      "loss": 3.8465,
      "step": 238040
    },
    {
      "epoch": 0.4959375,
      "grad_norm": 0.9158450961112976,
      "learning_rate": 0.0001529080913274378,
      "loss": 3.8473,
      "step": 238050
    },
    {
      "epoch": 0.49595833333333333,
      "grad_norm": 0.9315266013145447,
      "learning_rate": 0.0001528982346197358,
      "loss": 3.8071,
      "step": 238060
    },
    {
      "epoch": 0.4959791666666667,
      "grad_norm": 0.8689801096916199,
      "learning_rate": 0.00015288837789951458,
      "loss": 3.7535,
      "step": 238070
    },
    {
      "epoch": 0.496,
      "grad_norm": 0.9040848016738892,
      "learning_rate": 0.00015287852116681663,
      "loss": 3.7922,
      "step": 238080
    },
    {
      "epoch": 0.49602083333333336,
      "grad_norm": 1.0894392728805542,
      "learning_rate": 0.00015286866442168465,
      "loss": 3.7399,
      "step": 238090
    },
    {
      "epoch": 0.49604166666666666,
      "grad_norm": 0.8801304697990417,
      "learning_rate": 0.00015285880766416124,
      "loss": 3.7428,
      "step": 238100
    },
    {
      "epoch": 0.4960625,
      "grad_norm": 0.7942971587181091,
      "learning_rate": 0.0001528489508942888,
      "loss": 3.7539,
      "step": 238110
    },
    {
      "epoch": 0.4960833333333333,
      "grad_norm": 0.8300926685333252,
      "learning_rate": 0.0001528390941121101,
      "loss": 3.8607,
      "step": 238120
    },
    {
      "epoch": 0.4961041666666667,
      "grad_norm": 0.8699906468391418,
      "learning_rate": 0.00015282923731766763,
      "loss": 3.8738,
      "step": 238130
    },
    {
      "epoch": 0.496125,
      "grad_norm": 1.0748505592346191,
      "learning_rate": 0.00015281938051100397,
      "loss": 3.8781,
      "step": 238140
    },
    {
      "epoch": 0.49614583333333334,
      "grad_norm": 0.6888543963432312,
      "learning_rate": 0.00015280952369216166,
      "loss": 3.7044,
      "step": 238150
    },
    {
      "epoch": 0.49616666666666664,
      "grad_norm": 0.7874281406402588,
      "learning_rate": 0.0001527996668611834,
      "loss": 3.9398,
      "step": 238160
    },
    {
      "epoch": 0.4961875,
      "grad_norm": 0.7963303327560425,
      "learning_rate": 0.0001527898100181116,
      "loss": 3.8649,
      "step": 238170
    },
    {
      "epoch": 0.4962083333333333,
      "grad_norm": 0.9953107833862305,
      "learning_rate": 0.000152779953162989,
      "loss": 3.6346,
      "step": 238180
    },
    {
      "epoch": 0.49622916666666667,
      "grad_norm": 0.7824012637138367,
      "learning_rate": 0.00015277009629585802,
      "loss": 3.8876,
      "step": 238190
    },
    {
      "epoch": 0.49625,
      "grad_norm": 0.9978765845298767,
      "learning_rate": 0.00015276023941676137,
      "loss": 3.9484,
      "step": 238200
    },
    {
      "epoch": 0.4962708333333333,
      "grad_norm": 0.8142049312591553,
      "learning_rate": 0.00015275038252574158,
      "loss": 3.7469,
      "step": 238210
    },
    {
      "epoch": 0.4962916666666667,
      "grad_norm": 0.7752083539962769,
      "learning_rate": 0.00015274052562284124,
      "loss": 3.848,
      "step": 238220
    },
    {
      "epoch": 0.4963125,
      "grad_norm": 0.7748519778251648,
      "learning_rate": 0.00015273066870810287,
      "loss": 3.8051,
      "step": 238230
    },
    {
      "epoch": 0.49633333333333335,
      "grad_norm": 0.839647650718689,
      "learning_rate": 0.00015272081178156912,
      "loss": 3.6935,
      "step": 238240
    },
    {
      "epoch": 0.49635416666666665,
      "grad_norm": 0.7262501120567322,
      "learning_rate": 0.00015271095484328253,
      "loss": 3.7516,
      "step": 238250
    },
    {
      "epoch": 0.496375,
      "grad_norm": 0.8296782374382019,
      "learning_rate": 0.0001527010978932857,
      "loss": 3.8243,
      "step": 238260
    },
    {
      "epoch": 0.4963958333333333,
      "grad_norm": 0.8057076930999756,
      "learning_rate": 0.00015269124093162122,
      "loss": 3.7479,
      "step": 238270
    },
    {
      "epoch": 0.4964166666666667,
      "grad_norm": 0.9878356456756592,
      "learning_rate": 0.0001526813839583316,
      "loss": 3.7034,
      "step": 238280
    },
    {
      "epoch": 0.4964375,
      "grad_norm": 0.7143793106079102,
      "learning_rate": 0.0001526715269734595,
      "loss": 3.8151,
      "step": 238290
    },
    {
      "epoch": 0.49645833333333333,
      "grad_norm": 0.746464729309082,
      "learning_rate": 0.00015266166997704745,
      "loss": 3.7134,
      "step": 238300
    },
    {
      "epoch": 0.4964791666666667,
      "grad_norm": 0.9462725520133972,
      "learning_rate": 0.000152651812969138,
      "loss": 3.7848,
      "step": 238310
    },
    {
      "epoch": 0.4965,
      "grad_norm": 0.7447453737258911,
      "learning_rate": 0.0001526419559497738,
      "loss": 3.553,
      "step": 238320
    },
    {
      "epoch": 0.49652083333333336,
      "grad_norm": 0.7907960414886475,
      "learning_rate": 0.0001526320989189974,
      "loss": 3.5698,
      "step": 238330
    },
    {
      "epoch": 0.49654166666666666,
      "grad_norm": 0.8712995052337646,
      "learning_rate": 0.00015262224187685136,
      "loss": 3.8866,
      "step": 238340
    },
    {
      "epoch": 0.4965625,
      "grad_norm": 0.8131948113441467,
      "learning_rate": 0.00015261238482337826,
      "loss": 3.6549,
      "step": 238350
    },
    {
      "epoch": 0.4965833333333333,
      "grad_norm": 0.7747756242752075,
      "learning_rate": 0.00015260252775862071,
      "loss": 3.6974,
      "step": 238360
    },
    {
      "epoch": 0.4966041666666667,
      "grad_norm": 0.759663999080658,
      "learning_rate": 0.0001525926706826213,
      "loss": 3.9235,
      "step": 238370
    },
    {
      "epoch": 0.496625,
      "grad_norm": 0.9170782566070557,
      "learning_rate": 0.00015258281359542254,
      "loss": 3.6546,
      "step": 238380
    },
    {
      "epoch": 0.49664583333333334,
      "grad_norm": 0.73310387134552,
      "learning_rate": 0.00015257295649706706,
      "loss": 3.7631,
      "step": 238390
    },
    {
      "epoch": 0.49666666666666665,
      "grad_norm": 0.8416591882705688,
      "learning_rate": 0.00015256309938759742,
      "loss": 3.8256,
      "step": 238400
    },
    {
      "epoch": 0.4966875,
      "grad_norm": 0.7448116540908813,
      "learning_rate": 0.0001525532422670562,
      "loss": 3.966,
      "step": 238410
    },
    {
      "epoch": 0.4967083333333333,
      "grad_norm": 0.8109632134437561,
      "learning_rate": 0.000152543385135486,
      "loss": 3.7558,
      "step": 238420
    },
    {
      "epoch": 0.49672916666666667,
      "grad_norm": 0.8552186489105225,
      "learning_rate": 0.0001525335279929294,
      "loss": 3.6582,
      "step": 238430
    },
    {
      "epoch": 0.49675,
      "grad_norm": 0.778872013092041,
      "learning_rate": 0.00015252367083942893,
      "loss": 3.7031,
      "step": 238440
    },
    {
      "epoch": 0.49677083333333333,
      "grad_norm": 0.8674865961074829,
      "learning_rate": 0.00015251381367502719,
      "loss": 3.7399,
      "step": 238450
    },
    {
      "epoch": 0.4967916666666667,
      "grad_norm": 0.9742767214775085,
      "learning_rate": 0.00015250395649976683,
      "loss": 3.619,
      "step": 238460
    },
    {
      "epoch": 0.4968125,
      "grad_norm": 1.0509605407714844,
      "learning_rate": 0.0001524940993136903,
      "loss": 3.8839,
      "step": 238470
    },
    {
      "epoch": 0.49683333333333335,
      "grad_norm": 0.8976224660873413,
      "learning_rate": 0.00015248424211684026,
      "loss": 3.7168,
      "step": 238480
    },
    {
      "epoch": 0.49685416666666665,
      "grad_norm": 0.7967678904533386,
      "learning_rate": 0.00015247438490925935,
      "loss": 3.7087,
      "step": 238490
    },
    {
      "epoch": 0.496875,
      "grad_norm": 0.8413745164871216,
      "learning_rate": 0.00015246452769098997,
      "loss": 3.8586,
      "step": 238500
    },
    {
      "epoch": 0.4968958333333333,
      "grad_norm": 0.7718377709388733,
      "learning_rate": 0.00015245467046207486,
      "loss": 3.6083,
      "step": 238510
    },
    {
      "epoch": 0.4969166666666667,
      "grad_norm": 0.834112286567688,
      "learning_rate": 0.00015244481322255658,
      "loss": 3.8169,
      "step": 238520
    },
    {
      "epoch": 0.4969375,
      "grad_norm": 0.790282666683197,
      "learning_rate": 0.00015243495597247762,
      "loss": 3.9532,
      "step": 238530
    },
    {
      "epoch": 0.49695833333333334,
      "grad_norm": 0.9547596573829651,
      "learning_rate": 0.00015242509871188063,
      "loss": 3.6593,
      "step": 238540
    },
    {
      "epoch": 0.4969791666666667,
      "grad_norm": 0.7458985447883606,
      "learning_rate": 0.00015241524144080817,
      "loss": 3.769,
      "step": 238550
    },
    {
      "epoch": 0.497,
      "grad_norm": 0.7601897120475769,
      "learning_rate": 0.00015240538415930283,
      "loss": 3.7957,
      "step": 238560
    },
    {
      "epoch": 0.49702083333333336,
      "grad_norm": 0.9263256192207336,
      "learning_rate": 0.00015239552686740714,
      "loss": 3.8592,
      "step": 238570
    },
    {
      "epoch": 0.49704166666666666,
      "grad_norm": 0.8630890846252441,
      "learning_rate": 0.0001523856695651638,
      "loss": 3.7705,
      "step": 238580
    },
    {
      "epoch": 0.4970625,
      "grad_norm": 0.909251868724823,
      "learning_rate": 0.00015237581225261527,
      "loss": 3.6066,
      "step": 238590
    },
    {
      "epoch": 0.4970833333333333,
      "grad_norm": 0.8027347922325134,
      "learning_rate": 0.00015236595492980419,
      "loss": 3.7521,
      "step": 238600
    },
    {
      "epoch": 0.4971041666666667,
      "grad_norm": 0.7997465133666992,
      "learning_rate": 0.0001523560975967731,
      "loss": 3.8688,
      "step": 238610
    },
    {
      "epoch": 0.497125,
      "grad_norm": 0.8014475107192993,
      "learning_rate": 0.00015234624025356458,
      "loss": 3.669,
      "step": 238620
    },
    {
      "epoch": 0.49714583333333334,
      "grad_norm": 0.7371170520782471,
      "learning_rate": 0.0001523363829002213,
      "loss": 3.7453,
      "step": 238630
    },
    {
      "epoch": 0.49716666666666665,
      "grad_norm": 0.9031545519828796,
      "learning_rate": 0.00015232652553678574,
      "loss": 3.6956,
      "step": 238640
    },
    {
      "epoch": 0.4971875,
      "grad_norm": 0.8414963483810425,
      "learning_rate": 0.00015231666816330045,
      "loss": 3.7064,
      "step": 238650
    },
    {
      "epoch": 0.4972083333333333,
      "grad_norm": 0.8090062737464905,
      "learning_rate": 0.00015230681077980817,
      "loss": 3.7414,
      "step": 238660
    },
    {
      "epoch": 0.49722916666666667,
      "grad_norm": 0.7631310820579529,
      "learning_rate": 0.00015229695338635132,
      "loss": 3.7286,
      "step": 238670
    },
    {
      "epoch": 0.49725,
      "grad_norm": 0.7565110921859741,
      "learning_rate": 0.00015228709598297252,
      "loss": 3.7396,
      "step": 238680
    },
    {
      "epoch": 0.49727083333333333,
      "grad_norm": 0.9667887091636658,
      "learning_rate": 0.00015227723856971445,
      "loss": 3.8197,
      "step": 238690
    },
    {
      "epoch": 0.4972916666666667,
      "grad_norm": 0.7574161887168884,
      "learning_rate": 0.00015226738114661954,
      "loss": 3.8353,
      "step": 238700
    },
    {
      "epoch": 0.4973125,
      "grad_norm": 0.8070891499519348,
      "learning_rate": 0.00015225752371373047,
      "loss": 3.8846,
      "step": 238710
    },
    {
      "epoch": 0.49733333333333335,
      "grad_norm": 0.8178917169570923,
      "learning_rate": 0.00015224766627108975,
      "loss": 3.8164,
      "step": 238720
    },
    {
      "epoch": 0.49735416666666665,
      "grad_norm": 0.7368025779724121,
      "learning_rate": 0.00015223780881874004,
      "loss": 3.5828,
      "step": 238730
    },
    {
      "epoch": 0.497375,
      "grad_norm": 0.8160830736160278,
      "learning_rate": 0.0001522279513567239,
      "loss": 3.7525,
      "step": 238740
    },
    {
      "epoch": 0.4973958333333333,
      "grad_norm": 0.9155523180961609,
      "learning_rate": 0.00015221809388508387,
      "loss": 3.8171,
      "step": 238750
    },
    {
      "epoch": 0.4974166666666667,
      "grad_norm": 0.9887881875038147,
      "learning_rate": 0.00015220823640386255,
      "loss": 3.7051,
      "step": 238760
    },
    {
      "epoch": 0.4974375,
      "grad_norm": 0.7529125213623047,
      "learning_rate": 0.00015219837891310256,
      "loss": 3.8254,
      "step": 238770
    },
    {
      "epoch": 0.49745833333333334,
      "grad_norm": 0.8878410458564758,
      "learning_rate": 0.00015218852141284637,
      "loss": 3.7936,
      "step": 238780
    },
    {
      "epoch": 0.49747916666666664,
      "grad_norm": 0.7816945314407349,
      "learning_rate": 0.00015217866390313667,
      "loss": 3.879,
      "step": 238790
    },
    {
      "epoch": 0.4975,
      "grad_norm": 0.8448981642723083,
      "learning_rate": 0.00015216880638401604,
      "loss": 3.6064,
      "step": 238800
    },
    {
      "epoch": 0.49752083333333336,
      "grad_norm": 0.9420046806335449,
      "learning_rate": 0.00015215894885552698,
      "loss": 3.9328,
      "step": 238810
    },
    {
      "epoch": 0.49754166666666666,
      "grad_norm": 0.7901927828788757,
      "learning_rate": 0.0001521490913177121,
      "loss": 3.835,
      "step": 238820
    },
    {
      "epoch": 0.4975625,
      "grad_norm": 0.7768189907073975,
      "learning_rate": 0.00015213923377061403,
      "loss": 3.8009,
      "step": 238830
    },
    {
      "epoch": 0.4975833333333333,
      "grad_norm": 0.8564926981925964,
      "learning_rate": 0.00015212937621427532,
      "loss": 3.7806,
      "step": 238840
    },
    {
      "epoch": 0.4976041666666667,
      "grad_norm": 0.8137028217315674,
      "learning_rate": 0.0001521195186487385,
      "loss": 3.8945,
      "step": 238850
    },
    {
      "epoch": 0.497625,
      "grad_norm": 0.7727660536766052,
      "learning_rate": 0.0001521096610740463,
      "loss": 3.7318,
      "step": 238860
    },
    {
      "epoch": 0.49764583333333334,
      "grad_norm": 0.8196861147880554,
      "learning_rate": 0.00015209980349024108,
      "loss": 3.6783,
      "step": 238870
    },
    {
      "epoch": 0.49766666666666665,
      "grad_norm": 0.9164650440216064,
      "learning_rate": 0.00015208994589736562,
      "loss": 3.6447,
      "step": 238880
    },
    {
      "epoch": 0.4976875,
      "grad_norm": 0.8328384160995483,
      "learning_rate": 0.0001520800882954624,
      "loss": 3.7289,
      "step": 238890
    },
    {
      "epoch": 0.4977083333333333,
      "grad_norm": 0.8473722338676453,
      "learning_rate": 0.000152070230684574,
      "loss": 3.7107,
      "step": 238900
    },
    {
      "epoch": 0.49772916666666667,
      "grad_norm": 0.7941513657569885,
      "learning_rate": 0.00015206037306474306,
      "loss": 3.6323,
      "step": 238910
    },
    {
      "epoch": 0.49775,
      "grad_norm": 0.7729533314704895,
      "learning_rate": 0.0001520505154360121,
      "loss": 3.9224,
      "step": 238920
    },
    {
      "epoch": 0.49777083333333333,
      "grad_norm": 0.8175351023674011,
      "learning_rate": 0.00015204065779842374,
      "loss": 3.8165,
      "step": 238930
    },
    {
      "epoch": 0.4977916666666667,
      "grad_norm": 0.7708178162574768,
      "learning_rate": 0.00015203080015202053,
      "loss": 4.0328,
      "step": 238940
    },
    {
      "epoch": 0.4978125,
      "grad_norm": 0.7610103487968445,
      "learning_rate": 0.00015202094249684508,
      "loss": 3.7412,
      "step": 238950
    },
    {
      "epoch": 0.49783333333333335,
      "grad_norm": 0.8594620823860168,
      "learning_rate": 0.0001520110848329399,
      "loss": 3.8769,
      "step": 238960
    },
    {
      "epoch": 0.49785416666666665,
      "grad_norm": 0.7821348309516907,
      "learning_rate": 0.00015200122716034774,
      "loss": 3.7755,
      "step": 238970
    },
    {
      "epoch": 0.497875,
      "grad_norm": 0.8355070948600769,
      "learning_rate": 0.000151991369479111,
      "loss": 3.8455,
      "step": 238980
    },
    {
      "epoch": 0.4978958333333333,
      "grad_norm": 0.9517154097557068,
      "learning_rate": 0.0001519815117892723,
      "loss": 3.7689,
      "step": 238990
    },
    {
      "epoch": 0.4979166666666667,
      "grad_norm": 0.7924310564994812,
      "learning_rate": 0.00015197165409087433,
      "loss": 3.6681,
      "step": 239000
    },
    {
      "epoch": 0.4979166666666667,
      "eval_loss": 4.14945650100708,
      "eval_runtime": 8.1737,
      "eval_samples_per_second": 1.223,
      "eval_steps_per_second": 0.367,
      "step": 239000
    },
    {
      "epoch": 0.4979375,
      "grad_norm": 0.7909937500953674,
      "learning_rate": 0.00015196179638395958,
      "loss": 3.7589,
      "step": 239010
    },
    {
      "epoch": 0.49795833333333334,
      "grad_norm": 0.8596680760383606,
      "learning_rate": 0.00015195193866857063,
      "loss": 3.7942,
      "step": 239020
    },
    {
      "epoch": 0.49797916666666664,
      "grad_norm": 0.7570611238479614,
      "learning_rate": 0.00015194208094475005,
      "loss": 3.6959,
      "step": 239030
    },
    {
      "epoch": 0.498,
      "grad_norm": 0.9180442094802856,
      "learning_rate": 0.00015193222321254051,
      "loss": 3.8534,
      "step": 239040
    },
    {
      "epoch": 0.49802083333333336,
      "grad_norm": 0.6809069514274597,
      "learning_rate": 0.00015192236547198446,
      "loss": 3.7086,
      "step": 239050
    },
    {
      "epoch": 0.49804166666666666,
      "grad_norm": 0.8896380066871643,
      "learning_rate": 0.0001519125077231246,
      "loss": 3.7438,
      "step": 239060
    },
    {
      "epoch": 0.4980625,
      "grad_norm": 0.7863284945487976,
      "learning_rate": 0.00015190264996600345,
      "loss": 3.9666,
      "step": 239070
    },
    {
      "epoch": 0.4980833333333333,
      "grad_norm": 0.8681908845901489,
      "learning_rate": 0.0001518927922006636,
      "loss": 3.8134,
      "step": 239080
    },
    {
      "epoch": 0.4981041666666667,
      "grad_norm": 0.8113142251968384,
      "learning_rate": 0.00015188293442714766,
      "loss": 3.5873,
      "step": 239090
    },
    {
      "epoch": 0.498125,
      "grad_norm": 0.7241170406341553,
      "learning_rate": 0.00015187307664549815,
      "loss": 3.6464,
      "step": 239100
    },
    {
      "epoch": 0.49814583333333334,
      "grad_norm": 0.8715019226074219,
      "learning_rate": 0.00015186321885575773,
      "loss": 3.8556,
      "step": 239110
    },
    {
      "epoch": 0.49816666666666665,
      "grad_norm": 1.4723641872406006,
      "learning_rate": 0.00015185336105796892,
      "loss": 3.8032,
      "step": 239120
    },
    {
      "epoch": 0.4981875,
      "grad_norm": 0.8223792314529419,
      "learning_rate": 0.0001518435032521743,
      "loss": 3.6536,
      "step": 239130
    },
    {
      "epoch": 0.4982083333333333,
      "grad_norm": 0.759081244468689,
      "learning_rate": 0.00015183364543841656,
      "loss": 3.7805,
      "step": 239140
    },
    {
      "epoch": 0.49822916666666667,
      "grad_norm": 0.7384608387947083,
      "learning_rate": 0.0001518237876167381,
      "loss": 4.0823,
      "step": 239150
    },
    {
      "epoch": 0.49825,
      "grad_norm": 1.1720805168151855,
      "learning_rate": 0.00015181392978718165,
      "loss": 3.6874,
      "step": 239160
    },
    {
      "epoch": 0.49827083333333333,
      "grad_norm": 0.8064785003662109,
      "learning_rate": 0.00015180407194978975,
      "loss": 3.6992,
      "step": 239170
    },
    {
      "epoch": 0.4982916666666667,
      "grad_norm": 0.8226698040962219,
      "learning_rate": 0.00015179421410460494,
      "loss": 3.7799,
      "step": 239180
    },
    {
      "epoch": 0.4983125,
      "grad_norm": 0.928342342376709,
      "learning_rate": 0.00015178435625166984,
      "loss": 3.8432,
      "step": 239190
    },
    {
      "epoch": 0.49833333333333335,
      "grad_norm": 0.7794297337532043,
      "learning_rate": 0.00015177449839102707,
      "loss": 3.8274,
      "step": 239200
    },
    {
      "epoch": 0.49835416666666665,
      "grad_norm": 0.7814306020736694,
      "learning_rate": 0.00015176464052271913,
      "loss": 3.8777,
      "step": 239210
    },
    {
      "epoch": 0.498375,
      "grad_norm": 0.9384626746177673,
      "learning_rate": 0.00015175478264678864,
      "loss": 3.6707,
      "step": 239220
    },
    {
      "epoch": 0.4983958333333333,
      "grad_norm": 0.7544520497322083,
      "learning_rate": 0.0001517449247632782,
      "loss": 3.5799,
      "step": 239230
    },
    {
      "epoch": 0.4984166666666667,
      "grad_norm": 0.8801286816596985,
      "learning_rate": 0.00015173506687223034,
      "loss": 3.8848,
      "step": 239240
    },
    {
      "epoch": 0.4984375,
      "grad_norm": 0.8267098069190979,
      "learning_rate": 0.0001517252089736877,
      "loss": 3.7278,
      "step": 239250
    },
    {
      "epoch": 0.49845833333333334,
      "grad_norm": 0.7898967862129211,
      "learning_rate": 0.00015171535106769287,
      "loss": 3.7977,
      "step": 239260
    },
    {
      "epoch": 0.49847916666666664,
      "grad_norm": 0.8703154921531677,
      "learning_rate": 0.00015170549315428837,
      "loss": 3.6516,
      "step": 239270
    },
    {
      "epoch": 0.4985,
      "grad_norm": 0.9837828874588013,
      "learning_rate": 0.00015169563523351683,
      "loss": 3.5663,
      "step": 239280
    },
    {
      "epoch": 0.49852083333333336,
      "grad_norm": 0.7354591488838196,
      "learning_rate": 0.0001516857773054208,
      "loss": 3.7506,
      "step": 239290
    },
    {
      "epoch": 0.49854166666666666,
      "grad_norm": 0.8650714755058289,
      "learning_rate": 0.0001516759193700429,
      "loss": 3.828,
      "step": 239300
    },
    {
      "epoch": 0.4985625,
      "grad_norm": 0.8254152536392212,
      "learning_rate": 0.00015166606142742568,
      "loss": 3.6981,
      "step": 239310
    },
    {
      "epoch": 0.4985833333333333,
      "grad_norm": 0.7739366888999939,
      "learning_rate": 0.00015165620347761173,
      "loss": 3.8009,
      "step": 239320
    },
    {
      "epoch": 0.4986041666666667,
      "grad_norm": 0.8688378930091858,
      "learning_rate": 0.00015164634552064366,
      "loss": 3.8759,
      "step": 239330
    },
    {
      "epoch": 0.498625,
      "grad_norm": 0.9497004151344299,
      "learning_rate": 0.000151636487556564,
      "loss": 3.8178,
      "step": 239340
    },
    {
      "epoch": 0.49864583333333334,
      "grad_norm": 0.8534321784973145,
      "learning_rate": 0.00015162662958541535,
      "loss": 3.793,
      "step": 239350
    },
    {
      "epoch": 0.49866666666666665,
      "grad_norm": 0.8580595850944519,
      "learning_rate": 0.00015161677160724035,
      "loss": 3.9144,
      "step": 239360
    },
    {
      "epoch": 0.4986875,
      "grad_norm": 0.843314528465271,
      "learning_rate": 0.00015160691362208154,
      "loss": 3.7487,
      "step": 239370
    },
    {
      "epoch": 0.4987083333333333,
      "grad_norm": 0.8145219087600708,
      "learning_rate": 0.00015159705562998145,
      "loss": 3.681,
      "step": 239380
    },
    {
      "epoch": 0.49872916666666667,
      "grad_norm": 0.815290629863739,
      "learning_rate": 0.00015158719763098274,
      "loss": 3.8701,
      "step": 239390
    },
    {
      "epoch": 0.49875,
      "grad_norm": 0.9903137683868408,
      "learning_rate": 0.00015157733962512795,
      "loss": 3.6065,
      "step": 239400
    },
    {
      "epoch": 0.49877083333333333,
      "grad_norm": 0.9133219718933105,
      "learning_rate": 0.00015156748161245968,
      "loss": 3.6116,
      "step": 239410
    },
    {
      "epoch": 0.4987916666666667,
      "grad_norm": 0.9517699480056763,
      "learning_rate": 0.0001515576235930205,
      "loss": 3.7653,
      "step": 239420
    },
    {
      "epoch": 0.4988125,
      "grad_norm": 0.8344924449920654,
      "learning_rate": 0.00015154776556685305,
      "loss": 3.8134,
      "step": 239430
    },
    {
      "epoch": 0.49883333333333335,
      "grad_norm": 0.9340565204620361,
      "learning_rate": 0.0001515379075339998,
      "loss": 3.705,
      "step": 239440
    },
    {
      "epoch": 0.49885416666666665,
      "grad_norm": 0.8985335826873779,
      "learning_rate": 0.00015152804949450344,
      "loss": 3.7738,
      "step": 239450
    },
    {
      "epoch": 0.498875,
      "grad_norm": 0.9745224714279175,
      "learning_rate": 0.0001515181914484065,
      "loss": 3.8099,
      "step": 239460
    },
    {
      "epoch": 0.4988958333333333,
      "grad_norm": 0.8234815001487732,
      "learning_rate": 0.0001515083333957516,
      "loss": 3.874,
      "step": 239470
    },
    {
      "epoch": 0.4989166666666667,
      "grad_norm": 0.7663818597793579,
      "learning_rate": 0.00015149847533658126,
      "loss": 3.7444,
      "step": 239480
    },
    {
      "epoch": 0.4989375,
      "grad_norm": 0.8687765598297119,
      "learning_rate": 0.0001514886172709381,
      "loss": 3.7641,
      "step": 239490
    },
    {
      "epoch": 0.49895833333333334,
      "grad_norm": 1.0484110116958618,
      "learning_rate": 0.00015147875919886475,
      "loss": 3.7721,
      "step": 239500
    },
    {
      "epoch": 0.49897916666666664,
      "grad_norm": 0.8250914812088013,
      "learning_rate": 0.0001514689011204037,
      "loss": 3.969,
      "step": 239510
    },
    {
      "epoch": 0.499,
      "grad_norm": 0.7260587215423584,
      "learning_rate": 0.00015145904303559757,
      "loss": 3.745,
      "step": 239520
    },
    {
      "epoch": 0.49902083333333336,
      "grad_norm": 0.8293917775154114,
      "learning_rate": 0.000151449184944489,
      "loss": 3.6969,
      "step": 239530
    },
    {
      "epoch": 0.49904166666666666,
      "grad_norm": 0.8380799889564514,
      "learning_rate": 0.00015143932684712048,
      "loss": 3.6631,
      "step": 239540
    },
    {
      "epoch": 0.4990625,
      "grad_norm": 0.7424705624580383,
      "learning_rate": 0.00015142946874353465,
      "loss": 3.8076,
      "step": 239550
    },
    {
      "epoch": 0.4990833333333333,
      "grad_norm": 0.7094244956970215,
      "learning_rate": 0.0001514196106337741,
      "loss": 3.8554,
      "step": 239560
    },
    {
      "epoch": 0.4991041666666667,
      "grad_norm": 0.8913872838020325,
      "learning_rate": 0.00015140975251788137,
      "loss": 3.8022,
      "step": 239570
    },
    {
      "epoch": 0.499125,
      "grad_norm": 0.9219964146614075,
      "learning_rate": 0.00015139989439589906,
      "loss": 3.8847,
      "step": 239580
    },
    {
      "epoch": 0.49914583333333334,
      "grad_norm": 0.9359441995620728,
      "learning_rate": 0.0001513900362678698,
      "loss": 3.7328,
      "step": 239590
    },
    {
      "epoch": 0.49916666666666665,
      "grad_norm": 0.771497368812561,
      "learning_rate": 0.0001513801781338361,
      "loss": 3.6983,
      "step": 239600
    },
    {
      "epoch": 0.4991875,
      "grad_norm": 0.7897967100143433,
      "learning_rate": 0.0001513703199938406,
      "loss": 3.8061,
      "step": 239610
    },
    {
      "epoch": 0.4992083333333333,
      "grad_norm": 0.9168460965156555,
      "learning_rate": 0.00015136046184792583,
      "loss": 3.7876,
      "step": 239620
    },
    {
      "epoch": 0.49922916666666667,
      "grad_norm": 0.8696763515472412,
      "learning_rate": 0.00015135060369613442,
      "loss": 3.8879,
      "step": 239630
    },
    {
      "epoch": 0.49925,
      "grad_norm": 0.8081610202789307,
      "learning_rate": 0.00015134074553850896,
      "loss": 3.8575,
      "step": 239640
    },
    {
      "epoch": 0.49927083333333333,
      "grad_norm": 0.8326353430747986,
      "learning_rate": 0.00015133088737509198,
      "loss": 3.7908,
      "step": 239650
    },
    {
      "epoch": 0.4992916666666667,
      "grad_norm": 0.8788637518882751,
      "learning_rate": 0.00015132102920592609,
      "loss": 3.8884,
      "step": 239660
    },
    {
      "epoch": 0.4993125,
      "grad_norm": 0.7963957190513611,
      "learning_rate": 0.0001513111710310539,
      "loss": 3.7615,
      "step": 239670
    },
    {
      "epoch": 0.49933333333333335,
      "grad_norm": 1.0363937616348267,
      "learning_rate": 0.00015130131285051793,
      "loss": 3.5893,
      "step": 239680
    },
    {
      "epoch": 0.49935416666666665,
      "grad_norm": 0.8225616216659546,
      "learning_rate": 0.00015129145466436083,
      "loss": 3.8148,
      "step": 239690
    },
    {
      "epoch": 0.499375,
      "grad_norm": 0.7961534857749939,
      "learning_rate": 0.0001512815964726252,
      "loss": 3.8208,
      "step": 239700
    },
    {
      "epoch": 0.4993958333333333,
      "grad_norm": 0.8919535875320435,
      "learning_rate": 0.00015127173827535353,
      "loss": 3.6706,
      "step": 239710
    },
    {
      "epoch": 0.4994166666666667,
      "grad_norm": 0.7457396984100342,
      "learning_rate": 0.00015126188007258843,
      "loss": 3.8989,
      "step": 239720
    },
    {
      "epoch": 0.4994375,
      "grad_norm": 0.7974488139152527,
      "learning_rate": 0.00015125202186437258,
      "loss": 3.9181,
      "step": 239730
    },
    {
      "epoch": 0.49945833333333334,
      "grad_norm": 0.7653965353965759,
      "learning_rate": 0.00015124216365074844,
      "loss": 3.882,
      "step": 239740
    },
    {
      "epoch": 0.49947916666666664,
      "grad_norm": 0.8704047799110413,
      "learning_rate": 0.00015123230543175864,
      "loss": 3.7942,
      "step": 239750
    },
    {
      "epoch": 0.4995,
      "grad_norm": 0.7463822364807129,
      "learning_rate": 0.00015122244720744578,
      "loss": 3.718,
      "step": 239760
    },
    {
      "epoch": 0.49952083333333336,
      "grad_norm": 0.7862879037857056,
      "learning_rate": 0.00015121258897785245,
      "loss": 3.8286,
      "step": 239770
    },
    {
      "epoch": 0.49954166666666666,
      "grad_norm": 0.884657621383667,
      "learning_rate": 0.00015120273074302118,
      "loss": 3.7476,
      "step": 239780
    },
    {
      "epoch": 0.4995625,
      "grad_norm": 0.8608680367469788,
      "learning_rate": 0.00015119287250299463,
      "loss": 3.7816,
      "step": 239790
    },
    {
      "epoch": 0.4995833333333333,
      "grad_norm": 0.9594494700431824,
      "learning_rate": 0.0001511830142578153,
      "loss": 3.6584,
      "step": 239800
    },
    {
      "epoch": 0.4996041666666667,
      "grad_norm": 0.8133334517478943,
      "learning_rate": 0.00015117315600752588,
      "loss": 3.7533,
      "step": 239810
    },
    {
      "epoch": 0.499625,
      "grad_norm": 0.8285503387451172,
      "learning_rate": 0.00015116329775216884,
      "loss": 3.8244,
      "step": 239820
    },
    {
      "epoch": 0.49964583333333334,
      "grad_norm": 0.9170172214508057,
      "learning_rate": 0.0001511534394917868,
      "loss": 3.8374,
      "step": 239830
    },
    {
      "epoch": 0.49966666666666665,
      "grad_norm": 0.9144136309623718,
      "learning_rate": 0.00015114358122642242,
      "loss": 3.7577,
      "step": 239840
    },
    {
      "epoch": 0.4996875,
      "grad_norm": 0.767255425453186,
      "learning_rate": 0.00015113372295611817,
      "loss": 3.8685,
      "step": 239850
    },
    {
      "epoch": 0.4997083333333333,
      "grad_norm": 0.7267976403236389,
      "learning_rate": 0.00015112386468091668,
      "loss": 3.7312,
      "step": 239860
    },
    {
      "epoch": 0.49972916666666667,
      "grad_norm": 0.7973161935806274,
      "learning_rate": 0.0001511140064008606,
      "loss": 3.947,
      "step": 239870
    },
    {
      "epoch": 0.49975,
      "grad_norm": 0.7440686821937561,
      "learning_rate": 0.0001511041481159924,
      "loss": 3.6108,
      "step": 239880
    },
    {
      "epoch": 0.49977083333333333,
      "grad_norm": 1.1582655906677246,
      "learning_rate": 0.00015109428982635468,
      "loss": 3.7736,
      "step": 239890
    },
    {
      "epoch": 0.4997916666666667,
      "grad_norm": 0.7932632565498352,
      "learning_rate": 0.00015108443153199016,
      "loss": 3.6334,
      "step": 239900
    },
    {
      "epoch": 0.4998125,
      "grad_norm": 0.7534549832344055,
      "learning_rate": 0.00015107457323294127,
      "loss": 3.9108,
      "step": 239910
    },
    {
      "epoch": 0.49983333333333335,
      "grad_norm": 0.829496443271637,
      "learning_rate": 0.00015106471492925066,
      "loss": 3.9739,
      "step": 239920
    },
    {
      "epoch": 0.49985416666666665,
      "grad_norm": 0.8596463799476624,
      "learning_rate": 0.0001510548566209609,
      "loss": 3.9874,
      "step": 239930
    },
    {
      "epoch": 0.499875,
      "grad_norm": 0.8406532406806946,
      "learning_rate": 0.0001510449983081146,
      "loss": 3.7835,
      "step": 239940
    },
    {
      "epoch": 0.4998958333333333,
      "grad_norm": 0.7759428024291992,
      "learning_rate": 0.00015103513999075425,
      "loss": 3.6827,
      "step": 239950
    },
    {
      "epoch": 0.4999166666666667,
      "grad_norm": 0.8271384239196777,
      "learning_rate": 0.00015102528166892256,
      "loss": 3.8624,
      "step": 239960
    },
    {
      "epoch": 0.4999375,
      "grad_norm": 0.7740442156791687,
      "learning_rate": 0.00015101542334266204,
      "loss": 3.7598,
      "step": 239970
    },
    {
      "epoch": 0.49995833333333334,
      "grad_norm": 0.9999217987060547,
      "learning_rate": 0.00015100556501201532,
      "loss": 3.874,
      "step": 239980
    },
    {
      "epoch": 0.49997916666666664,
      "grad_norm": 0.7589627504348755,
      "learning_rate": 0.0001509957066770249,
      "loss": 3.7988,
      "step": 239990
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0361366271972656,
      "learning_rate": 0.00015098584833773347,
      "loss": 3.7164,
      "step": 240000
    },
    {
      "epoch": 0.5,
      "eval_loss": 4.1465349197387695,
      "eval_runtime": 8.9051,
      "eval_samples_per_second": 1.123,
      "eval_steps_per_second": 0.337,
      "step": 240000
    },
    {
      "epoch": 0.5000208333333334,
      "grad_norm": 0.7604803442955017,
      "learning_rate": 0.0001509759899941836,
      "loss": 3.8124,
      "step": 240010
    },
    {
      "epoch": 0.5000416666666667,
      "grad_norm": 0.6951776146888733,
      "learning_rate": 0.00015096613164641774,
      "loss": 3.8555,
      "step": 240020
    },
    {
      "epoch": 0.5000625,
      "grad_norm": 0.7955083250999451,
      "learning_rate": 0.00015095627329447862,
      "loss": 3.6968,
      "step": 240030
    },
    {
      "epoch": 0.5000833333333333,
      "grad_norm": 0.8495111465454102,
      "learning_rate": 0.00015094641493840886,
      "loss": 3.6475,
      "step": 240040
    },
    {
      "epoch": 0.5001041666666667,
      "grad_norm": 0.7340423464775085,
      "learning_rate": 0.00015093655657825083,
      "loss": 3.7586,
      "step": 240050
    },
    {
      "epoch": 0.500125,
      "grad_norm": 0.7178937792778015,
      "learning_rate": 0.00015092669821404733,
      "loss": 3.7402,
      "step": 240060
    },
    {
      "epoch": 0.5001458333333333,
      "grad_norm": 0.8195055723190308,
      "learning_rate": 0.00015091683984584087,
      "loss": 3.9759,
      "step": 240070
    },
    {
      "epoch": 0.5001666666666666,
      "grad_norm": 0.8590087294578552,
      "learning_rate": 0.000150906981473674,
      "loss": 3.8498,
      "step": 240080
    },
    {
      "epoch": 0.5001875,
      "grad_norm": 0.8438165783882141,
      "learning_rate": 0.0001508971230975893,
      "loss": 3.5431,
      "step": 240090
    },
    {
      "epoch": 0.5002083333333334,
      "grad_norm": 0.8955407738685608,
      "learning_rate": 0.00015088726471762938,
      "loss": 3.7849,
      "step": 240100
    },
    {
      "epoch": 0.5002291666666666,
      "grad_norm": 0.8145307898521423,
      "learning_rate": 0.00015087740633383688,
      "loss": 3.7312,
      "step": 240110
    },
    {
      "epoch": 0.50025,
      "grad_norm": 0.7588393092155457,
      "learning_rate": 0.00015086754794625432,
      "loss": 3.89,
      "step": 240120
    },
    {
      "epoch": 0.5002708333333333,
      "grad_norm": 0.9481762051582336,
      "learning_rate": 0.00015085768955492426,
      "loss": 3.6089,
      "step": 240130
    },
    {
      "epoch": 0.5002916666666667,
      "grad_norm": 1.2026046514511108,
      "learning_rate": 0.00015084783115988933,
      "loss": 3.9535,
      "step": 240140
    },
    {
      "epoch": 0.5003125,
      "grad_norm": 0.7522473335266113,
      "learning_rate": 0.0001508379727611921,
      "loss": 3.8693,
      "step": 240150
    },
    {
      "epoch": 0.5003333333333333,
      "grad_norm": 0.793718695640564,
      "learning_rate": 0.0001508281143588752,
      "loss": 3.866,
      "step": 240160
    },
    {
      "epoch": 0.5003541666666667,
      "grad_norm": 0.7258057594299316,
      "learning_rate": 0.00015081825595298113,
      "loss": 3.6852,
      "step": 240170
    },
    {
      "epoch": 0.500375,
      "grad_norm": 0.8259127140045166,
      "learning_rate": 0.00015080839754355252,
      "loss": 3.9156,
      "step": 240180
    },
    {
      "epoch": 0.5003958333333334,
      "grad_norm": 0.7723498344421387,
      "learning_rate": 0.00015079853913063199,
      "loss": 3.7647,
      "step": 240190
    },
    {
      "epoch": 0.5004166666666666,
      "grad_norm": 1.0933767557144165,
      "learning_rate": 0.00015078868071426206,
      "loss": 3.7015,
      "step": 240200
    },
    {
      "epoch": 0.5004375,
      "grad_norm": 0.7495852112770081,
      "learning_rate": 0.0001507788222944854,
      "loss": 4.0013,
      "step": 240210
    },
    {
      "epoch": 0.5004583333333333,
      "grad_norm": 0.7329966425895691,
      "learning_rate": 0.00015076896387134444,
      "loss": 3.7857,
      "step": 240220
    },
    {
      "epoch": 0.5004791666666667,
      "grad_norm": 0.7374660968780518,
      "learning_rate": 0.00015075910544488192,
      "loss": 3.8758,
      "step": 240230
    },
    {
      "epoch": 0.5005,
      "grad_norm": 0.7148700952529907,
      "learning_rate": 0.00015074924701514035,
      "loss": 3.7456,
      "step": 240240
    },
    {
      "epoch": 0.5005208333333333,
      "grad_norm": 0.7889577746391296,
      "learning_rate": 0.0001507393885821623,
      "loss": 3.9415,
      "step": 240250
    },
    {
      "epoch": 0.5005416666666667,
      "grad_norm": 0.9184905886650085,
      "learning_rate": 0.00015072953014599045,
      "loss": 3.7175,
      "step": 240260
    },
    {
      "epoch": 0.5005625,
      "grad_norm": 0.8320455551147461,
      "learning_rate": 0.00015071967170666726,
      "loss": 3.8333,
      "step": 240270
    },
    {
      "epoch": 0.5005833333333334,
      "grad_norm": 0.7974618077278137,
      "learning_rate": 0.0001507098132642354,
      "loss": 3.7205,
      "step": 240280
    },
    {
      "epoch": 0.5006041666666666,
      "grad_norm": 0.8572450280189514,
      "learning_rate": 0.0001506999548187374,
      "loss": 3.8667,
      "step": 240290
    },
    {
      "epoch": 0.500625,
      "grad_norm": 0.8013478517532349,
      "learning_rate": 0.0001506900963702159,
      "loss": 3.9197,
      "step": 240300
    },
    {
      "epoch": 0.5006458333333333,
      "grad_norm": 0.7459444999694824,
      "learning_rate": 0.00015068023791871347,
      "loss": 3.7256,
      "step": 240310
    },
    {
      "epoch": 0.5006666666666667,
      "grad_norm": 0.7282604575157166,
      "learning_rate": 0.00015067037946427266,
      "loss": 3.7308,
      "step": 240320
    },
    {
      "epoch": 0.5006875,
      "grad_norm": 0.7630243897438049,
      "learning_rate": 0.00015066052100693608,
      "loss": 3.915,
      "step": 240330
    },
    {
      "epoch": 0.5007083333333333,
      "grad_norm": 0.8506982326507568,
      "learning_rate": 0.00015065066254674634,
      "loss": 3.7417,
      "step": 240340
    },
    {
      "epoch": 0.5007291666666667,
      "grad_norm": 0.7508535981178284,
      "learning_rate": 0.00015064080408374594,
      "loss": 3.9378,
      "step": 240350
    },
    {
      "epoch": 0.50075,
      "grad_norm": 0.7306244373321533,
      "learning_rate": 0.00015063094561797754,
      "loss": 3.7489,
      "step": 240360
    },
    {
      "epoch": 0.5007708333333334,
      "grad_norm": 0.9688266515731812,
      "learning_rate": 0.0001506210871494837,
      "loss": 3.876,
      "step": 240370
    },
    {
      "epoch": 0.5007916666666666,
      "grad_norm": 0.800504744052887,
      "learning_rate": 0.00015061122867830704,
      "loss": 3.7551,
      "step": 240380
    },
    {
      "epoch": 0.5008125,
      "grad_norm": 0.8762114644050598,
      "learning_rate": 0.00015060137020449005,
      "loss": 3.7606,
      "step": 240390
    },
    {
      "epoch": 0.5008333333333334,
      "grad_norm": 0.8184162378311157,
      "learning_rate": 0.00015059151172807546,
      "loss": 3.7974,
      "step": 240400
    },
    {
      "epoch": 0.5008541666666667,
      "grad_norm": 0.9254666566848755,
      "learning_rate": 0.00015058165324910574,
      "loss": 3.7087,
      "step": 240410
    },
    {
      "epoch": 0.500875,
      "grad_norm": 0.9716488122940063,
      "learning_rate": 0.00015057179476762346,
      "loss": 3.5964,
      "step": 240420
    },
    {
      "epoch": 0.5008958333333333,
      "grad_norm": 0.7062066793441772,
      "learning_rate": 0.00015056193628367132,
      "loss": 3.7384,
      "step": 240430
    },
    {
      "epoch": 0.5009166666666667,
      "grad_norm": 0.8044264912605286,
      "learning_rate": 0.0001505520777972918,
      "loss": 3.8507,
      "step": 240440
    },
    {
      "epoch": 0.5009375,
      "grad_norm": 0.8667068481445312,
      "learning_rate": 0.00015054221930852754,
      "loss": 3.8154,
      "step": 240450
    },
    {
      "epoch": 0.5009583333333333,
      "grad_norm": 0.8282744884490967,
      "learning_rate": 0.00015053236081742112,
      "loss": 3.6658,
      "step": 240460
    },
    {
      "epoch": 0.5009791666666666,
      "grad_norm": 0.7460774779319763,
      "learning_rate": 0.00015052250232401509,
      "loss": 3.7756,
      "step": 240470
    },
    {
      "epoch": 0.501,
      "grad_norm": 0.8522518277168274,
      "learning_rate": 0.00015051264382835207,
      "loss": 3.6544,
      "step": 240480
    },
    {
      "epoch": 0.5010208333333334,
      "grad_norm": 0.8526060581207275,
      "learning_rate": 0.00015050278533047462,
      "loss": 3.6646,
      "step": 240490
    },
    {
      "epoch": 0.5010416666666667,
      "grad_norm": 0.8758528232574463,
      "learning_rate": 0.00015049292683042535,
      "loss": 3.752,
      "step": 240500
    },
    {
      "epoch": 0.5010625,
      "grad_norm": 0.9387550950050354,
      "learning_rate": 0.00015048306832824684,
      "loss": 4.026,
      "step": 240510
    },
    {
      "epoch": 0.5010833333333333,
      "grad_norm": 0.776874840259552,
      "learning_rate": 0.0001504732098239816,
      "loss": 3.6788,
      "step": 240520
    },
    {
      "epoch": 0.5011041666666667,
      "grad_norm": 0.7749311923980713,
      "learning_rate": 0.00015046335131767234,
      "loss": 3.7519,
      "step": 240530
    },
    {
      "epoch": 0.501125,
      "grad_norm": 0.7716501355171204,
      "learning_rate": 0.00015045349280936161,
      "loss": 3.7263,
      "step": 240540
    },
    {
      "epoch": 0.5011458333333333,
      "grad_norm": 0.9136801958084106,
      "learning_rate": 0.0001504436342990919,
      "loss": 3.7679,
      "step": 240550
    },
    {
      "epoch": 0.5011666666666666,
      "grad_norm": 0.8375851511955261,
      "learning_rate": 0.0001504337757869059,
      "loss": 3.9112,
      "step": 240560
    },
    {
      "epoch": 0.5011875,
      "grad_norm": 0.7438602447509766,
      "learning_rate": 0.00015042391727284617,
      "loss": 3.8491,
      "step": 240570
    },
    {
      "epoch": 0.5012083333333334,
      "grad_norm": 0.8960748314857483,
      "learning_rate": 0.0001504140587569553,
      "loss": 3.6891,
      "step": 240580
    },
    {
      "epoch": 0.5012291666666666,
      "grad_norm": 0.7931878566741943,
      "learning_rate": 0.0001504042002392758,
      "loss": 4.0357,
      "step": 240590
    },
    {
      "epoch": 0.50125,
      "grad_norm": 1.0284156799316406,
      "learning_rate": 0.0001503943417198504,
      "loss": 3.8097,
      "step": 240600
    },
    {
      "epoch": 0.5012708333333333,
      "grad_norm": 0.7851167917251587,
      "learning_rate": 0.0001503844831987215,
      "loss": 3.6523,
      "step": 240610
    },
    {
      "epoch": 0.5012916666666667,
      "grad_norm": 0.8353960514068604,
      "learning_rate": 0.00015037462467593183,
      "loss": 3.6652,
      "step": 240620
    },
    {
      "epoch": 0.5013125,
      "grad_norm": 0.7465514540672302,
      "learning_rate": 0.00015036476615152398,
      "loss": 3.8076,
      "step": 240630
    },
    {
      "epoch": 0.5013333333333333,
      "grad_norm": 0.7487797141075134,
      "learning_rate": 0.0001503549076255404,
      "loss": 3.7877,
      "step": 240640
    },
    {
      "epoch": 0.5013541666666667,
      "grad_norm": 0.759424090385437,
      "learning_rate": 0.0001503450490980238,
      "loss": 3.7499,
      "step": 240650
    },
    {
      "epoch": 0.501375,
      "grad_norm": 0.7782942652702332,
      "learning_rate": 0.0001503351905690167,
      "loss": 4.0472,
      "step": 240660
    },
    {
      "epoch": 0.5013958333333334,
      "grad_norm": 1.0168524980545044,
      "learning_rate": 0.00015032533203856177,
      "loss": 3.8764,
      "step": 240670
    },
    {
      "epoch": 0.5014166666666666,
      "grad_norm": 0.8500686287879944,
      "learning_rate": 0.0001503154735067015,
      "loss": 3.6606,
      "step": 240680
    },
    {
      "epoch": 0.5014375,
      "grad_norm": 0.76557457447052,
      "learning_rate": 0.0001503056149734785,
      "loss": 3.7376,
      "step": 240690
    },
    {
      "epoch": 0.5014583333333333,
      "grad_norm": 0.8658463954925537,
      "learning_rate": 0.00015029575643893539,
      "loss": 3.9023,
      "step": 240700
    },
    {
      "epoch": 0.5014791666666667,
      "grad_norm": 0.8360379934310913,
      "learning_rate": 0.0001502858979031147,
      "loss": 3.818,
      "step": 240710
    },
    {
      "epoch": 0.5015,
      "grad_norm": 0.788456916809082,
      "learning_rate": 0.00015027603936605905,
      "loss": 3.7896,
      "step": 240720
    },
    {
      "epoch": 0.5015208333333333,
      "grad_norm": 0.8754224181175232,
      "learning_rate": 0.00015026618082781103,
      "loss": 3.9007,
      "step": 240730
    },
    {
      "epoch": 0.5015416666666667,
      "grad_norm": 0.833415687084198,
      "learning_rate": 0.00015025632228841322,
      "loss": 3.6258,
      "step": 240740
    },
    {
      "epoch": 0.5015625,
      "grad_norm": 0.8271468281745911,
      "learning_rate": 0.00015024646374790814,
      "loss": 3.6906,
      "step": 240750
    },
    {
      "epoch": 0.5015833333333334,
      "grad_norm": 0.7999840378761292,
      "learning_rate": 0.00015023660520633848,
      "loss": 3.549,
      "step": 240760
    },
    {
      "epoch": 0.5016041666666666,
      "grad_norm": 0.9419164061546326,
      "learning_rate": 0.00015022674666374683,
      "loss": 3.8471,
      "step": 240770
    },
    {
      "epoch": 0.501625,
      "grad_norm": 0.8003429174423218,
      "learning_rate": 0.00015021688812017568,
      "loss": 3.5774,
      "step": 240780
    },
    {
      "epoch": 0.5016458333333333,
      "grad_norm": 0.9813469052314758,
      "learning_rate": 0.00015020702957566762,
      "loss": 3.8631,
      "step": 240790
    },
    {
      "epoch": 0.5016666666666667,
      "grad_norm": 0.7570443749427795,
      "learning_rate": 0.00015019717103026533,
      "loss": 3.8154,
      "step": 240800
    },
    {
      "epoch": 0.5016875,
      "grad_norm": 0.76188063621521,
      "learning_rate": 0.0001501873124840113,
      "loss": 3.5365,
      "step": 240810
    },
    {
      "epoch": 0.5017083333333333,
      "grad_norm": 0.7035283446311951,
      "learning_rate": 0.00015017745393694818,
      "loss": 3.6187,
      "step": 240820
    },
    {
      "epoch": 0.5017291666666667,
      "grad_norm": 0.7255288362503052,
      "learning_rate": 0.00015016759538911853,
      "loss": 3.7197,
      "step": 240830
    },
    {
      "epoch": 0.50175,
      "grad_norm": 0.8097556233406067,
      "learning_rate": 0.0001501577368405649,
      "loss": 3.6947,
      "step": 240840
    },
    {
      "epoch": 0.5017708333333334,
      "grad_norm": 0.7232368588447571,
      "learning_rate": 0.00015014787829132996,
      "loss": 3.7749,
      "step": 240850
    },
    {
      "epoch": 0.5017916666666666,
      "grad_norm": 0.771567165851593,
      "learning_rate": 0.00015013801974145618,
      "loss": 3.6703,
      "step": 240860
    },
    {
      "epoch": 0.5018125,
      "grad_norm": 0.8462516069412231,
      "learning_rate": 0.00015012816119098626,
      "loss": 3.7723,
      "step": 240870
    },
    {
      "epoch": 0.5018333333333334,
      "grad_norm": 1.0234780311584473,
      "learning_rate": 0.00015011830263996276,
      "loss": 3.7947,
      "step": 240880
    },
    {
      "epoch": 0.5018541666666667,
      "grad_norm": 0.8115846514701843,
      "learning_rate": 0.00015010844408842815,
      "loss": 3.8624,
      "step": 240890
    },
    {
      "epoch": 0.501875,
      "grad_norm": 0.7671377658843994,
      "learning_rate": 0.00015009858553642518,
      "loss": 3.9201,
      "step": 240900
    },
    {
      "epoch": 0.5018958333333333,
      "grad_norm": 0.7365281581878662,
      "learning_rate": 0.00015008872698399638,
      "loss": 3.7151,
      "step": 240910
    },
    {
      "epoch": 0.5019166666666667,
      "grad_norm": 0.7378188371658325,
      "learning_rate": 0.0001500788684311842,
      "loss": 3.7252,
      "step": 240920
    },
    {
      "epoch": 0.5019375,
      "grad_norm": 0.8168548345565796,
      "learning_rate": 0.00015006900987803143,
      "loss": 3.7517,
      "step": 240930
    },
    {
      "epoch": 0.5019583333333333,
      "grad_norm": 0.8112430572509766,
      "learning_rate": 0.00015005915132458057,
      "loss": 3.7216,
      "step": 240940
    },
    {
      "epoch": 0.5019791666666666,
      "grad_norm": 0.7742778658866882,
      "learning_rate": 0.00015004929277087414,
      "loss": 3.7953,
      "step": 240950
    },
    {
      "epoch": 0.502,
      "grad_norm": 0.8203124403953552,
      "learning_rate": 0.00015003943421695482,
      "loss": 3.7912,
      "step": 240960
    },
    {
      "epoch": 0.5020208333333334,
      "grad_norm": 0.8651255965232849,
      "learning_rate": 0.00015002957566286518,
      "loss": 3.7577,
      "step": 240970
    },
    {
      "epoch": 0.5020416666666667,
      "grad_norm": 0.7905504703521729,
      "learning_rate": 0.0001500197171086478,
      "loss": 3.8108,
      "step": 240980
    },
    {
      "epoch": 0.5020625,
      "grad_norm": 0.9408546686172485,
      "learning_rate": 0.00015000985855434515,
      "loss": 3.7115,
      "step": 240990
    },
    {
      "epoch": 0.5020833333333333,
      "grad_norm": 0.8485654592514038,
      "learning_rate": 0.00015,
      "loss": 3.8413,
      "step": 241000
    },
    {
      "epoch": 0.5020833333333333,
      "eval_loss": 4.144560813903809,
      "eval_runtime": 9.7846,
      "eval_samples_per_second": 1.022,
      "eval_steps_per_second": 0.307,
      "step": 241000
    },
    {
      "epoch": 0.5021041666666667,
      "grad_norm": 0.8475630879402161,
      "learning_rate": 0.00014999014144565485,
      "loss": 3.7082,
      "step": 241010
    },
    {
      "epoch": 0.502125,
      "grad_norm": 0.967110276222229,
      "learning_rate": 0.00014998028289135224,
      "loss": 3.7909,
      "step": 241020
    },
    {
      "epoch": 0.5021458333333333,
      "grad_norm": 0.896962583065033,
      "learning_rate": 0.00014997042433713482,
      "loss": 3.7542,
      "step": 241030
    },
    {
      "epoch": 0.5021666666666667,
      "grad_norm": 0.8628361225128174,
      "learning_rate": 0.00014996056578304518,
      "loss": 3.8281,
      "step": 241040
    },
    {
      "epoch": 0.5021875,
      "grad_norm": 0.9839405417442322,
      "learning_rate": 0.00014995070722912583,
      "loss": 3.832,
      "step": 241050
    },
    {
      "epoch": 0.5022083333333334,
      "grad_norm": 0.8126187324523926,
      "learning_rate": 0.00014994084867541943,
      "loss": 3.7818,
      "step": 241060
    },
    {
      "epoch": 0.5022291666666666,
      "grad_norm": 0.8803128600120544,
      "learning_rate": 0.00014993099012196857,
      "loss": 3.8701,
      "step": 241070
    },
    {
      "epoch": 0.50225,
      "grad_norm": 0.859563410282135,
      "learning_rate": 0.00014992113156881575,
      "loss": 3.8085,
      "step": 241080
    },
    {
      "epoch": 0.5022708333333333,
      "grad_norm": 0.8034659624099731,
      "learning_rate": 0.00014991127301600365,
      "loss": 3.7506,
      "step": 241090
    },
    {
      "epoch": 0.5022916666666667,
      "grad_norm": 0.9221010208129883,
      "learning_rate": 0.00014990141446357484,
      "loss": 3.9283,
      "step": 241100
    },
    {
      "epoch": 0.5023125,
      "grad_norm": 0.9402108192443848,
      "learning_rate": 0.0001498915559115718,
      "loss": 3.6226,
      "step": 241110
    },
    {
      "epoch": 0.5023333333333333,
      "grad_norm": 0.7924452424049377,
      "learning_rate": 0.00014988169736003724,
      "loss": 3.8978,
      "step": 241120
    },
    {
      "epoch": 0.5023541666666667,
      "grad_norm": 0.8574990630149841,
      "learning_rate": 0.00014987183880901375,
      "loss": 3.873,
      "step": 241130
    },
    {
      "epoch": 0.502375,
      "grad_norm": 0.8665462732315063,
      "learning_rate": 0.00014986198025854376,
      "loss": 3.6857,
      "step": 241140
    },
    {
      "epoch": 0.5023958333333334,
      "grad_norm": 0.7955784201622009,
      "learning_rate": 0.00014985212170867007,
      "loss": 3.8439,
      "step": 241150
    },
    {
      "epoch": 0.5024166666666666,
      "grad_norm": 0.8710014224052429,
      "learning_rate": 0.00014984226315943507,
      "loss": 3.8486,
      "step": 241160
    },
    {
      "epoch": 0.5024375,
      "grad_norm": 0.7941532135009766,
      "learning_rate": 0.00014983240461088153,
      "loss": 3.6516,
      "step": 241170
    },
    {
      "epoch": 0.5024583333333333,
      "grad_norm": 0.8401906490325928,
      "learning_rate": 0.00014982254606305182,
      "loss": 3.8348,
      "step": 241180
    },
    {
      "epoch": 0.5024791666666667,
      "grad_norm": 0.9534962177276611,
      "learning_rate": 0.0001498126875159887,
      "loss": 3.6951,
      "step": 241190
    },
    {
      "epoch": 0.5025,
      "grad_norm": 0.9944556951522827,
      "learning_rate": 0.00014980282896973472,
      "loss": 3.8435,
      "step": 241200
    },
    {
      "epoch": 0.5025208333333333,
      "grad_norm": 0.8684436678886414,
      "learning_rate": 0.00014979297042433235,
      "loss": 3.8072,
      "step": 241210
    },
    {
      "epoch": 0.5025416666666667,
      "grad_norm": 1.3485912084579468,
      "learning_rate": 0.00014978311187982435,
      "loss": 3.708,
      "step": 241220
    },
    {
      "epoch": 0.5025625,
      "grad_norm": 0.8530227541923523,
      "learning_rate": 0.0001497732533362532,
      "loss": 4.064,
      "step": 241230
    },
    {
      "epoch": 0.5025833333333334,
      "grad_norm": 0.7809132933616638,
      "learning_rate": 0.0001497633947936615,
      "loss": 3.6445,
      "step": 241240
    },
    {
      "epoch": 0.5026041666666666,
      "grad_norm": 0.8269366025924683,
      "learning_rate": 0.00014975353625209186,
      "loss": 3.7096,
      "step": 241250
    },
    {
      "epoch": 0.502625,
      "grad_norm": 0.8689342737197876,
      "learning_rate": 0.0001497436777115868,
      "loss": 3.9215,
      "step": 241260
    },
    {
      "epoch": 0.5026458333333333,
      "grad_norm": 0.8157511353492737,
      "learning_rate": 0.00014973381917218894,
      "loss": 3.8619,
      "step": 241270
    },
    {
      "epoch": 0.5026666666666667,
      "grad_norm": 0.8142381310462952,
      "learning_rate": 0.00014972396063394095,
      "loss": 3.788,
      "step": 241280
    },
    {
      "epoch": 0.5026875,
      "grad_norm": 0.9066864848136902,
      "learning_rate": 0.00014971410209688532,
      "loss": 3.8104,
      "step": 241290
    },
    {
      "epoch": 0.5027083333333333,
      "grad_norm": 0.7533854246139526,
      "learning_rate": 0.0001497042435610646,
      "loss": 3.9127,
      "step": 241300
    },
    {
      "epoch": 0.5027291666666667,
      "grad_norm": 0.8515650629997253,
      "learning_rate": 0.00014969438502652148,
      "loss": 3.9308,
      "step": 241310
    },
    {
      "epoch": 0.50275,
      "grad_norm": 0.7335577011108398,
      "learning_rate": 0.0001496845264932985,
      "loss": 3.7435,
      "step": 241320
    },
    {
      "epoch": 0.5027708333333333,
      "grad_norm": 0.798388659954071,
      "learning_rate": 0.0001496746679614382,
      "loss": 3.8911,
      "step": 241330
    },
    {
      "epoch": 0.5027916666666666,
      "grad_norm": 0.9981171488761902,
      "learning_rate": 0.00014966480943098327,
      "loss": 3.8952,
      "step": 241340
    },
    {
      "epoch": 0.5028125,
      "grad_norm": 0.8127556443214417,
      "learning_rate": 0.00014965495090197618,
      "loss": 3.7424,
      "step": 241350
    },
    {
      "epoch": 0.5028333333333334,
      "grad_norm": 0.9202021956443787,
      "learning_rate": 0.00014964509237445954,
      "loss": 3.8414,
      "step": 241360
    },
    {
      "epoch": 0.5028541666666667,
      "grad_norm": 0.965782105922699,
      "learning_rate": 0.00014963523384847605,
      "loss": 3.7992,
      "step": 241370
    },
    {
      "epoch": 0.502875,
      "grad_norm": 1.1283845901489258,
      "learning_rate": 0.00014962537532406818,
      "loss": 3.83,
      "step": 241380
    },
    {
      "epoch": 0.5028958333333333,
      "grad_norm": 0.6984020471572876,
      "learning_rate": 0.00014961551680127847,
      "loss": 3.7739,
      "step": 241390
    },
    {
      "epoch": 0.5029166666666667,
      "grad_norm": 0.9071881771087646,
      "learning_rate": 0.00014960565828014963,
      "loss": 3.7954,
      "step": 241400
    },
    {
      "epoch": 0.5029375,
      "grad_norm": 0.809700071811676,
      "learning_rate": 0.0001495957997607242,
      "loss": 3.7114,
      "step": 241410
    },
    {
      "epoch": 0.5029583333333333,
      "grad_norm": 1.0314180850982666,
      "learning_rate": 0.0001495859412430447,
      "loss": 3.6853,
      "step": 241420
    },
    {
      "epoch": 0.5029791666666666,
      "grad_norm": 0.7456306219100952,
      "learning_rate": 0.0001495760827271538,
      "loss": 3.8049,
      "step": 241430
    },
    {
      "epoch": 0.503,
      "grad_norm": 0.8394700884819031,
      "learning_rate": 0.0001495662242130941,
      "loss": 3.8086,
      "step": 241440
    },
    {
      "epoch": 0.5030208333333334,
      "grad_norm": 0.9460315108299255,
      "learning_rate": 0.0001495563657009081,
      "loss": 3.78,
      "step": 241450
    },
    {
      "epoch": 0.5030416666666667,
      "grad_norm": 0.8781681060791016,
      "learning_rate": 0.00014954650719063839,
      "loss": 3.9596,
      "step": 241460
    },
    {
      "epoch": 0.5030625,
      "grad_norm": 0.8691126704216003,
      "learning_rate": 0.00014953664868232766,
      "loss": 3.7445,
      "step": 241470
    },
    {
      "epoch": 0.5030833333333333,
      "grad_norm": 0.9354478716850281,
      "learning_rate": 0.00014952679017601837,
      "loss": 3.7292,
      "step": 241480
    },
    {
      "epoch": 0.5031041666666667,
      "grad_norm": 0.9134795665740967,
      "learning_rate": 0.00014951693167175316,
      "loss": 3.8874,
      "step": 241490
    },
    {
      "epoch": 0.503125,
      "grad_norm": 0.7770401835441589,
      "learning_rate": 0.00014950707316957465,
      "loss": 3.7555,
      "step": 241500
    },
    {
      "epoch": 0.5031458333333333,
      "grad_norm": 0.8647388815879822,
      "learning_rate": 0.0001494972146695254,
      "loss": 3.8443,
      "step": 241510
    },
    {
      "epoch": 0.5031666666666667,
      "grad_norm": 0.8204232454299927,
      "learning_rate": 0.00014948735617164793,
      "loss": 3.6848,
      "step": 241520
    },
    {
      "epoch": 0.5031875,
      "grad_norm": 1.0612363815307617,
      "learning_rate": 0.0001494774976759849,
      "loss": 3.8418,
      "step": 241530
    },
    {
      "epoch": 0.5032083333333334,
      "grad_norm": 0.9027404189109802,
      "learning_rate": 0.0001494676391825789,
      "loss": 3.6655,
      "step": 241540
    },
    {
      "epoch": 0.5032291666666666,
      "grad_norm": 0.7925388216972351,
      "learning_rate": 0.00014945778069147244,
      "loss": 3.9022,
      "step": 241550
    },
    {
      "epoch": 0.50325,
      "grad_norm": 0.7513409852981567,
      "learning_rate": 0.00014944792220270817,
      "loss": 3.9161,
      "step": 241560
    },
    {
      "epoch": 0.5032708333333333,
      "grad_norm": 0.9665926098823547,
      "learning_rate": 0.0001494380637163287,
      "loss": 3.6374,
      "step": 241570
    },
    {
      "epoch": 0.5032916666666667,
      "grad_norm": 0.826025128364563,
      "learning_rate": 0.0001494282052323765,
      "loss": 3.6733,
      "step": 241580
    },
    {
      "epoch": 0.5033125,
      "grad_norm": 0.881522536277771,
      "learning_rate": 0.00014941834675089426,
      "loss": 3.8131,
      "step": 241590
    },
    {
      "epoch": 0.5033333333333333,
      "grad_norm": 0.9272987842559814,
      "learning_rate": 0.00014940848827192456,
      "loss": 3.9241,
      "step": 241600
    },
    {
      "epoch": 0.5033541666666667,
      "grad_norm": 0.7096840739250183,
      "learning_rate": 0.0001493986297955099,
      "loss": 3.7391,
      "step": 241610
    },
    {
      "epoch": 0.503375,
      "grad_norm": 0.8915582299232483,
      "learning_rate": 0.00014938877132169296,
      "loss": 4.0,
      "step": 241620
    },
    {
      "epoch": 0.5033958333333334,
      "grad_norm": 0.8522255420684814,
      "learning_rate": 0.0001493789128505163,
      "loss": 3.8318,
      "step": 241630
    },
    {
      "epoch": 0.5034166666666666,
      "grad_norm": 0.8040450215339661,
      "learning_rate": 0.00014936905438202243,
      "loss": 3.7952,
      "step": 241640
    },
    {
      "epoch": 0.5034375,
      "grad_norm": 0.8669745922088623,
      "learning_rate": 0.00014935919591625406,
      "loss": 3.7999,
      "step": 241650
    },
    {
      "epoch": 0.5034583333333333,
      "grad_norm": 0.7999978065490723,
      "learning_rate": 0.0001493493374532537,
      "loss": 3.9171,
      "step": 241660
    },
    {
      "epoch": 0.5034791666666667,
      "grad_norm": 0.7310903668403625,
      "learning_rate": 0.00014933947899306387,
      "loss": 3.7259,
      "step": 241670
    },
    {
      "epoch": 0.5035,
      "grad_norm": 0.753440797328949,
      "learning_rate": 0.00014932962053572734,
      "loss": 3.7983,
      "step": 241680
    },
    {
      "epoch": 0.5035208333333333,
      "grad_norm": 0.8608981370925903,
      "learning_rate": 0.00014931976208128653,
      "loss": 3.7725,
      "step": 241690
    },
    {
      "epoch": 0.5035416666666667,
      "grad_norm": 0.8297033309936523,
      "learning_rate": 0.00014930990362978404,
      "loss": 3.8774,
      "step": 241700
    },
    {
      "epoch": 0.5035625,
      "grad_norm": 0.9971910715103149,
      "learning_rate": 0.00014930004518126256,
      "loss": 3.8719,
      "step": 241710
    },
    {
      "epoch": 0.5035833333333334,
      "grad_norm": 0.8231204748153687,
      "learning_rate": 0.00014929018673576458,
      "loss": 3.7547,
      "step": 241720
    },
    {
      "epoch": 0.5036041666666666,
      "grad_norm": 0.823185920715332,
      "learning_rate": 0.00014928032829333268,
      "loss": 3.7539,
      "step": 241730
    },
    {
      "epoch": 0.503625,
      "grad_norm": 0.8037861585617065,
      "learning_rate": 0.00014927046985400955,
      "loss": 3.7645,
      "step": 241740
    },
    {
      "epoch": 0.5036458333333333,
      "grad_norm": 0.850130558013916,
      "learning_rate": 0.00014926061141783768,
      "loss": 3.8165,
      "step": 241750
    },
    {
      "epoch": 0.5036666666666667,
      "grad_norm": 0.9627378582954407,
      "learning_rate": 0.00014925075298485965,
      "loss": 3.7606,
      "step": 241760
    },
    {
      "epoch": 0.5036875,
      "grad_norm": 0.9861810207366943,
      "learning_rate": 0.00014924089455511808,
      "loss": 3.7702,
      "step": 241770
    },
    {
      "epoch": 0.5037083333333333,
      "grad_norm": 0.8066145181655884,
      "learning_rate": 0.00014923103612865556,
      "loss": 3.683,
      "step": 241780
    },
    {
      "epoch": 0.5037291666666667,
      "grad_norm": 0.8790395855903625,
      "learning_rate": 0.00014922117770551464,
      "loss": 3.7618,
      "step": 241790
    },
    {
      "epoch": 0.50375,
      "grad_norm": 0.8538668155670166,
      "learning_rate": 0.0001492113192857379,
      "loss": 3.8766,
      "step": 241800
    },
    {
      "epoch": 0.5037708333333333,
      "grad_norm": 0.8021209836006165,
      "learning_rate": 0.000149201460869368,
      "loss": 3.8046,
      "step": 241810
    },
    {
      "epoch": 0.5037916666666666,
      "grad_norm": 0.903950035572052,
      "learning_rate": 0.00014919160245644746,
      "loss": 3.8475,
      "step": 241820
    },
    {
      "epoch": 0.5038125,
      "grad_norm": 0.8018282651901245,
      "learning_rate": 0.00014918174404701884,
      "loss": 3.68,
      "step": 241830
    },
    {
      "epoch": 0.5038333333333334,
      "grad_norm": 0.8644813299179077,
      "learning_rate": 0.0001491718856411248,
      "loss": 3.8099,
      "step": 241840
    },
    {
      "epoch": 0.5038541666666667,
      "grad_norm": 0.8710804581642151,
      "learning_rate": 0.00014916202723880788,
      "loss": 3.8382,
      "step": 241850
    },
    {
      "epoch": 0.503875,
      "grad_norm": 0.8382195830345154,
      "learning_rate": 0.00014915216884011065,
      "loss": 3.7929,
      "step": 241860
    },
    {
      "epoch": 0.5038958333333333,
      "grad_norm": 0.8118963241577148,
      "learning_rate": 0.00014914231044507574,
      "loss": 3.7148,
      "step": 241870
    },
    {
      "epoch": 0.5039166666666667,
      "grad_norm": 0.7406938672065735,
      "learning_rate": 0.00014913245205374574,
      "loss": 3.8063,
      "step": 241880
    },
    {
      "epoch": 0.5039375,
      "grad_norm": 0.8477885127067566,
      "learning_rate": 0.00014912259366616312,
      "loss": 3.8978,
      "step": 241890
    },
    {
      "epoch": 0.5039583333333333,
      "grad_norm": 0.8938996195793152,
      "learning_rate": 0.0001491127352823706,
      "loss": 3.645,
      "step": 241900
    },
    {
      "epoch": 0.5039791666666666,
      "grad_norm": 0.7916933298110962,
      "learning_rate": 0.00014910287690241073,
      "loss": 3.7719,
      "step": 241910
    },
    {
      "epoch": 0.504,
      "grad_norm": 0.7660776972770691,
      "learning_rate": 0.00014909301852632603,
      "loss": 3.6238,
      "step": 241920
    },
    {
      "epoch": 0.5040208333333334,
      "grad_norm": 0.8355711102485657,
      "learning_rate": 0.00014908316015415914,
      "loss": 3.8062,
      "step": 241930
    },
    {
      "epoch": 0.5040416666666667,
      "grad_norm": 0.7997280955314636,
      "learning_rate": 0.00014907330178595267,
      "loss": 3.913,
      "step": 241940
    },
    {
      "epoch": 0.5040625,
      "grad_norm": 0.8851913809776306,
      "learning_rate": 0.0001490634434217491,
      "loss": 3.7213,
      "step": 241950
    },
    {
      "epoch": 0.5040833333333333,
      "grad_norm": 0.8344830870628357,
      "learning_rate": 0.00014905358506159114,
      "loss": 3.5026,
      "step": 241960
    },
    {
      "epoch": 0.5041041666666667,
      "grad_norm": 0.8865463137626648,
      "learning_rate": 0.00014904372670552135,
      "loss": 3.515,
      "step": 241970
    },
    {
      "epoch": 0.504125,
      "grad_norm": 0.8276945948600769,
      "learning_rate": 0.0001490338683535822,
      "loss": 3.7803,
      "step": 241980
    },
    {
      "epoch": 0.5041458333333333,
      "grad_norm": 0.8485310673713684,
      "learning_rate": 0.0001490240100058164,
      "loss": 3.8458,
      "step": 241990
    },
    {
      "epoch": 0.5041666666666667,
      "grad_norm": 0.893158495426178,
      "learning_rate": 0.0001490141516622665,
      "loss": 3.7366,
      "step": 242000
    },
    {
      "epoch": 0.5041666666666667,
      "eval_loss": 4.141671657562256,
      "eval_runtime": 8.4692,
      "eval_samples_per_second": 1.181,
      "eval_steps_per_second": 0.354,
      "step": 242000
    },
    {
      "epoch": 0.5041875,
      "grad_norm": 0.8287761807441711,
      "learning_rate": 0.00014900429332297504,
      "loss": 3.654,
      "step": 242010
    },
    {
      "epoch": 0.5042083333333334,
      "grad_norm": 0.8572919964790344,
      "learning_rate": 0.00014899443498798468,
      "loss": 3.9169,
      "step": 242020
    },
    {
      "epoch": 0.5042291666666666,
      "grad_norm": 1.20463228225708,
      "learning_rate": 0.00014898457665733796,
      "loss": 3.8661,
      "step": 242030
    },
    {
      "epoch": 0.50425,
      "grad_norm": 1.199267864227295,
      "learning_rate": 0.00014897471833107747,
      "loss": 3.7858,
      "step": 242040
    },
    {
      "epoch": 0.5042708333333333,
      "grad_norm": 0.8152373433113098,
      "learning_rate": 0.00014896486000924572,
      "loss": 3.7712,
      "step": 242050
    },
    {
      "epoch": 0.5042916666666667,
      "grad_norm": 0.911255419254303,
      "learning_rate": 0.00014895500169188544,
      "loss": 3.7943,
      "step": 242060
    },
    {
      "epoch": 0.5043125,
      "grad_norm": 0.7507292032241821,
      "learning_rate": 0.00014894514337903916,
      "loss": 3.6206,
      "step": 242070
    },
    {
      "epoch": 0.5043333333333333,
      "grad_norm": 0.7534122467041016,
      "learning_rate": 0.00014893528507074934,
      "loss": 3.9136,
      "step": 242080
    },
    {
      "epoch": 0.5043541666666667,
      "grad_norm": 0.7109693288803101,
      "learning_rate": 0.00014892542676705873,
      "loss": 3.5824,
      "step": 242090
    },
    {
      "epoch": 0.504375,
      "grad_norm": 0.8643842935562134,
      "learning_rate": 0.00014891556846800987,
      "loss": 3.5836,
      "step": 242100
    },
    {
      "epoch": 0.5043958333333334,
      "grad_norm": 0.980417788028717,
      "learning_rate": 0.00014890571017364527,
      "loss": 3.7746,
      "step": 242110
    },
    {
      "epoch": 0.5044166666666666,
      "grad_norm": 0.855821430683136,
      "learning_rate": 0.0001488958518840076,
      "loss": 3.7836,
      "step": 242120
    },
    {
      "epoch": 0.5044375,
      "grad_norm": 0.8477522134780884,
      "learning_rate": 0.00014888599359913943,
      "loss": 3.5728,
      "step": 242130
    },
    {
      "epoch": 0.5044583333333333,
      "grad_norm": 0.7712951302528381,
      "learning_rate": 0.0001488761353190833,
      "loss": 3.943,
      "step": 242140
    },
    {
      "epoch": 0.5044791666666667,
      "grad_norm": 0.7024716734886169,
      "learning_rate": 0.00014886627704388186,
      "loss": 3.7942,
      "step": 242150
    },
    {
      "epoch": 0.5045,
      "grad_norm": 0.8991838097572327,
      "learning_rate": 0.0001488564187735776,
      "loss": 3.7848,
      "step": 242160
    },
    {
      "epoch": 0.5045208333333333,
      "grad_norm": 0.7264230847358704,
      "learning_rate": 0.00014884656050821317,
      "loss": 3.72,
      "step": 242170
    },
    {
      "epoch": 0.5045416666666667,
      "grad_norm": 0.8032181262969971,
      "learning_rate": 0.00014883670224783118,
      "loss": 3.792,
      "step": 242180
    },
    {
      "epoch": 0.5045625,
      "grad_norm": 0.8397806882858276,
      "learning_rate": 0.00014882684399247415,
      "loss": 3.9112,
      "step": 242190
    },
    {
      "epoch": 0.5045833333333334,
      "grad_norm": 0.7096861600875854,
      "learning_rate": 0.00014881698574218465,
      "loss": 3.7754,
      "step": 242200
    },
    {
      "epoch": 0.5046041666666666,
      "grad_norm": 0.9061033129692078,
      "learning_rate": 0.00014880712749700537,
      "loss": 3.7876,
      "step": 242210
    },
    {
      "epoch": 0.504625,
      "grad_norm": 0.809499979019165,
      "learning_rate": 0.0001487972692569788,
      "loss": 3.7163,
      "step": 242220
    },
    {
      "epoch": 0.5046458333333333,
      "grad_norm": 0.860858142375946,
      "learning_rate": 0.00014878741102214752,
      "loss": 3.6758,
      "step": 242230
    },
    {
      "epoch": 0.5046666666666667,
      "grad_norm": 0.7624635696411133,
      "learning_rate": 0.0001487775527925542,
      "loss": 3.7019,
      "step": 242240
    },
    {
      "epoch": 0.5046875,
      "grad_norm": 1.0248740911483765,
      "learning_rate": 0.00014876769456824136,
      "loss": 3.5972,
      "step": 242250
    },
    {
      "epoch": 0.5047083333333333,
      "grad_norm": 0.723334014415741,
      "learning_rate": 0.00014875783634925153,
      "loss": 3.8089,
      "step": 242260
    },
    {
      "epoch": 0.5047291666666667,
      "grad_norm": 0.7975924611091614,
      "learning_rate": 0.00014874797813562744,
      "loss": 3.8053,
      "step": 242270
    },
    {
      "epoch": 0.50475,
      "grad_norm": 0.9525920748710632,
      "learning_rate": 0.00014873811992741157,
      "loss": 3.904,
      "step": 242280
    },
    {
      "epoch": 0.5047708333333333,
      "grad_norm": 0.8139102458953857,
      "learning_rate": 0.00014872826172464648,
      "loss": 3.9451,
      "step": 242290
    },
    {
      "epoch": 0.5047916666666666,
      "grad_norm": 1.2215570211410522,
      "learning_rate": 0.00014871840352737479,
      "loss": 3.6602,
      "step": 242300
    },
    {
      "epoch": 0.5048125,
      "grad_norm": 0.7480152249336243,
      "learning_rate": 0.00014870854533563917,
      "loss": 3.6889,
      "step": 242310
    },
    {
      "epoch": 0.5048333333333334,
      "grad_norm": 0.9225993752479553,
      "learning_rate": 0.00014869868714948204,
      "loss": 3.7328,
      "step": 242320
    },
    {
      "epoch": 0.5048541666666667,
      "grad_norm": 0.7673459649085999,
      "learning_rate": 0.0001486888289689461,
      "loss": 4.063,
      "step": 242330
    },
    {
      "epoch": 0.504875,
      "grad_norm": 0.9177325367927551,
      "learning_rate": 0.00014867897079407392,
      "loss": 3.7977,
      "step": 242340
    },
    {
      "epoch": 0.5048958333333333,
      "grad_norm": 0.9774564504623413,
      "learning_rate": 0.00014866911262490803,
      "loss": 3.9221,
      "step": 242350
    },
    {
      "epoch": 0.5049166666666667,
      "grad_norm": 0.7621951699256897,
      "learning_rate": 0.00014865925446149104,
      "loss": 3.9389,
      "step": 242360
    },
    {
      "epoch": 0.5049375,
      "grad_norm": 0.8514677882194519,
      "learning_rate": 0.00014864939630386556,
      "loss": 3.6193,
      "step": 242370
    },
    {
      "epoch": 0.5049583333333333,
      "grad_norm": 0.7247210144996643,
      "learning_rate": 0.00014863953815207417,
      "loss": 3.6489,
      "step": 242380
    },
    {
      "epoch": 0.5049791666666666,
      "grad_norm": 0.7659962177276611,
      "learning_rate": 0.0001486296800061594,
      "loss": 3.8344,
      "step": 242390
    },
    {
      "epoch": 0.505,
      "grad_norm": 0.9387837052345276,
      "learning_rate": 0.0001486198218661639,
      "loss": 3.7876,
      "step": 242400
    },
    {
      "epoch": 0.5050208333333334,
      "grad_norm": 0.9010984301567078,
      "learning_rate": 0.00014860996373213025,
      "loss": 3.9256,
      "step": 242410
    },
    {
      "epoch": 0.5050416666666667,
      "grad_norm": 0.892681896686554,
      "learning_rate": 0.0001486001056041009,
      "loss": 3.6914,
      "step": 242420
    },
    {
      "epoch": 0.5050625,
      "grad_norm": 0.8357647657394409,
      "learning_rate": 0.0001485902474821186,
      "loss": 3.8251,
      "step": 242430
    },
    {
      "epoch": 0.5050833333333333,
      "grad_norm": 0.9247997999191284,
      "learning_rate": 0.0001485803893662259,
      "loss": 3.8199,
      "step": 242440
    },
    {
      "epoch": 0.5051041666666667,
      "grad_norm": 0.8490309715270996,
      "learning_rate": 0.00014857053125646533,
      "loss": 3.8286,
      "step": 242450
    },
    {
      "epoch": 0.505125,
      "grad_norm": 0.8145729899406433,
      "learning_rate": 0.0001485606731528795,
      "loss": 3.7729,
      "step": 242460
    },
    {
      "epoch": 0.5051458333333333,
      "grad_norm": 0.713308572769165,
      "learning_rate": 0.00014855081505551102,
      "loss": 3.7881,
      "step": 242470
    },
    {
      "epoch": 0.5051666666666667,
      "grad_norm": 0.801557719707489,
      "learning_rate": 0.0001485409569644024,
      "loss": 3.7247,
      "step": 242480
    },
    {
      "epoch": 0.5051875,
      "grad_norm": 0.9515833854675293,
      "learning_rate": 0.00014853109887959627,
      "loss": 3.8864,
      "step": 242490
    },
    {
      "epoch": 0.5052083333333334,
      "grad_norm": 0.796110212802887,
      "learning_rate": 0.00014852124080113528,
      "loss": 3.8169,
      "step": 242500
    },
    {
      "epoch": 0.5052291666666666,
      "grad_norm": 0.907417356967926,
      "learning_rate": 0.00014851138272906186,
      "loss": 3.6236,
      "step": 242510
    },
    {
      "epoch": 0.50525,
      "grad_norm": 0.7629303336143494,
      "learning_rate": 0.00014850152466341874,
      "loss": 3.715,
      "step": 242520
    },
    {
      "epoch": 0.5052708333333333,
      "grad_norm": 1.036039113998413,
      "learning_rate": 0.00014849166660424842,
      "loss": 3.8676,
      "step": 242530
    },
    {
      "epoch": 0.5052916666666667,
      "grad_norm": 0.8435466885566711,
      "learning_rate": 0.00014848180855159347,
      "loss": 3.7554,
      "step": 242540
    },
    {
      "epoch": 0.5053125,
      "grad_norm": 0.8017792701721191,
      "learning_rate": 0.00014847195050549653,
      "loss": 3.8819,
      "step": 242550
    },
    {
      "epoch": 0.5053333333333333,
      "grad_norm": 0.753643274307251,
      "learning_rate": 0.00014846209246600016,
      "loss": 3.5853,
      "step": 242560
    },
    {
      "epoch": 0.5053541666666667,
      "grad_norm": 0.7744136452674866,
      "learning_rate": 0.00014845223443314692,
      "loss": 3.8023,
      "step": 242570
    },
    {
      "epoch": 0.505375,
      "grad_norm": 0.7392004132270813,
      "learning_rate": 0.00014844237640697946,
      "loss": 3.9358,
      "step": 242580
    },
    {
      "epoch": 0.5053958333333334,
      "grad_norm": 0.8345412015914917,
      "learning_rate": 0.0001484325183875403,
      "loss": 3.7295,
      "step": 242590
    },
    {
      "epoch": 0.5054166666666666,
      "grad_norm": 0.8032271862030029,
      "learning_rate": 0.000148422660374872,
      "loss": 3.6524,
      "step": 242600
    },
    {
      "epoch": 0.5054375,
      "grad_norm": 0.8328045606613159,
      "learning_rate": 0.00014841280236901726,
      "loss": 3.741,
      "step": 242610
    },
    {
      "epoch": 0.5054583333333333,
      "grad_norm": 0.8940253257751465,
      "learning_rate": 0.00014840294437001855,
      "loss": 3.9321,
      "step": 242620
    },
    {
      "epoch": 0.5054791666666667,
      "grad_norm": 0.9320989847183228,
      "learning_rate": 0.0001483930863779185,
      "loss": 3.939,
      "step": 242630
    },
    {
      "epoch": 0.5055,
      "grad_norm": 0.7878080606460571,
      "learning_rate": 0.00014838322839275963,
      "loss": 3.6165,
      "step": 242640
    },
    {
      "epoch": 0.5055208333333333,
      "grad_norm": 0.8219971656799316,
      "learning_rate": 0.00014837337041458465,
      "loss": 3.6445,
      "step": 242650
    },
    {
      "epoch": 0.5055416666666667,
      "grad_norm": 1.3756991624832153,
      "learning_rate": 0.000148363512443436,
      "loss": 3.8112,
      "step": 242660
    },
    {
      "epoch": 0.5055625,
      "grad_norm": 0.781916081905365,
      "learning_rate": 0.00014835365447935634,
      "loss": 3.6857,
      "step": 242670
    },
    {
      "epoch": 0.5055833333333334,
      "grad_norm": 0.7291122078895569,
      "learning_rate": 0.00014834379652238827,
      "loss": 3.8045,
      "step": 242680
    },
    {
      "epoch": 0.5056041666666666,
      "grad_norm": 1.0138508081436157,
      "learning_rate": 0.00014833393857257432,
      "loss": 3.9908,
      "step": 242690
    },
    {
      "epoch": 0.505625,
      "grad_norm": 0.7949656844139099,
      "learning_rate": 0.00014832408062995705,
      "loss": 3.6902,
      "step": 242700
    },
    {
      "epoch": 0.5056458333333333,
      "grad_norm": 0.7352187037467957,
      "learning_rate": 0.0001483142226945792,
      "loss": 3.6821,
      "step": 242710
    },
    {
      "epoch": 0.5056666666666667,
      "grad_norm": 0.8912333846092224,
      "learning_rate": 0.00014830436476648317,
      "loss": 3.9835,
      "step": 242720
    },
    {
      "epoch": 0.5056875,
      "grad_norm": 0.8085264563560486,
      "learning_rate": 0.00014829450684571157,
      "loss": 3.7279,
      "step": 242730
    },
    {
      "epoch": 0.5057083333333333,
      "grad_norm": 0.7851068377494812,
      "learning_rate": 0.00014828464893230713,
      "loss": 4.0078,
      "step": 242740
    },
    {
      "epoch": 0.5057291666666667,
      "grad_norm": 0.8383085131645203,
      "learning_rate": 0.0001482747910263123,
      "loss": 3.8871,
      "step": 242750
    },
    {
      "epoch": 0.50575,
      "grad_norm": 0.8515393733978271,
      "learning_rate": 0.00014826493312776964,
      "loss": 3.6426,
      "step": 242760
    },
    {
      "epoch": 0.5057708333333333,
      "grad_norm": 0.8148995637893677,
      "learning_rate": 0.0001482550752367218,
      "loss": 3.637,
      "step": 242770
    },
    {
      "epoch": 0.5057916666666666,
      "grad_norm": 0.825917661190033,
      "learning_rate": 0.00014824521735321139,
      "loss": 3.7707,
      "step": 242780
    },
    {
      "epoch": 0.5058125,
      "grad_norm": 0.8011810183525085,
      "learning_rate": 0.00014823535947728088,
      "loss": 3.6117,
      "step": 242790
    },
    {
      "epoch": 0.5058333333333334,
      "grad_norm": 0.7979826331138611,
      "learning_rate": 0.00014822550160897293,
      "loss": 3.7434,
      "step": 242800
    },
    {
      "epoch": 0.5058541666666667,
      "grad_norm": 0.8791424036026001,
      "learning_rate": 0.00014821564374833016,
      "loss": 4.0752,
      "step": 242810
    },
    {
      "epoch": 0.505875,
      "grad_norm": 0.8006953597068787,
      "learning_rate": 0.00014820578589539503,
      "loss": 3.8649,
      "step": 242820
    },
    {
      "epoch": 0.5058958333333333,
      "grad_norm": 0.9248834252357483,
      "learning_rate": 0.00014819592805021022,
      "loss": 3.6452,
      "step": 242830
    },
    {
      "epoch": 0.5059166666666667,
      "grad_norm": 0.8341822028160095,
      "learning_rate": 0.00014818607021281835,
      "loss": 3.8739,
      "step": 242840
    },
    {
      "epoch": 0.5059375,
      "grad_norm": 0.9388759732246399,
      "learning_rate": 0.00014817621238326186,
      "loss": 3.6433,
      "step": 242850
    },
    {
      "epoch": 0.5059583333333333,
      "grad_norm": 0.8105891346931458,
      "learning_rate": 0.00014816635456158344,
      "loss": 3.7879,
      "step": 242860
    },
    {
      "epoch": 0.5059791666666666,
      "grad_norm": 1.0626583099365234,
      "learning_rate": 0.00014815649674782566,
      "loss": 3.6511,
      "step": 242870
    },
    {
      "epoch": 0.506,
      "grad_norm": 0.7885817289352417,
      "learning_rate": 0.00014814663894203105,
      "loss": 3.805,
      "step": 242880
    },
    {
      "epoch": 0.5060208333333334,
      "grad_norm": 0.9788984060287476,
      "learning_rate": 0.00014813678114424227,
      "loss": 3.8763,
      "step": 242890
    },
    {
      "epoch": 0.5060416666666666,
      "grad_norm": 0.8415340781211853,
      "learning_rate": 0.00014812692335450185,
      "loss": 3.6684,
      "step": 242900
    },
    {
      "epoch": 0.5060625,
      "grad_norm": 0.8796084523200989,
      "learning_rate": 0.00014811706557285232,
      "loss": 3.6715,
      "step": 242910
    },
    {
      "epoch": 0.5060833333333333,
      "grad_norm": 1.0098406076431274,
      "learning_rate": 0.00014810720779933638,
      "loss": 3.9082,
      "step": 242920
    },
    {
      "epoch": 0.5061041666666667,
      "grad_norm": 0.8564022779464722,
      "learning_rate": 0.00014809735003399655,
      "loss": 3.7049,
      "step": 242930
    },
    {
      "epoch": 0.506125,
      "grad_norm": 0.8385481238365173,
      "learning_rate": 0.0001480874922768754,
      "loss": 3.8583,
      "step": 242940
    },
    {
      "epoch": 0.5061458333333333,
      "grad_norm": 1.054364562034607,
      "learning_rate": 0.0001480776345280155,
      "loss": 3.905,
      "step": 242950
    },
    {
      "epoch": 0.5061666666666667,
      "grad_norm": 0.7919532060623169,
      "learning_rate": 0.00014806777678745951,
      "loss": 3.9356,
      "step": 242960
    },
    {
      "epoch": 0.5061875,
      "grad_norm": 0.7929203510284424,
      "learning_rate": 0.00014805791905524995,
      "loss": 3.7868,
      "step": 242970
    },
    {
      "epoch": 0.5062083333333334,
      "grad_norm": 0.9832591414451599,
      "learning_rate": 0.00014804806133142937,
      "loss": 3.6668,
      "step": 242980
    },
    {
      "epoch": 0.5062291666666666,
      "grad_norm": 0.786296010017395,
      "learning_rate": 0.00014803820361604042,
      "loss": 3.7126,
      "step": 242990
    },
    {
      "epoch": 0.50625,
      "grad_norm": 0.7613735198974609,
      "learning_rate": 0.0001480283459091257,
      "loss": 3.7334,
      "step": 243000
    },
    {
      "epoch": 0.50625,
      "eval_loss": 4.150851249694824,
      "eval_runtime": 9.7824,
      "eval_samples_per_second": 1.022,
      "eval_steps_per_second": 0.307,
      "step": 243000
    },
    {
      "epoch": 0.5062708333333333,
      "grad_norm": 0.7394167184829712,
      "learning_rate": 0.00014801848821072763,
      "loss": 3.7809,
      "step": 243010
    },
    {
      "epoch": 0.5062916666666667,
      "grad_norm": 1.0283831357955933,
      "learning_rate": 0.000148008630520889,
      "loss": 3.8138,
      "step": 243020
    },
    {
      "epoch": 0.5063125,
      "grad_norm": 0.7848226428031921,
      "learning_rate": 0.0001479987728396523,
      "loss": 3.7806,
      "step": 243030
    },
    {
      "epoch": 0.5063333333333333,
      "grad_norm": 0.8524942398071289,
      "learning_rate": 0.00014798891516706002,
      "loss": 3.6766,
      "step": 243040
    },
    {
      "epoch": 0.5063541666666667,
      "grad_norm": 0.8993562459945679,
      "learning_rate": 0.00014797905750315495,
      "loss": 3.8801,
      "step": 243050
    },
    {
      "epoch": 0.506375,
      "grad_norm": 1.1291046142578125,
      "learning_rate": 0.0001479691998479795,
      "loss": 3.7246,
      "step": 243060
    },
    {
      "epoch": 0.5063958333333334,
      "grad_norm": 0.898454487323761,
      "learning_rate": 0.00014795934220157624,
      "loss": 3.7454,
      "step": 243070
    },
    {
      "epoch": 0.5064166666666666,
      "grad_norm": 0.7371924519538879,
      "learning_rate": 0.0001479494845639879,
      "loss": 3.7997,
      "step": 243080
    },
    {
      "epoch": 0.5064375,
      "grad_norm": 0.7861804366111755,
      "learning_rate": 0.00014793962693525694,
      "loss": 3.6268,
      "step": 243090
    },
    {
      "epoch": 0.5064583333333333,
      "grad_norm": 0.7870235443115234,
      "learning_rate": 0.00014792976931542597,
      "loss": 3.7796,
      "step": 243100
    },
    {
      "epoch": 0.5064791666666667,
      "grad_norm": 1.2470649480819702,
      "learning_rate": 0.00014791991170453762,
      "loss": 3.7276,
      "step": 243110
    },
    {
      "epoch": 0.5065,
      "grad_norm": 0.7494245767593384,
      "learning_rate": 0.00014791005410263439,
      "loss": 3.9299,
      "step": 243120
    },
    {
      "epoch": 0.5065208333333333,
      "grad_norm": 0.8846756219863892,
      "learning_rate": 0.00014790019650975884,
      "loss": 3.7373,
      "step": 243130
    },
    {
      "epoch": 0.5065416666666667,
      "grad_norm": 0.8197129964828491,
      "learning_rate": 0.00014789033892595373,
      "loss": 3.7266,
      "step": 243140
    },
    {
      "epoch": 0.5065625,
      "grad_norm": 0.722646176815033,
      "learning_rate": 0.00014788048135126148,
      "loss": 3.639,
      "step": 243150
    },
    {
      "epoch": 0.5065833333333334,
      "grad_norm": 0.9004557132720947,
      "learning_rate": 0.00014787062378572469,
      "loss": 3.9424,
      "step": 243160
    },
    {
      "epoch": 0.5066041666666666,
      "grad_norm": 0.7543055415153503,
      "learning_rate": 0.00014786076622938594,
      "loss": 3.8734,
      "step": 243170
    },
    {
      "epoch": 0.506625,
      "grad_norm": 0.8598967790603638,
      "learning_rate": 0.0001478509086822879,
      "loss": 3.8038,
      "step": 243180
    },
    {
      "epoch": 0.5066458333333334,
      "grad_norm": 0.8999565243721008,
      "learning_rate": 0.00014784105114447303,
      "loss": 3.7436,
      "step": 243190
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 0.8017032146453857,
      "learning_rate": 0.00014783119361598396,
      "loss": 3.7907,
      "step": 243200
    },
    {
      "epoch": 0.5066875,
      "grad_norm": 0.8685744404792786,
      "learning_rate": 0.00014782133609686333,
      "loss": 3.8584,
      "step": 243210
    },
    {
      "epoch": 0.5067083333333333,
      "grad_norm": 1.0586402416229248,
      "learning_rate": 0.00014781147858715363,
      "loss": 3.9652,
      "step": 243220
    },
    {
      "epoch": 0.5067291666666667,
      "grad_norm": 0.8603373169898987,
      "learning_rate": 0.00014780162108689744,
      "loss": 3.8708,
      "step": 243230
    },
    {
      "epoch": 0.50675,
      "grad_norm": 0.8160537481307983,
      "learning_rate": 0.00014779176359613745,
      "loss": 3.7182,
      "step": 243240
    },
    {
      "epoch": 0.5067708333333333,
      "grad_norm": 0.7848624587059021,
      "learning_rate": 0.00014778190611491616,
      "loss": 3.8512,
      "step": 243250
    },
    {
      "epoch": 0.5067916666666666,
      "grad_norm": 0.7262222766876221,
      "learning_rate": 0.0001477720486432761,
      "loss": 3.6762,
      "step": 243260
    },
    {
      "epoch": 0.5068125,
      "grad_norm": 0.7389160990715027,
      "learning_rate": 0.00014776219118125994,
      "loss": 3.8486,
      "step": 243270
    },
    {
      "epoch": 0.5068333333333334,
      "grad_norm": 0.7379325032234192,
      "learning_rate": 0.00014775233372891025,
      "loss": 3.781,
      "step": 243280
    },
    {
      "epoch": 0.5068541666666667,
      "grad_norm": 0.8188996911048889,
      "learning_rate": 0.00014774247628626953,
      "loss": 3.7995,
      "step": 243290
    },
    {
      "epoch": 0.506875,
      "grad_norm": 0.8780616521835327,
      "learning_rate": 0.00014773261885338046,
      "loss": 3.6223,
      "step": 243300
    },
    {
      "epoch": 0.5068958333333333,
      "grad_norm": 0.688220739364624,
      "learning_rate": 0.0001477227614302856,
      "loss": 3.8402,
      "step": 243310
    },
    {
      "epoch": 0.5069166666666667,
      "grad_norm": 0.870525598526001,
      "learning_rate": 0.00014771290401702745,
      "loss": 3.599,
      "step": 243320
    },
    {
      "epoch": 0.5069375,
      "grad_norm": 0.7771110534667969,
      "learning_rate": 0.00014770304661364868,
      "loss": 3.7508,
      "step": 243330
    },
    {
      "epoch": 0.5069583333333333,
      "grad_norm": 0.7954105734825134,
      "learning_rate": 0.00014769318922019188,
      "loss": 3.5819,
      "step": 243340
    },
    {
      "epoch": 0.5069791666666666,
      "grad_norm": 0.8241303563117981,
      "learning_rate": 0.00014768333183669952,
      "loss": 3.8165,
      "step": 243350
    },
    {
      "epoch": 0.507,
      "grad_norm": 1.0278037786483765,
      "learning_rate": 0.00014767347446321426,
      "loss": 3.8911,
      "step": 243360
    },
    {
      "epoch": 0.5070208333333334,
      "grad_norm": 0.7982622981071472,
      "learning_rate": 0.00014766361709977872,
      "loss": 3.7307,
      "step": 243370
    },
    {
      "epoch": 0.5070416666666666,
      "grad_norm": 0.8429380059242249,
      "learning_rate": 0.00014765375974643536,
      "loss": 3.8006,
      "step": 243380
    },
    {
      "epoch": 0.5070625,
      "grad_norm": 0.8495373725891113,
      "learning_rate": 0.00014764390240322691,
      "loss": 3.8521,
      "step": 243390
    },
    {
      "epoch": 0.5070833333333333,
      "grad_norm": 0.9141736626625061,
      "learning_rate": 0.00014763404507019582,
      "loss": 3.6197,
      "step": 243400
    },
    {
      "epoch": 0.5071041666666667,
      "grad_norm": 0.9088440537452698,
      "learning_rate": 0.0001476241877473847,
      "loss": 3.65,
      "step": 243410
    },
    {
      "epoch": 0.507125,
      "grad_norm": 1.0071742534637451,
      "learning_rate": 0.0001476143304348362,
      "loss": 3.7575,
      "step": 243420
    },
    {
      "epoch": 0.5071458333333333,
      "grad_norm": 0.7564594745635986,
      "learning_rate": 0.00014760447313259283,
      "loss": 3.8183,
      "step": 243430
    },
    {
      "epoch": 0.5071666666666667,
      "grad_norm": 0.7406216859817505,
      "learning_rate": 0.00014759461584069715,
      "loss": 3.8754,
      "step": 243440
    },
    {
      "epoch": 0.5071875,
      "grad_norm": 0.8327183127403259,
      "learning_rate": 0.00014758475855919183,
      "loss": 3.8314,
      "step": 243450
    },
    {
      "epoch": 0.5072083333333334,
      "grad_norm": 0.8063947558403015,
      "learning_rate": 0.00014757490128811937,
      "loss": 3.8048,
      "step": 243460
    },
    {
      "epoch": 0.5072291666666666,
      "grad_norm": 0.8388794660568237,
      "learning_rate": 0.00014756504402752235,
      "loss": 3.7786,
      "step": 243470
    },
    {
      "epoch": 0.50725,
      "grad_norm": 0.9512448906898499,
      "learning_rate": 0.00014755518677744343,
      "loss": 3.6091,
      "step": 243480
    },
    {
      "epoch": 0.5072708333333333,
      "grad_norm": 0.814263641834259,
      "learning_rate": 0.00014754532953792512,
      "loss": 3.8063,
      "step": 243490
    },
    {
      "epoch": 0.5072916666666667,
      "grad_norm": 0.97071373462677,
      "learning_rate": 0.00014753547230900995,
      "loss": 3.8284,
      "step": 243500
    },
    {
      "epoch": 0.5073125,
      "grad_norm": 0.7702498435974121,
      "learning_rate": 0.00014752561509074068,
      "loss": 3.717,
      "step": 243510
    },
    {
      "epoch": 0.5073333333333333,
      "grad_norm": 0.8353288173675537,
      "learning_rate": 0.0001475157578831597,
      "loss": 3.8243,
      "step": 243520
    },
    {
      "epoch": 0.5073541666666667,
      "grad_norm": 0.7227296233177185,
      "learning_rate": 0.00014750590068630972,
      "loss": 3.8034,
      "step": 243530
    },
    {
      "epoch": 0.507375,
      "grad_norm": 0.7614724636077881,
      "learning_rate": 0.00014749604350023317,
      "loss": 3.7988,
      "step": 243540
    },
    {
      "epoch": 0.5073958333333334,
      "grad_norm": 0.8259547352790833,
      "learning_rate": 0.00014748618632497282,
      "loss": 3.5824,
      "step": 243550
    },
    {
      "epoch": 0.5074166666666666,
      "grad_norm": 0.8035577535629272,
      "learning_rate": 0.0001474763291605711,
      "loss": 3.7388,
      "step": 243560
    },
    {
      "epoch": 0.5074375,
      "grad_norm": 0.755702793598175,
      "learning_rate": 0.0001474664720070706,
      "loss": 3.8349,
      "step": 243570
    },
    {
      "epoch": 0.5074583333333333,
      "grad_norm": 0.8603188395500183,
      "learning_rate": 0.000147456614864514,
      "loss": 3.7806,
      "step": 243580
    },
    {
      "epoch": 0.5074791666666667,
      "grad_norm": 0.6784653067588806,
      "learning_rate": 0.00014744675773294377,
      "loss": 3.5976,
      "step": 243590
    },
    {
      "epoch": 0.5075,
      "grad_norm": 0.7555092573165894,
      "learning_rate": 0.00014743690061240256,
      "loss": 3.798,
      "step": 243600
    },
    {
      "epoch": 0.5075208333333333,
      "grad_norm": 0.8476206660270691,
      "learning_rate": 0.00014742704350293294,
      "loss": 3.8302,
      "step": 243610
    },
    {
      "epoch": 0.5075416666666667,
      "grad_norm": 0.8816184401512146,
      "learning_rate": 0.00014741718640457746,
      "loss": 3.752,
      "step": 243620
    },
    {
      "epoch": 0.5075625,
      "grad_norm": 0.9194533228874207,
      "learning_rate": 0.00014740732931737866,
      "loss": 3.9935,
      "step": 243630
    },
    {
      "epoch": 0.5075833333333334,
      "grad_norm": 1.0463993549346924,
      "learning_rate": 0.00014739747224137926,
      "loss": 3.6584,
      "step": 243640
    },
    {
      "epoch": 0.5076041666666666,
      "grad_norm": 0.9238327741622925,
      "learning_rate": 0.00014738761517662174,
      "loss": 3.8478,
      "step": 243650
    },
    {
      "epoch": 0.507625,
      "grad_norm": 0.845000147819519,
      "learning_rate": 0.00014737775812314862,
      "loss": 3.6829,
      "step": 243660
    },
    {
      "epoch": 0.5076458333333334,
      "grad_norm": 0.8302865028381348,
      "learning_rate": 0.0001473679010810026,
      "loss": 3.769,
      "step": 243670
    },
    {
      "epoch": 0.5076666666666667,
      "grad_norm": 0.8438523411750793,
      "learning_rate": 0.00014735804405022622,
      "loss": 3.7763,
      "step": 243680
    },
    {
      "epoch": 0.5076875,
      "grad_norm": 0.7840531468391418,
      "learning_rate": 0.000147348187030862,
      "loss": 3.8018,
      "step": 243690
    },
    {
      "epoch": 0.5077083333333333,
      "grad_norm": 0.9981601238250732,
      "learning_rate": 0.00014733833002295257,
      "loss": 3.7964,
      "step": 243700
    },
    {
      "epoch": 0.5077291666666667,
      "grad_norm": 0.7715518474578857,
      "learning_rate": 0.00014732847302654053,
      "loss": 3.8908,
      "step": 243710
    },
    {
      "epoch": 0.50775,
      "grad_norm": 0.8814473152160645,
      "learning_rate": 0.00014731861604166838,
      "loss": 3.9018,
      "step": 243720
    },
    {
      "epoch": 0.5077708333333333,
      "grad_norm": 0.8711223602294922,
      "learning_rate": 0.00014730875906837878,
      "loss": 3.6979,
      "step": 243730
    },
    {
      "epoch": 0.5077916666666666,
      "grad_norm": 0.7593194842338562,
      "learning_rate": 0.0001472989021067143,
      "loss": 3.8545,
      "step": 243740
    },
    {
      "epoch": 0.5078125,
      "grad_norm": 0.7881477475166321,
      "learning_rate": 0.00014728904515671741,
      "loss": 3.719,
      "step": 243750
    },
    {
      "epoch": 0.5078333333333334,
      "grad_norm": 0.711470365524292,
      "learning_rate": 0.00014727918821843088,
      "loss": 3.7011,
      "step": 243760
    },
    {
      "epoch": 0.5078541666666667,
      "grad_norm": 0.8063859343528748,
      "learning_rate": 0.0001472693312918971,
      "loss": 3.6594,
      "step": 243770
    },
    {
      "epoch": 0.507875,
      "grad_norm": 0.8477986454963684,
      "learning_rate": 0.00014725947437715874,
      "loss": 3.8025,
      "step": 243780
    },
    {
      "epoch": 0.5078958333333333,
      "grad_norm": 0.8207815289497375,
      "learning_rate": 0.0001472496174742584,
      "loss": 3.5857,
      "step": 243790
    },
    {
      "epoch": 0.5079166666666667,
      "grad_norm": 0.806090235710144,
      "learning_rate": 0.0001472397605832386,
      "loss": 3.5567,
      "step": 243800
    },
    {
      "epoch": 0.5079375,
      "grad_norm": 0.8815796375274658,
      "learning_rate": 0.00014722990370414198,
      "loss": 3.6807,
      "step": 243810
    },
    {
      "epoch": 0.5079583333333333,
      "grad_norm": 0.8788194060325623,
      "learning_rate": 0.00014722004683701104,
      "loss": 3.8308,
      "step": 243820
    },
    {
      "epoch": 0.5079791666666666,
      "grad_norm": 0.790348470211029,
      "learning_rate": 0.00014721018998188837,
      "loss": 3.8941,
      "step": 243830
    },
    {
      "epoch": 0.508,
      "grad_norm": 0.6961696147918701,
      "learning_rate": 0.00014720033313881666,
      "loss": 3.518,
      "step": 243840
    },
    {
      "epoch": 0.5080208333333334,
      "grad_norm": 0.9269025921821594,
      "learning_rate": 0.0001471904763078383,
      "loss": 3.8892,
      "step": 243850
    },
    {
      "epoch": 0.5080416666666666,
      "grad_norm": 0.7844389081001282,
      "learning_rate": 0.00014718061948899603,
      "loss": 3.7319,
      "step": 243860
    },
    {
      "epoch": 0.5080625,
      "grad_norm": 0.7472842931747437,
      "learning_rate": 0.0001471707626823324,
      "loss": 3.6471,
      "step": 243870
    },
    {
      "epoch": 0.5080833333333333,
      "grad_norm": 0.8417291641235352,
      "learning_rate": 0.00014716090588788987,
      "loss": 3.553,
      "step": 243880
    },
    {
      "epoch": 0.5081041666666667,
      "grad_norm": 0.8940972685813904,
      "learning_rate": 0.00014715104910571118,
      "loss": 3.6665,
      "step": 243890
    },
    {
      "epoch": 0.508125,
      "grad_norm": 0.8930821418762207,
      "learning_rate": 0.0001471411923358388,
      "loss": 3.691,
      "step": 243900
    },
    {
      "epoch": 0.5081458333333333,
      "grad_norm": 0.9240814447402954,
      "learning_rate": 0.0001471313355783153,
      "loss": 3.8372,
      "step": 243910
    },
    {
      "epoch": 0.5081666666666667,
      "grad_norm": 0.8279352188110352,
      "learning_rate": 0.00014712147883318334,
      "loss": 3.7407,
      "step": 243920
    },
    {
      "epoch": 0.5081875,
      "grad_norm": 0.7114733457565308,
      "learning_rate": 0.00014711162210048545,
      "loss": 3.6781,
      "step": 243930
    },
    {
      "epoch": 0.5082083333333334,
      "grad_norm": 0.7768959999084473,
      "learning_rate": 0.00014710176538026417,
      "loss": 3.8446,
      "step": 243940
    },
    {
      "epoch": 0.5082291666666666,
      "grad_norm": 1.225941777229309,
      "learning_rate": 0.00014709190867256218,
      "loss": 3.6965,
      "step": 243950
    },
    {
      "epoch": 0.50825,
      "grad_norm": 0.8886351585388184,
      "learning_rate": 0.00014708205197742194,
      "loss": 3.8076,
      "step": 243960
    },
    {
      "epoch": 0.5082708333333333,
      "grad_norm": 0.7982459664344788,
      "learning_rate": 0.00014707219529488607,
      "loss": 3.7121,
      "step": 243970
    },
    {
      "epoch": 0.5082916666666667,
      "grad_norm": 0.7755921483039856,
      "learning_rate": 0.00014706233862499723,
      "loss": 3.7507,
      "step": 243980
    },
    {
      "epoch": 0.5083125,
      "grad_norm": 0.7579126358032227,
      "learning_rate": 0.0001470524819677979,
      "loss": 3.8433,
      "step": 243990
    },
    {
      "epoch": 0.5083333333333333,
      "grad_norm": 0.8901734352111816,
      "learning_rate": 0.0001470426253233306,
      "loss": 3.6592,
      "step": 244000
    },
    {
      "epoch": 0.5083333333333333,
      "eval_loss": 4.150052547454834,
      "eval_runtime": 8.9588,
      "eval_samples_per_second": 1.116,
      "eval_steps_per_second": 0.335,
      "step": 244000
    },
    {
      "epoch": 0.5083541666666667,
      "grad_norm": 0.8478366732597351,
      "learning_rate": 0.0001470327686916381,
      "loss": 3.6262,
      "step": 244010
    },
    {
      "epoch": 0.508375,
      "grad_norm": 0.7901188135147095,
      "learning_rate": 0.00014702291207276284,
      "loss": 3.7491,
      "step": 244020
    },
    {
      "epoch": 0.5083958333333334,
      "grad_norm": 0.815902590751648,
      "learning_rate": 0.00014701305546674736,
      "loss": 3.7353,
      "step": 244030
    },
    {
      "epoch": 0.5084166666666666,
      "grad_norm": 0.7424510717391968,
      "learning_rate": 0.00014700319887363435,
      "loss": 3.8225,
      "step": 244040
    },
    {
      "epoch": 0.5084375,
      "grad_norm": 0.8160373568534851,
      "learning_rate": 0.00014699334229346635,
      "loss": 3.6722,
      "step": 244050
    },
    {
      "epoch": 0.5084583333333333,
      "grad_norm": 0.7687318921089172,
      "learning_rate": 0.00014698348572628585,
      "loss": 3.8507,
      "step": 244060
    },
    {
      "epoch": 0.5084791666666667,
      "grad_norm": 0.8580339550971985,
      "learning_rate": 0.00014697362917213554,
      "loss": 3.766,
      "step": 244070
    },
    {
      "epoch": 0.5085,
      "grad_norm": 0.8780779242515564,
      "learning_rate": 0.000146963772631058,
      "loss": 3.7184,
      "step": 244080
    },
    {
      "epoch": 0.5085208333333333,
      "grad_norm": 0.8422302603721619,
      "learning_rate": 0.00014695391610309566,
      "loss": 3.8477,
      "step": 244090
    },
    {
      "epoch": 0.5085416666666667,
      "grad_norm": 0.820421576499939,
      "learning_rate": 0.00014694405958829126,
      "loss": 3.8273,
      "step": 244100
    },
    {
      "epoch": 0.5085625,
      "grad_norm": 1.1202306747436523,
      "learning_rate": 0.00014693420308668735,
      "loss": 3.8085,
      "step": 244110
    },
    {
      "epoch": 0.5085833333333334,
      "grad_norm": 0.8006632924079895,
      "learning_rate": 0.00014692434659832642,
      "loss": 3.8176,
      "step": 244120
    },
    {
      "epoch": 0.5086041666666666,
      "grad_norm": 0.9623464941978455,
      "learning_rate": 0.00014691449012325104,
      "loss": 3.7167,
      "step": 244130
    },
    {
      "epoch": 0.508625,
      "grad_norm": 0.7192704081535339,
      "learning_rate": 0.00014690463366150394,
      "loss": 3.8764,
      "step": 244140
    },
    {
      "epoch": 0.5086458333333334,
      "grad_norm": 0.8698859214782715,
      "learning_rate": 0.00014689477721312758,
      "loss": 3.7002,
      "step": 244150
    },
    {
      "epoch": 0.5086666666666667,
      "grad_norm": 0.8703773021697998,
      "learning_rate": 0.0001468849207781645,
      "loss": 3.8228,
      "step": 244160
    },
    {
      "epoch": 0.5086875,
      "grad_norm": 0.8490553498268127,
      "learning_rate": 0.00014687506435665738,
      "loss": 3.7576,
      "step": 244170
    },
    {
      "epoch": 0.5087083333333333,
      "grad_norm": 0.812682032585144,
      "learning_rate": 0.00014686520794864874,
      "loss": 3.6785,
      "step": 244180
    },
    {
      "epoch": 0.5087291666666667,
      "grad_norm": 0.8474917411804199,
      "learning_rate": 0.0001468553515541811,
      "loss": 3.7806,
      "step": 244190
    },
    {
      "epoch": 0.50875,
      "grad_norm": 0.9936416745185852,
      "learning_rate": 0.00014684549517329716,
      "loss": 3.88,
      "step": 244200
    },
    {
      "epoch": 0.5087708333333333,
      "grad_norm": 0.7919864058494568,
      "learning_rate": 0.00014683563880603942,
      "loss": 3.8631,
      "step": 244210
    },
    {
      "epoch": 0.5087916666666666,
      "grad_norm": 0.7945124506950378,
      "learning_rate": 0.00014682578245245044,
      "loss": 3.7983,
      "step": 244220
    },
    {
      "epoch": 0.5088125,
      "grad_norm": 0.7923902869224548,
      "learning_rate": 0.00014681592611257284,
      "loss": 3.7433,
      "step": 244230
    },
    {
      "epoch": 0.5088333333333334,
      "grad_norm": 0.8788061738014221,
      "learning_rate": 0.00014680606978644922,
      "loss": 3.7864,
      "step": 244240
    },
    {
      "epoch": 0.5088541666666667,
      "grad_norm": 0.8615930676460266,
      "learning_rate": 0.00014679621347412204,
      "loss": 3.804,
      "step": 244250
    },
    {
      "epoch": 0.508875,
      "grad_norm": 0.8217584490776062,
      "learning_rate": 0.00014678635717563403,
      "loss": 3.8871,
      "step": 244260
    },
    {
      "epoch": 0.5088958333333333,
      "grad_norm": 0.7966262698173523,
      "learning_rate": 0.00014677650089102765,
      "loss": 3.7946,
      "step": 244270
    },
    {
      "epoch": 0.5089166666666667,
      "grad_norm": 0.852313220500946,
      "learning_rate": 0.00014676664462034546,
      "loss": 3.8091,
      "step": 244280
    },
    {
      "epoch": 0.5089375,
      "grad_norm": 0.7935972213745117,
      "learning_rate": 0.00014675678836363016,
      "loss": 3.7977,
      "step": 244290
    },
    {
      "epoch": 0.5089583333333333,
      "grad_norm": 0.8924941420555115,
      "learning_rate": 0.0001467469321209242,
      "loss": 3.7963,
      "step": 244300
    },
    {
      "epoch": 0.5089791666666666,
      "grad_norm": 0.7471781969070435,
      "learning_rate": 0.0001467370758922702,
      "loss": 3.8195,
      "step": 244310
    },
    {
      "epoch": 0.509,
      "grad_norm": 1.0079461336135864,
      "learning_rate": 0.0001467272196777108,
      "loss": 3.7476,
      "step": 244320
    },
    {
      "epoch": 0.5090208333333334,
      "grad_norm": 0.8354255557060242,
      "learning_rate": 0.00014671736347728848,
      "loss": 3.9218,
      "step": 244330
    },
    {
      "epoch": 0.5090416666666666,
      "grad_norm": 0.8471499085426331,
      "learning_rate": 0.00014670750729104583,
      "loss": 3.7968,
      "step": 244340
    },
    {
      "epoch": 0.5090625,
      "grad_norm": 1.027683973312378,
      "learning_rate": 0.00014669765111902547,
      "loss": 3.6928,
      "step": 244350
    },
    {
      "epoch": 0.5090833333333333,
      "grad_norm": 0.8483389616012573,
      "learning_rate": 0.00014668779496126996,
      "loss": 3.6673,
      "step": 244360
    },
    {
      "epoch": 0.5091041666666667,
      "grad_norm": 0.8044382929801941,
      "learning_rate": 0.00014667793881782183,
      "loss": 3.7884,
      "step": 244370
    },
    {
      "epoch": 0.509125,
      "grad_norm": 0.8907549381256104,
      "learning_rate": 0.00014666808268872373,
      "loss": 3.766,
      "step": 244380
    },
    {
      "epoch": 0.5091458333333333,
      "grad_norm": 0.8203279972076416,
      "learning_rate": 0.0001466582265740182,
      "loss": 3.8111,
      "step": 244390
    },
    {
      "epoch": 0.5091666666666667,
      "grad_norm": 0.9900198578834534,
      "learning_rate": 0.00014664837047374777,
      "loss": 3.7905,
      "step": 244400
    },
    {
      "epoch": 0.5091875,
      "grad_norm": 0.7818030714988708,
      "learning_rate": 0.00014663851438795504,
      "loss": 3.8548,
      "step": 244410
    },
    {
      "epoch": 0.5092083333333334,
      "grad_norm": 0.8028446435928345,
      "learning_rate": 0.00014662865831668265,
      "loss": 3.7097,
      "step": 244420
    },
    {
      "epoch": 0.5092291666666666,
      "grad_norm": 0.7872949242591858,
      "learning_rate": 0.0001466188022599731,
      "loss": 3.6708,
      "step": 244430
    },
    {
      "epoch": 0.50925,
      "grad_norm": 0.8038613796234131,
      "learning_rate": 0.00014660894621786893,
      "loss": 3.797,
      "step": 244440
    },
    {
      "epoch": 0.5092708333333333,
      "grad_norm": 0.9224944114685059,
      "learning_rate": 0.00014659909019041286,
      "loss": 3.807,
      "step": 244450
    },
    {
      "epoch": 0.5092916666666667,
      "grad_norm": 0.7760765552520752,
      "learning_rate": 0.00014658923417764735,
      "loss": 3.8508,
      "step": 244460
    },
    {
      "epoch": 0.5093125,
      "grad_norm": 0.9308984279632568,
      "learning_rate": 0.00014657937817961494,
      "loss": 3.6857,
      "step": 244470
    },
    {
      "epoch": 0.5093333333333333,
      "grad_norm": 0.7325735688209534,
      "learning_rate": 0.00014656952219635832,
      "loss": 3.7774,
      "step": 244480
    },
    {
      "epoch": 0.5093541666666667,
      "grad_norm": 0.88603675365448,
      "learning_rate": 0.00014655966622792002,
      "loss": 3.7038,
      "step": 244490
    },
    {
      "epoch": 0.509375,
      "grad_norm": 0.7700549960136414,
      "learning_rate": 0.00014654981027434252,
      "loss": 3.788,
      "step": 244500
    },
    {
      "epoch": 0.5093958333333334,
      "grad_norm": 0.8215034008026123,
      "learning_rate": 0.00014653995433566854,
      "loss": 3.8278,
      "step": 244510
    },
    {
      "epoch": 0.5094166666666666,
      "grad_norm": 0.8248353600502014,
      "learning_rate": 0.00014653009841194062,
      "loss": 3.5316,
      "step": 244520
    },
    {
      "epoch": 0.5094375,
      "grad_norm": 0.9418792128562927,
      "learning_rate": 0.00014652024250320122,
      "loss": 3.7281,
      "step": 244530
    },
    {
      "epoch": 0.5094583333333333,
      "grad_norm": 0.838679313659668,
      "learning_rate": 0.00014651038660949301,
      "loss": 3.8026,
      "step": 244540
    },
    {
      "epoch": 0.5094791666666667,
      "grad_norm": 0.9023456573486328,
      "learning_rate": 0.0001465005307308586,
      "loss": 3.7678,
      "step": 244550
    },
    {
      "epoch": 0.5095,
      "grad_norm": 0.7997698187828064,
      "learning_rate": 0.00014649067486734047,
      "loss": 3.664,
      "step": 244560
    },
    {
      "epoch": 0.5095208333333333,
      "grad_norm": 0.8151692152023315,
      "learning_rate": 0.00014648081901898124,
      "loss": 3.7722,
      "step": 244570
    },
    {
      "epoch": 0.5095416666666667,
      "grad_norm": 0.7902634739875793,
      "learning_rate": 0.0001464709631858235,
      "loss": 4.0512,
      "step": 244580
    },
    {
      "epoch": 0.5095625,
      "grad_norm": 0.8065202832221985,
      "learning_rate": 0.00014646110736790978,
      "loss": 3.8619,
      "step": 244590
    },
    {
      "epoch": 0.5095833333333334,
      "grad_norm": 0.8994256854057312,
      "learning_rate": 0.00014645125156528268,
      "loss": 3.7752,
      "step": 244600
    },
    {
      "epoch": 0.5096041666666666,
      "grad_norm": 1.1420000791549683,
      "learning_rate": 0.0001464413957779848,
      "loss": 3.8104,
      "step": 244610
    },
    {
      "epoch": 0.509625,
      "grad_norm": 0.8099251985549927,
      "learning_rate": 0.0001464315400060586,
      "loss": 3.693,
      "step": 244620
    },
    {
      "epoch": 0.5096458333333334,
      "grad_norm": 0.7319657802581787,
      "learning_rate": 0.0001464216842495468,
      "loss": 4.0149,
      "step": 244630
    },
    {
      "epoch": 0.5096666666666667,
      "grad_norm": 1.0403990745544434,
      "learning_rate": 0.00014641182850849192,
      "loss": 3.6202,
      "step": 244640
    },
    {
      "epoch": 0.5096875,
      "grad_norm": 0.8026670217514038,
      "learning_rate": 0.00014640197278293645,
      "loss": 3.8959,
      "step": 244650
    },
    {
      "epoch": 0.5097083333333333,
      "grad_norm": 0.7937846779823303,
      "learning_rate": 0.00014639211707292312,
      "loss": 3.8628,
      "step": 244660
    },
    {
      "epoch": 0.5097291666666667,
      "grad_norm": 0.7619925737380981,
      "learning_rate": 0.0001463822613784944,
      "loss": 3.7669,
      "step": 244670
    },
    {
      "epoch": 0.50975,
      "grad_norm": 0.8036298751831055,
      "learning_rate": 0.00014637240569969286,
      "loss": 3.6375,
      "step": 244680
    },
    {
      "epoch": 0.5097708333333333,
      "grad_norm": 0.8616705536842346,
      "learning_rate": 0.00014636255003656106,
      "loss": 3.7687,
      "step": 244690
    },
    {
      "epoch": 0.5097916666666666,
      "grad_norm": 0.8756670951843262,
      "learning_rate": 0.00014635269438914163,
      "loss": 3.668,
      "step": 244700
    },
    {
      "epoch": 0.5098125,
      "grad_norm": 0.8383961915969849,
      "learning_rate": 0.00014634283875747714,
      "loss": 3.7502,
      "step": 244710
    },
    {
      "epoch": 0.5098333333333334,
      "grad_norm": 0.7268849015235901,
      "learning_rate": 0.00014633298314161008,
      "loss": 3.7682,
      "step": 244720
    },
    {
      "epoch": 0.5098541666666667,
      "grad_norm": 0.8137133121490479,
      "learning_rate": 0.0001463231275415831,
      "loss": 3.8802,
      "step": 244730
    },
    {
      "epoch": 0.509875,
      "grad_norm": 0.7826281785964966,
      "learning_rate": 0.00014631327195743882,
      "loss": 3.8078,
      "step": 244740
    },
    {
      "epoch": 0.5098958333333333,
      "grad_norm": 0.8097223043441772,
      "learning_rate": 0.00014630341638921965,
      "loss": 3.8367,
      "step": 244750
    },
    {
      "epoch": 0.5099166666666667,
      "grad_norm": 0.880386471748352,
      "learning_rate": 0.00014629356083696834,
      "loss": 3.8131,
      "step": 244760
    },
    {
      "epoch": 0.5099375,
      "grad_norm": 0.8184245824813843,
      "learning_rate": 0.00014628370530072734,
      "loss": 3.7277,
      "step": 244770
    },
    {
      "epoch": 0.5099583333333333,
      "grad_norm": 0.7680816054344177,
      "learning_rate": 0.00014627384978053922,
      "loss": 3.6789,
      "step": 244780
    },
    {
      "epoch": 0.5099791666666667,
      "grad_norm": 1.1028515100479126,
      "learning_rate": 0.00014626399427644668,
      "loss": 3.7482,
      "step": 244790
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.7956913113594055,
      "learning_rate": 0.00014625413878849216,
      "loss": 3.6603,
      "step": 244800
    },
    {
      "epoch": 0.5100208333333334,
      "grad_norm": 0.9130976796150208,
      "learning_rate": 0.00014624428331671825,
      "loss": 3.8349,
      "step": 244810
    },
    {
      "epoch": 0.5100416666666666,
      "grad_norm": 0.8172575831413269,
      "learning_rate": 0.0001462344278611676,
      "loss": 3.579,
      "step": 244820
    },
    {
      "epoch": 0.5100625,
      "grad_norm": 0.8543761372566223,
      "learning_rate": 0.00014622457242188274,
      "loss": 3.8032,
      "step": 244830
    },
    {
      "epoch": 0.5100833333333333,
      "grad_norm": 0.7867756485939026,
      "learning_rate": 0.00014621471699890616,
      "loss": 3.7545,
      "step": 244840
    },
    {
      "epoch": 0.5101041666666667,
      "grad_norm": 0.8502365350723267,
      "learning_rate": 0.00014620486159228058,
      "loss": 3.7549,
      "step": 244850
    },
    {
      "epoch": 0.510125,
      "grad_norm": 0.7322816252708435,
      "learning_rate": 0.00014619500620204846,
      "loss": 3.5726,
      "step": 244860
    },
    {
      "epoch": 0.5101458333333333,
      "grad_norm": 0.8489649891853333,
      "learning_rate": 0.00014618515082825238,
      "loss": 3.6421,
      "step": 244870
    },
    {
      "epoch": 0.5101666666666667,
      "grad_norm": 0.7779704928398132,
      "learning_rate": 0.000146175295470935,
      "loss": 3.6888,
      "step": 244880
    },
    {
      "epoch": 0.5101875,
      "grad_norm": 0.8073194622993469,
      "learning_rate": 0.00014616544013013884,
      "loss": 3.8834,
      "step": 244890
    },
    {
      "epoch": 0.5102083333333334,
      "grad_norm": 0.7542998790740967,
      "learning_rate": 0.0001461555848059064,
      "loss": 3.8513,
      "step": 244900
    },
    {
      "epoch": 0.5102291666666666,
      "grad_norm": 0.6816328167915344,
      "learning_rate": 0.00014614572949828034,
      "loss": 3.7202,
      "step": 244910
    },
    {
      "epoch": 0.51025,
      "grad_norm": 0.8155000805854797,
      "learning_rate": 0.0001461358742073032,
      "loss": 3.723,
      "step": 244920
    },
    {
      "epoch": 0.5102708333333333,
      "grad_norm": 0.8443000316619873,
      "learning_rate": 0.00014612601893301754,
      "loss": 3.6037,
      "step": 244930
    },
    {
      "epoch": 0.5102916666666667,
      "grad_norm": 0.7793723344802856,
      "learning_rate": 0.00014611616367546593,
      "loss": 3.7575,
      "step": 244940
    },
    {
      "epoch": 0.5103125,
      "grad_norm": 0.9502713084220886,
      "learning_rate": 0.00014610630843469102,
      "loss": 3.8011,
      "step": 244950
    },
    {
      "epoch": 0.5103333333333333,
      "grad_norm": 0.7455776333808899,
      "learning_rate": 0.00014609645321073524,
      "loss": 3.7166,
      "step": 244960
    },
    {
      "epoch": 0.5103541666666667,
      "grad_norm": 0.9342924356460571,
      "learning_rate": 0.00014608659800364129,
      "loss": 3.7687,
      "step": 244970
    },
    {
      "epoch": 0.510375,
      "grad_norm": 0.9500725269317627,
      "learning_rate": 0.0001460767428134517,
      "loss": 3.7913,
      "step": 244980
    },
    {
      "epoch": 0.5103958333333334,
      "grad_norm": 0.7609596252441406,
      "learning_rate": 0.000146066887640209,
      "loss": 3.7726,
      "step": 244990
    },
    {
      "epoch": 0.5104166666666666,
      "grad_norm": 0.8857059478759766,
      "learning_rate": 0.00014605703248395574,
      "loss": 3.9593,
      "step": 245000
    },
    {
      "epoch": 0.5104166666666666,
      "eval_loss": 4.134350776672363,
      "eval_runtime": 9.3385,
      "eval_samples_per_second": 1.071,
      "eval_steps_per_second": 0.321,
      "step": 245000
    },
    {
      "epoch": 0.5104375,
      "grad_norm": 0.8787096738815308,
      "learning_rate": 0.00014604717734473463,
      "loss": 3.8012,
      "step": 245010
    },
    {
      "epoch": 0.5104583333333333,
      "grad_norm": 0.8668336868286133,
      "learning_rate": 0.00014603732222258814,
      "loss": 3.6762,
      "step": 245020
    },
    {
      "epoch": 0.5104791666666667,
      "grad_norm": 0.7118678689002991,
      "learning_rate": 0.00014602746711755876,
      "loss": 3.8599,
      "step": 245030
    },
    {
      "epoch": 0.5105,
      "grad_norm": 0.8103923797607422,
      "learning_rate": 0.0001460176120296892,
      "loss": 3.7382,
      "step": 245040
    },
    {
      "epoch": 0.5105208333333333,
      "grad_norm": 1.0933846235275269,
      "learning_rate": 0.00014600775695902205,
      "loss": 3.7109,
      "step": 245050
    },
    {
      "epoch": 0.5105416666666667,
      "grad_norm": 0.8524375557899475,
      "learning_rate": 0.0001459979019055997,
      "loss": 3.7243,
      "step": 245060
    },
    {
      "epoch": 0.5105625,
      "grad_norm": 0.8650155663490295,
      "learning_rate": 0.00014598804686946488,
      "loss": 3.767,
      "step": 245070
    },
    {
      "epoch": 0.5105833333333333,
      "grad_norm": 0.7714798450469971,
      "learning_rate": 0.00014597819185066012,
      "loss": 3.77,
      "step": 245080
    },
    {
      "epoch": 0.5106041666666666,
      "grad_norm": 0.8136953115463257,
      "learning_rate": 0.00014596833684922794,
      "loss": 3.801,
      "step": 245090
    },
    {
      "epoch": 0.510625,
      "grad_norm": 0.767346203327179,
      "learning_rate": 0.00014595848186521097,
      "loss": 3.7201,
      "step": 245100
    },
    {
      "epoch": 0.5106458333333334,
      "grad_norm": 0.9193107485771179,
      "learning_rate": 0.0001459486268986518,
      "loss": 3.7415,
      "step": 245110
    },
    {
      "epoch": 0.5106666666666667,
      "grad_norm": 0.7719889283180237,
      "learning_rate": 0.0001459387719495929,
      "loss": 3.8281,
      "step": 245120
    },
    {
      "epoch": 0.5106875,
      "grad_norm": 2.282092332839966,
      "learning_rate": 0.0001459289170180769,
      "loss": 3.7544,
      "step": 245130
    },
    {
      "epoch": 0.5107083333333333,
      "grad_norm": 0.758915364742279,
      "learning_rate": 0.0001459190621041464,
      "loss": 3.7824,
      "step": 245140
    },
    {
      "epoch": 0.5107291666666667,
      "grad_norm": 0.8188830614089966,
      "learning_rate": 0.0001459092072078439,
      "loss": 3.7648,
      "step": 245150
    },
    {
      "epoch": 0.51075,
      "grad_norm": 0.8951869010925293,
      "learning_rate": 0.00014589935232921206,
      "loss": 3.8639,
      "step": 245160
    },
    {
      "epoch": 0.5107708333333333,
      "grad_norm": 0.8132091760635376,
      "learning_rate": 0.00014588949746829335,
      "loss": 3.7052,
      "step": 245170
    },
    {
      "epoch": 0.5107916666666666,
      "grad_norm": 0.9558432102203369,
      "learning_rate": 0.00014587964262513037,
      "loss": 3.741,
      "step": 245180
    },
    {
      "epoch": 0.5108125,
      "grad_norm": 0.8520667552947998,
      "learning_rate": 0.00014586978779976577,
      "loss": 3.8001,
      "step": 245190
    },
    {
      "epoch": 0.5108333333333334,
      "grad_norm": 0.8937376141548157,
      "learning_rate": 0.000145859932992242,
      "loss": 3.9347,
      "step": 245200
    },
    {
      "epoch": 0.5108541666666667,
      "grad_norm": 0.7491599917411804,
      "learning_rate": 0.00014585007820260164,
      "loss": 3.9636,
      "step": 245210
    },
    {
      "epoch": 0.510875,
      "grad_norm": 0.9239304065704346,
      "learning_rate": 0.0001458402234308874,
      "loss": 3.7692,
      "step": 245220
    },
    {
      "epoch": 0.5108958333333333,
      "grad_norm": 0.8930104970932007,
      "learning_rate": 0.0001458303686771417,
      "loss": 3.5553,
      "step": 245230
    },
    {
      "epoch": 0.5109166666666667,
      "grad_norm": 0.9065524339675903,
      "learning_rate": 0.0001458205139414071,
      "loss": 3.5966,
      "step": 245240
    },
    {
      "epoch": 0.5109375,
      "grad_norm": 0.8737334609031677,
      "learning_rate": 0.00014581065922372632,
      "loss": 3.7999,
      "step": 245250
    },
    {
      "epoch": 0.5109583333333333,
      "grad_norm": 0.9455900192260742,
      "learning_rate": 0.00014580080452414183,
      "loss": 3.7575,
      "step": 245260
    },
    {
      "epoch": 0.5109791666666667,
      "grad_norm": 0.8042899370193481,
      "learning_rate": 0.00014579094984269617,
      "loss": 3.7446,
      "step": 245270
    },
    {
      "epoch": 0.511,
      "grad_norm": 0.7846893668174744,
      "learning_rate": 0.0001457810951794319,
      "loss": 3.9595,
      "step": 245280
    },
    {
      "epoch": 0.5110208333333334,
      "grad_norm": 0.7661024928092957,
      "learning_rate": 0.0001457712405343917,
      "loss": 3.8624,
      "step": 245290
    },
    {
      "epoch": 0.5110416666666666,
      "grad_norm": 0.6991321444511414,
      "learning_rate": 0.000145761385907618,
      "loss": 3.7652,
      "step": 245300
    },
    {
      "epoch": 0.5110625,
      "grad_norm": 1.3772742748260498,
      "learning_rate": 0.00014575153129915344,
      "loss": 3.6641,
      "step": 245310
    },
    {
      "epoch": 0.5110833333333333,
      "grad_norm": 0.7834431529045105,
      "learning_rate": 0.00014574167670904068,
      "loss": 3.7714,
      "step": 245320
    },
    {
      "epoch": 0.5111041666666667,
      "grad_norm": 0.8250937461853027,
      "learning_rate": 0.0001457318221373221,
      "loss": 3.778,
      "step": 245330
    },
    {
      "epoch": 0.511125,
      "grad_norm": 0.8296676278114319,
      "learning_rate": 0.00014572196758404037,
      "loss": 3.6544,
      "step": 245340
    },
    {
      "epoch": 0.5111458333333333,
      "grad_norm": 0.8522427082061768,
      "learning_rate": 0.00014571211304923807,
      "loss": 3.7861,
      "step": 245350
    },
    {
      "epoch": 0.5111666666666667,
      "grad_norm": 0.7665696740150452,
      "learning_rate": 0.00014570225853295773,
      "loss": 3.7837,
      "step": 245360
    },
    {
      "epoch": 0.5111875,
      "grad_norm": 0.8297724723815918,
      "learning_rate": 0.0001456924040352419,
      "loss": 3.8426,
      "step": 245370
    },
    {
      "epoch": 0.5112083333333334,
      "grad_norm": 0.7470095157623291,
      "learning_rate": 0.00014568254955613324,
      "loss": 3.7302,
      "step": 245380
    },
    {
      "epoch": 0.5112291666666666,
      "grad_norm": 0.9228238463401794,
      "learning_rate": 0.00014567269509567425,
      "loss": 3.8071,
      "step": 245390
    },
    {
      "epoch": 0.51125,
      "grad_norm": 0.6823802590370178,
      "learning_rate": 0.00014566284065390748,
      "loss": 3.7126,
      "step": 245400
    },
    {
      "epoch": 0.5112708333333333,
      "grad_norm": 0.8349028825759888,
      "learning_rate": 0.00014565298623087552,
      "loss": 3.7181,
      "step": 245410
    },
    {
      "epoch": 0.5112916666666667,
      "grad_norm": 0.7605685591697693,
      "learning_rate": 0.00014564313182662098,
      "loss": 3.6637,
      "step": 245420
    },
    {
      "epoch": 0.5113125,
      "grad_norm": 0.791721761226654,
      "learning_rate": 0.0001456332774411863,
      "loss": 3.7188,
      "step": 245430
    },
    {
      "epoch": 0.5113333333333333,
      "grad_norm": 0.9978107213973999,
      "learning_rate": 0.00014562342307461419,
      "loss": 3.8204,
      "step": 245440
    },
    {
      "epoch": 0.5113541666666667,
      "grad_norm": 0.8559787273406982,
      "learning_rate": 0.00014561356872694719,
      "loss": 3.8829,
      "step": 245450
    },
    {
      "epoch": 0.511375,
      "grad_norm": 0.815982460975647,
      "learning_rate": 0.00014560371439822776,
      "loss": 3.589,
      "step": 245460
    },
    {
      "epoch": 0.5113958333333334,
      "grad_norm": 0.8917507529258728,
      "learning_rate": 0.0001455938600884986,
      "loss": 3.7005,
      "step": 245470
    },
    {
      "epoch": 0.5114166666666666,
      "grad_norm": 0.7620071172714233,
      "learning_rate": 0.00014558400579780221,
      "loss": 3.8667,
      "step": 245480
    },
    {
      "epoch": 0.5114375,
      "grad_norm": 1.0044732093811035,
      "learning_rate": 0.00014557415152618113,
      "loss": 3.8425,
      "step": 245490
    },
    {
      "epoch": 0.5114583333333333,
      "grad_norm": 1.357709527015686,
      "learning_rate": 0.00014556429727367802,
      "loss": 3.6173,
      "step": 245500
    },
    {
      "epoch": 0.5114791666666667,
      "grad_norm": 0.8867798447608948,
      "learning_rate": 0.0001455544430403354,
      "loss": 3.906,
      "step": 245510
    },
    {
      "epoch": 0.5115,
      "grad_norm": 0.8387197256088257,
      "learning_rate": 0.00014554458882619573,
      "loss": 3.7897,
      "step": 245520
    },
    {
      "epoch": 0.5115208333333333,
      "grad_norm": 0.8301709890365601,
      "learning_rate": 0.0001455347346313018,
      "loss": 3.6464,
      "step": 245530
    },
    {
      "epoch": 0.5115416666666667,
      "grad_norm": 0.7478347420692444,
      "learning_rate": 0.00014552488045569597,
      "loss": 3.7792,
      "step": 245540
    },
    {
      "epoch": 0.5115625,
      "grad_norm": 0.8976824283599854,
      "learning_rate": 0.00014551502629942084,
      "loss": 3.6917,
      "step": 245550
    },
    {
      "epoch": 0.5115833333333333,
      "grad_norm": 0.8585946559906006,
      "learning_rate": 0.00014550517216251911,
      "loss": 3.6258,
      "step": 245560
    },
    {
      "epoch": 0.5116041666666666,
      "grad_norm": 1.0058979988098145,
      "learning_rate": 0.00014549531804503325,
      "loss": 3.8148,
      "step": 245570
    },
    {
      "epoch": 0.511625,
      "grad_norm": 1.0214900970458984,
      "learning_rate": 0.00014548546394700583,
      "loss": 3.5863,
      "step": 245580
    },
    {
      "epoch": 0.5116458333333334,
      "grad_norm": 0.83848637342453,
      "learning_rate": 0.00014547560986847937,
      "loss": 3.8907,
      "step": 245590
    },
    {
      "epoch": 0.5116666666666667,
      "grad_norm": 1.0346466302871704,
      "learning_rate": 0.0001454657558094965,
      "loss": 3.7332,
      "step": 245600
    },
    {
      "epoch": 0.5116875,
      "grad_norm": 0.8784695267677307,
      "learning_rate": 0.00014545590177009982,
      "loss": 3.648,
      "step": 245610
    },
    {
      "epoch": 0.5117083333333333,
      "grad_norm": 0.8076659440994263,
      "learning_rate": 0.0001454460477503318,
      "loss": 3.8481,
      "step": 245620
    },
    {
      "epoch": 0.5117291666666667,
      "grad_norm": 1.0347440242767334,
      "learning_rate": 0.00014543619375023505,
      "loss": 3.7819,
      "step": 245630
    },
    {
      "epoch": 0.51175,
      "grad_norm": 0.7392977476119995,
      "learning_rate": 0.00014542633976985216,
      "loss": 3.5941,
      "step": 245640
    },
    {
      "epoch": 0.5117708333333333,
      "grad_norm": 0.8383936882019043,
      "learning_rate": 0.00014541648580922563,
      "loss": 3.8196,
      "step": 245650
    },
    {
      "epoch": 0.5117916666666666,
      "grad_norm": 0.7337185740470886,
      "learning_rate": 0.00014540663186839815,
      "loss": 3.9411,
      "step": 245660
    },
    {
      "epoch": 0.5118125,
      "grad_norm": 0.8950691819190979,
      "learning_rate": 0.0001453967779474121,
      "loss": 3.7103,
      "step": 245670
    },
    {
      "epoch": 0.5118333333333334,
      "grad_norm": 0.7391903400421143,
      "learning_rate": 0.00014538692404631018,
      "loss": 3.7359,
      "step": 245680
    },
    {
      "epoch": 0.5118541666666667,
      "grad_norm": 0.7825959920883179,
      "learning_rate": 0.000145377070165135,
      "loss": 3.8942,
      "step": 245690
    },
    {
      "epoch": 0.511875,
      "grad_norm": 0.7893968820571899,
      "learning_rate": 0.00014536721630392896,
      "loss": 3.4961,
      "step": 245700
    },
    {
      "epoch": 0.5118958333333333,
      "grad_norm": 1.0302019119262695,
      "learning_rate": 0.0001453573624627347,
      "loss": 3.6011,
      "step": 245710
    },
    {
      "epoch": 0.5119166666666667,
      "grad_norm": 0.7729648351669312,
      "learning_rate": 0.00014534750864159487,
      "loss": 3.7814,
      "step": 245720
    },
    {
      "epoch": 0.5119375,
      "grad_norm": 0.9404670596122742,
      "learning_rate": 0.00014533765484055192,
      "loss": 3.9703,
      "step": 245730
    },
    {
      "epoch": 0.5119583333333333,
      "grad_norm": 0.7939889430999756,
      "learning_rate": 0.0001453278010596484,
      "loss": 3.852,
      "step": 245740
    },
    {
      "epoch": 0.5119791666666667,
      "grad_norm": 0.8737379312515259,
      "learning_rate": 0.00014531794729892702,
      "loss": 3.7565,
      "step": 245750
    },
    {
      "epoch": 0.512,
      "grad_norm": 1.0641875267028809,
      "learning_rate": 0.0001453080935584303,
      "loss": 3.8725,
      "step": 245760
    },
    {
      "epoch": 0.5120208333333334,
      "grad_norm": 0.8800411224365234,
      "learning_rate": 0.00014529823983820063,
      "loss": 3.8051,
      "step": 245770
    },
    {
      "epoch": 0.5120416666666666,
      "grad_norm": 0.8060356378555298,
      "learning_rate": 0.00014528838613828076,
      "loss": 3.9038,
      "step": 245780
    },
    {
      "epoch": 0.5120625,
      "grad_norm": 0.8009837865829468,
      "learning_rate": 0.0001452785324587132,
      "loss": 3.844,
      "step": 245790
    },
    {
      "epoch": 0.5120833333333333,
      "grad_norm": 0.8561434745788574,
      "learning_rate": 0.00014526867879954047,
      "loss": 3.7739,
      "step": 245800
    },
    {
      "epoch": 0.5121041666666667,
      "grad_norm": 0.900215208530426,
      "learning_rate": 0.00014525882516080521,
      "loss": 3.7891,
      "step": 245810
    },
    {
      "epoch": 0.512125,
      "grad_norm": 0.8374578356742859,
      "learning_rate": 0.00014524897154254997,
      "loss": 3.8074,
      "step": 245820
    },
    {
      "epoch": 0.5121458333333333,
      "grad_norm": 1.126652717590332,
      "learning_rate": 0.00014523911794481724,
      "loss": 3.6607,
      "step": 245830
    },
    {
      "epoch": 0.5121666666666667,
      "grad_norm": 0.8854503631591797,
      "learning_rate": 0.00014522926436764965,
      "loss": 3.7955,
      "step": 245840
    },
    {
      "epoch": 0.5121875,
      "grad_norm": 0.8969804644584656,
      "learning_rate": 0.00014521941081108982,
      "loss": 3.6147,
      "step": 245850
    },
    {
      "epoch": 0.5122083333333334,
      "grad_norm": 0.7998746633529663,
      "learning_rate": 0.00014520955727518017,
      "loss": 3.8489,
      "step": 245860
    },
    {
      "epoch": 0.5122291666666666,
      "grad_norm": 0.8022310733795166,
      "learning_rate": 0.00014519970375996333,
      "loss": 3.9905,
      "step": 245870
    },
    {
      "epoch": 0.51225,
      "grad_norm": 0.7773959040641785,
      "learning_rate": 0.0001451898502654819,
      "loss": 3.8777,
      "step": 245880
    },
    {
      "epoch": 0.5122708333333333,
      "grad_norm": 0.9121587872505188,
      "learning_rate": 0.00014517999679177846,
      "loss": 3.828,
      "step": 245890
    },
    {
      "epoch": 0.5122916666666667,
      "grad_norm": 0.8112706542015076,
      "learning_rate": 0.00014517014333889543,
      "loss": 3.7762,
      "step": 245900
    },
    {
      "epoch": 0.5123125,
      "grad_norm": 0.8346158862113953,
      "learning_rate": 0.00014516028990687552,
      "loss": 3.9186,
      "step": 245910
    },
    {
      "epoch": 0.5123333333333333,
      "grad_norm": 0.8259202837944031,
      "learning_rate": 0.00014515043649576125,
      "loss": 3.8357,
      "step": 245920
    },
    {
      "epoch": 0.5123541666666667,
      "grad_norm": 0.8402994275093079,
      "learning_rate": 0.00014514058310559512,
      "loss": 3.8474,
      "step": 245930
    },
    {
      "epoch": 0.512375,
      "grad_norm": 0.8359606266021729,
      "learning_rate": 0.0001451307297364198,
      "loss": 3.5253,
      "step": 245940
    },
    {
      "epoch": 0.5123958333333334,
      "grad_norm": 0.7624993324279785,
      "learning_rate": 0.0001451208763882778,
      "loss": 3.7628,
      "step": 245950
    },
    {
      "epoch": 0.5124166666666666,
      "grad_norm": 0.9464705586433411,
      "learning_rate": 0.00014511102306121165,
      "loss": 3.9165,
      "step": 245960
    },
    {
      "epoch": 0.5124375,
      "grad_norm": 0.8815892934799194,
      "learning_rate": 0.00014510116975526396,
      "loss": 3.8328,
      "step": 245970
    },
    {
      "epoch": 0.5124583333333333,
      "grad_norm": 0.9854913949966431,
      "learning_rate": 0.00014509131647047732,
      "loss": 3.6457,
      "step": 245980
    },
    {
      "epoch": 0.5124791666666667,
      "grad_norm": 0.8391936421394348,
      "learning_rate": 0.00014508146320689415,
      "loss": 3.7227,
      "step": 245990
    },
    {
      "epoch": 0.5125,
      "grad_norm": 0.916344940662384,
      "learning_rate": 0.0001450716099645572,
      "loss": 3.7163,
      "step": 246000
    },
    {
      "epoch": 0.5125,
      "eval_loss": 4.143702983856201,
      "eval_runtime": 9.0163,
      "eval_samples_per_second": 1.109,
      "eval_steps_per_second": 0.333,
      "step": 246000
    },
    {
      "epoch": 0.5125208333333333,
      "grad_norm": 0.8905000686645508,
      "learning_rate": 0.00014506175674350893,
      "loss": 3.9331,
      "step": 246010
    },
    {
      "epoch": 0.5125416666666667,
      "grad_norm": 0.8173273205757141,
      "learning_rate": 0.0001450519035437919,
      "loss": 3.715,
      "step": 246020
    },
    {
      "epoch": 0.5125625,
      "grad_norm": 0.8244932293891907,
      "learning_rate": 0.0001450420503654487,
      "loss": 3.6943,
      "step": 246030
    },
    {
      "epoch": 0.5125833333333333,
      "grad_norm": 0.7797327637672424,
      "learning_rate": 0.00014503219720852185,
      "loss": 3.6582,
      "step": 246040
    },
    {
      "epoch": 0.5126041666666666,
      "grad_norm": 0.7212011218070984,
      "learning_rate": 0.00014502234407305395,
      "loss": 3.7918,
      "step": 246050
    },
    {
      "epoch": 0.512625,
      "grad_norm": 0.8798342347145081,
      "learning_rate": 0.0001450124909590876,
      "loss": 3.6295,
      "step": 246060
    },
    {
      "epoch": 0.5126458333333334,
      "grad_norm": 0.7911838889122009,
      "learning_rate": 0.00014500263786666528,
      "loss": 3.7982,
      "step": 246070
    },
    {
      "epoch": 0.5126666666666667,
      "grad_norm": 0.8004494309425354,
      "learning_rate": 0.00014499278479582954,
      "loss": 3.6346,
      "step": 246080
    },
    {
      "epoch": 0.5126875,
      "grad_norm": 0.7289975881576538,
      "learning_rate": 0.00014498293174662307,
      "loss": 3.8125,
      "step": 246090
    },
    {
      "epoch": 0.5127083333333333,
      "grad_norm": 0.8152821063995361,
      "learning_rate": 0.0001449730787190883,
      "loss": 3.7245,
      "step": 246100
    },
    {
      "epoch": 0.5127291666666667,
      "grad_norm": 0.7404032349586487,
      "learning_rate": 0.00014496322571326783,
      "loss": 3.6639,
      "step": 246110
    },
    {
      "epoch": 0.51275,
      "grad_norm": 1.0301427841186523,
      "learning_rate": 0.0001449533727292043,
      "loss": 3.8201,
      "step": 246120
    },
    {
      "epoch": 0.5127708333333333,
      "grad_norm": 0.8801255226135254,
      "learning_rate": 0.00014494351976694015,
      "loss": 3.7931,
      "step": 246130
    },
    {
      "epoch": 0.5127916666666666,
      "grad_norm": 0.8921303153038025,
      "learning_rate": 0.00014493366682651797,
      "loss": 3.7592,
      "step": 246140
    },
    {
      "epoch": 0.5128125,
      "grad_norm": 0.7970342636108398,
      "learning_rate": 0.0001449238139079804,
      "loss": 3.6517,
      "step": 246150
    },
    {
      "epoch": 0.5128333333333334,
      "grad_norm": 0.7143541574478149,
      "learning_rate": 0.00014491396101136994,
      "loss": 3.7858,
      "step": 246160
    },
    {
      "epoch": 0.5128541666666667,
      "grad_norm": 0.7432185411453247,
      "learning_rate": 0.00014490410813672915,
      "loss": 3.634,
      "step": 246170
    },
    {
      "epoch": 0.512875,
      "grad_norm": 0.847823441028595,
      "learning_rate": 0.00014489425528410054,
      "loss": 3.8045,
      "step": 246180
    },
    {
      "epoch": 0.5128958333333333,
      "grad_norm": 0.8708638548851013,
      "learning_rate": 0.0001448844024535268,
      "loss": 3.9219,
      "step": 246190
    },
    {
      "epoch": 0.5129166666666667,
      "grad_norm": 0.8680076599121094,
      "learning_rate": 0.00014487454964505036,
      "loss": 3.6385,
      "step": 246200
    },
    {
      "epoch": 0.5129375,
      "grad_norm": 0.8617507219314575,
      "learning_rate": 0.00014486469685871385,
      "loss": 3.9139,
      "step": 246210
    },
    {
      "epoch": 0.5129583333333333,
      "grad_norm": 0.7822238206863403,
      "learning_rate": 0.00014485484409455985,
      "loss": 3.8417,
      "step": 246220
    },
    {
      "epoch": 0.5129791666666667,
      "grad_norm": 0.8528274893760681,
      "learning_rate": 0.00014484499135263086,
      "loss": 3.8213,
      "step": 246230
    },
    {
      "epoch": 0.513,
      "grad_norm": 0.7878239154815674,
      "learning_rate": 0.00014483513863296942,
      "loss": 3.7292,
      "step": 246240
    },
    {
      "epoch": 0.5130208333333334,
      "grad_norm": 0.9495730996131897,
      "learning_rate": 0.00014482528593561824,
      "loss": 3.7483,
      "step": 246250
    },
    {
      "epoch": 0.5130416666666666,
      "grad_norm": 0.9139724373817444,
      "learning_rate": 0.00014481543326061975,
      "loss": 3.8222,
      "step": 246260
    },
    {
      "epoch": 0.5130625,
      "grad_norm": 0.9196402430534363,
      "learning_rate": 0.00014480558060801647,
      "loss": 3.7189,
      "step": 246270
    },
    {
      "epoch": 0.5130833333333333,
      "grad_norm": 0.8845264911651611,
      "learning_rate": 0.00014479572797785107,
      "loss": 3.5211,
      "step": 246280
    },
    {
      "epoch": 0.5131041666666667,
      "grad_norm": 0.8006977438926697,
      "learning_rate": 0.0001447858753701661,
      "loss": 3.8414,
      "step": 246290
    },
    {
      "epoch": 0.513125,
      "grad_norm": 0.7979070544242859,
      "learning_rate": 0.000144776022785004,
      "loss": 3.9247,
      "step": 246300
    },
    {
      "epoch": 0.5131458333333333,
      "grad_norm": 1.030439019203186,
      "learning_rate": 0.00014476617022240746,
      "loss": 3.6869,
      "step": 246310
    },
    {
      "epoch": 0.5131666666666667,
      "grad_norm": 1.24272620677948,
      "learning_rate": 0.00014475631768241903,
      "loss": 3.7523,
      "step": 246320
    },
    {
      "epoch": 0.5131875,
      "grad_norm": 0.7739851474761963,
      "learning_rate": 0.00014474646516508114,
      "loss": 3.7315,
      "step": 246330
    },
    {
      "epoch": 0.5132083333333334,
      "grad_norm": 0.9006398916244507,
      "learning_rate": 0.0001447366126704365,
      "loss": 3.8252,
      "step": 246340
    },
    {
      "epoch": 0.5132291666666666,
      "grad_norm": 0.9683854579925537,
      "learning_rate": 0.00014472676019852763,
      "loss": 3.9206,
      "step": 246350
    },
    {
      "epoch": 0.51325,
      "grad_norm": 0.7440258860588074,
      "learning_rate": 0.000144716907749397,
      "loss": 3.8384,
      "step": 246360
    },
    {
      "epoch": 0.5132708333333333,
      "grad_norm": 0.8503035306930542,
      "learning_rate": 0.0001447070553230873,
      "loss": 3.6284,
      "step": 246370
    },
    {
      "epoch": 0.5132916666666667,
      "grad_norm": 0.7580968141555786,
      "learning_rate": 0.00014469720291964102,
      "loss": 3.8277,
      "step": 246380
    },
    {
      "epoch": 0.5133125,
      "grad_norm": 1.0009751319885254,
      "learning_rate": 0.00014468735053910068,
      "loss": 3.802,
      "step": 246390
    },
    {
      "epoch": 0.5133333333333333,
      "grad_norm": 0.887856662273407,
      "learning_rate": 0.00014467749818150894,
      "loss": 3.5398,
      "step": 246400
    },
    {
      "epoch": 0.5133541666666667,
      "grad_norm": 0.7192710041999817,
      "learning_rate": 0.0001446676458469083,
      "loss": 3.725,
      "step": 246410
    },
    {
      "epoch": 0.513375,
      "grad_norm": 0.7787805199623108,
      "learning_rate": 0.00014465779353534125,
      "loss": 3.7007,
      "step": 246420
    },
    {
      "epoch": 0.5133958333333334,
      "grad_norm": 0.8187756538391113,
      "learning_rate": 0.00014464794124685048,
      "loss": 3.7141,
      "step": 246430
    },
    {
      "epoch": 0.5134166666666666,
      "grad_norm": 0.9974347352981567,
      "learning_rate": 0.00014463808898147846,
      "loss": 3.8166,
      "step": 246440
    },
    {
      "epoch": 0.5134375,
      "grad_norm": 0.9019030332565308,
      "learning_rate": 0.0001446282367392678,
      "loss": 3.7995,
      "step": 246450
    },
    {
      "epoch": 0.5134583333333333,
      "grad_norm": 0.8063738942146301,
      "learning_rate": 0.00014461838452026099,
      "loss": 3.8383,
      "step": 246460
    },
    {
      "epoch": 0.5134791666666667,
      "grad_norm": 0.8655605912208557,
      "learning_rate": 0.00014460853232450065,
      "loss": 3.7819,
      "step": 246470
    },
    {
      "epoch": 0.5135,
      "grad_norm": 0.7930585741996765,
      "learning_rate": 0.00014459868015202936,
      "loss": 3.7326,
      "step": 246480
    },
    {
      "epoch": 0.5135208333333333,
      "grad_norm": 0.7121089696884155,
      "learning_rate": 0.00014458882800288955,
      "loss": 3.8702,
      "step": 246490
    },
    {
      "epoch": 0.5135416666666667,
      "grad_norm": 0.7957555651664734,
      "learning_rate": 0.0001445789758771239,
      "loss": 3.9986,
      "step": 246500
    },
    {
      "epoch": 0.5135625,
      "grad_norm": 0.8365756869316101,
      "learning_rate": 0.00014456912377477495,
      "loss": 3.7499,
      "step": 246510
    },
    {
      "epoch": 0.5135833333333333,
      "grad_norm": 0.8488075137138367,
      "learning_rate": 0.0001445592716958852,
      "loss": 3.8012,
      "step": 246520
    },
    {
      "epoch": 0.5136041666666666,
      "grad_norm": 1.194812536239624,
      "learning_rate": 0.0001445494196404973,
      "loss": 3.6388,
      "step": 246530
    },
    {
      "epoch": 0.513625,
      "grad_norm": 0.7361101508140564,
      "learning_rate": 0.0001445395676086537,
      "loss": 3.6982,
      "step": 246540
    },
    {
      "epoch": 0.5136458333333334,
      "grad_norm": 0.7124470472335815,
      "learning_rate": 0.00014452971560039696,
      "loss": 3.6628,
      "step": 246550
    },
    {
      "epoch": 0.5136666666666667,
      "grad_norm": 0.9016491174697876,
      "learning_rate": 0.00014451986361576976,
      "loss": 3.9186,
      "step": 246560
    },
    {
      "epoch": 0.5136875,
      "grad_norm": 0.888331413269043,
      "learning_rate": 0.00014451001165481455,
      "loss": 3.8026,
      "step": 246570
    },
    {
      "epoch": 0.5137083333333333,
      "grad_norm": 0.8568640351295471,
      "learning_rate": 0.0001445001597175739,
      "loss": 3.7906,
      "step": 246580
    },
    {
      "epoch": 0.5137291666666667,
      "grad_norm": 0.7439311742782593,
      "learning_rate": 0.00014449030780409045,
      "loss": 3.8384,
      "step": 246590
    },
    {
      "epoch": 0.51375,
      "grad_norm": 0.7941262722015381,
      "learning_rate": 0.00014448045591440665,
      "loss": 3.8152,
      "step": 246600
    },
    {
      "epoch": 0.5137708333333333,
      "grad_norm": 0.8317317366600037,
      "learning_rate": 0.00014447060404856505,
      "loss": 3.6871,
      "step": 246610
    },
    {
      "epoch": 0.5137916666666666,
      "grad_norm": 0.7891671061515808,
      "learning_rate": 0.00014446075220660832,
      "loss": 3.8508,
      "step": 246620
    },
    {
      "epoch": 0.5138125,
      "grad_norm": 0.8020980954170227,
      "learning_rate": 0.00014445090038857892,
      "loss": 3.6648,
      "step": 246630
    },
    {
      "epoch": 0.5138333333333334,
      "grad_norm": 0.7689531445503235,
      "learning_rate": 0.0001444410485945194,
      "loss": 3.8604,
      "step": 246640
    },
    {
      "epoch": 0.5138541666666666,
      "grad_norm": 0.8124179244041443,
      "learning_rate": 0.00014443119682447242,
      "loss": 3.843,
      "step": 246650
    },
    {
      "epoch": 0.513875,
      "grad_norm": 0.9450469017028809,
      "learning_rate": 0.00014442134507848046,
      "loss": 3.8391,
      "step": 246660
    },
    {
      "epoch": 0.5138958333333333,
      "grad_norm": 0.7971348166465759,
      "learning_rate": 0.00014441149335658602,
      "loss": 3.8475,
      "step": 246670
    },
    {
      "epoch": 0.5139166666666667,
      "grad_norm": 0.7861831784248352,
      "learning_rate": 0.00014440164165883173,
      "loss": 3.7963,
      "step": 246680
    },
    {
      "epoch": 0.5139375,
      "grad_norm": 0.9390507340431213,
      "learning_rate": 0.00014439178998526018,
      "loss": 3.7768,
      "step": 246690
    },
    {
      "epoch": 0.5139583333333333,
      "grad_norm": 0.8892690539360046,
      "learning_rate": 0.0001443819383359138,
      "loss": 3.8216,
      "step": 246700
    },
    {
      "epoch": 0.5139791666666667,
      "grad_norm": 0.8323017954826355,
      "learning_rate": 0.0001443720867108353,
      "loss": 3.7147,
      "step": 246710
    },
    {
      "epoch": 0.514,
      "grad_norm": 0.8335552215576172,
      "learning_rate": 0.00014436223511006714,
      "loss": 3.8405,
      "step": 246720
    },
    {
      "epoch": 0.5140208333333334,
      "grad_norm": 0.8273079991340637,
      "learning_rate": 0.00014435238353365185,
      "loss": 3.7632,
      "step": 246730
    },
    {
      "epoch": 0.5140416666666666,
      "grad_norm": 0.7216815948486328,
      "learning_rate": 0.00014434253198163205,
      "loss": 3.8038,
      "step": 246740
    },
    {
      "epoch": 0.5140625,
      "grad_norm": 0.742827832698822,
      "learning_rate": 0.0001443326804540503,
      "loss": 3.6641,
      "step": 246750
    },
    {
      "epoch": 0.5140833333333333,
      "grad_norm": 0.7652456760406494,
      "learning_rate": 0.00014432282895094915,
      "loss": 3.7219,
      "step": 246760
    },
    {
      "epoch": 0.5141041666666667,
      "grad_norm": 0.719261884689331,
      "learning_rate": 0.00014431297747237107,
      "loss": 3.9449,
      "step": 246770
    },
    {
      "epoch": 0.514125,
      "grad_norm": 0.7429798245429993,
      "learning_rate": 0.00014430312601835868,
      "loss": 3.8501,
      "step": 246780
    },
    {
      "epoch": 0.5141458333333333,
      "grad_norm": 0.8786742687225342,
      "learning_rate": 0.00014429327458895458,
      "loss": 3.8969,
      "step": 246790
    },
    {
      "epoch": 0.5141666666666667,
      "grad_norm": 0.8438383936882019,
      "learning_rate": 0.0001442834231842012,
      "loss": 3.779,
      "step": 246800
    },
    {
      "epoch": 0.5141875,
      "grad_norm": 0.7596414685249329,
      "learning_rate": 0.00014427357180414122,
      "loss": 3.7755,
      "step": 246810
    },
    {
      "epoch": 0.5142083333333334,
      "grad_norm": 0.8965892195701599,
      "learning_rate": 0.00014426372044881717,
      "loss": 3.7311,
      "step": 246820
    },
    {
      "epoch": 0.5142291666666666,
      "grad_norm": 0.8773372769355774,
      "learning_rate": 0.0001442538691182715,
      "loss": 3.6894,
      "step": 246830
    },
    {
      "epoch": 0.51425,
      "grad_norm": 0.8162902593612671,
      "learning_rate": 0.0001442440178125469,
      "loss": 3.62,
      "step": 246840
    },
    {
      "epoch": 0.5142708333333333,
      "grad_norm": 0.9518380761146545,
      "learning_rate": 0.00014423416653168585,
      "loss": 3.7236,
      "step": 246850
    },
    {
      "epoch": 0.5142916666666667,
      "grad_norm": 1.0757917165756226,
      "learning_rate": 0.00014422431527573088,
      "loss": 3.8491,
      "step": 246860
    },
    {
      "epoch": 0.5143125,
      "grad_norm": 0.8528762459754944,
      "learning_rate": 0.00014421446404472461,
      "loss": 3.6519,
      "step": 246870
    },
    {
      "epoch": 0.5143333333333333,
      "grad_norm": 0.8078045845031738,
      "learning_rate": 0.00014420461283870962,
      "loss": 3.9407,
      "step": 246880
    },
    {
      "epoch": 0.5143541666666667,
      "grad_norm": 0.911884605884552,
      "learning_rate": 0.00014419476165772834,
      "loss": 3.7353,
      "step": 246890
    },
    {
      "epoch": 0.514375,
      "grad_norm": 0.8438515663146973,
      "learning_rate": 0.00014418491050182343,
      "loss": 3.8215,
      "step": 246900
    },
    {
      "epoch": 0.5143958333333334,
      "grad_norm": 0.8234220743179321,
      "learning_rate": 0.00014417505937103738,
      "loss": 3.8231,
      "step": 246910
    },
    {
      "epoch": 0.5144166666666666,
      "grad_norm": 0.8021177053451538,
      "learning_rate": 0.00014416520826541273,
      "loss": 3.6686,
      "step": 246920
    },
    {
      "epoch": 0.5144375,
      "grad_norm": 0.8436707854270935,
      "learning_rate": 0.00014415535718499215,
      "loss": 3.7402,
      "step": 246930
    },
    {
      "epoch": 0.5144583333333334,
      "grad_norm": 0.7344832420349121,
      "learning_rate": 0.00014414550612981808,
      "loss": 3.8115,
      "step": 246940
    },
    {
      "epoch": 0.5144791666666667,
      "grad_norm": 0.9145622253417969,
      "learning_rate": 0.00014413565509993306,
      "loss": 3.7866,
      "step": 246950
    },
    {
      "epoch": 0.5145,
      "grad_norm": 0.7697086930274963,
      "learning_rate": 0.00014412580409537976,
      "loss": 3.9755,
      "step": 246960
    },
    {
      "epoch": 0.5145208333333333,
      "grad_norm": 0.995309591293335,
      "learning_rate": 0.00014411595311620065,
      "loss": 3.7336,
      "step": 246970
    },
    {
      "epoch": 0.5145416666666667,
      "grad_norm": 0.7651583552360535,
      "learning_rate": 0.00014410610216243822,
      "loss": 3.8653,
      "step": 246980
    },
    {
      "epoch": 0.5145625,
      "grad_norm": 0.9014903903007507,
      "learning_rate": 0.00014409625123413522,
      "loss": 3.6899,
      "step": 246990
    },
    {
      "epoch": 0.5145833333333333,
      "grad_norm": 0.7430031895637512,
      "learning_rate": 0.000144086400331334,
      "loss": 3.8853,
      "step": 247000
    },
    {
      "epoch": 0.5145833333333333,
      "eval_loss": 4.1277618408203125,
      "eval_runtime": 9.2956,
      "eval_samples_per_second": 1.076,
      "eval_steps_per_second": 0.323,
      "step": 247000
    },
    {
      "epoch": 0.5146041666666666,
      "grad_norm": 0.9261419177055359,
      "learning_rate": 0.00014407654945407716,
      "loss": 3.75,
      "step": 247010
    },
    {
      "epoch": 0.514625,
      "grad_norm": 0.7772529721260071,
      "learning_rate": 0.00014406669860240735,
      "loss": 3.7729,
      "step": 247020
    },
    {
      "epoch": 0.5146458333333334,
      "grad_norm": 0.7211796641349792,
      "learning_rate": 0.00014405684777636706,
      "loss": 3.7173,
      "step": 247030
    },
    {
      "epoch": 0.5146666666666667,
      "grad_norm": 0.7637787461280823,
      "learning_rate": 0.0001440469969759988,
      "loss": 3.6552,
      "step": 247040
    },
    {
      "epoch": 0.5146875,
      "grad_norm": 0.8882363438606262,
      "learning_rate": 0.00014403714620134513,
      "loss": 3.7859,
      "step": 247050
    },
    {
      "epoch": 0.5147083333333333,
      "grad_norm": 0.9005510807037354,
      "learning_rate": 0.0001440272954524487,
      "loss": 3.756,
      "step": 247060
    },
    {
      "epoch": 0.5147291666666667,
      "grad_norm": 1.2356390953063965,
      "learning_rate": 0.00014401744472935192,
      "loss": 3.7995,
      "step": 247070
    },
    {
      "epoch": 0.51475,
      "grad_norm": 0.7721881866455078,
      "learning_rate": 0.00014400759403209742,
      "loss": 3.8137,
      "step": 247080
    },
    {
      "epoch": 0.5147708333333333,
      "grad_norm": 0.940966010093689,
      "learning_rate": 0.00014399774336072777,
      "loss": 3.7133,
      "step": 247090
    },
    {
      "epoch": 0.5147916666666666,
      "grad_norm": 0.8280051350593567,
      "learning_rate": 0.0001439878927152855,
      "loss": 3.6909,
      "step": 247100
    },
    {
      "epoch": 0.5148125,
      "grad_norm": 0.7803313136100769,
      "learning_rate": 0.0001439780420958131,
      "loss": 3.8417,
      "step": 247110
    },
    {
      "epoch": 0.5148333333333334,
      "grad_norm": 0.7341164946556091,
      "learning_rate": 0.00014396819150235324,
      "loss": 3.8521,
      "step": 247120
    },
    {
      "epoch": 0.5148541666666666,
      "grad_norm": 0.9180440306663513,
      "learning_rate": 0.00014395834093494837,
      "loss": 3.6697,
      "step": 247130
    },
    {
      "epoch": 0.514875,
      "grad_norm": 0.8350144624710083,
      "learning_rate": 0.00014394849039364103,
      "loss": 3.7044,
      "step": 247140
    },
    {
      "epoch": 0.5148958333333333,
      "grad_norm": 0.7937695384025574,
      "learning_rate": 0.00014393863987847391,
      "loss": 3.6846,
      "step": 247150
    },
    {
      "epoch": 0.5149166666666667,
      "grad_norm": 0.8191213011741638,
      "learning_rate": 0.00014392878938948944,
      "loss": 3.7158,
      "step": 247160
    },
    {
      "epoch": 0.5149375,
      "grad_norm": 0.8427954316139221,
      "learning_rate": 0.00014391893892673016,
      "loss": 3.6708,
      "step": 247170
    },
    {
      "epoch": 0.5149583333333333,
      "grad_norm": 0.7596654891967773,
      "learning_rate": 0.00014390908849023866,
      "loss": 3.9001,
      "step": 247180
    },
    {
      "epoch": 0.5149791666666667,
      "grad_norm": 0.9365791082382202,
      "learning_rate": 0.00014389923808005755,
      "loss": 3.7416,
      "step": 247190
    },
    {
      "epoch": 0.515,
      "grad_norm": 0.7237818837165833,
      "learning_rate": 0.00014388938769622922,
      "loss": 3.624,
      "step": 247200
    },
    {
      "epoch": 0.5150208333333334,
      "grad_norm": 0.8826139569282532,
      "learning_rate": 0.0001438795373387964,
      "loss": 3.7432,
      "step": 247210
    },
    {
      "epoch": 0.5150416666666666,
      "grad_norm": 0.8339496850967407,
      "learning_rate": 0.00014386968700780153,
      "loss": 3.8824,
      "step": 247220
    },
    {
      "epoch": 0.5150625,
      "grad_norm": 1.0747325420379639,
      "learning_rate": 0.00014385983670328715,
      "loss": 3.7748,
      "step": 247230
    },
    {
      "epoch": 0.5150833333333333,
      "grad_norm": 0.9247932434082031,
      "learning_rate": 0.00014384998642529587,
      "loss": 3.7907,
      "step": 247240
    },
    {
      "epoch": 0.5151041666666667,
      "grad_norm": 0.8357191681861877,
      "learning_rate": 0.00014384013617387025,
      "loss": 3.7848,
      "step": 247250
    },
    {
      "epoch": 0.515125,
      "grad_norm": 0.7934699058532715,
      "learning_rate": 0.00014383028594905275,
      "loss": 3.6448,
      "step": 247260
    },
    {
      "epoch": 0.5151458333333333,
      "grad_norm": 0.7720320820808411,
      "learning_rate": 0.00014382043575088602,
      "loss": 3.7685,
      "step": 247270
    },
    {
      "epoch": 0.5151666666666667,
      "grad_norm": 0.8062111735343933,
      "learning_rate": 0.0001438105855794125,
      "loss": 3.8309,
      "step": 247280
    },
    {
      "epoch": 0.5151875,
      "grad_norm": 0.9893053770065308,
      "learning_rate": 0.0001438007354346748,
      "loss": 3.67,
      "step": 247290
    },
    {
      "epoch": 0.5152083333333334,
      "grad_norm": 0.8093747496604919,
      "learning_rate": 0.00014379088531671556,
      "loss": 3.7846,
      "step": 247300
    },
    {
      "epoch": 0.5152291666666666,
      "grad_norm": 1.0017329454421997,
      "learning_rate": 0.00014378103522557717,
      "loss": 3.7304,
      "step": 247310
    },
    {
      "epoch": 0.51525,
      "grad_norm": 0.8031862378120422,
      "learning_rate": 0.00014377118516130223,
      "loss": 3.8203,
      "step": 247320
    },
    {
      "epoch": 0.5152708333333333,
      "grad_norm": 0.862612247467041,
      "learning_rate": 0.00014376133512393336,
      "loss": 3.764,
      "step": 247330
    },
    {
      "epoch": 0.5152916666666667,
      "grad_norm": 0.8722517490386963,
      "learning_rate": 0.000143751485113513,
      "loss": 3.7823,
      "step": 247340
    },
    {
      "epoch": 0.5153125,
      "grad_norm": 0.7982774972915649,
      "learning_rate": 0.00014374163513008383,
      "loss": 3.7261,
      "step": 247350
    },
    {
      "epoch": 0.5153333333333333,
      "grad_norm": 0.9187830090522766,
      "learning_rate": 0.00014373178517368824,
      "loss": 3.7337,
      "step": 247360
    },
    {
      "epoch": 0.5153541666666667,
      "grad_norm": 0.7331265211105347,
      "learning_rate": 0.00014372193524436888,
      "loss": 3.8142,
      "step": 247370
    },
    {
      "epoch": 0.515375,
      "grad_norm": 0.8044607639312744,
      "learning_rate": 0.0001437120853421683,
      "loss": 3.6505,
      "step": 247380
    },
    {
      "epoch": 0.5153958333333334,
      "grad_norm": 0.8376947641372681,
      "learning_rate": 0.00014370223546712898,
      "loss": 3.6695,
      "step": 247390
    },
    {
      "epoch": 0.5154166666666666,
      "grad_norm": 0.7613769769668579,
      "learning_rate": 0.00014369238561929356,
      "loss": 3.7716,
      "step": 247400
    },
    {
      "epoch": 0.5154375,
      "grad_norm": 0.8367940783500671,
      "learning_rate": 0.00014368253579870451,
      "loss": 3.7885,
      "step": 247410
    },
    {
      "epoch": 0.5154583333333334,
      "grad_norm": 0.75226891040802,
      "learning_rate": 0.00014367268600540435,
      "loss": 3.7232,
      "step": 247420
    },
    {
      "epoch": 0.5154791666666667,
      "grad_norm": 0.8876951336860657,
      "learning_rate": 0.00014366283623943576,
      "loss": 3.7641,
      "step": 247430
    },
    {
      "epoch": 0.5155,
      "grad_norm": 1.0630970001220703,
      "learning_rate": 0.0001436529865008412,
      "loss": 3.7043,
      "step": 247440
    },
    {
      "epoch": 0.5155208333333333,
      "grad_norm": 0.7104017734527588,
      "learning_rate": 0.00014364313678966317,
      "loss": 3.8901,
      "step": 247450
    },
    {
      "epoch": 0.5155416666666667,
      "grad_norm": 0.7093021869659424,
      "learning_rate": 0.00014363328710594432,
      "loss": 3.793,
      "step": 247460
    },
    {
      "epoch": 0.5155625,
      "grad_norm": 0.8302869200706482,
      "learning_rate": 0.00014362343744972716,
      "loss": 3.6608,
      "step": 247470
    },
    {
      "epoch": 0.5155833333333333,
      "grad_norm": 0.7787158489227295,
      "learning_rate": 0.00014361358782105416,
      "loss": 3.6378,
      "step": 247480
    },
    {
      "epoch": 0.5156041666666666,
      "grad_norm": 0.8719804883003235,
      "learning_rate": 0.00014360373821996803,
      "loss": 3.9829,
      "step": 247490
    },
    {
      "epoch": 0.515625,
      "grad_norm": 1.0730376243591309,
      "learning_rate": 0.00014359388864651116,
      "loss": 3.6377,
      "step": 247500
    },
    {
      "epoch": 0.5156458333333334,
      "grad_norm": 0.8187916874885559,
      "learning_rate": 0.00014358403910072612,
      "loss": 3.559,
      "step": 247510
    },
    {
      "epoch": 0.5156666666666667,
      "grad_norm": 0.7987610697746277,
      "learning_rate": 0.00014357418958265555,
      "loss": 3.9142,
      "step": 247520
    },
    {
      "epoch": 0.5156875,
      "grad_norm": 0.8898966908454895,
      "learning_rate": 0.00014356434009234198,
      "loss": 3.6754,
      "step": 247530
    },
    {
      "epoch": 0.5157083333333333,
      "grad_norm": 0.8887614011764526,
      "learning_rate": 0.00014355449062982784,
      "loss": 3.777,
      "step": 247540
    },
    {
      "epoch": 0.5157291666666667,
      "grad_norm": 0.8408103585243225,
      "learning_rate": 0.00014354464119515573,
      "loss": 3.8937,
      "step": 247550
    },
    {
      "epoch": 0.51575,
      "grad_norm": 0.8826809525489807,
      "learning_rate": 0.0001435347917883683,
      "loss": 3.5427,
      "step": 247560
    },
    {
      "epoch": 0.5157708333333333,
      "grad_norm": 0.8179039359092712,
      "learning_rate": 0.00014352494240950792,
      "loss": 3.8047,
      "step": 247570
    },
    {
      "epoch": 0.5157916666666666,
      "grad_norm": 0.8645610213279724,
      "learning_rate": 0.00014351509305861727,
      "loss": 3.8434,
      "step": 247580
    },
    {
      "epoch": 0.5158125,
      "grad_norm": 0.8532505631446838,
      "learning_rate": 0.00014350524373573888,
      "loss": 3.886,
      "step": 247590
    },
    {
      "epoch": 0.5158333333333334,
      "grad_norm": 0.8174729943275452,
      "learning_rate": 0.0001434953944409152,
      "loss": 3.9133,
      "step": 247600
    },
    {
      "epoch": 0.5158541666666666,
      "grad_norm": 0.7315309643745422,
      "learning_rate": 0.00014348554517418886,
      "loss": 3.5895,
      "step": 247610
    },
    {
      "epoch": 0.515875,
      "grad_norm": 0.9262413382530212,
      "learning_rate": 0.00014347569593560244,
      "loss": 3.8183,
      "step": 247620
    },
    {
      "epoch": 0.5158958333333333,
      "grad_norm": 0.9177635312080383,
      "learning_rate": 0.0001434658467251984,
      "loss": 3.7685,
      "step": 247630
    },
    {
      "epoch": 0.5159166666666667,
      "grad_norm": 0.7465083599090576,
      "learning_rate": 0.00014345599754301926,
      "loss": 3.744,
      "step": 247640
    },
    {
      "epoch": 0.5159375,
      "grad_norm": 0.8170121908187866,
      "learning_rate": 0.0001434461483891077,
      "loss": 3.8278,
      "step": 247650
    },
    {
      "epoch": 0.5159583333333333,
      "grad_norm": 0.7378408312797546,
      "learning_rate": 0.0001434362992635062,
      "loss": 3.7379,
      "step": 247660
    },
    {
      "epoch": 0.5159791666666667,
      "grad_norm": 0.9728500247001648,
      "learning_rate": 0.00014342645016625718,
      "loss": 3.8691,
      "step": 247670
    },
    {
      "epoch": 0.516,
      "grad_norm": 0.8231463432312012,
      "learning_rate": 0.00014341660109740338,
      "loss": 3.8463,
      "step": 247680
    },
    {
      "epoch": 0.5160208333333334,
      "grad_norm": 0.8022947311401367,
      "learning_rate": 0.00014340675205698724,
      "loss": 3.6579,
      "step": 247690
    },
    {
      "epoch": 0.5160416666666666,
      "grad_norm": 0.9044018387794495,
      "learning_rate": 0.0001433969030450513,
      "loss": 3.7747,
      "step": 247700
    },
    {
      "epoch": 0.5160625,
      "grad_norm": 0.8596280217170715,
      "learning_rate": 0.00014338705406163814,
      "loss": 3.811,
      "step": 247710
    },
    {
      "epoch": 0.5160833333333333,
      "grad_norm": 0.8278964161872864,
      "learning_rate": 0.0001433772051067903,
      "loss": 3.7329,
      "step": 247720
    },
    {
      "epoch": 0.5161041666666667,
      "grad_norm": 0.7637706995010376,
      "learning_rate": 0.0001433673561805503,
      "loss": 3.814,
      "step": 247730
    },
    {
      "epoch": 0.516125,
      "grad_norm": 0.8433257937431335,
      "learning_rate": 0.00014335750728296066,
      "loss": 3.7626,
      "step": 247740
    },
    {
      "epoch": 0.5161458333333333,
      "grad_norm": 0.7623046636581421,
      "learning_rate": 0.00014334765841406404,
      "loss": 3.7037,
      "step": 247750
    },
    {
      "epoch": 0.5161666666666667,
      "grad_norm": 0.7935387492179871,
      "learning_rate": 0.00014333780957390284,
      "loss": 3.8667,
      "step": 247760
    },
    {
      "epoch": 0.5161875,
      "grad_norm": 0.7549827694892883,
      "learning_rate": 0.0001433279607625197,
      "loss": 3.6754,
      "step": 247770
    },
    {
      "epoch": 0.5162083333333334,
      "grad_norm": 0.7080141305923462,
      "learning_rate": 0.00014331811197995713,
      "loss": 3.7085,
      "step": 247780
    },
    {
      "epoch": 0.5162291666666666,
      "grad_norm": 0.8066194653511047,
      "learning_rate": 0.0001433082632262576,
      "loss": 3.6608,
      "step": 247790
    },
    {
      "epoch": 0.51625,
      "grad_norm": 0.767734706401825,
      "learning_rate": 0.00014329841450146381,
      "loss": 3.836,
      "step": 247800
    },
    {
      "epoch": 0.5162708333333333,
      "grad_norm": 0.9003199934959412,
      "learning_rate": 0.0001432885658056182,
      "loss": 3.7038,
      "step": 247810
    },
    {
      "epoch": 0.5162916666666667,
      "grad_norm": 0.7827758193016052,
      "learning_rate": 0.00014327871713876327,
      "loss": 3.7072,
      "step": 247820
    },
    {
      "epoch": 0.5163125,
      "grad_norm": 0.7715939283370972,
      "learning_rate": 0.0001432688685009417,
      "loss": 3.7682,
      "step": 247830
    },
    {
      "epoch": 0.5163333333333333,
      "grad_norm": 0.7822446227073669,
      "learning_rate": 0.0001432590198921959,
      "loss": 3.6337,
      "step": 247840
    },
    {
      "epoch": 0.5163541666666667,
      "grad_norm": 0.9505325555801392,
      "learning_rate": 0.00014324917131256846,
      "loss": 3.7962,
      "step": 247850
    },
    {
      "epoch": 0.516375,
      "grad_norm": 1.0224112272262573,
      "learning_rate": 0.00014323932276210199,
      "loss": 3.7801,
      "step": 247860
    },
    {
      "epoch": 0.5163958333333334,
      "grad_norm": 0.736940860748291,
      "learning_rate": 0.00014322947424083893,
      "loss": 3.7424,
      "step": 247870
    },
    {
      "epoch": 0.5164166666666666,
      "grad_norm": 0.7851532101631165,
      "learning_rate": 0.00014321962574882183,
      "loss": 3.8929,
      "step": 247880
    },
    {
      "epoch": 0.5164375,
      "grad_norm": 0.8015797734260559,
      "learning_rate": 0.0001432097772860933,
      "loss": 3.8262,
      "step": 247890
    },
    {
      "epoch": 0.5164583333333334,
      "grad_norm": 0.9231428503990173,
      "learning_rate": 0.0001431999288526959,
      "loss": 3.6737,
      "step": 247900
    },
    {
      "epoch": 0.5164791666666667,
      "grad_norm": 0.80839604139328,
      "learning_rate": 0.00014319008044867202,
      "loss": 3.8434,
      "step": 247910
    },
    {
      "epoch": 0.5165,
      "grad_norm": 1.1164644956588745,
      "learning_rate": 0.00014318023207406433,
      "loss": 3.8301,
      "step": 247920
    },
    {
      "epoch": 0.5165208333333333,
      "grad_norm": 0.989154577255249,
      "learning_rate": 0.00014317038372891537,
      "loss": 3.7611,
      "step": 247930
    },
    {
      "epoch": 0.5165416666666667,
      "grad_norm": 0.7980114817619324,
      "learning_rate": 0.00014316053541326763,
      "loss": 3.8598,
      "step": 247940
    },
    {
      "epoch": 0.5165625,
      "grad_norm": 0.861836850643158,
      "learning_rate": 0.0001431506871271636,
      "loss": 3.9368,
      "step": 247950
    },
    {
      "epoch": 0.5165833333333333,
      "grad_norm": 0.8385128974914551,
      "learning_rate": 0.000143140838870646,
      "loss": 3.6579,
      "step": 247960
    },
    {
      "epoch": 0.5166041666666666,
      "grad_norm": 0.8831626176834106,
      "learning_rate": 0.0001431309906437572,
      "loss": 3.8096,
      "step": 247970
    },
    {
      "epoch": 0.516625,
      "grad_norm": 0.7442091703414917,
      "learning_rate": 0.0001431211424465398,
      "loss": 3.7143,
      "step": 247980
    },
    {
      "epoch": 0.5166458333333334,
      "grad_norm": 0.8501900434494019,
      "learning_rate": 0.00014311129427903638,
      "loss": 3.8521,
      "step": 247990
    },
    {
      "epoch": 0.5166666666666667,
      "grad_norm": 0.9463357329368591,
      "learning_rate": 0.0001431014461412894,
      "loss": 3.9094,
      "step": 248000
    },
    {
      "epoch": 0.5166666666666667,
      "eval_loss": 4.135570049285889,
      "eval_runtime": 9.0727,
      "eval_samples_per_second": 1.102,
      "eval_steps_per_second": 0.331,
      "step": 248000
    },
    {
      "epoch": 0.5166875,
      "grad_norm": 0.8546964526176453,
      "learning_rate": 0.00014309159803334144,
      "loss": 3.8568,
      "step": 248010
    },
    {
      "epoch": 0.5167083333333333,
      "grad_norm": 0.9115362167358398,
      "learning_rate": 0.00014308174995523507,
      "loss": 3.8301,
      "step": 248020
    },
    {
      "epoch": 0.5167291666666667,
      "grad_norm": 0.8518885374069214,
      "learning_rate": 0.00014307190190701285,
      "loss": 3.7981,
      "step": 248030
    },
    {
      "epoch": 0.51675,
      "grad_norm": 0.9001573920249939,
      "learning_rate": 0.00014306205388871717,
      "loss": 3.7792,
      "step": 248040
    },
    {
      "epoch": 0.5167708333333333,
      "grad_norm": 0.8333665132522583,
      "learning_rate": 0.00014305220590039072,
      "loss": 3.7766,
      "step": 248050
    },
    {
      "epoch": 0.5167916666666666,
      "grad_norm": 0.7924790382385254,
      "learning_rate": 0.000143042357942076,
      "loss": 3.7299,
      "step": 248060
    },
    {
      "epoch": 0.5168125,
      "grad_norm": 0.7421283721923828,
      "learning_rate": 0.0001430325100138155,
      "loss": 3.7413,
      "step": 248070
    },
    {
      "epoch": 0.5168333333333334,
      "grad_norm": 0.7970137596130371,
      "learning_rate": 0.00014302266211565183,
      "loss": 3.6788,
      "step": 248080
    },
    {
      "epoch": 0.5168541666666666,
      "grad_norm": 0.8656281232833862,
      "learning_rate": 0.00014301281424762753,
      "loss": 3.8636,
      "step": 248090
    },
    {
      "epoch": 0.516875,
      "grad_norm": 0.860762894153595,
      "learning_rate": 0.00014300296640978503,
      "loss": 3.7384,
      "step": 248100
    },
    {
      "epoch": 0.5168958333333333,
      "grad_norm": 0.8958392143249512,
      "learning_rate": 0.000142993118602167,
      "loss": 3.6177,
      "step": 248110
    },
    {
      "epoch": 0.5169166666666667,
      "grad_norm": 0.7820842862129211,
      "learning_rate": 0.00014298327082481593,
      "loss": 3.8216,
      "step": 248120
    },
    {
      "epoch": 0.5169375,
      "grad_norm": 0.9196375608444214,
      "learning_rate": 0.00014297342307777427,
      "loss": 3.8133,
      "step": 248130
    },
    {
      "epoch": 0.5169583333333333,
      "grad_norm": 0.890527069568634,
      "learning_rate": 0.0001429635753610847,
      "loss": 3.7999,
      "step": 248140
    },
    {
      "epoch": 0.5169791666666667,
      "grad_norm": 0.8274630904197693,
      "learning_rate": 0.00014295372767478975,
      "loss": 3.8493,
      "step": 248150
    },
    {
      "epoch": 0.517,
      "grad_norm": 0.9640761017799377,
      "learning_rate": 0.0001429438800189318,
      "loss": 3.7673,
      "step": 248160
    },
    {
      "epoch": 0.5170208333333334,
      "grad_norm": 0.8046404719352722,
      "learning_rate": 0.0001429340323935536,
      "loss": 3.7991,
      "step": 248170
    },
    {
      "epoch": 0.5170416666666666,
      "grad_norm": 0.9328662157058716,
      "learning_rate": 0.00014292418479869753,
      "loss": 3.739,
      "step": 248180
    },
    {
      "epoch": 0.5170625,
      "grad_norm": 1.0316318273544312,
      "learning_rate": 0.00014291433723440615,
      "loss": 3.7629,
      "step": 248190
    },
    {
      "epoch": 0.5170833333333333,
      "grad_norm": 0.7545934319496155,
      "learning_rate": 0.0001429044897007221,
      "loss": 3.6635,
      "step": 248200
    },
    {
      "epoch": 0.5171041666666667,
      "grad_norm": 0.8247144222259521,
      "learning_rate": 0.00014289464219768781,
      "loss": 3.7461,
      "step": 248210
    },
    {
      "epoch": 0.517125,
      "grad_norm": 0.8488657474517822,
      "learning_rate": 0.00014288479472534588,
      "loss": 3.8521,
      "step": 248220
    },
    {
      "epoch": 0.5171458333333333,
      "grad_norm": 0.9736127257347107,
      "learning_rate": 0.00014287494728373878,
      "loss": 3.6831,
      "step": 248230
    },
    {
      "epoch": 0.5171666666666667,
      "grad_norm": 0.8680254220962524,
      "learning_rate": 0.0001428650998729091,
      "loss": 3.8289,
      "step": 248240
    },
    {
      "epoch": 0.5171875,
      "grad_norm": 0.8189111351966858,
      "learning_rate": 0.0001428552524928994,
      "loss": 3.8001,
      "step": 248250
    },
    {
      "epoch": 0.5172083333333334,
      "grad_norm": 0.7828317284584045,
      "learning_rate": 0.0001428454051437521,
      "loss": 3.7362,
      "step": 248260
    },
    {
      "epoch": 0.5172291666666666,
      "grad_norm": 0.7704485058784485,
      "learning_rate": 0.00014283555782550992,
      "loss": 3.6732,
      "step": 248270
    },
    {
      "epoch": 0.51725,
      "grad_norm": 0.767113447189331,
      "learning_rate": 0.00014282571053821522,
      "loss": 3.8604,
      "step": 248280
    },
    {
      "epoch": 0.5172708333333333,
      "grad_norm": 0.7566778659820557,
      "learning_rate": 0.0001428158632819106,
      "loss": 3.8407,
      "step": 248290
    },
    {
      "epoch": 0.5172916666666667,
      "grad_norm": 0.8289023637771606,
      "learning_rate": 0.00014280601605663867,
      "loss": 3.7606,
      "step": 248300
    },
    {
      "epoch": 0.5173125,
      "grad_norm": 0.7850131988525391,
      "learning_rate": 0.00014279616886244187,
      "loss": 3.8034,
      "step": 248310
    },
    {
      "epoch": 0.5173333333333333,
      "grad_norm": 1.1331084966659546,
      "learning_rate": 0.00014278632169936273,
      "loss": 3.743,
      "step": 248320
    },
    {
      "epoch": 0.5173541666666667,
      "grad_norm": 0.7634664177894592,
      "learning_rate": 0.0001427764745674439,
      "loss": 3.662,
      "step": 248330
    },
    {
      "epoch": 0.517375,
      "grad_norm": 0.860423743724823,
      "learning_rate": 0.0001427666274667278,
      "loss": 3.5498,
      "step": 248340
    },
    {
      "epoch": 0.5173958333333334,
      "grad_norm": 0.802424430847168,
      "learning_rate": 0.000142756780397257,
      "loss": 3.8441,
      "step": 248350
    },
    {
      "epoch": 0.5174166666666666,
      "grad_norm": 0.7636672854423523,
      "learning_rate": 0.00014274693335907408,
      "loss": 3.6835,
      "step": 248360
    },
    {
      "epoch": 0.5174375,
      "grad_norm": 0.8118893504142761,
      "learning_rate": 0.0001427370863522215,
      "loss": 3.9364,
      "step": 248370
    },
    {
      "epoch": 0.5174583333333334,
      "grad_norm": 0.8926047086715698,
      "learning_rate": 0.0001427272393767418,
      "loss": 3.5767,
      "step": 248380
    },
    {
      "epoch": 0.5174791666666667,
      "grad_norm": 0.84386146068573,
      "learning_rate": 0.00014271739243267763,
      "loss": 3.8042,
      "step": 248390
    },
    {
      "epoch": 0.5175,
      "grad_norm": 0.8531507849693298,
      "learning_rate": 0.00014270754552007144,
      "loss": 3.8723,
      "step": 248400
    },
    {
      "epoch": 0.5175208333333333,
      "grad_norm": 0.9040916562080383,
      "learning_rate": 0.0001426976986389657,
      "loss": 3.7151,
      "step": 248410
    },
    {
      "epoch": 0.5175416666666667,
      "grad_norm": 0.8415342569351196,
      "learning_rate": 0.00014268785178940305,
      "loss": 3.8043,
      "step": 248420
    },
    {
      "epoch": 0.5175625,
      "grad_norm": 1.0543787479400635,
      "learning_rate": 0.00014267800497142597,
      "loss": 3.8679,
      "step": 248430
    },
    {
      "epoch": 0.5175833333333333,
      "grad_norm": 0.830547571182251,
      "learning_rate": 0.000142668158185077,
      "loss": 3.8127,
      "step": 248440
    },
    {
      "epoch": 0.5176041666666666,
      "grad_norm": 0.9101524949073792,
      "learning_rate": 0.0001426583114303987,
      "loss": 3.8359,
      "step": 248450
    },
    {
      "epoch": 0.517625,
      "grad_norm": 1.1506128311157227,
      "learning_rate": 0.0001426484647074336,
      "loss": 3.7102,
      "step": 248460
    },
    {
      "epoch": 0.5176458333333334,
      "grad_norm": 0.9442183971405029,
      "learning_rate": 0.0001426386180162242,
      "loss": 3.8192,
      "step": 248470
    },
    {
      "epoch": 0.5176666666666667,
      "grad_norm": 0.9355649948120117,
      "learning_rate": 0.00014262877135681306,
      "loss": 3.7421,
      "step": 248480
    },
    {
      "epoch": 0.5176875,
      "grad_norm": 0.7493703961372375,
      "learning_rate": 0.00014261892472924276,
      "loss": 3.7281,
      "step": 248490
    },
    {
      "epoch": 0.5177083333333333,
      "grad_norm": 0.8068996071815491,
      "learning_rate": 0.0001426090781335557,
      "loss": 3.9387,
      "step": 248500
    },
    {
      "epoch": 0.5177291666666667,
      "grad_norm": 0.8024254441261292,
      "learning_rate": 0.00014259923156979454,
      "loss": 3.949,
      "step": 248510
    },
    {
      "epoch": 0.51775,
      "grad_norm": 1.0521918535232544,
      "learning_rate": 0.0001425893850380018,
      "loss": 3.7372,
      "step": 248520
    },
    {
      "epoch": 0.5177708333333333,
      "grad_norm": 0.7923714518547058,
      "learning_rate": 0.00014257953853821998,
      "loss": 3.814,
      "step": 248530
    },
    {
      "epoch": 0.5177916666666667,
      "grad_norm": 0.9381418228149414,
      "learning_rate": 0.00014256969207049157,
      "loss": 3.9513,
      "step": 248540
    },
    {
      "epoch": 0.5178125,
      "grad_norm": 0.7839545011520386,
      "learning_rate": 0.00014255984563485915,
      "loss": 3.715,
      "step": 248550
    },
    {
      "epoch": 0.5178333333333334,
      "grad_norm": 0.858381986618042,
      "learning_rate": 0.0001425499992313653,
      "loss": 3.5549,
      "step": 248560
    },
    {
      "epoch": 0.5178541666666666,
      "grad_norm": 1.0290135145187378,
      "learning_rate": 0.00014254015286005244,
      "loss": 3.7578,
      "step": 248570
    },
    {
      "epoch": 0.517875,
      "grad_norm": 0.7438235282897949,
      "learning_rate": 0.0001425303065209632,
      "loss": 3.8715,
      "step": 248580
    },
    {
      "epoch": 0.5178958333333333,
      "grad_norm": 0.9530099034309387,
      "learning_rate": 0.0001425204602141401,
      "loss": 3.7316,
      "step": 248590
    },
    {
      "epoch": 0.5179166666666667,
      "grad_norm": 0.8178464770317078,
      "learning_rate": 0.0001425106139396256,
      "loss": 3.8913,
      "step": 248600
    },
    {
      "epoch": 0.5179375,
      "grad_norm": 0.9226627945899963,
      "learning_rate": 0.00014250076769746234,
      "loss": 3.9871,
      "step": 248610
    },
    {
      "epoch": 0.5179583333333333,
      "grad_norm": 0.9020012021064758,
      "learning_rate": 0.0001424909214876928,
      "loss": 3.674,
      "step": 248620
    },
    {
      "epoch": 0.5179791666666667,
      "grad_norm": 0.7589451670646667,
      "learning_rate": 0.00014248107531035942,
      "loss": 3.7883,
      "step": 248630
    },
    {
      "epoch": 0.518,
      "grad_norm": 0.8626624345779419,
      "learning_rate": 0.00014247122916550488,
      "loss": 3.7372,
      "step": 248640
    },
    {
      "epoch": 0.5180208333333334,
      "grad_norm": 0.8196842670440674,
      "learning_rate": 0.00014246138305317168,
      "loss": 3.842,
      "step": 248650
    },
    {
      "epoch": 0.5180416666666666,
      "grad_norm": 0.778419017791748,
      "learning_rate": 0.00014245153697340225,
      "loss": 3.7454,
      "step": 248660
    },
    {
      "epoch": 0.5180625,
      "grad_norm": 0.8718961477279663,
      "learning_rate": 0.00014244169092623928,
      "loss": 3.7473,
      "step": 248670
    },
    {
      "epoch": 0.5180833333333333,
      "grad_norm": 0.8329765200614929,
      "learning_rate": 0.00014243184491172516,
      "loss": 3.6518,
      "step": 248680
    },
    {
      "epoch": 0.5181041666666667,
      "grad_norm": 0.9665846228599548,
      "learning_rate": 0.00014242199892990242,
      "loss": 3.7395,
      "step": 248690
    },
    {
      "epoch": 0.518125,
      "grad_norm": 0.7652406096458435,
      "learning_rate": 0.00014241215298081374,
      "loss": 3.8204,
      "step": 248700
    },
    {
      "epoch": 0.5181458333333333,
      "grad_norm": 0.8064294457435608,
      "learning_rate": 0.0001424023070645015,
      "loss": 3.9701,
      "step": 248710
    },
    {
      "epoch": 0.5181666666666667,
      "grad_norm": 0.8481232523918152,
      "learning_rate": 0.00014239246118100826,
      "loss": 3.7753,
      "step": 248720
    },
    {
      "epoch": 0.5181875,
      "grad_norm": 1.0144985914230347,
      "learning_rate": 0.00014238261533037667,
      "loss": 3.7667,
      "step": 248730
    },
    {
      "epoch": 0.5182083333333334,
      "grad_norm": 0.8298901915550232,
      "learning_rate": 0.00014237276951264912,
      "loss": 3.7708,
      "step": 248740
    },
    {
      "epoch": 0.5182291666666666,
      "grad_norm": 1.0350300073623657,
      "learning_rate": 0.00014236292372786814,
      "loss": 3.6687,
      "step": 248750
    },
    {
      "epoch": 0.51825,
      "grad_norm": 0.8527134656906128,
      "learning_rate": 0.00014235307797607637,
      "loss": 3.8377,
      "step": 248760
    },
    {
      "epoch": 0.5182708333333333,
      "grad_norm": 0.7744999527931213,
      "learning_rate": 0.0001423432322573163,
      "loss": 3.8069,
      "step": 248770
    },
    {
      "epoch": 0.5182916666666667,
      "grad_norm": 0.937395453453064,
      "learning_rate": 0.00014233338657163036,
      "loss": 3.7098,
      "step": 248780
    },
    {
      "epoch": 0.5183125,
      "grad_norm": 0.8599097728729248,
      "learning_rate": 0.00014232354091906117,
      "loss": 3.7838,
      "step": 248790
    },
    {
      "epoch": 0.5183333333333333,
      "grad_norm": 0.7222896814346313,
      "learning_rate": 0.0001423136952996513,
      "loss": 3.7944,
      "step": 248800
    },
    {
      "epoch": 0.5183541666666667,
      "grad_norm": 1.3491476774215698,
      "learning_rate": 0.00014230384971344317,
      "loss": 3.7083,
      "step": 248810
    },
    {
      "epoch": 0.518375,
      "grad_norm": 0.6717342138290405,
      "learning_rate": 0.00014229400416047936,
      "loss": 3.7608,
      "step": 248820
    },
    {
      "epoch": 0.5183958333333333,
      "grad_norm": 0.8356012105941772,
      "learning_rate": 0.00014228415864080246,
      "loss": 3.6673,
      "step": 248830
    },
    {
      "epoch": 0.5184166666666666,
      "grad_norm": 0.8057845830917358,
      "learning_rate": 0.0001422743131544549,
      "loss": 3.845,
      "step": 248840
    },
    {
      "epoch": 0.5184375,
      "grad_norm": 0.8828162550926208,
      "learning_rate": 0.0001422644677014792,
      "loss": 3.4718,
      "step": 248850
    },
    {
      "epoch": 0.5184583333333334,
      "grad_norm": 0.8504858016967773,
      "learning_rate": 0.00014225462228191802,
      "loss": 3.7736,
      "step": 248860
    },
    {
      "epoch": 0.5184791666666667,
      "grad_norm": 0.7770277261734009,
      "learning_rate": 0.0001422447768958138,
      "loss": 3.6986,
      "step": 248870
    },
    {
      "epoch": 0.5185,
      "grad_norm": 0.7736349701881409,
      "learning_rate": 0.00014223493154320898,
      "loss": 3.7249,
      "step": 248880
    },
    {
      "epoch": 0.5185208333333333,
      "grad_norm": 0.8528035283088684,
      "learning_rate": 0.0001422250862241463,
      "loss": 3.6512,
      "step": 248890
    },
    {
      "epoch": 0.5185416666666667,
      "grad_norm": 0.8563935160636902,
      "learning_rate": 0.00014221524093866814,
      "loss": 3.708,
      "step": 248900
    },
    {
      "epoch": 0.5185625,
      "grad_norm": 0.8034159541130066,
      "learning_rate": 0.000142205395686817,
      "loss": 3.7899,
      "step": 248910
    },
    {
      "epoch": 0.5185833333333333,
      "grad_norm": 0.8310327529907227,
      "learning_rate": 0.0001421955504686355,
      "loss": 3.7254,
      "step": 248920
    },
    {
      "epoch": 0.5186041666666666,
      "grad_norm": 0.9145247340202332,
      "learning_rate": 0.00014218570528416616,
      "loss": 3.8701,
      "step": 248930
    },
    {
      "epoch": 0.518625,
      "grad_norm": 0.7685010433197021,
      "learning_rate": 0.00014217586013345144,
      "loss": 3.7853,
      "step": 248940
    },
    {
      "epoch": 0.5186458333333334,
      "grad_norm": 0.7111839652061462,
      "learning_rate": 0.0001421660150165339,
      "loss": 3.8372,
      "step": 248950
    },
    {
      "epoch": 0.5186666666666667,
      "grad_norm": 0.7552613019943237,
      "learning_rate": 0.00014215616993345614,
      "loss": 3.6699,
      "step": 248960
    },
    {
      "epoch": 0.5186875,
      "grad_norm": 0.8017448782920837,
      "learning_rate": 0.00014214632488426053,
      "loss": 3.5608,
      "step": 248970
    },
    {
      "epoch": 0.5187083333333333,
      "grad_norm": 0.8712873458862305,
      "learning_rate": 0.00014213647986898974,
      "loss": 3.8474,
      "step": 248980
    },
    {
      "epoch": 0.5187291666666667,
      "grad_norm": 0.8077508807182312,
      "learning_rate": 0.00014212663488768628,
      "loss": 3.6857,
      "step": 248990
    },
    {
      "epoch": 0.51875,
      "grad_norm": 0.793136715888977,
      "learning_rate": 0.00014211678994039255,
      "loss": 3.7408,
      "step": 249000
    },
    {
      "epoch": 0.51875,
      "eval_loss": 4.131202697753906,
      "eval_runtime": 10.122,
      "eval_samples_per_second": 0.988,
      "eval_steps_per_second": 0.296,
      "step": 249000
    },
    {
      "epoch": 0.5187708333333333,
      "grad_norm": 0.7708197236061096,
      "learning_rate": 0.00014210694502715123,
      "loss": 3.8026,
      "step": 249010
    },
    {
      "epoch": 0.5187916666666667,
      "grad_norm": 0.9358322024345398,
      "learning_rate": 0.0001420971001480048,
      "loss": 3.657,
      "step": 249020
    },
    {
      "epoch": 0.5188125,
      "grad_norm": 0.7831798195838928,
      "learning_rate": 0.0001420872553029957,
      "loss": 3.6686,
      "step": 249030
    },
    {
      "epoch": 0.5188333333333334,
      "grad_norm": 0.7483909130096436,
      "learning_rate": 0.0001420774104921666,
      "loss": 3.5908,
      "step": 249040
    },
    {
      "epoch": 0.5188541666666666,
      "grad_norm": 0.7584437727928162,
      "learning_rate": 0.00014206756571555993,
      "loss": 3.6873,
      "step": 249050
    },
    {
      "epoch": 0.518875,
      "grad_norm": 0.7484812140464783,
      "learning_rate": 0.00014205772097321818,
      "loss": 3.7632,
      "step": 249060
    },
    {
      "epoch": 0.5188958333333333,
      "grad_norm": 0.9637764692306519,
      "learning_rate": 0.000142047876265184,
      "loss": 3.8625,
      "step": 249070
    },
    {
      "epoch": 0.5189166666666667,
      "grad_norm": 0.742689847946167,
      "learning_rate": 0.00014203803159149983,
      "loss": 3.7575,
      "step": 249080
    },
    {
      "epoch": 0.5189375,
      "grad_norm": 0.842910647392273,
      "learning_rate": 0.00014202818695220815,
      "loss": 3.6706,
      "step": 249090
    },
    {
      "epoch": 0.5189583333333333,
      "grad_norm": 0.930392324924469,
      "learning_rate": 0.00014201834234735163,
      "loss": 3.4993,
      "step": 249100
    },
    {
      "epoch": 0.5189791666666667,
      "grad_norm": 0.8701453804969788,
      "learning_rate": 0.0001420084977769727,
      "loss": 3.7623,
      "step": 249110
    },
    {
      "epoch": 0.519,
      "grad_norm": 0.7538080215454102,
      "learning_rate": 0.0001419986532411139,
      "loss": 3.8131,
      "step": 249120
    },
    {
      "epoch": 0.5190208333333334,
      "grad_norm": 0.7309146523475647,
      "learning_rate": 0.0001419888087398177,
      "loss": 3.8609,
      "step": 249130
    },
    {
      "epoch": 0.5190416666666666,
      "grad_norm": 0.9251999855041504,
      "learning_rate": 0.00014197896427312672,
      "loss": 3.6401,
      "step": 249140
    },
    {
      "epoch": 0.5190625,
      "grad_norm": 0.9705672860145569,
      "learning_rate": 0.00014196911984108344,
      "loss": 3.8035,
      "step": 249150
    },
    {
      "epoch": 0.5190833333333333,
      "grad_norm": 0.9156191945075989,
      "learning_rate": 0.0001419592754437303,
      "loss": 3.655,
      "step": 249160
    },
    {
      "epoch": 0.5191041666666667,
      "grad_norm": 0.9832049012184143,
      "learning_rate": 0.00014194943108111004,
      "loss": 3.7058,
      "step": 249170
    },
    {
      "epoch": 0.519125,
      "grad_norm": 0.8856136202812195,
      "learning_rate": 0.00014193958675326495,
      "loss": 3.6955,
      "step": 249180
    },
    {
      "epoch": 0.5191458333333333,
      "grad_norm": 0.8881243467330933,
      "learning_rate": 0.00014192974246023766,
      "loss": 3.7888,
      "step": 249190
    },
    {
      "epoch": 0.5191666666666667,
      "grad_norm": 0.8418888449668884,
      "learning_rate": 0.00014191989820207075,
      "loss": 4.04,
      "step": 249200
    },
    {
      "epoch": 0.5191875,
      "grad_norm": 0.7964036464691162,
      "learning_rate": 0.00014191005397880664,
      "loss": 3.9489,
      "step": 249210
    },
    {
      "epoch": 0.5192083333333334,
      "grad_norm": 0.7045766711235046,
      "learning_rate": 0.00014190020979048789,
      "loss": 3.7235,
      "step": 249220
    },
    {
      "epoch": 0.5192291666666666,
      "grad_norm": 0.8527626395225525,
      "learning_rate": 0.00014189036563715707,
      "loss": 4.0031,
      "step": 249230
    },
    {
      "epoch": 0.51925,
      "grad_norm": 0.9067088961601257,
      "learning_rate": 0.00014188052151885663,
      "loss": 3.6454,
      "step": 249240
    },
    {
      "epoch": 0.5192708333333333,
      "grad_norm": 0.7089499831199646,
      "learning_rate": 0.0001418706774356291,
      "loss": 3.7888,
      "step": 249250
    },
    {
      "epoch": 0.5192916666666667,
      "grad_norm": 0.8990445137023926,
      "learning_rate": 0.00014186083338751706,
      "loss": 3.6775,
      "step": 249260
    },
    {
      "epoch": 0.5193125,
      "grad_norm": 0.8714607954025269,
      "learning_rate": 0.00014185098937456302,
      "loss": 3.9356,
      "step": 249270
    },
    {
      "epoch": 0.5193333333333333,
      "grad_norm": 1.0693203210830688,
      "learning_rate": 0.00014184114539680942,
      "loss": 3.8045,
      "step": 249280
    },
    {
      "epoch": 0.5193541666666667,
      "grad_norm": 0.7720548510551453,
      "learning_rate": 0.00014183130145429887,
      "loss": 3.774,
      "step": 249290
    },
    {
      "epoch": 0.519375,
      "grad_norm": 0.9966970086097717,
      "learning_rate": 0.0001418214575470739,
      "loss": 3.702,
      "step": 249300
    },
    {
      "epoch": 0.5193958333333333,
      "grad_norm": 0.9338375926017761,
      "learning_rate": 0.00014181161367517693,
      "loss": 3.7348,
      "step": 249310
    },
    {
      "epoch": 0.5194166666666666,
      "grad_norm": 0.862243115901947,
      "learning_rate": 0.00014180176983865058,
      "loss": 3.5599,
      "step": 249320
    },
    {
      "epoch": 0.5194375,
      "grad_norm": 0.8677080273628235,
      "learning_rate": 0.00014179192603753737,
      "loss": 3.7314,
      "step": 249330
    },
    {
      "epoch": 0.5194583333333334,
      "grad_norm": 0.824337899684906,
      "learning_rate": 0.0001417820822718797,
      "loss": 3.783,
      "step": 249340
    },
    {
      "epoch": 0.5194791666666667,
      "grad_norm": 0.9486144781112671,
      "learning_rate": 0.00014177223854172026,
      "loss": 3.8254,
      "step": 249350
    },
    {
      "epoch": 0.5195,
      "grad_norm": 0.9203928112983704,
      "learning_rate": 0.0001417623948471015,
      "loss": 3.7815,
      "step": 249360
    },
    {
      "epoch": 0.5195208333333333,
      "grad_norm": 0.7788746953010559,
      "learning_rate": 0.00014175255118806587,
      "loss": 3.7384,
      "step": 249370
    },
    {
      "epoch": 0.5195416666666667,
      "grad_norm": 0.7776288390159607,
      "learning_rate": 0.000141742707564656,
      "loss": 3.6804,
      "step": 249380
    },
    {
      "epoch": 0.5195625,
      "grad_norm": 0.8074896931648254,
      "learning_rate": 0.0001417328639769144,
      "loss": 3.7861,
      "step": 249390
    },
    {
      "epoch": 0.5195833333333333,
      "grad_norm": 0.7679909467697144,
      "learning_rate": 0.00014172302042488353,
      "loss": 3.6504,
      "step": 249400
    },
    {
      "epoch": 0.5196041666666666,
      "grad_norm": 0.8953580260276794,
      "learning_rate": 0.0001417131769086059,
      "loss": 3.669,
      "step": 249410
    },
    {
      "epoch": 0.519625,
      "grad_norm": 0.7903693318367004,
      "learning_rate": 0.00014170333342812405,
      "loss": 3.736,
      "step": 249420
    },
    {
      "epoch": 0.5196458333333334,
      "grad_norm": 0.7610639333724976,
      "learning_rate": 0.00014169348998348057,
      "loss": 3.7531,
      "step": 249430
    },
    {
      "epoch": 0.5196666666666667,
      "grad_norm": 0.9433591961860657,
      "learning_rate": 0.0001416836465747179,
      "loss": 3.6443,
      "step": 249440
    },
    {
      "epoch": 0.5196875,
      "grad_norm": 0.9675290584564209,
      "learning_rate": 0.00014167380320187855,
      "loss": 3.76,
      "step": 249450
    },
    {
      "epoch": 0.5197083333333333,
      "grad_norm": 0.7899587154388428,
      "learning_rate": 0.00014166395986500518,
      "loss": 3.8051,
      "step": 249460
    },
    {
      "epoch": 0.5197291666666667,
      "grad_norm": 0.7756842374801636,
      "learning_rate": 0.0001416541165641401,
      "loss": 3.6126,
      "step": 249470
    },
    {
      "epoch": 0.51975,
      "grad_norm": 0.7474532723426819,
      "learning_rate": 0.00014164427329932595,
      "loss": 3.7262,
      "step": 249480
    },
    {
      "epoch": 0.5197708333333333,
      "grad_norm": 0.9036598205566406,
      "learning_rate": 0.0001416344300706053,
      "loss": 3.7405,
      "step": 249490
    },
    {
      "epoch": 0.5197916666666667,
      "grad_norm": 0.8426275849342346,
      "learning_rate": 0.0001416245868780205,
      "loss": 3.8577,
      "step": 249500
    },
    {
      "epoch": 0.5198125,
      "grad_norm": 0.858870267868042,
      "learning_rate": 0.00014161474372161424,
      "loss": 3.9401,
      "step": 249510
    },
    {
      "epoch": 0.5198333333333334,
      "grad_norm": 0.7754029035568237,
      "learning_rate": 0.00014160490060142897,
      "loss": 3.6989,
      "step": 249520
    },
    {
      "epoch": 0.5198541666666666,
      "grad_norm": 0.8919891715049744,
      "learning_rate": 0.00014159505751750714,
      "loss": 3.8161,
      "step": 249530
    },
    {
      "epoch": 0.519875,
      "grad_norm": 0.9217751622200012,
      "learning_rate": 0.00014158521446989143,
      "loss": 3.8371,
      "step": 249540
    },
    {
      "epoch": 0.5198958333333333,
      "grad_norm": 0.8275987505912781,
      "learning_rate": 0.0001415753714586242,
      "loss": 3.8288,
      "step": 249550
    },
    {
      "epoch": 0.5199166666666667,
      "grad_norm": 0.9057407379150391,
      "learning_rate": 0.00014156552848374802,
      "loss": 3.7525,
      "step": 249560
    },
    {
      "epoch": 0.5199375,
      "grad_norm": 0.8513107895851135,
      "learning_rate": 0.00014155568554530547,
      "loss": 3.6016,
      "step": 249570
    },
    {
      "epoch": 0.5199583333333333,
      "grad_norm": 0.8529727458953857,
      "learning_rate": 0.000141545842643339,
      "loss": 3.7975,
      "step": 249580
    },
    {
      "epoch": 0.5199791666666667,
      "grad_norm": 0.8195419907569885,
      "learning_rate": 0.00014153599977789107,
      "loss": 3.8612,
      "step": 249590
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8427889347076416,
      "learning_rate": 0.00014152615694900438,
      "loss": 3.7363,
      "step": 249600
    },
    {
      "epoch": 0.5200208333333334,
      "grad_norm": 0.7944576144218445,
      "learning_rate": 0.00014151631415672129,
      "loss": 3.6381,
      "step": 249610
    },
    {
      "epoch": 0.5200416666666666,
      "grad_norm": 0.7834559679031372,
      "learning_rate": 0.00014150647140108433,
      "loss": 3.8728,
      "step": 249620
    },
    {
      "epoch": 0.5200625,
      "grad_norm": 0.8548688292503357,
      "learning_rate": 0.00014149662868213612,
      "loss": 3.9375,
      "step": 249630
    },
    {
      "epoch": 0.5200833333333333,
      "grad_norm": 0.7658087611198425,
      "learning_rate": 0.0001414867859999191,
      "loss": 3.7492,
      "step": 249640
    },
    {
      "epoch": 0.5201041666666667,
      "grad_norm": 0.9616279006004333,
      "learning_rate": 0.0001414769433544757,
      "loss": 3.6355,
      "step": 249650
    },
    {
      "epoch": 0.520125,
      "grad_norm": 0.8216748833656311,
      "learning_rate": 0.00014146710074584864,
      "loss": 3.7062,
      "step": 249660
    },
    {
      "epoch": 0.5201458333333333,
      "grad_norm": 0.7962676882743835,
      "learning_rate": 0.0001414572581740803,
      "loss": 3.7117,
      "step": 249670
    },
    {
      "epoch": 0.5201666666666667,
      "grad_norm": 0.770124077796936,
      "learning_rate": 0.00014144741563921318,
      "loss": 3.7156,
      "step": 249680
    },
    {
      "epoch": 0.5201875,
      "grad_norm": 0.851270854473114,
      "learning_rate": 0.00014143757314128986,
      "loss": 3.7718,
      "step": 249690
    },
    {
      "epoch": 0.5202083333333334,
      "grad_norm": 0.8912748098373413,
      "learning_rate": 0.00014142773068035288,
      "loss": 3.7026,
      "step": 249700
    },
    {
      "epoch": 0.5202291666666666,
      "grad_norm": 0.8304339647293091,
      "learning_rate": 0.00014141788825644468,
      "loss": 3.636,
      "step": 249710
    },
    {
      "epoch": 0.52025,
      "grad_norm": 0.7778661847114563,
      "learning_rate": 0.00014140804586960777,
      "loss": 3.6718,
      "step": 249720
    },
    {
      "epoch": 0.5202708333333333,
      "grad_norm": 0.9396954774856567,
      "learning_rate": 0.00014139820351988477,
      "loss": 3.8294,
      "step": 249730
    },
    {
      "epoch": 0.5202916666666667,
      "grad_norm": 0.8665547370910645,
      "learning_rate": 0.00014138836120731807,
      "loss": 3.8777,
      "step": 249740
    },
    {
      "epoch": 0.5203125,
      "grad_norm": 0.8089020252227783,
      "learning_rate": 0.00014137851893195023,
      "loss": 3.8376,
      "step": 249750
    },
    {
      "epoch": 0.5203333333333333,
      "grad_norm": 0.790289580821991,
      "learning_rate": 0.00014136867669382384,
      "loss": 3.7921,
      "step": 249760
    },
    {
      "epoch": 0.5203541666666667,
      "grad_norm": 0.8734356760978699,
      "learning_rate": 0.00014135883449298135,
      "loss": 3.8026,
      "step": 249770
    },
    {
      "epoch": 0.520375,
      "grad_norm": 0.8103800415992737,
      "learning_rate": 0.0001413489923294652,
      "loss": 3.7014,
      "step": 249780
    },
    {
      "epoch": 0.5203958333333333,
      "grad_norm": 0.7471631169319153,
      "learning_rate": 0.00014133915020331803,
      "loss": 3.7734,
      "step": 249790
    },
    {
      "epoch": 0.5204166666666666,
      "grad_norm": 0.9339826703071594,
      "learning_rate": 0.0001413293081145823,
      "loss": 3.6128,
      "step": 249800
    },
    {
      "epoch": 0.5204375,
      "grad_norm": 0.9057161808013916,
      "learning_rate": 0.0001413194660633005,
      "loss": 3.8433,
      "step": 249810
    },
    {
      "epoch": 0.5204583333333334,
      "grad_norm": 0.8267706632614136,
      "learning_rate": 0.00014130962404951516,
      "loss": 3.7423,
      "step": 249820
    },
    {
      "epoch": 0.5204791666666667,
      "grad_norm": 0.8559406399726868,
      "learning_rate": 0.0001412997820732689,
      "loss": 3.7863,
      "step": 249830
    },
    {
      "epoch": 0.5205,
      "grad_norm": 0.8888680338859558,
      "learning_rate": 0.00014128994013460402,
      "loss": 3.8436,
      "step": 249840
    },
    {
      "epoch": 0.5205208333333333,
      "grad_norm": 1.038656234741211,
      "learning_rate": 0.00014128009823356319,
      "loss": 3.6246,
      "step": 249850
    },
    {
      "epoch": 0.5205416666666667,
      "grad_norm": 0.8155195713043213,
      "learning_rate": 0.00014127025637018892,
      "loss": 3.7538,
      "step": 249860
    },
    {
      "epoch": 0.5205625,
      "grad_norm": 0.8795583844184875,
      "learning_rate": 0.00014126041454452364,
      "loss": 3.7533,
      "step": 249870
    },
    {
      "epoch": 0.5205833333333333,
      "grad_norm": 0.9773454666137695,
      "learning_rate": 0.00014125057275660993,
      "loss": 3.744,
      "step": 249880
    },
    {
      "epoch": 0.5206041666666666,
      "grad_norm": 0.816460132598877,
      "learning_rate": 0.0001412407310064903,
      "loss": 3.6039,
      "step": 249890
    },
    {
      "epoch": 0.520625,
      "grad_norm": 0.8523879647254944,
      "learning_rate": 0.0001412308892942072,
      "loss": 3.886,
      "step": 249900
    },
    {
      "epoch": 0.5206458333333334,
      "grad_norm": 0.7299126386642456,
      "learning_rate": 0.00014122104761980325,
      "loss": 3.7747,
      "step": 249910
    },
    {
      "epoch": 0.5206666666666667,
      "grad_norm": 0.8916814923286438,
      "learning_rate": 0.00014121120598332087,
      "loss": 3.8625,
      "step": 249920
    },
    {
      "epoch": 0.5206875,
      "grad_norm": 0.7735744118690491,
      "learning_rate": 0.00014120136438480256,
      "loss": 3.7148,
      "step": 249930
    },
    {
      "epoch": 0.5207083333333333,
      "grad_norm": 0.7898155450820923,
      "learning_rate": 0.00014119152282429095,
      "loss": 3.8839,
      "step": 249940
    },
    {
      "epoch": 0.5207291666666667,
      "grad_norm": 0.6762354969978333,
      "learning_rate": 0.00014118168130182842,
      "loss": 3.6952,
      "step": 249950
    },
    {
      "epoch": 0.52075,
      "grad_norm": 0.724168598651886,
      "learning_rate": 0.00014117183981745751,
      "loss": 3.6713,
      "step": 249960
    },
    {
      "epoch": 0.5207708333333333,
      "grad_norm": 1.0010614395141602,
      "learning_rate": 0.00014116199837122084,
      "loss": 3.8626,
      "step": 249970
    },
    {
      "epoch": 0.5207916666666667,
      "grad_norm": 0.8295738697052002,
      "learning_rate": 0.0001411521569631608,
      "loss": 3.6831,
      "step": 249980
    },
    {
      "epoch": 0.5208125,
      "grad_norm": 0.9627982378005981,
      "learning_rate": 0.00014114231559331998,
      "loss": 3.7453,
      "step": 249990
    },
    {
      "epoch": 0.5208333333333334,
      "grad_norm": 0.7551570534706116,
      "learning_rate": 0.00014113247426174075,
      "loss": 3.7387,
      "step": 250000
    },
    {
      "epoch": 0.5208333333333334,
      "eval_loss": 4.135335445404053,
      "eval_runtime": 9.4037,
      "eval_samples_per_second": 1.063,
      "eval_steps_per_second": 0.319,
      "step": 250000
    },
    {
      "epoch": 0.5208541666666666,
      "grad_norm": 0.8169161081314087,
      "learning_rate": 0.0001411226329684658,
      "loss": 3.7283,
      "step": 250010
    },
    {
      "epoch": 0.520875,
      "grad_norm": 0.8115930557250977,
      "learning_rate": 0.00014111279171353757,
      "loss": 3.6756,
      "step": 250020
    },
    {
      "epoch": 0.5208958333333333,
      "grad_norm": 0.8022089600563049,
      "learning_rate": 0.00014110295049699848,
      "loss": 3.8411,
      "step": 250030
    },
    {
      "epoch": 0.5209166666666667,
      "grad_norm": 0.7462332844734192,
      "learning_rate": 0.00014109310931889122,
      "loss": 3.8633,
      "step": 250040
    },
    {
      "epoch": 0.5209375,
      "grad_norm": 0.9804320931434631,
      "learning_rate": 0.00014108326817925817,
      "loss": 3.6953,
      "step": 250050
    },
    {
      "epoch": 0.5209583333333333,
      "grad_norm": 0.8137841820716858,
      "learning_rate": 0.0001410734270781418,
      "loss": 3.702,
      "step": 250060
    },
    {
      "epoch": 0.5209791666666667,
      "grad_norm": 0.8004326820373535,
      "learning_rate": 0.00014106358601558477,
      "loss": 3.6962,
      "step": 250070
    },
    {
      "epoch": 0.521,
      "grad_norm": 1.303216576576233,
      "learning_rate": 0.0001410537449916295,
      "loss": 3.5912,
      "step": 250080
    },
    {
      "epoch": 0.5210208333333334,
      "grad_norm": 1.2251349687576294,
      "learning_rate": 0.00014104390400631846,
      "loss": 3.7024,
      "step": 250090
    },
    {
      "epoch": 0.5210416666666666,
      "grad_norm": 0.7571576833724976,
      "learning_rate": 0.0001410340630596943,
      "loss": 3.76,
      "step": 250100
    },
    {
      "epoch": 0.5210625,
      "grad_norm": 0.7777910232543945,
      "learning_rate": 0.00014102422215179938,
      "loss": 3.7897,
      "step": 250110
    },
    {
      "epoch": 0.5210833333333333,
      "grad_norm": 0.7899466753005981,
      "learning_rate": 0.00014101438128267626,
      "loss": 3.7691,
      "step": 250120
    },
    {
      "epoch": 0.5211041666666667,
      "grad_norm": 1.0470250844955444,
      "learning_rate": 0.0001410045404523675,
      "loss": 3.7305,
      "step": 250130
    },
    {
      "epoch": 0.521125,
      "grad_norm": 0.7880368828773499,
      "learning_rate": 0.00014099469966091557,
      "loss": 3.6785,
      "step": 250140
    },
    {
      "epoch": 0.5211458333333333,
      "grad_norm": 0.8195578455924988,
      "learning_rate": 0.00014098485890836287,
      "loss": 3.7939,
      "step": 250150
    },
    {
      "epoch": 0.5211666666666667,
      "grad_norm": 0.9741660952568054,
      "learning_rate": 0.0001409750181947521,
      "loss": 3.9204,
      "step": 250160
    },
    {
      "epoch": 0.5211875,
      "grad_norm": 1.016322374343872,
      "learning_rate": 0.0001409651775201257,
      "loss": 3.7323,
      "step": 250170
    },
    {
      "epoch": 0.5212083333333334,
      "grad_norm": 0.9905287623405457,
      "learning_rate": 0.0001409553368845261,
      "loss": 3.8533,
      "step": 250180
    },
    {
      "epoch": 0.5212291666666666,
      "grad_norm": 0.7644612789154053,
      "learning_rate": 0.00014094549628799587,
      "loss": 3.7297,
      "step": 250190
    },
    {
      "epoch": 0.52125,
      "grad_norm": 0.9807758927345276,
      "learning_rate": 0.00014093565573057755,
      "loss": 3.7912,
      "step": 250200
    },
    {
      "epoch": 0.5212708333333333,
      "grad_norm": 1.038293480873108,
      "learning_rate": 0.00014092581521231356,
      "loss": 3.6242,
      "step": 250210
    },
    {
      "epoch": 0.5212916666666667,
      "grad_norm": 0.8327858448028564,
      "learning_rate": 0.00014091597473324648,
      "loss": 3.7566,
      "step": 250220
    },
    {
      "epoch": 0.5213125,
      "grad_norm": 0.8969091176986694,
      "learning_rate": 0.0001409061342934188,
      "loss": 3.6138,
      "step": 250230
    },
    {
      "epoch": 0.5213333333333333,
      "grad_norm": 0.7928741574287415,
      "learning_rate": 0.000140896293892873,
      "loss": 3.7132,
      "step": 250240
    },
    {
      "epoch": 0.5213541666666667,
      "grad_norm": 0.8789989948272705,
      "learning_rate": 0.0001408864535316516,
      "loss": 3.9215,
      "step": 250250
    },
    {
      "epoch": 0.521375,
      "grad_norm": 1.0822557210922241,
      "learning_rate": 0.0001408766132097972,
      "loss": 3.7084,
      "step": 250260
    },
    {
      "epoch": 0.5213958333333333,
      "grad_norm": 0.728314220905304,
      "learning_rate": 0.0001408667729273521,
      "loss": 3.6077,
      "step": 250270
    },
    {
      "epoch": 0.5214166666666666,
      "grad_norm": 0.8489962220191956,
      "learning_rate": 0.00014085693268435902,
      "loss": 3.8791,
      "step": 250280
    },
    {
      "epoch": 0.5214375,
      "grad_norm": 0.8126519918441772,
      "learning_rate": 0.00014084709248086033,
      "loss": 3.7461,
      "step": 250290
    },
    {
      "epoch": 0.5214583333333334,
      "grad_norm": 0.8004420399665833,
      "learning_rate": 0.0001408372523168986,
      "loss": 3.8598,
      "step": 250300
    },
    {
      "epoch": 0.5214791666666667,
      "grad_norm": 0.8830101490020752,
      "learning_rate": 0.00014082741219251626,
      "loss": 3.8962,
      "step": 250310
    },
    {
      "epoch": 0.5215,
      "grad_norm": 0.8273264169692993,
      "learning_rate": 0.0001408175721077559,
      "loss": 3.8188,
      "step": 250320
    },
    {
      "epoch": 0.5215208333333333,
      "grad_norm": 0.9482572078704834,
      "learning_rate": 0.00014080773206266,
      "loss": 3.9041,
      "step": 250330
    },
    {
      "epoch": 0.5215416666666667,
      "grad_norm": 0.7886137366294861,
      "learning_rate": 0.00014079789205727106,
      "loss": 3.8779,
      "step": 250340
    },
    {
      "epoch": 0.5215625,
      "grad_norm": 0.7419713735580444,
      "learning_rate": 0.00014078805209163155,
      "loss": 3.785,
      "step": 250350
    },
    {
      "epoch": 0.5215833333333333,
      "grad_norm": 0.8655694127082825,
      "learning_rate": 0.0001407782121657841,
      "loss": 3.7878,
      "step": 250360
    },
    {
      "epoch": 0.5216041666666666,
      "grad_norm": 0.7512823343276978,
      "learning_rate": 0.000140768372279771,
      "loss": 3.5654,
      "step": 250370
    },
    {
      "epoch": 0.521625,
      "grad_norm": 1.043673038482666,
      "learning_rate": 0.00014075853243363494,
      "loss": 4.0169,
      "step": 250380
    },
    {
      "epoch": 0.5216458333333334,
      "grad_norm": 0.7278953790664673,
      "learning_rate": 0.0001407486926274184,
      "loss": 3.75,
      "step": 250390
    },
    {
      "epoch": 0.5216666666666666,
      "grad_norm": 0.7656549215316772,
      "learning_rate": 0.00014073885286116375,
      "loss": 3.5789,
      "step": 250400
    },
    {
      "epoch": 0.5216875,
      "grad_norm": 0.8552196621894836,
      "learning_rate": 0.0001407290131349137,
      "loss": 3.6724,
      "step": 250410
    },
    {
      "epoch": 0.5217083333333333,
      "grad_norm": 0.8652322292327881,
      "learning_rate": 0.00014071917344871056,
      "loss": 3.6986,
      "step": 250420
    },
    {
      "epoch": 0.5217291666666667,
      "grad_norm": 0.7646306157112122,
      "learning_rate": 0.00014070933380259693,
      "loss": 3.8591,
      "step": 250430
    },
    {
      "epoch": 0.52175,
      "grad_norm": 0.9354804158210754,
      "learning_rate": 0.00014069949419661534,
      "loss": 3.8568,
      "step": 250440
    },
    {
      "epoch": 0.5217708333333333,
      "grad_norm": 0.850610613822937,
      "learning_rate": 0.00014068965463080824,
      "loss": 3.6952,
      "step": 250450
    },
    {
      "epoch": 0.5217916666666667,
      "grad_norm": 0.9130054712295532,
      "learning_rate": 0.0001406798151052181,
      "loss": 3.5221,
      "step": 250460
    },
    {
      "epoch": 0.5218125,
      "grad_norm": 0.969667911529541,
      "learning_rate": 0.0001406699756198875,
      "loss": 3.7366,
      "step": 250470
    },
    {
      "epoch": 0.5218333333333334,
      "grad_norm": 0.8317162990570068,
      "learning_rate": 0.00014066013617485893,
      "loss": 3.6214,
      "step": 250480
    },
    {
      "epoch": 0.5218541666666666,
      "grad_norm": 0.7942977547645569,
      "learning_rate": 0.00014065029677017484,
      "loss": 3.7011,
      "step": 250490
    },
    {
      "epoch": 0.521875,
      "grad_norm": 0.9353268146514893,
      "learning_rate": 0.00014064045740587783,
      "loss": 3.6464,
      "step": 250500
    },
    {
      "epoch": 0.5218958333333333,
      "grad_norm": 0.8255554437637329,
      "learning_rate": 0.00014063061808201028,
      "loss": 3.7099,
      "step": 250510
    },
    {
      "epoch": 0.5219166666666667,
      "grad_norm": 0.8151815533638,
      "learning_rate": 0.00014062077879861476,
      "loss": 3.8399,
      "step": 250520
    },
    {
      "epoch": 0.5219375,
      "grad_norm": 0.74363112449646,
      "learning_rate": 0.00014061093955573378,
      "loss": 3.8542,
      "step": 250530
    },
    {
      "epoch": 0.5219583333333333,
      "grad_norm": 0.8314712643623352,
      "learning_rate": 0.00014060110035340987,
      "loss": 3.7987,
      "step": 250540
    },
    {
      "epoch": 0.5219791666666667,
      "grad_norm": 0.8618901968002319,
      "learning_rate": 0.00014059126119168538,
      "loss": 3.8482,
      "step": 250550
    },
    {
      "epoch": 0.522,
      "grad_norm": 0.8455838561058044,
      "learning_rate": 0.000140581422070603,
      "loss": 3.6995,
      "step": 250560
    },
    {
      "epoch": 0.5220208333333334,
      "grad_norm": 0.8093492984771729,
      "learning_rate": 0.00014057158299020514,
      "loss": 3.7415,
      "step": 250570
    },
    {
      "epoch": 0.5220416666666666,
      "grad_norm": 0.7238395810127258,
      "learning_rate": 0.00014056174395053427,
      "loss": 3.5427,
      "step": 250580
    },
    {
      "epoch": 0.5220625,
      "grad_norm": 0.8793864846229553,
      "learning_rate": 0.0001405519049516329,
      "loss": 3.7819,
      "step": 250590
    },
    {
      "epoch": 0.5220833333333333,
      "grad_norm": 0.8677545785903931,
      "learning_rate": 0.00014054206599354365,
      "loss": 3.5585,
      "step": 250600
    },
    {
      "epoch": 0.5221041666666667,
      "grad_norm": 0.7666929364204407,
      "learning_rate": 0.0001405322270763089,
      "loss": 3.8439,
      "step": 250610
    },
    {
      "epoch": 0.522125,
      "grad_norm": 0.9991400241851807,
      "learning_rate": 0.00014052238819997116,
      "loss": 3.9769,
      "step": 250620
    },
    {
      "epoch": 0.5221458333333333,
      "grad_norm": 0.7771384119987488,
      "learning_rate": 0.00014051254936457298,
      "loss": 3.7339,
      "step": 250630
    },
    {
      "epoch": 0.5221666666666667,
      "grad_norm": 0.7962268590927124,
      "learning_rate": 0.00014050271057015684,
      "loss": 3.5971,
      "step": 250640
    },
    {
      "epoch": 0.5221875,
      "grad_norm": 0.7774120569229126,
      "learning_rate": 0.0001404928718167652,
      "loss": 3.7659,
      "step": 250650
    },
    {
      "epoch": 0.5222083333333334,
      "grad_norm": 0.818632185459137,
      "learning_rate": 0.00014048303310444058,
      "loss": 3.9025,
      "step": 250660
    },
    {
      "epoch": 0.5222291666666666,
      "grad_norm": 0.7389647364616394,
      "learning_rate": 0.00014047319443322552,
      "loss": 3.7341,
      "step": 250670
    },
    {
      "epoch": 0.52225,
      "grad_norm": 0.8146984577178955,
      "learning_rate": 0.00014046335580316245,
      "loss": 3.7357,
      "step": 250680
    },
    {
      "epoch": 0.5222708333333334,
      "grad_norm": 0.8032642602920532,
      "learning_rate": 0.00014045351721429393,
      "loss": 3.7739,
      "step": 250690
    },
    {
      "epoch": 0.5222916666666667,
      "grad_norm": 0.7659146189689636,
      "learning_rate": 0.00014044367866666247,
      "loss": 3.8169,
      "step": 250700
    },
    {
      "epoch": 0.5223125,
      "grad_norm": 0.733781635761261,
      "learning_rate": 0.0001404338401603105,
      "loss": 3.76,
      "step": 250710
    },
    {
      "epoch": 0.5223333333333333,
      "grad_norm": 1.3060033321380615,
      "learning_rate": 0.00014042400169528055,
      "loss": 3.6622,
      "step": 250720
    },
    {
      "epoch": 0.5223541666666667,
      "grad_norm": 0.8557158708572388,
      "learning_rate": 0.00014041416327161514,
      "loss": 3.7057,
      "step": 250730
    },
    {
      "epoch": 0.522375,
      "grad_norm": 0.8333097696304321,
      "learning_rate": 0.00014040432488935672,
      "loss": 3.8682,
      "step": 250740
    },
    {
      "epoch": 0.5223958333333333,
      "grad_norm": 0.9516116976737976,
      "learning_rate": 0.00014039448654854783,
      "loss": 3.7,
      "step": 250750
    },
    {
      "epoch": 0.5224166666666666,
      "grad_norm": 0.8856643438339233,
      "learning_rate": 0.00014038464824923103,
      "loss": 3.7006,
      "step": 250760
    },
    {
      "epoch": 0.5224375,
      "grad_norm": 0.8476485013961792,
      "learning_rate": 0.0001403748099914486,
      "loss": 3.7912,
      "step": 250770
    },
    {
      "epoch": 0.5224583333333334,
      "grad_norm": 0.7739668488502502,
      "learning_rate": 0.0001403649717752433,
      "loss": 3.7972,
      "step": 250780
    },
    {
      "epoch": 0.5224791666666667,
      "grad_norm": 0.8149014115333557,
      "learning_rate": 0.0001403551336006575,
      "loss": 3.7996,
      "step": 250790
    },
    {
      "epoch": 0.5225,
      "grad_norm": 0.842390775680542,
      "learning_rate": 0.00014034529546773364,
      "loss": 3.7333,
      "step": 250800
    },
    {
      "epoch": 0.5225208333333333,
      "grad_norm": 0.7519713044166565,
      "learning_rate": 0.00014033545737651435,
      "loss": 3.7904,
      "step": 250810
    },
    {
      "epoch": 0.5225416666666667,
      "grad_norm": 0.865339994430542,
      "learning_rate": 0.00014032561932704203,
      "loss": 3.7867,
      "step": 250820
    },
    {
      "epoch": 0.5225625,
      "grad_norm": 1.10208261013031,
      "learning_rate": 0.00014031578131935916,
      "loss": 3.7554,
      "step": 250830
    },
    {
      "epoch": 0.5225833333333333,
      "grad_norm": 0.9550348520278931,
      "learning_rate": 0.00014030594335350834,
      "loss": 3.6396,
      "step": 250840
    },
    {
      "epoch": 0.5226041666666666,
      "grad_norm": 0.737270176410675,
      "learning_rate": 0.000140296105429532,
      "loss": 3.7249,
      "step": 250850
    },
    {
      "epoch": 0.522625,
      "grad_norm": 0.9010811448097229,
      "learning_rate": 0.00014028626754747258,
      "loss": 3.9391,
      "step": 250860
    },
    {
      "epoch": 0.5226458333333334,
      "grad_norm": 0.7913007140159607,
      "learning_rate": 0.00014027642970737274,
      "loss": 3.7279,
      "step": 250870
    },
    {
      "epoch": 0.5226666666666666,
      "grad_norm": 0.9190430641174316,
      "learning_rate": 0.00014026659190927482,
      "loss": 3.7847,
      "step": 250880
    },
    {
      "epoch": 0.5226875,
      "grad_norm": 0.8687657117843628,
      "learning_rate": 0.0001402567541532214,
      "loss": 3.6989,
      "step": 250890
    },
    {
      "epoch": 0.5227083333333333,
      "grad_norm": 0.7759807109832764,
      "learning_rate": 0.0001402469164392549,
      "loss": 3.5988,
      "step": 250900
    },
    {
      "epoch": 0.5227291666666667,
      "grad_norm": 0.8157579898834229,
      "learning_rate": 0.00014023707876741791,
      "loss": 3.9145,
      "step": 250910
    },
    {
      "epoch": 0.52275,
      "grad_norm": 0.7279958128929138,
      "learning_rate": 0.00014022724113775287,
      "loss": 3.6381,
      "step": 250920
    },
    {
      "epoch": 0.5227708333333333,
      "grad_norm": 0.9616250395774841,
      "learning_rate": 0.0001402174035503022,
      "loss": 3.8085,
      "step": 250930
    },
    {
      "epoch": 0.5227916666666667,
      "grad_norm": 0.9121969938278198,
      "learning_rate": 0.00014020756600510858,
      "loss": 3.8656,
      "step": 250940
    },
    {
      "epoch": 0.5228125,
      "grad_norm": 0.8130583763122559,
      "learning_rate": 0.00014019772850221436,
      "loss": 3.875,
      "step": 250950
    },
    {
      "epoch": 0.5228333333333334,
      "grad_norm": 0.7864682078361511,
      "learning_rate": 0.000140187891041662,
      "loss": 3.6635,
      "step": 250960
    },
    {
      "epoch": 0.5228541666666666,
      "grad_norm": 0.8297730684280396,
      "learning_rate": 0.00014017805362349418,
      "loss": 3.674,
      "step": 250970
    },
    {
      "epoch": 0.522875,
      "grad_norm": 0.8016199469566345,
      "learning_rate": 0.00014016821624775324,
      "loss": 3.9098,
      "step": 250980
    },
    {
      "epoch": 0.5228958333333333,
      "grad_norm": 0.908136785030365,
      "learning_rate": 0.00014015837891448167,
      "loss": 3.7832,
      "step": 250990
    },
    {
      "epoch": 0.5229166666666667,
      "grad_norm": 1.0350191593170166,
      "learning_rate": 0.00014014854162372207,
      "loss": 3.9224,
      "step": 251000
    },
    {
      "epoch": 0.5229166666666667,
      "eval_loss": 4.127326965332031,
      "eval_runtime": 9.2679,
      "eval_samples_per_second": 1.079,
      "eval_steps_per_second": 0.324,
      "step": 251000
    },
    {
      "epoch": 0.5229375,
      "grad_norm": 0.8095169067382812,
      "learning_rate": 0.00014013870437551684,
      "loss": 3.8526,
      "step": 251010
    },
    {
      "epoch": 0.5229583333333333,
      "grad_norm": 0.7244508266448975,
      "learning_rate": 0.00014012886716990847,
      "loss": 3.689,
      "step": 251020
    },
    {
      "epoch": 0.5229791666666667,
      "grad_norm": 1.1581577062606812,
      "learning_rate": 0.00014011903000693955,
      "loss": 3.6809,
      "step": 251030
    },
    {
      "epoch": 0.523,
      "grad_norm": 0.762202799320221,
      "learning_rate": 0.00014010919288665253,
      "loss": 3.7872,
      "step": 251040
    },
    {
      "epoch": 0.5230208333333334,
      "grad_norm": 0.9785201549530029,
      "learning_rate": 0.0001400993558090898,
      "loss": 3.6373,
      "step": 251050
    },
    {
      "epoch": 0.5230416666666666,
      "grad_norm": 1.2870333194732666,
      "learning_rate": 0.00014008951877429396,
      "loss": 3.6783,
      "step": 251060
    },
    {
      "epoch": 0.5230625,
      "grad_norm": 0.7223942279815674,
      "learning_rate": 0.00014007968178230752,
      "loss": 3.6357,
      "step": 251070
    },
    {
      "epoch": 0.5230833333333333,
      "grad_norm": 0.9389640688896179,
      "learning_rate": 0.00014006984483317286,
      "loss": 3.6868,
      "step": 251080
    },
    {
      "epoch": 0.5231041666666667,
      "grad_norm": 0.8263241052627563,
      "learning_rate": 0.00014006000792693259,
      "loss": 3.9545,
      "step": 251090
    },
    {
      "epoch": 0.523125,
      "grad_norm": 0.853310763835907,
      "learning_rate": 0.00014005017106362915,
      "loss": 3.721,
      "step": 251100
    },
    {
      "epoch": 0.5231458333333333,
      "grad_norm": 0.8308336138725281,
      "learning_rate": 0.00014004033424330498,
      "loss": 3.8247,
      "step": 251110
    },
    {
      "epoch": 0.5231666666666667,
      "grad_norm": 0.7541442513465881,
      "learning_rate": 0.00014003049746600266,
      "loss": 3.6361,
      "step": 251120
    },
    {
      "epoch": 0.5231875,
      "grad_norm": 0.9160839915275574,
      "learning_rate": 0.00014002066073176466,
      "loss": 3.6703,
      "step": 251130
    },
    {
      "epoch": 0.5232083333333334,
      "grad_norm": 0.7739745378494263,
      "learning_rate": 0.00014001082404063343,
      "loss": 3.8107,
      "step": 251140
    },
    {
      "epoch": 0.5232291666666666,
      "grad_norm": 0.6833286881446838,
      "learning_rate": 0.00014000098739265154,
      "loss": 3.6478,
      "step": 251150
    },
    {
      "epoch": 0.52325,
      "grad_norm": 0.7587797045707703,
      "learning_rate": 0.00013999115078786137,
      "loss": 3.7488,
      "step": 251160
    },
    {
      "epoch": 0.5232708333333334,
      "grad_norm": 0.8054283261299133,
      "learning_rate": 0.0001399813142263055,
      "loss": 3.6993,
      "step": 251170
    },
    {
      "epoch": 0.5232916666666667,
      "grad_norm": 0.7648645639419556,
      "learning_rate": 0.00013997147770802634,
      "loss": 3.6681,
      "step": 251180
    },
    {
      "epoch": 0.5233125,
      "grad_norm": 0.8895050287246704,
      "learning_rate": 0.00013996164123306645,
      "loss": 3.6953,
      "step": 251190
    },
    {
      "epoch": 0.5233333333333333,
      "grad_norm": 0.9028544425964355,
      "learning_rate": 0.00013995180480146834,
      "loss": 3.674,
      "step": 251200
    },
    {
      "epoch": 0.5233541666666667,
      "grad_norm": 0.8505733013153076,
      "learning_rate": 0.00013994196841327438,
      "loss": 3.8033,
      "step": 251210
    },
    {
      "epoch": 0.523375,
      "grad_norm": 0.7315298914909363,
      "learning_rate": 0.00013993213206852718,
      "loss": 3.6994,
      "step": 251220
    },
    {
      "epoch": 0.5233958333333333,
      "grad_norm": 0.8937116265296936,
      "learning_rate": 0.0001399222957672692,
      "loss": 3.7887,
      "step": 251230
    },
    {
      "epoch": 0.5234166666666666,
      "grad_norm": 1.0159108638763428,
      "learning_rate": 0.00013991245950954284,
      "loss": 3.8563,
      "step": 251240
    },
    {
      "epoch": 0.5234375,
      "grad_norm": 0.9019792079925537,
      "learning_rate": 0.0001399026232953907,
      "loss": 3.7406,
      "step": 251250
    },
    {
      "epoch": 0.5234583333333334,
      "grad_norm": 0.8346250057220459,
      "learning_rate": 0.00013989278712485528,
      "loss": 3.7122,
      "step": 251260
    },
    {
      "epoch": 0.5234791666666667,
      "grad_norm": 0.7362880706787109,
      "learning_rate": 0.00013988295099797896,
      "loss": 3.9662,
      "step": 251270
    },
    {
      "epoch": 0.5235,
      "grad_norm": 0.8248716592788696,
      "learning_rate": 0.00013987311491480434,
      "loss": 3.7766,
      "step": 251280
    },
    {
      "epoch": 0.5235208333333333,
      "grad_norm": 0.808367133140564,
      "learning_rate": 0.00013986327887537383,
      "loss": 3.614,
      "step": 251290
    },
    {
      "epoch": 0.5235416666666667,
      "grad_norm": 0.8671460747718811,
      "learning_rate": 0.0001398534428797299,
      "loss": 3.7951,
      "step": 251300
    },
    {
      "epoch": 0.5235625,
      "grad_norm": 0.7589321732521057,
      "learning_rate": 0.00013984360692791513,
      "loss": 3.7231,
      "step": 251310
    },
    {
      "epoch": 0.5235833333333333,
      "grad_norm": 0.927613377571106,
      "learning_rate": 0.00013983377101997198,
      "loss": 3.8408,
      "step": 251320
    },
    {
      "epoch": 0.5236041666666666,
      "grad_norm": 0.9486002922058105,
      "learning_rate": 0.0001398239351559428,
      "loss": 3.8202,
      "step": 251330
    },
    {
      "epoch": 0.523625,
      "grad_norm": 0.770973801612854,
      "learning_rate": 0.00013981409933587033,
      "loss": 3.7386,
      "step": 251340
    },
    {
      "epoch": 0.5236458333333334,
      "grad_norm": 0.9938489198684692,
      "learning_rate": 0.00013980426355979686,
      "loss": 3.4897,
      "step": 251350
    },
    {
      "epoch": 0.5236666666666666,
      "grad_norm": 0.8422078490257263,
      "learning_rate": 0.00013979442782776488,
      "loss": 3.7426,
      "step": 251360
    },
    {
      "epoch": 0.5236875,
      "grad_norm": 0.8955005407333374,
      "learning_rate": 0.00013978459213981703,
      "loss": 3.8952,
      "step": 251370
    },
    {
      "epoch": 0.5237083333333333,
      "grad_norm": 0.846981406211853,
      "learning_rate": 0.00013977475649599565,
      "loss": 3.8931,
      "step": 251380
    },
    {
      "epoch": 0.5237291666666667,
      "grad_norm": 0.8673340082168579,
      "learning_rate": 0.00013976492089634327,
      "loss": 3.6628,
      "step": 251390
    },
    {
      "epoch": 0.52375,
      "grad_norm": 0.7378795742988586,
      "learning_rate": 0.0001397550853409024,
      "loss": 3.829,
      "step": 251400
    },
    {
      "epoch": 0.5237708333333333,
      "grad_norm": 0.7679516077041626,
      "learning_rate": 0.00013974524982971552,
      "loss": 3.8105,
      "step": 251410
    },
    {
      "epoch": 0.5237916666666667,
      "grad_norm": 0.7960159778594971,
      "learning_rate": 0.00013973541436282507,
      "loss": 3.7576,
      "step": 251420
    },
    {
      "epoch": 0.5238125,
      "grad_norm": 0.9159541130065918,
      "learning_rate": 0.00013972557894027356,
      "loss": 3.6297,
      "step": 251430
    },
    {
      "epoch": 0.5238333333333334,
      "grad_norm": 1.0678306818008423,
      "learning_rate": 0.00013971574356210354,
      "loss": 3.8014,
      "step": 251440
    },
    {
      "epoch": 0.5238541666666666,
      "grad_norm": 0.7936199307441711,
      "learning_rate": 0.00013970590822835738,
      "loss": 3.6643,
      "step": 251450
    },
    {
      "epoch": 0.523875,
      "grad_norm": 0.8460931181907654,
      "learning_rate": 0.0001396960729390776,
      "loss": 3.7786,
      "step": 251460
    },
    {
      "epoch": 0.5238958333333333,
      "grad_norm": 0.9426335096359253,
      "learning_rate": 0.0001396862376943068,
      "loss": 3.6987,
      "step": 251470
    },
    {
      "epoch": 0.5239166666666667,
      "grad_norm": 0.7911861538887024,
      "learning_rate": 0.0001396764024940873,
      "loss": 3.8488,
      "step": 251480
    },
    {
      "epoch": 0.5239375,
      "grad_norm": 0.7241171598434448,
      "learning_rate": 0.00013966656733846165,
      "loss": 3.6952,
      "step": 251490
    },
    {
      "epoch": 0.5239583333333333,
      "grad_norm": 0.8158196210861206,
      "learning_rate": 0.00013965673222747236,
      "loss": 3.6377,
      "step": 251500
    },
    {
      "epoch": 0.5239791666666667,
      "grad_norm": 0.9330810308456421,
      "learning_rate": 0.0001396468971611619,
      "loss": 3.8861,
      "step": 251510
    },
    {
      "epoch": 0.524,
      "grad_norm": 0.8431130051612854,
      "learning_rate": 0.00013963706213957272,
      "loss": 3.7692,
      "step": 251520
    },
    {
      "epoch": 0.5240208333333334,
      "grad_norm": 0.8324692249298096,
      "learning_rate": 0.00013962722716274738,
      "loss": 3.8793,
      "step": 251530
    },
    {
      "epoch": 0.5240416666666666,
      "grad_norm": 0.9527571797370911,
      "learning_rate": 0.00013961739223072829,
      "loss": 3.7743,
      "step": 251540
    },
    {
      "epoch": 0.5240625,
      "grad_norm": 0.9373725652694702,
      "learning_rate": 0.00013960755734355792,
      "loss": 3.7154,
      "step": 251550
    },
    {
      "epoch": 0.5240833333333333,
      "grad_norm": 0.7806708216667175,
      "learning_rate": 0.00013959772250127881,
      "loss": 3.7753,
      "step": 251560
    },
    {
      "epoch": 0.5241041666666667,
      "grad_norm": 0.8129616379737854,
      "learning_rate": 0.00013958788770393346,
      "loss": 3.6195,
      "step": 251570
    },
    {
      "epoch": 0.524125,
      "grad_norm": 0.7637626528739929,
      "learning_rate": 0.00013957805295156423,
      "loss": 3.7203,
      "step": 251580
    },
    {
      "epoch": 0.5241458333333333,
      "grad_norm": 1.0586113929748535,
      "learning_rate": 0.00013956821824421373,
      "loss": 3.8295,
      "step": 251590
    },
    {
      "epoch": 0.5241666666666667,
      "grad_norm": 0.7873458862304688,
      "learning_rate": 0.00013955838358192444,
      "loss": 3.7293,
      "step": 251600
    },
    {
      "epoch": 0.5241875,
      "grad_norm": 0.8979426026344299,
      "learning_rate": 0.00013954854896473874,
      "loss": 3.7893,
      "step": 251610
    },
    {
      "epoch": 0.5242083333333334,
      "grad_norm": 0.898809015750885,
      "learning_rate": 0.0001395387143926992,
      "loss": 3.7192,
      "step": 251620
    },
    {
      "epoch": 0.5242291666666666,
      "grad_norm": 0.8953768610954285,
      "learning_rate": 0.0001395288798658483,
      "loss": 3.6145,
      "step": 251630
    },
    {
      "epoch": 0.52425,
      "grad_norm": 0.8322219848632812,
      "learning_rate": 0.00013951904538422842,
      "loss": 3.6285,
      "step": 251640
    },
    {
      "epoch": 0.5242708333333334,
      "grad_norm": 0.8745693564414978,
      "learning_rate": 0.0001395092109478822,
      "loss": 3.7723,
      "step": 251650
    },
    {
      "epoch": 0.5242916666666667,
      "grad_norm": 0.9458038806915283,
      "learning_rate": 0.00013949937655685198,
      "loss": 3.9595,
      "step": 251660
    },
    {
      "epoch": 0.5243125,
      "grad_norm": 0.7804298996925354,
      "learning_rate": 0.00013948954221118027,
      "loss": 3.6748,
      "step": 251670
    },
    {
      "epoch": 0.5243333333333333,
      "grad_norm": 0.8300109505653381,
      "learning_rate": 0.00013947970791090966,
      "loss": 3.7447,
      "step": 251680
    },
    {
      "epoch": 0.5243541666666667,
      "grad_norm": 0.9327232837677002,
      "learning_rate": 0.00013946987365608249,
      "loss": 3.7359,
      "step": 251690
    },
    {
      "epoch": 0.524375,
      "grad_norm": 0.9018776416778564,
      "learning_rate": 0.00013946003944674128,
      "loss": 3.835,
      "step": 251700
    },
    {
      "epoch": 0.5243958333333333,
      "grad_norm": 0.7883132696151733,
      "learning_rate": 0.0001394502052829286,
      "loss": 3.6956,
      "step": 251710
    },
    {
      "epoch": 0.5244166666666666,
      "grad_norm": 0.9147644639015198,
      "learning_rate": 0.0001394403711646868,
      "loss": 3.8455,
      "step": 251720
    },
    {
      "epoch": 0.5244375,
      "grad_norm": 0.7880920767784119,
      "learning_rate": 0.00013943053709205842,
      "loss": 3.8827,
      "step": 251730
    },
    {
      "epoch": 0.5244583333333334,
      "grad_norm": 0.8216880559921265,
      "learning_rate": 0.00013942070306508596,
      "loss": 3.7222,
      "step": 251740
    },
    {
      "epoch": 0.5244791666666667,
      "grad_norm": 0.7981504201889038,
      "learning_rate": 0.00013941086908381188,
      "loss": 3.7289,
      "step": 251750
    },
    {
      "epoch": 0.5245,
      "grad_norm": 0.8273367285728455,
      "learning_rate": 0.00013940103514827867,
      "loss": 3.8603,
      "step": 251760
    },
    {
      "epoch": 0.5245208333333333,
      "grad_norm": 0.9157665371894836,
      "learning_rate": 0.00013939120125852872,
      "loss": 3.6194,
      "step": 251770
    },
    {
      "epoch": 0.5245416666666667,
      "grad_norm": 0.777094841003418,
      "learning_rate": 0.00013938136741460465,
      "loss": 3.8188,
      "step": 251780
    },
    {
      "epoch": 0.5245625,
      "grad_norm": 0.8481023907661438,
      "learning_rate": 0.00013937153361654885,
      "loss": 3.7826,
      "step": 251790
    },
    {
      "epoch": 0.5245833333333333,
      "grad_norm": 0.8836315870285034,
      "learning_rate": 0.00013936169986440377,
      "loss": 3.7952,
      "step": 251800
    },
    {
      "epoch": 0.5246041666666666,
      "grad_norm": 0.8486009240150452,
      "learning_rate": 0.000139351866158212,
      "loss": 3.7367,
      "step": 251810
    },
    {
      "epoch": 0.524625,
      "grad_norm": 0.825725793838501,
      "learning_rate": 0.00013934203249801592,
      "loss": 3.8882,
      "step": 251820
    },
    {
      "epoch": 0.5246458333333334,
      "grad_norm": 0.790894627571106,
      "learning_rate": 0.00013933219888385802,
      "loss": 3.666,
      "step": 251830
    },
    {
      "epoch": 0.5246666666666666,
      "grad_norm": 0.8545923233032227,
      "learning_rate": 0.00013932236531578087,
      "loss": 4.0411,
      "step": 251840
    },
    {
      "epoch": 0.5246875,
      "grad_norm": 0.762749433517456,
      "learning_rate": 0.00013931253179382683,
      "loss": 3.6528,
      "step": 251850
    },
    {
      "epoch": 0.5247083333333333,
      "grad_norm": 0.9436789751052856,
      "learning_rate": 0.0001393026983180384,
      "loss": 3.5762,
      "step": 251860
    },
    {
      "epoch": 0.5247291666666667,
      "grad_norm": 0.7895088195800781,
      "learning_rate": 0.00013929286488845814,
      "loss": 3.8196,
      "step": 251870
    },
    {
      "epoch": 0.52475,
      "grad_norm": 0.8913840055465698,
      "learning_rate": 0.00013928303150512842,
      "loss": 3.6965,
      "step": 251880
    },
    {
      "epoch": 0.5247708333333333,
      "grad_norm": 0.751042902469635,
      "learning_rate": 0.00013927319816809175,
      "loss": 3.4935,
      "step": 251890
    },
    {
      "epoch": 0.5247916666666667,
      "grad_norm": 0.9655182957649231,
      "learning_rate": 0.00013926336487739066,
      "loss": 3.6882,
      "step": 251900
    },
    {
      "epoch": 0.5248125,
      "grad_norm": 1.0241949558258057,
      "learning_rate": 0.00013925353163306758,
      "loss": 3.7705,
      "step": 251910
    },
    {
      "epoch": 0.5248333333333334,
      "grad_norm": 0.8493831753730774,
      "learning_rate": 0.00013924369843516498,
      "loss": 4.0036,
      "step": 251920
    },
    {
      "epoch": 0.5248541666666666,
      "grad_norm": 0.8130640387535095,
      "learning_rate": 0.0001392338652837253,
      "loss": 3.6757,
      "step": 251930
    },
    {
      "epoch": 0.524875,
      "grad_norm": 0.857351541519165,
      "learning_rate": 0.00013922403217879115,
      "loss": 3.6668,
      "step": 251940
    },
    {
      "epoch": 0.5248958333333333,
      "grad_norm": 1.0040515661239624,
      "learning_rate": 0.00013921419912040484,
      "loss": 3.8107,
      "step": 251950
    },
    {
      "epoch": 0.5249166666666667,
      "grad_norm": 0.7077839970588684,
      "learning_rate": 0.00013920436610860893,
      "loss": 3.8269,
      "step": 251960
    },
    {
      "epoch": 0.5249375,
      "grad_norm": 0.8558165431022644,
      "learning_rate": 0.00013919453314344593,
      "loss": 3.7682,
      "step": 251970
    },
    {
      "epoch": 0.5249583333333333,
      "grad_norm": 0.793462336063385,
      "learning_rate": 0.00013918470022495822,
      "loss": 3.6241,
      "step": 251980
    },
    {
      "epoch": 0.5249791666666667,
      "grad_norm": 0.9019556641578674,
      "learning_rate": 0.00013917486735318834,
      "loss": 3.8692,
      "step": 251990
    },
    {
      "epoch": 0.525,
      "grad_norm": 0.8003304600715637,
      "learning_rate": 0.00013916503452817878,
      "loss": 3.6346,
      "step": 252000
    },
    {
      "epoch": 0.525,
      "eval_loss": 4.117091178894043,
      "eval_runtime": 8.6001,
      "eval_samples_per_second": 1.163,
      "eval_steps_per_second": 0.349,
      "step": 252000
    },
    {
      "epoch": 0.5250208333333334,
      "grad_norm": 0.8449372053146362,
      "learning_rate": 0.00013915520174997192,
      "loss": 3.843,
      "step": 252010
    },
    {
      "epoch": 0.5250416666666666,
      "grad_norm": 0.8023184537887573,
      "learning_rate": 0.00013914536901861034,
      "loss": 3.773,
      "step": 252020
    },
    {
      "epoch": 0.5250625,
      "grad_norm": 0.8443699479103088,
      "learning_rate": 0.0001391355363341365,
      "loss": 3.7739,
      "step": 252030
    },
    {
      "epoch": 0.5250833333333333,
      "grad_norm": 0.7520787715911865,
      "learning_rate": 0.0001391257036965928,
      "loss": 3.6835,
      "step": 252040
    },
    {
      "epoch": 0.5251041666666667,
      "grad_norm": 0.9103837013244629,
      "learning_rate": 0.00013911587110602175,
      "loss": 3.6242,
      "step": 252050
    },
    {
      "epoch": 0.525125,
      "grad_norm": 0.9629127979278564,
      "learning_rate": 0.00013910603856246584,
      "loss": 3.7281,
      "step": 252060
    },
    {
      "epoch": 0.5251458333333333,
      "grad_norm": 0.7470228672027588,
      "learning_rate": 0.00013909620606596755,
      "loss": 3.8015,
      "step": 252070
    },
    {
      "epoch": 0.5251666666666667,
      "grad_norm": 0.8400813341140747,
      "learning_rate": 0.00013908637361656929,
      "loss": 3.8251,
      "step": 252080
    },
    {
      "epoch": 0.5251875,
      "grad_norm": 0.8452516794204712,
      "learning_rate": 0.00013907654121431357,
      "loss": 3.8387,
      "step": 252090
    },
    {
      "epoch": 0.5252083333333334,
      "grad_norm": 0.7933200597763062,
      "learning_rate": 0.00013906670885924292,
      "loss": 3.5615,
      "step": 252100
    },
    {
      "epoch": 0.5252291666666666,
      "grad_norm": 0.8465871214866638,
      "learning_rate": 0.00013905687655139972,
      "loss": 3.7752,
      "step": 252110
    },
    {
      "epoch": 0.52525,
      "grad_norm": 0.8778398036956787,
      "learning_rate": 0.00013904704429082648,
      "loss": 3.8072,
      "step": 252120
    },
    {
      "epoch": 0.5252708333333334,
      "grad_norm": 0.8952530026435852,
      "learning_rate": 0.00013903721207756574,
      "loss": 3.694,
      "step": 252130
    },
    {
      "epoch": 0.5252916666666667,
      "grad_norm": 0.7748606204986572,
      "learning_rate": 0.0001390273799116598,
      "loss": 3.8173,
      "step": 252140
    },
    {
      "epoch": 0.5253125,
      "grad_norm": 0.8687976002693176,
      "learning_rate": 0.00013901754779315132,
      "loss": 3.8701,
      "step": 252150
    },
    {
      "epoch": 0.5253333333333333,
      "grad_norm": 0.8483622670173645,
      "learning_rate": 0.00013900771572208267,
      "loss": 3.7175,
      "step": 252160
    },
    {
      "epoch": 0.5253541666666667,
      "grad_norm": 2.3222289085388184,
      "learning_rate": 0.0001389978836984963,
      "loss": 3.896,
      "step": 252170
    },
    {
      "epoch": 0.525375,
      "grad_norm": 0.8551514744758606,
      "learning_rate": 0.00013898805172243478,
      "loss": 3.7488,
      "step": 252180
    },
    {
      "epoch": 0.5253958333333333,
      "grad_norm": 0.8521803021430969,
      "learning_rate": 0.00013897821979394048,
      "loss": 3.6414,
      "step": 252190
    },
    {
      "epoch": 0.5254166666666666,
      "grad_norm": 0.8113195896148682,
      "learning_rate": 0.00013896838791305587,
      "loss": 3.656,
      "step": 252200
    },
    {
      "epoch": 0.5254375,
      "grad_norm": 0.8886449933052063,
      "learning_rate": 0.00013895855607982353,
      "loss": 3.6558,
      "step": 252210
    },
    {
      "epoch": 0.5254583333333334,
      "grad_norm": 0.9109392166137695,
      "learning_rate": 0.0001389487242942858,
      "loss": 3.6758,
      "step": 252220
    },
    {
      "epoch": 0.5254791666666667,
      "grad_norm": 0.881535530090332,
      "learning_rate": 0.0001389388925564852,
      "loss": 3.6214,
      "step": 252230
    },
    {
      "epoch": 0.5255,
      "grad_norm": 0.7966578602790833,
      "learning_rate": 0.00013892906086646428,
      "loss": 3.7041,
      "step": 252240
    },
    {
      "epoch": 0.5255208333333333,
      "grad_norm": 0.799695611000061,
      "learning_rate": 0.00013891922922426537,
      "loss": 3.6807,
      "step": 252250
    },
    {
      "epoch": 0.5255416666666667,
      "grad_norm": 0.973484992980957,
      "learning_rate": 0.000138909397629931,
      "loss": 3.6365,
      "step": 252260
    },
    {
      "epoch": 0.5255625,
      "grad_norm": 0.8586569428443909,
      "learning_rate": 0.0001388995660835037,
      "loss": 3.565,
      "step": 252270
    },
    {
      "epoch": 0.5255833333333333,
      "grad_norm": 0.8875983357429504,
      "learning_rate": 0.00013888973458502587,
      "loss": 3.6688,
      "step": 252280
    },
    {
      "epoch": 0.5256041666666667,
      "grad_norm": 0.8832643628120422,
      "learning_rate": 0.00013887990313453993,
      "loss": 3.7838,
      "step": 252290
    },
    {
      "epoch": 0.525625,
      "grad_norm": 0.7835549712181091,
      "learning_rate": 0.00013887007173208845,
      "loss": 3.7562,
      "step": 252300
    },
    {
      "epoch": 0.5256458333333334,
      "grad_norm": 0.8637029528617859,
      "learning_rate": 0.00013886024037771386,
      "loss": 3.661,
      "step": 252310
    },
    {
      "epoch": 0.5256666666666666,
      "grad_norm": 0.8811851143836975,
      "learning_rate": 0.00013885040907145858,
      "loss": 3.8047,
      "step": 252320
    },
    {
      "epoch": 0.5256875,
      "grad_norm": 0.9097047448158264,
      "learning_rate": 0.00013884057781336515,
      "loss": 3.7058,
      "step": 252330
    },
    {
      "epoch": 0.5257083333333333,
      "grad_norm": 0.8882108926773071,
      "learning_rate": 0.00013883074660347603,
      "loss": 3.7452,
      "step": 252340
    },
    {
      "epoch": 0.5257291666666667,
      "grad_norm": 0.7741549015045166,
      "learning_rate": 0.00013882091544183364,
      "loss": 3.5884,
      "step": 252350
    },
    {
      "epoch": 0.52575,
      "grad_norm": 0.8167322874069214,
      "learning_rate": 0.00013881108432848045,
      "loss": 3.6518,
      "step": 252360
    },
    {
      "epoch": 0.5257708333333333,
      "grad_norm": 0.7447992563247681,
      "learning_rate": 0.00013880125326345898,
      "loss": 3.7307,
      "step": 252370
    },
    {
      "epoch": 0.5257916666666667,
      "grad_norm": 0.8568130731582642,
      "learning_rate": 0.00013879142224681163,
      "loss": 3.724,
      "step": 252380
    },
    {
      "epoch": 0.5258125,
      "grad_norm": 0.8979299664497375,
      "learning_rate": 0.0001387815912785809,
      "loss": 3.597,
      "step": 252390
    },
    {
      "epoch": 0.5258333333333334,
      "grad_norm": 0.7928698658943176,
      "learning_rate": 0.00013877176035880933,
      "loss": 3.6871,
      "step": 252400
    },
    {
      "epoch": 0.5258541666666666,
      "grad_norm": 0.8183779716491699,
      "learning_rate": 0.00013876192948753926,
      "loss": 3.7621,
      "step": 252410
    },
    {
      "epoch": 0.525875,
      "grad_norm": 0.9410437941551208,
      "learning_rate": 0.00013875209866481315,
      "loss": 3.7563,
      "step": 252420
    },
    {
      "epoch": 0.5258958333333333,
      "grad_norm": 0.9499498009681702,
      "learning_rate": 0.0001387422678906736,
      "loss": 3.5951,
      "step": 252430
    },
    {
      "epoch": 0.5259166666666667,
      "grad_norm": 0.9573923349380493,
      "learning_rate": 0.00013873243716516298,
      "loss": 3.5931,
      "step": 252440
    },
    {
      "epoch": 0.5259375,
      "grad_norm": 0.8352583050727844,
      "learning_rate": 0.00013872260648832373,
      "loss": 3.6127,
      "step": 252450
    },
    {
      "epoch": 0.5259583333333333,
      "grad_norm": 0.7428026795387268,
      "learning_rate": 0.0001387127758601984,
      "loss": 3.7139,
      "step": 252460
    },
    {
      "epoch": 0.5259791666666667,
      "grad_norm": 0.947226345539093,
      "learning_rate": 0.00013870294528082943,
      "loss": 3.7445,
      "step": 252470
    },
    {
      "epoch": 0.526,
      "grad_norm": 0.8629986643791199,
      "learning_rate": 0.0001386931147502592,
      "loss": 3.6397,
      "step": 252480
    },
    {
      "epoch": 0.5260208333333334,
      "grad_norm": 0.747908890247345,
      "learning_rate": 0.00013868328426853025,
      "loss": 3.7557,
      "step": 252490
    },
    {
      "epoch": 0.5260416666666666,
      "grad_norm": 0.8830074667930603,
      "learning_rate": 0.0001386734538356851,
      "loss": 3.8229,
      "step": 252500
    },
    {
      "epoch": 0.5260625,
      "grad_norm": 0.8651405572891235,
      "learning_rate": 0.00013866362345176607,
      "loss": 3.7427,
      "step": 252510
    },
    {
      "epoch": 0.5260833333333333,
      "grad_norm": 0.7959761023521423,
      "learning_rate": 0.0001386537931168157,
      "loss": 3.6855,
      "step": 252520
    },
    {
      "epoch": 0.5261041666666667,
      "grad_norm": 0.9442523121833801,
      "learning_rate": 0.00013864396283087653,
      "loss": 3.6445,
      "step": 252530
    },
    {
      "epoch": 0.526125,
      "grad_norm": 0.8189694881439209,
      "learning_rate": 0.00013863413259399086,
      "loss": 3.8711,
      "step": 252540
    },
    {
      "epoch": 0.5261458333333333,
      "grad_norm": 0.814376711845398,
      "learning_rate": 0.0001386243024062013,
      "loss": 3.6952,
      "step": 252550
    },
    {
      "epoch": 0.5261666666666667,
      "grad_norm": 0.7703390121459961,
      "learning_rate": 0.00013861447226755022,
      "loss": 3.703,
      "step": 252560
    },
    {
      "epoch": 0.5261875,
      "grad_norm": 0.9536454677581787,
      "learning_rate": 0.00013860464217808007,
      "loss": 3.8907,
      "step": 252570
    },
    {
      "epoch": 0.5262083333333333,
      "grad_norm": 0.7739560008049011,
      "learning_rate": 0.00013859481213783343,
      "loss": 3.6818,
      "step": 252580
    },
    {
      "epoch": 0.5262291666666666,
      "grad_norm": 0.7329922914505005,
      "learning_rate": 0.00013858498214685267,
      "loss": 3.5292,
      "step": 252590
    },
    {
      "epoch": 0.52625,
      "grad_norm": 0.7395238280296326,
      "learning_rate": 0.00013857515220518023,
      "loss": 3.7527,
      "step": 252600
    },
    {
      "epoch": 0.5262708333333334,
      "grad_norm": 0.8629271388053894,
      "learning_rate": 0.00013856532231285867,
      "loss": 3.6561,
      "step": 252610
    },
    {
      "epoch": 0.5262916666666667,
      "grad_norm": 0.8928968906402588,
      "learning_rate": 0.00013855549246993035,
      "loss": 3.7461,
      "step": 252620
    },
    {
      "epoch": 0.5263125,
      "grad_norm": 0.6842848658561707,
      "learning_rate": 0.00013854566267643782,
      "loss": 3.5829,
      "step": 252630
    },
    {
      "epoch": 0.5263333333333333,
      "grad_norm": 0.8182094097137451,
      "learning_rate": 0.0001385358329324234,
      "loss": 3.799,
      "step": 252640
    },
    {
      "epoch": 0.5263541666666667,
      "grad_norm": 0.7724717259407043,
      "learning_rate": 0.00013852600323792976,
      "loss": 3.7414,
      "step": 252650
    },
    {
      "epoch": 0.526375,
      "grad_norm": 0.788564145565033,
      "learning_rate": 0.00013851617359299917,
      "loss": 3.8596,
      "step": 252660
    },
    {
      "epoch": 0.5263958333333333,
      "grad_norm": 1.2883105278015137,
      "learning_rate": 0.00013850634399767417,
      "loss": 3.5013,
      "step": 252670
    },
    {
      "epoch": 0.5264166666666666,
      "grad_norm": 1.0163350105285645,
      "learning_rate": 0.00013849651445199722,
      "loss": 3.9048,
      "step": 252680
    },
    {
      "epoch": 0.5264375,
      "grad_norm": 1.1157621145248413,
      "learning_rate": 0.0001384866849560108,
      "loss": 3.7226,
      "step": 252690
    },
    {
      "epoch": 0.5264583333333334,
      "grad_norm": 0.8784447908401489,
      "learning_rate": 0.00013847685550975728,
      "loss": 3.8569,
      "step": 252700
    },
    {
      "epoch": 0.5264791666666667,
      "grad_norm": 1.5347740650177002,
      "learning_rate": 0.00013846702611327926,
      "loss": 3.7074,
      "step": 252710
    },
    {
      "epoch": 0.5265,
      "grad_norm": 0.768307089805603,
      "learning_rate": 0.00013845719676661906,
      "loss": 3.7714,
      "step": 252720
    },
    {
      "epoch": 0.5265208333333333,
      "grad_norm": 0.8963768482208252,
      "learning_rate": 0.0001384473674698192,
      "loss": 3.7082,
      "step": 252730
    },
    {
      "epoch": 0.5265416666666667,
      "grad_norm": 0.9936126470565796,
      "learning_rate": 0.0001384375382229222,
      "loss": 3.9641,
      "step": 252740
    },
    {
      "epoch": 0.5265625,
      "grad_norm": 0.9407429695129395,
      "learning_rate": 0.00013842770902597042,
      "loss": 3.9021,
      "step": 252750
    },
    {
      "epoch": 0.5265833333333333,
      "grad_norm": 0.8648540377616882,
      "learning_rate": 0.00013841787987900632,
      "loss": 3.6904,
      "step": 252760
    },
    {
      "epoch": 0.5266041666666667,
      "grad_norm": 0.9930391311645508,
      "learning_rate": 0.00013840805078207247,
      "loss": 3.681,
      "step": 252770
    },
    {
      "epoch": 0.526625,
      "grad_norm": 0.813012421131134,
      "learning_rate": 0.00013839822173521127,
      "loss": 3.7255,
      "step": 252780
    },
    {
      "epoch": 0.5266458333333334,
      "grad_norm": 0.8470891118049622,
      "learning_rate": 0.00013838839273846507,
      "loss": 3.7239,
      "step": 252790
    },
    {
      "epoch": 0.5266666666666666,
      "grad_norm": 0.8051532506942749,
      "learning_rate": 0.00013837856379187645,
      "loss": 3.7952,
      "step": 252800
    },
    {
      "epoch": 0.5266875,
      "grad_norm": 0.7936623096466064,
      "learning_rate": 0.00013836873489548788,
      "loss": 3.6789,
      "step": 252810
    },
    {
      "epoch": 0.5267083333333333,
      "grad_norm": 0.8027592301368713,
      "learning_rate": 0.0001383589060493417,
      "loss": 3.8248,
      "step": 252820
    },
    {
      "epoch": 0.5267291666666667,
      "grad_norm": 0.8735449314117432,
      "learning_rate": 0.00013834907725348045,
      "loss": 3.7444,
      "step": 252830
    },
    {
      "epoch": 0.52675,
      "grad_norm": 0.7582849264144897,
      "learning_rate": 0.00013833924850794663,
      "loss": 3.7144,
      "step": 252840
    },
    {
      "epoch": 0.5267708333333333,
      "grad_norm": 0.9975117444992065,
      "learning_rate": 0.00013832941981278257,
      "loss": 3.695,
      "step": 252850
    },
    {
      "epoch": 0.5267916666666667,
      "grad_norm": 0.9260947704315186,
      "learning_rate": 0.00013831959116803082,
      "loss": 3.6526,
      "step": 252860
    },
    {
      "epoch": 0.5268125,
      "grad_norm": 0.8925214409828186,
      "learning_rate": 0.00013830976257373388,
      "loss": 3.5118,
      "step": 252870
    },
    {
      "epoch": 0.5268333333333334,
      "grad_norm": 1.0835864543914795,
      "learning_rate": 0.00013829993402993403,
      "loss": 3.5246,
      "step": 252880
    },
    {
      "epoch": 0.5268541666666666,
      "grad_norm": 0.744515061378479,
      "learning_rate": 0.0001382901055366739,
      "loss": 3.7524,
      "step": 252890
    },
    {
      "epoch": 0.526875,
      "grad_norm": 0.9484660029411316,
      "learning_rate": 0.0001382802770939959,
      "loss": 3.6129,
      "step": 252900
    },
    {
      "epoch": 0.5268958333333333,
      "grad_norm": 1.049852967262268,
      "learning_rate": 0.00013827044870194237,
      "loss": 3.9121,
      "step": 252910
    },
    {
      "epoch": 0.5269166666666667,
      "grad_norm": 0.738825261592865,
      "learning_rate": 0.00013826062036055597,
      "loss": 3.6007,
      "step": 252920
    },
    {
      "epoch": 0.5269375,
      "grad_norm": 0.7688610553741455,
      "learning_rate": 0.00013825079206987898,
      "loss": 3.6544,
      "step": 252930
    },
    {
      "epoch": 0.5269583333333333,
      "grad_norm": 0.8472484946250916,
      "learning_rate": 0.00013824096382995398,
      "loss": 3.8225,
      "step": 252940
    },
    {
      "epoch": 0.5269791666666667,
      "grad_norm": 0.834343433380127,
      "learning_rate": 0.00013823113564082325,
      "loss": 3.798,
      "step": 252950
    },
    {
      "epoch": 0.527,
      "grad_norm": 0.813008725643158,
      "learning_rate": 0.0001382213075025294,
      "loss": 3.8724,
      "step": 252960
    },
    {
      "epoch": 0.5270208333333334,
      "grad_norm": 0.8213174343109131,
      "learning_rate": 0.0001382114794151149,
      "loss": 3.8512,
      "step": 252970
    },
    {
      "epoch": 0.5270416666666666,
      "grad_norm": 0.7350397706031799,
      "learning_rate": 0.00013820165137862206,
      "loss": 3.7593,
      "step": 252980
    },
    {
      "epoch": 0.5270625,
      "grad_norm": 0.8548792600631714,
      "learning_rate": 0.00013819182339309347,
      "loss": 3.6045,
      "step": 252990
    },
    {
      "epoch": 0.5270833333333333,
      "grad_norm": 0.893197238445282,
      "learning_rate": 0.00013818199545857153,
      "loss": 3.7065,
      "step": 253000
    },
    {
      "epoch": 0.5270833333333333,
      "eval_loss": 4.124715328216553,
      "eval_runtime": 8.8525,
      "eval_samples_per_second": 1.13,
      "eval_steps_per_second": 0.339,
      "step": 253000
    },
    {
      "epoch": 0.5271041666666667,
      "grad_norm": 0.7787232995033264,
      "learning_rate": 0.00013817216757509865,
      "loss": 3.7066,
      "step": 253010
    },
    {
      "epoch": 0.527125,
      "grad_norm": 0.8670411109924316,
      "learning_rate": 0.00013816233974271735,
      "loss": 3.7112,
      "step": 253020
    },
    {
      "epoch": 0.5271458333333333,
      "grad_norm": 0.8170799016952515,
      "learning_rate": 0.00013815251196147007,
      "loss": 3.6854,
      "step": 253030
    },
    {
      "epoch": 0.5271666666666667,
      "grad_norm": 0.961966335773468,
      "learning_rate": 0.00013814268423139922,
      "loss": 3.8097,
      "step": 253040
    },
    {
      "epoch": 0.5271875,
      "grad_norm": 0.8030208945274353,
      "learning_rate": 0.00013813285655254733,
      "loss": 3.8283,
      "step": 253050
    },
    {
      "epoch": 0.5272083333333333,
      "grad_norm": 0.9402021169662476,
      "learning_rate": 0.00013812302892495675,
      "loss": 3.8729,
      "step": 253060
    },
    {
      "epoch": 0.5272291666666666,
      "grad_norm": 0.7552707195281982,
      "learning_rate": 0.00013811320134866998,
      "loss": 3.7539,
      "step": 253070
    },
    {
      "epoch": 0.52725,
      "grad_norm": 0.9298838376998901,
      "learning_rate": 0.0001381033738237295,
      "loss": 3.7005,
      "step": 253080
    },
    {
      "epoch": 0.5272708333333334,
      "grad_norm": 0.9591588377952576,
      "learning_rate": 0.00013809354635017774,
      "loss": 3.9128,
      "step": 253090
    },
    {
      "epoch": 0.5272916666666667,
      "grad_norm": 0.9899852275848389,
      "learning_rate": 0.00013808371892805711,
      "loss": 3.6853,
      "step": 253100
    },
    {
      "epoch": 0.5273125,
      "grad_norm": 0.8417997360229492,
      "learning_rate": 0.00013807389155741015,
      "loss": 3.7215,
      "step": 253110
    },
    {
      "epoch": 0.5273333333333333,
      "grad_norm": 0.8335872888565063,
      "learning_rate": 0.00013806406423827924,
      "loss": 3.6728,
      "step": 253120
    },
    {
      "epoch": 0.5273541666666667,
      "grad_norm": 0.7522159814834595,
      "learning_rate": 0.00013805423697070681,
      "loss": 3.6319,
      "step": 253130
    },
    {
      "epoch": 0.527375,
      "grad_norm": 1.057496428489685,
      "learning_rate": 0.0001380444097547354,
      "loss": 3.6681,
      "step": 253140
    },
    {
      "epoch": 0.5273958333333333,
      "grad_norm": 0.7638730406761169,
      "learning_rate": 0.00013803458259040744,
      "loss": 3.8066,
      "step": 253150
    },
    {
      "epoch": 0.5274166666666666,
      "grad_norm": 0.7927875518798828,
      "learning_rate": 0.00013802475547776524,
      "loss": 3.8738,
      "step": 253160
    },
    {
      "epoch": 0.5274375,
      "grad_norm": 0.8129875659942627,
      "learning_rate": 0.00013801492841685142,
      "loss": 3.8253,
      "step": 253170
    },
    {
      "epoch": 0.5274583333333334,
      "grad_norm": 0.8874080777168274,
      "learning_rate": 0.00013800510140770837,
      "loss": 3.758,
      "step": 253180
    },
    {
      "epoch": 0.5274791666666667,
      "grad_norm": 0.8131589293479919,
      "learning_rate": 0.0001379952744503785,
      "loss": 3.7865,
      "step": 253190
    },
    {
      "epoch": 0.5275,
      "grad_norm": 0.880673885345459,
      "learning_rate": 0.00013798544754490432,
      "loss": 3.9416,
      "step": 253200
    },
    {
      "epoch": 0.5275208333333333,
      "grad_norm": 0.8391412496566772,
      "learning_rate": 0.00013797562069132826,
      "loss": 3.7486,
      "step": 253210
    },
    {
      "epoch": 0.5275416666666667,
      "grad_norm": 0.7463292479515076,
      "learning_rate": 0.00013796579388969274,
      "loss": 3.8061,
      "step": 253220
    },
    {
      "epoch": 0.5275625,
      "grad_norm": 0.8246400356292725,
      "learning_rate": 0.0001379559671400402,
      "loss": 3.7554,
      "step": 253230
    },
    {
      "epoch": 0.5275833333333333,
      "grad_norm": 0.8639206290245056,
      "learning_rate": 0.00013794614044241316,
      "loss": 3.7512,
      "step": 253240
    },
    {
      "epoch": 0.5276041666666667,
      "grad_norm": 0.8235897421836853,
      "learning_rate": 0.00013793631379685402,
      "loss": 3.8906,
      "step": 253250
    },
    {
      "epoch": 0.527625,
      "grad_norm": 1.6790705919265747,
      "learning_rate": 0.0001379264872034052,
      "loss": 3.8336,
      "step": 253260
    },
    {
      "epoch": 0.5276458333333334,
      "grad_norm": 0.8648250699043274,
      "learning_rate": 0.0001379166606621092,
      "loss": 3.932,
      "step": 253270
    },
    {
      "epoch": 0.5276666666666666,
      "grad_norm": 0.8091555237770081,
      "learning_rate": 0.00013790683417300845,
      "loss": 3.7962,
      "step": 253280
    },
    {
      "epoch": 0.5276875,
      "grad_norm": 0.8869096636772156,
      "learning_rate": 0.00013789700773614535,
      "loss": 3.7869,
      "step": 253290
    },
    {
      "epoch": 0.5277083333333333,
      "grad_norm": 1.1064176559448242,
      "learning_rate": 0.00013788718135156243,
      "loss": 3.8828,
      "step": 253300
    },
    {
      "epoch": 0.5277291666666667,
      "grad_norm": 0.8465163707733154,
      "learning_rate": 0.0001378773550193021,
      "loss": 3.7205,
      "step": 253310
    },
    {
      "epoch": 0.52775,
      "grad_norm": 0.8086185455322266,
      "learning_rate": 0.00013786752873940674,
      "loss": 3.6553,
      "step": 253320
    },
    {
      "epoch": 0.5277708333333333,
      "grad_norm": 0.8218013644218445,
      "learning_rate": 0.00013785770251191885,
      "loss": 3.7511,
      "step": 253330
    },
    {
      "epoch": 0.5277916666666667,
      "grad_norm": 0.9258266687393188,
      "learning_rate": 0.00013784787633688096,
      "loss": 3.7497,
      "step": 253340
    },
    {
      "epoch": 0.5278125,
      "grad_norm": 0.7742534279823303,
      "learning_rate": 0.00013783805021433537,
      "loss": 3.7772,
      "step": 253350
    },
    {
      "epoch": 0.5278333333333334,
      "grad_norm": 0.7837116718292236,
      "learning_rate": 0.0001378282241443246,
      "loss": 3.7326,
      "step": 253360
    },
    {
      "epoch": 0.5278541666666666,
      "grad_norm": 0.7461021542549133,
      "learning_rate": 0.0001378183981268911,
      "loss": 4.0029,
      "step": 253370
    },
    {
      "epoch": 0.527875,
      "grad_norm": 0.7957500219345093,
      "learning_rate": 0.00013780857216207724,
      "loss": 3.6329,
      "step": 253380
    },
    {
      "epoch": 0.5278958333333333,
      "grad_norm": 0.8293823003768921,
      "learning_rate": 0.00013779874624992558,
      "loss": 3.6804,
      "step": 253390
    },
    {
      "epoch": 0.5279166666666667,
      "grad_norm": 0.9985794425010681,
      "learning_rate": 0.00013778892039047853,
      "loss": 3.5515,
      "step": 253400
    },
    {
      "epoch": 0.5279375,
      "grad_norm": 0.8065451383590698,
      "learning_rate": 0.00013777909458377843,
      "loss": 3.6693,
      "step": 253410
    },
    {
      "epoch": 0.5279583333333333,
      "grad_norm": 0.8864098191261292,
      "learning_rate": 0.0001377692688298679,
      "loss": 3.9051,
      "step": 253420
    },
    {
      "epoch": 0.5279791666666667,
      "grad_norm": 0.8059552311897278,
      "learning_rate": 0.00013775944312878922,
      "loss": 3.8006,
      "step": 253430
    },
    {
      "epoch": 0.528,
      "grad_norm": 0.7521742582321167,
      "learning_rate": 0.0001377496174805849,
      "loss": 3.6571,
      "step": 253440
    },
    {
      "epoch": 0.5280208333333334,
      "grad_norm": 0.9812058806419373,
      "learning_rate": 0.00013773979188529744,
      "loss": 3.7436,
      "step": 253450
    },
    {
      "epoch": 0.5280416666666666,
      "grad_norm": 1.0726009607315063,
      "learning_rate": 0.00013772996634296917,
      "loss": 3.672,
      "step": 253460
    },
    {
      "epoch": 0.5280625,
      "grad_norm": 1.6035970449447632,
      "learning_rate": 0.00013772014085364258,
      "loss": 3.6981,
      "step": 253470
    },
    {
      "epoch": 0.5280833333333333,
      "grad_norm": 0.7855257391929626,
      "learning_rate": 0.00013771031541736018,
      "loss": 3.6293,
      "step": 253480
    },
    {
      "epoch": 0.5281041666666667,
      "grad_norm": 1.0821418762207031,
      "learning_rate": 0.00013770049003416433,
      "loss": 3.7437,
      "step": 253490
    },
    {
      "epoch": 0.528125,
      "grad_norm": 0.917081356048584,
      "learning_rate": 0.00013769066470409745,
      "loss": 3.9998,
      "step": 253500
    },
    {
      "epoch": 0.5281458333333333,
      "grad_norm": 0.7834170460700989,
      "learning_rate": 0.0001376808394272021,
      "loss": 3.7272,
      "step": 253510
    },
    {
      "epoch": 0.5281666666666667,
      "grad_norm": 0.8371496200561523,
      "learning_rate": 0.0001376710142035206,
      "loss": 3.8883,
      "step": 253520
    },
    {
      "epoch": 0.5281875,
      "grad_norm": 0.9339723587036133,
      "learning_rate": 0.00013766118903309546,
      "loss": 3.7258,
      "step": 253530
    },
    {
      "epoch": 0.5282083333333333,
      "grad_norm": 0.9745619893074036,
      "learning_rate": 0.00013765136391596906,
      "loss": 3.7219,
      "step": 253540
    },
    {
      "epoch": 0.5282291666666666,
      "grad_norm": 0.824205756187439,
      "learning_rate": 0.00013764153885218393,
      "loss": 3.7371,
      "step": 253550
    },
    {
      "epoch": 0.52825,
      "grad_norm": 0.9742938280105591,
      "learning_rate": 0.00013763171384178244,
      "loss": 3.5251,
      "step": 253560
    },
    {
      "epoch": 0.5282708333333334,
      "grad_norm": 0.892684280872345,
      "learning_rate": 0.00013762188888480703,
      "loss": 3.7433,
      "step": 253570
    },
    {
      "epoch": 0.5282916666666667,
      "grad_norm": 0.7816056609153748,
      "learning_rate": 0.0001376120639813002,
      "loss": 3.7608,
      "step": 253580
    },
    {
      "epoch": 0.5283125,
      "grad_norm": 1.117725133895874,
      "learning_rate": 0.00013760223913130432,
      "loss": 3.6521,
      "step": 253590
    },
    {
      "epoch": 0.5283333333333333,
      "grad_norm": 0.9420433044433594,
      "learning_rate": 0.00013759241433486182,
      "loss": 3.9291,
      "step": 253600
    },
    {
      "epoch": 0.5283541666666667,
      "grad_norm": 0.9703792333602905,
      "learning_rate": 0.00013758258959201526,
      "loss": 3.8698,
      "step": 253610
    },
    {
      "epoch": 0.528375,
      "grad_norm": 0.7439780831336975,
      "learning_rate": 0.00013757276490280698,
      "loss": 3.9973,
      "step": 253620
    },
    {
      "epoch": 0.5283958333333333,
      "grad_norm": 1.2627887725830078,
      "learning_rate": 0.00013756294026727938,
      "loss": 3.7212,
      "step": 253630
    },
    {
      "epoch": 0.5284166666666666,
      "grad_norm": 0.7590795159339905,
      "learning_rate": 0.00013755311568547504,
      "loss": 3.6626,
      "step": 253640
    },
    {
      "epoch": 0.5284375,
      "grad_norm": 0.7751816511154175,
      "learning_rate": 0.00013754329115743628,
      "loss": 3.9021,
      "step": 253650
    },
    {
      "epoch": 0.5284583333333334,
      "grad_norm": 0.8318937420845032,
      "learning_rate": 0.00013753346668320552,
      "loss": 3.847,
      "step": 253660
    },
    {
      "epoch": 0.5284791666666667,
      "grad_norm": 0.9181203842163086,
      "learning_rate": 0.0001375236422628253,
      "loss": 3.6594,
      "step": 253670
    },
    {
      "epoch": 0.5285,
      "grad_norm": 0.9948830008506775,
      "learning_rate": 0.00013751381789633803,
      "loss": 3.5959,
      "step": 253680
    },
    {
      "epoch": 0.5285208333333333,
      "grad_norm": 0.7797302603721619,
      "learning_rate": 0.00013750399358378605,
      "loss": 3.7615,
      "step": 253690
    },
    {
      "epoch": 0.5285416666666667,
      "grad_norm": 1.0757815837860107,
      "learning_rate": 0.00013749416932521191,
      "loss": 3.7912,
      "step": 253700
    },
    {
      "epoch": 0.5285625,
      "grad_norm": 0.824528694152832,
      "learning_rate": 0.00013748434512065804,
      "loss": 3.705,
      "step": 253710
    },
    {
      "epoch": 0.5285833333333333,
      "grad_norm": 0.9563590884208679,
      "learning_rate": 0.00013747452097016678,
      "loss": 3.6131,
      "step": 253720
    },
    {
      "epoch": 0.5286041666666667,
      "grad_norm": 0.9332277774810791,
      "learning_rate": 0.00013746469687378067,
      "loss": 3.667,
      "step": 253730
    },
    {
      "epoch": 0.528625,
      "grad_norm": 0.9615931510925293,
      "learning_rate": 0.00013745487283154214,
      "loss": 3.7125,
      "step": 253740
    },
    {
      "epoch": 0.5286458333333334,
      "grad_norm": 0.9684070348739624,
      "learning_rate": 0.00013744504884349352,
      "loss": 3.6934,
      "step": 253750
    },
    {
      "epoch": 0.5286666666666666,
      "grad_norm": 1.117098093032837,
      "learning_rate": 0.00013743522490967735,
      "loss": 3.9384,
      "step": 253760
    },
    {
      "epoch": 0.5286875,
      "grad_norm": 0.7807236313819885,
      "learning_rate": 0.0001374254010301361,
      "loss": 3.7071,
      "step": 253770
    },
    {
      "epoch": 0.5287083333333333,
      "grad_norm": 0.9249552488327026,
      "learning_rate": 0.00013741557720491204,
      "loss": 3.6831,
      "step": 253780
    },
    {
      "epoch": 0.5287291666666667,
      "grad_norm": 0.8302819132804871,
      "learning_rate": 0.00013740575343404777,
      "loss": 3.6739,
      "step": 253790
    },
    {
      "epoch": 0.52875,
      "grad_norm": 0.8544437885284424,
      "learning_rate": 0.00013739592971758564,
      "loss": 3.6253,
      "step": 253800
    },
    {
      "epoch": 0.5287708333333333,
      "grad_norm": 0.7614310383796692,
      "learning_rate": 0.00013738610605556814,
      "loss": 3.7145,
      "step": 253810
    },
    {
      "epoch": 0.5287916666666667,
      "grad_norm": 1.0410888195037842,
      "learning_rate": 0.0001373762824480376,
      "loss": 3.6408,
      "step": 253820
    },
    {
      "epoch": 0.5288125,
      "grad_norm": 0.9317022562026978,
      "learning_rate": 0.00013736645889503654,
      "loss": 3.7889,
      "step": 253830
    },
    {
      "epoch": 0.5288333333333334,
      "grad_norm": 0.9186235666275024,
      "learning_rate": 0.00013735663539660744,
      "loss": 3.6635,
      "step": 253840
    },
    {
      "epoch": 0.5288541666666666,
      "grad_norm": 0.7771286368370056,
      "learning_rate": 0.00013734681195279257,
      "loss": 3.7395,
      "step": 253850
    },
    {
      "epoch": 0.528875,
      "grad_norm": 0.7509061098098755,
      "learning_rate": 0.00013733698856363452,
      "loss": 3.8314,
      "step": 253860
    },
    {
      "epoch": 0.5288958333333333,
      "grad_norm": 0.864844560623169,
      "learning_rate": 0.00013732716522917571,
      "loss": 3.7545,
      "step": 253870
    },
    {
      "epoch": 0.5289166666666667,
      "grad_norm": 0.9110155701637268,
      "learning_rate": 0.00013731734194945844,
      "loss": 3.7938,
      "step": 253880
    },
    {
      "epoch": 0.5289375,
      "grad_norm": 0.959554135799408,
      "learning_rate": 0.00013730751872452528,
      "loss": 3.6386,
      "step": 253890
    },
    {
      "epoch": 0.5289583333333333,
      "grad_norm": 0.8023241758346558,
      "learning_rate": 0.00013729769555441862,
      "loss": 3.7811,
      "step": 253900
    },
    {
      "epoch": 0.5289791666666667,
      "grad_norm": 0.7845902442932129,
      "learning_rate": 0.00013728787243918086,
      "loss": 3.7804,
      "step": 253910
    },
    {
      "epoch": 0.529,
      "grad_norm": 0.8952756524085999,
      "learning_rate": 0.0001372780493788545,
      "loss": 3.7237,
      "step": 253920
    },
    {
      "epoch": 0.5290208333333334,
      "grad_norm": 0.807442307472229,
      "learning_rate": 0.0001372682263734819,
      "loss": 3.7162,
      "step": 253930
    },
    {
      "epoch": 0.5290416666666666,
      "grad_norm": 0.8739255666732788,
      "learning_rate": 0.0001372584034231055,
      "loss": 3.7633,
      "step": 253940
    },
    {
      "epoch": 0.5290625,
      "grad_norm": 0.8414581418037415,
      "learning_rate": 0.0001372485805277678,
      "loss": 3.6313,
      "step": 253950
    },
    {
      "epoch": 0.5290833333333333,
      "grad_norm": 0.9693530797958374,
      "learning_rate": 0.0001372387576875112,
      "loss": 3.697,
      "step": 253960
    },
    {
      "epoch": 0.5291041666666667,
      "grad_norm": 1.0596728324890137,
      "learning_rate": 0.00013722893490237804,
      "loss": 3.728,
      "step": 253970
    },
    {
      "epoch": 0.529125,
      "grad_norm": 0.7573428153991699,
      "learning_rate": 0.0001372191121724109,
      "loss": 3.7827,
      "step": 253980
    },
    {
      "epoch": 0.5291458333333333,
      "grad_norm": 1.1389986276626587,
      "learning_rate": 0.00013720928949765212,
      "loss": 3.7784,
      "step": 253990
    },
    {
      "epoch": 0.5291666666666667,
      "grad_norm": 0.810731053352356,
      "learning_rate": 0.0001371994668781441,
      "loss": 3.7919,
      "step": 254000
    },
    {
      "epoch": 0.5291666666666667,
      "eval_loss": 4.122403144836426,
      "eval_runtime": 10.1956,
      "eval_samples_per_second": 0.981,
      "eval_steps_per_second": 0.294,
      "step": 254000
    },
    {
      "epoch": 0.5291875,
      "grad_norm": 0.8204058408737183,
      "learning_rate": 0.00013718964431392938,
      "loss": 3.823,
      "step": 254010
    },
    {
      "epoch": 0.5292083333333333,
      "grad_norm": 0.7740548849105835,
      "learning_rate": 0.00013717982180505028,
      "loss": 3.8079,
      "step": 254020
    },
    {
      "epoch": 0.5292291666666666,
      "grad_norm": 0.755841851234436,
      "learning_rate": 0.00013716999935154927,
      "loss": 3.7706,
      "step": 254030
    },
    {
      "epoch": 0.52925,
      "grad_norm": 0.8501589894294739,
      "learning_rate": 0.00013716017695346883,
      "loss": 3.8909,
      "step": 254040
    },
    {
      "epoch": 0.5292708333333334,
      "grad_norm": 0.7819055318832397,
      "learning_rate": 0.00013715035461085134,
      "loss": 3.7938,
      "step": 254050
    },
    {
      "epoch": 0.5292916666666667,
      "grad_norm": 0.9153684973716736,
      "learning_rate": 0.00013714053232373918,
      "loss": 3.7628,
      "step": 254060
    },
    {
      "epoch": 0.5293125,
      "grad_norm": 0.9104646444320679,
      "learning_rate": 0.00013713071009217488,
      "loss": 3.8099,
      "step": 254070
    },
    {
      "epoch": 0.5293333333333333,
      "grad_norm": 0.8347089290618896,
      "learning_rate": 0.0001371208879162008,
      "loss": 3.8397,
      "step": 254080
    },
    {
      "epoch": 0.5293541666666667,
      "grad_norm": 0.7899370789527893,
      "learning_rate": 0.00013711106579585938,
      "loss": 3.8055,
      "step": 254090
    },
    {
      "epoch": 0.529375,
      "grad_norm": 0.8034093379974365,
      "learning_rate": 0.00013710124373119304,
      "loss": 3.7451,
      "step": 254100
    },
    {
      "epoch": 0.5293958333333333,
      "grad_norm": 0.9439089894294739,
      "learning_rate": 0.00013709142172224428,
      "loss": 3.6787,
      "step": 254110
    },
    {
      "epoch": 0.5294166666666666,
      "grad_norm": 0.7825508117675781,
      "learning_rate": 0.00013708159976905544,
      "loss": 3.6777,
      "step": 254120
    },
    {
      "epoch": 0.5294375,
      "grad_norm": 0.8466629981994629,
      "learning_rate": 0.0001370717778716689,
      "loss": 3.8492,
      "step": 254130
    },
    {
      "epoch": 0.5294583333333334,
      "grad_norm": 0.755870521068573,
      "learning_rate": 0.00013706195603012728,
      "loss": 3.821,
      "step": 254140
    },
    {
      "epoch": 0.5294791666666666,
      "grad_norm": 1.1615263223648071,
      "learning_rate": 0.00013705213424447285,
      "loss": 3.7254,
      "step": 254150
    },
    {
      "epoch": 0.5295,
      "grad_norm": 0.858166515827179,
      "learning_rate": 0.00013704231251474805,
      "loss": 3.6809,
      "step": 254160
    },
    {
      "epoch": 0.5295208333333333,
      "grad_norm": 0.7629498243331909,
      "learning_rate": 0.00013703249084099533,
      "loss": 3.7806,
      "step": 254170
    },
    {
      "epoch": 0.5295416666666667,
      "grad_norm": 0.8028103113174438,
      "learning_rate": 0.00013702266922325715,
      "loss": 3.7355,
      "step": 254180
    },
    {
      "epoch": 0.5295625,
      "grad_norm": 0.8810603022575378,
      "learning_rate": 0.00013701284766157585,
      "loss": 3.9037,
      "step": 254190
    },
    {
      "epoch": 0.5295833333333333,
      "grad_norm": 0.7739567160606384,
      "learning_rate": 0.00013700302615599395,
      "loss": 3.7612,
      "step": 254200
    },
    {
      "epoch": 0.5296041666666667,
      "grad_norm": 0.8600564002990723,
      "learning_rate": 0.00013699320470655384,
      "loss": 3.7688,
      "step": 254210
    },
    {
      "epoch": 0.529625,
      "grad_norm": 0.7788454294204712,
      "learning_rate": 0.0001369833833132979,
      "loss": 3.7033,
      "step": 254220
    },
    {
      "epoch": 0.5296458333333334,
      "grad_norm": 0.9414087533950806,
      "learning_rate": 0.00013697356197626859,
      "loss": 3.8874,
      "step": 254230
    },
    {
      "epoch": 0.5296666666666666,
      "grad_norm": 0.9201797842979431,
      "learning_rate": 0.00013696374069550838,
      "loss": 3.8538,
      "step": 254240
    },
    {
      "epoch": 0.5296875,
      "grad_norm": 1.200181245803833,
      "learning_rate": 0.0001369539194710596,
      "loss": 3.7885,
      "step": 254250
    },
    {
      "epoch": 0.5297083333333333,
      "grad_norm": 0.9571928381919861,
      "learning_rate": 0.00013694409830296476,
      "loss": 3.8414,
      "step": 254260
    },
    {
      "epoch": 0.5297291666666667,
      "grad_norm": 0.7659896612167358,
      "learning_rate": 0.00013693427719126627,
      "loss": 3.7739,
      "step": 254270
    },
    {
      "epoch": 0.52975,
      "grad_norm": 0.9285878539085388,
      "learning_rate": 0.00013692445613600645,
      "loss": 3.7994,
      "step": 254280
    },
    {
      "epoch": 0.5297708333333333,
      "grad_norm": 0.8404405117034912,
      "learning_rate": 0.00013691463513722788,
      "loss": 3.7324,
      "step": 254290
    },
    {
      "epoch": 0.5297916666666667,
      "grad_norm": 0.7715829014778137,
      "learning_rate": 0.0001369048141949729,
      "loss": 3.9433,
      "step": 254300
    },
    {
      "epoch": 0.5298125,
      "grad_norm": 0.7808739542961121,
      "learning_rate": 0.00013689499330928387,
      "loss": 3.7306,
      "step": 254310
    },
    {
      "epoch": 0.5298333333333334,
      "grad_norm": 0.9039840698242188,
      "learning_rate": 0.00013688517248020335,
      "loss": 3.7734,
      "step": 254320
    },
    {
      "epoch": 0.5298541666666666,
      "grad_norm": 0.9052484631538391,
      "learning_rate": 0.00013687535170777367,
      "loss": 3.5385,
      "step": 254330
    },
    {
      "epoch": 0.529875,
      "grad_norm": 0.7674733400344849,
      "learning_rate": 0.00013686553099203727,
      "loss": 3.5484,
      "step": 254340
    },
    {
      "epoch": 0.5298958333333333,
      "grad_norm": 0.989649772644043,
      "learning_rate": 0.0001368557103330366,
      "loss": 3.7882,
      "step": 254350
    },
    {
      "epoch": 0.5299166666666667,
      "grad_norm": 0.7857910990715027,
      "learning_rate": 0.00013684588973081406,
      "loss": 3.7366,
      "step": 254360
    },
    {
      "epoch": 0.5299375,
      "grad_norm": 0.8461480736732483,
      "learning_rate": 0.000136836069185412,
      "loss": 3.8915,
      "step": 254370
    },
    {
      "epoch": 0.5299583333333333,
      "grad_norm": 0.781866192817688,
      "learning_rate": 0.00013682624869687299,
      "loss": 3.6097,
      "step": 254380
    },
    {
      "epoch": 0.5299791666666667,
      "grad_norm": 0.7901949286460876,
      "learning_rate": 0.00013681642826523935,
      "loss": 3.9048,
      "step": 254390
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.875247597694397,
      "learning_rate": 0.00013680660789055355,
      "loss": 3.9236,
      "step": 254400
    },
    {
      "epoch": 0.5300208333333334,
      "grad_norm": 0.8775650858879089,
      "learning_rate": 0.0001367967875728579,
      "loss": 3.7057,
      "step": 254410
    },
    {
      "epoch": 0.5300416666666666,
      "grad_norm": 0.9066821932792664,
      "learning_rate": 0.00013678696731219499,
      "loss": 3.8168,
      "step": 254420
    },
    {
      "epoch": 0.5300625,
      "grad_norm": 1.0704376697540283,
      "learning_rate": 0.00013677714710860712,
      "loss": 3.5802,
      "step": 254430
    },
    {
      "epoch": 0.5300833333333334,
      "grad_norm": 0.8841604590415955,
      "learning_rate": 0.0001367673269621367,
      "loss": 3.6722,
      "step": 254440
    },
    {
      "epoch": 0.5301041666666667,
      "grad_norm": 0.7459560632705688,
      "learning_rate": 0.00013675750687282623,
      "loss": 3.8681,
      "step": 254450
    },
    {
      "epoch": 0.530125,
      "grad_norm": 0.7916098833084106,
      "learning_rate": 0.0001367476868407181,
      "loss": 3.7104,
      "step": 254460
    },
    {
      "epoch": 0.5301458333333333,
      "grad_norm": 0.8016301989555359,
      "learning_rate": 0.00013673786686585465,
      "loss": 3.8605,
      "step": 254470
    },
    {
      "epoch": 0.5301666666666667,
      "grad_norm": 0.810960054397583,
      "learning_rate": 0.00013672804694827846,
      "loss": 3.7378,
      "step": 254480
    },
    {
      "epoch": 0.5301875,
      "grad_norm": 0.9670642018318176,
      "learning_rate": 0.00013671822708803178,
      "loss": 3.6634,
      "step": 254490
    },
    {
      "epoch": 0.5302083333333333,
      "grad_norm": 0.7642123699188232,
      "learning_rate": 0.0001367084072851571,
      "loss": 3.5971,
      "step": 254500
    },
    {
      "epoch": 0.5302291666666666,
      "grad_norm": 0.8441513180732727,
      "learning_rate": 0.0001366985875396969,
      "loss": 3.7558,
      "step": 254510
    },
    {
      "epoch": 0.53025,
      "grad_norm": 0.785293459892273,
      "learning_rate": 0.0001366887678516935,
      "loss": 3.5933,
      "step": 254520
    },
    {
      "epoch": 0.5302708333333334,
      "grad_norm": 1.1204665899276733,
      "learning_rate": 0.00013667894822118933,
      "loss": 3.7151,
      "step": 254530
    },
    {
      "epoch": 0.5302916666666667,
      "grad_norm": 0.8048975467681885,
      "learning_rate": 0.00013666912864822688,
      "loss": 3.7075,
      "step": 254540
    },
    {
      "epoch": 0.5303125,
      "grad_norm": 0.9506286978721619,
      "learning_rate": 0.00013665930913284854,
      "loss": 3.6831,
      "step": 254550
    },
    {
      "epoch": 0.5303333333333333,
      "grad_norm": 0.7832056283950806,
      "learning_rate": 0.0001366494896750966,
      "loss": 3.7274,
      "step": 254560
    },
    {
      "epoch": 0.5303541666666667,
      "grad_norm": 0.8618493676185608,
      "learning_rate": 0.00013663967027501366,
      "loss": 3.9743,
      "step": 254570
    },
    {
      "epoch": 0.530375,
      "grad_norm": 0.8276554942131042,
      "learning_rate": 0.00013662985093264207,
      "loss": 3.652,
      "step": 254580
    },
    {
      "epoch": 0.5303958333333333,
      "grad_norm": 0.7839789986610413,
      "learning_rate": 0.00013662003164802416,
      "loss": 3.6127,
      "step": 254590
    },
    {
      "epoch": 0.5304166666666666,
      "grad_norm": 0.8168576955795288,
      "learning_rate": 0.00013661021242120246,
      "loss": 3.5973,
      "step": 254600
    },
    {
      "epoch": 0.5304375,
      "grad_norm": 0.8155636191368103,
      "learning_rate": 0.00013660039325221938,
      "loss": 3.53,
      "step": 254610
    },
    {
      "epoch": 0.5304583333333334,
      "grad_norm": 1.0133954286575317,
      "learning_rate": 0.0001365905741411172,
      "loss": 3.8802,
      "step": 254620
    },
    {
      "epoch": 0.5304791666666666,
      "grad_norm": 1.103303074836731,
      "learning_rate": 0.0001365807550879385,
      "loss": 3.8613,
      "step": 254630
    },
    {
      "epoch": 0.5305,
      "grad_norm": 0.7462508082389832,
      "learning_rate": 0.00013657093609272563,
      "loss": 3.8067,
      "step": 254640
    },
    {
      "epoch": 0.5305208333333333,
      "grad_norm": 0.8616495728492737,
      "learning_rate": 0.00013656111715552096,
      "loss": 3.8953,
      "step": 254650
    },
    {
      "epoch": 0.5305416666666667,
      "grad_norm": 0.9653444290161133,
      "learning_rate": 0.000136551298276367,
      "loss": 3.7941,
      "step": 254660
    },
    {
      "epoch": 0.5305625,
      "grad_norm": 0.7454038858413696,
      "learning_rate": 0.00013654147945530606,
      "loss": 3.6964,
      "step": 254670
    },
    {
      "epoch": 0.5305833333333333,
      "grad_norm": 0.8110095262527466,
      "learning_rate": 0.0001365316606923806,
      "loss": 3.6958,
      "step": 254680
    },
    {
      "epoch": 0.5306041666666667,
      "grad_norm": 0.9056663513183594,
      "learning_rate": 0.0001365218419876331,
      "loss": 3.8615,
      "step": 254690
    },
    {
      "epoch": 0.530625,
      "grad_norm": 0.9066010117530823,
      "learning_rate": 0.00013651202334110583,
      "loss": 3.7592,
      "step": 254700
    },
    {
      "epoch": 0.5306458333333334,
      "grad_norm": 0.8405869007110596,
      "learning_rate": 0.00013650220475284132,
      "loss": 3.8135,
      "step": 254710
    },
    {
      "epoch": 0.5306666666666666,
      "grad_norm": 1.0806094408035278,
      "learning_rate": 0.0001364923862228819,
      "loss": 3.8301,
      "step": 254720
    },
    {
      "epoch": 0.5306875,
      "grad_norm": 1.0848864316940308,
      "learning_rate": 0.00013648256775127007,
      "loss": 3.7297,
      "step": 254730
    },
    {
      "epoch": 0.5307083333333333,
      "grad_norm": 1.1578599214553833,
      "learning_rate": 0.0001364727493380482,
      "loss": 3.7108,
      "step": 254740
    },
    {
      "epoch": 0.5307291666666667,
      "grad_norm": 0.8667541146278381,
      "learning_rate": 0.00013646293098325867,
      "loss": 3.862,
      "step": 254750
    },
    {
      "epoch": 0.53075,
      "grad_norm": 0.8220188021659851,
      "learning_rate": 0.00013645311268694393,
      "loss": 3.9898,
      "step": 254760
    },
    {
      "epoch": 0.5307708333333333,
      "grad_norm": 1.3105213642120361,
      "learning_rate": 0.00013644329444914642,
      "loss": 3.7662,
      "step": 254770
    },
    {
      "epoch": 0.5307916666666667,
      "grad_norm": 0.9824252128601074,
      "learning_rate": 0.00013643347626990843,
      "loss": 3.7213,
      "step": 254780
    },
    {
      "epoch": 0.5308125,
      "grad_norm": 0.8431538939476013,
      "learning_rate": 0.00013642365814927254,
      "loss": 3.6082,
      "step": 254790
    },
    {
      "epoch": 0.5308333333333334,
      "grad_norm": 0.8153051137924194,
      "learning_rate": 0.00013641384008728104,
      "loss": 3.7216,
      "step": 254800
    },
    {
      "epoch": 0.5308541666666666,
      "grad_norm": 0.7687447667121887,
      "learning_rate": 0.00013640402208397632,
      "loss": 3.9588,
      "step": 254810
    },
    {
      "epoch": 0.530875,
      "grad_norm": 1.0048290491104126,
      "learning_rate": 0.0001363942041394009,
      "loss": 3.8041,
      "step": 254820
    },
    {
      "epoch": 0.5308958333333333,
      "grad_norm": 0.9777352213859558,
      "learning_rate": 0.00013638438625359711,
      "loss": 3.8378,
      "step": 254830
    },
    {
      "epoch": 0.5309166666666667,
      "grad_norm": 0.8671277761459351,
      "learning_rate": 0.00013637456842660738,
      "loss": 3.6917,
      "step": 254840
    },
    {
      "epoch": 0.5309375,
      "grad_norm": 0.756738007068634,
      "learning_rate": 0.00013636475065847417,
      "loss": 3.7358,
      "step": 254850
    },
    {
      "epoch": 0.5309583333333333,
      "grad_norm": 0.8646453022956848,
      "learning_rate": 0.0001363549329492398,
      "loss": 3.6845,
      "step": 254860
    },
    {
      "epoch": 0.5309791666666667,
      "grad_norm": 0.8398450613021851,
      "learning_rate": 0.0001363451152989467,
      "loss": 3.9496,
      "step": 254870
    },
    {
      "epoch": 0.531,
      "grad_norm": 0.9804638028144836,
      "learning_rate": 0.0001363352977076373,
      "loss": 3.9072,
      "step": 254880
    },
    {
      "epoch": 0.5310208333333334,
      "grad_norm": 0.7617539763450623,
      "learning_rate": 0.00013632548017535403,
      "loss": 3.7271,
      "step": 254890
    },
    {
      "epoch": 0.5310416666666666,
      "grad_norm": 0.7734107375144958,
      "learning_rate": 0.00013631566270213926,
      "loss": 3.615,
      "step": 254900
    },
    {
      "epoch": 0.5310625,
      "grad_norm": 0.8331478238105774,
      "learning_rate": 0.00013630584528803543,
      "loss": 3.5964,
      "step": 254910
    },
    {
      "epoch": 0.5310833333333334,
      "grad_norm": 0.7848533987998962,
      "learning_rate": 0.00013629602793308496,
      "loss": 3.7416,
      "step": 254920
    },
    {
      "epoch": 0.5311041666666667,
      "grad_norm": 0.702379047870636,
      "learning_rate": 0.00013628621063733014,
      "loss": 3.7356,
      "step": 254930
    },
    {
      "epoch": 0.531125,
      "grad_norm": 0.8929193615913391,
      "learning_rate": 0.0001362763934008135,
      "loss": 3.6837,
      "step": 254940
    },
    {
      "epoch": 0.5311458333333333,
      "grad_norm": 0.9402081370353699,
      "learning_rate": 0.00013626657622357744,
      "loss": 3.5947,
      "step": 254950
    },
    {
      "epoch": 0.5311666666666667,
      "grad_norm": 0.8313303589820862,
      "learning_rate": 0.00013625675910566428,
      "loss": 3.8838,
      "step": 254960
    },
    {
      "epoch": 0.5311875,
      "grad_norm": 0.9198497533798218,
      "learning_rate": 0.0001362469420471165,
      "loss": 3.8654,
      "step": 254970
    },
    {
      "epoch": 0.5312083333333333,
      "grad_norm": 1.1181988716125488,
      "learning_rate": 0.00013623712504797652,
      "loss": 3.8608,
      "step": 254980
    },
    {
      "epoch": 0.5312291666666666,
      "grad_norm": 1.3333523273468018,
      "learning_rate": 0.00013622730810828668,
      "loss": 3.8642,
      "step": 254990
    },
    {
      "epoch": 0.53125,
      "grad_norm": 0.7953290939331055,
      "learning_rate": 0.00013621749122808937,
      "loss": 3.6299,
      "step": 255000
    },
    {
      "epoch": 0.53125,
      "eval_loss": 4.131256103515625,
      "eval_runtime": 8.6305,
      "eval_samples_per_second": 1.159,
      "eval_steps_per_second": 0.348,
      "step": 255000
    },
    {
      "epoch": 0.5312708333333334,
      "grad_norm": 0.801349401473999,
      "learning_rate": 0.00013620767440742713,
      "loss": 3.7722,
      "step": 255010
    },
    {
      "epoch": 0.5312916666666667,
      "grad_norm": 0.8765279054641724,
      "learning_rate": 0.00013619785764634225,
      "loss": 3.8414,
      "step": 255020
    },
    {
      "epoch": 0.5313125,
      "grad_norm": 0.8635844588279724,
      "learning_rate": 0.0001361880409448771,
      "loss": 3.5596,
      "step": 255030
    },
    {
      "epoch": 0.5313333333333333,
      "grad_norm": 1.2603449821472168,
      "learning_rate": 0.00013617822430307423,
      "loss": 3.6916,
      "step": 255040
    },
    {
      "epoch": 0.5313541666666667,
      "grad_norm": 0.9013410806655884,
      "learning_rate": 0.00013616840772097597,
      "loss": 3.7865,
      "step": 255050
    },
    {
      "epoch": 0.531375,
      "grad_norm": 0.7853345274925232,
      "learning_rate": 0.00013615859119862464,
      "loss": 3.725,
      "step": 255060
    },
    {
      "epoch": 0.5313958333333333,
      "grad_norm": 1.3941943645477295,
      "learning_rate": 0.00013614877473606274,
      "loss": 3.813,
      "step": 255070
    },
    {
      "epoch": 0.5314166666666666,
      "grad_norm": 0.8705602288246155,
      "learning_rate": 0.0001361389583333327,
      "loss": 3.6474,
      "step": 255080
    },
    {
      "epoch": 0.5314375,
      "grad_norm": 0.8182180523872375,
      "learning_rate": 0.00013612914199047677,
      "loss": 3.6312,
      "step": 255090
    },
    {
      "epoch": 0.5314583333333334,
      "grad_norm": 0.7601972818374634,
      "learning_rate": 0.00013611932570753755,
      "loss": 3.7559,
      "step": 255100
    },
    {
      "epoch": 0.5314791666666666,
      "grad_norm": 0.8300570845603943,
      "learning_rate": 0.00013610950948455733,
      "loss": 3.6915,
      "step": 255110
    },
    {
      "epoch": 0.5315,
      "grad_norm": 0.8158959746360779,
      "learning_rate": 0.00013609969332157847,
      "loss": 3.7579,
      "step": 255120
    },
    {
      "epoch": 0.5315208333333333,
      "grad_norm": 0.8134610056877136,
      "learning_rate": 0.0001360898772186435,
      "loss": 3.7561,
      "step": 255130
    },
    {
      "epoch": 0.5315416666666667,
      "grad_norm": 0.7450116872787476,
      "learning_rate": 0.00013608006117579475,
      "loss": 3.6313,
      "step": 255140
    },
    {
      "epoch": 0.5315625,
      "grad_norm": 0.7640105485916138,
      "learning_rate": 0.00013607024519307457,
      "loss": 3.8781,
      "step": 255150
    },
    {
      "epoch": 0.5315833333333333,
      "grad_norm": 0.8088304996490479,
      "learning_rate": 0.0001360604292705255,
      "loss": 3.5169,
      "step": 255160
    },
    {
      "epoch": 0.5316041666666667,
      "grad_norm": 0.850080668926239,
      "learning_rate": 0.00013605061340818983,
      "loss": 3.7545,
      "step": 255170
    },
    {
      "epoch": 0.531625,
      "grad_norm": 0.9245828986167908,
      "learning_rate": 0.0001360407976061099,
      "loss": 3.6449,
      "step": 255180
    },
    {
      "epoch": 0.5316458333333334,
      "grad_norm": 0.828458309173584,
      "learning_rate": 0.00013603098186432832,
      "loss": 3.826,
      "step": 255190
    },
    {
      "epoch": 0.5316666666666666,
      "grad_norm": 0.7630702257156372,
      "learning_rate": 0.00013602116618288733,
      "loss": 3.6346,
      "step": 255200
    },
    {
      "epoch": 0.5316875,
      "grad_norm": 0.8517530560493469,
      "learning_rate": 0.00013601135056182933,
      "loss": 3.8096,
      "step": 255210
    },
    {
      "epoch": 0.5317083333333333,
      "grad_norm": 0.8391255140304565,
      "learning_rate": 0.00013600153500119681,
      "loss": 3.5566,
      "step": 255220
    },
    {
      "epoch": 0.5317291666666667,
      "grad_norm": 0.8001590967178345,
      "learning_rate": 0.0001359917195010321,
      "loss": 3.7494,
      "step": 255230
    },
    {
      "epoch": 0.53175,
      "grad_norm": 0.8113730549812317,
      "learning_rate": 0.00013598190406137757,
      "loss": 3.7943,
      "step": 255240
    },
    {
      "epoch": 0.5317708333333333,
      "grad_norm": 0.7934584021568298,
      "learning_rate": 0.00013597208868227576,
      "loss": 3.6142,
      "step": 255250
    },
    {
      "epoch": 0.5317916666666667,
      "grad_norm": 0.6871846914291382,
      "learning_rate": 0.00013596227336376893,
      "loss": 3.6737,
      "step": 255260
    },
    {
      "epoch": 0.5318125,
      "grad_norm": 0.8347810506820679,
      "learning_rate": 0.00013595245810589946,
      "loss": 3.5217,
      "step": 255270
    },
    {
      "epoch": 0.5318333333333334,
      "grad_norm": 0.9509546756744385,
      "learning_rate": 0.0001359426429087099,
      "loss": 3.8162,
      "step": 255280
    },
    {
      "epoch": 0.5318541666666666,
      "grad_norm": 0.854853093624115,
      "learning_rate": 0.00013593282777224258,
      "loss": 3.8456,
      "step": 255290
    },
    {
      "epoch": 0.531875,
      "grad_norm": 0.887286365032196,
      "learning_rate": 0.00013592301269653982,
      "loss": 3.8716,
      "step": 255300
    },
    {
      "epoch": 0.5318958333333333,
      "grad_norm": 0.834887683391571,
      "learning_rate": 0.00013591319768164404,
      "loss": 3.7604,
      "step": 255310
    },
    {
      "epoch": 0.5319166666666667,
      "grad_norm": 0.8030861616134644,
      "learning_rate": 0.00013590338272759773,
      "loss": 3.5724,
      "step": 255320
    },
    {
      "epoch": 0.5319375,
      "grad_norm": 1.1918587684631348,
      "learning_rate": 0.0001358935678344432,
      "loss": 3.7963,
      "step": 255330
    },
    {
      "epoch": 0.5319583333333333,
      "grad_norm": 0.7371442914009094,
      "learning_rate": 0.00013588375300222283,
      "loss": 3.7796,
      "step": 255340
    },
    {
      "epoch": 0.5319791666666667,
      "grad_norm": 0.7892507314682007,
      "learning_rate": 0.00013587393823097913,
      "loss": 3.7956,
      "step": 255350
    },
    {
      "epoch": 0.532,
      "grad_norm": 0.8765747547149658,
      "learning_rate": 0.0001358641235207544,
      "loss": 3.7549,
      "step": 255360
    },
    {
      "epoch": 0.5320208333333334,
      "grad_norm": 1.1338199377059937,
      "learning_rate": 0.00013585430887159104,
      "loss": 3.7291,
      "step": 255370
    },
    {
      "epoch": 0.5320416666666666,
      "grad_norm": 0.8969418406486511,
      "learning_rate": 0.0001358444942835315,
      "loss": 3.6618,
      "step": 255380
    },
    {
      "epoch": 0.5320625,
      "grad_norm": 0.8683714270591736,
      "learning_rate": 0.00013583467975661814,
      "loss": 3.6771,
      "step": 255390
    },
    {
      "epoch": 0.5320833333333334,
      "grad_norm": 0.8500948548316956,
      "learning_rate": 0.0001358248652908933,
      "loss": 3.7982,
      "step": 255400
    },
    {
      "epoch": 0.5321041666666667,
      "grad_norm": 0.8318856358528137,
      "learning_rate": 0.00013581505088639952,
      "loss": 3.8926,
      "step": 255410
    },
    {
      "epoch": 0.532125,
      "grad_norm": 0.7832447290420532,
      "learning_rate": 0.00013580523654317908,
      "loss": 3.7747,
      "step": 255420
    },
    {
      "epoch": 0.5321458333333333,
      "grad_norm": 0.9439457654953003,
      "learning_rate": 0.00013579542226127434,
      "loss": 3.7851,
      "step": 255430
    },
    {
      "epoch": 0.5321666666666667,
      "grad_norm": 0.819765567779541,
      "learning_rate": 0.0001357856080407278,
      "loss": 3.9138,
      "step": 255440
    },
    {
      "epoch": 0.5321875,
      "grad_norm": 0.8651025295257568,
      "learning_rate": 0.00013577579388158182,
      "loss": 3.7387,
      "step": 255450
    },
    {
      "epoch": 0.5322083333333333,
      "grad_norm": 0.941264271736145,
      "learning_rate": 0.00013576597978387874,
      "loss": 3.7025,
      "step": 255460
    },
    {
      "epoch": 0.5322291666666666,
      "grad_norm": 0.8029754161834717,
      "learning_rate": 0.00013575616574766102,
      "loss": 3.7395,
      "step": 255470
    },
    {
      "epoch": 0.53225,
      "grad_norm": 0.8632656931877136,
      "learning_rate": 0.00013574635177297106,
      "loss": 3.7589,
      "step": 255480
    },
    {
      "epoch": 0.5322708333333334,
      "grad_norm": 0.7563933730125427,
      "learning_rate": 0.00013573653785985113,
      "loss": 3.7549,
      "step": 255490
    },
    {
      "epoch": 0.5322916666666667,
      "grad_norm": 0.9117370843887329,
      "learning_rate": 0.00013572672400834375,
      "loss": 3.6987,
      "step": 255500
    },
    {
      "epoch": 0.5323125,
      "grad_norm": 0.7819424271583557,
      "learning_rate": 0.00013571691021849132,
      "loss": 3.9066,
      "step": 255510
    },
    {
      "epoch": 0.5323333333333333,
      "grad_norm": 0.9463079571723938,
      "learning_rate": 0.00013570709649033611,
      "loss": 3.8792,
      "step": 255520
    },
    {
      "epoch": 0.5323541666666667,
      "grad_norm": 0.7995443344116211,
      "learning_rate": 0.00013569728282392064,
      "loss": 3.6826,
      "step": 255530
    },
    {
      "epoch": 0.532375,
      "grad_norm": 0.9722231030464172,
      "learning_rate": 0.00013568746921928723,
      "loss": 3.7669,
      "step": 255540
    },
    {
      "epoch": 0.5323958333333333,
      "grad_norm": 0.8792589902877808,
      "learning_rate": 0.00013567765567647826,
      "loss": 3.5572,
      "step": 255550
    },
    {
      "epoch": 0.5324166666666666,
      "grad_norm": 0.8163948655128479,
      "learning_rate": 0.0001356678421955362,
      "loss": 3.7193,
      "step": 255560
    },
    {
      "epoch": 0.5324375,
      "grad_norm": 0.9062737226486206,
      "learning_rate": 0.00013565802877650338,
      "loss": 3.8178,
      "step": 255570
    },
    {
      "epoch": 0.5324583333333334,
      "grad_norm": 0.9185603857040405,
      "learning_rate": 0.0001356482154194222,
      "loss": 3.7872,
      "step": 255580
    },
    {
      "epoch": 0.5324791666666666,
      "grad_norm": 0.9540891647338867,
      "learning_rate": 0.000135638402124335,
      "loss": 3.7459,
      "step": 255590
    },
    {
      "epoch": 0.5325,
      "grad_norm": 0.8009424209594727,
      "learning_rate": 0.00013562858889128426,
      "loss": 3.6961,
      "step": 255600
    },
    {
      "epoch": 0.5325208333333333,
      "grad_norm": 0.8530453443527222,
      "learning_rate": 0.00013561877572031234,
      "loss": 3.5684,
      "step": 255610
    },
    {
      "epoch": 0.5325416666666667,
      "grad_norm": 0.92934250831604,
      "learning_rate": 0.00013560896261146152,
      "loss": 3.8721,
      "step": 255620
    },
    {
      "epoch": 0.5325625,
      "grad_norm": 0.7942145466804504,
      "learning_rate": 0.00013559914956477438,
      "loss": 3.7472,
      "step": 255630
    },
    {
      "epoch": 0.5325833333333333,
      "grad_norm": 0.7687820196151733,
      "learning_rate": 0.0001355893365802932,
      "loss": 3.9645,
      "step": 255640
    },
    {
      "epoch": 0.5326041666666667,
      "grad_norm": 0.8933224081993103,
      "learning_rate": 0.00013557952365806034,
      "loss": 3.9348,
      "step": 255650
    },
    {
      "epoch": 0.532625,
      "grad_norm": 0.8260672688484192,
      "learning_rate": 0.00013556971079811832,
      "loss": 3.7072,
      "step": 255660
    },
    {
      "epoch": 0.5326458333333334,
      "grad_norm": 0.9572630524635315,
      "learning_rate": 0.00013555989800050937,
      "loss": 3.8641,
      "step": 255670
    },
    {
      "epoch": 0.5326666666666666,
      "grad_norm": 0.8630096316337585,
      "learning_rate": 0.00013555008526527592,
      "loss": 3.9245,
      "step": 255680
    },
    {
      "epoch": 0.5326875,
      "grad_norm": 0.7349158525466919,
      "learning_rate": 0.00013554027259246045,
      "loss": 3.736,
      "step": 255690
    },
    {
      "epoch": 0.5327083333333333,
      "grad_norm": 0.7445900440216064,
      "learning_rate": 0.00013553045998210525,
      "loss": 3.6698,
      "step": 255700
    },
    {
      "epoch": 0.5327291666666667,
      "grad_norm": 1.109406590461731,
      "learning_rate": 0.0001355206474342527,
      "loss": 3.8765,
      "step": 255710
    },
    {
      "epoch": 0.53275,
      "grad_norm": 1.0725154876708984,
      "learning_rate": 0.00013551083494894528,
      "loss": 3.6914,
      "step": 255720
    },
    {
      "epoch": 0.5327708333333333,
      "grad_norm": 0.7942072749137878,
      "learning_rate": 0.00013550102252622527,
      "loss": 3.5457,
      "step": 255730
    },
    {
      "epoch": 0.5327916666666667,
      "grad_norm": 0.7892354726791382,
      "learning_rate": 0.0001354912101661351,
      "loss": 3.8086,
      "step": 255740
    },
    {
      "epoch": 0.5328125,
      "grad_norm": 0.8190906047821045,
      "learning_rate": 0.0001354813978687172,
      "loss": 3.8416,
      "step": 255750
    },
    {
      "epoch": 0.5328333333333334,
      "grad_norm": 0.737549364566803,
      "learning_rate": 0.0001354715856340139,
      "loss": 3.6976,
      "step": 255760
    },
    {
      "epoch": 0.5328541666666666,
      "grad_norm": 0.8012467622756958,
      "learning_rate": 0.00013546177346206758,
      "loss": 3.7644,
      "step": 255770
    },
    {
      "epoch": 0.532875,
      "grad_norm": 0.8011876344680786,
      "learning_rate": 0.0001354519613529207,
      "loss": 3.781,
      "step": 255780
    },
    {
      "epoch": 0.5328958333333333,
      "grad_norm": 1.0535968542099,
      "learning_rate": 0.00013544214930661557,
      "loss": 3.8067,
      "step": 255790
    },
    {
      "epoch": 0.5329166666666667,
      "grad_norm": 0.8519123792648315,
      "learning_rate": 0.00013543233732319452,
      "loss": 3.8288,
      "step": 255800
    },
    {
      "epoch": 0.5329375,
      "grad_norm": 0.853167712688446,
      "learning_rate": 0.00013542252540270008,
      "loss": 3.6786,
      "step": 255810
    },
    {
      "epoch": 0.5329583333333333,
      "grad_norm": 1.0062873363494873,
      "learning_rate": 0.00013541271354517456,
      "loss": 3.8134,
      "step": 255820
    },
    {
      "epoch": 0.5329791666666667,
      "grad_norm": 0.8106489181518555,
      "learning_rate": 0.0001354029017506603,
      "loss": 3.8682,
      "step": 255830
    },
    {
      "epoch": 0.533,
      "grad_norm": 0.9133009910583496,
      "learning_rate": 0.00013539309001919973,
      "loss": 3.5583,
      "step": 255840
    },
    {
      "epoch": 0.5330208333333334,
      "grad_norm": 0.8557997941970825,
      "learning_rate": 0.0001353832783508353,
      "loss": 3.8967,
      "step": 255850
    },
    {
      "epoch": 0.5330416666666666,
      "grad_norm": 0.8525055050849915,
      "learning_rate": 0.00013537346674560922,
      "loss": 3.9099,
      "step": 255860
    },
    {
      "epoch": 0.5330625,
      "grad_norm": 0.8484441637992859,
      "learning_rate": 0.00013536365520356404,
      "loss": 3.8477,
      "step": 255870
    },
    {
      "epoch": 0.5330833333333334,
      "grad_norm": 0.800860583782196,
      "learning_rate": 0.00013535384372474207,
      "loss": 3.7344,
      "step": 255880
    },
    {
      "epoch": 0.5331041666666667,
      "grad_norm": 0.8981173634529114,
      "learning_rate": 0.00013534403230918568,
      "loss": 3.7567,
      "step": 255890
    },
    {
      "epoch": 0.533125,
      "grad_norm": 0.7916156649589539,
      "learning_rate": 0.00013533422095693724,
      "loss": 3.8427,
      "step": 255900
    },
    {
      "epoch": 0.5331458333333333,
      "grad_norm": 0.7248016595840454,
      "learning_rate": 0.00013532440966803925,
      "loss": 3.6749,
      "step": 255910
    },
    {
      "epoch": 0.5331666666666667,
      "grad_norm": 0.8335626125335693,
      "learning_rate": 0.00013531459844253396,
      "loss": 3.9216,
      "step": 255920
    },
    {
      "epoch": 0.5331875,
      "grad_norm": 0.8102933764457703,
      "learning_rate": 0.00013530478728046377,
      "loss": 3.6575,
      "step": 255930
    },
    {
      "epoch": 0.5332083333333333,
      "grad_norm": 0.8494724631309509,
      "learning_rate": 0.00013529497618187106,
      "loss": 3.8738,
      "step": 255940
    },
    {
      "epoch": 0.5332291666666666,
      "grad_norm": 1.192469596862793,
      "learning_rate": 0.00013528516514679833,
      "loss": 3.676,
      "step": 255950
    },
    {
      "epoch": 0.53325,
      "grad_norm": 1.0688133239746094,
      "learning_rate": 0.00013527535417528775,
      "loss": 3.7454,
      "step": 255960
    },
    {
      "epoch": 0.5332708333333334,
      "grad_norm": 0.9322983622550964,
      "learning_rate": 0.00013526554326738185,
      "loss": 3.8474,
      "step": 255970
    },
    {
      "epoch": 0.5332916666666667,
      "grad_norm": 0.7687227129936218,
      "learning_rate": 0.000135255732423123,
      "loss": 3.6647,
      "step": 255980
    },
    {
      "epoch": 0.5333125,
      "grad_norm": 0.7687810063362122,
      "learning_rate": 0.0001352459216425535,
      "loss": 3.7462,
      "step": 255990
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.7843061685562134,
      "learning_rate": 0.0001352361109257158,
      "loss": 3.808,
      "step": 256000
    },
    {
      "epoch": 0.5333333333333333,
      "eval_loss": 4.135407447814941,
      "eval_runtime": 8.6636,
      "eval_samples_per_second": 1.154,
      "eval_steps_per_second": 0.346,
      "step": 256000
    },
    {
      "epoch": 0.5333541666666667,
      "grad_norm": 0.8819884061813354,
      "learning_rate": 0.0001352263002726523,
      "loss": 3.69,
      "step": 256010
    },
    {
      "epoch": 0.533375,
      "grad_norm": 0.7471961975097656,
      "learning_rate": 0.00013521648968340528,
      "loss": 4.0152,
      "step": 256020
    },
    {
      "epoch": 0.5333958333333333,
      "grad_norm": 0.7969236373901367,
      "learning_rate": 0.00013520667915801717,
      "loss": 3.661,
      "step": 256030
    },
    {
      "epoch": 0.5334166666666667,
      "grad_norm": 0.8079437017440796,
      "learning_rate": 0.0001351968686965304,
      "loss": 3.8228,
      "step": 256040
    },
    {
      "epoch": 0.5334375,
      "grad_norm": 0.7439232468605042,
      "learning_rate": 0.00013518705829898724,
      "loss": 3.8529,
      "step": 256050
    },
    {
      "epoch": 0.5334583333333334,
      "grad_norm": 0.8356028199195862,
      "learning_rate": 0.0001351772479654302,
      "loss": 3.7439,
      "step": 256060
    },
    {
      "epoch": 0.5334791666666666,
      "grad_norm": 0.7319279909133911,
      "learning_rate": 0.00013516743769590152,
      "loss": 3.5692,
      "step": 256070
    },
    {
      "epoch": 0.5335,
      "grad_norm": 0.9146842956542969,
      "learning_rate": 0.00013515762749044362,
      "loss": 3.8433,
      "step": 256080
    },
    {
      "epoch": 0.5335208333333333,
      "grad_norm": 0.8679940104484558,
      "learning_rate": 0.00013514781734909895,
      "loss": 3.8695,
      "step": 256090
    },
    {
      "epoch": 0.5335416666666667,
      "grad_norm": 1.0414116382598877,
      "learning_rate": 0.00013513800727190983,
      "loss": 3.7368,
      "step": 256100
    },
    {
      "epoch": 0.5335625,
      "grad_norm": 0.8256208300590515,
      "learning_rate": 0.00013512819725891857,
      "loss": 3.6324,
      "step": 256110
    },
    {
      "epoch": 0.5335833333333333,
      "grad_norm": 0.7439053058624268,
      "learning_rate": 0.00013511838731016768,
      "loss": 3.7378,
      "step": 256120
    },
    {
      "epoch": 0.5336041666666667,
      "grad_norm": 0.8008297085762024,
      "learning_rate": 0.00013510857742569943,
      "loss": 3.9139,
      "step": 256130
    },
    {
      "epoch": 0.533625,
      "grad_norm": 0.7864962816238403,
      "learning_rate": 0.0001350987676055562,
      "loss": 3.6278,
      "step": 256140
    },
    {
      "epoch": 0.5336458333333334,
      "grad_norm": 0.7528356313705444,
      "learning_rate": 0.00013508895784978048,
      "loss": 3.7345,
      "step": 256150
    },
    {
      "epoch": 0.5336666666666666,
      "grad_norm": 0.8962064385414124,
      "learning_rate": 0.00013507914815841457,
      "loss": 3.759,
      "step": 256160
    },
    {
      "epoch": 0.5336875,
      "grad_norm": 0.9018315672874451,
      "learning_rate": 0.00013506933853150077,
      "loss": 3.9513,
      "step": 256170
    },
    {
      "epoch": 0.5337083333333333,
      "grad_norm": 0.8562395572662354,
      "learning_rate": 0.0001350595289690815,
      "loss": 3.7317,
      "step": 256180
    },
    {
      "epoch": 0.5337291666666667,
      "grad_norm": 0.8034417033195496,
      "learning_rate": 0.0001350497194711992,
      "loss": 4.0473,
      "step": 256190
    },
    {
      "epoch": 0.53375,
      "grad_norm": 0.9046334028244019,
      "learning_rate": 0.0001350399100378962,
      "loss": 3.8197,
      "step": 256200
    },
    {
      "epoch": 0.5337708333333333,
      "grad_norm": 1.1514147520065308,
      "learning_rate": 0.00013503010066921479,
      "loss": 3.8083,
      "step": 256210
    },
    {
      "epoch": 0.5337916666666667,
      "grad_norm": 0.7679936289787292,
      "learning_rate": 0.0001350202913651975,
      "loss": 3.5172,
      "step": 256220
    },
    {
      "epoch": 0.5338125,
      "grad_norm": 1.0356943607330322,
      "learning_rate": 0.0001350104821258866,
      "loss": 3.4533,
      "step": 256230
    },
    {
      "epoch": 0.5338333333333334,
      "grad_norm": 0.9104018807411194,
      "learning_rate": 0.00013500067295132444,
      "loss": 3.7366,
      "step": 256240
    },
    {
      "epoch": 0.5338541666666666,
      "grad_norm": 0.8272700905799866,
      "learning_rate": 0.0001349908638415535,
      "loss": 3.7088,
      "step": 256250
    },
    {
      "epoch": 0.533875,
      "grad_norm": 0.7741313576698303,
      "learning_rate": 0.00013498105479661606,
      "loss": 3.927,
      "step": 256260
    },
    {
      "epoch": 0.5338958333333333,
      "grad_norm": 0.6686795949935913,
      "learning_rate": 0.00013497124581655448,
      "loss": 3.7151,
      "step": 256270
    },
    {
      "epoch": 0.5339166666666667,
      "grad_norm": 0.8170866370201111,
      "learning_rate": 0.00013496143690141125,
      "loss": 3.7054,
      "step": 256280
    },
    {
      "epoch": 0.5339375,
      "grad_norm": 0.8430008292198181,
      "learning_rate": 0.00013495162805122863,
      "loss": 3.842,
      "step": 256290
    },
    {
      "epoch": 0.5339583333333333,
      "grad_norm": 0.7113282680511475,
      "learning_rate": 0.00013494181926604898,
      "loss": 3.8663,
      "step": 256300
    },
    {
      "epoch": 0.5339791666666667,
      "grad_norm": 0.8555751442909241,
      "learning_rate": 0.00013493201054591474,
      "loss": 3.6396,
      "step": 256310
    },
    {
      "epoch": 0.534,
      "grad_norm": 0.8126030564308167,
      "learning_rate": 0.00013492220189086827,
      "loss": 3.7523,
      "step": 256320
    },
    {
      "epoch": 0.5340208333333333,
      "grad_norm": 0.7290205955505371,
      "learning_rate": 0.00013491239330095186,
      "loss": 3.7443,
      "step": 256330
    },
    {
      "epoch": 0.5340416666666666,
      "grad_norm": 0.9735487699508667,
      "learning_rate": 0.00013490258477620798,
      "loss": 3.7592,
      "step": 256340
    },
    {
      "epoch": 0.5340625,
      "grad_norm": 0.7781564593315125,
      "learning_rate": 0.000134892776316679,
      "loss": 3.7283,
      "step": 256350
    },
    {
      "epoch": 0.5340833333333334,
      "grad_norm": 0.8415650129318237,
      "learning_rate": 0.00013488296792240717,
      "loss": 3.782,
      "step": 256360
    },
    {
      "epoch": 0.5341041666666667,
      "grad_norm": 0.6945988535881042,
      "learning_rate": 0.00013487315959343497,
      "loss": 3.5716,
      "step": 256370
    },
    {
      "epoch": 0.534125,
      "grad_norm": 0.990766167640686,
      "learning_rate": 0.00013486335132980475,
      "loss": 3.809,
      "step": 256380
    },
    {
      "epoch": 0.5341458333333333,
      "grad_norm": 0.8037516474723816,
      "learning_rate": 0.00013485354313155882,
      "loss": 3.7256,
      "step": 256390
    },
    {
      "epoch": 0.5341666666666667,
      "grad_norm": 0.8404991626739502,
      "learning_rate": 0.00013484373499873957,
      "loss": 3.6783,
      "step": 256400
    },
    {
      "epoch": 0.5341875,
      "grad_norm": 0.7789244651794434,
      "learning_rate": 0.00013483392693138947,
      "loss": 3.6249,
      "step": 256410
    },
    {
      "epoch": 0.5342083333333333,
      "grad_norm": 0.9052747488021851,
      "learning_rate": 0.00013482411892955072,
      "loss": 3.639,
      "step": 256420
    },
    {
      "epoch": 0.5342291666666666,
      "grad_norm": 0.9224241375923157,
      "learning_rate": 0.00013481431099326584,
      "loss": 3.6539,
      "step": 256430
    },
    {
      "epoch": 0.53425,
      "grad_norm": 0.7812039256095886,
      "learning_rate": 0.00013480450312257708,
      "loss": 3.9077,
      "step": 256440
    },
    {
      "epoch": 0.5342708333333334,
      "grad_norm": 0.9512863159179688,
      "learning_rate": 0.00013479469531752685,
      "loss": 3.8232,
      "step": 256450
    },
    {
      "epoch": 0.5342916666666667,
      "grad_norm": 0.8491490483283997,
      "learning_rate": 0.00013478488757815755,
      "loss": 3.8683,
      "step": 256460
    },
    {
      "epoch": 0.5343125,
      "grad_norm": 0.7994126677513123,
      "learning_rate": 0.00013477507990451148,
      "loss": 3.6893,
      "step": 256470
    },
    {
      "epoch": 0.5343333333333333,
      "grad_norm": 0.8919182419776917,
      "learning_rate": 0.00013476527229663109,
      "loss": 3.8334,
      "step": 256480
    },
    {
      "epoch": 0.5343541666666667,
      "grad_norm": 1.04989755153656,
      "learning_rate": 0.00013475546475455862,
      "loss": 3.7717,
      "step": 256490
    },
    {
      "epoch": 0.534375,
      "grad_norm": 0.7621080875396729,
      "learning_rate": 0.00013474565727833655,
      "loss": 3.889,
      "step": 256500
    },
    {
      "epoch": 0.5343958333333333,
      "grad_norm": 0.8609744310379028,
      "learning_rate": 0.00013473584986800722,
      "loss": 3.8883,
      "step": 256510
    },
    {
      "epoch": 0.5344166666666667,
      "grad_norm": 0.8615177273750305,
      "learning_rate": 0.00013472604252361294,
      "loss": 3.9911,
      "step": 256520
    },
    {
      "epoch": 0.5344375,
      "grad_norm": 0.9186501502990723,
      "learning_rate": 0.0001347162352451961,
      "loss": 3.7829,
      "step": 256530
    },
    {
      "epoch": 0.5344583333333334,
      "grad_norm": 0.8121367692947388,
      "learning_rate": 0.00013470642803279913,
      "loss": 3.7763,
      "step": 256540
    },
    {
      "epoch": 0.5344791666666666,
      "grad_norm": 0.9919273853302002,
      "learning_rate": 0.00013469662088646427,
      "loss": 3.8968,
      "step": 256550
    },
    {
      "epoch": 0.5345,
      "grad_norm": 1.0278509855270386,
      "learning_rate": 0.000134686813806234,
      "loss": 3.8127,
      "step": 256560
    },
    {
      "epoch": 0.5345208333333333,
      "grad_norm": 0.7619704604148865,
      "learning_rate": 0.00013467700679215062,
      "loss": 3.8499,
      "step": 256570
    },
    {
      "epoch": 0.5345416666666667,
      "grad_norm": 0.7294145822525024,
      "learning_rate": 0.00013466719984425648,
      "loss": 3.7929,
      "step": 256580
    },
    {
      "epoch": 0.5345625,
      "grad_norm": 0.7755016088485718,
      "learning_rate": 0.00013465739296259402,
      "loss": 3.7644,
      "step": 256590
    },
    {
      "epoch": 0.5345833333333333,
      "grad_norm": 0.7691206336021423,
      "learning_rate": 0.0001346475861472055,
      "loss": 3.7871,
      "step": 256600
    },
    {
      "epoch": 0.5346041666666667,
      "grad_norm": 0.9760807156562805,
      "learning_rate": 0.00013463777939813333,
      "loss": 3.7642,
      "step": 256610
    },
    {
      "epoch": 0.534625,
      "grad_norm": 0.8741029500961304,
      "learning_rate": 0.0001346279727154199,
      "loss": 3.782,
      "step": 256620
    },
    {
      "epoch": 0.5346458333333334,
      "grad_norm": 0.8104701638221741,
      "learning_rate": 0.00013461816609910756,
      "loss": 3.7066,
      "step": 256630
    },
    {
      "epoch": 0.5346666666666666,
      "grad_norm": 0.9117562770843506,
      "learning_rate": 0.0001346083595492386,
      "loss": 3.7723,
      "step": 256640
    },
    {
      "epoch": 0.5346875,
      "grad_norm": 0.7978110909461975,
      "learning_rate": 0.0001345985530658555,
      "loss": 3.9021,
      "step": 256650
    },
    {
      "epoch": 0.5347083333333333,
      "grad_norm": 0.767041027545929,
      "learning_rate": 0.00013458874664900054,
      "loss": 3.567,
      "step": 256660
    },
    {
      "epoch": 0.5347291666666667,
      "grad_norm": 0.9008646607398987,
      "learning_rate": 0.00013457894029871606,
      "loss": 3.9126,
      "step": 256670
    },
    {
      "epoch": 0.53475,
      "grad_norm": 0.930871307849884,
      "learning_rate": 0.00013456913401504444,
      "loss": 3.6878,
      "step": 256680
    },
    {
      "epoch": 0.5347708333333333,
      "grad_norm": 0.8319262862205505,
      "learning_rate": 0.0001345593277980281,
      "loss": 3.6861,
      "step": 256690
    },
    {
      "epoch": 0.5347916666666667,
      "grad_norm": 0.8743167519569397,
      "learning_rate": 0.00013454952164770932,
      "loss": 3.6165,
      "step": 256700
    },
    {
      "epoch": 0.5348125,
      "grad_norm": 0.792655885219574,
      "learning_rate": 0.0001345397155641305,
      "loss": 3.8131,
      "step": 256710
    },
    {
      "epoch": 0.5348333333333334,
      "grad_norm": 0.9891910552978516,
      "learning_rate": 0.00013452990954733403,
      "loss": 3.7457,
      "step": 256720
    },
    {
      "epoch": 0.5348541666666666,
      "grad_norm": 0.9040542840957642,
      "learning_rate": 0.00013452010359736214,
      "loss": 3.8001,
      "step": 256730
    },
    {
      "epoch": 0.534875,
      "grad_norm": 0.8287431597709656,
      "learning_rate": 0.00013451029771425734,
      "loss": 3.7504,
      "step": 256740
    },
    {
      "epoch": 0.5348958333333333,
      "grad_norm": 0.8116655349731445,
      "learning_rate": 0.00013450049189806193,
      "loss": 3.8103,
      "step": 256750
    },
    {
      "epoch": 0.5349166666666667,
      "grad_norm": 0.8412419557571411,
      "learning_rate": 0.00013449068614881823,
      "loss": 3.6044,
      "step": 256760
    },
    {
      "epoch": 0.5349375,
      "grad_norm": 0.7315390110015869,
      "learning_rate": 0.0001344808804665686,
      "loss": 3.934,
      "step": 256770
    },
    {
      "epoch": 0.5349583333333333,
      "grad_norm": 0.825583815574646,
      "learning_rate": 0.0001344710748513555,
      "loss": 3.8276,
      "step": 256780
    },
    {
      "epoch": 0.5349791666666667,
      "grad_norm": 0.9052078723907471,
      "learning_rate": 0.0001344612693032212,
      "loss": 3.7082,
      "step": 256790
    },
    {
      "epoch": 0.535,
      "grad_norm": 0.7822050452232361,
      "learning_rate": 0.000134451463822208,
      "loss": 3.943,
      "step": 256800
    },
    {
      "epoch": 0.5350208333333333,
      "grad_norm": 0.880629301071167,
      "learning_rate": 0.00013444165840835833,
      "loss": 3.797,
      "step": 256810
    },
    {
      "epoch": 0.5350416666666666,
      "grad_norm": 0.8128108382225037,
      "learning_rate": 0.0001344318530617146,
      "loss": 3.7844,
      "step": 256820
    },
    {
      "epoch": 0.5350625,
      "grad_norm": 0.861962616443634,
      "learning_rate": 0.00013442204778231902,
      "loss": 3.7781,
      "step": 256830
    },
    {
      "epoch": 0.5350833333333334,
      "grad_norm": 0.8055403828620911,
      "learning_rate": 0.00013441224257021406,
      "loss": 3.7673,
      "step": 256840
    },
    {
      "epoch": 0.5351041666666667,
      "grad_norm": 0.9235096573829651,
      "learning_rate": 0.0001344024374254421,
      "loss": 3.759,
      "step": 256850
    },
    {
      "epoch": 0.535125,
      "grad_norm": 0.8988654017448425,
      "learning_rate": 0.00013439263234804534,
      "loss": 3.562,
      "step": 256860
    },
    {
      "epoch": 0.5351458333333333,
      "grad_norm": 0.9457212686538696,
      "learning_rate": 0.0001343828273380663,
      "loss": 3.6596,
      "step": 256870
    },
    {
      "epoch": 0.5351666666666667,
      "grad_norm": 0.9343560934066772,
      "learning_rate": 0.00013437302239554727,
      "loss": 3.8155,
      "step": 256880
    },
    {
      "epoch": 0.5351875,
      "grad_norm": 0.8739718198776245,
      "learning_rate": 0.00013436321752053053,
      "loss": 3.7841,
      "step": 256890
    },
    {
      "epoch": 0.5352083333333333,
      "grad_norm": 1.1641370058059692,
      "learning_rate": 0.00013435341271305853,
      "loss": 3.7022,
      "step": 256900
    },
    {
      "epoch": 0.5352291666666666,
      "grad_norm": 0.7496594786643982,
      "learning_rate": 0.00013434360797317366,
      "loss": 3.8077,
      "step": 256910
    },
    {
      "epoch": 0.53525,
      "grad_norm": 0.9037626385688782,
      "learning_rate": 0.00013433380330091812,
      "loss": 3.6404,
      "step": 256920
    },
    {
      "epoch": 0.5352708333333334,
      "grad_norm": 0.7744035720825195,
      "learning_rate": 0.00013432399869633442,
      "loss": 3.6254,
      "step": 256930
    },
    {
      "epoch": 0.5352916666666667,
      "grad_norm": 0.8438358306884766,
      "learning_rate": 0.00013431419415946478,
      "loss": 3.7435,
      "step": 256940
    },
    {
      "epoch": 0.5353125,
      "grad_norm": 1.1165647506713867,
      "learning_rate": 0.00013430438969035162,
      "loss": 3.7275,
      "step": 256950
    },
    {
      "epoch": 0.5353333333333333,
      "grad_norm": 0.77362459897995,
      "learning_rate": 0.00013429458528903731,
      "loss": 3.813,
      "step": 256960
    },
    {
      "epoch": 0.5353541666666667,
      "grad_norm": 0.8373172879219055,
      "learning_rate": 0.00013428478095556416,
      "loss": 3.6887,
      "step": 256970
    },
    {
      "epoch": 0.535375,
      "grad_norm": 0.8163686394691467,
      "learning_rate": 0.0001342749766899745,
      "loss": 3.8297,
      "step": 256980
    },
    {
      "epoch": 0.5353958333333333,
      "grad_norm": 0.7635701298713684,
      "learning_rate": 0.0001342651724923108,
      "loss": 3.6381,
      "step": 256990
    },
    {
      "epoch": 0.5354166666666667,
      "grad_norm": 0.8293430805206299,
      "learning_rate": 0.0001342553683626153,
      "loss": 3.7369,
      "step": 257000
    },
    {
      "epoch": 0.5354166666666667,
      "eval_loss": 4.136062145233154,
      "eval_runtime": 8.4607,
      "eval_samples_per_second": 1.182,
      "eval_steps_per_second": 0.355,
      "step": 257000
    },
    {
      "epoch": 0.5354375,
      "grad_norm": 0.9057068824768066,
      "learning_rate": 0.0001342455643009303,
      "loss": 3.7814,
      "step": 257010
    },
    {
      "epoch": 0.5354583333333334,
      "grad_norm": 0.7669804096221924,
      "learning_rate": 0.00013423576030729834,
      "loss": 3.6968,
      "step": 257020
    },
    {
      "epoch": 0.5354791666666666,
      "grad_norm": 0.8613284230232239,
      "learning_rate": 0.00013422595638176157,
      "loss": 3.7684,
      "step": 257030
    },
    {
      "epoch": 0.5355,
      "grad_norm": 0.7971627116203308,
      "learning_rate": 0.00013421615252436243,
      "loss": 3.8195,
      "step": 257040
    },
    {
      "epoch": 0.5355208333333333,
      "grad_norm": 0.8119803071022034,
      "learning_rate": 0.00013420634873514332,
      "loss": 3.8732,
      "step": 257050
    },
    {
      "epoch": 0.5355416666666667,
      "grad_norm": 0.8265600204467773,
      "learning_rate": 0.00013419654501414653,
      "loss": 3.7321,
      "step": 257060
    },
    {
      "epoch": 0.5355625,
      "grad_norm": 0.9805331230163574,
      "learning_rate": 0.00013418674136141438,
      "loss": 3.952,
      "step": 257070
    },
    {
      "epoch": 0.5355833333333333,
      "grad_norm": 0.7714653015136719,
      "learning_rate": 0.0001341769377769892,
      "loss": 3.8668,
      "step": 257080
    },
    {
      "epoch": 0.5356041666666667,
      "grad_norm": 0.8618173599243164,
      "learning_rate": 0.00013416713426091348,
      "loss": 3.6231,
      "step": 257090
    },
    {
      "epoch": 0.535625,
      "grad_norm": 0.8145506978034973,
      "learning_rate": 0.0001341573308132294,
      "loss": 3.6402,
      "step": 257100
    },
    {
      "epoch": 0.5356458333333334,
      "grad_norm": 0.8322140574455261,
      "learning_rate": 0.0001341475274339794,
      "loss": 3.6096,
      "step": 257110
    },
    {
      "epoch": 0.5356666666666666,
      "grad_norm": 0.7540320158004761,
      "learning_rate": 0.00013413772412320584,
      "loss": 3.7122,
      "step": 257120
    },
    {
      "epoch": 0.5356875,
      "grad_norm": 0.7992987036705017,
      "learning_rate": 0.000134127920880951,
      "loss": 3.6424,
      "step": 257130
    },
    {
      "epoch": 0.5357083333333333,
      "grad_norm": 1.010045051574707,
      "learning_rate": 0.00013411811770725724,
      "loss": 3.6931,
      "step": 257140
    },
    {
      "epoch": 0.5357291666666667,
      "grad_norm": 1.1014094352722168,
      "learning_rate": 0.000134108314602167,
      "loss": 3.7002,
      "step": 257150
    },
    {
      "epoch": 0.53575,
      "grad_norm": 0.7824617028236389,
      "learning_rate": 0.0001340985115657225,
      "loss": 3.6484,
      "step": 257160
    },
    {
      "epoch": 0.5357708333333333,
      "grad_norm": 0.848497211933136,
      "learning_rate": 0.00013408870859796612,
      "loss": 3.927,
      "step": 257170
    },
    {
      "epoch": 0.5357916666666667,
      "grad_norm": 0.8294671773910522,
      "learning_rate": 0.00013407890569894023,
      "loss": 3.6681,
      "step": 257180
    },
    {
      "epoch": 0.5358125,
      "grad_norm": 0.893923819065094,
      "learning_rate": 0.0001340691028686872,
      "loss": 3.432,
      "step": 257190
    },
    {
      "epoch": 0.5358333333333334,
      "grad_norm": 0.8743516206741333,
      "learning_rate": 0.00013405930010724928,
      "loss": 3.6079,
      "step": 257200
    },
    {
      "epoch": 0.5358541666666666,
      "grad_norm": 1.7076292037963867,
      "learning_rate": 0.0001340494974146689,
      "loss": 3.7282,
      "step": 257210
    },
    {
      "epoch": 0.535875,
      "grad_norm": 0.8192206025123596,
      "learning_rate": 0.00013403969479098844,
      "loss": 3.6275,
      "step": 257220
    },
    {
      "epoch": 0.5358958333333333,
      "grad_norm": 0.7850521802902222,
      "learning_rate": 0.00013402989223625008,
      "loss": 3.7898,
      "step": 257230
    },
    {
      "epoch": 0.5359166666666667,
      "grad_norm": 0.9088814854621887,
      "learning_rate": 0.0001340200897504963,
      "loss": 3.8967,
      "step": 257240
    },
    {
      "epoch": 0.5359375,
      "grad_norm": 0.9044838547706604,
      "learning_rate": 0.00013401028733376946,
      "loss": 3.7136,
      "step": 257250
    },
    {
      "epoch": 0.5359583333333333,
      "grad_norm": 0.7778592705726624,
      "learning_rate": 0.00013400048498611177,
      "loss": 3.7787,
      "step": 257260
    },
    {
      "epoch": 0.5359791666666667,
      "grad_norm": 0.7287849187850952,
      "learning_rate": 0.00013399068270756567,
      "loss": 3.7312,
      "step": 257270
    },
    {
      "epoch": 0.536,
      "grad_norm": 0.8742238283157349,
      "learning_rate": 0.00013398088049817355,
      "loss": 3.7262,
      "step": 257280
    },
    {
      "epoch": 0.5360208333333333,
      "grad_norm": 0.9603857398033142,
      "learning_rate": 0.0001339710783579776,
      "loss": 3.7498,
      "step": 257290
    },
    {
      "epoch": 0.5360416666666666,
      "grad_norm": 0.7759069204330444,
      "learning_rate": 0.00013396127628702032,
      "loss": 3.7132,
      "step": 257300
    },
    {
      "epoch": 0.5360625,
      "grad_norm": 0.8191559910774231,
      "learning_rate": 0.00013395147428534393,
      "loss": 3.7983,
      "step": 257310
    },
    {
      "epoch": 0.5360833333333334,
      "grad_norm": 0.7875637412071228,
      "learning_rate": 0.0001339416723529908,
      "loss": 3.7733,
      "step": 257320
    },
    {
      "epoch": 0.5361041666666667,
      "grad_norm": 1.076196551322937,
      "learning_rate": 0.00013393187049000335,
      "loss": 3.8659,
      "step": 257330
    },
    {
      "epoch": 0.536125,
      "grad_norm": 0.8944016695022583,
      "learning_rate": 0.00013392206869642382,
      "loss": 3.7609,
      "step": 257340
    },
    {
      "epoch": 0.5361458333333333,
      "grad_norm": 0.8533449172973633,
      "learning_rate": 0.00013391226697229464,
      "loss": 3.8378,
      "step": 257350
    },
    {
      "epoch": 0.5361666666666667,
      "grad_norm": 0.7137987017631531,
      "learning_rate": 0.000133902465317658,
      "loss": 3.9834,
      "step": 257360
    },
    {
      "epoch": 0.5361875,
      "grad_norm": 0.994691789150238,
      "learning_rate": 0.00013389266373255642,
      "loss": 3.7131,
      "step": 257370
    },
    {
      "epoch": 0.5362083333333333,
      "grad_norm": 0.9334527850151062,
      "learning_rate": 0.00013388286221703214,
      "loss": 3.9373,
      "step": 257380
    },
    {
      "epoch": 0.5362291666666666,
      "grad_norm": 0.8402742147445679,
      "learning_rate": 0.00013387306077112748,
      "loss": 3.8411,
      "step": 257390
    },
    {
      "epoch": 0.53625,
      "grad_norm": 0.8951637744903564,
      "learning_rate": 0.00013386325939488485,
      "loss": 3.681,
      "step": 257400
    },
    {
      "epoch": 0.5362708333333334,
      "grad_norm": 0.8168589472770691,
      "learning_rate": 0.00013385345808834657,
      "loss": 3.7218,
      "step": 257410
    },
    {
      "epoch": 0.5362916666666667,
      "grad_norm": 0.9068711400032043,
      "learning_rate": 0.0001338436568515549,
      "loss": 3.7679,
      "step": 257420
    },
    {
      "epoch": 0.5363125,
      "grad_norm": 0.9292837977409363,
      "learning_rate": 0.0001338338556845523,
      "loss": 3.7983,
      "step": 257430
    },
    {
      "epoch": 0.5363333333333333,
      "grad_norm": 0.8052083253860474,
      "learning_rate": 0.000133824054587381,
      "loss": 3.7854,
      "step": 257440
    },
    {
      "epoch": 0.5363541666666667,
      "grad_norm": 0.8921903371810913,
      "learning_rate": 0.00013381425356008336,
      "loss": 3.7868,
      "step": 257450
    },
    {
      "epoch": 0.536375,
      "grad_norm": 0.8053269982337952,
      "learning_rate": 0.00013380445260270183,
      "loss": 3.8618,
      "step": 257460
    },
    {
      "epoch": 0.5363958333333333,
      "grad_norm": 0.8682317137718201,
      "learning_rate": 0.00013379465171527857,
      "loss": 3.755,
      "step": 257470
    },
    {
      "epoch": 0.5364166666666667,
      "grad_norm": 0.8008770942687988,
      "learning_rate": 0.00013378485089785602,
      "loss": 3.8347,
      "step": 257480
    },
    {
      "epoch": 0.5364375,
      "grad_norm": 0.8488194942474365,
      "learning_rate": 0.0001337750501504765,
      "loss": 3.7793,
      "step": 257490
    },
    {
      "epoch": 0.5364583333333334,
      "grad_norm": 0.7337178587913513,
      "learning_rate": 0.00013376524947318236,
      "loss": 3.7959,
      "step": 257500
    },
    {
      "epoch": 0.5364791666666666,
      "grad_norm": 0.7804276347160339,
      "learning_rate": 0.00013375544886601586,
      "loss": 3.6387,
      "step": 257510
    },
    {
      "epoch": 0.5365,
      "grad_norm": 0.7881336808204651,
      "learning_rate": 0.00013374564832901946,
      "loss": 3.6232,
      "step": 257520
    },
    {
      "epoch": 0.5365208333333333,
      "grad_norm": 0.8410030603408813,
      "learning_rate": 0.00013373584786223542,
      "loss": 3.7471,
      "step": 257530
    },
    {
      "epoch": 0.5365416666666667,
      "grad_norm": 0.7839602828025818,
      "learning_rate": 0.000133726047465706,
      "loss": 3.847,
      "step": 257540
    },
    {
      "epoch": 0.5365625,
      "grad_norm": 0.8132467269897461,
      "learning_rate": 0.0001337162471394737,
      "loss": 3.9065,
      "step": 257550
    },
    {
      "epoch": 0.5365833333333333,
      "grad_norm": 0.969367504119873,
      "learning_rate": 0.00013370644688358077,
      "loss": 3.6764,
      "step": 257560
    },
    {
      "epoch": 0.5366041666666667,
      "grad_norm": 0.7860987186431885,
      "learning_rate": 0.00013369664669806946,
      "loss": 3.732,
      "step": 257570
    },
    {
      "epoch": 0.536625,
      "grad_norm": 0.8246241807937622,
      "learning_rate": 0.00013368684658298223,
      "loss": 3.766,
      "step": 257580
    },
    {
      "epoch": 0.5366458333333334,
      "grad_norm": 1.2610889673233032,
      "learning_rate": 0.00013367704653836142,
      "loss": 3.8443,
      "step": 257590
    },
    {
      "epoch": 0.5366666666666666,
      "grad_norm": 0.7359279990196228,
      "learning_rate": 0.0001336672465642492,
      "loss": 3.6386,
      "step": 257600
    },
    {
      "epoch": 0.5366875,
      "grad_norm": 0.8450419306755066,
      "learning_rate": 0.00013365744666068806,
      "loss": 3.6358,
      "step": 257610
    },
    {
      "epoch": 0.5367083333333333,
      "grad_norm": 0.764542281627655,
      "learning_rate": 0.00013364764682772032,
      "loss": 3.7397,
      "step": 257620
    },
    {
      "epoch": 0.5367291666666667,
      "grad_norm": 0.9694559574127197,
      "learning_rate": 0.00013363784706538824,
      "loss": 3.7283,
      "step": 257630
    },
    {
      "epoch": 0.53675,
      "grad_norm": 0.8398759365081787,
      "learning_rate": 0.00013362804737373414,
      "loss": 3.797,
      "step": 257640
    },
    {
      "epoch": 0.5367708333333333,
      "grad_norm": 0.7581914067268372,
      "learning_rate": 0.00013361824775280046,
      "loss": 3.7259,
      "step": 257650
    },
    {
      "epoch": 0.5367916666666667,
      "grad_norm": 0.791016697883606,
      "learning_rate": 0.00013360844820262948,
      "loss": 3.5715,
      "step": 257660
    },
    {
      "epoch": 0.5368125,
      "grad_norm": 0.8222358226776123,
      "learning_rate": 0.00013359864872326347,
      "loss": 3.7834,
      "step": 257670
    },
    {
      "epoch": 0.5368333333333334,
      "grad_norm": 0.7718363404273987,
      "learning_rate": 0.00013358884931474478,
      "loss": 3.9713,
      "step": 257680
    },
    {
      "epoch": 0.5368541666666666,
      "grad_norm": 0.9608038067817688,
      "learning_rate": 0.00013357904997711583,
      "loss": 3.7808,
      "step": 257690
    },
    {
      "epoch": 0.536875,
      "grad_norm": 0.7778158187866211,
      "learning_rate": 0.00013356925071041884,
      "loss": 3.7165,
      "step": 257700
    },
    {
      "epoch": 0.5368958333333333,
      "grad_norm": 0.8298284411430359,
      "learning_rate": 0.00013355945151469618,
      "loss": 3.7088,
      "step": 257710
    },
    {
      "epoch": 0.5369166666666667,
      "grad_norm": 0.77613765001297,
      "learning_rate": 0.00013354965238999023,
      "loss": 3.6868,
      "step": 257720
    },
    {
      "epoch": 0.5369375,
      "grad_norm": 0.753563404083252,
      "learning_rate": 0.0001335398533363432,
      "loss": 3.7392,
      "step": 257730
    },
    {
      "epoch": 0.5369583333333333,
      "grad_norm": 0.8951623439788818,
      "learning_rate": 0.00013353005435379754,
      "loss": 3.5807,
      "step": 257740
    },
    {
      "epoch": 0.5369791666666667,
      "grad_norm": 0.8363779783248901,
      "learning_rate": 0.00013352025544239552,
      "loss": 3.8255,
      "step": 257750
    },
    {
      "epoch": 0.537,
      "grad_norm": 0.991944432258606,
      "learning_rate": 0.00013351045660217945,
      "loss": 3.8371,
      "step": 257760
    },
    {
      "epoch": 0.5370208333333333,
      "grad_norm": 0.8251703381538391,
      "learning_rate": 0.00013350065783319167,
      "loss": 3.8678,
      "step": 257770
    },
    {
      "epoch": 0.5370416666666666,
      "grad_norm": 0.796480119228363,
      "learning_rate": 0.0001334908591354746,
      "loss": 3.9463,
      "step": 257780
    },
    {
      "epoch": 0.5370625,
      "grad_norm": 0.8944136500358582,
      "learning_rate": 0.00013348106050907037,
      "loss": 3.7338,
      "step": 257790
    },
    {
      "epoch": 0.5370833333333334,
      "grad_norm": 0.6508991718292236,
      "learning_rate": 0.0001334712619540215,
      "loss": 3.7689,
      "step": 257800
    },
    {
      "epoch": 0.5371041666666667,
      "grad_norm": 0.832624077796936,
      "learning_rate": 0.0001334614634703702,
      "loss": 3.8098,
      "step": 257810
    },
    {
      "epoch": 0.537125,
      "grad_norm": 0.7267026305198669,
      "learning_rate": 0.00013345166505815883,
      "loss": 3.8227,
      "step": 257820
    },
    {
      "epoch": 0.5371458333333333,
      "grad_norm": 0.8670012950897217,
      "learning_rate": 0.00013344186671742977,
      "loss": 3.734,
      "step": 257830
    },
    {
      "epoch": 0.5371666666666667,
      "grad_norm": 0.8385767936706543,
      "learning_rate": 0.00013343206844822526,
      "loss": 3.8935,
      "step": 257840
    },
    {
      "epoch": 0.5371875,
      "grad_norm": 0.8438737392425537,
      "learning_rate": 0.0001334222702505876,
      "loss": 3.6684,
      "step": 257850
    },
    {
      "epoch": 0.5372083333333333,
      "grad_norm": 0.8990491032600403,
      "learning_rate": 0.00013341247212455924,
      "loss": 3.7952,
      "step": 257860
    },
    {
      "epoch": 0.5372291666666666,
      "grad_norm": 0.7975248694419861,
      "learning_rate": 0.00013340267407018242,
      "loss": 3.6214,
      "step": 257870
    },
    {
      "epoch": 0.53725,
      "grad_norm": 0.886253297328949,
      "learning_rate": 0.00013339287608749942,
      "loss": 3.8381,
      "step": 257880
    },
    {
      "epoch": 0.5372708333333334,
      "grad_norm": 0.8788216710090637,
      "learning_rate": 0.0001333830781765527,
      "loss": 3.6255,
      "step": 257890
    },
    {
      "epoch": 0.5372916666666666,
      "grad_norm": 0.7488141655921936,
      "learning_rate": 0.0001333732803373845,
      "loss": 3.7042,
      "step": 257900
    },
    {
      "epoch": 0.5373125,
      "grad_norm": 1.001213788986206,
      "learning_rate": 0.0001333634825700371,
      "loss": 3.7184,
      "step": 257910
    },
    {
      "epoch": 0.5373333333333333,
      "grad_norm": 0.7359928488731384,
      "learning_rate": 0.0001333536848745529,
      "loss": 3.7648,
      "step": 257920
    },
    {
      "epoch": 0.5373541666666667,
      "grad_norm": 0.8242366909980774,
      "learning_rate": 0.00013334388725097423,
      "loss": 3.6533,
      "step": 257930
    },
    {
      "epoch": 0.537375,
      "grad_norm": 0.7695537209510803,
      "learning_rate": 0.00013333408969934334,
      "loss": 3.8038,
      "step": 257940
    },
    {
      "epoch": 0.5373958333333333,
      "grad_norm": 0.8295218348503113,
      "learning_rate": 0.00013332429221970255,
      "loss": 3.7342,
      "step": 257950
    },
    {
      "epoch": 0.5374166666666667,
      "grad_norm": 0.7402862906455994,
      "learning_rate": 0.00013331449481209426,
      "loss": 3.764,
      "step": 257960
    },
    {
      "epoch": 0.5374375,
      "grad_norm": 0.8366116285324097,
      "learning_rate": 0.00013330469747656072,
      "loss": 3.7636,
      "step": 257970
    },
    {
      "epoch": 0.5374583333333334,
      "grad_norm": 0.8964366912841797,
      "learning_rate": 0.00013329490021314426,
      "loss": 3.9014,
      "step": 257980
    },
    {
      "epoch": 0.5374791666666666,
      "grad_norm": 0.8342866897583008,
      "learning_rate": 0.0001332851030218873,
      "loss": 3.9355,
      "step": 257990
    },
    {
      "epoch": 0.5375,
      "grad_norm": 0.8868033289909363,
      "learning_rate": 0.000133275305902832,
      "loss": 3.7384,
      "step": 258000
    },
    {
      "epoch": 0.5375,
      "eval_loss": 4.1301703453063965,
      "eval_runtime": 9.3443,
      "eval_samples_per_second": 1.07,
      "eval_steps_per_second": 0.321,
      "step": 258000
    },
    {
      "epoch": 0.5375208333333333,
      "grad_norm": 1.2494930028915405,
      "learning_rate": 0.00013326550885602078,
      "loss": 3.7389,
      "step": 258010
    },
    {
      "epoch": 0.5375416666666667,
      "grad_norm": 0.8015520572662354,
      "learning_rate": 0.00013325571188149596,
      "loss": 3.6726,
      "step": 258020
    },
    {
      "epoch": 0.5375625,
      "grad_norm": 0.8531846404075623,
      "learning_rate": 0.00013324591497929986,
      "loss": 3.7785,
      "step": 258030
    },
    {
      "epoch": 0.5375833333333333,
      "grad_norm": 0.8052853345870972,
      "learning_rate": 0.00013323611814947467,
      "loss": 3.7539,
      "step": 258040
    },
    {
      "epoch": 0.5376041666666667,
      "grad_norm": 0.9859906435012817,
      "learning_rate": 0.0001332263213920629,
      "loss": 3.8438,
      "step": 258050
    },
    {
      "epoch": 0.537625,
      "grad_norm": 0.8188982009887695,
      "learning_rate": 0.0001332165247071068,
      "loss": 3.7159,
      "step": 258060
    },
    {
      "epoch": 0.5376458333333334,
      "grad_norm": 0.7500097751617432,
      "learning_rate": 0.0001332067280946486,
      "loss": 3.6784,
      "step": 258070
    },
    {
      "epoch": 0.5376666666666666,
      "grad_norm": 1.031825065612793,
      "learning_rate": 0.0001331969315547307,
      "loss": 3.642,
      "step": 258080
    },
    {
      "epoch": 0.5376875,
      "grad_norm": 0.9168844819068909,
      "learning_rate": 0.00013318713508739548,
      "loss": 3.8102,
      "step": 258090
    },
    {
      "epoch": 0.5377083333333333,
      "grad_norm": 0.8259163498878479,
      "learning_rate": 0.0001331773386926851,
      "loss": 3.6934,
      "step": 258100
    },
    {
      "epoch": 0.5377291666666667,
      "grad_norm": 0.8238012790679932,
      "learning_rate": 0.00013316754237064198,
      "loss": 3.7812,
      "step": 258110
    },
    {
      "epoch": 0.53775,
      "grad_norm": 0.8355569839477539,
      "learning_rate": 0.00013315774612130844,
      "loss": 3.6942,
      "step": 258120
    },
    {
      "epoch": 0.5377708333333333,
      "grad_norm": 0.8309260606765747,
      "learning_rate": 0.0001331479499447267,
      "loss": 3.6638,
      "step": 258130
    },
    {
      "epoch": 0.5377916666666667,
      "grad_norm": 0.7860308885574341,
      "learning_rate": 0.0001331381538409392,
      "loss": 3.6152,
      "step": 258140
    },
    {
      "epoch": 0.5378125,
      "grad_norm": 1.0136750936508179,
      "learning_rate": 0.00013312835780998823,
      "loss": 3.9784,
      "step": 258150
    },
    {
      "epoch": 0.5378333333333334,
      "grad_norm": 1.00364089012146,
      "learning_rate": 0.000133118561851916,
      "loss": 3.9448,
      "step": 258160
    },
    {
      "epoch": 0.5378541666666666,
      "grad_norm": 0.8193490505218506,
      "learning_rate": 0.00013310876596676498,
      "loss": 3.7121,
      "step": 258170
    },
    {
      "epoch": 0.537875,
      "grad_norm": 1.0369296073913574,
      "learning_rate": 0.00013309897015457737,
      "loss": 3.6974,
      "step": 258180
    },
    {
      "epoch": 0.5378958333333334,
      "grad_norm": 0.8360678553581238,
      "learning_rate": 0.00013308917441539548,
      "loss": 3.8591,
      "step": 258190
    },
    {
      "epoch": 0.5379166666666667,
      "grad_norm": 0.8028162121772766,
      "learning_rate": 0.00013307937874926172,
      "loss": 3.575,
      "step": 258200
    },
    {
      "epoch": 0.5379375,
      "grad_norm": 0.9953253865242004,
      "learning_rate": 0.00013306958315621834,
      "loss": 3.7919,
      "step": 258210
    },
    {
      "epoch": 0.5379583333333333,
      "grad_norm": 0.8720805644989014,
      "learning_rate": 0.00013305978763630764,
      "loss": 3.8415,
      "step": 258220
    },
    {
      "epoch": 0.5379791666666667,
      "grad_norm": 0.8577395081520081,
      "learning_rate": 0.00013304999218957195,
      "loss": 3.7507,
      "step": 258230
    },
    {
      "epoch": 0.538,
      "grad_norm": 0.9705866575241089,
      "learning_rate": 0.00013304019681605357,
      "loss": 3.9214,
      "step": 258240
    },
    {
      "epoch": 0.5380208333333333,
      "grad_norm": 0.8174502849578857,
      "learning_rate": 0.00013303040151579491,
      "loss": 3.6022,
      "step": 258250
    },
    {
      "epoch": 0.5380416666666666,
      "grad_norm": 0.7371172904968262,
      "learning_rate": 0.0001330206062888381,
      "loss": 3.7963,
      "step": 258260
    },
    {
      "epoch": 0.5380625,
      "grad_norm": 1.0154399871826172,
      "learning_rate": 0.00013301081113522556,
      "loss": 3.6489,
      "step": 258270
    },
    {
      "epoch": 0.5380833333333334,
      "grad_norm": 0.7870057821273804,
      "learning_rate": 0.00013300101605499967,
      "loss": 3.8886,
      "step": 258280
    },
    {
      "epoch": 0.5381041666666667,
      "grad_norm": 0.8143467307090759,
      "learning_rate": 0.00013299122104820256,
      "loss": 3.8099,
      "step": 258290
    },
    {
      "epoch": 0.538125,
      "grad_norm": 0.778548538684845,
      "learning_rate": 0.00013298142611487673,
      "loss": 3.8609,
      "step": 258300
    },
    {
      "epoch": 0.5381458333333333,
      "grad_norm": 0.804112434387207,
      "learning_rate": 0.00013297163125506437,
      "loss": 3.7652,
      "step": 258310
    },
    {
      "epoch": 0.5381666666666667,
      "grad_norm": 0.8467219471931458,
      "learning_rate": 0.00013296183646880778,
      "loss": 3.6365,
      "step": 258320
    },
    {
      "epoch": 0.5381875,
      "grad_norm": 0.7502480745315552,
      "learning_rate": 0.00013295204175614936,
      "loss": 3.6796,
      "step": 258330
    },
    {
      "epoch": 0.5382083333333333,
      "grad_norm": 0.8000149130821228,
      "learning_rate": 0.00013294224711713138,
      "loss": 3.8727,
      "step": 258340
    },
    {
      "epoch": 0.5382291666666666,
      "grad_norm": 0.9288895130157471,
      "learning_rate": 0.00013293245255179608,
      "loss": 3.7874,
      "step": 258350
    },
    {
      "epoch": 0.53825,
      "grad_norm": 0.732183039188385,
      "learning_rate": 0.0001329226580601859,
      "loss": 3.8273,
      "step": 258360
    },
    {
      "epoch": 0.5382708333333334,
      "grad_norm": 0.812109112739563,
      "learning_rate": 0.00013291286364234306,
      "loss": 3.6934,
      "step": 258370
    },
    {
      "epoch": 0.5382916666666666,
      "grad_norm": 0.7084773182868958,
      "learning_rate": 0.00013290306929830982,
      "loss": 3.8799,
      "step": 258380
    },
    {
      "epoch": 0.5383125,
      "grad_norm": 0.7561375498771667,
      "learning_rate": 0.00013289327502812864,
      "loss": 3.6865,
      "step": 258390
    },
    {
      "epoch": 0.5383333333333333,
      "grad_norm": 0.9160476326942444,
      "learning_rate": 0.00013288348083184172,
      "loss": 3.7582,
      "step": 258400
    },
    {
      "epoch": 0.5383541666666667,
      "grad_norm": 1.039331078529358,
      "learning_rate": 0.0001328736867094913,
      "loss": 3.7822,
      "step": 258410
    },
    {
      "epoch": 0.538375,
      "grad_norm": 0.9440539479255676,
      "learning_rate": 0.0001328638926611199,
      "loss": 3.7156,
      "step": 258420
    },
    {
      "epoch": 0.5383958333333333,
      "grad_norm": 0.8395459055900574,
      "learning_rate": 0.00013285409868676968,
      "loss": 3.6502,
      "step": 258430
    },
    {
      "epoch": 0.5384166666666667,
      "grad_norm": 0.8377627730369568,
      "learning_rate": 0.0001328443047864829,
      "loss": 3.7215,
      "step": 258440
    },
    {
      "epoch": 0.5384375,
      "grad_norm": 1.0975298881530762,
      "learning_rate": 0.00013283451096030198,
      "loss": 3.847,
      "step": 258450
    },
    {
      "epoch": 0.5384583333333334,
      "grad_norm": 0.7859150171279907,
      "learning_rate": 0.0001328247172082692,
      "loss": 3.8232,
      "step": 258460
    },
    {
      "epoch": 0.5384791666666666,
      "grad_norm": 0.8410063982009888,
      "learning_rate": 0.00013281492353042678,
      "loss": 3.6669,
      "step": 258470
    },
    {
      "epoch": 0.5385,
      "grad_norm": 0.825442910194397,
      "learning_rate": 0.0001328051299268171,
      "loss": 3.5755,
      "step": 258480
    },
    {
      "epoch": 0.5385208333333333,
      "grad_norm": 0.9311229586601257,
      "learning_rate": 0.0001327953363974825,
      "loss": 3.6767,
      "step": 258490
    },
    {
      "epoch": 0.5385416666666667,
      "grad_norm": 0.7997586727142334,
      "learning_rate": 0.00013278554294246517,
      "loss": 3.923,
      "step": 258500
    },
    {
      "epoch": 0.5385625,
      "grad_norm": 0.912359356880188,
      "learning_rate": 0.00013277574956180752,
      "loss": 3.7486,
      "step": 258510
    },
    {
      "epoch": 0.5385833333333333,
      "grad_norm": 0.978313684463501,
      "learning_rate": 0.00013276595625555184,
      "loss": 3.9374,
      "step": 258520
    },
    {
      "epoch": 0.5386041666666667,
      "grad_norm": 0.7598162889480591,
      "learning_rate": 0.0001327561630237404,
      "loss": 3.5495,
      "step": 258530
    },
    {
      "epoch": 0.538625,
      "grad_norm": 0.847998321056366,
      "learning_rate": 0.00013274636986641546,
      "loss": 3.8161,
      "step": 258540
    },
    {
      "epoch": 0.5386458333333334,
      "grad_norm": 0.9575039744377136,
      "learning_rate": 0.00013273657678361943,
      "loss": 3.7145,
      "step": 258550
    },
    {
      "epoch": 0.5386666666666666,
      "grad_norm": 1.1223678588867188,
      "learning_rate": 0.00013272678377539455,
      "loss": 3.8706,
      "step": 258560
    },
    {
      "epoch": 0.5386875,
      "grad_norm": 1.0373502969741821,
      "learning_rate": 0.00013271699084178306,
      "loss": 3.7852,
      "step": 258570
    },
    {
      "epoch": 0.5387083333333333,
      "grad_norm": 0.84676593542099,
      "learning_rate": 0.00013270719798282737,
      "loss": 3.7444,
      "step": 258580
    },
    {
      "epoch": 0.5387291666666667,
      "grad_norm": 0.8951467275619507,
      "learning_rate": 0.00013269740519856977,
      "loss": 3.6194,
      "step": 258590
    },
    {
      "epoch": 0.53875,
      "grad_norm": 1.026095986366272,
      "learning_rate": 0.0001326876124890525,
      "loss": 3.7337,
      "step": 258600
    },
    {
      "epoch": 0.5387708333333333,
      "grad_norm": 1.0054279565811157,
      "learning_rate": 0.0001326778198543179,
      "loss": 3.7736,
      "step": 258610
    },
    {
      "epoch": 0.5387916666666667,
      "grad_norm": 0.818922758102417,
      "learning_rate": 0.00013266802729440825,
      "loss": 3.5807,
      "step": 258620
    },
    {
      "epoch": 0.5388125,
      "grad_norm": 0.8048042058944702,
      "learning_rate": 0.00013265823480936584,
      "loss": 3.6463,
      "step": 258630
    },
    {
      "epoch": 0.5388333333333334,
      "grad_norm": 0.8014856576919556,
      "learning_rate": 0.00013264844239923302,
      "loss": 3.5731,
      "step": 258640
    },
    {
      "epoch": 0.5388541666666666,
      "grad_norm": 0.8755261898040771,
      "learning_rate": 0.0001326386500640521,
      "loss": 3.5599,
      "step": 258650
    },
    {
      "epoch": 0.538875,
      "grad_norm": 0.8706320524215698,
      "learning_rate": 0.00013262885780386527,
      "loss": 3.7995,
      "step": 258660
    },
    {
      "epoch": 0.5388958333333334,
      "grad_norm": 0.815056324005127,
      "learning_rate": 0.00013261906561871494,
      "loss": 3.7855,
      "step": 258670
    },
    {
      "epoch": 0.5389166666666667,
      "grad_norm": 0.8431108593940735,
      "learning_rate": 0.00013260927350864336,
      "loss": 3.7825,
      "step": 258680
    },
    {
      "epoch": 0.5389375,
      "grad_norm": 0.9696320295333862,
      "learning_rate": 0.0001325994814736928,
      "loss": 3.7295,
      "step": 258690
    },
    {
      "epoch": 0.5389583333333333,
      "grad_norm": 0.9360023736953735,
      "learning_rate": 0.00013258968951390565,
      "loss": 3.6135,
      "step": 258700
    },
    {
      "epoch": 0.5389791666666667,
      "grad_norm": 0.8327134847640991,
      "learning_rate": 0.0001325798976293241,
      "loss": 3.7758,
      "step": 258710
    },
    {
      "epoch": 0.539,
      "grad_norm": 0.7418882250785828,
      "learning_rate": 0.0001325701058199905,
      "loss": 3.7164,
      "step": 258720
    },
    {
      "epoch": 0.5390208333333333,
      "grad_norm": 0.9654124975204468,
      "learning_rate": 0.00013256031408594718,
      "loss": 3.6959,
      "step": 258730
    },
    {
      "epoch": 0.5390416666666666,
      "grad_norm": 1.0084054470062256,
      "learning_rate": 0.0001325505224272364,
      "loss": 3.8401,
      "step": 258740
    },
    {
      "epoch": 0.5390625,
      "grad_norm": 0.9472920894622803,
      "learning_rate": 0.0001325407308439004,
      "loss": 3.9515,
      "step": 258750
    },
    {
      "epoch": 0.5390833333333334,
      "grad_norm": 0.7681870460510254,
      "learning_rate": 0.0001325309393359816,
      "loss": 3.6757,
      "step": 258760
    },
    {
      "epoch": 0.5391041666666667,
      "grad_norm": 0.7655369639396667,
      "learning_rate": 0.0001325211479035222,
      "loss": 3.6744,
      "step": 258770
    },
    {
      "epoch": 0.539125,
      "grad_norm": 0.8670068979263306,
      "learning_rate": 0.00013251135654656447,
      "loss": 3.6552,
      "step": 258780
    },
    {
      "epoch": 0.5391458333333333,
      "grad_norm": 0.7570533752441406,
      "learning_rate": 0.00013250156526515083,
      "loss": 4.013,
      "step": 258790
    },
    {
      "epoch": 0.5391666666666667,
      "grad_norm": 0.7716619372367859,
      "learning_rate": 0.00013249177405932352,
      "loss": 3.7799,
      "step": 258800
    },
    {
      "epoch": 0.5391875,
      "grad_norm": 0.8811600804328918,
      "learning_rate": 0.00013248198292912478,
      "loss": 3.6215,
      "step": 258810
    },
    {
      "epoch": 0.5392083333333333,
      "grad_norm": 0.7964379191398621,
      "learning_rate": 0.0001324721918745969,
      "loss": 3.8858,
      "step": 258820
    },
    {
      "epoch": 0.5392291666666666,
      "grad_norm": 0.8468052744865417,
      "learning_rate": 0.00013246240089578228,
      "loss": 3.7537,
      "step": 258830
    },
    {
      "epoch": 0.53925,
      "grad_norm": 0.8618506789207458,
      "learning_rate": 0.0001324526099927231,
      "loss": 3.737,
      "step": 258840
    },
    {
      "epoch": 0.5392708333333334,
      "grad_norm": 0.8041815161705017,
      "learning_rate": 0.00013244281916546168,
      "loss": 3.7315,
      "step": 258850
    },
    {
      "epoch": 0.5392916666666666,
      "grad_norm": 0.8245214819908142,
      "learning_rate": 0.0001324330284140404,
      "loss": 3.7244,
      "step": 258860
    },
    {
      "epoch": 0.5393125,
      "grad_norm": 0.7189144492149353,
      "learning_rate": 0.00013242323773850144,
      "loss": 3.7019,
      "step": 258870
    },
    {
      "epoch": 0.5393333333333333,
      "grad_norm": 0.8287774324417114,
      "learning_rate": 0.00013241344713888712,
      "loss": 3.808,
      "step": 258880
    },
    {
      "epoch": 0.5393541666666667,
      "grad_norm": 0.9442511796951294,
      "learning_rate": 0.00013240365661523979,
      "loss": 3.7868,
      "step": 258890
    },
    {
      "epoch": 0.539375,
      "grad_norm": 0.7619495391845703,
      "learning_rate": 0.0001323938661676017,
      "loss": 3.6982,
      "step": 258900
    },
    {
      "epoch": 0.5393958333333333,
      "grad_norm": 0.8303386569023132,
      "learning_rate": 0.00013238407579601507,
      "loss": 3.7245,
      "step": 258910
    },
    {
      "epoch": 0.5394166666666667,
      "grad_norm": 0.962875485420227,
      "learning_rate": 0.00013237428550052233,
      "loss": 3.8454,
      "step": 258920
    },
    {
      "epoch": 0.5394375,
      "grad_norm": 0.8900555372238159,
      "learning_rate": 0.0001323644952811657,
      "loss": 3.8188,
      "step": 258930
    },
    {
      "epoch": 0.5394583333333334,
      "grad_norm": 0.796760082244873,
      "learning_rate": 0.00013235470513798742,
      "loss": 3.639,
      "step": 258940
    },
    {
      "epoch": 0.5394791666666666,
      "grad_norm": 0.8458394408226013,
      "learning_rate": 0.00013234491507102986,
      "loss": 3.6978,
      "step": 258950
    },
    {
      "epoch": 0.5395,
      "grad_norm": 0.8248458504676819,
      "learning_rate": 0.0001323351250803353,
      "loss": 3.8138,
      "step": 258960
    },
    {
      "epoch": 0.5395208333333333,
      "grad_norm": 0.7515159249305725,
      "learning_rate": 0.00013232533516594595,
      "loss": 3.7391,
      "step": 258970
    },
    {
      "epoch": 0.5395416666666667,
      "grad_norm": 0.7613534927368164,
      "learning_rate": 0.00013231554532790418,
      "loss": 3.8509,
      "step": 258980
    },
    {
      "epoch": 0.5395625,
      "grad_norm": 0.7917329668998718,
      "learning_rate": 0.0001323057555662523,
      "loss": 3.8386,
      "step": 258990
    },
    {
      "epoch": 0.5395833333333333,
      "grad_norm": 0.9996795654296875,
      "learning_rate": 0.00013229596588103248,
      "loss": 3.6545,
      "step": 259000
    },
    {
      "epoch": 0.5395833333333333,
      "eval_loss": 4.119866371154785,
      "eval_runtime": 9.206,
      "eval_samples_per_second": 1.086,
      "eval_steps_per_second": 0.326,
      "step": 259000
    },
    {
      "epoch": 0.5396041666666667,
      "grad_norm": 0.8723011016845703,
      "learning_rate": 0.00013228617627228712,
      "loss": 3.833,
      "step": 259010
    },
    {
      "epoch": 0.539625,
      "grad_norm": 0.7721840739250183,
      "learning_rate": 0.00013227638674005848,
      "loss": 3.9006,
      "step": 259020
    },
    {
      "epoch": 0.5396458333333334,
      "grad_norm": 0.7961851954460144,
      "learning_rate": 0.0001322665972843888,
      "loss": 3.7663,
      "step": 259030
    },
    {
      "epoch": 0.5396666666666666,
      "grad_norm": 0.8978726267814636,
      "learning_rate": 0.00013225680790532045,
      "loss": 3.772,
      "step": 259040
    },
    {
      "epoch": 0.5396875,
      "grad_norm": 0.8167943954467773,
      "learning_rate": 0.00013224701860289561,
      "loss": 3.6479,
      "step": 259050
    },
    {
      "epoch": 0.5397083333333333,
      "grad_norm": 0.8781566619873047,
      "learning_rate": 0.00013223722937715662,
      "loss": 3.6633,
      "step": 259060
    },
    {
      "epoch": 0.5397291666666667,
      "grad_norm": 0.9665821194648743,
      "learning_rate": 0.00013222744022814583,
      "loss": 3.5882,
      "step": 259070
    },
    {
      "epoch": 0.53975,
      "grad_norm": 0.7948562502861023,
      "learning_rate": 0.0001322176511559054,
      "loss": 3.8271,
      "step": 259080
    },
    {
      "epoch": 0.5397708333333333,
      "grad_norm": 0.7361000180244446,
      "learning_rate": 0.00013220786216047768,
      "loss": 3.7752,
      "step": 259090
    },
    {
      "epoch": 0.5397916666666667,
      "grad_norm": 0.7977265119552612,
      "learning_rate": 0.000132198073241905,
      "loss": 3.7696,
      "step": 259100
    },
    {
      "epoch": 0.5398125,
      "grad_norm": 0.7596492171287537,
      "learning_rate": 0.0001321882844002296,
      "loss": 3.9516,
      "step": 259110
    },
    {
      "epoch": 0.5398333333333334,
      "grad_norm": 1.080754280090332,
      "learning_rate": 0.00013217849563549374,
      "loss": 3.6683,
      "step": 259120
    },
    {
      "epoch": 0.5398541666666666,
      "grad_norm": 0.8209827542304993,
      "learning_rate": 0.0001321687069477397,
      "loss": 3.7047,
      "step": 259130
    },
    {
      "epoch": 0.539875,
      "grad_norm": 0.8360174894332886,
      "learning_rate": 0.00013215891833700982,
      "loss": 3.7433,
      "step": 259140
    },
    {
      "epoch": 0.5398958333333334,
      "grad_norm": 0.8440573215484619,
      "learning_rate": 0.00013214912980334635,
      "loss": 3.6708,
      "step": 259150
    },
    {
      "epoch": 0.5399166666666667,
      "grad_norm": 0.7264381647109985,
      "learning_rate": 0.00013213934134679152,
      "loss": 3.8474,
      "step": 259160
    },
    {
      "epoch": 0.5399375,
      "grad_norm": 0.845385730266571,
      "learning_rate": 0.00013212955296738776,
      "loss": 3.644,
      "step": 259170
    },
    {
      "epoch": 0.5399583333333333,
      "grad_norm": 0.9512588977813721,
      "learning_rate": 0.0001321197646651772,
      "loss": 3.7653,
      "step": 259180
    },
    {
      "epoch": 0.5399791666666667,
      "grad_norm": 0.856251060962677,
      "learning_rate": 0.00013210997644020215,
      "loss": 3.8731,
      "step": 259190
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.844998836517334,
      "learning_rate": 0.00013210018829250497,
      "loss": 3.7703,
      "step": 259200
    },
    {
      "epoch": 0.5400208333333333,
      "grad_norm": 0.8814508318901062,
      "learning_rate": 0.0001320904002221279,
      "loss": 3.869,
      "step": 259210
    },
    {
      "epoch": 0.5400416666666666,
      "grad_norm": 0.8593622446060181,
      "learning_rate": 0.00013208061222911313,
      "loss": 3.8404,
      "step": 259220
    },
    {
      "epoch": 0.5400625,
      "grad_norm": 0.727523684501648,
      "learning_rate": 0.00013207082431350312,
      "loss": 3.7165,
      "step": 259230
    },
    {
      "epoch": 0.5400833333333334,
      "grad_norm": 1.0319124460220337,
      "learning_rate": 0.00013206103647534002,
      "loss": 3.6641,
      "step": 259240
    },
    {
      "epoch": 0.5401041666666667,
      "grad_norm": 0.7859638929367065,
      "learning_rate": 0.0001320512487146661,
      "loss": 3.6496,
      "step": 259250
    },
    {
      "epoch": 0.540125,
      "grad_norm": 0.8136679530143738,
      "learning_rate": 0.00013204146103152373,
      "loss": 3.5957,
      "step": 259260
    },
    {
      "epoch": 0.5401458333333333,
      "grad_norm": 0.773545503616333,
      "learning_rate": 0.00013203167342595515,
      "loss": 3.8418,
      "step": 259270
    },
    {
      "epoch": 0.5401666666666667,
      "grad_norm": 1.2468998432159424,
      "learning_rate": 0.00013202188589800254,
      "loss": 3.7214,
      "step": 259280
    },
    {
      "epoch": 0.5401875,
      "grad_norm": 0.8083068132400513,
      "learning_rate": 0.00013201209844770838,
      "loss": 3.7369,
      "step": 259290
    },
    {
      "epoch": 0.5402083333333333,
      "grad_norm": 0.8575904965400696,
      "learning_rate": 0.0001320023110751148,
      "loss": 3.6764,
      "step": 259300
    },
    {
      "epoch": 0.5402291666666666,
      "grad_norm": 0.8093109130859375,
      "learning_rate": 0.00013199252378026405,
      "loss": 3.6379,
      "step": 259310
    },
    {
      "epoch": 0.54025,
      "grad_norm": 0.7775639891624451,
      "learning_rate": 0.00013198273656319853,
      "loss": 3.8113,
      "step": 259320
    },
    {
      "epoch": 0.5402708333333334,
      "grad_norm": 0.7881451845169067,
      "learning_rate": 0.00013197294942396046,
      "loss": 3.5925,
      "step": 259330
    },
    {
      "epoch": 0.5402916666666666,
      "grad_norm": 0.9080102443695068,
      "learning_rate": 0.0001319631623625921,
      "loss": 3.7496,
      "step": 259340
    },
    {
      "epoch": 0.5403125,
      "grad_norm": 0.8114233613014221,
      "learning_rate": 0.0001319533753791357,
      "loss": 3.8233,
      "step": 259350
    },
    {
      "epoch": 0.5403333333333333,
      "grad_norm": 0.7727175951004028,
      "learning_rate": 0.00013194358847363365,
      "loss": 3.765,
      "step": 259360
    },
    {
      "epoch": 0.5403541666666667,
      "grad_norm": 0.8425830006599426,
      "learning_rate": 0.00013193380164612807,
      "loss": 3.795,
      "step": 259370
    },
    {
      "epoch": 0.540375,
      "grad_norm": 0.8445354104042053,
      "learning_rate": 0.00013192401489666136,
      "loss": 3.744,
      "step": 259380
    },
    {
      "epoch": 0.5403958333333333,
      "grad_norm": 0.946000337600708,
      "learning_rate": 0.0001319142282252758,
      "loss": 3.8068,
      "step": 259390
    },
    {
      "epoch": 0.5404166666666667,
      "grad_norm": 0.717696487903595,
      "learning_rate": 0.00013190444163201353,
      "loss": 3.5835,
      "step": 259400
    },
    {
      "epoch": 0.5404375,
      "grad_norm": 0.7894728183746338,
      "learning_rate": 0.00013189465511691693,
      "loss": 3.872,
      "step": 259410
    },
    {
      "epoch": 0.5404583333333334,
      "grad_norm": 0.7544746398925781,
      "learning_rate": 0.0001318848686800283,
      "loss": 3.7992,
      "step": 259420
    },
    {
      "epoch": 0.5404791666666666,
      "grad_norm": 0.7816213369369507,
      "learning_rate": 0.00013187508232138985,
      "loss": 3.8027,
      "step": 259430
    },
    {
      "epoch": 0.5405,
      "grad_norm": 1.148979663848877,
      "learning_rate": 0.0001318652960410438,
      "loss": 3.8044,
      "step": 259440
    },
    {
      "epoch": 0.5405208333333333,
      "grad_norm": 0.8207373023033142,
      "learning_rate": 0.00013185550983903254,
      "loss": 3.8169,
      "step": 259450
    },
    {
      "epoch": 0.5405416666666667,
      "grad_norm": 0.8461564779281616,
      "learning_rate": 0.00013184572371539836,
      "loss": 3.8806,
      "step": 259460
    },
    {
      "epoch": 0.5405625,
      "grad_norm": 0.9290915131568909,
      "learning_rate": 0.00013183593767018335,
      "loss": 3.7287,
      "step": 259470
    },
    {
      "epoch": 0.5405833333333333,
      "grad_norm": 0.7698215842247009,
      "learning_rate": 0.00013182615170342996,
      "loss": 3.7457,
      "step": 259480
    },
    {
      "epoch": 0.5406041666666667,
      "grad_norm": 1.1019772291183472,
      "learning_rate": 0.00013181636581518043,
      "loss": 3.6759,
      "step": 259490
    },
    {
      "epoch": 0.540625,
      "grad_norm": 0.9471953511238098,
      "learning_rate": 0.00013180658000547696,
      "loss": 4.0013,
      "step": 259500
    },
    {
      "epoch": 0.5406458333333334,
      "grad_norm": 0.7273937463760376,
      "learning_rate": 0.00013179679427436185,
      "loss": 3.8434,
      "step": 259510
    },
    {
      "epoch": 0.5406666666666666,
      "grad_norm": 0.737413763999939,
      "learning_rate": 0.00013178700862187743,
      "loss": 3.6939,
      "step": 259520
    },
    {
      "epoch": 0.5406875,
      "grad_norm": 0.8615456819534302,
      "learning_rate": 0.00013177722304806588,
      "loss": 3.7823,
      "step": 259530
    },
    {
      "epoch": 0.5407083333333333,
      "grad_norm": 0.7854514718055725,
      "learning_rate": 0.00013176743755296955,
      "loss": 3.708,
      "step": 259540
    },
    {
      "epoch": 0.5407291666666667,
      "grad_norm": 0.8041759729385376,
      "learning_rate": 0.00013175765213663067,
      "loss": 3.75,
      "step": 259550
    },
    {
      "epoch": 0.54075,
      "grad_norm": 0.9590561389923096,
      "learning_rate": 0.00013174786679909144,
      "loss": 3.7943,
      "step": 259560
    },
    {
      "epoch": 0.5407708333333333,
      "grad_norm": 0.8379243612289429,
      "learning_rate": 0.00013173808154039431,
      "loss": 3.6335,
      "step": 259570
    },
    {
      "epoch": 0.5407916666666667,
      "grad_norm": 0.7759958505630493,
      "learning_rate": 0.00013172829636058138,
      "loss": 3.6394,
      "step": 259580
    },
    {
      "epoch": 0.5408125,
      "grad_norm": 0.8796419501304626,
      "learning_rate": 0.00013171851125969494,
      "loss": 3.6522,
      "step": 259590
    },
    {
      "epoch": 0.5408333333333334,
      "grad_norm": 0.8198103904724121,
      "learning_rate": 0.00013170872623777737,
      "loss": 3.7255,
      "step": 259600
    },
    {
      "epoch": 0.5408541666666666,
      "grad_norm": 0.8433458805084229,
      "learning_rate": 0.00013169894129487085,
      "loss": 3.748,
      "step": 259610
    },
    {
      "epoch": 0.540875,
      "grad_norm": 0.8942595720291138,
      "learning_rate": 0.0001316891564310176,
      "loss": 3.6398,
      "step": 259620
    },
    {
      "epoch": 0.5408958333333334,
      "grad_norm": 0.8772416114807129,
      "learning_rate": 0.00013167937164626002,
      "loss": 3.8414,
      "step": 259630
    },
    {
      "epoch": 0.5409166666666667,
      "grad_norm": 0.9415285587310791,
      "learning_rate": 0.00013166958694064027,
      "loss": 3.6124,
      "step": 259640
    },
    {
      "epoch": 0.5409375,
      "grad_norm": 0.9574647545814514,
      "learning_rate": 0.00013165980231420063,
      "loss": 3.7285,
      "step": 259650
    },
    {
      "epoch": 0.5409583333333333,
      "grad_norm": 0.9938676953315735,
      "learning_rate": 0.00013165001776698342,
      "loss": 3.8782,
      "step": 259660
    },
    {
      "epoch": 0.5409791666666667,
      "grad_norm": 0.8110130429267883,
      "learning_rate": 0.0001316402332990309,
      "loss": 3.9121,
      "step": 259670
    },
    {
      "epoch": 0.541,
      "grad_norm": 0.8044585585594177,
      "learning_rate": 0.00013163044891038522,
      "loss": 3.7516,
      "step": 259680
    },
    {
      "epoch": 0.5410208333333333,
      "grad_norm": 0.7990948557853699,
      "learning_rate": 0.00013162066460108875,
      "loss": 3.8984,
      "step": 259690
    },
    {
      "epoch": 0.5410416666666666,
      "grad_norm": 0.8631029725074768,
      "learning_rate": 0.00013161088037118377,
      "loss": 3.8208,
      "step": 259700
    },
    {
      "epoch": 0.5410625,
      "grad_norm": 0.9636580348014832,
      "learning_rate": 0.0001316010962207125,
      "loss": 3.7046,
      "step": 259710
    },
    {
      "epoch": 0.5410833333333334,
      "grad_norm": 0.8665192127227783,
      "learning_rate": 0.00013159131214971717,
      "loss": 3.6499,
      "step": 259720
    },
    {
      "epoch": 0.5411041666666667,
      "grad_norm": 1.0047699213027954,
      "learning_rate": 0.00013158152815824015,
      "loss": 3.7337,
      "step": 259730
    },
    {
      "epoch": 0.541125,
      "grad_norm": 0.7753649950027466,
      "learning_rate": 0.0001315717442463236,
      "loss": 3.7566,
      "step": 259740
    },
    {
      "epoch": 0.5411458333333333,
      "grad_norm": 0.8268024325370789,
      "learning_rate": 0.0001315619604140098,
      "loss": 3.8057,
      "step": 259750
    },
    {
      "epoch": 0.5411666666666667,
      "grad_norm": 0.8659597039222717,
      "learning_rate": 0.00013155217666134108,
      "loss": 3.8295,
      "step": 259760
    },
    {
      "epoch": 0.5411875,
      "grad_norm": 0.9467217326164246,
      "learning_rate": 0.00013154239298835964,
      "loss": 3.7461,
      "step": 259770
    },
    {
      "epoch": 0.5412083333333333,
      "grad_norm": 0.9413345456123352,
      "learning_rate": 0.0001315326093951077,
      "loss": 3.7532,
      "step": 259780
    },
    {
      "epoch": 0.5412291666666667,
      "grad_norm": 0.8387015461921692,
      "learning_rate": 0.00013152282588162765,
      "loss": 3.7137,
      "step": 259790
    },
    {
      "epoch": 0.54125,
      "grad_norm": 0.8159290552139282,
      "learning_rate": 0.0001315130424479617,
      "loss": 3.6099,
      "step": 259800
    },
    {
      "epoch": 0.5412708333333334,
      "grad_norm": 0.8119062185287476,
      "learning_rate": 0.00013150325909415202,
      "loss": 3.5816,
      "step": 259810
    },
    {
      "epoch": 0.5412916666666666,
      "grad_norm": 0.8834605813026428,
      "learning_rate": 0.00013149347582024095,
      "loss": 3.826,
      "step": 259820
    },
    {
      "epoch": 0.5413125,
      "grad_norm": 0.8977542519569397,
      "learning_rate": 0.0001314836926262708,
      "loss": 3.7077,
      "step": 259830
    },
    {
      "epoch": 0.5413333333333333,
      "grad_norm": 0.889278769493103,
      "learning_rate": 0.00013147390951228366,
      "loss": 3.7017,
      "step": 259840
    },
    {
      "epoch": 0.5413541666666667,
      "grad_norm": 0.8732790350914001,
      "learning_rate": 0.00013146412647832196,
      "loss": 3.7858,
      "step": 259850
    },
    {
      "epoch": 0.541375,
      "grad_norm": 0.8146927356719971,
      "learning_rate": 0.00013145434352442793,
      "loss": 3.8187,
      "step": 259860
    },
    {
      "epoch": 0.5413958333333333,
      "grad_norm": 0.8657094240188599,
      "learning_rate": 0.00013144456065064373,
      "loss": 3.6044,
      "step": 259870
    },
    {
      "epoch": 0.5414166666666667,
      "grad_norm": 0.8512747287750244,
      "learning_rate": 0.0001314347778570117,
      "loss": 3.8724,
      "step": 259880
    },
    {
      "epoch": 0.5414375,
      "grad_norm": 0.7786329984664917,
      "learning_rate": 0.00013142499514357412,
      "loss": 3.6169,
      "step": 259890
    },
    {
      "epoch": 0.5414583333333334,
      "grad_norm": 0.8880507349967957,
      "learning_rate": 0.00013141521251037316,
      "loss": 3.8514,
      "step": 259900
    },
    {
      "epoch": 0.5414791666666666,
      "grad_norm": 0.8518335819244385,
      "learning_rate": 0.00013140542995745115,
      "loss": 3.8529,
      "step": 259910
    },
    {
      "epoch": 0.5415,
      "grad_norm": 0.8012481331825256,
      "learning_rate": 0.00013139564748485035,
      "loss": 3.6997,
      "step": 259920
    },
    {
      "epoch": 0.5415208333333333,
      "grad_norm": 0.8661441802978516,
      "learning_rate": 0.00013138586509261292,
      "loss": 3.7435,
      "step": 259930
    },
    {
      "epoch": 0.5415416666666667,
      "grad_norm": 0.8052732944488525,
      "learning_rate": 0.00013137608278078125,
      "loss": 3.6047,
      "step": 259940
    },
    {
      "epoch": 0.5415625,
      "grad_norm": 0.7743831276893616,
      "learning_rate": 0.0001313663005493975,
      "loss": 3.6802,
      "step": 259950
    },
    {
      "epoch": 0.5415833333333333,
      "grad_norm": 0.7950842380523682,
      "learning_rate": 0.00013135651839850393,
      "loss": 3.7732,
      "step": 259960
    },
    {
      "epoch": 0.5416041666666667,
      "grad_norm": 0.8410434126853943,
      "learning_rate": 0.00013134673632814287,
      "loss": 3.7352,
      "step": 259970
    },
    {
      "epoch": 0.541625,
      "grad_norm": 0.7319602370262146,
      "learning_rate": 0.0001313369543383565,
      "loss": 3.7011,
      "step": 259980
    },
    {
      "epoch": 0.5416458333333334,
      "grad_norm": 0.8304300904273987,
      "learning_rate": 0.00013132717242918715,
      "loss": 3.6502,
      "step": 259990
    },
    {
      "epoch": 0.5416666666666666,
      "grad_norm": 0.9295715689659119,
      "learning_rate": 0.00013131739060067696,
      "loss": 3.5952,
      "step": 260000
    },
    {
      "epoch": 0.5416666666666666,
      "eval_loss": 4.114441871643066,
      "eval_runtime": 10.1932,
      "eval_samples_per_second": 0.981,
      "eval_steps_per_second": 0.294,
      "step": 260000
    },
    {
      "epoch": 0.5416875,
      "grad_norm": 0.8334726095199585,
      "learning_rate": 0.00013130760885286826,
      "loss": 3.8395,
      "step": 260010
    },
    {
      "epoch": 0.5417083333333333,
      "grad_norm": 0.8299275636672974,
      "learning_rate": 0.00013129782718580333,
      "loss": 3.7544,
      "step": 260020
    },
    {
      "epoch": 0.5417291666666667,
      "grad_norm": 0.8630263805389404,
      "learning_rate": 0.00013128804559952434,
      "loss": 3.8826,
      "step": 260030
    },
    {
      "epoch": 0.54175,
      "grad_norm": 0.8127534985542297,
      "learning_rate": 0.00013127826409407362,
      "loss": 3.6261,
      "step": 260040
    },
    {
      "epoch": 0.5417708333333333,
      "grad_norm": 0.8234761357307434,
      "learning_rate": 0.00013126848266949335,
      "loss": 3.8871,
      "step": 260050
    },
    {
      "epoch": 0.5417916666666667,
      "grad_norm": 0.7676432132720947,
      "learning_rate": 0.0001312587013258258,
      "loss": 3.749,
      "step": 260060
    },
    {
      "epoch": 0.5418125,
      "grad_norm": 0.8484113812446594,
      "learning_rate": 0.00013124892006311333,
      "loss": 3.7159,
      "step": 260070
    },
    {
      "epoch": 0.5418333333333333,
      "grad_norm": 0.7712023258209229,
      "learning_rate": 0.00013123913888139804,
      "loss": 3.7956,
      "step": 260080
    },
    {
      "epoch": 0.5418541666666666,
      "grad_norm": 0.9152987599372864,
      "learning_rate": 0.00013122935778072222,
      "loss": 3.8866,
      "step": 260090
    },
    {
      "epoch": 0.541875,
      "grad_norm": 0.9801977276802063,
      "learning_rate": 0.00013121957676112822,
      "loss": 3.7097,
      "step": 260100
    },
    {
      "epoch": 0.5418958333333334,
      "grad_norm": 1.1327883005142212,
      "learning_rate": 0.00013120979582265815,
      "loss": 3.8685,
      "step": 260110
    },
    {
      "epoch": 0.5419166666666667,
      "grad_norm": 0.8519196510314941,
      "learning_rate": 0.00013120001496535433,
      "loss": 3.7307,
      "step": 260120
    },
    {
      "epoch": 0.5419375,
      "grad_norm": 0.7582140564918518,
      "learning_rate": 0.00013119023418925907,
      "loss": 3.7397,
      "step": 260130
    },
    {
      "epoch": 0.5419583333333333,
      "grad_norm": 0.7964953780174255,
      "learning_rate": 0.0001311804534944145,
      "loss": 3.9155,
      "step": 260140
    },
    {
      "epoch": 0.5419791666666667,
      "grad_norm": 0.8535497784614563,
      "learning_rate": 0.0001311706728808629,
      "loss": 3.6414,
      "step": 260150
    },
    {
      "epoch": 0.542,
      "grad_norm": 1.033690094947815,
      "learning_rate": 0.0001311608923486466,
      "loss": 3.7178,
      "step": 260160
    },
    {
      "epoch": 0.5420208333333333,
      "grad_norm": 0.9193623065948486,
      "learning_rate": 0.00013115111189780778,
      "loss": 3.7661,
      "step": 260170
    },
    {
      "epoch": 0.5420416666666666,
      "grad_norm": 0.9938532710075378,
      "learning_rate": 0.00013114133152838863,
      "loss": 3.8058,
      "step": 260180
    },
    {
      "epoch": 0.5420625,
      "grad_norm": 1.0049824714660645,
      "learning_rate": 0.00013113155124043152,
      "loss": 3.6806,
      "step": 260190
    },
    {
      "epoch": 0.5420833333333334,
      "grad_norm": 0.8668783903121948,
      "learning_rate": 0.00013112177103397863,
      "loss": 3.7396,
      "step": 260200
    },
    {
      "epoch": 0.5421041666666667,
      "grad_norm": 0.9967188239097595,
      "learning_rate": 0.0001311119909090722,
      "loss": 3.7609,
      "step": 260210
    },
    {
      "epoch": 0.542125,
      "grad_norm": 0.7967123985290527,
      "learning_rate": 0.00013110221086575448,
      "loss": 3.874,
      "step": 260220
    },
    {
      "epoch": 0.5421458333333333,
      "grad_norm": 0.8692091107368469,
      "learning_rate": 0.0001310924309040678,
      "loss": 3.7533,
      "step": 260230
    },
    {
      "epoch": 0.5421666666666667,
      "grad_norm": 0.8478231430053711,
      "learning_rate": 0.00013108265102405425,
      "loss": 3.7492,
      "step": 260240
    },
    {
      "epoch": 0.5421875,
      "grad_norm": 0.8194635510444641,
      "learning_rate": 0.0001310728712257562,
      "loss": 3.8791,
      "step": 260250
    },
    {
      "epoch": 0.5422083333333333,
      "grad_norm": 0.8893495798110962,
      "learning_rate": 0.0001310630915092159,
      "loss": 3.5454,
      "step": 260260
    },
    {
      "epoch": 0.5422291666666667,
      "grad_norm": 0.8272778987884521,
      "learning_rate": 0.00013105331187447544,
      "loss": 3.6807,
      "step": 260270
    },
    {
      "epoch": 0.54225,
      "grad_norm": 0.7507427930831909,
      "learning_rate": 0.00013104353232157724,
      "loss": 3.8461,
      "step": 260280
    },
    {
      "epoch": 0.5422708333333334,
      "grad_norm": 0.8902047872543335,
      "learning_rate": 0.0001310337528505635,
      "loss": 3.6052,
      "step": 260290
    },
    {
      "epoch": 0.5422916666666666,
      "grad_norm": 0.7387785315513611,
      "learning_rate": 0.00013102397346147644,
      "loss": 3.7229,
      "step": 260300
    },
    {
      "epoch": 0.5423125,
      "grad_norm": 0.8630146980285645,
      "learning_rate": 0.00013101419415435824,
      "loss": 3.7371,
      "step": 260310
    },
    {
      "epoch": 0.5423333333333333,
      "grad_norm": 2.579350233078003,
      "learning_rate": 0.00013100441492925124,
      "loss": 3.7206,
      "step": 260320
    },
    {
      "epoch": 0.5423541666666667,
      "grad_norm": 0.8787423968315125,
      "learning_rate": 0.0001309946357861977,
      "loss": 3.787,
      "step": 260330
    },
    {
      "epoch": 0.542375,
      "grad_norm": 0.7660581469535828,
      "learning_rate": 0.00013098485672523972,
      "loss": 3.8484,
      "step": 260340
    },
    {
      "epoch": 0.5423958333333333,
      "grad_norm": 0.7870772480964661,
      "learning_rate": 0.00013097507774641965,
      "loss": 3.691,
      "step": 260350
    },
    {
      "epoch": 0.5424166666666667,
      "grad_norm": 0.8996874094009399,
      "learning_rate": 0.00013096529884977978,
      "loss": 3.7516,
      "step": 260360
    },
    {
      "epoch": 0.5424375,
      "grad_norm": 0.9207161664962769,
      "learning_rate": 0.0001309555200353622,
      "loss": 3.7954,
      "step": 260370
    },
    {
      "epoch": 0.5424583333333334,
      "grad_norm": 0.7728938460350037,
      "learning_rate": 0.00013094574130320926,
      "loss": 3.4977,
      "step": 260380
    },
    {
      "epoch": 0.5424791666666666,
      "grad_norm": 0.8748624920845032,
      "learning_rate": 0.00013093596265336324,
      "loss": 3.7118,
      "step": 260390
    },
    {
      "epoch": 0.5425,
      "grad_norm": 0.7842944860458374,
      "learning_rate": 0.00013092618408586622,
      "loss": 3.7469,
      "step": 260400
    },
    {
      "epoch": 0.5425208333333333,
      "grad_norm": 0.786348283290863,
      "learning_rate": 0.0001309164056007606,
      "loss": 3.7343,
      "step": 260410
    },
    {
      "epoch": 0.5425416666666667,
      "grad_norm": 0.851693868637085,
      "learning_rate": 0.00013090662719808857,
      "loss": 3.5419,
      "step": 260420
    },
    {
      "epoch": 0.5425625,
      "grad_norm": 0.9067336916923523,
      "learning_rate": 0.00013089684887789227,
      "loss": 3.6488,
      "step": 260430
    },
    {
      "epoch": 0.5425833333333333,
      "grad_norm": 0.7647014856338501,
      "learning_rate": 0.0001308870706402141,
      "loss": 3.7285,
      "step": 260440
    },
    {
      "epoch": 0.5426041666666667,
      "grad_norm": 0.8283600807189941,
      "learning_rate": 0.00013087729248509617,
      "loss": 3.7978,
      "step": 260450
    },
    {
      "epoch": 0.542625,
      "grad_norm": 0.7852358222007751,
      "learning_rate": 0.00013086751441258076,
      "loss": 3.7809,
      "step": 260460
    },
    {
      "epoch": 0.5426458333333334,
      "grad_norm": 0.819496750831604,
      "learning_rate": 0.00013085773642271018,
      "loss": 3.8284,
      "step": 260470
    },
    {
      "epoch": 0.5426666666666666,
      "grad_norm": 0.7504869103431702,
      "learning_rate": 0.00013084795851552657,
      "loss": 3.8097,
      "step": 260480
    },
    {
      "epoch": 0.5426875,
      "grad_norm": 0.7561196088790894,
      "learning_rate": 0.00013083818069107214,
      "loss": 3.7149,
      "step": 260490
    },
    {
      "epoch": 0.5427083333333333,
      "grad_norm": 0.8186991214752197,
      "learning_rate": 0.00013082840294938928,
      "loss": 3.6423,
      "step": 260500
    },
    {
      "epoch": 0.5427291666666667,
      "grad_norm": 1.228820562362671,
      "learning_rate": 0.00013081862529052007,
      "loss": 3.686,
      "step": 260510
    },
    {
      "epoch": 0.54275,
      "grad_norm": 0.7517589926719666,
      "learning_rate": 0.00013080884771450677,
      "loss": 3.7722,
      "step": 260520
    },
    {
      "epoch": 0.5427708333333333,
      "grad_norm": 0.9877805709838867,
      "learning_rate": 0.00013079907022139174,
      "loss": 3.9632,
      "step": 260530
    },
    {
      "epoch": 0.5427916666666667,
      "grad_norm": 1.0702095031738281,
      "learning_rate": 0.00013078929281121714,
      "loss": 3.6775,
      "step": 260540
    },
    {
      "epoch": 0.5428125,
      "grad_norm": 0.9208332300186157,
      "learning_rate": 0.0001307795154840251,
      "loss": 3.9371,
      "step": 260550
    },
    {
      "epoch": 0.5428333333333333,
      "grad_norm": 0.7843921780586243,
      "learning_rate": 0.00013076973823985798,
      "loss": 3.6861,
      "step": 260560
    },
    {
      "epoch": 0.5428541666666666,
      "grad_norm": 0.9616364240646362,
      "learning_rate": 0.000130759961078758,
      "loss": 3.9127,
      "step": 260570
    },
    {
      "epoch": 0.542875,
      "grad_norm": 0.8044105172157288,
      "learning_rate": 0.00013075018400076737,
      "loss": 3.7503,
      "step": 260580
    },
    {
      "epoch": 0.5428958333333334,
      "grad_norm": 0.8677681088447571,
      "learning_rate": 0.00013074040700592827,
      "loss": 3.5494,
      "step": 260590
    },
    {
      "epoch": 0.5429166666666667,
      "grad_norm": 0.7690848708152771,
      "learning_rate": 0.00013073063009428305,
      "loss": 3.6283,
      "step": 260600
    },
    {
      "epoch": 0.5429375,
      "grad_norm": 0.9844777584075928,
      "learning_rate": 0.00013072085326587389,
      "loss": 3.9212,
      "step": 260610
    },
    {
      "epoch": 0.5429583333333333,
      "grad_norm": 0.8606588840484619,
      "learning_rate": 0.00013071107652074294,
      "loss": 3.7105,
      "step": 260620
    },
    {
      "epoch": 0.5429791666666667,
      "grad_norm": 0.7400764226913452,
      "learning_rate": 0.00013070129985893257,
      "loss": 3.7272,
      "step": 260630
    },
    {
      "epoch": 0.543,
      "grad_norm": 0.857582151889801,
      "learning_rate": 0.00013069152328048494,
      "loss": 3.6943,
      "step": 260640
    },
    {
      "epoch": 0.5430208333333333,
      "grad_norm": 0.8388953804969788,
      "learning_rate": 0.00013068174678544222,
      "loss": 3.7365,
      "step": 260650
    },
    {
      "epoch": 0.5430416666666666,
      "grad_norm": 0.7814573645591736,
      "learning_rate": 0.0001306719703738468,
      "loss": 3.8663,
      "step": 260660
    },
    {
      "epoch": 0.5430625,
      "grad_norm": 0.8342244029045105,
      "learning_rate": 0.0001306621940457408,
      "loss": 3.7797,
      "step": 260670
    },
    {
      "epoch": 0.5430833333333334,
      "grad_norm": 0.8497518301010132,
      "learning_rate": 0.00013065241780116642,
      "loss": 3.7199,
      "step": 260680
    },
    {
      "epoch": 0.5431041666666667,
      "grad_norm": 0.8548518419265747,
      "learning_rate": 0.00013064264164016595,
      "loss": 3.6395,
      "step": 260690
    },
    {
      "epoch": 0.543125,
      "grad_norm": 0.9512961506843567,
      "learning_rate": 0.00013063286556278165,
      "loss": 3.6421,
      "step": 260700
    },
    {
      "epoch": 0.5431458333333333,
      "grad_norm": 0.928780734539032,
      "learning_rate": 0.00013062308956905564,
      "loss": 3.8301,
      "step": 260710
    },
    {
      "epoch": 0.5431666666666667,
      "grad_norm": 1.4158883094787598,
      "learning_rate": 0.00013061331365903022,
      "loss": 3.764,
      "step": 260720
    },
    {
      "epoch": 0.5431875,
      "grad_norm": 0.9219152331352234,
      "learning_rate": 0.00013060353783274768,
      "loss": 3.8949,
      "step": 260730
    },
    {
      "epoch": 0.5432083333333333,
      "grad_norm": 0.8224694132804871,
      "learning_rate": 0.0001305937620902501,
      "loss": 3.8219,
      "step": 260740
    },
    {
      "epoch": 0.5432291666666667,
      "grad_norm": 0.7467337250709534,
      "learning_rate": 0.0001305839864315798,
      "loss": 3.7702,
      "step": 260750
    },
    {
      "epoch": 0.54325,
      "grad_norm": 1.0620447397232056,
      "learning_rate": 0.00013057421085677906,
      "loss": 3.7702,
      "step": 260760
    },
    {
      "epoch": 0.5432708333333334,
      "grad_norm": 0.7292860150337219,
      "learning_rate": 0.00013056443536588994,
      "loss": 3.6616,
      "step": 260770
    },
    {
      "epoch": 0.5432916666666666,
      "grad_norm": 0.8006269931793213,
      "learning_rate": 0.00013055465995895482,
      "loss": 3.855,
      "step": 260780
    },
    {
      "epoch": 0.5433125,
      "grad_norm": 0.8487221598625183,
      "learning_rate": 0.0001305448846360159,
      "loss": 3.8139,
      "step": 260790
    },
    {
      "epoch": 0.5433333333333333,
      "grad_norm": 0.7531012892723083,
      "learning_rate": 0.00013053510939711532,
      "loss": 3.8863,
      "step": 260800
    },
    {
      "epoch": 0.5433541666666667,
      "grad_norm": 0.9582998156547546,
      "learning_rate": 0.00013052533424229542,
      "loss": 3.7895,
      "step": 260810
    },
    {
      "epoch": 0.543375,
      "grad_norm": 0.7912118434906006,
      "learning_rate": 0.00013051555917159834,
      "loss": 3.6339,
      "step": 260820
    },
    {
      "epoch": 0.5433958333333333,
      "grad_norm": 0.7821370363235474,
      "learning_rate": 0.00013050578418506627,
      "loss": 3.7487,
      "step": 260830
    },
    {
      "epoch": 0.5434166666666667,
      "grad_norm": 0.9972227215766907,
      "learning_rate": 0.00013049600928274161,
      "loss": 3.7416,
      "step": 260840
    },
    {
      "epoch": 0.5434375,
      "grad_norm": 0.9996463060379028,
      "learning_rate": 0.0001304862344646664,
      "loss": 3.8681,
      "step": 260850
    },
    {
      "epoch": 0.5434583333333334,
      "grad_norm": 0.9336904883384705,
      "learning_rate": 0.00013047645973088292,
      "loss": 3.6739,
      "step": 260860
    },
    {
      "epoch": 0.5434791666666666,
      "grad_norm": 1.0433496236801147,
      "learning_rate": 0.00013046668508143348,
      "loss": 3.9259,
      "step": 260870
    },
    {
      "epoch": 0.5435,
      "grad_norm": 0.8526001572608948,
      "learning_rate": 0.00013045691051636018,
      "loss": 3.8005,
      "step": 260880
    },
    {
      "epoch": 0.5435208333333333,
      "grad_norm": 0.8819050192832947,
      "learning_rate": 0.00013044713603570533,
      "loss": 3.8277,
      "step": 260890
    },
    {
      "epoch": 0.5435416666666667,
      "grad_norm": 0.8143773078918457,
      "learning_rate": 0.00013043736163951102,
      "loss": 3.6937,
      "step": 260900
    },
    {
      "epoch": 0.5435625,
      "grad_norm": 0.8603971600532532,
      "learning_rate": 0.00013042758732781964,
      "loss": 3.7441,
      "step": 260910
    },
    {
      "epoch": 0.5435833333333333,
      "grad_norm": 0.912996768951416,
      "learning_rate": 0.00013041781310067335,
      "loss": 3.7554,
      "step": 260920
    },
    {
      "epoch": 0.5436041666666667,
      "grad_norm": 0.9632611274719238,
      "learning_rate": 0.00013040803895811428,
      "loss": 3.8659,
      "step": 260930
    },
    {
      "epoch": 0.543625,
      "grad_norm": 0.8353132009506226,
      "learning_rate": 0.00013039826490018482,
      "loss": 3.7562,
      "step": 260940
    },
    {
      "epoch": 0.5436458333333334,
      "grad_norm": 0.9227522015571594,
      "learning_rate": 0.00013038849092692704,
      "loss": 3.8288,
      "step": 260950
    },
    {
      "epoch": 0.5436666666666666,
      "grad_norm": 0.8229460716247559,
      "learning_rate": 0.00013037871703838318,
      "loss": 3.7914,
      "step": 260960
    },
    {
      "epoch": 0.5436875,
      "grad_norm": 0.7392905354499817,
      "learning_rate": 0.00013036894323459556,
      "loss": 3.8589,
      "step": 260970
    },
    {
      "epoch": 0.5437083333333333,
      "grad_norm": 0.9018709063529968,
      "learning_rate": 0.0001303591695156063,
      "loss": 3.6739,
      "step": 260980
    },
    {
      "epoch": 0.5437291666666667,
      "grad_norm": 1.2107875347137451,
      "learning_rate": 0.00013034939588145764,
      "loss": 3.7356,
      "step": 260990
    },
    {
      "epoch": 0.54375,
      "grad_norm": 0.8831367492675781,
      "learning_rate": 0.00013033962233219187,
      "loss": 3.9045,
      "step": 261000
    },
    {
      "epoch": 0.54375,
      "eval_loss": 4.113842964172363,
      "eval_runtime": 9.6603,
      "eval_samples_per_second": 1.035,
      "eval_steps_per_second": 0.311,
      "step": 261000
    },
    {
      "epoch": 0.5437708333333333,
      "grad_norm": 0.9684504270553589,
      "learning_rate": 0.00013032984886785114,
      "loss": 3.6868,
      "step": 261010
    },
    {
      "epoch": 0.5437916666666667,
      "grad_norm": 0.7956995964050293,
      "learning_rate": 0.0001303200754884776,
      "loss": 3.6865,
      "step": 261020
    },
    {
      "epoch": 0.5438125,
      "grad_norm": 0.8130670785903931,
      "learning_rate": 0.00013031030219411364,
      "loss": 3.7489,
      "step": 261030
    },
    {
      "epoch": 0.5438333333333333,
      "grad_norm": 0.9516499638557434,
      "learning_rate": 0.00013030052898480135,
      "loss": 3.691,
      "step": 261040
    },
    {
      "epoch": 0.5438541666666666,
      "grad_norm": 0.7663119435310364,
      "learning_rate": 0.00013029075586058295,
      "loss": 4.0227,
      "step": 261050
    },
    {
      "epoch": 0.543875,
      "grad_norm": 0.7833137512207031,
      "learning_rate": 0.0001302809828215007,
      "loss": 3.7694,
      "step": 261060
    },
    {
      "epoch": 0.5438958333333334,
      "grad_norm": 0.8720014691352844,
      "learning_rate": 0.00013027120986759683,
      "loss": 3.6576,
      "step": 261070
    },
    {
      "epoch": 0.5439166666666667,
      "grad_norm": 0.853087306022644,
      "learning_rate": 0.00013026143699891343,
      "loss": 3.7816,
      "step": 261080
    },
    {
      "epoch": 0.5439375,
      "grad_norm": 0.834502100944519,
      "learning_rate": 0.00013025166421549287,
      "loss": 3.8198,
      "step": 261090
    },
    {
      "epoch": 0.5439583333333333,
      "grad_norm": 0.7745484113693237,
      "learning_rate": 0.00013024189151737735,
      "loss": 3.7649,
      "step": 261100
    },
    {
      "epoch": 0.5439791666666667,
      "grad_norm": 0.8556339144706726,
      "learning_rate": 0.00013023211890460896,
      "loss": 3.8988,
      "step": 261110
    },
    {
      "epoch": 0.544,
      "grad_norm": 0.8623204231262207,
      "learning_rate": 0.00013022234637723003,
      "loss": 3.7346,
      "step": 261120
    },
    {
      "epoch": 0.5440208333333333,
      "grad_norm": 0.7223705053329468,
      "learning_rate": 0.00013021257393528276,
      "loss": 3.8573,
      "step": 261130
    },
    {
      "epoch": 0.5440416666666666,
      "grad_norm": 1.1716711521148682,
      "learning_rate": 0.00013020280157880927,
      "loss": 4.0017,
      "step": 261140
    },
    {
      "epoch": 0.5440625,
      "grad_norm": 0.8073313236236572,
      "learning_rate": 0.00013019302930785187,
      "loss": 3.854,
      "step": 261150
    },
    {
      "epoch": 0.5440833333333334,
      "grad_norm": 1.0028076171875,
      "learning_rate": 0.0001301832571224528,
      "loss": 3.8788,
      "step": 261160
    },
    {
      "epoch": 0.5441041666666667,
      "grad_norm": 0.870567262172699,
      "learning_rate": 0.0001301734850226542,
      "loss": 3.7502,
      "step": 261170
    },
    {
      "epoch": 0.544125,
      "grad_norm": 0.8339571952819824,
      "learning_rate": 0.00013016371300849822,
      "loss": 3.7144,
      "step": 261180
    },
    {
      "epoch": 0.5441458333333333,
      "grad_norm": 0.8140708208084106,
      "learning_rate": 0.00013015394108002718,
      "loss": 3.7523,
      "step": 261190
    },
    {
      "epoch": 0.5441666666666667,
      "grad_norm": 0.9342450499534607,
      "learning_rate": 0.00013014416923728332,
      "loss": 3.5,
      "step": 261200
    },
    {
      "epoch": 0.5441875,
      "grad_norm": 0.8740174770355225,
      "learning_rate": 0.00013013439748030872,
      "loss": 3.8941,
      "step": 261210
    },
    {
      "epoch": 0.5442083333333333,
      "grad_norm": 0.9709984064102173,
      "learning_rate": 0.00013012462580914565,
      "loss": 3.7,
      "step": 261220
    },
    {
      "epoch": 0.5442291666666667,
      "grad_norm": 1.0106486082077026,
      "learning_rate": 0.0001301148542238364,
      "loss": 3.4963,
      "step": 261230
    },
    {
      "epoch": 0.54425,
      "grad_norm": 0.9398759007453918,
      "learning_rate": 0.00013010508272442303,
      "loss": 3.636,
      "step": 261240
    },
    {
      "epoch": 0.5442708333333334,
      "grad_norm": 0.8362935781478882,
      "learning_rate": 0.00013009531131094788,
      "loss": 3.8852,
      "step": 261250
    },
    {
      "epoch": 0.5442916666666666,
      "grad_norm": 1.0568758249282837,
      "learning_rate": 0.0001300855399834531,
      "loss": 3.8917,
      "step": 261260
    },
    {
      "epoch": 0.5443125,
      "grad_norm": 0.8368397951126099,
      "learning_rate": 0.00013007576874198088,
      "loss": 3.7153,
      "step": 261270
    },
    {
      "epoch": 0.5443333333333333,
      "grad_norm": 0.9736635088920593,
      "learning_rate": 0.00013006599758657347,
      "loss": 3.8049,
      "step": 261280
    },
    {
      "epoch": 0.5443541666666667,
      "grad_norm": 0.7416310906410217,
      "learning_rate": 0.0001300562265172731,
      "loss": 3.9069,
      "step": 261290
    },
    {
      "epoch": 0.544375,
      "grad_norm": 1.2100074291229248,
      "learning_rate": 0.00013004645553412185,
      "loss": 3.7989,
      "step": 261300
    },
    {
      "epoch": 0.5443958333333333,
      "grad_norm": 0.9864576458930969,
      "learning_rate": 0.00013003668463716208,
      "loss": 3.7271,
      "step": 261310
    },
    {
      "epoch": 0.5444166666666667,
      "grad_norm": 0.9199094772338867,
      "learning_rate": 0.00013002691382643593,
      "loss": 3.7026,
      "step": 261320
    },
    {
      "epoch": 0.5444375,
      "grad_norm": 0.819792628288269,
      "learning_rate": 0.00013001714310198554,
      "loss": 3.7871,
      "step": 261330
    },
    {
      "epoch": 0.5444583333333334,
      "grad_norm": 0.8284831643104553,
      "learning_rate": 0.00013000737246385326,
      "loss": 3.8625,
      "step": 261340
    },
    {
      "epoch": 0.5444791666666666,
      "grad_norm": 1.0470114946365356,
      "learning_rate": 0.00012999760191208118,
      "loss": 3.7891,
      "step": 261350
    },
    {
      "epoch": 0.5445,
      "grad_norm": 1.0447646379470825,
      "learning_rate": 0.00012998783144671153,
      "loss": 3.5796,
      "step": 261360
    },
    {
      "epoch": 0.5445208333333333,
      "grad_norm": 0.8062320947647095,
      "learning_rate": 0.00012997806106778656,
      "loss": 3.8108,
      "step": 261370
    },
    {
      "epoch": 0.5445416666666667,
      "grad_norm": 0.7908685803413391,
      "learning_rate": 0.0001299682907753484,
      "loss": 3.7721,
      "step": 261380
    },
    {
      "epoch": 0.5445625,
      "grad_norm": 0.8969921469688416,
      "learning_rate": 0.0001299585205694393,
      "loss": 3.7163,
      "step": 261390
    },
    {
      "epoch": 0.5445833333333333,
      "grad_norm": 0.8491451740264893,
      "learning_rate": 0.0001299487504501015,
      "loss": 3.9207,
      "step": 261400
    },
    {
      "epoch": 0.5446041666666667,
      "grad_norm": 0.8222475647926331,
      "learning_rate": 0.00012993898041737718,
      "loss": 3.897,
      "step": 261410
    },
    {
      "epoch": 0.544625,
      "grad_norm": 0.8776423335075378,
      "learning_rate": 0.00012992921047130841,
      "loss": 3.755,
      "step": 261420
    },
    {
      "epoch": 0.5446458333333334,
      "grad_norm": 0.7707729339599609,
      "learning_rate": 0.00012991944061193763,
      "loss": 3.8083,
      "step": 261430
    },
    {
      "epoch": 0.5446666666666666,
      "grad_norm": 0.8025802373886108,
      "learning_rate": 0.0001299096708393069,
      "loss": 3.8465,
      "step": 261440
    },
    {
      "epoch": 0.5446875,
      "grad_norm": 0.8670298457145691,
      "learning_rate": 0.00012989990115345838,
      "loss": 3.9285,
      "step": 261450
    },
    {
      "epoch": 0.5447083333333333,
      "grad_norm": 1.1236110925674438,
      "learning_rate": 0.00012989013155443436,
      "loss": 3.9018,
      "step": 261460
    },
    {
      "epoch": 0.5447291666666667,
      "grad_norm": 0.7340646982192993,
      "learning_rate": 0.00012988036204227704,
      "loss": 3.8385,
      "step": 261470
    },
    {
      "epoch": 0.54475,
      "grad_norm": 0.7522281408309937,
      "learning_rate": 0.00012987059261702856,
      "loss": 3.8809,
      "step": 261480
    },
    {
      "epoch": 0.5447708333333333,
      "grad_norm": 0.7492263317108154,
      "learning_rate": 0.0001298608232787311,
      "loss": 3.6927,
      "step": 261490
    },
    {
      "epoch": 0.5447916666666667,
      "grad_norm": 0.734599232673645,
      "learning_rate": 0.000129851054027427,
      "loss": 3.7332,
      "step": 261500
    },
    {
      "epoch": 0.5448125,
      "grad_norm": 0.8109098672866821,
      "learning_rate": 0.00012984128486315835,
      "loss": 3.5622,
      "step": 261510
    },
    {
      "epoch": 0.5448333333333333,
      "grad_norm": 0.860017716884613,
      "learning_rate": 0.00012983151578596733,
      "loss": 3.7761,
      "step": 261520
    },
    {
      "epoch": 0.5448541666666666,
      "grad_norm": 0.9156165719032288,
      "learning_rate": 0.00012982174679589624,
      "loss": 3.6911,
      "step": 261530
    },
    {
      "epoch": 0.544875,
      "grad_norm": 0.8524094820022583,
      "learning_rate": 0.0001298119778929872,
      "loss": 3.6841,
      "step": 261540
    },
    {
      "epoch": 0.5448958333333334,
      "grad_norm": 0.9472105503082275,
      "learning_rate": 0.00012980220907728238,
      "loss": 3.7781,
      "step": 261550
    },
    {
      "epoch": 0.5449166666666667,
      "grad_norm": 0.8619580268859863,
      "learning_rate": 0.00012979244034882405,
      "loss": 3.7161,
      "step": 261560
    },
    {
      "epoch": 0.5449375,
      "grad_norm": 1.0123528242111206,
      "learning_rate": 0.00012978267170765442,
      "loss": 3.5842,
      "step": 261570
    },
    {
      "epoch": 0.5449583333333333,
      "grad_norm": 0.9081408381462097,
      "learning_rate": 0.00012977290315381557,
      "loss": 3.859,
      "step": 261580
    },
    {
      "epoch": 0.5449791666666667,
      "grad_norm": 0.9007213711738586,
      "learning_rate": 0.00012976313468734979,
      "loss": 3.7012,
      "step": 261590
    },
    {
      "epoch": 0.545,
      "grad_norm": 0.807592511177063,
      "learning_rate": 0.0001297533663082993,
      "loss": 3.6775,
      "step": 261600
    },
    {
      "epoch": 0.5450208333333333,
      "grad_norm": 0.7810949683189392,
      "learning_rate": 0.0001297435980167062,
      "loss": 3.6624,
      "step": 261610
    },
    {
      "epoch": 0.5450416666666666,
      "grad_norm": 0.7686624526977539,
      "learning_rate": 0.00012973382981261276,
      "loss": 3.797,
      "step": 261620
    },
    {
      "epoch": 0.5450625,
      "grad_norm": 0.7921856641769409,
      "learning_rate": 0.0001297240616960612,
      "loss": 3.6716,
      "step": 261630
    },
    {
      "epoch": 0.5450833333333334,
      "grad_norm": 0.7401157021522522,
      "learning_rate": 0.00012971429366709358,
      "loss": 3.8483,
      "step": 261640
    },
    {
      "epoch": 0.5451041666666666,
      "grad_norm": 0.7937190532684326,
      "learning_rate": 0.00012970452572575223,
      "loss": 3.5339,
      "step": 261650
    },
    {
      "epoch": 0.545125,
      "grad_norm": 0.9442496299743652,
      "learning_rate": 0.00012969475787207932,
      "loss": 3.7737,
      "step": 261660
    },
    {
      "epoch": 0.5451458333333333,
      "grad_norm": 0.6955718994140625,
      "learning_rate": 0.00012968499010611697,
      "loss": 3.6196,
      "step": 261670
    },
    {
      "epoch": 0.5451666666666667,
      "grad_norm": 0.8916899561882019,
      "learning_rate": 0.00012967522242790747,
      "loss": 3.6068,
      "step": 261680
    },
    {
      "epoch": 0.5451875,
      "grad_norm": 0.7139988541603088,
      "learning_rate": 0.00012966545483749295,
      "loss": 3.8003,
      "step": 261690
    },
    {
      "epoch": 0.5452083333333333,
      "grad_norm": 0.8392499089241028,
      "learning_rate": 0.00012965568733491558,
      "loss": 3.6141,
      "step": 261700
    },
    {
      "epoch": 0.5452291666666667,
      "grad_norm": 0.9178383350372314,
      "learning_rate": 0.00012964591992021762,
      "loss": 3.7231,
      "step": 261710
    },
    {
      "epoch": 0.54525,
      "grad_norm": 0.7502325177192688,
      "learning_rate": 0.00012963615259344122,
      "loss": 3.7053,
      "step": 261720
    },
    {
      "epoch": 0.5452708333333334,
      "grad_norm": 0.9004629254341125,
      "learning_rate": 0.00012962638535462856,
      "loss": 3.5392,
      "step": 261730
    },
    {
      "epoch": 0.5452916666666666,
      "grad_norm": 0.8583347201347351,
      "learning_rate": 0.0001296166182038219,
      "loss": 3.4728,
      "step": 261740
    },
    {
      "epoch": 0.5453125,
      "grad_norm": 0.9349005818367004,
      "learning_rate": 0.00012960685114106333,
      "loss": 3.6854,
      "step": 261750
    },
    {
      "epoch": 0.5453333333333333,
      "grad_norm": 0.9408878684043884,
      "learning_rate": 0.00012959708416639517,
      "loss": 3.8073,
      "step": 261760
    },
    {
      "epoch": 0.5453541666666667,
      "grad_norm": 0.7759784460067749,
      "learning_rate": 0.00012958731727985944,
      "loss": 3.8639,
      "step": 261770
    },
    {
      "epoch": 0.545375,
      "grad_norm": 0.9724617600440979,
      "learning_rate": 0.00012957755048149843,
      "loss": 3.7122,
      "step": 261780
    },
    {
      "epoch": 0.5453958333333333,
      "grad_norm": 0.8107102513313293,
      "learning_rate": 0.00012956778377135438,
      "loss": 3.8394,
      "step": 261790
    },
    {
      "epoch": 0.5454166666666667,
      "grad_norm": 0.9642958641052246,
      "learning_rate": 0.00012955801714946937,
      "loss": 3.7538,
      "step": 261800
    },
    {
      "epoch": 0.5454375,
      "grad_norm": 0.8205118775367737,
      "learning_rate": 0.00012954825061588566,
      "loss": 3.8109,
      "step": 261810
    },
    {
      "epoch": 0.5454583333333334,
      "grad_norm": 0.8749720454216003,
      "learning_rate": 0.0001295384841706454,
      "loss": 3.722,
      "step": 261820
    },
    {
      "epoch": 0.5454791666666666,
      "grad_norm": 0.8596850633621216,
      "learning_rate": 0.00012952871781379073,
      "loss": 3.6345,
      "step": 261830
    },
    {
      "epoch": 0.5455,
      "grad_norm": 0.7786180973052979,
      "learning_rate": 0.000129518951545364,
      "loss": 3.6196,
      "step": 261840
    },
    {
      "epoch": 0.5455208333333333,
      "grad_norm": 0.7509301900863647,
      "learning_rate": 0.00012950918536540722,
      "loss": 3.7846,
      "step": 261850
    },
    {
      "epoch": 0.5455416666666667,
      "grad_norm": 0.7278434038162231,
      "learning_rate": 0.00012949941927396265,
      "loss": 3.6763,
      "step": 261860
    },
    {
      "epoch": 0.5455625,
      "grad_norm": 1.1702561378479004,
      "learning_rate": 0.00012948965327107254,
      "loss": 3.5752,
      "step": 261870
    },
    {
      "epoch": 0.5455833333333333,
      "grad_norm": 0.7272133827209473,
      "learning_rate": 0.00012947988735677896,
      "loss": 3.8437,
      "step": 261880
    },
    {
      "epoch": 0.5456041666666667,
      "grad_norm": 0.8634580373764038,
      "learning_rate": 0.0001294701215311241,
      "loss": 3.6659,
      "step": 261890
    },
    {
      "epoch": 0.545625,
      "grad_norm": 0.8012987971305847,
      "learning_rate": 0.00012946035579415027,
      "loss": 3.8106,
      "step": 261900
    },
    {
      "epoch": 0.5456458333333334,
      "grad_norm": 0.9746997356414795,
      "learning_rate": 0.00012945059014589954,
      "loss": 3.7814,
      "step": 261910
    },
    {
      "epoch": 0.5456666666666666,
      "grad_norm": 0.7662107944488525,
      "learning_rate": 0.0001294408245864141,
      "loss": 3.7712,
      "step": 261920
    },
    {
      "epoch": 0.5456875,
      "grad_norm": 0.893104076385498,
      "learning_rate": 0.0001294310591157362,
      "loss": 3.645,
      "step": 261930
    },
    {
      "epoch": 0.5457083333333334,
      "grad_norm": 0.9571065306663513,
      "learning_rate": 0.000129421293733908,
      "loss": 3.752,
      "step": 261940
    },
    {
      "epoch": 0.5457291666666667,
      "grad_norm": 0.8622691035270691,
      "learning_rate": 0.0001294115284409716,
      "loss": 3.5784,
      "step": 261950
    },
    {
      "epoch": 0.54575,
      "grad_norm": 0.9676979780197144,
      "learning_rate": 0.0001294017632369693,
      "loss": 3.7702,
      "step": 261960
    },
    {
      "epoch": 0.5457708333333333,
      "grad_norm": 0.8428000211715698,
      "learning_rate": 0.00012939199812194322,
      "loss": 3.7872,
      "step": 261970
    },
    {
      "epoch": 0.5457916666666667,
      "grad_norm": 0.8038449883460999,
      "learning_rate": 0.00012938223309593553,
      "loss": 3.714,
      "step": 261980
    },
    {
      "epoch": 0.5458125,
      "grad_norm": 0.8282607197761536,
      "learning_rate": 0.00012937246815898843,
      "loss": 3.7207,
      "step": 261990
    },
    {
      "epoch": 0.5458333333333333,
      "grad_norm": 0.835405707359314,
      "learning_rate": 0.00012936270331114416,
      "loss": 3.7152,
      "step": 262000
    },
    {
      "epoch": 0.5458333333333333,
      "eval_loss": 4.110581398010254,
      "eval_runtime": 10.4289,
      "eval_samples_per_second": 0.959,
      "eval_steps_per_second": 0.288,
      "step": 262000
    },
    {
      "epoch": 0.5458541666666666,
      "grad_norm": 0.9109508395195007,
      "learning_rate": 0.00012935293855244478,
      "loss": 3.7283,
      "step": 262010
    },
    {
      "epoch": 0.545875,
      "grad_norm": 1.0436971187591553,
      "learning_rate": 0.00012934317388293255,
      "loss": 3.6661,
      "step": 262020
    },
    {
      "epoch": 0.5458958333333334,
      "grad_norm": 0.8092226982116699,
      "learning_rate": 0.00012933340930264966,
      "loss": 3.6777,
      "step": 262030
    },
    {
      "epoch": 0.5459166666666667,
      "grad_norm": 0.8002495169639587,
      "learning_rate": 0.0001293236448116382,
      "loss": 3.8898,
      "step": 262040
    },
    {
      "epoch": 0.5459375,
      "grad_norm": 0.9361793994903564,
      "learning_rate": 0.00012931388040994047,
      "loss": 3.6787,
      "step": 262050
    },
    {
      "epoch": 0.5459583333333333,
      "grad_norm": 1.1254551410675049,
      "learning_rate": 0.00012930411609759856,
      "loss": 3.7146,
      "step": 262060
    },
    {
      "epoch": 0.5459791666666667,
      "grad_norm": 0.9741244912147522,
      "learning_rate": 0.00012929435187465472,
      "loss": 3.6057,
      "step": 262070
    },
    {
      "epoch": 0.546,
      "grad_norm": 0.8196431398391724,
      "learning_rate": 0.000129284587741151,
      "loss": 3.6429,
      "step": 262080
    },
    {
      "epoch": 0.5460208333333333,
      "grad_norm": 0.8110706806182861,
      "learning_rate": 0.00012927482369712973,
      "loss": 3.9228,
      "step": 262090
    },
    {
      "epoch": 0.5460416666666666,
      "grad_norm": 0.7662668824195862,
      "learning_rate": 0.000129265059742633,
      "loss": 3.7614,
      "step": 262100
    },
    {
      "epoch": 0.5460625,
      "grad_norm": 0.8218958377838135,
      "learning_rate": 0.00012925529587770298,
      "loss": 3.7762,
      "step": 262110
    },
    {
      "epoch": 0.5460833333333334,
      "grad_norm": 0.9594846367835999,
      "learning_rate": 0.0001292455321023819,
      "loss": 3.802,
      "step": 262120
    },
    {
      "epoch": 0.5461041666666666,
      "grad_norm": 0.8339571952819824,
      "learning_rate": 0.0001292357684167119,
      "loss": 3.7419,
      "step": 262130
    },
    {
      "epoch": 0.546125,
      "grad_norm": 0.8723613023757935,
      "learning_rate": 0.00012922600482073512,
      "loss": 3.9215,
      "step": 262140
    },
    {
      "epoch": 0.5461458333333333,
      "grad_norm": 2.5915751457214355,
      "learning_rate": 0.00012921624131449384,
      "loss": 3.6945,
      "step": 262150
    },
    {
      "epoch": 0.5461666666666667,
      "grad_norm": 0.8313618302345276,
      "learning_rate": 0.00012920647789803016,
      "loss": 3.8919,
      "step": 262160
    },
    {
      "epoch": 0.5461875,
      "grad_norm": 1.0063220262527466,
      "learning_rate": 0.0001291967145713862,
      "loss": 3.7094,
      "step": 262170
    },
    {
      "epoch": 0.5462083333333333,
      "grad_norm": 0.8291432857513428,
      "learning_rate": 0.0001291869513346043,
      "loss": 3.7406,
      "step": 262180
    },
    {
      "epoch": 0.5462291666666667,
      "grad_norm": 0.7758988738059998,
      "learning_rate": 0.00012917718818772648,
      "loss": 3.6432,
      "step": 262190
    },
    {
      "epoch": 0.54625,
      "grad_norm": 1.0960654020309448,
      "learning_rate": 0.00012916742513079493,
      "loss": 3.7912,
      "step": 262200
    },
    {
      "epoch": 0.5462708333333334,
      "grad_norm": 1.2435191869735718,
      "learning_rate": 0.0001291576621638519,
      "loss": 3.6983,
      "step": 262210
    },
    {
      "epoch": 0.5462916666666666,
      "grad_norm": 0.792601466178894,
      "learning_rate": 0.00012914789928693954,
      "loss": 3.7094,
      "step": 262220
    },
    {
      "epoch": 0.5463125,
      "grad_norm": 0.7978165745735168,
      "learning_rate": 0.00012913813650009993,
      "loss": 3.755,
      "step": 262230
    },
    {
      "epoch": 0.5463333333333333,
      "grad_norm": 0.9209603667259216,
      "learning_rate": 0.0001291283738033754,
      "loss": 3.6053,
      "step": 262240
    },
    {
      "epoch": 0.5463541666666667,
      "grad_norm": 0.7890159487724304,
      "learning_rate": 0.000129118611196808,
      "loss": 3.7622,
      "step": 262250
    },
    {
      "epoch": 0.546375,
      "grad_norm": 0.8915830850601196,
      "learning_rate": 0.00012910884868043987,
      "loss": 3.7375,
      "step": 262260
    },
    {
      "epoch": 0.5463958333333333,
      "grad_norm": 0.8903135061264038,
      "learning_rate": 0.00012909908625431332,
      "loss": 3.771,
      "step": 262270
    },
    {
      "epoch": 0.5464166666666667,
      "grad_norm": 0.8277204632759094,
      "learning_rate": 0.00012908932391847043,
      "loss": 3.8375,
      "step": 262280
    },
    {
      "epoch": 0.5464375,
      "grad_norm": 0.8669945001602173,
      "learning_rate": 0.00012907956167295333,
      "loss": 3.7401,
      "step": 262290
    },
    {
      "epoch": 0.5464583333333334,
      "grad_norm": 0.7829124331474304,
      "learning_rate": 0.0001290697995178043,
      "loss": 3.7645,
      "step": 262300
    },
    {
      "epoch": 0.5464791666666666,
      "grad_norm": 0.8670571446418762,
      "learning_rate": 0.00012906003745306548,
      "loss": 3.748,
      "step": 262310
    },
    {
      "epoch": 0.5465,
      "grad_norm": 0.7881612777709961,
      "learning_rate": 0.00012905027547877894,
      "loss": 4.0414,
      "step": 262320
    },
    {
      "epoch": 0.5465208333333333,
      "grad_norm": 0.8420549035072327,
      "learning_rate": 0.00012904051359498696,
      "loss": 3.92,
      "step": 262330
    },
    {
      "epoch": 0.5465416666666667,
      "grad_norm": 0.7980710864067078,
      "learning_rate": 0.00012903075180173166,
      "loss": 3.762,
      "step": 262340
    },
    {
      "epoch": 0.5465625,
      "grad_norm": 1.070686936378479,
      "learning_rate": 0.00012902099009905521,
      "loss": 3.8321,
      "step": 262350
    },
    {
      "epoch": 0.5465833333333333,
      "grad_norm": 0.7463510632514954,
      "learning_rate": 0.00012901122848699975,
      "loss": 3.6584,
      "step": 262360
    },
    {
      "epoch": 0.5466041666666667,
      "grad_norm": 1.1048932075500488,
      "learning_rate": 0.00012900146696560752,
      "loss": 3.7276,
      "step": 262370
    },
    {
      "epoch": 0.546625,
      "grad_norm": 0.890816330909729,
      "learning_rate": 0.00012899170553492062,
      "loss": 3.8969,
      "step": 262380
    },
    {
      "epoch": 0.5466458333333334,
      "grad_norm": 0.8084511160850525,
      "learning_rate": 0.00012898194419498122,
      "loss": 3.6885,
      "step": 262390
    },
    {
      "epoch": 0.5466666666666666,
      "grad_norm": 0.9766888618469238,
      "learning_rate": 0.00012897218294583154,
      "loss": 3.7251,
      "step": 262400
    },
    {
      "epoch": 0.5466875,
      "grad_norm": 0.8697177767753601,
      "learning_rate": 0.00012896242178751368,
      "loss": 3.7502,
      "step": 262410
    },
    {
      "epoch": 0.5467083333333334,
      "grad_norm": 0.75832200050354,
      "learning_rate": 0.0001289526607200698,
      "loss": 3.7558,
      "step": 262420
    },
    {
      "epoch": 0.5467291666666667,
      "grad_norm": 1.0029147863388062,
      "learning_rate": 0.00012894289974354215,
      "loss": 3.8268,
      "step": 262430
    },
    {
      "epoch": 0.54675,
      "grad_norm": 0.920616626739502,
      "learning_rate": 0.00012893313885797286,
      "loss": 3.8161,
      "step": 262440
    },
    {
      "epoch": 0.5467708333333333,
      "grad_norm": 0.8808977007865906,
      "learning_rate": 0.000128923378063404,
      "loss": 3.5812,
      "step": 262450
    },
    {
      "epoch": 0.5467916666666667,
      "grad_norm": 0.7583816051483154,
      "learning_rate": 0.00012891361735987782,
      "loss": 3.7774,
      "step": 262460
    },
    {
      "epoch": 0.5468125,
      "grad_norm": 0.7975279688835144,
      "learning_rate": 0.00012890385674743649,
      "loss": 3.6372,
      "step": 262470
    },
    {
      "epoch": 0.5468333333333333,
      "grad_norm": 0.954410970211029,
      "learning_rate": 0.00012889409622612213,
      "loss": 3.7544,
      "step": 262480
    },
    {
      "epoch": 0.5468541666666666,
      "grad_norm": 1.0340744256973267,
      "learning_rate": 0.0001288843357959769,
      "loss": 3.7153,
      "step": 262490
    },
    {
      "epoch": 0.546875,
      "grad_norm": 0.865298867225647,
      "learning_rate": 0.00012887457545704303,
      "loss": 3.7238,
      "step": 262500
    },
    {
      "epoch": 0.5468958333333334,
      "grad_norm": 0.9361256957054138,
      "learning_rate": 0.0001288648152093626,
      "loss": 3.758,
      "step": 262510
    },
    {
      "epoch": 0.5469166666666667,
      "grad_norm": 0.7463436722755432,
      "learning_rate": 0.0001288550550529778,
      "loss": 3.7653,
      "step": 262520
    },
    {
      "epoch": 0.5469375,
      "grad_norm": 0.9670787453651428,
      "learning_rate": 0.00012884529498793083,
      "loss": 3.72,
      "step": 262530
    },
    {
      "epoch": 0.5469583333333333,
      "grad_norm": 0.8146905303001404,
      "learning_rate": 0.00012883553501426374,
      "loss": 3.646,
      "step": 262540
    },
    {
      "epoch": 0.5469791666666667,
      "grad_norm": 0.8786200881004333,
      "learning_rate": 0.00012882577513201885,
      "loss": 3.634,
      "step": 262550
    },
    {
      "epoch": 0.547,
      "grad_norm": 0.7768638134002686,
      "learning_rate": 0.0001288160153412382,
      "loss": 3.7857,
      "step": 262560
    },
    {
      "epoch": 0.5470208333333333,
      "grad_norm": 0.794573187828064,
      "learning_rate": 0.00012880625564196392,
      "loss": 3.8684,
      "step": 262570
    },
    {
      "epoch": 0.5470416666666666,
      "grad_norm": 0.7655437588691711,
      "learning_rate": 0.0001287964960342383,
      "loss": 3.674,
      "step": 262580
    },
    {
      "epoch": 0.5470625,
      "grad_norm": 0.8572083115577698,
      "learning_rate": 0.0001287867365181034,
      "loss": 3.7564,
      "step": 262590
    },
    {
      "epoch": 0.5470833333333334,
      "grad_norm": 0.9467445611953735,
      "learning_rate": 0.00012877697709360136,
      "loss": 3.7046,
      "step": 262600
    },
    {
      "epoch": 0.5471041666666666,
      "grad_norm": 0.7545351982116699,
      "learning_rate": 0.00012876721776077446,
      "loss": 3.6218,
      "step": 262610
    },
    {
      "epoch": 0.547125,
      "grad_norm": 1.0110951662063599,
      "learning_rate": 0.00012875745851966472,
      "loss": 3.7611,
      "step": 262620
    },
    {
      "epoch": 0.5471458333333333,
      "grad_norm": 0.7586796879768372,
      "learning_rate": 0.0001287476993703143,
      "loss": 3.6885,
      "step": 262630
    },
    {
      "epoch": 0.5471666666666667,
      "grad_norm": 0.8704308867454529,
      "learning_rate": 0.00012873794031276553,
      "loss": 3.7387,
      "step": 262640
    },
    {
      "epoch": 0.5471875,
      "grad_norm": 0.8832321763038635,
      "learning_rate": 0.00012872818134706038,
      "loss": 3.6971,
      "step": 262650
    },
    {
      "epoch": 0.5472083333333333,
      "grad_norm": 0.7198918461799622,
      "learning_rate": 0.0001287184224732411,
      "loss": 3.8308,
      "step": 262660
    },
    {
      "epoch": 0.5472291666666667,
      "grad_norm": 0.8297655582427979,
      "learning_rate": 0.00012870866369134974,
      "loss": 3.8769,
      "step": 262670
    },
    {
      "epoch": 0.54725,
      "grad_norm": 0.8074195384979248,
      "learning_rate": 0.0001286989050014286,
      "loss": 3.7923,
      "step": 262680
    },
    {
      "epoch": 0.5472708333333334,
      "grad_norm": 0.8263705968856812,
      "learning_rate": 0.0001286891464035197,
      "loss": 3.7103,
      "step": 262690
    },
    {
      "epoch": 0.5472916666666666,
      "grad_norm": 0.886262059211731,
      "learning_rate": 0.00012867938789766525,
      "loss": 3.8287,
      "step": 262700
    },
    {
      "epoch": 0.5473125,
      "grad_norm": 0.6902587413787842,
      "learning_rate": 0.00012866962948390747,
      "loss": 3.7796,
      "step": 262710
    },
    {
      "epoch": 0.5473333333333333,
      "grad_norm": 0.8393836617469788,
      "learning_rate": 0.0001286598711622884,
      "loss": 3.7498,
      "step": 262720
    },
    {
      "epoch": 0.5473541666666667,
      "grad_norm": 0.8708266615867615,
      "learning_rate": 0.0001286501129328502,
      "loss": 3.7052,
      "step": 262730
    },
    {
      "epoch": 0.547375,
      "grad_norm": 0.745992124080658,
      "learning_rate": 0.00012864035479563516,
      "loss": 3.8969,
      "step": 262740
    },
    {
      "epoch": 0.5473958333333333,
      "grad_norm": 0.7832602262496948,
      "learning_rate": 0.00012863059675068526,
      "loss": 3.6133,
      "step": 262750
    },
    {
      "epoch": 0.5474166666666667,
      "grad_norm": 0.8336424827575684,
      "learning_rate": 0.00012862083879804271,
      "loss": 3.8041,
      "step": 262760
    },
    {
      "epoch": 0.5474375,
      "grad_norm": 0.8384950757026672,
      "learning_rate": 0.00012861108093774974,
      "loss": 3.8637,
      "step": 262770
    },
    {
      "epoch": 0.5474583333333334,
      "grad_norm": 0.7890915870666504,
      "learning_rate": 0.0001286013231698484,
      "loss": 3.925,
      "step": 262780
    },
    {
      "epoch": 0.5474791666666666,
      "grad_norm": 0.8439597487449646,
      "learning_rate": 0.00012859156549438084,
      "loss": 3.8656,
      "step": 262790
    },
    {
      "epoch": 0.5475,
      "grad_norm": 0.8135167360305786,
      "learning_rate": 0.0001285818079113893,
      "loss": 3.8718,
      "step": 262800
    },
    {
      "epoch": 0.5475208333333333,
      "grad_norm": 0.8690942525863647,
      "learning_rate": 0.0001285720504209159,
      "loss": 3.7332,
      "step": 262810
    },
    {
      "epoch": 0.5475416666666667,
      "grad_norm": 0.8454900979995728,
      "learning_rate": 0.00012856229302300265,
      "loss": 3.6367,
      "step": 262820
    },
    {
      "epoch": 0.5475625,
      "grad_norm": 0.8755603432655334,
      "learning_rate": 0.0001285525357176919,
      "loss": 3.6486,
      "step": 262830
    },
    {
      "epoch": 0.5475833333333333,
      "grad_norm": 0.8551668524742126,
      "learning_rate": 0.0001285427785050257,
      "loss": 3.9307,
      "step": 262840
    },
    {
      "epoch": 0.5476041666666667,
      "grad_norm": 0.787902295589447,
      "learning_rate": 0.00012853302138504614,
      "loss": 3.7001,
      "step": 262850
    },
    {
      "epoch": 0.547625,
      "grad_norm": 1.1347980499267578,
      "learning_rate": 0.00012852326435779546,
      "loss": 3.842,
      "step": 262860
    },
    {
      "epoch": 0.5476458333333334,
      "grad_norm": 0.8762856125831604,
      "learning_rate": 0.00012851350742331582,
      "loss": 3.8877,
      "step": 262870
    },
    {
      "epoch": 0.5476666666666666,
      "grad_norm": 0.8958175182342529,
      "learning_rate": 0.00012850375058164924,
      "loss": 3.8046,
      "step": 262880
    },
    {
      "epoch": 0.5476875,
      "grad_norm": 0.9690421223640442,
      "learning_rate": 0.000128493993832838,
      "loss": 3.8786,
      "step": 262890
    },
    {
      "epoch": 0.5477083333333334,
      "grad_norm": 0.8211370706558228,
      "learning_rate": 0.00012848423717692423,
      "loss": 3.6111,
      "step": 262900
    },
    {
      "epoch": 0.5477291666666667,
      "grad_norm": 0.8494100570678711,
      "learning_rate": 0.00012847448061394995,
      "loss": 3.745,
      "step": 262910
    },
    {
      "epoch": 0.54775,
      "grad_norm": 0.9090797901153564,
      "learning_rate": 0.00012846472414395745,
      "loss": 3.7779,
      "step": 262920
    },
    {
      "epoch": 0.5477708333333333,
      "grad_norm": 0.8479048609733582,
      "learning_rate": 0.00012845496776698885,
      "loss": 3.7321,
      "step": 262930
    },
    {
      "epoch": 0.5477916666666667,
      "grad_norm": 0.7714278697967529,
      "learning_rate": 0.00012844521148308626,
      "loss": 3.68,
      "step": 262940
    },
    {
      "epoch": 0.5478125,
      "grad_norm": 0.8287204504013062,
      "learning_rate": 0.00012843545529229176,
      "loss": 3.7106,
      "step": 262950
    },
    {
      "epoch": 0.5478333333333333,
      "grad_norm": 0.7040424346923828,
      "learning_rate": 0.0001284256991946476,
      "loss": 3.6985,
      "step": 262960
    },
    {
      "epoch": 0.5478541666666666,
      "grad_norm": 0.8877872824668884,
      "learning_rate": 0.00012841594319019586,
      "loss": 3.6659,
      "step": 262970
    },
    {
      "epoch": 0.547875,
      "grad_norm": 0.900632381439209,
      "learning_rate": 0.00012840618727897866,
      "loss": 3.7114,
      "step": 262980
    },
    {
      "epoch": 0.5478958333333334,
      "grad_norm": 0.86162930727005,
      "learning_rate": 0.00012839643146103825,
      "loss": 3.6589,
      "step": 262990
    },
    {
      "epoch": 0.5479166666666667,
      "grad_norm": 0.982007622718811,
      "learning_rate": 0.0001283866757364167,
      "loss": 3.6045,
      "step": 263000
    },
    {
      "epoch": 0.5479166666666667,
      "eval_loss": 4.113869667053223,
      "eval_runtime": 8.6537,
      "eval_samples_per_second": 1.156,
      "eval_steps_per_second": 0.347,
      "step": 263000
    },
    {
      "epoch": 0.5479375,
      "grad_norm": 0.9420701265335083,
      "learning_rate": 0.0001283769201051561,
      "loss": 3.7615,
      "step": 263010
    },
    {
      "epoch": 0.5479583333333333,
      "grad_norm": 1.1116727590560913,
      "learning_rate": 0.0001283671645672987,
      "loss": 3.6201,
      "step": 263020
    },
    {
      "epoch": 0.5479791666666667,
      "grad_norm": 0.7681389451026917,
      "learning_rate": 0.00012835740912288661,
      "loss": 3.8354,
      "step": 263030
    },
    {
      "epoch": 0.548,
      "grad_norm": 0.8580178022384644,
      "learning_rate": 0.00012834765377196184,
      "loss": 3.8038,
      "step": 263040
    },
    {
      "epoch": 0.5480208333333333,
      "grad_norm": 0.8795919418334961,
      "learning_rate": 0.00012833789851456675,
      "loss": 3.8858,
      "step": 263050
    },
    {
      "epoch": 0.5480416666666666,
      "grad_norm": 0.9990783929824829,
      "learning_rate": 0.0001283281433507433,
      "loss": 3.7596,
      "step": 263060
    },
    {
      "epoch": 0.5480625,
      "grad_norm": 0.8221245408058167,
      "learning_rate": 0.0001283183882805337,
      "loss": 3.8351,
      "step": 263070
    },
    {
      "epoch": 0.5480833333333334,
      "grad_norm": 0.7622037529945374,
      "learning_rate": 0.00012830863330398013,
      "loss": 3.7625,
      "step": 263080
    },
    {
      "epoch": 0.5481041666666666,
      "grad_norm": 0.740332305431366,
      "learning_rate": 0.00012829887842112463,
      "loss": 3.7561,
      "step": 263090
    },
    {
      "epoch": 0.548125,
      "grad_norm": 1.1170629262924194,
      "learning_rate": 0.00012828912363200935,
      "loss": 3.7096,
      "step": 263100
    },
    {
      "epoch": 0.5481458333333333,
      "grad_norm": 0.9772782921791077,
      "learning_rate": 0.00012827936893667656,
      "loss": 3.6593,
      "step": 263110
    },
    {
      "epoch": 0.5481666666666667,
      "grad_norm": 0.7790854573249817,
      "learning_rate": 0.00012826961433516824,
      "loss": 3.6598,
      "step": 263120
    },
    {
      "epoch": 0.5481875,
      "grad_norm": 0.7810671925544739,
      "learning_rate": 0.00012825985982752654,
      "loss": 3.8278,
      "step": 263130
    },
    {
      "epoch": 0.5482083333333333,
      "grad_norm": 0.7656233310699463,
      "learning_rate": 0.00012825010541379372,
      "loss": 3.7657,
      "step": 263140
    },
    {
      "epoch": 0.5482291666666667,
      "grad_norm": 0.7499118447303772,
      "learning_rate": 0.0001282403510940118,
      "loss": 3.6529,
      "step": 263150
    },
    {
      "epoch": 0.54825,
      "grad_norm": 1.1926863193511963,
      "learning_rate": 0.0001282305968682229,
      "loss": 3.6912,
      "step": 263160
    },
    {
      "epoch": 0.5482708333333334,
      "grad_norm": 0.8200905919075012,
      "learning_rate": 0.0001282208427364693,
      "loss": 3.6953,
      "step": 263170
    },
    {
      "epoch": 0.5482916666666666,
      "grad_norm": 0.8811125755310059,
      "learning_rate": 0.00012821108869879303,
      "loss": 3.8954,
      "step": 263180
    },
    {
      "epoch": 0.5483125,
      "grad_norm": 0.8342446684837341,
      "learning_rate": 0.0001282013347552362,
      "loss": 3.5551,
      "step": 263190
    },
    {
      "epoch": 0.5483333333333333,
      "grad_norm": 0.8100820183753967,
      "learning_rate": 0.00012819158090584095,
      "loss": 3.6664,
      "step": 263200
    },
    {
      "epoch": 0.5483541666666667,
      "grad_norm": 0.863836407661438,
      "learning_rate": 0.00012818182715064949,
      "loss": 3.7296,
      "step": 263210
    },
    {
      "epoch": 0.548375,
      "grad_norm": 0.8607200384140015,
      "learning_rate": 0.00012817207348970384,
      "loss": 3.7627,
      "step": 263220
    },
    {
      "epoch": 0.5483958333333333,
      "grad_norm": 0.8784747123718262,
      "learning_rate": 0.00012816231992304622,
      "loss": 3.6467,
      "step": 263230
    },
    {
      "epoch": 0.5484166666666667,
      "grad_norm": 0.890955924987793,
      "learning_rate": 0.00012815256645071877,
      "loss": 3.771,
      "step": 263240
    },
    {
      "epoch": 0.5484375,
      "grad_norm": 0.9107380509376526,
      "learning_rate": 0.00012814281307276356,
      "loss": 3.9398,
      "step": 263250
    },
    {
      "epoch": 0.5484583333333334,
      "grad_norm": 1.0418963432312012,
      "learning_rate": 0.0001281330597892227,
      "loss": 3.8649,
      "step": 263260
    },
    {
      "epoch": 0.5484791666666666,
      "grad_norm": 1.6314082145690918,
      "learning_rate": 0.00012812330660013846,
      "loss": 3.7612,
      "step": 263270
    },
    {
      "epoch": 0.5485,
      "grad_norm": 0.778786838054657,
      "learning_rate": 0.00012811355350555282,
      "loss": 3.7927,
      "step": 263280
    },
    {
      "epoch": 0.5485208333333333,
      "grad_norm": 0.9071088433265686,
      "learning_rate": 0.00012810380050550793,
      "loss": 3.8281,
      "step": 263290
    },
    {
      "epoch": 0.5485416666666667,
      "grad_norm": 1.0324788093566895,
      "learning_rate": 0.000128094047600046,
      "loss": 3.6612,
      "step": 263300
    },
    {
      "epoch": 0.5485625,
      "grad_norm": 0.8118438124656677,
      "learning_rate": 0.00012808429478920915,
      "loss": 3.7166,
      "step": 263310
    },
    {
      "epoch": 0.5485833333333333,
      "grad_norm": 0.8854103684425354,
      "learning_rate": 0.00012807454207303942,
      "loss": 3.6555,
      "step": 263320
    },
    {
      "epoch": 0.5486041666666667,
      "grad_norm": 0.8049363493919373,
      "learning_rate": 0.00012806478945157898,
      "loss": 3.8509,
      "step": 263330
    },
    {
      "epoch": 0.548625,
      "grad_norm": 0.7940534949302673,
      "learning_rate": 0.00012805503692487,
      "loss": 3.6807,
      "step": 263340
    },
    {
      "epoch": 0.5486458333333334,
      "grad_norm": 0.8251966834068298,
      "learning_rate": 0.00012804528449295453,
      "loss": 3.7426,
      "step": 263350
    },
    {
      "epoch": 0.5486666666666666,
      "grad_norm": 0.8400542140007019,
      "learning_rate": 0.0001280355321558748,
      "loss": 3.7576,
      "step": 263360
    },
    {
      "epoch": 0.5486875,
      "grad_norm": 0.846625804901123,
      "learning_rate": 0.00012802577991367285,
      "loss": 3.7944,
      "step": 263370
    },
    {
      "epoch": 0.5487083333333334,
      "grad_norm": 0.8803592324256897,
      "learning_rate": 0.0001280160277663908,
      "loss": 3.8073,
      "step": 263380
    },
    {
      "epoch": 0.5487291666666667,
      "grad_norm": 0.8573175072669983,
      "learning_rate": 0.00012800627571407083,
      "loss": 3.801,
      "step": 263390
    },
    {
      "epoch": 0.54875,
      "grad_norm": 0.7808133363723755,
      "learning_rate": 0.00012799652375675507,
      "loss": 3.7277,
      "step": 263400
    },
    {
      "epoch": 0.5487708333333333,
      "grad_norm": 0.9417151212692261,
      "learning_rate": 0.00012798677189448558,
      "loss": 3.8921,
      "step": 263410
    },
    {
      "epoch": 0.5487916666666667,
      "grad_norm": 0.7922750115394592,
      "learning_rate": 0.00012797702012730454,
      "loss": 3.8734,
      "step": 263420
    },
    {
      "epoch": 0.5488125,
      "grad_norm": 0.8618890643119812,
      "learning_rate": 0.00012796726845525408,
      "loss": 3.6472,
      "step": 263430
    },
    {
      "epoch": 0.5488333333333333,
      "grad_norm": 0.8831130862236023,
      "learning_rate": 0.00012795751687837625,
      "loss": 3.8424,
      "step": 263440
    },
    {
      "epoch": 0.5488541666666666,
      "grad_norm": 0.8831530809402466,
      "learning_rate": 0.00012794776539671327,
      "loss": 3.7689,
      "step": 263450
    },
    {
      "epoch": 0.548875,
      "grad_norm": 0.8109062910079956,
      "learning_rate": 0.00012793801401030718,
      "loss": 3.5659,
      "step": 263460
    },
    {
      "epoch": 0.5488958333333334,
      "grad_norm": 0.8258528113365173,
      "learning_rate": 0.00012792826271920013,
      "loss": 3.7495,
      "step": 263470
    },
    {
      "epoch": 0.5489166666666667,
      "grad_norm": 0.7916542887687683,
      "learning_rate": 0.0001279185115234343,
      "loss": 3.7928,
      "step": 263480
    },
    {
      "epoch": 0.5489375,
      "grad_norm": 0.8988183736801147,
      "learning_rate": 0.00012790876042305174,
      "loss": 3.7352,
      "step": 263490
    },
    {
      "epoch": 0.5489583333333333,
      "grad_norm": 0.9294821619987488,
      "learning_rate": 0.00012789900941809454,
      "loss": 3.7256,
      "step": 263500
    },
    {
      "epoch": 0.5489791666666667,
      "grad_norm": 1.2427263259887695,
      "learning_rate": 0.0001278892585086049,
      "loss": 3.7049,
      "step": 263510
    },
    {
      "epoch": 0.549,
      "grad_norm": 0.8110986948013306,
      "learning_rate": 0.00012787950769462493,
      "loss": 3.7246,
      "step": 263520
    },
    {
      "epoch": 0.5490208333333333,
      "grad_norm": 0.8481032252311707,
      "learning_rate": 0.00012786975697619678,
      "loss": 3.7453,
      "step": 263530
    },
    {
      "epoch": 0.5490416666666667,
      "grad_norm": 0.8297199606895447,
      "learning_rate": 0.00012786000635336243,
      "loss": 3.8411,
      "step": 263540
    },
    {
      "epoch": 0.5490625,
      "grad_norm": 1.3179664611816406,
      "learning_rate": 0.00012785025582616414,
      "loss": 3.8485,
      "step": 263550
    },
    {
      "epoch": 0.5490833333333334,
      "grad_norm": 0.7575314044952393,
      "learning_rate": 0.00012784050539464396,
      "loss": 3.6945,
      "step": 263560
    },
    {
      "epoch": 0.5491041666666666,
      "grad_norm": 0.877916693687439,
      "learning_rate": 0.00012783075505884398,
      "loss": 3.8073,
      "step": 263570
    },
    {
      "epoch": 0.549125,
      "grad_norm": 0.7798253893852234,
      "learning_rate": 0.00012782100481880645,
      "loss": 3.8767,
      "step": 263580
    },
    {
      "epoch": 0.5491458333333333,
      "grad_norm": 0.8585551381111145,
      "learning_rate": 0.00012781125467457334,
      "loss": 4.094,
      "step": 263590
    },
    {
      "epoch": 0.5491666666666667,
      "grad_norm": 0.8814356923103333,
      "learning_rate": 0.00012780150462618682,
      "loss": 3.7372,
      "step": 263600
    },
    {
      "epoch": 0.5491875,
      "grad_norm": 0.7534456849098206,
      "learning_rate": 0.00012779175467368906,
      "loss": 3.6302,
      "step": 263610
    },
    {
      "epoch": 0.5492083333333333,
      "grad_norm": 0.9659804701805115,
      "learning_rate": 0.0001277820048171221,
      "loss": 3.71,
      "step": 263620
    },
    {
      "epoch": 0.5492291666666667,
      "grad_norm": 0.9690592288970947,
      "learning_rate": 0.00012777225505652804,
      "loss": 3.6359,
      "step": 263630
    },
    {
      "epoch": 0.54925,
      "grad_norm": 0.8677818179130554,
      "learning_rate": 0.00012776250539194914,
      "loss": 3.7056,
      "step": 263640
    },
    {
      "epoch": 0.5492708333333334,
      "grad_norm": 0.7997083067893982,
      "learning_rate": 0.00012775275582342736,
      "loss": 3.816,
      "step": 263650
    },
    {
      "epoch": 0.5492916666666666,
      "grad_norm": 0.7943639159202576,
      "learning_rate": 0.00012774300635100486,
      "loss": 3.6825,
      "step": 263660
    },
    {
      "epoch": 0.5493125,
      "grad_norm": 0.8254636526107788,
      "learning_rate": 0.0001277332569747238,
      "loss": 3.745,
      "step": 263670
    },
    {
      "epoch": 0.5493333333333333,
      "grad_norm": 0.7930288910865784,
      "learning_rate": 0.00012772350769462624,
      "loss": 3.8315,
      "step": 263680
    },
    {
      "epoch": 0.5493541666666667,
      "grad_norm": 0.8827977180480957,
      "learning_rate": 0.00012771375851075426,
      "loss": 3.7854,
      "step": 263690
    },
    {
      "epoch": 0.549375,
      "grad_norm": 0.7058576941490173,
      "learning_rate": 0.00012770400942315008,
      "loss": 3.7604,
      "step": 263700
    },
    {
      "epoch": 0.5493958333333333,
      "grad_norm": 0.979202389717102,
      "learning_rate": 0.00012769426043185577,
      "loss": 3.8064,
      "step": 263710
    },
    {
      "epoch": 0.5494166666666667,
      "grad_norm": 0.8127153515815735,
      "learning_rate": 0.00012768451153691337,
      "loss": 3.7366,
      "step": 263720
    },
    {
      "epoch": 0.5494375,
      "grad_norm": 0.8039049506187439,
      "learning_rate": 0.00012767476273836505,
      "loss": 3.7716,
      "step": 263730
    },
    {
      "epoch": 0.5494583333333334,
      "grad_norm": 0.8339282274246216,
      "learning_rate": 0.00012766501403625299,
      "loss": 3.5656,
      "step": 263740
    },
    {
      "epoch": 0.5494791666666666,
      "grad_norm": 0.8681984543800354,
      "learning_rate": 0.00012765526543061912,
      "loss": 3.6701,
      "step": 263750
    },
    {
      "epoch": 0.5495,
      "grad_norm": 1.0325881242752075,
      "learning_rate": 0.00012764551692150572,
      "loss": 3.6456,
      "step": 263760
    },
    {
      "epoch": 0.5495208333333333,
      "grad_norm": 0.9545885324478149,
      "learning_rate": 0.00012763576850895487,
      "loss": 3.5863,
      "step": 263770
    },
    {
      "epoch": 0.5495416666666667,
      "grad_norm": 0.839824914932251,
      "learning_rate": 0.00012762602019300855,
      "loss": 3.6923,
      "step": 263780
    },
    {
      "epoch": 0.5495625,
      "grad_norm": 0.7855033278465271,
      "learning_rate": 0.00012761627197370906,
      "loss": 3.8925,
      "step": 263790
    },
    {
      "epoch": 0.5495833333333333,
      "grad_norm": 0.7688159346580505,
      "learning_rate": 0.0001276065238510984,
      "loss": 3.6377,
      "step": 263800
    },
    {
      "epoch": 0.5496041666666667,
      "grad_norm": 0.8009145259857178,
      "learning_rate": 0.00012759677582521863,
      "loss": 3.677,
      "step": 263810
    },
    {
      "epoch": 0.549625,
      "grad_norm": 1.0764530897140503,
      "learning_rate": 0.00012758702789611198,
      "loss": 3.6589,
      "step": 263820
    },
    {
      "epoch": 0.5496458333333333,
      "grad_norm": 0.9241489768028259,
      "learning_rate": 0.0001275772800638205,
      "loss": 3.6206,
      "step": 263830
    },
    {
      "epoch": 0.5496666666666666,
      "grad_norm": 0.7913589477539062,
      "learning_rate": 0.00012756753232838632,
      "loss": 3.7075,
      "step": 263840
    },
    {
      "epoch": 0.5496875,
      "grad_norm": 0.9126776456832886,
      "learning_rate": 0.00012755778468985144,
      "loss": 3.719,
      "step": 263850
    },
    {
      "epoch": 0.5497083333333334,
      "grad_norm": 0.8993567824363708,
      "learning_rate": 0.00012754803714825808,
      "loss": 3.7398,
      "step": 263860
    },
    {
      "epoch": 0.5497291666666667,
      "grad_norm": 0.8889414668083191,
      "learning_rate": 0.00012753828970364834,
      "loss": 3.7645,
      "step": 263870
    },
    {
      "epoch": 0.54975,
      "grad_norm": 0.9181396961212158,
      "learning_rate": 0.00012752854235606424,
      "loss": 3.7109,
      "step": 263880
    },
    {
      "epoch": 0.5497708333333333,
      "grad_norm": 0.8217924237251282,
      "learning_rate": 0.000127518795105548,
      "loss": 3.6972,
      "step": 263890
    },
    {
      "epoch": 0.5497916666666667,
      "grad_norm": 0.9771877527236938,
      "learning_rate": 0.00012750904795214168,
      "loss": 3.7403,
      "step": 263900
    },
    {
      "epoch": 0.5498125,
      "grad_norm": 0.9173673391342163,
      "learning_rate": 0.00012749930089588727,
      "loss": 3.665,
      "step": 263910
    },
    {
      "epoch": 0.5498333333333333,
      "grad_norm": 0.9283571243286133,
      "learning_rate": 0.00012748955393682704,
      "loss": 3.7698,
      "step": 263920
    },
    {
      "epoch": 0.5498541666666666,
      "grad_norm": 0.7722399830818176,
      "learning_rate": 0.00012747980707500308,
      "loss": 3.8858,
      "step": 263930
    },
    {
      "epoch": 0.549875,
      "grad_norm": 0.9478726387023926,
      "learning_rate": 0.00012747006031045734,
      "loss": 3.8863,
      "step": 263940
    },
    {
      "epoch": 0.5498958333333334,
      "grad_norm": 0.9524737596511841,
      "learning_rate": 0.0001274603136432321,
      "loss": 3.7889,
      "step": 263950
    },
    {
      "epoch": 0.5499166666666667,
      "grad_norm": 0.992521345615387,
      "learning_rate": 0.00012745056707336934,
      "loss": 3.7793,
      "step": 263960
    },
    {
      "epoch": 0.5499375,
      "grad_norm": 0.8772514462471008,
      "learning_rate": 0.00012744082060091118,
      "loss": 3.7198,
      "step": 263970
    },
    {
      "epoch": 0.5499583333333333,
      "grad_norm": 0.8798642754554749,
      "learning_rate": 0.00012743107422589982,
      "loss": 3.7252,
      "step": 263980
    },
    {
      "epoch": 0.5499791666666667,
      "grad_norm": 0.7375718355178833,
      "learning_rate": 0.00012742132794837723,
      "loss": 3.782,
      "step": 263990
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8892797827720642,
      "learning_rate": 0.00012741158176838554,
      "loss": 3.6828,
      "step": 264000
    },
    {
      "epoch": 0.55,
      "eval_loss": 4.106226921081543,
      "eval_runtime": 9.1501,
      "eval_samples_per_second": 1.093,
      "eval_steps_per_second": 0.328,
      "step": 264000
    },
    {
      "epoch": 0.5500208333333333,
      "grad_norm": 0.8386279940605164,
      "learning_rate": 0.00012740183568596696,
      "loss": 3.8304,
      "step": 264010
    },
    {
      "epoch": 0.5500416666666667,
      "grad_norm": 0.7506635189056396,
      "learning_rate": 0.00012739208970116345,
      "loss": 3.7192,
      "step": 264020
    },
    {
      "epoch": 0.5500625,
      "grad_norm": 0.7716726064682007,
      "learning_rate": 0.00012738234381401715,
      "loss": 3.7092,
      "step": 264030
    },
    {
      "epoch": 0.5500833333333334,
      "grad_norm": 0.8844690918922424,
      "learning_rate": 0.00012737259802457024,
      "loss": 3.6914,
      "step": 264040
    },
    {
      "epoch": 0.5501041666666666,
      "grad_norm": 0.8424857258796692,
      "learning_rate": 0.00012736285233286475,
      "loss": 3.7306,
      "step": 264050
    },
    {
      "epoch": 0.550125,
      "grad_norm": 0.813039243221283,
      "learning_rate": 0.0001273531067389427,
      "loss": 3.5893,
      "step": 264060
    },
    {
      "epoch": 0.5501458333333333,
      "grad_norm": 0.9238668084144592,
      "learning_rate": 0.00012734336124284627,
      "loss": 3.8904,
      "step": 264070
    },
    {
      "epoch": 0.5501666666666667,
      "grad_norm": 0.7788501381874084,
      "learning_rate": 0.00012733361584461763,
      "loss": 3.605,
      "step": 264080
    },
    {
      "epoch": 0.5501875,
      "grad_norm": 0.7236034274101257,
      "learning_rate": 0.00012732387054429872,
      "loss": 3.863,
      "step": 264090
    },
    {
      "epoch": 0.5502083333333333,
      "grad_norm": 1.02723228931427,
      "learning_rate": 0.00012731412534193172,
      "loss": 3.6425,
      "step": 264100
    },
    {
      "epoch": 0.5502291666666667,
      "grad_norm": 0.889266848564148,
      "learning_rate": 0.0001273043802375588,
      "loss": 3.8367,
      "step": 264110
    },
    {
      "epoch": 0.55025,
      "grad_norm": 0.7073079347610474,
      "learning_rate": 0.0001272946352312219,
      "loss": 3.6884,
      "step": 264120
    },
    {
      "epoch": 0.5502708333333334,
      "grad_norm": 0.9028757810592651,
      "learning_rate": 0.00012728489032296316,
      "loss": 3.7068,
      "step": 264130
    },
    {
      "epoch": 0.5502916666666666,
      "grad_norm": 0.9127492308616638,
      "learning_rate": 0.0001272751455128248,
      "loss": 3.6001,
      "step": 264140
    },
    {
      "epoch": 0.5503125,
      "grad_norm": 0.9170008897781372,
      "learning_rate": 0.00012726540080084875,
      "loss": 3.7508,
      "step": 264150
    },
    {
      "epoch": 0.5503333333333333,
      "grad_norm": 0.7245853543281555,
      "learning_rate": 0.00012725565618707714,
      "loss": 3.7234,
      "step": 264160
    },
    {
      "epoch": 0.5503541666666667,
      "grad_norm": 0.8984721302986145,
      "learning_rate": 0.00012724591167155217,
      "loss": 3.796,
      "step": 264170
    },
    {
      "epoch": 0.550375,
      "grad_norm": 0.916965126991272,
      "learning_rate": 0.00012723616725431584,
      "loss": 3.7931,
      "step": 264180
    },
    {
      "epoch": 0.5503958333333333,
      "grad_norm": 0.7630887031555176,
      "learning_rate": 0.0001272264229354102,
      "loss": 3.7798,
      "step": 264190
    },
    {
      "epoch": 0.5504166666666667,
      "grad_norm": 0.893932044506073,
      "learning_rate": 0.00012721667871487744,
      "loss": 3.841,
      "step": 264200
    },
    {
      "epoch": 0.5504375,
      "grad_norm": 0.8116787075996399,
      "learning_rate": 0.00012720693459275962,
      "loss": 3.7823,
      "step": 264210
    },
    {
      "epoch": 0.5504583333333334,
      "grad_norm": 1.072649598121643,
      "learning_rate": 0.00012719719056909879,
      "loss": 3.768,
      "step": 264220
    },
    {
      "epoch": 0.5504791666666666,
      "grad_norm": 0.8490808010101318,
      "learning_rate": 0.00012718744664393707,
      "loss": 3.7206,
      "step": 264230
    },
    {
      "epoch": 0.5505,
      "grad_norm": 0.7160578370094299,
      "learning_rate": 0.0001271777028173166,
      "loss": 3.5619,
      "step": 264240
    },
    {
      "epoch": 0.5505208333333333,
      "grad_norm": 0.8132812976837158,
      "learning_rate": 0.00012716795908927935,
      "loss": 3.6218,
      "step": 264250
    },
    {
      "epoch": 0.5505416666666667,
      "grad_norm": 0.9301331639289856,
      "learning_rate": 0.0001271582154598675,
      "loss": 3.6785,
      "step": 264260
    },
    {
      "epoch": 0.5505625,
      "grad_norm": 0.8043212890625,
      "learning_rate": 0.00012714847192912316,
      "loss": 3.6256,
      "step": 264270
    },
    {
      "epoch": 0.5505833333333333,
      "grad_norm": 0.9447304606437683,
      "learning_rate": 0.00012713872849708834,
      "loss": 3.714,
      "step": 264280
    },
    {
      "epoch": 0.5506041666666667,
      "grad_norm": 0.7893566489219666,
      "learning_rate": 0.00012712898516380517,
      "loss": 3.7307,
      "step": 264290
    },
    {
      "epoch": 0.550625,
      "grad_norm": 0.8398525714874268,
      "learning_rate": 0.00012711924192931575,
      "loss": 3.7033,
      "step": 264300
    },
    {
      "epoch": 0.5506458333333333,
      "grad_norm": 0.9479910135269165,
      "learning_rate": 0.00012710949879366211,
      "loss": 3.8958,
      "step": 264310
    },
    {
      "epoch": 0.5506666666666666,
      "grad_norm": 0.9552327990531921,
      "learning_rate": 0.00012709975575688642,
      "loss": 3.8683,
      "step": 264320
    },
    {
      "epoch": 0.5506875,
      "grad_norm": 0.8429241180419922,
      "learning_rate": 0.0001270900128190307,
      "loss": 3.5727,
      "step": 264330
    },
    {
      "epoch": 0.5507083333333334,
      "grad_norm": 0.9968751072883606,
      "learning_rate": 0.00012708026998013702,
      "loss": 3.7891,
      "step": 264340
    },
    {
      "epoch": 0.5507291666666667,
      "grad_norm": 0.813421905040741,
      "learning_rate": 0.00012707052724024757,
      "loss": 3.7029,
      "step": 264350
    },
    {
      "epoch": 0.55075,
      "grad_norm": 0.759503185749054,
      "learning_rate": 0.00012706078459940432,
      "loss": 3.7148,
      "step": 264360
    },
    {
      "epoch": 0.5507708333333333,
      "grad_norm": 0.7988408803939819,
      "learning_rate": 0.0001270510420576494,
      "loss": 3.7728,
      "step": 264370
    },
    {
      "epoch": 0.5507916666666667,
      "grad_norm": 0.762819230556488,
      "learning_rate": 0.00012704129961502492,
      "loss": 3.5902,
      "step": 264380
    },
    {
      "epoch": 0.5508125,
      "grad_norm": 0.8954839706420898,
      "learning_rate": 0.0001270315572715729,
      "loss": 3.8279,
      "step": 264390
    },
    {
      "epoch": 0.5508333333333333,
      "grad_norm": 0.9523348808288574,
      "learning_rate": 0.00012702181502733553,
      "loss": 3.8317,
      "step": 264400
    },
    {
      "epoch": 0.5508541666666666,
      "grad_norm": 0.9774227738380432,
      "learning_rate": 0.00012701207288235474,
      "loss": 3.7866,
      "step": 264410
    },
    {
      "epoch": 0.550875,
      "grad_norm": 0.8128387331962585,
      "learning_rate": 0.00012700233083667276,
      "loss": 3.6805,
      "step": 264420
    },
    {
      "epoch": 0.5508958333333334,
      "grad_norm": 1.2006839513778687,
      "learning_rate": 0.0001269925888903316,
      "loss": 3.6027,
      "step": 264430
    },
    {
      "epoch": 0.5509166666666667,
      "grad_norm": 0.8611468076705933,
      "learning_rate": 0.0001269828470433733,
      "loss": 3.8479,
      "step": 264440
    },
    {
      "epoch": 0.5509375,
      "grad_norm": 0.9688485860824585,
      "learning_rate": 0.00012697310529584003,
      "loss": 3.7376,
      "step": 264450
    },
    {
      "epoch": 0.5509583333333333,
      "grad_norm": 0.8267385363578796,
      "learning_rate": 0.00012696336364777385,
      "loss": 3.703,
      "step": 264460
    },
    {
      "epoch": 0.5509791666666667,
      "grad_norm": 0.8824477195739746,
      "learning_rate": 0.00012695362209921675,
      "loss": 3.7958,
      "step": 264470
    },
    {
      "epoch": 0.551,
      "grad_norm": 1.0324805974960327,
      "learning_rate": 0.00012694388065021095,
      "loss": 3.7593,
      "step": 264480
    },
    {
      "epoch": 0.5510208333333333,
      "grad_norm": 0.9838062524795532,
      "learning_rate": 0.00012693413930079842,
      "loss": 3.5663,
      "step": 264490
    },
    {
      "epoch": 0.5510416666666667,
      "grad_norm": 0.7358505129814148,
      "learning_rate": 0.00012692439805102128,
      "loss": 3.7153,
      "step": 264500
    },
    {
      "epoch": 0.5510625,
      "grad_norm": 0.7613818645477295,
      "learning_rate": 0.00012691465690092162,
      "loss": 3.7287,
      "step": 264510
    },
    {
      "epoch": 0.5510833333333334,
      "grad_norm": 0.8225615620613098,
      "learning_rate": 0.0001269049158505415,
      "loss": 3.7295,
      "step": 264520
    },
    {
      "epoch": 0.5511041666666666,
      "grad_norm": 1.0586262941360474,
      "learning_rate": 0.000126895174899923,
      "loss": 3.811,
      "step": 264530
    },
    {
      "epoch": 0.551125,
      "grad_norm": 0.8263934850692749,
      "learning_rate": 0.0001268854340491082,
      "loss": 3.832,
      "step": 264540
    },
    {
      "epoch": 0.5511458333333333,
      "grad_norm": 1.7376035451889038,
      "learning_rate": 0.00012687569329813923,
      "loss": 3.813,
      "step": 264550
    },
    {
      "epoch": 0.5511666666666667,
      "grad_norm": 1.0622379779815674,
      "learning_rate": 0.000126865952647058,
      "loss": 3.7173,
      "step": 264560
    },
    {
      "epoch": 0.5511875,
      "grad_norm": 0.7447839975357056,
      "learning_rate": 0.00012685621209590676,
      "loss": 3.6734,
      "step": 264570
    },
    {
      "epoch": 0.5512083333333333,
      "grad_norm": 0.7629006505012512,
      "learning_rate": 0.00012684647164472754,
      "loss": 3.7099,
      "step": 264580
    },
    {
      "epoch": 0.5512291666666667,
      "grad_norm": 0.7810889482498169,
      "learning_rate": 0.00012683673129356234,
      "loss": 3.735,
      "step": 264590
    },
    {
      "epoch": 0.55125,
      "grad_norm": 0.9960832595825195,
      "learning_rate": 0.00012682699104245337,
      "loss": 3.7138,
      "step": 264600
    },
    {
      "epoch": 0.5512708333333334,
      "grad_norm": 0.9299635887145996,
      "learning_rate": 0.00012681725089144257,
      "loss": 3.7538,
      "step": 264610
    },
    {
      "epoch": 0.5512916666666666,
      "grad_norm": 0.9094095230102539,
      "learning_rate": 0.00012680751084057207,
      "loss": 3.6898,
      "step": 264620
    },
    {
      "epoch": 0.5513125,
      "grad_norm": 0.7697029709815979,
      "learning_rate": 0.00012679777088988396,
      "loss": 3.6999,
      "step": 264630
    },
    {
      "epoch": 0.5513333333333333,
      "grad_norm": 0.811689019203186,
      "learning_rate": 0.00012678803103942032,
      "loss": 3.7692,
      "step": 264640
    },
    {
      "epoch": 0.5513541666666667,
      "grad_norm": 0.8524854183197021,
      "learning_rate": 0.00012677829128922315,
      "loss": 3.7742,
      "step": 264650
    },
    {
      "epoch": 0.551375,
      "grad_norm": 0.7227962017059326,
      "learning_rate": 0.00012676855163933458,
      "loss": 3.944,
      "step": 264660
    },
    {
      "epoch": 0.5513958333333333,
      "grad_norm": 0.9049479365348816,
      "learning_rate": 0.0001267588120897967,
      "loss": 3.6479,
      "step": 264670
    },
    {
      "epoch": 0.5514166666666667,
      "grad_norm": 0.9926321506500244,
      "learning_rate": 0.0001267490726406515,
      "loss": 3.6377,
      "step": 264680
    },
    {
      "epoch": 0.5514375,
      "grad_norm": 0.9773170351982117,
      "learning_rate": 0.00012673933329194117,
      "loss": 3.6826,
      "step": 264690
    },
    {
      "epoch": 0.5514583333333334,
      "grad_norm": 0.9199853539466858,
      "learning_rate": 0.00012672959404370768,
      "loss": 3.7238,
      "step": 264700
    },
    {
      "epoch": 0.5514791666666666,
      "grad_norm": 0.8352805376052856,
      "learning_rate": 0.00012671985489599318,
      "loss": 3.7949,
      "step": 264710
    },
    {
      "epoch": 0.5515,
      "grad_norm": 0.8108779788017273,
      "learning_rate": 0.00012671011584883962,
      "loss": 3.6872,
      "step": 264720
    },
    {
      "epoch": 0.5515208333333333,
      "grad_norm": 1.0174311399459839,
      "learning_rate": 0.00012670037690228913,
      "loss": 3.6986,
      "step": 264730
    },
    {
      "epoch": 0.5515416666666667,
      "grad_norm": 0.9788605570793152,
      "learning_rate": 0.00012669063805638387,
      "loss": 3.8778,
      "step": 264740
    },
    {
      "epoch": 0.5515625,
      "grad_norm": 0.8894383907318115,
      "learning_rate": 0.00012668089931116574,
      "loss": 3.7004,
      "step": 264750
    },
    {
      "epoch": 0.5515833333333333,
      "grad_norm": 0.8410563468933105,
      "learning_rate": 0.00012667116066667695,
      "loss": 3.7023,
      "step": 264760
    },
    {
      "epoch": 0.5516041666666667,
      "grad_norm": 0.8140305280685425,
      "learning_rate": 0.00012666142212295952,
      "loss": 3.708,
      "step": 264770
    },
    {
      "epoch": 0.551625,
      "grad_norm": 1.4551670551300049,
      "learning_rate": 0.00012665168368005544,
      "loss": 3.9779,
      "step": 264780
    },
    {
      "epoch": 0.5516458333333333,
      "grad_norm": 0.7625777125358582,
      "learning_rate": 0.0001266419453380069,
      "loss": 3.8218,
      "step": 264790
    },
    {
      "epoch": 0.5516666666666666,
      "grad_norm": 0.7878190875053406,
      "learning_rate": 0.00012663220709685594,
      "loss": 3.9402,
      "step": 264800
    },
    {
      "epoch": 0.5516875,
      "grad_norm": 0.8686995506286621,
      "learning_rate": 0.00012662246895664452,
      "loss": 3.5982,
      "step": 264810
    },
    {
      "epoch": 0.5517083333333334,
      "grad_norm": 0.8027997016906738,
      "learning_rate": 0.00012661273091741485,
      "loss": 3.5095,
      "step": 264820
    },
    {
      "epoch": 0.5517291666666667,
      "grad_norm": 0.864234983921051,
      "learning_rate": 0.0001266029929792089,
      "loss": 3.755,
      "step": 264830
    },
    {
      "epoch": 0.55175,
      "grad_norm": 0.8482289910316467,
      "learning_rate": 0.0001265932551420687,
      "loss": 3.7273,
      "step": 264840
    },
    {
      "epoch": 0.5517708333333333,
      "grad_norm": 0.9271939396858215,
      "learning_rate": 0.00012658351740603646,
      "loss": 3.7323,
      "step": 264850
    },
    {
      "epoch": 0.5517916666666667,
      "grad_norm": 0.9620227217674255,
      "learning_rate": 0.0001265737797711541,
      "loss": 3.6052,
      "step": 264860
    },
    {
      "epoch": 0.5518125,
      "grad_norm": 0.8510554432868958,
      "learning_rate": 0.00012656404223746376,
      "loss": 3.8281,
      "step": 264870
    },
    {
      "epoch": 0.5518333333333333,
      "grad_norm": 1.0275930166244507,
      "learning_rate": 0.0001265543048050075,
      "loss": 3.7418,
      "step": 264880
    },
    {
      "epoch": 0.5518541666666666,
      "grad_norm": 0.8070783019065857,
      "learning_rate": 0.00012654456747382734,
      "loss": 3.5356,
      "step": 264890
    },
    {
      "epoch": 0.551875,
      "grad_norm": 0.8114978671073914,
      "learning_rate": 0.00012653483024396533,
      "loss": 3.7582,
      "step": 264900
    },
    {
      "epoch": 0.5518958333333334,
      "grad_norm": 0.828149676322937,
      "learning_rate": 0.00012652509311546366,
      "loss": 3.716,
      "step": 264910
    },
    {
      "epoch": 0.5519166666666667,
      "grad_norm": 0.7761374711990356,
      "learning_rate": 0.00012651535608836423,
      "loss": 3.6341,
      "step": 264920
    },
    {
      "epoch": 0.5519375,
      "grad_norm": 0.7690097689628601,
      "learning_rate": 0.00012650561916270912,
      "loss": 3.7029,
      "step": 264930
    },
    {
      "epoch": 0.5519583333333333,
      "grad_norm": 0.8186029195785522,
      "learning_rate": 0.00012649588233854052,
      "loss": 3.7271,
      "step": 264940
    },
    {
      "epoch": 0.5519791666666667,
      "grad_norm": 0.7682071328163147,
      "learning_rate": 0.0001264861456159004,
      "loss": 3.8412,
      "step": 264950
    },
    {
      "epoch": 0.552,
      "grad_norm": 0.8990256786346436,
      "learning_rate": 0.00012647640899483077,
      "loss": 3.7215,
      "step": 264960
    },
    {
      "epoch": 0.5520208333333333,
      "grad_norm": 0.6634971499443054,
      "learning_rate": 0.00012646667247537377,
      "loss": 3.6135,
      "step": 264970
    },
    {
      "epoch": 0.5520416666666667,
      "grad_norm": 0.7592599391937256,
      "learning_rate": 0.00012645693605757146,
      "loss": 3.7313,
      "step": 264980
    },
    {
      "epoch": 0.5520625,
      "grad_norm": 0.8470796346664429,
      "learning_rate": 0.00012644719974146584,
      "loss": 3.7201,
      "step": 264990
    },
    {
      "epoch": 0.5520833333333334,
      "grad_norm": 0.8100473880767822,
      "learning_rate": 0.00012643746352709894,
      "loss": 3.6521,
      "step": 265000
    },
    {
      "epoch": 0.5520833333333334,
      "eval_loss": 4.108588695526123,
      "eval_runtime": 9.411,
      "eval_samples_per_second": 1.063,
      "eval_steps_per_second": 0.319,
      "step": 265000
    },
    {
      "epoch": 0.5521041666666666,
      "grad_norm": 1.0579899549484253,
      "learning_rate": 0.00012642772741451298,
      "loss": 3.6582,
      "step": 265010
    },
    {
      "epoch": 0.552125,
      "grad_norm": 0.8143255114555359,
      "learning_rate": 0.00012641799140374982,
      "loss": 3.6149,
      "step": 265020
    },
    {
      "epoch": 0.5521458333333333,
      "grad_norm": 0.7685492038726807,
      "learning_rate": 0.00012640825549485162,
      "loss": 3.6694,
      "step": 265030
    },
    {
      "epoch": 0.5521666666666667,
      "grad_norm": 0.8407540917396545,
      "learning_rate": 0.00012639851968786046,
      "loss": 3.8746,
      "step": 265040
    },
    {
      "epoch": 0.5521875,
      "grad_norm": 0.8240379095077515,
      "learning_rate": 0.00012638878398281834,
      "loss": 3.6751,
      "step": 265050
    },
    {
      "epoch": 0.5522083333333333,
      "grad_norm": 0.7858960032463074,
      "learning_rate": 0.00012637904837976726,
      "loss": 3.8077,
      "step": 265060
    },
    {
      "epoch": 0.5522291666666667,
      "grad_norm": 0.8470328450202942,
      "learning_rate": 0.00012636931287874942,
      "loss": 3.7432,
      "step": 265070
    },
    {
      "epoch": 0.55225,
      "grad_norm": 1.573271632194519,
      "learning_rate": 0.0001263595774798068,
      "loss": 3.7498,
      "step": 265080
    },
    {
      "epoch": 0.5522708333333334,
      "grad_norm": 0.7903110980987549,
      "learning_rate": 0.00012634984218298139,
      "loss": 3.8153,
      "step": 265090
    },
    {
      "epoch": 0.5522916666666666,
      "grad_norm": 0.8403472304344177,
      "learning_rate": 0.0001263401069883153,
      "loss": 3.8088,
      "step": 265100
    },
    {
      "epoch": 0.5523125,
      "grad_norm": 0.7193896174430847,
      "learning_rate": 0.00012633037189585064,
      "loss": 3.7058,
      "step": 265110
    },
    {
      "epoch": 0.5523333333333333,
      "grad_norm": 0.9551839828491211,
      "learning_rate": 0.00012632063690562933,
      "loss": 3.7289,
      "step": 265120
    },
    {
      "epoch": 0.5523541666666667,
      "grad_norm": 0.7579626441001892,
      "learning_rate": 0.00012631090201769353,
      "loss": 3.7087,
      "step": 265130
    },
    {
      "epoch": 0.552375,
      "grad_norm": 0.8281542658805847,
      "learning_rate": 0.0001263011672320853,
      "loss": 3.761,
      "step": 265140
    },
    {
      "epoch": 0.5523958333333333,
      "grad_norm": 0.802423894405365,
      "learning_rate": 0.0001262914325488466,
      "loss": 3.5037,
      "step": 265150
    },
    {
      "epoch": 0.5524166666666667,
      "grad_norm": 1.8092691898345947,
      "learning_rate": 0.00012628169796801951,
      "loss": 3.7515,
      "step": 265160
    },
    {
      "epoch": 0.5524375,
      "grad_norm": 0.7931958436965942,
      "learning_rate": 0.00012627196348964615,
      "loss": 3.6726,
      "step": 265170
    },
    {
      "epoch": 0.5524583333333334,
      "grad_norm": 1.4358611106872559,
      "learning_rate": 0.00012626222911376846,
      "loss": 3.7411,
      "step": 265180
    },
    {
      "epoch": 0.5524791666666666,
      "grad_norm": 0.931951105594635,
      "learning_rate": 0.0001262524948404286,
      "loss": 3.7736,
      "step": 265190
    },
    {
      "epoch": 0.5525,
      "grad_norm": 1.116308569908142,
      "learning_rate": 0.00012624276066966855,
      "loss": 3.7681,
      "step": 265200
    },
    {
      "epoch": 0.5525208333333333,
      "grad_norm": 0.8013944029808044,
      "learning_rate": 0.00012623302660153031,
      "loss": 3.7378,
      "step": 265210
    },
    {
      "epoch": 0.5525416666666667,
      "grad_norm": 0.8133941888809204,
      "learning_rate": 0.00012622329263605605,
      "loss": 3.695,
      "step": 265220
    },
    {
      "epoch": 0.5525625,
      "grad_norm": 0.8796603679656982,
      "learning_rate": 0.00012621355877328775,
      "loss": 3.8912,
      "step": 265230
    },
    {
      "epoch": 0.5525833333333333,
      "grad_norm": 1.08452570438385,
      "learning_rate": 0.00012620382501326742,
      "loss": 3.7855,
      "step": 265240
    },
    {
      "epoch": 0.5526041666666667,
      "grad_norm": 0.9335440993309021,
      "learning_rate": 0.0001261940913560372,
      "loss": 3.65,
      "step": 265250
    },
    {
      "epoch": 0.552625,
      "grad_norm": 1.0662966966629028,
      "learning_rate": 0.00012618435780163906,
      "loss": 3.889,
      "step": 265260
    },
    {
      "epoch": 0.5526458333333333,
      "grad_norm": 0.8096035122871399,
      "learning_rate": 0.000126174624350115,
      "loss": 3.7824,
      "step": 265270
    },
    {
      "epoch": 0.5526666666666666,
      "grad_norm": 0.7818390130996704,
      "learning_rate": 0.00012616489100150726,
      "loss": 3.8164,
      "step": 265280
    },
    {
      "epoch": 0.5526875,
      "grad_norm": 0.8692668676376343,
      "learning_rate": 0.0001261551577558577,
      "loss": 3.5174,
      "step": 265290
    },
    {
      "epoch": 0.5527083333333334,
      "grad_norm": 0.8335548639297485,
      "learning_rate": 0.00012614542461320842,
      "loss": 3.6061,
      "step": 265300
    },
    {
      "epoch": 0.5527291666666667,
      "grad_norm": 0.7675083875656128,
      "learning_rate": 0.00012613569157360143,
      "loss": 3.6234,
      "step": 265310
    },
    {
      "epoch": 0.55275,
      "grad_norm": 0.8337833881378174,
      "learning_rate": 0.00012612595863707886,
      "loss": 3.8657,
      "step": 265320
    },
    {
      "epoch": 0.5527708333333333,
      "grad_norm": 0.8454804420471191,
      "learning_rate": 0.00012611622580368267,
      "loss": 3.6021,
      "step": 265330
    },
    {
      "epoch": 0.5527916666666667,
      "grad_norm": 0.8137758374214172,
      "learning_rate": 0.00012610649307345488,
      "loss": 3.751,
      "step": 265340
    },
    {
      "epoch": 0.5528125,
      "grad_norm": 0.8496844172477722,
      "learning_rate": 0.0001260967604464377,
      "loss": 3.6579,
      "step": 265350
    },
    {
      "epoch": 0.5528333333333333,
      "grad_norm": 0.830169677734375,
      "learning_rate": 0.00012608702792267298,
      "loss": 3.6103,
      "step": 265360
    },
    {
      "epoch": 0.5528541666666666,
      "grad_norm": 0.9845659732818604,
      "learning_rate": 0.0001260772955022028,
      "loss": 3.5254,
      "step": 265370
    },
    {
      "epoch": 0.552875,
      "grad_norm": 0.8915355801582336,
      "learning_rate": 0.0001260675631850693,
      "loss": 3.6225,
      "step": 265380
    },
    {
      "epoch": 0.5528958333333334,
      "grad_norm": 0.9038466215133667,
      "learning_rate": 0.00012605783097131444,
      "loss": 3.6869,
      "step": 265390
    },
    {
      "epoch": 0.5529166666666666,
      "grad_norm": 0.7606173157691956,
      "learning_rate": 0.00012604809886098022,
      "loss": 3.7389,
      "step": 265400
    },
    {
      "epoch": 0.5529375,
      "grad_norm": 0.8246417045593262,
      "learning_rate": 0.0001260383668541088,
      "loss": 3.6538,
      "step": 265410
    },
    {
      "epoch": 0.5529583333333333,
      "grad_norm": 0.9147953987121582,
      "learning_rate": 0.00012602863495074216,
      "loss": 3.6569,
      "step": 265420
    },
    {
      "epoch": 0.5529791666666667,
      "grad_norm": 0.961021900177002,
      "learning_rate": 0.00012601890315092223,
      "loss": 3.7509,
      "step": 265430
    },
    {
      "epoch": 0.553,
      "grad_norm": 1.3664813041687012,
      "learning_rate": 0.00012600917145469124,
      "loss": 3.6478,
      "step": 265440
    },
    {
      "epoch": 0.5530208333333333,
      "grad_norm": 0.9470013976097107,
      "learning_rate": 0.00012599943986209112,
      "loss": 3.5708,
      "step": 265450
    },
    {
      "epoch": 0.5530416666666667,
      "grad_norm": 0.837850034236908,
      "learning_rate": 0.00012598970837316388,
      "loss": 3.7659,
      "step": 265460
    },
    {
      "epoch": 0.5530625,
      "grad_norm": 0.8541924953460693,
      "learning_rate": 0.0001259799769879516,
      "loss": 3.6576,
      "step": 265470
    },
    {
      "epoch": 0.5530833333333334,
      "grad_norm": 0.7526094317436218,
      "learning_rate": 0.0001259702457064964,
      "loss": 3.804,
      "step": 265480
    },
    {
      "epoch": 0.5531041666666666,
      "grad_norm": 1.0476683378219604,
      "learning_rate": 0.0001259605145288401,
      "loss": 3.849,
      "step": 265490
    },
    {
      "epoch": 0.553125,
      "grad_norm": 0.7662000060081482,
      "learning_rate": 0.00012595078345502492,
      "loss": 3.7641,
      "step": 265500
    },
    {
      "epoch": 0.5531458333333333,
      "grad_norm": 0.7857858538627625,
      "learning_rate": 0.00012594105248509287,
      "loss": 3.6692,
      "step": 265510
    },
    {
      "epoch": 0.5531666666666667,
      "grad_norm": 0.8986098170280457,
      "learning_rate": 0.00012593132161908588,
      "loss": 3.5514,
      "step": 265520
    },
    {
      "epoch": 0.5531875,
      "grad_norm": 1.0674984455108643,
      "learning_rate": 0.00012592159085704607,
      "loss": 3.7928,
      "step": 265530
    },
    {
      "epoch": 0.5532083333333333,
      "grad_norm": 1.207870602607727,
      "learning_rate": 0.00012591186019901551,
      "loss": 3.6543,
      "step": 265540
    },
    {
      "epoch": 0.5532291666666667,
      "grad_norm": 0.8713111877441406,
      "learning_rate": 0.0001259021296450361,
      "loss": 3.8829,
      "step": 265550
    },
    {
      "epoch": 0.55325,
      "grad_norm": 0.7552157044410706,
      "learning_rate": 0.00012589239919515003,
      "loss": 3.7349,
      "step": 265560
    },
    {
      "epoch": 0.5532708333333334,
      "grad_norm": 0.7553941011428833,
      "learning_rate": 0.00012588266884939922,
      "loss": 3.8525,
      "step": 265570
    },
    {
      "epoch": 0.5532916666666666,
      "grad_norm": 0.7374167442321777,
      "learning_rate": 0.00012587293860782578,
      "loss": 3.6419,
      "step": 265580
    },
    {
      "epoch": 0.5533125,
      "grad_norm": 0.9128045439720154,
      "learning_rate": 0.0001258632084704716,
      "loss": 3.6998,
      "step": 265590
    },
    {
      "epoch": 0.5533333333333333,
      "grad_norm": 0.9223777055740356,
      "learning_rate": 0.00012585347843737884,
      "loss": 3.7568,
      "step": 265600
    },
    {
      "epoch": 0.5533541666666667,
      "grad_norm": 0.974243700504303,
      "learning_rate": 0.00012584374850858958,
      "loss": 3.7613,
      "step": 265610
    },
    {
      "epoch": 0.553375,
      "grad_norm": 0.7378270030021667,
      "learning_rate": 0.00012583401868414564,
      "loss": 3.6712,
      "step": 265620
    },
    {
      "epoch": 0.5533958333333333,
      "grad_norm": 0.9609013795852661,
      "learning_rate": 0.00012582428896408922,
      "loss": 3.8391,
      "step": 265630
    },
    {
      "epoch": 0.5534166666666667,
      "grad_norm": 0.841242790222168,
      "learning_rate": 0.00012581455934846235,
      "loss": 3.7408,
      "step": 265640
    },
    {
      "epoch": 0.5534375,
      "grad_norm": 0.9128983616828918,
      "learning_rate": 0.00012580482983730692,
      "loss": 3.7325,
      "step": 265650
    },
    {
      "epoch": 0.5534583333333334,
      "grad_norm": 0.8754780888557434,
      "learning_rate": 0.0001257951004306651,
      "loss": 3.846,
      "step": 265660
    },
    {
      "epoch": 0.5534791666666666,
      "grad_norm": 0.878493070602417,
      "learning_rate": 0.00012578537112857888,
      "loss": 3.6804,
      "step": 265670
    },
    {
      "epoch": 0.5535,
      "grad_norm": 0.7688241600990295,
      "learning_rate": 0.00012577564193109024,
      "loss": 3.6396,
      "step": 265680
    },
    {
      "epoch": 0.5535208333333334,
      "grad_norm": 0.8499652743339539,
      "learning_rate": 0.0001257659128382413,
      "loss": 3.6516,
      "step": 265690
    },
    {
      "epoch": 0.5535416666666667,
      "grad_norm": 0.8126600384712219,
      "learning_rate": 0.00012575618385007398,
      "loss": 3.7198,
      "step": 265700
    },
    {
      "epoch": 0.5535625,
      "grad_norm": 0.8594068288803101,
      "learning_rate": 0.0001257464549666303,
      "loss": 3.5264,
      "step": 265710
    },
    {
      "epoch": 0.5535833333333333,
      "grad_norm": 0.7715673446655273,
      "learning_rate": 0.0001257367261879524,
      "loss": 3.8564,
      "step": 265720
    },
    {
      "epoch": 0.5536041666666667,
      "grad_norm": 0.8462139368057251,
      "learning_rate": 0.00012572699751408224,
      "loss": 3.6259,
      "step": 265730
    },
    {
      "epoch": 0.553625,
      "grad_norm": 0.8840574026107788,
      "learning_rate": 0.00012571726894506177,
      "loss": 3.9942,
      "step": 265740
    },
    {
      "epoch": 0.5536458333333333,
      "grad_norm": 0.9047589898109436,
      "learning_rate": 0.00012570754048093317,
      "loss": 3.6423,
      "step": 265750
    },
    {
      "epoch": 0.5536666666666666,
      "grad_norm": 2.322845697402954,
      "learning_rate": 0.00012569781212173835,
      "loss": 3.8208,
      "step": 265760
    },
    {
      "epoch": 0.5536875,
      "grad_norm": 0.8464028835296631,
      "learning_rate": 0.00012568808386751931,
      "loss": 3.8047,
      "step": 265770
    },
    {
      "epoch": 0.5537083333333334,
      "grad_norm": 0.9125436544418335,
      "learning_rate": 0.00012567835571831822,
      "loss": 3.7072,
      "step": 265780
    },
    {
      "epoch": 0.5537291666666667,
      "grad_norm": 0.7349401116371155,
      "learning_rate": 0.00012566862767417696,
      "loss": 3.5185,
      "step": 265790
    },
    {
      "epoch": 0.55375,
      "grad_norm": 0.9104578495025635,
      "learning_rate": 0.00012565889973513756,
      "loss": 3.581,
      "step": 265800
    },
    {
      "epoch": 0.5537708333333333,
      "grad_norm": 0.8207650184631348,
      "learning_rate": 0.00012564917190124213,
      "loss": 3.8806,
      "step": 265810
    },
    {
      "epoch": 0.5537916666666667,
      "grad_norm": 0.872981071472168,
      "learning_rate": 0.00012563944417253267,
      "loss": 3.744,
      "step": 265820
    },
    {
      "epoch": 0.5538125,
      "grad_norm": 0.9568204879760742,
      "learning_rate": 0.0001256297165490511,
      "loss": 3.7554,
      "step": 265830
    },
    {
      "epoch": 0.5538333333333333,
      "grad_norm": 0.7712212800979614,
      "learning_rate": 0.00012561998903083953,
      "loss": 3.8518,
      "step": 265840
    },
    {
      "epoch": 0.5538541666666666,
      "grad_norm": 0.8879469633102417,
      "learning_rate": 0.00012561026161794,
      "loss": 3.838,
      "step": 265850
    },
    {
      "epoch": 0.553875,
      "grad_norm": 0.8878486752510071,
      "learning_rate": 0.0001256005343103944,
      "loss": 3.8013,
      "step": 265860
    },
    {
      "epoch": 0.5538958333333334,
      "grad_norm": 0.780342698097229,
      "learning_rate": 0.00012559080710824487,
      "loss": 3.7678,
      "step": 265870
    },
    {
      "epoch": 0.5539166666666666,
      "grad_norm": 0.796360194683075,
      "learning_rate": 0.00012558108001153344,
      "loss": 3.7307,
      "step": 265880
    },
    {
      "epoch": 0.5539375,
      "grad_norm": 0.8196572661399841,
      "learning_rate": 0.00012557135302030203,
      "loss": 3.6889,
      "step": 265890
    },
    {
      "epoch": 0.5539583333333333,
      "grad_norm": 0.871375560760498,
      "learning_rate": 0.0001255616261345927,
      "loss": 3.7175,
      "step": 265900
    },
    {
      "epoch": 0.5539791666666667,
      "grad_norm": 0.7246471643447876,
      "learning_rate": 0.0001255518993544475,
      "loss": 3.6958,
      "step": 265910
    },
    {
      "epoch": 0.554,
      "grad_norm": 0.7987774014472961,
      "learning_rate": 0.00012554217267990843,
      "loss": 3.8705,
      "step": 265920
    },
    {
      "epoch": 0.5540208333333333,
      "grad_norm": 0.8431033492088318,
      "learning_rate": 0.00012553244611101738,
      "loss": 3.6529,
      "step": 265930
    },
    {
      "epoch": 0.5540416666666667,
      "grad_norm": 0.7935116291046143,
      "learning_rate": 0.0001255227196478166,
      "loss": 3.6754,
      "step": 265940
    },
    {
      "epoch": 0.5540625,
      "grad_norm": 0.7838443517684937,
      "learning_rate": 0.000125512993290348,
      "loss": 3.7066,
      "step": 265950
    },
    {
      "epoch": 0.5540833333333334,
      "grad_norm": 0.7368056178092957,
      "learning_rate": 0.00012550326703865349,
      "loss": 3.6464,
      "step": 265960
    },
    {
      "epoch": 0.5541041666666666,
      "grad_norm": 0.8082252144813538,
      "learning_rate": 0.0001254935408927752,
      "loss": 3.5999,
      "step": 265970
    },
    {
      "epoch": 0.554125,
      "grad_norm": 0.8088733553886414,
      "learning_rate": 0.00012548381485275514,
      "loss": 3.6285,
      "step": 265980
    },
    {
      "epoch": 0.5541458333333333,
      "grad_norm": 0.8879489898681641,
      "learning_rate": 0.00012547408891863524,
      "loss": 3.7874,
      "step": 265990
    },
    {
      "epoch": 0.5541666666666667,
      "grad_norm": 0.8264601826667786,
      "learning_rate": 0.0001254643630904576,
      "loss": 3.7868,
      "step": 266000
    },
    {
      "epoch": 0.5541666666666667,
      "eval_loss": 4.10601806640625,
      "eval_runtime": 9.6695,
      "eval_samples_per_second": 1.034,
      "eval_steps_per_second": 0.31,
      "step": 266000
    },
    {
      "epoch": 0.5541875,
      "grad_norm": 0.9561145305633545,
      "learning_rate": 0.00012545463736826423,
      "loss": 3.8029,
      "step": 266010
    },
    {
      "epoch": 0.5542083333333333,
      "grad_norm": 0.9389064311981201,
      "learning_rate": 0.00012544491175209705,
      "loss": 3.694,
      "step": 266020
    },
    {
      "epoch": 0.5542291666666667,
      "grad_norm": 0.9731824994087219,
      "learning_rate": 0.00012543518624199816,
      "loss": 3.7713,
      "step": 266030
    },
    {
      "epoch": 0.55425,
      "grad_norm": 0.8023905754089355,
      "learning_rate": 0.00012542546083800954,
      "loss": 3.6824,
      "step": 266040
    },
    {
      "epoch": 0.5542708333333334,
      "grad_norm": 0.8705047965049744,
      "learning_rate": 0.00012541573554017318,
      "loss": 3.8419,
      "step": 266050
    },
    {
      "epoch": 0.5542916666666666,
      "grad_norm": 0.8719346523284912,
      "learning_rate": 0.00012540601034853117,
      "loss": 3.7648,
      "step": 266060
    },
    {
      "epoch": 0.5543125,
      "grad_norm": 0.7367463707923889,
      "learning_rate": 0.00012539628526312543,
      "loss": 3.637,
      "step": 266070
    },
    {
      "epoch": 0.5543333333333333,
      "grad_norm": 0.8160389065742493,
      "learning_rate": 0.00012538656028399797,
      "loss": 3.7488,
      "step": 266080
    },
    {
      "epoch": 0.5543541666666667,
      "grad_norm": 0.8479788303375244,
      "learning_rate": 0.00012537683541119087,
      "loss": 3.7717,
      "step": 266090
    },
    {
      "epoch": 0.554375,
      "grad_norm": 0.7840842008590698,
      "learning_rate": 0.00012536711064474609,
      "loss": 3.6016,
      "step": 266100
    },
    {
      "epoch": 0.5543958333333333,
      "grad_norm": 0.7864688634872437,
      "learning_rate": 0.00012535738598470558,
      "loss": 3.7358,
      "step": 266110
    },
    {
      "epoch": 0.5544166666666667,
      "grad_norm": 0.8697478771209717,
      "learning_rate": 0.0001253476614311115,
      "loss": 3.8374,
      "step": 266120
    },
    {
      "epoch": 0.5544375,
      "grad_norm": 0.7908834218978882,
      "learning_rate": 0.00012533793698400573,
      "loss": 3.8236,
      "step": 266130
    },
    {
      "epoch": 0.5544583333333334,
      "grad_norm": 0.881942093372345,
      "learning_rate": 0.00012532821264343025,
      "loss": 3.6434,
      "step": 266140
    },
    {
      "epoch": 0.5544791666666666,
      "grad_norm": 0.9148895740509033,
      "learning_rate": 0.0001253184884094272,
      "loss": 3.7758,
      "step": 266150
    },
    {
      "epoch": 0.5545,
      "grad_norm": 0.9902316927909851,
      "learning_rate": 0.00012530876428203848,
      "loss": 3.6559,
      "step": 266160
    },
    {
      "epoch": 0.5545208333333334,
      "grad_norm": 0.8242437839508057,
      "learning_rate": 0.00012529904026130616,
      "loss": 3.7831,
      "step": 266170
    },
    {
      "epoch": 0.5545416666666667,
      "grad_norm": 0.8601330518722534,
      "learning_rate": 0.00012528931634727216,
      "loss": 3.7192,
      "step": 266180
    },
    {
      "epoch": 0.5545625,
      "grad_norm": 0.8881680369377136,
      "learning_rate": 0.0001252795925399786,
      "loss": 3.5921,
      "step": 266190
    },
    {
      "epoch": 0.5545833333333333,
      "grad_norm": 0.7458505034446716,
      "learning_rate": 0.00012526986883946737,
      "loss": 3.52,
      "step": 266200
    },
    {
      "epoch": 0.5546041666666667,
      "grad_norm": 0.9356899857521057,
      "learning_rate": 0.00012526014524578047,
      "loss": 3.8052,
      "step": 266210
    },
    {
      "epoch": 0.554625,
      "grad_norm": 0.8935582041740417,
      "learning_rate": 0.00012525042175896004,
      "loss": 3.6386,
      "step": 266220
    },
    {
      "epoch": 0.5546458333333333,
      "grad_norm": 0.9644715189933777,
      "learning_rate": 0.00012524069837904794,
      "loss": 3.9092,
      "step": 266230
    },
    {
      "epoch": 0.5546666666666666,
      "grad_norm": 0.7925823926925659,
      "learning_rate": 0.0001252309751060862,
      "loss": 3.7326,
      "step": 266240
    },
    {
      "epoch": 0.5546875,
      "grad_norm": 0.8286024928092957,
      "learning_rate": 0.0001252212519401169,
      "loss": 3.6233,
      "step": 266250
    },
    {
      "epoch": 0.5547083333333334,
      "grad_norm": 0.9508135914802551,
      "learning_rate": 0.00012521152888118195,
      "loss": 3.6086,
      "step": 266260
    },
    {
      "epoch": 0.5547291666666667,
      "grad_norm": 0.8001659512519836,
      "learning_rate": 0.00012520180592932336,
      "loss": 3.7644,
      "step": 266270
    },
    {
      "epoch": 0.55475,
      "grad_norm": 1.068034052848816,
      "learning_rate": 0.00012519208308458323,
      "loss": 3.5615,
      "step": 266280
    },
    {
      "epoch": 0.5547708333333333,
      "grad_norm": 0.9700299501419067,
      "learning_rate": 0.0001251823603470034,
      "loss": 3.6453,
      "step": 266290
    },
    {
      "epoch": 0.5547916666666667,
      "grad_norm": 0.9569110870361328,
      "learning_rate": 0.00012517263771662595,
      "loss": 3.8448,
      "step": 266300
    },
    {
      "epoch": 0.5548125,
      "grad_norm": 0.8125466108322144,
      "learning_rate": 0.00012516291519349296,
      "loss": 3.5291,
      "step": 266310
    },
    {
      "epoch": 0.5548333333333333,
      "grad_norm": 0.8533485531806946,
      "learning_rate": 0.00012515319277764633,
      "loss": 3.7019,
      "step": 266320
    },
    {
      "epoch": 0.5548541666666666,
      "grad_norm": 0.7663134336471558,
      "learning_rate": 0.00012514347046912802,
      "loss": 3.6246,
      "step": 266330
    },
    {
      "epoch": 0.554875,
      "grad_norm": 0.7748144268989563,
      "learning_rate": 0.00012513374826798008,
      "loss": 3.7997,
      "step": 266340
    },
    {
      "epoch": 0.5548958333333334,
      "grad_norm": 0.8328219056129456,
      "learning_rate": 0.00012512402617424455,
      "loss": 3.7619,
      "step": 266350
    },
    {
      "epoch": 0.5549166666666666,
      "grad_norm": 1.0518914461135864,
      "learning_rate": 0.00012511430418796332,
      "loss": 3.8108,
      "step": 266360
    },
    {
      "epoch": 0.5549375,
      "grad_norm": 0.7495311498641968,
      "learning_rate": 0.00012510458230917846,
      "loss": 3.625,
      "step": 266370
    },
    {
      "epoch": 0.5549583333333333,
      "grad_norm": 0.9140632152557373,
      "learning_rate": 0.00012509486053793203,
      "loss": 3.5994,
      "step": 266380
    },
    {
      "epoch": 0.5549791666666667,
      "grad_norm": 0.8133373260498047,
      "learning_rate": 0.00012508513887426583,
      "loss": 3.7319,
      "step": 266390
    },
    {
      "epoch": 0.555,
      "grad_norm": 0.866736650466919,
      "learning_rate": 0.00012507541731822204,
      "loss": 3.7699,
      "step": 266400
    },
    {
      "epoch": 0.5550208333333333,
      "grad_norm": 0.840266764163971,
      "learning_rate": 0.0001250656958698426,
      "loss": 3.7461,
      "step": 266410
    },
    {
      "epoch": 0.5550416666666667,
      "grad_norm": 1.1200706958770752,
      "learning_rate": 0.0001250559745291694,
      "loss": 3.648,
      "step": 266420
    },
    {
      "epoch": 0.5550625,
      "grad_norm": 0.8151792883872986,
      "learning_rate": 0.00012504625329624457,
      "loss": 3.9361,
      "step": 266430
    },
    {
      "epoch": 0.5550833333333334,
      "grad_norm": 0.8513182401657104,
      "learning_rate": 0.00012503653217111005,
      "loss": 3.6399,
      "step": 266440
    },
    {
      "epoch": 0.5551041666666666,
      "grad_norm": 0.8414223194122314,
      "learning_rate": 0.0001250268111538078,
      "loss": 3.799,
      "step": 266450
    },
    {
      "epoch": 0.555125,
      "grad_norm": 0.7500553727149963,
      "learning_rate": 0.0001250170902443799,
      "loss": 3.6712,
      "step": 266460
    },
    {
      "epoch": 0.5551458333333333,
      "grad_norm": 0.7806624174118042,
      "learning_rate": 0.00012500736944286823,
      "loss": 3.5637,
      "step": 266470
    },
    {
      "epoch": 0.5551666666666667,
      "grad_norm": 0.8560884594917297,
      "learning_rate": 0.00012499764874931488,
      "loss": 3.8253,
      "step": 266480
    },
    {
      "epoch": 0.5551875,
      "grad_norm": 0.9153693318367004,
      "learning_rate": 0.0001249879281637617,
      "loss": 3.7238,
      "step": 266490
    },
    {
      "epoch": 0.5552083333333333,
      "grad_norm": 0.9354080557823181,
      "learning_rate": 0.00012497820768625083,
      "loss": 3.6822,
      "step": 266500
    },
    {
      "epoch": 0.5552291666666667,
      "grad_norm": 0.7720882296562195,
      "learning_rate": 0.00012496848731682422,
      "loss": 3.6538,
      "step": 266510
    },
    {
      "epoch": 0.55525,
      "grad_norm": 0.7813270688056946,
      "learning_rate": 0.0001249587670555238,
      "loss": 3.8858,
      "step": 266520
    },
    {
      "epoch": 0.5552708333333334,
      "grad_norm": 0.8207863569259644,
      "learning_rate": 0.0001249490469023916,
      "loss": 3.7555,
      "step": 266530
    },
    {
      "epoch": 0.5552916666666666,
      "grad_norm": 0.8527235984802246,
      "learning_rate": 0.00012493932685746963,
      "loss": 3.6205,
      "step": 266540
    },
    {
      "epoch": 0.5553125,
      "grad_norm": 0.8070067763328552,
      "learning_rate": 0.0001249296069207998,
      "loss": 3.7209,
      "step": 266550
    },
    {
      "epoch": 0.5553333333333333,
      "grad_norm": 0.8798586130142212,
      "learning_rate": 0.0001249198870924242,
      "loss": 3.5227,
      "step": 266560
    },
    {
      "epoch": 0.5553541666666667,
      "grad_norm": 0.7906886339187622,
      "learning_rate": 0.00012491016737238472,
      "loss": 3.5874,
      "step": 266570
    },
    {
      "epoch": 0.555375,
      "grad_norm": 0.7644354701042175,
      "learning_rate": 0.00012490044776072336,
      "loss": 3.6583,
      "step": 266580
    },
    {
      "epoch": 0.5553958333333333,
      "grad_norm": 0.9300923943519592,
      "learning_rate": 0.00012489072825748218,
      "loss": 3.8019,
      "step": 266590
    },
    {
      "epoch": 0.5554166666666667,
      "grad_norm": 1.432142972946167,
      "learning_rate": 0.00012488100886270313,
      "loss": 3.5797,
      "step": 266600
    },
    {
      "epoch": 0.5554375,
      "grad_norm": 0.8209556937217712,
      "learning_rate": 0.0001248712895764281,
      "loss": 3.7245,
      "step": 266610
    },
    {
      "epoch": 0.5554583333333334,
      "grad_norm": 0.7636944651603699,
      "learning_rate": 0.00012486157039869923,
      "loss": 3.6031,
      "step": 266620
    },
    {
      "epoch": 0.5554791666666666,
      "grad_norm": 0.7551898956298828,
      "learning_rate": 0.0001248518513295584,
      "loss": 3.6255,
      "step": 266630
    },
    {
      "epoch": 0.5555,
      "grad_norm": 0.8173249959945679,
      "learning_rate": 0.0001248421323690476,
      "loss": 3.8492,
      "step": 266640
    },
    {
      "epoch": 0.5555208333333334,
      "grad_norm": 0.8665124773979187,
      "learning_rate": 0.00012483241351720885,
      "loss": 3.7552,
      "step": 266650
    },
    {
      "epoch": 0.5555416666666667,
      "grad_norm": 0.7448243498802185,
      "learning_rate": 0.00012482269477408412,
      "loss": 3.7002,
      "step": 266660
    },
    {
      "epoch": 0.5555625,
      "grad_norm": 0.8374845385551453,
      "learning_rate": 0.00012481297613971533,
      "loss": 3.765,
      "step": 266670
    },
    {
      "epoch": 0.5555833333333333,
      "grad_norm": 0.8314279317855835,
      "learning_rate": 0.00012480325761414458,
      "loss": 3.8118,
      "step": 266680
    },
    {
      "epoch": 0.5556041666666667,
      "grad_norm": 0.7395139336585999,
      "learning_rate": 0.0001247935391974138,
      "loss": 3.579,
      "step": 266690
    },
    {
      "epoch": 0.555625,
      "grad_norm": 0.7561633586883545,
      "learning_rate": 0.00012478382088956487,
      "loss": 3.7252,
      "step": 266700
    },
    {
      "epoch": 0.5556458333333333,
      "grad_norm": 0.8710720539093018,
      "learning_rate": 0.0001247741026906399,
      "loss": 3.6678,
      "step": 266710
    },
    {
      "epoch": 0.5556666666666666,
      "grad_norm": 0.8025188446044922,
      "learning_rate": 0.00012476438460068084,
      "loss": 3.5852,
      "step": 266720
    },
    {
      "epoch": 0.5556875,
      "grad_norm": 1.0443485975265503,
      "learning_rate": 0.00012475466661972958,
      "loss": 3.7779,
      "step": 266730
    },
    {
      "epoch": 0.5557083333333334,
      "grad_norm": 0.8125186562538147,
      "learning_rate": 0.0001247449487478282,
      "loss": 3.5493,
      "step": 266740
    },
    {
      "epoch": 0.5557291666666667,
      "grad_norm": 0.8989928960800171,
      "learning_rate": 0.0001247352309850187,
      "loss": 3.7,
      "step": 266750
    },
    {
      "epoch": 0.55575,
      "grad_norm": 0.8132602572441101,
      "learning_rate": 0.00012472551333134294,
      "loss": 3.7327,
      "step": 266760
    },
    {
      "epoch": 0.5557708333333333,
      "grad_norm": 0.8009065985679626,
      "learning_rate": 0.00012471579578684296,
      "loss": 3.7537,
      "step": 266770
    },
    {
      "epoch": 0.5557916666666667,
      "grad_norm": 0.8030229210853577,
      "learning_rate": 0.00012470607835156076,
      "loss": 3.7251,
      "step": 266780
    },
    {
      "epoch": 0.5558125,
      "grad_norm": 0.796423077583313,
      "learning_rate": 0.00012469636102553828,
      "loss": 3.5727,
      "step": 266790
    },
    {
      "epoch": 0.5558333333333333,
      "grad_norm": 0.9950858950614929,
      "learning_rate": 0.00012468664380881747,
      "loss": 3.7723,
      "step": 266800
    },
    {
      "epoch": 0.5558541666666666,
      "grad_norm": 0.9170196056365967,
      "learning_rate": 0.0001246769267014404,
      "loss": 3.7933,
      "step": 266810
    },
    {
      "epoch": 0.555875,
      "grad_norm": 0.8741007447242737,
      "learning_rate": 0.00012466720970344901,
      "loss": 3.5994,
      "step": 266820
    },
    {
      "epoch": 0.5558958333333334,
      "grad_norm": 0.8212898373603821,
      "learning_rate": 0.00012465749281488514,
      "loss": 3.6098,
      "step": 266830
    },
    {
      "epoch": 0.5559166666666666,
      "grad_norm": 0.8592718243598938,
      "learning_rate": 0.0001246477760357909,
      "loss": 3.6911,
      "step": 266840
    },
    {
      "epoch": 0.5559375,
      "grad_norm": 0.7824103832244873,
      "learning_rate": 0.00012463805936620831,
      "loss": 3.7406,
      "step": 266850
    },
    {
      "epoch": 0.5559583333333333,
      "grad_norm": 0.9742027521133423,
      "learning_rate": 0.00012462834280617917,
      "loss": 3.7654,
      "step": 266860
    },
    {
      "epoch": 0.5559791666666667,
      "grad_norm": 0.7716531157493591,
      "learning_rate": 0.00012461862635574557,
      "loss": 3.6434,
      "step": 266870
    },
    {
      "epoch": 0.556,
      "grad_norm": 0.7950760126113892,
      "learning_rate": 0.00012460891001494953,
      "loss": 3.6722,
      "step": 266880
    },
    {
      "epoch": 0.5560208333333333,
      "grad_norm": 0.7958794236183167,
      "learning_rate": 0.00012459919378383284,
      "loss": 3.6836,
      "step": 266890
    },
    {
      "epoch": 0.5560416666666667,
      "grad_norm": 0.9719210863113403,
      "learning_rate": 0.0001245894776624376,
      "loss": 3.6876,
      "step": 266900
    },
    {
      "epoch": 0.5560625,
      "grad_norm": 0.8091179132461548,
      "learning_rate": 0.00012457976165080583,
      "loss": 3.6684,
      "step": 266910
    },
    {
      "epoch": 0.5560833333333334,
      "grad_norm": 0.8102777004241943,
      "learning_rate": 0.00012457004574897937,
      "loss": 3.665,
      "step": 266920
    },
    {
      "epoch": 0.5561041666666666,
      "grad_norm": 0.8078254461288452,
      "learning_rate": 0.0001245603299570003,
      "loss": 3.5998,
      "step": 266930
    },
    {
      "epoch": 0.556125,
      "grad_norm": 0.8397216200828552,
      "learning_rate": 0.00012455061427491047,
      "loss": 3.7599,
      "step": 266940
    },
    {
      "epoch": 0.5561458333333333,
      "grad_norm": 0.7306467294692993,
      "learning_rate": 0.00012454089870275192,
      "loss": 3.7179,
      "step": 266950
    },
    {
      "epoch": 0.5561666666666667,
      "grad_norm": 1.0564424991607666,
      "learning_rate": 0.00012453118324056665,
      "loss": 3.6687,
      "step": 266960
    },
    {
      "epoch": 0.5561875,
      "grad_norm": 0.8303663730621338,
      "learning_rate": 0.0001245214678883966,
      "loss": 3.8229,
      "step": 266970
    },
    {
      "epoch": 0.5562083333333333,
      "grad_norm": 0.8393834233283997,
      "learning_rate": 0.00012451175264628362,
      "loss": 3.7498,
      "step": 266980
    },
    {
      "epoch": 0.5562291666666667,
      "grad_norm": 0.9059435129165649,
      "learning_rate": 0.0001245020375142699,
      "loss": 3.7725,
      "step": 266990
    },
    {
      "epoch": 0.55625,
      "grad_norm": 0.9182034134864807,
      "learning_rate": 0.00012449232249239723,
      "loss": 3.6959,
      "step": 267000
    },
    {
      "epoch": 0.55625,
      "eval_loss": 4.103687286376953,
      "eval_runtime": 9.4184,
      "eval_samples_per_second": 1.062,
      "eval_steps_per_second": 0.319,
      "step": 267000
    },
    {
      "epoch": 0.5562708333333334,
      "grad_norm": 0.8224920034408569,
      "learning_rate": 0.0001244826075807076,
      "loss": 3.5779,
      "step": 267010
    },
    {
      "epoch": 0.5562916666666666,
      "grad_norm": 0.9226252436637878,
      "learning_rate": 0.00012447289277924307,
      "loss": 3.6693,
      "step": 267020
    },
    {
      "epoch": 0.5563125,
      "grad_norm": 0.812220573425293,
      "learning_rate": 0.0001244631780880455,
      "loss": 3.6628,
      "step": 267030
    },
    {
      "epoch": 0.5563333333333333,
      "grad_norm": 1.0658880472183228,
      "learning_rate": 0.00012445346350715687,
      "loss": 3.7783,
      "step": 267040
    },
    {
      "epoch": 0.5563541666666667,
      "grad_norm": 0.860257625579834,
      "learning_rate": 0.00012444374903661923,
      "loss": 3.7933,
      "step": 267050
    },
    {
      "epoch": 0.556375,
      "grad_norm": 0.9089159369468689,
      "learning_rate": 0.00012443403467647448,
      "loss": 3.7404,
      "step": 267060
    },
    {
      "epoch": 0.5563958333333333,
      "grad_norm": 0.9023439884185791,
      "learning_rate": 0.00012442432042676454,
      "loss": 3.7196,
      "step": 267070
    },
    {
      "epoch": 0.5564166666666667,
      "grad_norm": 0.7848657965660095,
      "learning_rate": 0.00012441460628753137,
      "loss": 3.8044,
      "step": 267080
    },
    {
      "epoch": 0.5564375,
      "grad_norm": 0.9248956441879272,
      "learning_rate": 0.00012440489225881707,
      "loss": 3.7546,
      "step": 267090
    },
    {
      "epoch": 0.5564583333333334,
      "grad_norm": 0.779416024684906,
      "learning_rate": 0.00012439517834066344,
      "loss": 3.8438,
      "step": 267100
    },
    {
      "epoch": 0.5564791666666666,
      "grad_norm": 0.7127954959869385,
      "learning_rate": 0.0001243854645331125,
      "loss": 3.567,
      "step": 267110
    },
    {
      "epoch": 0.5565,
      "grad_norm": 0.8742217421531677,
      "learning_rate": 0.00012437575083620625,
      "loss": 3.8722,
      "step": 267120
    },
    {
      "epoch": 0.5565208333333334,
      "grad_norm": 0.7740992903709412,
      "learning_rate": 0.0001243660372499866,
      "loss": 3.7142,
      "step": 267130
    },
    {
      "epoch": 0.5565416666666667,
      "grad_norm": 0.8362629413604736,
      "learning_rate": 0.0001243563237744955,
      "loss": 3.6776,
      "step": 267140
    },
    {
      "epoch": 0.5565625,
      "grad_norm": 0.8553826808929443,
      "learning_rate": 0.00012434661040977498,
      "loss": 3.6348,
      "step": 267150
    },
    {
      "epoch": 0.5565833333333333,
      "grad_norm": 0.794338583946228,
      "learning_rate": 0.00012433689715586691,
      "loss": 3.7337,
      "step": 267160
    },
    {
      "epoch": 0.5566041666666667,
      "grad_norm": 0.7111320495605469,
      "learning_rate": 0.00012432718401281326,
      "loss": 3.6807,
      "step": 267170
    },
    {
      "epoch": 0.556625,
      "grad_norm": 0.7971368432044983,
      "learning_rate": 0.00012431747098065607,
      "loss": 3.6527,
      "step": 267180
    },
    {
      "epoch": 0.5566458333333333,
      "grad_norm": 0.8312732577323914,
      "learning_rate": 0.00012430775805943726,
      "loss": 3.6371,
      "step": 267190
    },
    {
      "epoch": 0.5566666666666666,
      "grad_norm": 0.8004922270774841,
      "learning_rate": 0.00012429804524919868,
      "loss": 3.7351,
      "step": 267200
    },
    {
      "epoch": 0.5566875,
      "grad_norm": 0.9388987421989441,
      "learning_rate": 0.00012428833254998244,
      "loss": 3.6341,
      "step": 267210
    },
    {
      "epoch": 0.5567083333333334,
      "grad_norm": 0.8314547538757324,
      "learning_rate": 0.00012427861996183043,
      "loss": 3.6032,
      "step": 267220
    },
    {
      "epoch": 0.5567291666666667,
      "grad_norm": 0.8706261515617371,
      "learning_rate": 0.00012426890748478453,
      "loss": 3.7603,
      "step": 267230
    },
    {
      "epoch": 0.55675,
      "grad_norm": 0.7763328552246094,
      "learning_rate": 0.0001242591951188868,
      "loss": 3.714,
      "step": 267240
    },
    {
      "epoch": 0.5567708333333333,
      "grad_norm": 0.9507133364677429,
      "learning_rate": 0.0001242494828641792,
      "loss": 3.7723,
      "step": 267250
    },
    {
      "epoch": 0.5567916666666667,
      "grad_norm": 0.7532582879066467,
      "learning_rate": 0.00012423977072070357,
      "loss": 3.754,
      "step": 267260
    },
    {
      "epoch": 0.5568125,
      "grad_norm": 0.9213289022445679,
      "learning_rate": 0.00012423005868850194,
      "loss": 3.7003,
      "step": 267270
    },
    {
      "epoch": 0.5568333333333333,
      "grad_norm": 0.8438739776611328,
      "learning_rate": 0.00012422034676761633,
      "loss": 3.6604,
      "step": 267280
    },
    {
      "epoch": 0.5568541666666667,
      "grad_norm": 0.863156259059906,
      "learning_rate": 0.00012421063495808853,
      "loss": 3.6345,
      "step": 267290
    },
    {
      "epoch": 0.556875,
      "grad_norm": 0.796534538269043,
      "learning_rate": 0.00012420092325996063,
      "loss": 3.6717,
      "step": 267300
    },
    {
      "epoch": 0.5568958333333334,
      "grad_norm": 0.9592697620391846,
      "learning_rate": 0.00012419121167327456,
      "loss": 3.7455,
      "step": 267310
    },
    {
      "epoch": 0.5569166666666666,
      "grad_norm": 0.8511413931846619,
      "learning_rate": 0.00012418150019807218,
      "loss": 3.709,
      "step": 267320
    },
    {
      "epoch": 0.5569375,
      "grad_norm": 0.8300482034683228,
      "learning_rate": 0.00012417178883439555,
      "loss": 3.633,
      "step": 267330
    },
    {
      "epoch": 0.5569583333333333,
      "grad_norm": 0.8303406238555908,
      "learning_rate": 0.00012416207758228652,
      "loss": 3.8411,
      "step": 267340
    },
    {
      "epoch": 0.5569791666666667,
      "grad_norm": 0.7905959486961365,
      "learning_rate": 0.00012415236644178714,
      "loss": 3.7414,
      "step": 267350
    },
    {
      "epoch": 0.557,
      "grad_norm": 0.8073657751083374,
      "learning_rate": 0.00012414265541293924,
      "loss": 3.7533,
      "step": 267360
    },
    {
      "epoch": 0.5570208333333333,
      "grad_norm": 0.8816107511520386,
      "learning_rate": 0.00012413294449578486,
      "loss": 3.7059,
      "step": 267370
    },
    {
      "epoch": 0.5570416666666667,
      "grad_norm": 0.827540934085846,
      "learning_rate": 0.00012412323369036596,
      "loss": 3.6781,
      "step": 267380
    },
    {
      "epoch": 0.5570625,
      "grad_norm": 1.0437960624694824,
      "learning_rate": 0.0001241135229967244,
      "loss": 3.7119,
      "step": 267390
    },
    {
      "epoch": 0.5570833333333334,
      "grad_norm": 0.8442634344100952,
      "learning_rate": 0.00012410381241490217,
      "loss": 3.5324,
      "step": 267400
    },
    {
      "epoch": 0.5571041666666666,
      "grad_norm": 1.2121777534484863,
      "learning_rate": 0.00012409410194494128,
      "loss": 3.7782,
      "step": 267410
    },
    {
      "epoch": 0.557125,
      "grad_norm": 0.7355155348777771,
      "learning_rate": 0.00012408439158688352,
      "loss": 3.8687,
      "step": 267420
    },
    {
      "epoch": 0.5571458333333333,
      "grad_norm": 0.9357137084007263,
      "learning_rate": 0.00012407468134077103,
      "loss": 3.6835,
      "step": 267430
    },
    {
      "epoch": 0.5571666666666667,
      "grad_norm": 0.9437484741210938,
      "learning_rate": 0.0001240649712066456,
      "loss": 3.7747,
      "step": 267440
    },
    {
      "epoch": 0.5571875,
      "grad_norm": 0.7999489903450012,
      "learning_rate": 0.0001240552611845492,
      "loss": 3.7097,
      "step": 267450
    },
    {
      "epoch": 0.5572083333333333,
      "grad_norm": 0.7607554793357849,
      "learning_rate": 0.00012404555127452387,
      "loss": 3.804,
      "step": 267460
    },
    {
      "epoch": 0.5572291666666667,
      "grad_norm": 0.8836559057235718,
      "learning_rate": 0.00012403584147661147,
      "loss": 3.6059,
      "step": 267470
    },
    {
      "epoch": 0.55725,
      "grad_norm": 0.8215289115905762,
      "learning_rate": 0.0001240261317908539,
      "loss": 3.5817,
      "step": 267480
    },
    {
      "epoch": 0.5572708333333334,
      "grad_norm": 0.8365840911865234,
      "learning_rate": 0.00012401642221729323,
      "loss": 3.6305,
      "step": 267490
    },
    {
      "epoch": 0.5572916666666666,
      "grad_norm": 0.7729936838150024,
      "learning_rate": 0.00012400671275597131,
      "loss": 4.039,
      "step": 267500
    },
    {
      "epoch": 0.5573125,
      "grad_norm": 1.532666563987732,
      "learning_rate": 0.00012399700340693005,
      "loss": 3.6764,
      "step": 267510
    },
    {
      "epoch": 0.5573333333333333,
      "grad_norm": 0.782040536403656,
      "learning_rate": 0.00012398729417021154,
      "loss": 3.6556,
      "step": 267520
    },
    {
      "epoch": 0.5573541666666667,
      "grad_norm": 0.898139238357544,
      "learning_rate": 0.00012397758504585754,
      "loss": 3.806,
      "step": 267530
    },
    {
      "epoch": 0.557375,
      "grad_norm": 0.8437443971633911,
      "learning_rate": 0.00012396787603391007,
      "loss": 3.6589,
      "step": 267540
    },
    {
      "epoch": 0.5573958333333333,
      "grad_norm": 0.8256741762161255,
      "learning_rate": 0.00012395816713441115,
      "loss": 3.6653,
      "step": 267550
    },
    {
      "epoch": 0.5574166666666667,
      "grad_norm": 0.888773500919342,
      "learning_rate": 0.00012394845834740262,
      "loss": 3.6507,
      "step": 267560
    },
    {
      "epoch": 0.5574375,
      "grad_norm": 0.7692042589187622,
      "learning_rate": 0.00012393874967292636,
      "loss": 3.523,
      "step": 267570
    },
    {
      "epoch": 0.5574583333333333,
      "grad_norm": 0.9845570921897888,
      "learning_rate": 0.00012392904111102444,
      "loss": 3.8595,
      "step": 267580
    },
    {
      "epoch": 0.5574791666666666,
      "grad_norm": 0.8351048827171326,
      "learning_rate": 0.0001239193326617388,
      "loss": 3.5846,
      "step": 267590
    },
    {
      "epoch": 0.5575,
      "grad_norm": 0.8169456124305725,
      "learning_rate": 0.0001239096243251112,
      "loss": 3.6559,
      "step": 267600
    },
    {
      "epoch": 0.5575208333333334,
      "grad_norm": 0.7946882843971252,
      "learning_rate": 0.00012389991610118375,
      "loss": 3.6273,
      "step": 267610
    },
    {
      "epoch": 0.5575416666666667,
      "grad_norm": 0.8480468392372131,
      "learning_rate": 0.0001238902079899984,
      "loss": 3.9088,
      "step": 267620
    },
    {
      "epoch": 0.5575625,
      "grad_norm": 1.1057991981506348,
      "learning_rate": 0.00012388049999159689,
      "loss": 3.5036,
      "step": 267630
    },
    {
      "epoch": 0.5575833333333333,
      "grad_norm": 0.9502850770950317,
      "learning_rate": 0.00012387079210602134,
      "loss": 3.8127,
      "step": 267640
    },
    {
      "epoch": 0.5576041666666667,
      "grad_norm": 0.8388798832893372,
      "learning_rate": 0.00012386108433331367,
      "loss": 3.6818,
      "step": 267650
    },
    {
      "epoch": 0.557625,
      "grad_norm": 0.7753950357437134,
      "learning_rate": 0.00012385137667351572,
      "loss": 3.7254,
      "step": 267660
    },
    {
      "epoch": 0.5576458333333333,
      "grad_norm": 0.7627604603767395,
      "learning_rate": 0.00012384166912666946,
      "loss": 3.659,
      "step": 267670
    },
    {
      "epoch": 0.5576666666666666,
      "grad_norm": 0.85630202293396,
      "learning_rate": 0.00012383196169281688,
      "loss": 3.6411,
      "step": 267680
    },
    {
      "epoch": 0.5576875,
      "grad_norm": 0.7806732654571533,
      "learning_rate": 0.00012382225437199986,
      "loss": 3.7225,
      "step": 267690
    },
    {
      "epoch": 0.5577083333333334,
      "grad_norm": 0.9519304633140564,
      "learning_rate": 0.0001238125471642603,
      "loss": 3.7485,
      "step": 267700
    },
    {
      "epoch": 0.5577291666666667,
      "grad_norm": 0.7264405488967896,
      "learning_rate": 0.00012380284006964019,
      "loss": 3.7084,
      "step": 267710
    },
    {
      "epoch": 0.55775,
      "grad_norm": 0.845568060874939,
      "learning_rate": 0.00012379313308818148,
      "loss": 3.6787,
      "step": 267720
    },
    {
      "epoch": 0.5577708333333333,
      "grad_norm": 0.7914789915084839,
      "learning_rate": 0.00012378342621992597,
      "loss": 3.6795,
      "step": 267730
    },
    {
      "epoch": 0.5577916666666667,
      "grad_norm": 0.8879866600036621,
      "learning_rate": 0.00012377371946491577,
      "loss": 3.7723,
      "step": 267740
    },
    {
      "epoch": 0.5578125,
      "grad_norm": 0.8530821800231934,
      "learning_rate": 0.0001237640128231927,
      "loss": 3.6223,
      "step": 267750
    },
    {
      "epoch": 0.5578333333333333,
      "grad_norm": 0.8698979616165161,
      "learning_rate": 0.00012375430629479867,
      "loss": 3.6208,
      "step": 267760
    },
    {
      "epoch": 0.5578541666666667,
      "grad_norm": 0.859752357006073,
      "learning_rate": 0.00012374459987977567,
      "loss": 3.5739,
      "step": 267770
    },
    {
      "epoch": 0.557875,
      "grad_norm": 0.851216733455658,
      "learning_rate": 0.00012373489357816564,
      "loss": 3.8298,
      "step": 267780
    },
    {
      "epoch": 0.5578958333333334,
      "grad_norm": 0.8952009081840515,
      "learning_rate": 0.00012372518739001042,
      "loss": 3.7656,
      "step": 267790
    },
    {
      "epoch": 0.5579166666666666,
      "grad_norm": 0.7615646719932556,
      "learning_rate": 0.000123715481315352,
      "loss": 3.6788,
      "step": 267800
    },
    {
      "epoch": 0.5579375,
      "grad_norm": 0.8476951122283936,
      "learning_rate": 0.00012370577535423237,
      "loss": 3.8731,
      "step": 267810
    },
    {
      "epoch": 0.5579583333333333,
      "grad_norm": 0.908668577671051,
      "learning_rate": 0.00012369606950669328,
      "loss": 3.7696,
      "step": 267820
    },
    {
      "epoch": 0.5579791666666667,
      "grad_norm": 1.1188331842422485,
      "learning_rate": 0.00012368636377277684,
      "loss": 3.652,
      "step": 267830
    },
    {
      "epoch": 0.558,
      "grad_norm": 0.7815358638763428,
      "learning_rate": 0.00012367665815252486,
      "loss": 3.8383,
      "step": 267840
    },
    {
      "epoch": 0.5580208333333333,
      "grad_norm": 0.9218060374259949,
      "learning_rate": 0.00012366695264597925,
      "loss": 3.9367,
      "step": 267850
    },
    {
      "epoch": 0.5580416666666667,
      "grad_norm": 0.8294886946678162,
      "learning_rate": 0.00012365724725318204,
      "loss": 3.6476,
      "step": 267860
    },
    {
      "epoch": 0.5580625,
      "grad_norm": 0.8117186427116394,
      "learning_rate": 0.00012364754197417507,
      "loss": 3.6558,
      "step": 267870
    },
    {
      "epoch": 0.5580833333333334,
      "grad_norm": 0.7654329538345337,
      "learning_rate": 0.00012363783680900028,
      "loss": 3.6688,
      "step": 267880
    },
    {
      "epoch": 0.5581041666666666,
      "grad_norm": 0.8375388979911804,
      "learning_rate": 0.00012362813175769964,
      "loss": 3.7887,
      "step": 267890
    },
    {
      "epoch": 0.558125,
      "grad_norm": 0.9003775715827942,
      "learning_rate": 0.00012361842682031502,
      "loss": 3.6357,
      "step": 267900
    },
    {
      "epoch": 0.5581458333333333,
      "grad_norm": 0.9016754031181335,
      "learning_rate": 0.0001236087219968883,
      "loss": 3.7525,
      "step": 267910
    },
    {
      "epoch": 0.5581666666666667,
      "grad_norm": 0.7479519844055176,
      "learning_rate": 0.0001235990172874615,
      "loss": 3.6014,
      "step": 267920
    },
    {
      "epoch": 0.5581875,
      "grad_norm": 0.8539831638336182,
      "learning_rate": 0.00012358931269207656,
      "loss": 3.8198,
      "step": 267930
    },
    {
      "epoch": 0.5582083333333333,
      "grad_norm": 0.8090327978134155,
      "learning_rate": 0.00012357960821077525,
      "loss": 3.5841,
      "step": 267940
    },
    {
      "epoch": 0.5582291666666667,
      "grad_norm": 1.0455857515335083,
      "learning_rate": 0.00012356990384359957,
      "loss": 3.6772,
      "step": 267950
    },
    {
      "epoch": 0.55825,
      "grad_norm": 0.8622783422470093,
      "learning_rate": 0.0001235601995905915,
      "loss": 3.7956,
      "step": 267960
    },
    {
      "epoch": 0.5582708333333334,
      "grad_norm": 0.9305670857429504,
      "learning_rate": 0.00012355049545179287,
      "loss": 3.7942,
      "step": 267970
    },
    {
      "epoch": 0.5582916666666666,
      "grad_norm": 0.9509974718093872,
      "learning_rate": 0.00012354079142724557,
      "loss": 3.6991,
      "step": 267980
    },
    {
      "epoch": 0.5583125,
      "grad_norm": 1.0727638006210327,
      "learning_rate": 0.0001235310875169917,
      "loss": 3.6612,
      "step": 267990
    },
    {
      "epoch": 0.5583333333333333,
      "grad_norm": 0.7398903369903564,
      "learning_rate": 0.00012352138372107295,
      "loss": 3.7066,
      "step": 268000
    },
    {
      "epoch": 0.5583333333333333,
      "eval_loss": 4.105189323425293,
      "eval_runtime": 9.4765,
      "eval_samples_per_second": 1.055,
      "eval_steps_per_second": 0.317,
      "step": 268000
    },
    {
      "epoch": 0.5583541666666667,
      "grad_norm": 0.9678330421447754,
      "learning_rate": 0.00012351168003953136,
      "loss": 3.6239,
      "step": 268010
    },
    {
      "epoch": 0.558375,
      "grad_norm": 0.7478024363517761,
      "learning_rate": 0.00012350197647240888,
      "loss": 3.7648,
      "step": 268020
    },
    {
      "epoch": 0.5583958333333333,
      "grad_norm": 0.8570634722709656,
      "learning_rate": 0.00012349227301974733,
      "loss": 3.6702,
      "step": 268030
    },
    {
      "epoch": 0.5584166666666667,
      "grad_norm": 0.8201779723167419,
      "learning_rate": 0.00012348256968158867,
      "loss": 3.723,
      "step": 268040
    },
    {
      "epoch": 0.5584375,
      "grad_norm": 0.8338652849197388,
      "learning_rate": 0.00012347286645797485,
      "loss": 3.7321,
      "step": 268050
    },
    {
      "epoch": 0.5584583333333333,
      "grad_norm": 0.9316673874855042,
      "learning_rate": 0.00012346316334894774,
      "loss": 3.7971,
      "step": 268060
    },
    {
      "epoch": 0.5584791666666666,
      "grad_norm": 1.0708765983581543,
      "learning_rate": 0.00012345346035454923,
      "loss": 3.6506,
      "step": 268070
    },
    {
      "epoch": 0.5585,
      "grad_norm": 0.9942684769630432,
      "learning_rate": 0.00012344375747482125,
      "loss": 3.6311,
      "step": 268080
    },
    {
      "epoch": 0.5585208333333334,
      "grad_norm": 0.8464741110801697,
      "learning_rate": 0.0001234340547098058,
      "loss": 3.7302,
      "step": 268090
    },
    {
      "epoch": 0.5585416666666667,
      "grad_norm": 0.9186104536056519,
      "learning_rate": 0.00012342435205954462,
      "loss": 3.7044,
      "step": 268100
    },
    {
      "epoch": 0.5585625,
      "grad_norm": 0.9232711791992188,
      "learning_rate": 0.00012341464952407978,
      "loss": 3.6738,
      "step": 268110
    },
    {
      "epoch": 0.5585833333333333,
      "grad_norm": 0.8351267576217651,
      "learning_rate": 0.00012340494710345312,
      "loss": 3.8275,
      "step": 268120
    },
    {
      "epoch": 0.5586041666666667,
      "grad_norm": 0.7162309288978577,
      "learning_rate": 0.00012339524479770654,
      "loss": 3.8005,
      "step": 268130
    },
    {
      "epoch": 0.558625,
      "grad_norm": 0.7495945692062378,
      "learning_rate": 0.00012338554260688198,
      "loss": 3.5548,
      "step": 268140
    },
    {
      "epoch": 0.5586458333333333,
      "grad_norm": 1.1246471405029297,
      "learning_rate": 0.0001233758405310214,
      "loss": 3.6109,
      "step": 268150
    },
    {
      "epoch": 0.5586666666666666,
      "grad_norm": 0.8730661869049072,
      "learning_rate": 0.00012336613857016657,
      "loss": 3.4789,
      "step": 268160
    },
    {
      "epoch": 0.5586875,
      "grad_norm": 0.8230213522911072,
      "learning_rate": 0.0001233564367243595,
      "loss": 3.738,
      "step": 268170
    },
    {
      "epoch": 0.5587083333333334,
      "grad_norm": 0.7875360250473022,
      "learning_rate": 0.00012334673499364213,
      "loss": 3.8537,
      "step": 268180
    },
    {
      "epoch": 0.5587291666666667,
      "grad_norm": 0.7448968291282654,
      "learning_rate": 0.00012333703337805623,
      "loss": 3.8676,
      "step": 268190
    },
    {
      "epoch": 0.55875,
      "grad_norm": 0.9480646252632141,
      "learning_rate": 0.00012332733187764386,
      "loss": 3.7253,
      "step": 268200
    },
    {
      "epoch": 0.5587708333333333,
      "grad_norm": 0.9951454997062683,
      "learning_rate": 0.00012331763049244684,
      "loss": 3.5664,
      "step": 268210
    },
    {
      "epoch": 0.5587916666666667,
      "grad_norm": 0.8631647825241089,
      "learning_rate": 0.00012330792922250706,
      "loss": 3.5793,
      "step": 268220
    },
    {
      "epoch": 0.5588125,
      "grad_norm": 0.9518630504608154,
      "learning_rate": 0.00012329822806786652,
      "loss": 3.602,
      "step": 268230
    },
    {
      "epoch": 0.5588333333333333,
      "grad_norm": 0.8510306477546692,
      "learning_rate": 0.00012328852702856702,
      "loss": 3.6669,
      "step": 268240
    },
    {
      "epoch": 0.5588541666666667,
      "grad_norm": 0.6904494166374207,
      "learning_rate": 0.00012327882610465056,
      "loss": 3.6135,
      "step": 268250
    },
    {
      "epoch": 0.558875,
      "grad_norm": 0.8265672922134399,
      "learning_rate": 0.0001232691252961589,
      "loss": 3.7417,
      "step": 268260
    },
    {
      "epoch": 0.5588958333333334,
      "grad_norm": 0.8442305326461792,
      "learning_rate": 0.0001232594246031341,
      "loss": 3.5888,
      "step": 268270
    },
    {
      "epoch": 0.5589166666666666,
      "grad_norm": 0.8195785284042358,
      "learning_rate": 0.00012324972402561805,
      "loss": 3.7298,
      "step": 268280
    },
    {
      "epoch": 0.5589375,
      "grad_norm": 0.7995363473892212,
      "learning_rate": 0.0001232400235636525,
      "loss": 3.7102,
      "step": 268290
    },
    {
      "epoch": 0.5589583333333333,
      "grad_norm": 0.8129660487174988,
      "learning_rate": 0.00012323032321727952,
      "loss": 3.8038,
      "step": 268300
    },
    {
      "epoch": 0.5589791666666667,
      "grad_norm": 0.8333576917648315,
      "learning_rate": 0.00012322062298654097,
      "loss": 3.7141,
      "step": 268310
    },
    {
      "epoch": 0.559,
      "grad_norm": 0.8141306042671204,
      "learning_rate": 0.00012321092287147865,
      "loss": 3.7324,
      "step": 268320
    },
    {
      "epoch": 0.5590208333333333,
      "grad_norm": 0.8809180855751038,
      "learning_rate": 0.00012320122287213462,
      "loss": 3.6974,
      "step": 268330
    },
    {
      "epoch": 0.5590416666666667,
      "grad_norm": 0.8367892503738403,
      "learning_rate": 0.00012319152298855064,
      "loss": 3.6969,
      "step": 268340
    },
    {
      "epoch": 0.5590625,
      "grad_norm": 0.8415679335594177,
      "learning_rate": 0.00012318182322076866,
      "loss": 3.5353,
      "step": 268350
    },
    {
      "epoch": 0.5590833333333334,
      "grad_norm": 0.767652690410614,
      "learning_rate": 0.00012317212356883066,
      "loss": 3.6242,
      "step": 268360
    },
    {
      "epoch": 0.5591041666666666,
      "grad_norm": 0.7448787689208984,
      "learning_rate": 0.0001231624240327784,
      "loss": 3.5718,
      "step": 268370
    },
    {
      "epoch": 0.559125,
      "grad_norm": 0.7647064328193665,
      "learning_rate": 0.00012315272461265386,
      "loss": 3.6544,
      "step": 268380
    },
    {
      "epoch": 0.5591458333333333,
      "grad_norm": 0.7806451916694641,
      "learning_rate": 0.00012314302530849896,
      "loss": 3.6125,
      "step": 268390
    },
    {
      "epoch": 0.5591666666666667,
      "grad_norm": 0.8193272352218628,
      "learning_rate": 0.00012313332612035553,
      "loss": 3.6324,
      "step": 268400
    },
    {
      "epoch": 0.5591875,
      "grad_norm": 0.8378397822380066,
      "learning_rate": 0.0001231236270482655,
      "loss": 3.6334,
      "step": 268410
    },
    {
      "epoch": 0.5592083333333333,
      "grad_norm": 0.7862412929534912,
      "learning_rate": 0.00012311392809227079,
      "loss": 3.679,
      "step": 268420
    },
    {
      "epoch": 0.5592291666666667,
      "grad_norm": 0.7817748188972473,
      "learning_rate": 0.00012310422925241324,
      "loss": 3.7404,
      "step": 268430
    },
    {
      "epoch": 0.55925,
      "grad_norm": 0.7522301077842712,
      "learning_rate": 0.00012309453052873476,
      "loss": 3.7147,
      "step": 268440
    },
    {
      "epoch": 0.5592708333333334,
      "grad_norm": 0.7779380679130554,
      "learning_rate": 0.00012308483192127726,
      "loss": 4.0225,
      "step": 268450
    },
    {
      "epoch": 0.5592916666666666,
      "grad_norm": 0.8657225370407104,
      "learning_rate": 0.00012307513343008268,
      "loss": 3.8209,
      "step": 268460
    },
    {
      "epoch": 0.5593125,
      "grad_norm": 0.8238705396652222,
      "learning_rate": 0.0001230654350551928,
      "loss": 3.7157,
      "step": 268470
    },
    {
      "epoch": 0.5593333333333333,
      "grad_norm": 0.7469972372055054,
      "learning_rate": 0.0001230557367966496,
      "loss": 3.6383,
      "step": 268480
    },
    {
      "epoch": 0.5593541666666667,
      "grad_norm": 0.9856964945793152,
      "learning_rate": 0.000123046038654495,
      "loss": 3.6908,
      "step": 268490
    },
    {
      "epoch": 0.559375,
      "grad_norm": 0.8804832100868225,
      "learning_rate": 0.00012303634062877077,
      "loss": 3.7348,
      "step": 268500
    },
    {
      "epoch": 0.5593958333333333,
      "grad_norm": 0.8015829920768738,
      "learning_rate": 0.00012302664271951892,
      "loss": 3.6342,
      "step": 268510
    },
    {
      "epoch": 0.5594166666666667,
      "grad_norm": 0.9909883141517639,
      "learning_rate": 0.00012301694492678131,
      "loss": 3.6105,
      "step": 268520
    },
    {
      "epoch": 0.5594375,
      "grad_norm": 1.4042410850524902,
      "learning_rate": 0.0001230072472505998,
      "loss": 3.7144,
      "step": 268530
    },
    {
      "epoch": 0.5594583333333333,
      "grad_norm": 0.8761790990829468,
      "learning_rate": 0.00012299754969101627,
      "loss": 3.7176,
      "step": 268540
    },
    {
      "epoch": 0.5594791666666666,
      "grad_norm": 0.8569983243942261,
      "learning_rate": 0.0001229878522480727,
      "loss": 3.6015,
      "step": 268550
    },
    {
      "epoch": 0.5595,
      "grad_norm": 0.803601086139679,
      "learning_rate": 0.0001229781549218109,
      "loss": 3.7852,
      "step": 268560
    },
    {
      "epoch": 0.5595208333333334,
      "grad_norm": 0.8050453066825867,
      "learning_rate": 0.0001229684577122727,
      "loss": 3.6679,
      "step": 268570
    },
    {
      "epoch": 0.5595416666666667,
      "grad_norm": 0.7602714896202087,
      "learning_rate": 0.00012295876061950013,
      "loss": 3.6368,
      "step": 268580
    },
    {
      "epoch": 0.5595625,
      "grad_norm": 0.8282778859138489,
      "learning_rate": 0.000122949063643535,
      "loss": 3.861,
      "step": 268590
    },
    {
      "epoch": 0.5595833333333333,
      "grad_norm": 0.8874757289886475,
      "learning_rate": 0.00012293936678441919,
      "loss": 3.6827,
      "step": 268600
    },
    {
      "epoch": 0.5596041666666667,
      "grad_norm": 0.825070858001709,
      "learning_rate": 0.0001229296700421946,
      "loss": 3.6591,
      "step": 268610
    },
    {
      "epoch": 0.559625,
      "grad_norm": 0.8429400324821472,
      "learning_rate": 0.0001229199734169032,
      "loss": 3.9201,
      "step": 268620
    },
    {
      "epoch": 0.5596458333333333,
      "grad_norm": 0.8283270001411438,
      "learning_rate": 0.00012291027690858666,
      "loss": 3.756,
      "step": 268630
    },
    {
      "epoch": 0.5596666666666666,
      "grad_norm": 0.9086437225341797,
      "learning_rate": 0.00012290058051728708,
      "loss": 3.5944,
      "step": 268640
    },
    {
      "epoch": 0.5596875,
      "grad_norm": 0.8361427783966064,
      "learning_rate": 0.0001228908842430463,
      "loss": 3.6962,
      "step": 268650
    },
    {
      "epoch": 0.5597083333333334,
      "grad_norm": 0.7745648622512817,
      "learning_rate": 0.0001228811880859061,
      "loss": 3.7227,
      "step": 268660
    },
    {
      "epoch": 0.5597291666666667,
      "grad_norm": 0.839169979095459,
      "learning_rate": 0.00012287149204590845,
      "loss": 3.6999,
      "step": 268670
    },
    {
      "epoch": 0.55975,
      "grad_norm": 1.025747537612915,
      "learning_rate": 0.00012286179612309528,
      "loss": 3.7088,
      "step": 268680
    },
    {
      "epoch": 0.5597708333333333,
      "grad_norm": 0.7579379677772522,
      "learning_rate": 0.00012285210031750832,
      "loss": 3.6734,
      "step": 268690
    },
    {
      "epoch": 0.5597916666666667,
      "grad_norm": 0.8031170964241028,
      "learning_rate": 0.0001228424046291896,
      "loss": 3.8815,
      "step": 268700
    },
    {
      "epoch": 0.5598125,
      "grad_norm": 0.8609049320220947,
      "learning_rate": 0.00012283270905818092,
      "loss": 3.6282,
      "step": 268710
    },
    {
      "epoch": 0.5598333333333333,
      "grad_norm": 0.8808293342590332,
      "learning_rate": 0.00012282301360452415,
      "loss": 3.7198,
      "step": 268720
    },
    {
      "epoch": 0.5598541666666667,
      "grad_norm": 0.7519006133079529,
      "learning_rate": 0.00012281331826826126,
      "loss": 3.5943,
      "step": 268730
    },
    {
      "epoch": 0.559875,
      "grad_norm": 0.8417596220970154,
      "learning_rate": 0.00012280362304943406,
      "loss": 3.5579,
      "step": 268740
    },
    {
      "epoch": 0.5598958333333334,
      "grad_norm": 1.9392237663269043,
      "learning_rate": 0.00012279392794808437,
      "loss": 3.6912,
      "step": 268750
    },
    {
      "epoch": 0.5599166666666666,
      "grad_norm": 0.887304961681366,
      "learning_rate": 0.00012278423296425425,
      "loss": 3.7179,
      "step": 268760
    },
    {
      "epoch": 0.5599375,
      "grad_norm": 0.7834803462028503,
      "learning_rate": 0.00012277453809798544,
      "loss": 3.6647,
      "step": 268770
    },
    {
      "epoch": 0.5599583333333333,
      "grad_norm": 0.8143240213394165,
      "learning_rate": 0.0001227648433493198,
      "loss": 3.7505,
      "step": 268780
    },
    {
      "epoch": 0.5599791666666667,
      "grad_norm": 0.8708134889602661,
      "learning_rate": 0.0001227551487182993,
      "loss": 3.7929,
      "step": 268790
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9167532324790955,
      "learning_rate": 0.00012274545420496577,
      "loss": 3.7515,
      "step": 268800
    },
    {
      "epoch": 0.5600208333333333,
      "grad_norm": 1.0108282566070557,
      "learning_rate": 0.00012273575980936105,
      "loss": 3.5812,
      "step": 268810
    },
    {
      "epoch": 0.5600416666666667,
      "grad_norm": 0.8469271659851074,
      "learning_rate": 0.00012272606553152715,
      "loss": 3.6945,
      "step": 268820
    },
    {
      "epoch": 0.5600625,
      "grad_norm": 0.9118364453315735,
      "learning_rate": 0.0001227163713715058,
      "loss": 3.7538,
      "step": 268830
    },
    {
      "epoch": 0.5600833333333334,
      "grad_norm": 0.7831159234046936,
      "learning_rate": 0.00012270667732933892,
      "loss": 3.7939,
      "step": 268840
    },
    {
      "epoch": 0.5601041666666666,
      "grad_norm": 0.7486549019813538,
      "learning_rate": 0.00012269698340506836,
      "loss": 3.58,
      "step": 268850
    },
    {
      "epoch": 0.560125,
      "grad_norm": 0.7752561569213867,
      "learning_rate": 0.00012268728959873606,
      "loss": 3.5699,
      "step": 268860
    },
    {
      "epoch": 0.5601458333333333,
      "grad_norm": 0.7670707106590271,
      "learning_rate": 0.00012267759591038388,
      "loss": 3.7429,
      "step": 268870
    },
    {
      "epoch": 0.5601666666666667,
      "grad_norm": 0.7522209882736206,
      "learning_rate": 0.00012266790234005358,
      "loss": 3.8594,
      "step": 268880
    },
    {
      "epoch": 0.5601875,
      "grad_norm": 0.7832626104354858,
      "learning_rate": 0.0001226582088877872,
      "loss": 3.6625,
      "step": 268890
    },
    {
      "epoch": 0.5602083333333333,
      "grad_norm": 0.8063651323318481,
      "learning_rate": 0.00012264851555362656,
      "loss": 3.689,
      "step": 268900
    },
    {
      "epoch": 0.5602291666666667,
      "grad_norm": 0.9775583744049072,
      "learning_rate": 0.00012263882233761342,
      "loss": 3.5991,
      "step": 268910
    },
    {
      "epoch": 0.56025,
      "grad_norm": 0.8291826248168945,
      "learning_rate": 0.00012262912923978982,
      "loss": 3.7144,
      "step": 268920
    },
    {
      "epoch": 0.5602708333333334,
      "grad_norm": 0.8496217131614685,
      "learning_rate": 0.00012261943626019754,
      "loss": 3.622,
      "step": 268930
    },
    {
      "epoch": 0.5602916666666666,
      "grad_norm": 0.7972880005836487,
      "learning_rate": 0.0001226097433988784,
      "loss": 3.8198,
      "step": 268940
    },
    {
      "epoch": 0.5603125,
      "grad_norm": 0.9035990834236145,
      "learning_rate": 0.00012260005065587435,
      "loss": 3.8088,
      "step": 268950
    },
    {
      "epoch": 0.5603333333333333,
      "grad_norm": 0.9582502841949463,
      "learning_rate": 0.00012259035803122728,
      "loss": 3.6383,
      "step": 268960
    },
    {
      "epoch": 0.5603541666666667,
      "grad_norm": 0.9048095345497131,
      "learning_rate": 0.0001225806655249789,
      "loss": 3.6125,
      "step": 268970
    },
    {
      "epoch": 0.560375,
      "grad_norm": 0.9154548645019531,
      "learning_rate": 0.00012257097313717128,
      "loss": 3.69,
      "step": 268980
    },
    {
      "epoch": 0.5603958333333333,
      "grad_norm": 1.3520972728729248,
      "learning_rate": 0.00012256128086784624,
      "loss": 3.8583,
      "step": 268990
    },
    {
      "epoch": 0.5604166666666667,
      "grad_norm": 0.8492274880409241,
      "learning_rate": 0.0001225515887170455,
      "loss": 3.4761,
      "step": 269000
    },
    {
      "epoch": 0.5604166666666667,
      "eval_loss": 4.103610038757324,
      "eval_runtime": 9.4055,
      "eval_samples_per_second": 1.063,
      "eval_steps_per_second": 0.319,
      "step": 269000
    },
    {
      "epoch": 0.5604375,
      "grad_norm": 0.8837798833847046,
      "learning_rate": 0.00012254189668481108,
      "loss": 3.7167,
      "step": 269010
    },
    {
      "epoch": 0.5604583333333333,
      "grad_norm": 0.8639818429946899,
      "learning_rate": 0.00012253220477118483,
      "loss": 3.8089,
      "step": 269020
    },
    {
      "epoch": 0.5604791666666666,
      "grad_norm": 0.7663972973823547,
      "learning_rate": 0.00012252251297620854,
      "loss": 3.6506,
      "step": 269030
    },
    {
      "epoch": 0.5605,
      "grad_norm": 0.7032448053359985,
      "learning_rate": 0.00012251282129992412,
      "loss": 3.6386,
      "step": 269040
    },
    {
      "epoch": 0.5605208333333334,
      "grad_norm": 0.8481613993644714,
      "learning_rate": 0.00012250312974237346,
      "loss": 3.5631,
      "step": 269050
    },
    {
      "epoch": 0.5605416666666667,
      "grad_norm": 1.1679905652999878,
      "learning_rate": 0.00012249343830359835,
      "loss": 3.6644,
      "step": 269060
    },
    {
      "epoch": 0.5605625,
      "grad_norm": 0.7782970070838928,
      "learning_rate": 0.00012248374698364074,
      "loss": 3.7151,
      "step": 269070
    },
    {
      "epoch": 0.5605833333333333,
      "grad_norm": 0.9806036353111267,
      "learning_rate": 0.00012247405578254245,
      "loss": 3.6305,
      "step": 269080
    },
    {
      "epoch": 0.5606041666666667,
      "grad_norm": 0.9010601043701172,
      "learning_rate": 0.0001224643647003453,
      "loss": 3.4724,
      "step": 269090
    },
    {
      "epoch": 0.560625,
      "grad_norm": 1.0116428136825562,
      "learning_rate": 0.00012245467373709124,
      "loss": 3.7999,
      "step": 269100
    },
    {
      "epoch": 0.5606458333333333,
      "grad_norm": 0.8913540840148926,
      "learning_rate": 0.00012244498289282207,
      "loss": 3.7394,
      "step": 269110
    },
    {
      "epoch": 0.5606666666666666,
      "grad_norm": 0.7979280352592468,
      "learning_rate": 0.00012243529216757974,
      "loss": 3.6179,
      "step": 269120
    },
    {
      "epoch": 0.5606875,
      "grad_norm": 0.8604403138160706,
      "learning_rate": 0.00012242560156140592,
      "loss": 3.6679,
      "step": 269130
    },
    {
      "epoch": 0.5607083333333334,
      "grad_norm": 0.8548615574836731,
      "learning_rate": 0.0001224159110743426,
      "loss": 3.6992,
      "step": 269140
    },
    {
      "epoch": 0.5607291666666666,
      "grad_norm": 0.81394362449646,
      "learning_rate": 0.0001224062207064317,
      "loss": 3.7285,
      "step": 269150
    },
    {
      "epoch": 0.56075,
      "grad_norm": 0.9294723868370056,
      "learning_rate": 0.00012239653045771493,
      "loss": 3.7472,
      "step": 269160
    },
    {
      "epoch": 0.5607708333333333,
      "grad_norm": 0.7714509963989258,
      "learning_rate": 0.00012238684032823426,
      "loss": 3.7514,
      "step": 269170
    },
    {
      "epoch": 0.5607916666666667,
      "grad_norm": 0.8870840072631836,
      "learning_rate": 0.00012237715031803152,
      "loss": 3.6958,
      "step": 269180
    },
    {
      "epoch": 0.5608125,
      "grad_norm": 0.8200759887695312,
      "learning_rate": 0.00012236746042714852,
      "loss": 3.7781,
      "step": 269190
    },
    {
      "epoch": 0.5608333333333333,
      "grad_norm": 0.8673420548439026,
      "learning_rate": 0.00012235777065562723,
      "loss": 3.8006,
      "step": 269200
    },
    {
      "epoch": 0.5608541666666667,
      "grad_norm": 0.8998146653175354,
      "learning_rate": 0.00012234808100350936,
      "loss": 3.607,
      "step": 269210
    },
    {
      "epoch": 0.560875,
      "grad_norm": 0.9032637476921082,
      "learning_rate": 0.0001223383914708368,
      "loss": 3.7219,
      "step": 269220
    },
    {
      "epoch": 0.5608958333333334,
      "grad_norm": 0.830829381942749,
      "learning_rate": 0.00012232870205765151,
      "loss": 3.8102,
      "step": 269230
    },
    {
      "epoch": 0.5609166666666666,
      "grad_norm": 0.8224707841873169,
      "learning_rate": 0.00012231901276399526,
      "loss": 3.805,
      "step": 269240
    },
    {
      "epoch": 0.5609375,
      "grad_norm": 0.8167487978935242,
      "learning_rate": 0.00012230932358990988,
      "loss": 3.7402,
      "step": 269250
    },
    {
      "epoch": 0.5609583333333333,
      "grad_norm": 0.7724545001983643,
      "learning_rate": 0.00012229963453543733,
      "loss": 3.6399,
      "step": 269260
    },
    {
      "epoch": 0.5609791666666667,
      "grad_norm": 0.9093890190124512,
      "learning_rate": 0.00012228994560061935,
      "loss": 3.6027,
      "step": 269270
    },
    {
      "epoch": 0.561,
      "grad_norm": 0.9375949501991272,
      "learning_rate": 0.00012228025678549781,
      "loss": 3.6652,
      "step": 269280
    },
    {
      "epoch": 0.5610208333333333,
      "grad_norm": 0.8785014748573303,
      "learning_rate": 0.00012227056809011464,
      "loss": 3.6943,
      "step": 269290
    },
    {
      "epoch": 0.5610416666666667,
      "grad_norm": 1.130456566810608,
      "learning_rate": 0.00012226087951451163,
      "loss": 3.6278,
      "step": 269300
    },
    {
      "epoch": 0.5610625,
      "grad_norm": 0.8572499752044678,
      "learning_rate": 0.00012225119105873058,
      "loss": 3.4325,
      "step": 269310
    },
    {
      "epoch": 0.5610833333333334,
      "grad_norm": 0.839724063873291,
      "learning_rate": 0.0001222415027228135,
      "loss": 3.6865,
      "step": 269320
    },
    {
      "epoch": 0.5611041666666666,
      "grad_norm": 0.768383264541626,
      "learning_rate": 0.00012223181450680214,
      "loss": 3.7116,
      "step": 269330
    },
    {
      "epoch": 0.561125,
      "grad_norm": 0.917651891708374,
      "learning_rate": 0.00012222212641073825,
      "loss": 3.8332,
      "step": 269340
    },
    {
      "epoch": 0.5611458333333333,
      "grad_norm": 0.7873486280441284,
      "learning_rate": 0.00012221243843466383,
      "loss": 3.6952,
      "step": 269350
    },
    {
      "epoch": 0.5611666666666667,
      "grad_norm": 1.100540041923523,
      "learning_rate": 0.0001222027505786207,
      "loss": 3.6702,
      "step": 269360
    },
    {
      "epoch": 0.5611875,
      "grad_norm": 0.7531726956367493,
      "learning_rate": 0.00012219306284265064,
      "loss": 3.5446,
      "step": 269370
    },
    {
      "epoch": 0.5612083333333333,
      "grad_norm": 0.8576309084892273,
      "learning_rate": 0.00012218337522679556,
      "loss": 3.8129,
      "step": 269380
    },
    {
      "epoch": 0.5612291666666667,
      "grad_norm": 0.7729985117912292,
      "learning_rate": 0.0001221736877310973,
      "loss": 3.8004,
      "step": 269390
    },
    {
      "epoch": 0.56125,
      "grad_norm": 0.9013829827308655,
      "learning_rate": 0.00012216400035559768,
      "loss": 3.7238,
      "step": 269400
    },
    {
      "epoch": 0.5612708333333334,
      "grad_norm": 0.7949873805046082,
      "learning_rate": 0.00012215431310033857,
      "loss": 3.6116,
      "step": 269410
    },
    {
      "epoch": 0.5612916666666666,
      "grad_norm": 0.8305110931396484,
      "learning_rate": 0.00012214462596536182,
      "loss": 3.6289,
      "step": 269420
    },
    {
      "epoch": 0.5613125,
      "grad_norm": 0.7588248252868652,
      "learning_rate": 0.0001221349389507093,
      "loss": 3.8662,
      "step": 269430
    },
    {
      "epoch": 0.5613333333333334,
      "grad_norm": 0.840429961681366,
      "learning_rate": 0.0001221252520564227,
      "loss": 3.7203,
      "step": 269440
    },
    {
      "epoch": 0.5613541666666667,
      "grad_norm": 0.8715752363204956,
      "learning_rate": 0.00012211556528254403,
      "loss": 3.7825,
      "step": 269450
    },
    {
      "epoch": 0.561375,
      "grad_norm": 0.7921578884124756,
      "learning_rate": 0.00012210587862911514,
      "loss": 3.7157,
      "step": 269460
    },
    {
      "epoch": 0.5613958333333333,
      "grad_norm": 1.0028843879699707,
      "learning_rate": 0.0001220961920961777,
      "loss": 3.7256,
      "step": 269470
    },
    {
      "epoch": 0.5614166666666667,
      "grad_norm": 0.7552143931388855,
      "learning_rate": 0.00012208650568377373,
      "loss": 3.7491,
      "step": 269480
    },
    {
      "epoch": 0.5614375,
      "grad_norm": 0.7647214531898499,
      "learning_rate": 0.00012207681939194504,
      "loss": 3.7345,
      "step": 269490
    },
    {
      "epoch": 0.5614583333333333,
      "grad_norm": 1.1327972412109375,
      "learning_rate": 0.00012206713322073336,
      "loss": 3.5927,
      "step": 269500
    },
    {
      "epoch": 0.5614791666666666,
      "grad_norm": 1.0883013010025024,
      "learning_rate": 0.00012205744717018063,
      "loss": 3.8388,
      "step": 269510
    },
    {
      "epoch": 0.5615,
      "grad_norm": 1.0476715564727783,
      "learning_rate": 0.00012204776124032873,
      "loss": 3.6873,
      "step": 269520
    },
    {
      "epoch": 0.5615208333333334,
      "grad_norm": 0.7927396297454834,
      "learning_rate": 0.00012203807543121935,
      "loss": 3.5573,
      "step": 269530
    },
    {
      "epoch": 0.5615416666666667,
      "grad_norm": 1.078218698501587,
      "learning_rate": 0.00012202838974289446,
      "loss": 3.8262,
      "step": 269540
    },
    {
      "epoch": 0.5615625,
      "grad_norm": 0.7913070917129517,
      "learning_rate": 0.00012201870417539587,
      "loss": 3.6282,
      "step": 269550
    },
    {
      "epoch": 0.5615833333333333,
      "grad_norm": 0.7766403555870056,
      "learning_rate": 0.00012200901872876534,
      "loss": 3.8048,
      "step": 269560
    },
    {
      "epoch": 0.5616041666666667,
      "grad_norm": 0.7847827076911926,
      "learning_rate": 0.00012199933340304486,
      "loss": 3.77,
      "step": 269570
    },
    {
      "epoch": 0.561625,
      "grad_norm": 0.9390394687652588,
      "learning_rate": 0.00012198964819827613,
      "loss": 3.7062,
      "step": 269580
    },
    {
      "epoch": 0.5616458333333333,
      "grad_norm": 0.7852857112884521,
      "learning_rate": 0.00012197996311450099,
      "loss": 3.6318,
      "step": 269590
    },
    {
      "epoch": 0.5616666666666666,
      "grad_norm": 0.8091506361961365,
      "learning_rate": 0.00012197027815176139,
      "loss": 3.6628,
      "step": 269600
    },
    {
      "epoch": 0.5616875,
      "grad_norm": 0.8208208680152893,
      "learning_rate": 0.00012196059331009907,
      "loss": 3.6828,
      "step": 269610
    },
    {
      "epoch": 0.5617083333333334,
      "grad_norm": 0.9536722302436829,
      "learning_rate": 0.00012195090858955584,
      "loss": 3.708,
      "step": 269620
    },
    {
      "epoch": 0.5617291666666666,
      "grad_norm": 0.6814181804656982,
      "learning_rate": 0.00012194122399017365,
      "loss": 3.7386,
      "step": 269630
    },
    {
      "epoch": 0.56175,
      "grad_norm": 0.8192569017410278,
      "learning_rate": 0.00012193153951199424,
      "loss": 3.6777,
      "step": 269640
    },
    {
      "epoch": 0.5617708333333333,
      "grad_norm": 0.7487788796424866,
      "learning_rate": 0.00012192185515505942,
      "loss": 3.7333,
      "step": 269650
    },
    {
      "epoch": 0.5617916666666667,
      "grad_norm": 0.8102704286575317,
      "learning_rate": 0.00012191217091941116,
      "loss": 3.5415,
      "step": 269660
    },
    {
      "epoch": 0.5618125,
      "grad_norm": 1.01076078414917,
      "learning_rate": 0.00012190248680509116,
      "loss": 3.8508,
      "step": 269670
    },
    {
      "epoch": 0.5618333333333333,
      "grad_norm": 1.2583131790161133,
      "learning_rate": 0.00012189280281214126,
      "loss": 3.8778,
      "step": 269680
    },
    {
      "epoch": 0.5618541666666667,
      "grad_norm": 0.7845838069915771,
      "learning_rate": 0.0001218831189406034,
      "loss": 3.683,
      "step": 269690
    },
    {
      "epoch": 0.561875,
      "grad_norm": 0.8853127956390381,
      "learning_rate": 0.00012187343519051933,
      "loss": 3.6701,
      "step": 269700
    },
    {
      "epoch": 0.5618958333333334,
      "grad_norm": 0.7864229679107666,
      "learning_rate": 0.00012186375156193086,
      "loss": 3.5706,
      "step": 269710
    },
    {
      "epoch": 0.5619166666666666,
      "grad_norm": 0.9144139289855957,
      "learning_rate": 0.00012185406805487982,
      "loss": 3.6128,
      "step": 269720
    },
    {
      "epoch": 0.5619375,
      "grad_norm": 0.7692493200302124,
      "learning_rate": 0.00012184438466940811,
      "loss": 3.6658,
      "step": 269730
    },
    {
      "epoch": 0.5619583333333333,
      "grad_norm": 0.8099265098571777,
      "learning_rate": 0.0001218347014055575,
      "loss": 3.573,
      "step": 269740
    },
    {
      "epoch": 0.5619791666666667,
      "grad_norm": 0.9717556834220886,
      "learning_rate": 0.00012182501826336977,
      "loss": 3.6955,
      "step": 269750
    },
    {
      "epoch": 0.562,
      "grad_norm": 0.8259544968605042,
      "learning_rate": 0.00012181533524288692,
      "loss": 3.5673,
      "step": 269760
    },
    {
      "epoch": 0.5620208333333333,
      "grad_norm": 0.8654434680938721,
      "learning_rate": 0.0001218056523441506,
      "loss": 3.7739,
      "step": 269770
    },
    {
      "epoch": 0.5620416666666667,
      "grad_norm": 0.8842744827270508,
      "learning_rate": 0.00012179596956720267,
      "loss": 3.5239,
      "step": 269780
    },
    {
      "epoch": 0.5620625,
      "grad_norm": 0.9390560388565063,
      "learning_rate": 0.00012178628691208506,
      "loss": 3.7818,
      "step": 269790
    },
    {
      "epoch": 0.5620833333333334,
      "grad_norm": 0.760443389415741,
      "learning_rate": 0.00012177660437883948,
      "loss": 3.5973,
      "step": 269800
    },
    {
      "epoch": 0.5621041666666666,
      "grad_norm": 0.8365654349327087,
      "learning_rate": 0.00012176692196750778,
      "loss": 3.5032,
      "step": 269810
    },
    {
      "epoch": 0.562125,
      "grad_norm": 0.7987657189369202,
      "learning_rate": 0.00012175723967813185,
      "loss": 3.7297,
      "step": 269820
    },
    {
      "epoch": 0.5621458333333333,
      "grad_norm": 0.7756355404853821,
      "learning_rate": 0.00012174755751075348,
      "loss": 3.6457,
      "step": 269830
    },
    {
      "epoch": 0.5621666666666667,
      "grad_norm": 0.8793922066688538,
      "learning_rate": 0.00012173787546541441,
      "loss": 3.6701,
      "step": 269840
    },
    {
      "epoch": 0.5621875,
      "grad_norm": 0.7400887608528137,
      "learning_rate": 0.00012172819354215656,
      "loss": 3.6183,
      "step": 269850
    },
    {
      "epoch": 0.5622083333333333,
      "grad_norm": 0.8170248866081238,
      "learning_rate": 0.00012171851174102177,
      "loss": 3.7626,
      "step": 269860
    },
    {
      "epoch": 0.5622291666666667,
      "grad_norm": 0.8807435631752014,
      "learning_rate": 0.00012170883006205173,
      "loss": 3.6322,
      "step": 269870
    },
    {
      "epoch": 0.56225,
      "grad_norm": 0.8733759522438049,
      "learning_rate": 0.0001216991485052884,
      "loss": 3.6773,
      "step": 269880
    },
    {
      "epoch": 0.5622708333333334,
      "grad_norm": 0.9255762100219727,
      "learning_rate": 0.00012168946707077356,
      "loss": 3.7472,
      "step": 269890
    },
    {
      "epoch": 0.5622916666666666,
      "grad_norm": 0.829740047454834,
      "learning_rate": 0.00012167978575854896,
      "loss": 3.6919,
      "step": 269900
    },
    {
      "epoch": 0.5623125,
      "grad_norm": 0.737497091293335,
      "learning_rate": 0.0001216701045686565,
      "loss": 3.7278,
      "step": 269910
    },
    {
      "epoch": 0.5623333333333334,
      "grad_norm": 0.7611473202705383,
      "learning_rate": 0.000121660423501138,
      "loss": 3.7192,
      "step": 269920
    },
    {
      "epoch": 0.5623541666666667,
      "grad_norm": 0.835710346698761,
      "learning_rate": 0.0001216507425560352,
      "loss": 3.6896,
      "step": 269930
    },
    {
      "epoch": 0.562375,
      "grad_norm": 0.8753761053085327,
      "learning_rate": 0.00012164106173339004,
      "loss": 3.6819,
      "step": 269940
    },
    {
      "epoch": 0.5623958333333333,
      "grad_norm": 1.0383715629577637,
      "learning_rate": 0.00012163138103324422,
      "loss": 3.8288,
      "step": 269950
    },
    {
      "epoch": 0.5624166666666667,
      "grad_norm": 0.9773342609405518,
      "learning_rate": 0.0001216217004556396,
      "loss": 3.9165,
      "step": 269960
    },
    {
      "epoch": 0.5624375,
      "grad_norm": 0.795240044593811,
      "learning_rate": 0.00012161202000061804,
      "loss": 3.8494,
      "step": 269970
    },
    {
      "epoch": 0.5624583333333333,
      "grad_norm": 0.843072772026062,
      "learning_rate": 0.0001216023396682213,
      "loss": 3.802,
      "step": 269980
    },
    {
      "epoch": 0.5624791666666666,
      "grad_norm": 0.7949231266975403,
      "learning_rate": 0.00012159265945849118,
      "loss": 3.7525,
      "step": 269990
    },
    {
      "epoch": 0.5625,
      "grad_norm": 1.000130534172058,
      "learning_rate": 0.00012158297937146957,
      "loss": 3.8575,
      "step": 270000
    },
    {
      "epoch": 0.5625,
      "eval_loss": 4.107609748840332,
      "eval_runtime": 8.8598,
      "eval_samples_per_second": 1.129,
      "eval_steps_per_second": 0.339,
      "step": 270000
    },
    {
      "epoch": 0.5625208333333334,
      "grad_norm": 0.9556190967559814,
      "learning_rate": 0.00012157329940719822,
      "loss": 3.7049,
      "step": 270010
    },
    {
      "epoch": 0.5625416666666667,
      "grad_norm": 0.7719366550445557,
      "learning_rate": 0.000121563619565719,
      "loss": 3.7596,
      "step": 270020
    },
    {
      "epoch": 0.5625625,
      "grad_norm": 0.9115167856216431,
      "learning_rate": 0.00012155393984707364,
      "loss": 3.6539,
      "step": 270030
    },
    {
      "epoch": 0.5625833333333333,
      "grad_norm": 1.0300061702728271,
      "learning_rate": 0.00012154426025130401,
      "loss": 3.7139,
      "step": 270040
    },
    {
      "epoch": 0.5626041666666667,
      "grad_norm": 1.0538121461868286,
      "learning_rate": 0.00012153458077845195,
      "loss": 3.7659,
      "step": 270050
    },
    {
      "epoch": 0.562625,
      "grad_norm": 0.9964540600776672,
      "learning_rate": 0.00012152490142855917,
      "loss": 3.8349,
      "step": 270060
    },
    {
      "epoch": 0.5626458333333333,
      "grad_norm": 0.7797526121139526,
      "learning_rate": 0.0001215152222016676,
      "loss": 3.644,
      "step": 270070
    },
    {
      "epoch": 0.5626666666666666,
      "grad_norm": 0.8509323000907898,
      "learning_rate": 0.00012150554309781898,
      "loss": 3.7898,
      "step": 270080
    },
    {
      "epoch": 0.5626875,
      "grad_norm": 0.8681547045707703,
      "learning_rate": 0.00012149586411705509,
      "loss": 3.6374,
      "step": 270090
    },
    {
      "epoch": 0.5627083333333334,
      "grad_norm": 0.8085137605667114,
      "learning_rate": 0.00012148618525941784,
      "loss": 3.685,
      "step": 270100
    },
    {
      "epoch": 0.5627291666666666,
      "grad_norm": 0.8678062558174133,
      "learning_rate": 0.00012147650652494898,
      "loss": 3.7313,
      "step": 270110
    },
    {
      "epoch": 0.56275,
      "grad_norm": 0.809185266494751,
      "learning_rate": 0.00012146682791369026,
      "loss": 3.5287,
      "step": 270120
    },
    {
      "epoch": 0.5627708333333333,
      "grad_norm": 0.7980042695999146,
      "learning_rate": 0.00012145714942568365,
      "loss": 3.5408,
      "step": 270130
    },
    {
      "epoch": 0.5627916666666667,
      "grad_norm": 0.7773948311805725,
      "learning_rate": 0.00012144747106097078,
      "loss": 3.716,
      "step": 270140
    },
    {
      "epoch": 0.5628125,
      "grad_norm": 0.9303968548774719,
      "learning_rate": 0.00012143779281959353,
      "loss": 3.6621,
      "step": 270150
    },
    {
      "epoch": 0.5628333333333333,
      "grad_norm": 0.7733155488967896,
      "learning_rate": 0.00012142811470159377,
      "loss": 3.742,
      "step": 270160
    },
    {
      "epoch": 0.5628541666666667,
      "grad_norm": 0.757813572883606,
      "learning_rate": 0.0001214184367070132,
      "loss": 3.6882,
      "step": 270170
    },
    {
      "epoch": 0.562875,
      "grad_norm": 0.8164819478988647,
      "learning_rate": 0.00012140875883589364,
      "loss": 3.7714,
      "step": 270180
    },
    {
      "epoch": 0.5628958333333334,
      "grad_norm": 0.7775335907936096,
      "learning_rate": 0.000121399081088277,
      "loss": 3.6204,
      "step": 270190
    },
    {
      "epoch": 0.5629166666666666,
      "grad_norm": 0.760979175567627,
      "learning_rate": 0.000121389403464205,
      "loss": 3.7247,
      "step": 270200
    },
    {
      "epoch": 0.5629375,
      "grad_norm": 0.921874463558197,
      "learning_rate": 0.00012137972596371939,
      "loss": 3.6361,
      "step": 270210
    },
    {
      "epoch": 0.5629583333333333,
      "grad_norm": 0.8052587509155273,
      "learning_rate": 0.00012137004858686208,
      "loss": 3.7169,
      "step": 270220
    },
    {
      "epoch": 0.5629791666666667,
      "grad_norm": 0.8233321309089661,
      "learning_rate": 0.00012136037133367485,
      "loss": 3.8454,
      "step": 270230
    },
    {
      "epoch": 0.563,
      "grad_norm": 0.8265641927719116,
      "learning_rate": 0.00012135069420419941,
      "loss": 3.7287,
      "step": 270240
    },
    {
      "epoch": 0.5630208333333333,
      "grad_norm": 0.7655878663063049,
      "learning_rate": 0.00012134101719847766,
      "loss": 3.8767,
      "step": 270250
    },
    {
      "epoch": 0.5630416666666667,
      "grad_norm": 0.7821863889694214,
      "learning_rate": 0.00012133134031655141,
      "loss": 3.7558,
      "step": 270260
    },
    {
      "epoch": 0.5630625,
      "grad_norm": 0.9743439555168152,
      "learning_rate": 0.00012132166355846235,
      "loss": 3.5621,
      "step": 270270
    },
    {
      "epoch": 0.5630833333333334,
      "grad_norm": 1.0273019075393677,
      "learning_rate": 0.0001213119869242524,
      "loss": 3.738,
      "step": 270280
    },
    {
      "epoch": 0.5631041666666666,
      "grad_norm": 0.830919623374939,
      "learning_rate": 0.00012130231041396333,
      "loss": 3.9036,
      "step": 270290
    },
    {
      "epoch": 0.563125,
      "grad_norm": 0.7102808356285095,
      "learning_rate": 0.00012129263402763689,
      "loss": 3.7987,
      "step": 270300
    },
    {
      "epoch": 0.5631458333333333,
      "grad_norm": 1.2645982503890991,
      "learning_rate": 0.00012128295776531489,
      "loss": 3.6287,
      "step": 270310
    },
    {
      "epoch": 0.5631666666666667,
      "grad_norm": 0.7847696542739868,
      "learning_rate": 0.0001212732816270392,
      "loss": 3.7004,
      "step": 270320
    },
    {
      "epoch": 0.5631875,
      "grad_norm": 0.867733895778656,
      "learning_rate": 0.00012126360561285154,
      "loss": 3.5707,
      "step": 270330
    },
    {
      "epoch": 0.5632083333333333,
      "grad_norm": 0.8619012236595154,
      "learning_rate": 0.00012125392972279369,
      "loss": 3.7235,
      "step": 270340
    },
    {
      "epoch": 0.5632291666666667,
      "grad_norm": 0.8975765705108643,
      "learning_rate": 0.00012124425395690753,
      "loss": 3.7394,
      "step": 270350
    },
    {
      "epoch": 0.56325,
      "grad_norm": 0.9379410147666931,
      "learning_rate": 0.00012123457831523482,
      "loss": 3.6296,
      "step": 270360
    },
    {
      "epoch": 0.5632708333333334,
      "grad_norm": 0.7812474966049194,
      "learning_rate": 0.00012122490279781727,
      "loss": 3.7034,
      "step": 270370
    },
    {
      "epoch": 0.5632916666666666,
      "grad_norm": 0.9010784029960632,
      "learning_rate": 0.0001212152274046968,
      "loss": 3.72,
      "step": 270380
    },
    {
      "epoch": 0.5633125,
      "grad_norm": 0.9545277953147888,
      "learning_rate": 0.00012120555213591518,
      "loss": 3.7749,
      "step": 270390
    },
    {
      "epoch": 0.5633333333333334,
      "grad_norm": 0.7574655413627625,
      "learning_rate": 0.00012119587699151413,
      "loss": 3.6499,
      "step": 270400
    },
    {
      "epoch": 0.5633541666666667,
      "grad_norm": 0.8088136911392212,
      "learning_rate": 0.0001211862019715355,
      "loss": 3.7851,
      "step": 270410
    },
    {
      "epoch": 0.563375,
      "grad_norm": 0.7627187371253967,
      "learning_rate": 0.00012117652707602111,
      "loss": 3.8256,
      "step": 270420
    },
    {
      "epoch": 0.5633958333333333,
      "grad_norm": 0.9445321559906006,
      "learning_rate": 0.00012116685230501267,
      "loss": 3.7207,
      "step": 270430
    },
    {
      "epoch": 0.5634166666666667,
      "grad_norm": 0.7931184768676758,
      "learning_rate": 0.00012115717765855205,
      "loss": 3.7029,
      "step": 270440
    },
    {
      "epoch": 0.5634375,
      "grad_norm": 0.8228248357772827,
      "learning_rate": 0.000121147503136681,
      "loss": 3.8457,
      "step": 270450
    },
    {
      "epoch": 0.5634583333333333,
      "grad_norm": 0.7873026132583618,
      "learning_rate": 0.00012113782873944125,
      "loss": 3.6787,
      "step": 270460
    },
    {
      "epoch": 0.5634791666666666,
      "grad_norm": 0.8024308681488037,
      "learning_rate": 0.00012112815446687475,
      "loss": 3.5447,
      "step": 270470
    },
    {
      "epoch": 0.5635,
      "grad_norm": 0.9417022466659546,
      "learning_rate": 0.00012111848031902315,
      "loss": 3.6675,
      "step": 270480
    },
    {
      "epoch": 0.5635208333333334,
      "grad_norm": 0.8518789410591125,
      "learning_rate": 0.00012110880629592825,
      "loss": 3.5516,
      "step": 270490
    },
    {
      "epoch": 0.5635416666666667,
      "grad_norm": 0.7821390628814697,
      "learning_rate": 0.00012109913239763195,
      "loss": 3.6274,
      "step": 270500
    },
    {
      "epoch": 0.5635625,
      "grad_norm": 0.785926878452301,
      "learning_rate": 0.0001210894586241759,
      "loss": 3.6541,
      "step": 270510
    },
    {
      "epoch": 0.5635833333333333,
      "grad_norm": 0.9618553519248962,
      "learning_rate": 0.00012107978497560195,
      "loss": 3.6024,
      "step": 270520
    },
    {
      "epoch": 0.5636041666666667,
      "grad_norm": 0.7698237299919128,
      "learning_rate": 0.0001210701114519519,
      "loss": 3.6845,
      "step": 270530
    },
    {
      "epoch": 0.563625,
      "grad_norm": 0.7325559854507446,
      "learning_rate": 0.00012106043805326752,
      "loss": 3.6669,
      "step": 270540
    },
    {
      "epoch": 0.5636458333333333,
      "grad_norm": 0.7212230563163757,
      "learning_rate": 0.00012105076477959054,
      "loss": 3.7698,
      "step": 270550
    },
    {
      "epoch": 0.5636666666666666,
      "grad_norm": 0.8168168663978577,
      "learning_rate": 0.00012104109163096288,
      "loss": 3.6914,
      "step": 270560
    },
    {
      "epoch": 0.5636875,
      "grad_norm": 0.8093348741531372,
      "learning_rate": 0.00012103141860742623,
      "loss": 3.7409,
      "step": 270570
    },
    {
      "epoch": 0.5637083333333334,
      "grad_norm": 0.8530805110931396,
      "learning_rate": 0.00012102174570902232,
      "loss": 3.6845,
      "step": 270580
    },
    {
      "epoch": 0.5637291666666666,
      "grad_norm": 0.7934367656707764,
      "learning_rate": 0.00012101207293579304,
      "loss": 3.6727,
      "step": 270590
    },
    {
      "epoch": 0.56375,
      "grad_norm": 0.8258037567138672,
      "learning_rate": 0.00012100240028778015,
      "loss": 3.456,
      "step": 270600
    },
    {
      "epoch": 0.5637708333333333,
      "grad_norm": 1.1938092708587646,
      "learning_rate": 0.00012099272776502538,
      "loss": 3.6692,
      "step": 270610
    },
    {
      "epoch": 0.5637916666666667,
      "grad_norm": 1.1550732851028442,
      "learning_rate": 0.00012098305536757052,
      "loss": 3.7375,
      "step": 270620
    },
    {
      "epoch": 0.5638125,
      "grad_norm": 0.7555972337722778,
      "learning_rate": 0.00012097338309545744,
      "loss": 3.745,
      "step": 270630
    },
    {
      "epoch": 0.5638333333333333,
      "grad_norm": 0.7408590316772461,
      "learning_rate": 0.00012096371094872781,
      "loss": 3.7553,
      "step": 270640
    },
    {
      "epoch": 0.5638541666666667,
      "grad_norm": 0.8592953681945801,
      "learning_rate": 0.00012095403892742344,
      "loss": 3.7629,
      "step": 270650
    },
    {
      "epoch": 0.563875,
      "grad_norm": 0.9519484639167786,
      "learning_rate": 0.00012094436703158618,
      "loss": 3.6152,
      "step": 270660
    },
    {
      "epoch": 0.5638958333333334,
      "grad_norm": 1.0207489728927612,
      "learning_rate": 0.00012093469526125772,
      "loss": 3.7006,
      "step": 270670
    },
    {
      "epoch": 0.5639166666666666,
      "grad_norm": 0.7514022588729858,
      "learning_rate": 0.00012092502361647985,
      "loss": 3.6577,
      "step": 270680
    },
    {
      "epoch": 0.5639375,
      "grad_norm": 0.8545143604278564,
      "learning_rate": 0.00012091535209729443,
      "loss": 3.5921,
      "step": 270690
    },
    {
      "epoch": 0.5639583333333333,
      "grad_norm": 0.9496432542800903,
      "learning_rate": 0.00012090568070374316,
      "loss": 3.5957,
      "step": 270700
    },
    {
      "epoch": 0.5639791666666667,
      "grad_norm": 0.7798851728439331,
      "learning_rate": 0.0001208960094358678,
      "loss": 3.749,
      "step": 270710
    },
    {
      "epoch": 0.564,
      "grad_norm": 0.798973023891449,
      "learning_rate": 0.00012088633829371016,
      "loss": 3.7432,
      "step": 270720
    },
    {
      "epoch": 0.5640208333333333,
      "grad_norm": 0.692278265953064,
      "learning_rate": 0.00012087666727731206,
      "loss": 3.5099,
      "step": 270730
    },
    {
      "epoch": 0.5640416666666667,
      "grad_norm": 0.8325694799423218,
      "learning_rate": 0.00012086699638671518,
      "loss": 3.7802,
      "step": 270740
    },
    {
      "epoch": 0.5640625,
      "grad_norm": 0.8157395124435425,
      "learning_rate": 0.00012085732562196136,
      "loss": 3.7221,
      "step": 270750
    },
    {
      "epoch": 0.5640833333333334,
      "grad_norm": 1.0475437641143799,
      "learning_rate": 0.00012084765498309238,
      "loss": 3.7651,
      "step": 270760
    },
    {
      "epoch": 0.5641041666666666,
      "grad_norm": 0.8795264363288879,
      "learning_rate": 0.00012083798447014995,
      "loss": 3.7174,
      "step": 270770
    },
    {
      "epoch": 0.564125,
      "grad_norm": 1.7363646030426025,
      "learning_rate": 0.00012082831408317589,
      "loss": 3.7513,
      "step": 270780
    },
    {
      "epoch": 0.5641458333333333,
      "grad_norm": 0.7600764632225037,
      "learning_rate": 0.00012081864382221202,
      "loss": 3.7869,
      "step": 270790
    },
    {
      "epoch": 0.5641666666666667,
      "grad_norm": 0.7383098602294922,
      "learning_rate": 0.00012080897368729998,
      "loss": 3.6983,
      "step": 270800
    },
    {
      "epoch": 0.5641875,
      "grad_norm": 0.7381071448326111,
      "learning_rate": 0.00012079930367848166,
      "loss": 3.7525,
      "step": 270810
    },
    {
      "epoch": 0.5642083333333333,
      "grad_norm": 0.8507465720176697,
      "learning_rate": 0.00012078963379579883,
      "loss": 3.7087,
      "step": 270820
    },
    {
      "epoch": 0.5642291666666667,
      "grad_norm": 0.8391758799552917,
      "learning_rate": 0.00012077996403929313,
      "loss": 3.7722,
      "step": 270830
    },
    {
      "epoch": 0.56425,
      "grad_norm": 0.8511626124382019,
      "learning_rate": 0.0001207702944090065,
      "loss": 3.7635,
      "step": 270840
    },
    {
      "epoch": 0.5642708333333334,
      "grad_norm": 0.8513539433479309,
      "learning_rate": 0.0001207606249049806,
      "loss": 3.7579,
      "step": 270850
    },
    {
      "epoch": 0.5642916666666666,
      "grad_norm": 0.974236786365509,
      "learning_rate": 0.00012075095552725719,
      "loss": 3.5491,
      "step": 270860
    },
    {
      "epoch": 0.5643125,
      "grad_norm": 0.9876874685287476,
      "learning_rate": 0.00012074128627587814,
      "loss": 3.9295,
      "step": 270870
    },
    {
      "epoch": 0.5643333333333334,
      "grad_norm": 0.8908426761627197,
      "learning_rate": 0.00012073161715088512,
      "loss": 3.774,
      "step": 270880
    },
    {
      "epoch": 0.5643541666666667,
      "grad_norm": 0.7771170139312744,
      "learning_rate": 0.00012072194815231995,
      "loss": 3.87,
      "step": 270890
    },
    {
      "epoch": 0.564375,
      "grad_norm": 0.8796983957290649,
      "learning_rate": 0.00012071227928022433,
      "loss": 3.6594,
      "step": 270900
    },
    {
      "epoch": 0.5643958333333333,
      "grad_norm": 0.8121069669723511,
      "learning_rate": 0.00012070261053464008,
      "loss": 3.8306,
      "step": 270910
    },
    {
      "epoch": 0.5644166666666667,
      "grad_norm": 0.7765722274780273,
      "learning_rate": 0.00012069294191560902,
      "loss": 3.8333,
      "step": 270920
    },
    {
      "epoch": 0.5644375,
      "grad_norm": 0.8021097183227539,
      "learning_rate": 0.00012068327342317274,
      "loss": 3.6876,
      "step": 270930
    },
    {
      "epoch": 0.5644583333333333,
      "grad_norm": 0.9292174577713013,
      "learning_rate": 0.00012067360505737321,
      "loss": 3.7252,
      "step": 270940
    },
    {
      "epoch": 0.5644791666666666,
      "grad_norm": 0.7543078064918518,
      "learning_rate": 0.00012066393681825206,
      "loss": 3.6284,
      "step": 270950
    },
    {
      "epoch": 0.5645,
      "grad_norm": 0.8067342638969421,
      "learning_rate": 0.00012065426870585107,
      "loss": 3.8508,
      "step": 270960
    },
    {
      "epoch": 0.5645208333333334,
      "grad_norm": 0.8177176713943481,
      "learning_rate": 0.00012064460072021208,
      "loss": 3.8428,
      "step": 270970
    },
    {
      "epoch": 0.5645416666666667,
      "grad_norm": 0.8758513927459717,
      "learning_rate": 0.00012063493286137675,
      "loss": 3.8242,
      "step": 270980
    },
    {
      "epoch": 0.5645625,
      "grad_norm": 0.7368637919425964,
      "learning_rate": 0.00012062526512938687,
      "loss": 3.7087,
      "step": 270990
    },
    {
      "epoch": 0.5645833333333333,
      "grad_norm": 0.7684316635131836,
      "learning_rate": 0.00012061559752428428,
      "loss": 3.8409,
      "step": 271000
    },
    {
      "epoch": 0.5645833333333333,
      "eval_loss": 4.1045379638671875,
      "eval_runtime": 9.4919,
      "eval_samples_per_second": 1.054,
      "eval_steps_per_second": 0.316,
      "step": 271000
    },
    {
      "epoch": 0.5646041666666667,
      "grad_norm": 0.8841137290000916,
      "learning_rate": 0.00012060593004611064,
      "loss": 3.7699,
      "step": 271010
    },
    {
      "epoch": 0.564625,
      "grad_norm": 0.8646496534347534,
      "learning_rate": 0.00012059626269490772,
      "loss": 3.8485,
      "step": 271020
    },
    {
      "epoch": 0.5646458333333333,
      "grad_norm": 0.8178209066390991,
      "learning_rate": 0.00012058659547071736,
      "loss": 3.7361,
      "step": 271030
    },
    {
      "epoch": 0.5646666666666667,
      "grad_norm": 0.8264450430870056,
      "learning_rate": 0.00012057692837358124,
      "loss": 3.9829,
      "step": 271040
    },
    {
      "epoch": 0.5646875,
      "grad_norm": 0.846293032169342,
      "learning_rate": 0.0001205672614035411,
      "loss": 3.6014,
      "step": 271050
    },
    {
      "epoch": 0.5647083333333334,
      "grad_norm": 0.8195634484291077,
      "learning_rate": 0.00012055759456063882,
      "loss": 3.583,
      "step": 271060
    },
    {
      "epoch": 0.5647291666666666,
      "grad_norm": 0.8889544010162354,
      "learning_rate": 0.00012054792784491608,
      "loss": 3.6563,
      "step": 271070
    },
    {
      "epoch": 0.56475,
      "grad_norm": 0.9187697172164917,
      "learning_rate": 0.00012053826125641456,
      "loss": 3.641,
      "step": 271080
    },
    {
      "epoch": 0.5647708333333333,
      "grad_norm": 1.2116508483886719,
      "learning_rate": 0.00012052859479517612,
      "loss": 3.6767,
      "step": 271090
    },
    {
      "epoch": 0.5647916666666667,
      "grad_norm": 0.8060991168022156,
      "learning_rate": 0.00012051892846124251,
      "loss": 3.7567,
      "step": 271100
    },
    {
      "epoch": 0.5648125,
      "grad_norm": 0.8719569444656372,
      "learning_rate": 0.00012050926225465543,
      "loss": 3.732,
      "step": 271110
    },
    {
      "epoch": 0.5648333333333333,
      "grad_norm": 0.7476807236671448,
      "learning_rate": 0.00012049959617545667,
      "loss": 3.753,
      "step": 271120
    },
    {
      "epoch": 0.5648541666666667,
      "grad_norm": 0.7930806875228882,
      "learning_rate": 0.000120489930223688,
      "loss": 3.6115,
      "step": 271130
    },
    {
      "epoch": 0.564875,
      "grad_norm": 1.1732139587402344,
      "learning_rate": 0.00012048026439939109,
      "loss": 3.6916,
      "step": 271140
    },
    {
      "epoch": 0.5648958333333334,
      "grad_norm": 0.7682785987854004,
      "learning_rate": 0.0001204705987026078,
      "loss": 3.7447,
      "step": 271150
    },
    {
      "epoch": 0.5649166666666666,
      "grad_norm": 0.8971523642539978,
      "learning_rate": 0.00012046093313337986,
      "loss": 3.9026,
      "step": 271160
    },
    {
      "epoch": 0.5649375,
      "grad_norm": 0.7564106583595276,
      "learning_rate": 0.00012045126769174896,
      "loss": 3.6671,
      "step": 271170
    },
    {
      "epoch": 0.5649583333333333,
      "grad_norm": 0.8772364258766174,
      "learning_rate": 0.00012044160237775687,
      "loss": 3.7872,
      "step": 271180
    },
    {
      "epoch": 0.5649791666666667,
      "grad_norm": 0.8172231316566467,
      "learning_rate": 0.00012043193719144541,
      "loss": 3.6933,
      "step": 271190
    },
    {
      "epoch": 0.565,
      "grad_norm": 0.6890614628791809,
      "learning_rate": 0.00012042227213285628,
      "loss": 3.8565,
      "step": 271200
    },
    {
      "epoch": 0.5650208333333333,
      "grad_norm": 1.0171988010406494,
      "learning_rate": 0.00012041260720203117,
      "loss": 3.7546,
      "step": 271210
    },
    {
      "epoch": 0.5650416666666667,
      "grad_norm": 0.8069597482681274,
      "learning_rate": 0.00012040294239901191,
      "loss": 3.7124,
      "step": 271220
    },
    {
      "epoch": 0.5650625,
      "grad_norm": 0.9258040189743042,
      "learning_rate": 0.00012039327772384025,
      "loss": 3.6002,
      "step": 271230
    },
    {
      "epoch": 0.5650833333333334,
      "grad_norm": 0.8537765741348267,
      "learning_rate": 0.00012038361317655786,
      "loss": 3.7275,
      "step": 271240
    },
    {
      "epoch": 0.5651041666666666,
      "grad_norm": 0.8402623534202576,
      "learning_rate": 0.00012037394875720655,
      "loss": 3.7708,
      "step": 271250
    },
    {
      "epoch": 0.565125,
      "grad_norm": 0.780084490776062,
      "learning_rate": 0.0001203642844658281,
      "loss": 3.7876,
      "step": 271260
    },
    {
      "epoch": 0.5651458333333333,
      "grad_norm": 0.7714022397994995,
      "learning_rate": 0.00012035462030246415,
      "loss": 3.6452,
      "step": 271270
    },
    {
      "epoch": 0.5651666666666667,
      "grad_norm": 0.9454606175422668,
      "learning_rate": 0.00012034495626715652,
      "loss": 3.7719,
      "step": 271280
    },
    {
      "epoch": 0.5651875,
      "grad_norm": 0.9551591277122498,
      "learning_rate": 0.000120335292359947,
      "loss": 3.7308,
      "step": 271290
    },
    {
      "epoch": 0.5652083333333333,
      "grad_norm": 0.9437077641487122,
      "learning_rate": 0.00012032562858087719,
      "loss": 3.7993,
      "step": 271300
    },
    {
      "epoch": 0.5652291666666667,
      "grad_norm": 0.8928209543228149,
      "learning_rate": 0.00012031596492998895,
      "loss": 3.766,
      "step": 271310
    },
    {
      "epoch": 0.56525,
      "grad_norm": 0.7840380072593689,
      "learning_rate": 0.00012030630140732404,
      "loss": 3.688,
      "step": 271320
    },
    {
      "epoch": 0.5652708333333333,
      "grad_norm": 0.9759939312934875,
      "learning_rate": 0.00012029663801292408,
      "loss": 3.6656,
      "step": 271330
    },
    {
      "epoch": 0.5652916666666666,
      "grad_norm": 0.8516845703125,
      "learning_rate": 0.00012028697474683096,
      "loss": 3.6891,
      "step": 271340
    },
    {
      "epoch": 0.5653125,
      "grad_norm": 0.8237709403038025,
      "learning_rate": 0.0001202773116090863,
      "loss": 3.7368,
      "step": 271350
    },
    {
      "epoch": 0.5653333333333334,
      "grad_norm": 0.7664289474487305,
      "learning_rate": 0.00012026764859973187,
      "loss": 3.7652,
      "step": 271360
    },
    {
      "epoch": 0.5653541666666667,
      "grad_norm": 0.9405105113983154,
      "learning_rate": 0.00012025798571880948,
      "loss": 3.9684,
      "step": 271370
    },
    {
      "epoch": 0.565375,
      "grad_norm": 0.9945266246795654,
      "learning_rate": 0.0001202483229663608,
      "loss": 3.8169,
      "step": 271380
    },
    {
      "epoch": 0.5653958333333333,
      "grad_norm": 0.7584428191184998,
      "learning_rate": 0.00012023866034242754,
      "loss": 3.728,
      "step": 271390
    },
    {
      "epoch": 0.5654166666666667,
      "grad_norm": 0.9426422715187073,
      "learning_rate": 0.00012022899784705158,
      "loss": 3.7534,
      "step": 271400
    },
    {
      "epoch": 0.5654375,
      "grad_norm": 0.8456786870956421,
      "learning_rate": 0.00012021933548027451,
      "loss": 3.811,
      "step": 271410
    },
    {
      "epoch": 0.5654583333333333,
      "grad_norm": 0.8136687278747559,
      "learning_rate": 0.00012020967324213809,
      "loss": 3.825,
      "step": 271420
    },
    {
      "epoch": 0.5654791666666666,
      "grad_norm": 0.7635766267776489,
      "learning_rate": 0.00012020001113268417,
      "loss": 3.7028,
      "step": 271430
    },
    {
      "epoch": 0.5655,
      "grad_norm": 1.173811912536621,
      "learning_rate": 0.00012019034915195439,
      "loss": 3.7065,
      "step": 271440
    },
    {
      "epoch": 0.5655208333333334,
      "grad_norm": 0.8107163310050964,
      "learning_rate": 0.00012018068729999043,
      "loss": 3.7599,
      "step": 271450
    },
    {
      "epoch": 0.5655416666666667,
      "grad_norm": 0.9484797120094299,
      "learning_rate": 0.00012017102557683415,
      "loss": 3.8638,
      "step": 271460
    },
    {
      "epoch": 0.5655625,
      "grad_norm": 0.8041369915008545,
      "learning_rate": 0.00012016136398252727,
      "loss": 3.7521,
      "step": 271470
    },
    {
      "epoch": 0.5655833333333333,
      "grad_norm": 0.7340433597564697,
      "learning_rate": 0.00012015170251711144,
      "loss": 3.6565,
      "step": 271480
    },
    {
      "epoch": 0.5656041666666667,
      "grad_norm": 0.8237236738204956,
      "learning_rate": 0.0001201420411806284,
      "loss": 3.818,
      "step": 271490
    },
    {
      "epoch": 0.565625,
      "grad_norm": 0.7507640719413757,
      "learning_rate": 0.00012013237997311999,
      "loss": 3.682,
      "step": 271500
    },
    {
      "epoch": 0.5656458333333333,
      "grad_norm": 0.8401318192481995,
      "learning_rate": 0.00012012271889462785,
      "loss": 3.6356,
      "step": 271510
    },
    {
      "epoch": 0.5656666666666667,
      "grad_norm": 0.7575390338897705,
      "learning_rate": 0.00012011305794519371,
      "loss": 3.9137,
      "step": 271520
    },
    {
      "epoch": 0.5656875,
      "grad_norm": 0.9497970342636108,
      "learning_rate": 0.0001201033971248594,
      "loss": 3.8282,
      "step": 271530
    },
    {
      "epoch": 0.5657083333333334,
      "grad_norm": 0.9512266516685486,
      "learning_rate": 0.00012009373643366655,
      "loss": 3.8129,
      "step": 271540
    },
    {
      "epoch": 0.5657291666666666,
      "grad_norm": 0.7907789945602417,
      "learning_rate": 0.00012008407587165687,
      "loss": 3.614,
      "step": 271550
    },
    {
      "epoch": 0.56575,
      "grad_norm": 0.7925312519073486,
      "learning_rate": 0.00012007441543887222,
      "loss": 3.7186,
      "step": 271560
    },
    {
      "epoch": 0.5657708333333333,
      "grad_norm": 0.8422486782073975,
      "learning_rate": 0.00012006475513535425,
      "loss": 3.7189,
      "step": 271570
    },
    {
      "epoch": 0.5657916666666667,
      "grad_norm": 0.7938216328620911,
      "learning_rate": 0.00012005509496114461,
      "loss": 3.7808,
      "step": 271580
    },
    {
      "epoch": 0.5658125,
      "grad_norm": 0.8109927773475647,
      "learning_rate": 0.00012004543491628515,
      "loss": 3.6973,
      "step": 271590
    },
    {
      "epoch": 0.5658333333333333,
      "grad_norm": 0.748157799243927,
      "learning_rate": 0.00012003577500081758,
      "loss": 3.6258,
      "step": 271600
    },
    {
      "epoch": 0.5658541666666667,
      "grad_norm": 0.8271568417549133,
      "learning_rate": 0.00012002611521478355,
      "loss": 3.8475,
      "step": 271610
    },
    {
      "epoch": 0.565875,
      "grad_norm": 0.83502197265625,
      "learning_rate": 0.00012001645555822485,
      "loss": 3.6322,
      "step": 271620
    },
    {
      "epoch": 0.5658958333333334,
      "grad_norm": 0.8184958696365356,
      "learning_rate": 0.00012000679603118323,
      "loss": 3.7673,
      "step": 271630
    },
    {
      "epoch": 0.5659166666666666,
      "grad_norm": 0.7208521962165833,
      "learning_rate": 0.00011999713663370034,
      "loss": 3.7539,
      "step": 271640
    },
    {
      "epoch": 0.5659375,
      "grad_norm": 0.7371354699134827,
      "learning_rate": 0.00011998747736581795,
      "loss": 3.8285,
      "step": 271650
    },
    {
      "epoch": 0.5659583333333333,
      "grad_norm": 0.8738293647766113,
      "learning_rate": 0.00011997781822757782,
      "loss": 3.7589,
      "step": 271660
    },
    {
      "epoch": 0.5659791666666667,
      "grad_norm": 1.031087875366211,
      "learning_rate": 0.00011996815921902155,
      "loss": 3.7087,
      "step": 271670
    },
    {
      "epoch": 0.566,
      "grad_norm": 0.8526157736778259,
      "learning_rate": 0.000119958500340191,
      "loss": 3.7869,
      "step": 271680
    },
    {
      "epoch": 0.5660208333333333,
      "grad_norm": 0.8660497069358826,
      "learning_rate": 0.00011994884159112785,
      "loss": 3.7267,
      "step": 271690
    },
    {
      "epoch": 0.5660416666666667,
      "grad_norm": 0.8780123591423035,
      "learning_rate": 0.00011993918297187377,
      "loss": 3.8035,
      "step": 271700
    },
    {
      "epoch": 0.5660625,
      "grad_norm": 0.9488486051559448,
      "learning_rate": 0.00011992952448247057,
      "loss": 3.7493,
      "step": 271710
    },
    {
      "epoch": 0.5660833333333334,
      "grad_norm": 0.9360582232475281,
      "learning_rate": 0.00011991986612295988,
      "loss": 3.5942,
      "step": 271720
    },
    {
      "epoch": 0.5661041666666666,
      "grad_norm": 0.7984170913696289,
      "learning_rate": 0.00011991020789338345,
      "loss": 3.7617,
      "step": 271730
    },
    {
      "epoch": 0.566125,
      "grad_norm": 0.8770197629928589,
      "learning_rate": 0.00011990054979378308,
      "loss": 3.688,
      "step": 271740
    },
    {
      "epoch": 0.5661458333333333,
      "grad_norm": 0.8453946113586426,
      "learning_rate": 0.00011989089182420036,
      "loss": 3.7993,
      "step": 271750
    },
    {
      "epoch": 0.5661666666666667,
      "grad_norm": 0.8460592031478882,
      "learning_rate": 0.00011988123398467712,
      "loss": 3.7153,
      "step": 271760
    },
    {
      "epoch": 0.5661875,
      "grad_norm": 0.8770594000816345,
      "learning_rate": 0.00011987157627525496,
      "loss": 3.7446,
      "step": 271770
    },
    {
      "epoch": 0.5662083333333333,
      "grad_norm": 0.6920103430747986,
      "learning_rate": 0.0001198619186959757,
      "loss": 3.7335,
      "step": 271780
    },
    {
      "epoch": 0.5662291666666667,
      "grad_norm": 0.7760913968086243,
      "learning_rate": 0.00011985226124688105,
      "loss": 3.7135,
      "step": 271790
    },
    {
      "epoch": 0.56625,
      "grad_norm": 0.9134199619293213,
      "learning_rate": 0.00011984260392801263,
      "loss": 3.7817,
      "step": 271800
    },
    {
      "epoch": 0.5662708333333333,
      "grad_norm": 0.857832670211792,
      "learning_rate": 0.00011983294673941226,
      "loss": 3.6518,
      "step": 271810
    },
    {
      "epoch": 0.5662916666666666,
      "grad_norm": 0.7756167054176331,
      "learning_rate": 0.00011982328968112164,
      "loss": 3.7994,
      "step": 271820
    },
    {
      "epoch": 0.5663125,
      "grad_norm": 0.8153770565986633,
      "learning_rate": 0.00011981363275318242,
      "loss": 3.7752,
      "step": 271830
    },
    {
      "epoch": 0.5663333333333334,
      "grad_norm": 0.8477470874786377,
      "learning_rate": 0.0001198039759556364,
      "loss": 3.9027,
      "step": 271840
    },
    {
      "epoch": 0.5663541666666667,
      "grad_norm": 0.7394762635231018,
      "learning_rate": 0.00011979431928852525,
      "loss": 3.7651,
      "step": 271850
    },
    {
      "epoch": 0.566375,
      "grad_norm": 0.8830889463424683,
      "learning_rate": 0.00011978466275189063,
      "loss": 3.7112,
      "step": 271860
    },
    {
      "epoch": 0.5663958333333333,
      "grad_norm": 0.9956954717636108,
      "learning_rate": 0.00011977500634577438,
      "loss": 3.7744,
      "step": 271870
    },
    {
      "epoch": 0.5664166666666667,
      "grad_norm": 0.7750645875930786,
      "learning_rate": 0.0001197653500702181,
      "loss": 3.593,
      "step": 271880
    },
    {
      "epoch": 0.5664375,
      "grad_norm": 0.8468602299690247,
      "learning_rate": 0.0001197556939252635,
      "loss": 3.766,
      "step": 271890
    },
    {
      "epoch": 0.5664583333333333,
      "grad_norm": 0.7814598083496094,
      "learning_rate": 0.00011974603791095241,
      "loss": 3.7311,
      "step": 271900
    },
    {
      "epoch": 0.5664791666666666,
      "grad_norm": 1.4585119485855103,
      "learning_rate": 0.00011973638202732642,
      "loss": 3.8505,
      "step": 271910
    },
    {
      "epoch": 0.5665,
      "grad_norm": 0.869616687297821,
      "learning_rate": 0.00011972672627442726,
      "loss": 3.6624,
      "step": 271920
    },
    {
      "epoch": 0.5665208333333334,
      "grad_norm": 0.824807345867157,
      "learning_rate": 0.00011971707065229672,
      "loss": 3.7284,
      "step": 271930
    },
    {
      "epoch": 0.5665416666666667,
      "grad_norm": 0.8010851740837097,
      "learning_rate": 0.00011970741516097644,
      "loss": 3.6978,
      "step": 271940
    },
    {
      "epoch": 0.5665625,
      "grad_norm": 0.9256904125213623,
      "learning_rate": 0.00011969775980050808,
      "loss": 3.6976,
      "step": 271950
    },
    {
      "epoch": 0.5665833333333333,
      "grad_norm": 0.8501766920089722,
      "learning_rate": 0.00011968810457093342,
      "loss": 3.8954,
      "step": 271960
    },
    {
      "epoch": 0.5666041666666667,
      "grad_norm": 0.9439905285835266,
      "learning_rate": 0.0001196784494722942,
      "loss": 3.6358,
      "step": 271970
    },
    {
      "epoch": 0.566625,
      "grad_norm": 1.0688165426254272,
      "learning_rate": 0.000119668794504632,
      "loss": 3.9402,
      "step": 271980
    },
    {
      "epoch": 0.5666458333333333,
      "grad_norm": 0.7888575196266174,
      "learning_rate": 0.00011965913966798864,
      "loss": 3.7525,
      "step": 271990
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 0.8285110592842102,
      "learning_rate": 0.00011964948496240581,
      "loss": 3.6896,
      "step": 272000
    },
    {
      "epoch": 0.5666666666666667,
      "eval_loss": 4.09569787979126,
      "eval_runtime": 8.4774,
      "eval_samples_per_second": 1.18,
      "eval_steps_per_second": 0.354,
      "step": 272000
    },
    {
      "epoch": 0.5666875,
      "grad_norm": 0.8138213753700256,
      "learning_rate": 0.00011963983038792514,
      "loss": 3.8087,
      "step": 272010
    },
    {
      "epoch": 0.5667083333333334,
      "grad_norm": 0.878430187702179,
      "learning_rate": 0.0001196301759445884,
      "loss": 3.8763,
      "step": 272020
    },
    {
      "epoch": 0.5667291666666666,
      "grad_norm": 0.9002282619476318,
      "learning_rate": 0.00011962052163243733,
      "loss": 3.5617,
      "step": 272030
    },
    {
      "epoch": 0.56675,
      "grad_norm": 0.7842984199523926,
      "learning_rate": 0.00011961086745151351,
      "loss": 3.653,
      "step": 272040
    },
    {
      "epoch": 0.5667708333333333,
      "grad_norm": 0.76542729139328,
      "learning_rate": 0.00011960121340185875,
      "loss": 3.7228,
      "step": 272050
    },
    {
      "epoch": 0.5667916666666667,
      "grad_norm": 0.705899715423584,
      "learning_rate": 0.00011959155948351475,
      "loss": 3.757,
      "step": 272060
    },
    {
      "epoch": 0.5668125,
      "grad_norm": 0.8346132040023804,
      "learning_rate": 0.00011958190569652316,
      "loss": 3.7383,
      "step": 272070
    },
    {
      "epoch": 0.5668333333333333,
      "grad_norm": 0.9577059745788574,
      "learning_rate": 0.00011957225204092566,
      "loss": 3.8471,
      "step": 272080
    },
    {
      "epoch": 0.5668541666666667,
      "grad_norm": 0.8740313053131104,
      "learning_rate": 0.00011956259851676399,
      "loss": 3.799,
      "step": 272090
    },
    {
      "epoch": 0.566875,
      "grad_norm": 0.7941256761550903,
      "learning_rate": 0.00011955294512407989,
      "loss": 3.6568,
      "step": 272100
    },
    {
      "epoch": 0.5668958333333334,
      "grad_norm": 1.2986856698989868,
      "learning_rate": 0.00011954329186291496,
      "loss": 3.7799,
      "step": 272110
    },
    {
      "epoch": 0.5669166666666666,
      "grad_norm": 0.8019318580627441,
      "learning_rate": 0.00011953363873331098,
      "loss": 3.8357,
      "step": 272120
    },
    {
      "epoch": 0.5669375,
      "grad_norm": 0.8105758428573608,
      "learning_rate": 0.00011952398573530965,
      "loss": 3.8855,
      "step": 272130
    },
    {
      "epoch": 0.5669583333333333,
      "grad_norm": 0.9911509156227112,
      "learning_rate": 0.00011951433286895256,
      "loss": 3.7671,
      "step": 272140
    },
    {
      "epoch": 0.5669791666666667,
      "grad_norm": 0.8865746259689331,
      "learning_rate": 0.00011950468013428154,
      "loss": 3.8456,
      "step": 272150
    },
    {
      "epoch": 0.567,
      "grad_norm": 0.8394986987113953,
      "learning_rate": 0.00011949502753133826,
      "loss": 3.6621,
      "step": 272160
    },
    {
      "epoch": 0.5670208333333333,
      "grad_norm": 0.7823858857154846,
      "learning_rate": 0.00011948537506016431,
      "loss": 3.6845,
      "step": 272170
    },
    {
      "epoch": 0.5670416666666667,
      "grad_norm": 0.8523715734481812,
      "learning_rate": 0.00011947572272080149,
      "loss": 3.9054,
      "step": 272180
    },
    {
      "epoch": 0.5670625,
      "grad_norm": 0.9537453651428223,
      "learning_rate": 0.00011946607051329152,
      "loss": 3.6586,
      "step": 272190
    },
    {
      "epoch": 0.5670833333333334,
      "grad_norm": 0.7683454751968384,
      "learning_rate": 0.00011945641843767598,
      "loss": 3.8115,
      "step": 272200
    },
    {
      "epoch": 0.5671041666666666,
      "grad_norm": 0.842320442199707,
      "learning_rate": 0.00011944676649399666,
      "loss": 3.8826,
      "step": 272210
    },
    {
      "epoch": 0.567125,
      "grad_norm": 0.829066812992096,
      "learning_rate": 0.00011943711468229518,
      "loss": 3.7368,
      "step": 272220
    },
    {
      "epoch": 0.5671458333333333,
      "grad_norm": 0.9394660592079163,
      "learning_rate": 0.00011942746300261325,
      "loss": 3.8119,
      "step": 272230
    },
    {
      "epoch": 0.5671666666666667,
      "grad_norm": 0.7897090911865234,
      "learning_rate": 0.00011941781145499264,
      "loss": 3.7798,
      "step": 272240
    },
    {
      "epoch": 0.5671875,
      "grad_norm": 0.8404825925827026,
      "learning_rate": 0.00011940816003947495,
      "loss": 3.7101,
      "step": 272250
    },
    {
      "epoch": 0.5672083333333333,
      "grad_norm": 1.0279074907302856,
      "learning_rate": 0.00011939850875610186,
      "loss": 3.7195,
      "step": 272260
    },
    {
      "epoch": 0.5672291666666667,
      "grad_norm": 0.8456718921661377,
      "learning_rate": 0.00011938885760491517,
      "loss": 3.6531,
      "step": 272270
    },
    {
      "epoch": 0.56725,
      "grad_norm": 0.8341175317764282,
      "learning_rate": 0.00011937920658595647,
      "loss": 3.7146,
      "step": 272280
    },
    {
      "epoch": 0.5672708333333333,
      "grad_norm": 0.8044900894165039,
      "learning_rate": 0.00011936955569926743,
      "loss": 3.9584,
      "step": 272290
    },
    {
      "epoch": 0.5672916666666666,
      "grad_norm": 0.8841290473937988,
      "learning_rate": 0.00011935990494488986,
      "loss": 3.8687,
      "step": 272300
    },
    {
      "epoch": 0.5673125,
      "grad_norm": 0.943727970123291,
      "learning_rate": 0.00011935025432286534,
      "loss": 3.797,
      "step": 272310
    },
    {
      "epoch": 0.5673333333333334,
      "grad_norm": 0.7635841369628906,
      "learning_rate": 0.00011934060383323556,
      "loss": 3.8742,
      "step": 272320
    },
    {
      "epoch": 0.5673541666666667,
      "grad_norm": 0.7729198932647705,
      "learning_rate": 0.00011933095347604229,
      "loss": 3.7201,
      "step": 272330
    },
    {
      "epoch": 0.567375,
      "grad_norm": 0.8672769665718079,
      "learning_rate": 0.00011932130325132717,
      "loss": 3.6875,
      "step": 272340
    },
    {
      "epoch": 0.5673958333333333,
      "grad_norm": 1.0035148859024048,
      "learning_rate": 0.00011931165315913184,
      "loss": 3.9706,
      "step": 272350
    },
    {
      "epoch": 0.5674166666666667,
      "grad_norm": 0.9042902588844299,
      "learning_rate": 0.00011930200319949799,
      "loss": 3.5033,
      "step": 272360
    },
    {
      "epoch": 0.5674375,
      "grad_norm": 1.1080100536346436,
      "learning_rate": 0.0001192923533724674,
      "loss": 3.8511,
      "step": 272370
    },
    {
      "epoch": 0.5674583333333333,
      "grad_norm": 0.8848908543586731,
      "learning_rate": 0.00011928270367808167,
      "loss": 3.7534,
      "step": 272380
    },
    {
      "epoch": 0.5674791666666666,
      "grad_norm": 0.7332673072814941,
      "learning_rate": 0.00011927305411638244,
      "loss": 3.8865,
      "step": 272390
    },
    {
      "epoch": 0.5675,
      "grad_norm": 0.815937340259552,
      "learning_rate": 0.00011926340468741155,
      "loss": 3.7839,
      "step": 272400
    },
    {
      "epoch": 0.5675208333333334,
      "grad_norm": 0.7910137176513672,
      "learning_rate": 0.00011925375539121053,
      "loss": 3.8867,
      "step": 272410
    },
    {
      "epoch": 0.5675416666666667,
      "grad_norm": 0.8100627064704895,
      "learning_rate": 0.00011924410622782108,
      "loss": 3.8446,
      "step": 272420
    },
    {
      "epoch": 0.5675625,
      "grad_norm": 0.9837735891342163,
      "learning_rate": 0.000119234457197285,
      "loss": 3.9229,
      "step": 272430
    },
    {
      "epoch": 0.5675833333333333,
      "grad_norm": 0.8238407373428345,
      "learning_rate": 0.00011922480829964387,
      "loss": 3.7992,
      "step": 272440
    },
    {
      "epoch": 0.5676041666666667,
      "grad_norm": 0.7713211178779602,
      "learning_rate": 0.00011921515953493934,
      "loss": 3.7448,
      "step": 272450
    },
    {
      "epoch": 0.567625,
      "grad_norm": 0.853601336479187,
      "learning_rate": 0.00011920551090321315,
      "loss": 3.745,
      "step": 272460
    },
    {
      "epoch": 0.5676458333333333,
      "grad_norm": 0.8333258032798767,
      "learning_rate": 0.00011919586240450702,
      "loss": 3.8058,
      "step": 272470
    },
    {
      "epoch": 0.5676666666666667,
      "grad_norm": 0.7508172392845154,
      "learning_rate": 0.00011918621403886249,
      "loss": 3.7114,
      "step": 272480
    },
    {
      "epoch": 0.5676875,
      "grad_norm": 0.7761216163635254,
      "learning_rate": 0.00011917656580632135,
      "loss": 3.7198,
      "step": 272490
    },
    {
      "epoch": 0.5677083333333334,
      "grad_norm": 0.8996320366859436,
      "learning_rate": 0.00011916691770692528,
      "loss": 3.7295,
      "step": 272500
    },
    {
      "epoch": 0.5677291666666666,
      "grad_norm": 0.7941856384277344,
      "learning_rate": 0.00011915726974071587,
      "loss": 3.8794,
      "step": 272510
    },
    {
      "epoch": 0.56775,
      "grad_norm": 0.8179989457130432,
      "learning_rate": 0.00011914762190773485,
      "loss": 3.8283,
      "step": 272520
    },
    {
      "epoch": 0.5677708333333333,
      "grad_norm": 0.8547748327255249,
      "learning_rate": 0.00011913797420802394,
      "loss": 3.7331,
      "step": 272530
    },
    {
      "epoch": 0.5677916666666667,
      "grad_norm": 0.9172225594520569,
      "learning_rate": 0.00011912832664162469,
      "loss": 3.8359,
      "step": 272540
    },
    {
      "epoch": 0.5678125,
      "grad_norm": 0.9517347812652588,
      "learning_rate": 0.0001191186792085789,
      "loss": 3.5387,
      "step": 272550
    },
    {
      "epoch": 0.5678333333333333,
      "grad_norm": 0.7222139239311218,
      "learning_rate": 0.00011910903190892822,
      "loss": 3.6707,
      "step": 272560
    },
    {
      "epoch": 0.5678541666666667,
      "grad_norm": 1.0060217380523682,
      "learning_rate": 0.00011909938474271422,
      "loss": 3.9201,
      "step": 272570
    },
    {
      "epoch": 0.567875,
      "grad_norm": 0.7391648292541504,
      "learning_rate": 0.00011908973770997871,
      "loss": 3.6997,
      "step": 272580
    },
    {
      "epoch": 0.5678958333333334,
      "grad_norm": 0.8097655177116394,
      "learning_rate": 0.00011908009081076328,
      "loss": 3.8898,
      "step": 272590
    },
    {
      "epoch": 0.5679166666666666,
      "grad_norm": 0.7590203881263733,
      "learning_rate": 0.00011907044404510958,
      "loss": 3.7171,
      "step": 272600
    },
    {
      "epoch": 0.5679375,
      "grad_norm": 0.6721339225769043,
      "learning_rate": 0.00011906079741305939,
      "loss": 3.6455,
      "step": 272610
    },
    {
      "epoch": 0.5679583333333333,
      "grad_norm": 0.9000749588012695,
      "learning_rate": 0.00011905115091465425,
      "loss": 3.6791,
      "step": 272620
    },
    {
      "epoch": 0.5679791666666667,
      "grad_norm": 1.0477358102798462,
      "learning_rate": 0.00011904150454993588,
      "loss": 3.4628,
      "step": 272630
    },
    {
      "epoch": 0.568,
      "grad_norm": 0.7941458821296692,
      "learning_rate": 0.00011903185831894601,
      "loss": 3.7479,
      "step": 272640
    },
    {
      "epoch": 0.5680208333333333,
      "grad_norm": 0.8266381621360779,
      "learning_rate": 0.00011902221222172622,
      "loss": 3.6721,
      "step": 272650
    },
    {
      "epoch": 0.5680416666666667,
      "grad_norm": 0.8982225060462952,
      "learning_rate": 0.00011901256625831825,
      "loss": 3.9089,
      "step": 272660
    },
    {
      "epoch": 0.5680625,
      "grad_norm": 0.8950691819190979,
      "learning_rate": 0.00011900292042876365,
      "loss": 3.7566,
      "step": 272670
    },
    {
      "epoch": 0.5680833333333334,
      "grad_norm": 0.7922304272651672,
      "learning_rate": 0.00011899327473310423,
      "loss": 3.8758,
      "step": 272680
    },
    {
      "epoch": 0.5681041666666666,
      "grad_norm": 0.8403642773628235,
      "learning_rate": 0.00011898362917138159,
      "loss": 3.7431,
      "step": 272690
    },
    {
      "epoch": 0.568125,
      "grad_norm": 0.9109562635421753,
      "learning_rate": 0.00011897398374363735,
      "loss": 3.8024,
      "step": 272700
    },
    {
      "epoch": 0.5681458333333333,
      "grad_norm": 1.2085471153259277,
      "learning_rate": 0.00011896433844991327,
      "loss": 3.7645,
      "step": 272710
    },
    {
      "epoch": 0.5681666666666667,
      "grad_norm": 0.8008726239204407,
      "learning_rate": 0.00011895469329025095,
      "loss": 3.847,
      "step": 272720
    },
    {
      "epoch": 0.5681875,
      "grad_norm": 1.0011752843856812,
      "learning_rate": 0.000118945048264692,
      "loss": 3.8453,
      "step": 272730
    },
    {
      "epoch": 0.5682083333333333,
      "grad_norm": 0.7866128087043762,
      "learning_rate": 0.00011893540337327825,
      "loss": 3.6935,
      "step": 272740
    },
    {
      "epoch": 0.5682291666666667,
      "grad_norm": 0.8551178574562073,
      "learning_rate": 0.00011892575861605121,
      "loss": 3.7946,
      "step": 272750
    },
    {
      "epoch": 0.56825,
      "grad_norm": 0.9028431177139282,
      "learning_rate": 0.00011891611399305256,
      "loss": 3.6572,
      "step": 272760
    },
    {
      "epoch": 0.5682708333333333,
      "grad_norm": 0.9659257531166077,
      "learning_rate": 0.00011890646950432405,
      "loss": 3.7281,
      "step": 272770
    },
    {
      "epoch": 0.5682916666666666,
      "grad_norm": 0.7271462678909302,
      "learning_rate": 0.00011889682514990727,
      "loss": 3.7281,
      "step": 272780
    },
    {
      "epoch": 0.5683125,
      "grad_norm": 0.9018915891647339,
      "learning_rate": 0.00011888718092984385,
      "loss": 3.8247,
      "step": 272790
    },
    {
      "epoch": 0.5683333333333334,
      "grad_norm": 0.8120027780532837,
      "learning_rate": 0.00011887753684417558,
      "loss": 3.86,
      "step": 272800
    },
    {
      "epoch": 0.5683541666666667,
      "grad_norm": 0.7590498924255371,
      "learning_rate": 0.00011886789289294399,
      "loss": 3.5899,
      "step": 272810
    },
    {
      "epoch": 0.568375,
      "grad_norm": 0.8708376884460449,
      "learning_rate": 0.00011885824907619071,
      "loss": 3.8605,
      "step": 272820
    },
    {
      "epoch": 0.5683958333333333,
      "grad_norm": 0.922693133354187,
      "learning_rate": 0.00011884860539395758,
      "loss": 3.7351,
      "step": 272830
    },
    {
      "epoch": 0.5684166666666667,
      "grad_norm": 0.8388628959655762,
      "learning_rate": 0.00011883896184628613,
      "loss": 3.9466,
      "step": 272840
    },
    {
      "epoch": 0.5684375,
      "grad_norm": 0.9300197958946228,
      "learning_rate": 0.00011882931843321794,
      "loss": 3.6625,
      "step": 272850
    },
    {
      "epoch": 0.5684583333333333,
      "grad_norm": 0.7899945378303528,
      "learning_rate": 0.00011881967515479483,
      "loss": 3.6304,
      "step": 272860
    },
    {
      "epoch": 0.5684791666666666,
      "grad_norm": 0.8415330648422241,
      "learning_rate": 0.00011881003201105838,
      "loss": 3.7906,
      "step": 272870
    },
    {
      "epoch": 0.5685,
      "grad_norm": 0.884934663772583,
      "learning_rate": 0.0001188003890020502,
      "loss": 3.706,
      "step": 272880
    },
    {
      "epoch": 0.5685208333333334,
      "grad_norm": 0.781015932559967,
      "learning_rate": 0.00011879074612781202,
      "loss": 3.651,
      "step": 272890
    },
    {
      "epoch": 0.5685416666666666,
      "grad_norm": 0.9659795761108398,
      "learning_rate": 0.00011878110338838549,
      "loss": 3.7231,
      "step": 272900
    },
    {
      "epoch": 0.5685625,
      "grad_norm": 0.8239774107933044,
      "learning_rate": 0.00011877146078381218,
      "loss": 3.7305,
      "step": 272910
    },
    {
      "epoch": 0.5685833333333333,
      "grad_norm": 0.8083414435386658,
      "learning_rate": 0.00011876181831413383,
      "loss": 3.9508,
      "step": 272920
    },
    {
      "epoch": 0.5686041666666667,
      "grad_norm": 0.7852143049240112,
      "learning_rate": 0.00011875217597939207,
      "loss": 3.7797,
      "step": 272930
    },
    {
      "epoch": 0.568625,
      "grad_norm": 0.8607725501060486,
      "learning_rate": 0.00011874253377962857,
      "loss": 3.726,
      "step": 272940
    },
    {
      "epoch": 0.5686458333333333,
      "grad_norm": 0.8231140971183777,
      "learning_rate": 0.00011873289171488486,
      "loss": 3.7005,
      "step": 272950
    },
    {
      "epoch": 0.5686666666666667,
      "grad_norm": 0.7305110692977905,
      "learning_rate": 0.00011872324978520274,
      "loss": 3.828,
      "step": 272960
    },
    {
      "epoch": 0.5686875,
      "grad_norm": 0.833358108997345,
      "learning_rate": 0.00011871360799062382,
      "loss": 3.7956,
      "step": 272970
    },
    {
      "epoch": 0.5687083333333334,
      "grad_norm": 0.7837712168693542,
      "learning_rate": 0.00011870396633118966,
      "loss": 3.669,
      "step": 272980
    },
    {
      "epoch": 0.5687291666666666,
      "grad_norm": 1.0732908248901367,
      "learning_rate": 0.00011869432480694203,
      "loss": 3.6862,
      "step": 272990
    },
    {
      "epoch": 0.56875,
      "grad_norm": 0.8678273558616638,
      "learning_rate": 0.00011868468341792253,
      "loss": 3.6256,
      "step": 273000
    },
    {
      "epoch": 0.56875,
      "eval_loss": 4.097895622253418,
      "eval_runtime": 8.4156,
      "eval_samples_per_second": 1.188,
      "eval_steps_per_second": 0.356,
      "step": 273000
    },
    {
      "epoch": 0.5687708333333333,
      "grad_norm": 0.6957740783691406,
      "learning_rate": 0.00011867504216417276,
      "loss": 3.7129,
      "step": 273010
    },
    {
      "epoch": 0.5687916666666667,
      "grad_norm": 0.9486961364746094,
      "learning_rate": 0.00011866540104573443,
      "loss": 3.8129,
      "step": 273020
    },
    {
      "epoch": 0.5688125,
      "grad_norm": 1.0225719213485718,
      "learning_rate": 0.00011865576006264919,
      "loss": 3.6678,
      "step": 273030
    },
    {
      "epoch": 0.5688333333333333,
      "grad_norm": 0.7208848595619202,
      "learning_rate": 0.00011864611921495861,
      "loss": 3.8087,
      "step": 273040
    },
    {
      "epoch": 0.5688541666666667,
      "grad_norm": 0.8663708567619324,
      "learning_rate": 0.00011863647850270441,
      "loss": 3.7221,
      "step": 273050
    },
    {
      "epoch": 0.568875,
      "grad_norm": 0.7665705680847168,
      "learning_rate": 0.00011862683792592825,
      "loss": 3.7281,
      "step": 273060
    },
    {
      "epoch": 0.5688958333333334,
      "grad_norm": 1.2552661895751953,
      "learning_rate": 0.00011861719748467165,
      "loss": 3.7757,
      "step": 273070
    },
    {
      "epoch": 0.5689166666666666,
      "grad_norm": 0.9557147026062012,
      "learning_rate": 0.0001186075571789764,
      "loss": 3.6716,
      "step": 273080
    },
    {
      "epoch": 0.5689375,
      "grad_norm": 0.8710591197013855,
      "learning_rate": 0.00011859791700888406,
      "loss": 3.5932,
      "step": 273090
    },
    {
      "epoch": 0.5689583333333333,
      "grad_norm": 0.8172727227210999,
      "learning_rate": 0.00011858827697443626,
      "loss": 3.561,
      "step": 273100
    },
    {
      "epoch": 0.5689791666666667,
      "grad_norm": 1.0608121156692505,
      "learning_rate": 0.00011857863707567471,
      "loss": 3.7924,
      "step": 273110
    },
    {
      "epoch": 0.569,
      "grad_norm": 0.8312206864356995,
      "learning_rate": 0.000118568997312641,
      "loss": 3.9195,
      "step": 273120
    },
    {
      "epoch": 0.5690208333333333,
      "grad_norm": 0.7744958400726318,
      "learning_rate": 0.00011855935768537673,
      "loss": 3.9163,
      "step": 273130
    },
    {
      "epoch": 0.5690416666666667,
      "grad_norm": 0.8680755496025085,
      "learning_rate": 0.00011854971819392366,
      "loss": 3.6521,
      "step": 273140
    },
    {
      "epoch": 0.5690625,
      "grad_norm": 0.7979332208633423,
      "learning_rate": 0.00011854007883832332,
      "loss": 3.7854,
      "step": 273150
    },
    {
      "epoch": 0.5690833333333334,
      "grad_norm": 0.914046049118042,
      "learning_rate": 0.00011853043961861738,
      "loss": 3.6512,
      "step": 273160
    },
    {
      "epoch": 0.5691041666666666,
      "grad_norm": 0.9714610576629639,
      "learning_rate": 0.00011852080053484754,
      "loss": 3.5058,
      "step": 273170
    },
    {
      "epoch": 0.569125,
      "grad_norm": 0.9582652449607849,
      "learning_rate": 0.00011851116158705533,
      "loss": 3.6049,
      "step": 273180
    },
    {
      "epoch": 0.5691458333333334,
      "grad_norm": 0.8220282793045044,
      "learning_rate": 0.00011850152277528244,
      "loss": 3.8421,
      "step": 273190
    },
    {
      "epoch": 0.5691666666666667,
      "grad_norm": 0.8257896900177002,
      "learning_rate": 0.00011849188409957052,
      "loss": 3.784,
      "step": 273200
    },
    {
      "epoch": 0.5691875,
      "grad_norm": 0.854106068611145,
      "learning_rate": 0.00011848224555996122,
      "loss": 3.85,
      "step": 273210
    },
    {
      "epoch": 0.5692083333333333,
      "grad_norm": 0.7908039689064026,
      "learning_rate": 0.00011847260715649607,
      "loss": 3.8535,
      "step": 273220
    },
    {
      "epoch": 0.5692291666666667,
      "grad_norm": 0.7237741351127625,
      "learning_rate": 0.00011846296888921681,
      "loss": 3.8296,
      "step": 273230
    },
    {
      "epoch": 0.56925,
      "grad_norm": 0.9075827598571777,
      "learning_rate": 0.00011845333075816509,
      "loss": 3.6558,
      "step": 273240
    },
    {
      "epoch": 0.5692708333333333,
      "grad_norm": 1.0015302896499634,
      "learning_rate": 0.00011844369276338244,
      "loss": 3.73,
      "step": 273250
    },
    {
      "epoch": 0.5692916666666666,
      "grad_norm": 0.8834192156791687,
      "learning_rate": 0.00011843405490491053,
      "loss": 3.8152,
      "step": 273260
    },
    {
      "epoch": 0.5693125,
      "grad_norm": 0.715069055557251,
      "learning_rate": 0.00011842441718279107,
      "loss": 4.0833,
      "step": 273270
    },
    {
      "epoch": 0.5693333333333334,
      "grad_norm": 1.579622745513916,
      "learning_rate": 0.00011841477959706558,
      "loss": 3.8466,
      "step": 273280
    },
    {
      "epoch": 0.5693541666666667,
      "grad_norm": 0.873563826084137,
      "learning_rate": 0.00011840514214777572,
      "loss": 3.8243,
      "step": 273290
    },
    {
      "epoch": 0.569375,
      "grad_norm": 0.7528130412101746,
      "learning_rate": 0.0001183955048349632,
      "loss": 3.6138,
      "step": 273300
    },
    {
      "epoch": 0.5693958333333333,
      "grad_norm": 0.8833492994308472,
      "learning_rate": 0.00011838586765866957,
      "loss": 3.9464,
      "step": 273310
    },
    {
      "epoch": 0.5694166666666667,
      "grad_norm": 0.8468610644340515,
      "learning_rate": 0.00011837623061893644,
      "loss": 3.779,
      "step": 273320
    },
    {
      "epoch": 0.5694375,
      "grad_norm": 1.0538973808288574,
      "learning_rate": 0.00011836659371580553,
      "loss": 3.9782,
      "step": 273330
    },
    {
      "epoch": 0.5694583333333333,
      "grad_norm": 0.8093773722648621,
      "learning_rate": 0.00011835695694931844,
      "loss": 3.807,
      "step": 273340
    },
    {
      "epoch": 0.5694791666666666,
      "grad_norm": 0.8298015594482422,
      "learning_rate": 0.00011834732031951669,
      "loss": 3.7382,
      "step": 273350
    },
    {
      "epoch": 0.5695,
      "grad_norm": 0.836831271648407,
      "learning_rate": 0.00011833768382644202,
      "loss": 3.9055,
      "step": 273360
    },
    {
      "epoch": 0.5695208333333334,
      "grad_norm": 0.8208423256874084,
      "learning_rate": 0.00011832804747013604,
      "loss": 3.767,
      "step": 273370
    },
    {
      "epoch": 0.5695416666666666,
      "grad_norm": 0.7072441577911377,
      "learning_rate": 0.00011831841125064031,
      "loss": 3.9461,
      "step": 273380
    },
    {
      "epoch": 0.5695625,
      "grad_norm": 0.809124231338501,
      "learning_rate": 0.00011830877516799653,
      "loss": 3.7648,
      "step": 273390
    },
    {
      "epoch": 0.5695833333333333,
      "grad_norm": 0.9009538888931274,
      "learning_rate": 0.00011829913922224635,
      "loss": 3.986,
      "step": 273400
    },
    {
      "epoch": 0.5696041666666667,
      "grad_norm": 1.004747986793518,
      "learning_rate": 0.00011828950341343124,
      "loss": 3.8042,
      "step": 273410
    },
    {
      "epoch": 0.569625,
      "grad_norm": 0.7987748980522156,
      "learning_rate": 0.00011827986774159297,
      "loss": 3.6708,
      "step": 273420
    },
    {
      "epoch": 0.5696458333333333,
      "grad_norm": 0.7577227354049683,
      "learning_rate": 0.00011827023220677314,
      "loss": 3.6206,
      "step": 273430
    },
    {
      "epoch": 0.5696666666666667,
      "grad_norm": 1.1857932806015015,
      "learning_rate": 0.0001182605968090133,
      "loss": 3.7397,
      "step": 273440
    },
    {
      "epoch": 0.5696875,
      "grad_norm": 0.8280191421508789,
      "learning_rate": 0.00011825096154835518,
      "loss": 3.797,
      "step": 273450
    },
    {
      "epoch": 0.5697083333333334,
      "grad_norm": 0.7819023132324219,
      "learning_rate": 0.0001182413264248403,
      "loss": 3.8157,
      "step": 273460
    },
    {
      "epoch": 0.5697291666666666,
      "grad_norm": 0.8724796772003174,
      "learning_rate": 0.00011823169143851029,
      "loss": 3.8149,
      "step": 273470
    },
    {
      "epoch": 0.56975,
      "grad_norm": 0.9005134701728821,
      "learning_rate": 0.00011822205658940686,
      "loss": 3.753,
      "step": 273480
    },
    {
      "epoch": 0.5697708333333333,
      "grad_norm": 0.6854743957519531,
      "learning_rate": 0.00011821242187757155,
      "loss": 3.9589,
      "step": 273490
    },
    {
      "epoch": 0.5697916666666667,
      "grad_norm": 1.0057920217514038,
      "learning_rate": 0.00011820278730304595,
      "loss": 3.85,
      "step": 273500
    },
    {
      "epoch": 0.5698125,
      "grad_norm": 0.8971956968307495,
      "learning_rate": 0.00011819315286587177,
      "loss": 3.7201,
      "step": 273510
    },
    {
      "epoch": 0.5698333333333333,
      "grad_norm": 0.8256161212921143,
      "learning_rate": 0.00011818351856609058,
      "loss": 3.8082,
      "step": 273520
    },
    {
      "epoch": 0.5698541666666667,
      "grad_norm": 0.6797780990600586,
      "learning_rate": 0.000118173884403744,
      "loss": 3.7148,
      "step": 273530
    },
    {
      "epoch": 0.569875,
      "grad_norm": 0.9665014743804932,
      "learning_rate": 0.00011816425037887359,
      "loss": 3.8201,
      "step": 273540
    },
    {
      "epoch": 0.5698958333333334,
      "grad_norm": 0.8672309517860413,
      "learning_rate": 0.00011815461649152106,
      "loss": 3.6604,
      "step": 273550
    },
    {
      "epoch": 0.5699166666666666,
      "grad_norm": 0.7650788426399231,
      "learning_rate": 0.000118144982741728,
      "loss": 3.996,
      "step": 273560
    },
    {
      "epoch": 0.5699375,
      "grad_norm": 0.7655042409896851,
      "learning_rate": 0.00011813534912953594,
      "loss": 3.914,
      "step": 273570
    },
    {
      "epoch": 0.5699583333333333,
      "grad_norm": 0.8704674243927002,
      "learning_rate": 0.00011812571565498665,
      "loss": 3.6591,
      "step": 273580
    },
    {
      "epoch": 0.5699791666666667,
      "grad_norm": 0.7911980152130127,
      "learning_rate": 0.00011811608231812158,
      "loss": 3.8902,
      "step": 273590
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.0361344814300537,
      "learning_rate": 0.0001181064491189824,
      "loss": 3.67,
      "step": 273600
    },
    {
      "epoch": 0.5700208333333333,
      "grad_norm": 0.8480692505836487,
      "learning_rate": 0.0001180968160576108,
      "loss": 3.9206,
      "step": 273610
    },
    {
      "epoch": 0.5700416666666667,
      "grad_norm": 0.8002212643623352,
      "learning_rate": 0.00011808718313404827,
      "loss": 3.7852,
      "step": 273620
    },
    {
      "epoch": 0.5700625,
      "grad_norm": 0.8893411159515381,
      "learning_rate": 0.0001180775503483365,
      "loss": 3.8284,
      "step": 273630
    },
    {
      "epoch": 0.5700833333333334,
      "grad_norm": 0.7987858057022095,
      "learning_rate": 0.0001180679177005171,
      "loss": 3.8933,
      "step": 273640
    },
    {
      "epoch": 0.5701041666666666,
      "grad_norm": 0.8550747632980347,
      "learning_rate": 0.00011805828519063162,
      "loss": 3.772,
      "step": 273650
    },
    {
      "epoch": 0.570125,
      "grad_norm": 0.862861156463623,
      "learning_rate": 0.00011804865281872169,
      "loss": 3.7809,
      "step": 273660
    },
    {
      "epoch": 0.5701458333333334,
      "grad_norm": 0.7223317623138428,
      "learning_rate": 0.00011803902058482899,
      "loss": 3.7053,
      "step": 273670
    },
    {
      "epoch": 0.5701666666666667,
      "grad_norm": 0.8667035698890686,
      "learning_rate": 0.00011802938848899505,
      "loss": 3.8882,
      "step": 273680
    },
    {
      "epoch": 0.5701875,
      "grad_norm": 0.7939239144325256,
      "learning_rate": 0.00011801975653126145,
      "loss": 3.8799,
      "step": 273690
    },
    {
      "epoch": 0.5702083333333333,
      "grad_norm": 0.8890883326530457,
      "learning_rate": 0.00011801012471166991,
      "loss": 3.7032,
      "step": 273700
    },
    {
      "epoch": 0.5702291666666667,
      "grad_norm": 0.8666381239891052,
      "learning_rate": 0.00011800049303026197,
      "loss": 3.6861,
      "step": 273710
    },
    {
      "epoch": 0.57025,
      "grad_norm": 0.763241171836853,
      "learning_rate": 0.00011799086148707916,
      "loss": 3.9974,
      "step": 273720
    },
    {
      "epoch": 0.5702708333333333,
      "grad_norm": 0.7757346034049988,
      "learning_rate": 0.00011798123008216321,
      "loss": 3.7114,
      "step": 273730
    },
    {
      "epoch": 0.5702916666666666,
      "grad_norm": 0.7994797825813293,
      "learning_rate": 0.00011797159881555571,
      "loss": 3.7975,
      "step": 273740
    },
    {
      "epoch": 0.5703125,
      "grad_norm": 0.9574291110038757,
      "learning_rate": 0.00011796196768729812,
      "loss": 3.7111,
      "step": 273750
    },
    {
      "epoch": 0.5703333333333334,
      "grad_norm": 0.9790871143341064,
      "learning_rate": 0.00011795233669743221,
      "loss": 3.8609,
      "step": 273760
    },
    {
      "epoch": 0.5703541666666667,
      "grad_norm": 0.7305181622505188,
      "learning_rate": 0.00011794270584599956,
      "loss": 3.6068,
      "step": 273770
    },
    {
      "epoch": 0.570375,
      "grad_norm": 0.8532871603965759,
      "learning_rate": 0.00011793307513304164,
      "loss": 3.7288,
      "step": 273780
    },
    {
      "epoch": 0.5703958333333333,
      "grad_norm": 0.7438153624534607,
      "learning_rate": 0.0001179234445586002,
      "loss": 3.7395,
      "step": 273790
    },
    {
      "epoch": 0.5704166666666667,
      "grad_norm": 0.8159934878349304,
      "learning_rate": 0.0001179138141227168,
      "loss": 3.7836,
      "step": 273800
    },
    {
      "epoch": 0.5704375,
      "grad_norm": 0.7890738248825073,
      "learning_rate": 0.00011790418382543296,
      "loss": 3.7394,
      "step": 273810
    },
    {
      "epoch": 0.5704583333333333,
      "grad_norm": 0.837343692779541,
      "learning_rate": 0.00011789455366679037,
      "loss": 3.5922,
      "step": 273820
    },
    {
      "epoch": 0.5704791666666666,
      "grad_norm": 0.7990812063217163,
      "learning_rate": 0.00011788492364683065,
      "loss": 3.8479,
      "step": 273830
    },
    {
      "epoch": 0.5705,
      "grad_norm": 0.8411439657211304,
      "learning_rate": 0.00011787529376559532,
      "loss": 3.5885,
      "step": 273840
    },
    {
      "epoch": 0.5705208333333334,
      "grad_norm": 0.8328990936279297,
      "learning_rate": 0.00011786566402312596,
      "loss": 3.8086,
      "step": 273850
    },
    {
      "epoch": 0.5705416666666666,
      "grad_norm": 0.8179737329483032,
      "learning_rate": 0.00011785603441946425,
      "loss": 3.7184,
      "step": 273860
    },
    {
      "epoch": 0.5705625,
      "grad_norm": 0.9182056784629822,
      "learning_rate": 0.00011784640495465178,
      "loss": 3.6928,
      "step": 273870
    },
    {
      "epoch": 0.5705833333333333,
      "grad_norm": 0.7809619307518005,
      "learning_rate": 0.00011783677562873004,
      "loss": 3.9206,
      "step": 273880
    },
    {
      "epoch": 0.5706041666666667,
      "grad_norm": 0.835259735584259,
      "learning_rate": 0.00011782714644174071,
      "loss": 3.588,
      "step": 273890
    },
    {
      "epoch": 0.570625,
      "grad_norm": 0.9082761406898499,
      "learning_rate": 0.00011781751739372545,
      "loss": 3.718,
      "step": 273900
    },
    {
      "epoch": 0.5706458333333333,
      "grad_norm": 0.7963570952415466,
      "learning_rate": 0.00011780788848472567,
      "loss": 3.743,
      "step": 273910
    },
    {
      "epoch": 0.5706666666666667,
      "grad_norm": 0.8520843386650085,
      "learning_rate": 0.00011779825971478313,
      "loss": 3.7101,
      "step": 273920
    },
    {
      "epoch": 0.5706875,
      "grad_norm": 0.7900615334510803,
      "learning_rate": 0.00011778863108393938,
      "loss": 3.6398,
      "step": 273930
    },
    {
      "epoch": 0.5707083333333334,
      "grad_norm": 0.9040617942810059,
      "learning_rate": 0.00011777900259223593,
      "loss": 3.6116,
      "step": 273940
    },
    {
      "epoch": 0.5707291666666666,
      "grad_norm": 0.7961223125457764,
      "learning_rate": 0.0001177693742397145,
      "loss": 3.6678,
      "step": 273950
    },
    {
      "epoch": 0.57075,
      "grad_norm": 0.8571838140487671,
      "learning_rate": 0.00011775974602641658,
      "loss": 3.7646,
      "step": 273960
    },
    {
      "epoch": 0.5707708333333333,
      "grad_norm": 0.9292070269584656,
      "learning_rate": 0.00011775011795238377,
      "loss": 3.8453,
      "step": 273970
    },
    {
      "epoch": 0.5707916666666667,
      "grad_norm": 0.8690938353538513,
      "learning_rate": 0.00011774049001765775,
      "loss": 3.8922,
      "step": 273980
    },
    {
      "epoch": 0.5708125,
      "grad_norm": 0.7982404232025146,
      "learning_rate": 0.00011773086222228001,
      "loss": 3.9012,
      "step": 273990
    },
    {
      "epoch": 0.5708333333333333,
      "grad_norm": 0.8123918771743774,
      "learning_rate": 0.00011772123456629215,
      "loss": 3.7911,
      "step": 274000
    },
    {
      "epoch": 0.5708333333333333,
      "eval_loss": 4.100518703460693,
      "eval_runtime": 9.1942,
      "eval_samples_per_second": 1.088,
      "eval_steps_per_second": 0.326,
      "step": 274000
    },
    {
      "epoch": 0.5708541666666667,
      "grad_norm": 1.093018889427185,
      "learning_rate": 0.00011771160704973582,
      "loss": 3.8028,
      "step": 274010
    },
    {
      "epoch": 0.570875,
      "grad_norm": 0.8276284337043762,
      "learning_rate": 0.00011770197967265253,
      "loss": 3.8624,
      "step": 274020
    },
    {
      "epoch": 0.5708958333333334,
      "grad_norm": 0.926405131816864,
      "learning_rate": 0.0001176923524350839,
      "loss": 3.6799,
      "step": 274030
    },
    {
      "epoch": 0.5709166666666666,
      "grad_norm": 0.9498945474624634,
      "learning_rate": 0.00011768272533707158,
      "loss": 3.8549,
      "step": 274040
    },
    {
      "epoch": 0.5709375,
      "grad_norm": 0.7614850401878357,
      "learning_rate": 0.00011767309837865704,
      "loss": 3.8632,
      "step": 274050
    },
    {
      "epoch": 0.5709583333333333,
      "grad_norm": 1.1403638124465942,
      "learning_rate": 0.00011766347155988191,
      "loss": 3.7133,
      "step": 274060
    },
    {
      "epoch": 0.5709791666666667,
      "grad_norm": 0.7814092636108398,
      "learning_rate": 0.00011765384488078784,
      "loss": 3.852,
      "step": 274070
    },
    {
      "epoch": 0.571,
      "grad_norm": 0.7937983274459839,
      "learning_rate": 0.00011764421834141636,
      "loss": 3.7905,
      "step": 274080
    },
    {
      "epoch": 0.5710208333333333,
      "grad_norm": 0.7812862992286682,
      "learning_rate": 0.00011763459194180898,
      "loss": 3.452,
      "step": 274090
    },
    {
      "epoch": 0.5710416666666667,
      "grad_norm": 1.3306028842926025,
      "learning_rate": 0.00011762496568200738,
      "loss": 3.8489,
      "step": 274100
    },
    {
      "epoch": 0.5710625,
      "grad_norm": 0.8183709383010864,
      "learning_rate": 0.00011761533956205315,
      "loss": 4.0026,
      "step": 274110
    },
    {
      "epoch": 0.5710833333333334,
      "grad_norm": 0.8528122305870056,
      "learning_rate": 0.00011760571358198781,
      "loss": 3.8579,
      "step": 274120
    },
    {
      "epoch": 0.5711041666666666,
      "grad_norm": 0.8397809863090515,
      "learning_rate": 0.00011759608774185292,
      "loss": 3.7695,
      "step": 274130
    },
    {
      "epoch": 0.571125,
      "grad_norm": 0.820169985294342,
      "learning_rate": 0.00011758646204169018,
      "loss": 3.9001,
      "step": 274140
    },
    {
      "epoch": 0.5711458333333334,
      "grad_norm": 0.8245995044708252,
      "learning_rate": 0.00011757683648154106,
      "loss": 3.8708,
      "step": 274150
    },
    {
      "epoch": 0.5711666666666667,
      "grad_norm": 0.988131046295166,
      "learning_rate": 0.00011756721106144714,
      "loss": 3.7674,
      "step": 274160
    },
    {
      "epoch": 0.5711875,
      "grad_norm": 0.9914600849151611,
      "learning_rate": 0.00011755758578145008,
      "loss": 3.9039,
      "step": 274170
    },
    {
      "epoch": 0.5712083333333333,
      "grad_norm": 0.7528577446937561,
      "learning_rate": 0.00011754796064159138,
      "loss": 3.7455,
      "step": 274180
    },
    {
      "epoch": 0.5712291666666667,
      "grad_norm": 1.0025426149368286,
      "learning_rate": 0.00011753833564191262,
      "loss": 3.7955,
      "step": 274190
    },
    {
      "epoch": 0.57125,
      "grad_norm": 0.7343392968177795,
      "learning_rate": 0.00011752871078245547,
      "loss": 3.7485,
      "step": 274200
    },
    {
      "epoch": 0.5712708333333333,
      "grad_norm": 0.7452153563499451,
      "learning_rate": 0.00011751908606326141,
      "loss": 3.8733,
      "step": 274210
    },
    {
      "epoch": 0.5712916666666666,
      "grad_norm": 0.8600206971168518,
      "learning_rate": 0.00011750946148437201,
      "loss": 3.7674,
      "step": 274220
    },
    {
      "epoch": 0.5713125,
      "grad_norm": 0.8245441913604736,
      "learning_rate": 0.0001174998370458289,
      "loss": 3.8016,
      "step": 274230
    },
    {
      "epoch": 0.5713333333333334,
      "grad_norm": 0.8802472949028015,
      "learning_rate": 0.00011749021274767365,
      "loss": 3.9184,
      "step": 274240
    },
    {
      "epoch": 0.5713541666666667,
      "grad_norm": 0.7815989851951599,
      "learning_rate": 0.00011748058858994776,
      "loss": 3.8115,
      "step": 274250
    },
    {
      "epoch": 0.571375,
      "grad_norm": 0.8811493515968323,
      "learning_rate": 0.00011747096457269288,
      "loss": 3.7627,
      "step": 274260
    },
    {
      "epoch": 0.5713958333333333,
      "grad_norm": 0.8582258224487305,
      "learning_rate": 0.00011746134069595058,
      "loss": 3.6471,
      "step": 274270
    },
    {
      "epoch": 0.5714166666666667,
      "grad_norm": 0.8980820775032043,
      "learning_rate": 0.00011745171695976236,
      "loss": 3.71,
      "step": 274280
    },
    {
      "epoch": 0.5714375,
      "grad_norm": 0.8249735832214355,
      "learning_rate": 0.00011744209336416988,
      "loss": 3.7698,
      "step": 274290
    },
    {
      "epoch": 0.5714583333333333,
      "grad_norm": 0.7503482103347778,
      "learning_rate": 0.00011743246990921469,
      "loss": 3.7133,
      "step": 274300
    },
    {
      "epoch": 0.5714791666666666,
      "grad_norm": 0.7117090225219727,
      "learning_rate": 0.00011742284659493827,
      "loss": 3.6699,
      "step": 274310
    },
    {
      "epoch": 0.5715,
      "grad_norm": 0.806372880935669,
      "learning_rate": 0.0001174132234213823,
      "loss": 3.7995,
      "step": 274320
    },
    {
      "epoch": 0.5715208333333334,
      "grad_norm": 0.8315801024436951,
      "learning_rate": 0.00011740360038858832,
      "loss": 3.7484,
      "step": 274330
    },
    {
      "epoch": 0.5715416666666666,
      "grad_norm": 0.8039613366127014,
      "learning_rate": 0.00011739397749659783,
      "loss": 3.63,
      "step": 274340
    },
    {
      "epoch": 0.5715625,
      "grad_norm": 0.817229151725769,
      "learning_rate": 0.00011738435474545252,
      "loss": 3.8964,
      "step": 274350
    },
    {
      "epoch": 0.5715833333333333,
      "grad_norm": 0.918545126914978,
      "learning_rate": 0.00011737473213519385,
      "loss": 3.6136,
      "step": 274360
    },
    {
      "epoch": 0.5716041666666667,
      "grad_norm": 0.8924376368522644,
      "learning_rate": 0.0001173651096658634,
      "loss": 3.4763,
      "step": 274370
    },
    {
      "epoch": 0.571625,
      "grad_norm": 0.8867998123168945,
      "learning_rate": 0.00011735548733750281,
      "loss": 3.7518,
      "step": 274380
    },
    {
      "epoch": 0.5716458333333333,
      "grad_norm": 1.022496223449707,
      "learning_rate": 0.00011734586515015355,
      "loss": 3.8541,
      "step": 274390
    },
    {
      "epoch": 0.5716666666666667,
      "grad_norm": 0.8580141663551331,
      "learning_rate": 0.00011733624310385722,
      "loss": 3.6982,
      "step": 274400
    },
    {
      "epoch": 0.5716875,
      "grad_norm": 0.7598016858100891,
      "learning_rate": 0.00011732662119865544,
      "loss": 3.7299,
      "step": 274410
    },
    {
      "epoch": 0.5717083333333334,
      "grad_norm": 0.9566987752914429,
      "learning_rate": 0.00011731699943458971,
      "loss": 3.8307,
      "step": 274420
    },
    {
      "epoch": 0.5717291666666666,
      "grad_norm": 0.9268655180931091,
      "learning_rate": 0.00011730737781170164,
      "loss": 3.803,
      "step": 274430
    },
    {
      "epoch": 0.57175,
      "grad_norm": 0.8251187205314636,
      "learning_rate": 0.00011729775633003266,
      "loss": 3.7263,
      "step": 274440
    },
    {
      "epoch": 0.5717708333333333,
      "grad_norm": 0.7996129989624023,
      "learning_rate": 0.0001172881349896245,
      "loss": 3.7529,
      "step": 274450
    },
    {
      "epoch": 0.5717916666666667,
      "grad_norm": 1.0079209804534912,
      "learning_rate": 0.00011727851379051865,
      "loss": 3.7937,
      "step": 274460
    },
    {
      "epoch": 0.5718125,
      "grad_norm": 0.9262155890464783,
      "learning_rate": 0.0001172688927327566,
      "loss": 3.8874,
      "step": 274470
    },
    {
      "epoch": 0.5718333333333333,
      "grad_norm": 0.7892327308654785,
      "learning_rate": 0.00011725927181638006,
      "loss": 3.7631,
      "step": 274480
    },
    {
      "epoch": 0.5718541666666667,
      "grad_norm": 0.8933086395263672,
      "learning_rate": 0.00011724965104143046,
      "loss": 4.0573,
      "step": 274490
    },
    {
      "epoch": 0.571875,
      "grad_norm": 0.9076417684555054,
      "learning_rate": 0.00011724003040794939,
      "loss": 3.9481,
      "step": 274500
    },
    {
      "epoch": 0.5718958333333334,
      "grad_norm": 0.8971760272979736,
      "learning_rate": 0.00011723040991597847,
      "loss": 3.7545,
      "step": 274510
    },
    {
      "epoch": 0.5719166666666666,
      "grad_norm": 0.8874976634979248,
      "learning_rate": 0.00011722078956555918,
      "loss": 3.7882,
      "step": 274520
    },
    {
      "epoch": 0.5719375,
      "grad_norm": 0.8306618332862854,
      "learning_rate": 0.00011721116935673308,
      "loss": 3.8696,
      "step": 274530
    },
    {
      "epoch": 0.5719583333333333,
      "grad_norm": 0.798759400844574,
      "learning_rate": 0.0001172015492895418,
      "loss": 3.8053,
      "step": 274540
    },
    {
      "epoch": 0.5719791666666667,
      "grad_norm": 0.8263134956359863,
      "learning_rate": 0.00011719192936402681,
      "loss": 3.7741,
      "step": 274550
    },
    {
      "epoch": 0.572,
      "grad_norm": 0.8276153802871704,
      "learning_rate": 0.00011718230958022969,
      "loss": 3.6855,
      "step": 274560
    },
    {
      "epoch": 0.5720208333333333,
      "grad_norm": 0.9705834984779358,
      "learning_rate": 0.00011717268993819206,
      "loss": 3.7402,
      "step": 274570
    },
    {
      "epoch": 0.5720416666666667,
      "grad_norm": 0.7731074690818787,
      "learning_rate": 0.0001171630704379554,
      "loss": 3.7237,
      "step": 274580
    },
    {
      "epoch": 0.5720625,
      "grad_norm": 0.7176411747932434,
      "learning_rate": 0.00011715345107956123,
      "loss": 3.768,
      "step": 274590
    },
    {
      "epoch": 0.5720833333333334,
      "grad_norm": 0.9898891448974609,
      "learning_rate": 0.00011714383186305118,
      "loss": 3.7631,
      "step": 274600
    },
    {
      "epoch": 0.5721041666666666,
      "grad_norm": 0.8375130295753479,
      "learning_rate": 0.00011713421278846679,
      "loss": 3.6952,
      "step": 274610
    },
    {
      "epoch": 0.572125,
      "grad_norm": 0.8434851765632629,
      "learning_rate": 0.00011712459385584953,
      "loss": 3.7661,
      "step": 274620
    },
    {
      "epoch": 0.5721458333333334,
      "grad_norm": 0.7985753417015076,
      "learning_rate": 0.00011711497506524105,
      "loss": 3.683,
      "step": 274630
    },
    {
      "epoch": 0.5721666666666667,
      "grad_norm": 0.8611845374107361,
      "learning_rate": 0.0001171053564166829,
      "loss": 3.8595,
      "step": 274640
    },
    {
      "epoch": 0.5721875,
      "grad_norm": 0.99305260181427,
      "learning_rate": 0.00011709573791021651,
      "loss": 3.9164,
      "step": 274650
    },
    {
      "epoch": 0.5722083333333333,
      "grad_norm": 0.7973434925079346,
      "learning_rate": 0.00011708611954588355,
      "loss": 3.8458,
      "step": 274660
    },
    {
      "epoch": 0.5722291666666667,
      "grad_norm": 0.8587682247161865,
      "learning_rate": 0.00011707650132372556,
      "loss": 3.7848,
      "step": 274670
    },
    {
      "epoch": 0.57225,
      "grad_norm": 0.7912922501564026,
      "learning_rate": 0.00011706688324378399,
      "loss": 3.9273,
      "step": 274680
    },
    {
      "epoch": 0.5722708333333333,
      "grad_norm": 0.8858432769775391,
      "learning_rate": 0.00011705726530610045,
      "loss": 3.8429,
      "step": 274690
    },
    {
      "epoch": 0.5722916666666666,
      "grad_norm": 0.7729662656784058,
      "learning_rate": 0.00011704764751071655,
      "loss": 3.7938,
      "step": 274700
    },
    {
      "epoch": 0.5723125,
      "grad_norm": 1.0391449928283691,
      "learning_rate": 0.00011703802985767377,
      "loss": 3.7389,
      "step": 274710
    },
    {
      "epoch": 0.5723333333333334,
      "grad_norm": 0.7763856053352356,
      "learning_rate": 0.00011702841234701358,
      "loss": 3.7688,
      "step": 274720
    },
    {
      "epoch": 0.5723541666666667,
      "grad_norm": 0.9400557279586792,
      "learning_rate": 0.00011701879497877761,
      "loss": 3.7793,
      "step": 274730
    },
    {
      "epoch": 0.572375,
      "grad_norm": 0.873759388923645,
      "learning_rate": 0.00011700917775300747,
      "loss": 3.8852,
      "step": 274740
    },
    {
      "epoch": 0.5723958333333333,
      "grad_norm": 0.8763061165809631,
      "learning_rate": 0.00011699956066974451,
      "loss": 3.7868,
      "step": 274750
    },
    {
      "epoch": 0.5724166666666667,
      "grad_norm": 0.8676436543464661,
      "learning_rate": 0.00011698994372903044,
      "loss": 3.6558,
      "step": 274760
    },
    {
      "epoch": 0.5724375,
      "grad_norm": 0.7874088287353516,
      "learning_rate": 0.00011698032693090678,
      "loss": 3.8699,
      "step": 274770
    },
    {
      "epoch": 0.5724583333333333,
      "grad_norm": 0.8559955954551697,
      "learning_rate": 0.00011697071027541498,
      "loss": 3.836,
      "step": 274780
    },
    {
      "epoch": 0.5724791666666667,
      "grad_norm": 0.8267150521278381,
      "learning_rate": 0.00011696109376259665,
      "loss": 3.6929,
      "step": 274790
    },
    {
      "epoch": 0.5725,
      "grad_norm": 0.8267019391059875,
      "learning_rate": 0.00011695147739249336,
      "loss": 3.6369,
      "step": 274800
    },
    {
      "epoch": 0.5725208333333334,
      "grad_norm": 0.7934754490852356,
      "learning_rate": 0.00011694186116514655,
      "loss": 3.6245,
      "step": 274810
    },
    {
      "epoch": 0.5725416666666666,
      "grad_norm": 0.8750683665275574,
      "learning_rate": 0.00011693224508059784,
      "loss": 3.7694,
      "step": 274820
    },
    {
      "epoch": 0.5725625,
      "grad_norm": 0.9123368859291077,
      "learning_rate": 0.00011692262913888876,
      "loss": 3.8153,
      "step": 274830
    },
    {
      "epoch": 0.5725833333333333,
      "grad_norm": 0.7168344259262085,
      "learning_rate": 0.00011691301334006078,
      "loss": 3.6598,
      "step": 274840
    },
    {
      "epoch": 0.5726041666666667,
      "grad_norm": 0.788493275642395,
      "learning_rate": 0.00011690339768415555,
      "loss": 3.678,
      "step": 274850
    },
    {
      "epoch": 0.572625,
      "grad_norm": 0.8842141032218933,
      "learning_rate": 0.00011689378217121451,
      "loss": 3.8323,
      "step": 274860
    },
    {
      "epoch": 0.5726458333333333,
      "grad_norm": 0.7647966146469116,
      "learning_rate": 0.00011688416680127918,
      "loss": 3.5974,
      "step": 274870
    },
    {
      "epoch": 0.5726666666666667,
      "grad_norm": 0.7852692604064941,
      "learning_rate": 0.00011687455157439123,
      "loss": 3.8136,
      "step": 274880
    },
    {
      "epoch": 0.5726875,
      "grad_norm": 0.9484952688217163,
      "learning_rate": 0.00011686493649059206,
      "loss": 3.8082,
      "step": 274890
    },
    {
      "epoch": 0.5727083333333334,
      "grad_norm": 0.8262360692024231,
      "learning_rate": 0.00011685532154992321,
      "loss": 3.8196,
      "step": 274900
    },
    {
      "epoch": 0.5727291666666666,
      "grad_norm": 1.0188392400741577,
      "learning_rate": 0.00011684570675242633,
      "loss": 3.7073,
      "step": 274910
    },
    {
      "epoch": 0.57275,
      "grad_norm": 0.8130653500556946,
      "learning_rate": 0.00011683609209814284,
      "loss": 3.9878,
      "step": 274920
    },
    {
      "epoch": 0.5727708333333333,
      "grad_norm": 0.7400268912315369,
      "learning_rate": 0.00011682647758711425,
      "loss": 3.7273,
      "step": 274930
    },
    {
      "epoch": 0.5727916666666667,
      "grad_norm": 0.8297949433326721,
      "learning_rate": 0.00011681686321938223,
      "loss": 3.8857,
      "step": 274940
    },
    {
      "epoch": 0.5728125,
      "grad_norm": 0.9103479385375977,
      "learning_rate": 0.00011680724899498822,
      "loss": 3.8358,
      "step": 274950
    },
    {
      "epoch": 0.5728333333333333,
      "grad_norm": 0.8396608233451843,
      "learning_rate": 0.00011679763491397369,
      "loss": 3.8458,
      "step": 274960
    },
    {
      "epoch": 0.5728541666666667,
      "grad_norm": 0.8638818860054016,
      "learning_rate": 0.00011678802097638027,
      "loss": 3.8506,
      "step": 274970
    },
    {
      "epoch": 0.572875,
      "grad_norm": 0.7840432524681091,
      "learning_rate": 0.00011677840718224949,
      "loss": 3.8193,
      "step": 274980
    },
    {
      "epoch": 0.5728958333333334,
      "grad_norm": 0.8375134468078613,
      "learning_rate": 0.00011676879353162277,
      "loss": 3.7693,
      "step": 274990
    },
    {
      "epoch": 0.5729166666666666,
      "grad_norm": 0.8505311608314514,
      "learning_rate": 0.00011675918002454175,
      "loss": 3.7844,
      "step": 275000
    },
    {
      "epoch": 0.5729166666666666,
      "eval_loss": 4.101700782775879,
      "eval_runtime": 9.2856,
      "eval_samples_per_second": 1.077,
      "eval_steps_per_second": 0.323,
      "step": 275000
    },
    {
      "epoch": 0.5729375,
      "grad_norm": 0.7937486171722412,
      "learning_rate": 0.00011674956666104794,
      "loss": 3.83,
      "step": 275010
    },
    {
      "epoch": 0.5729583333333333,
      "grad_norm": 0.7537770867347717,
      "learning_rate": 0.0001167399534411828,
      "loss": 3.907,
      "step": 275020
    },
    {
      "epoch": 0.5729791666666667,
      "grad_norm": 0.8386744856834412,
      "learning_rate": 0.00011673034036498788,
      "loss": 3.7704,
      "step": 275030
    },
    {
      "epoch": 0.573,
      "grad_norm": 0.8005364537239075,
      "learning_rate": 0.00011672072743250477,
      "loss": 3.7757,
      "step": 275040
    },
    {
      "epoch": 0.5730208333333333,
      "grad_norm": 0.8050084114074707,
      "learning_rate": 0.00011671111464377492,
      "loss": 3.6025,
      "step": 275050
    },
    {
      "epoch": 0.5730416666666667,
      "grad_norm": 0.8033984899520874,
      "learning_rate": 0.00011670150199883984,
      "loss": 3.8183,
      "step": 275060
    },
    {
      "epoch": 0.5730625,
      "grad_norm": 0.9856022596359253,
      "learning_rate": 0.00011669188949774117,
      "loss": 3.7432,
      "step": 275070
    },
    {
      "epoch": 0.5730833333333333,
      "grad_norm": 1.1012897491455078,
      "learning_rate": 0.00011668227714052034,
      "loss": 3.7479,
      "step": 275080
    },
    {
      "epoch": 0.5731041666666666,
      "grad_norm": 0.8343968391418457,
      "learning_rate": 0.00011667266492721883,
      "loss": 3.6531,
      "step": 275090
    },
    {
      "epoch": 0.573125,
      "grad_norm": 1.0343413352966309,
      "learning_rate": 0.00011666305285787822,
      "loss": 3.7383,
      "step": 275100
    },
    {
      "epoch": 0.5731458333333334,
      "grad_norm": 0.8070732355117798,
      "learning_rate": 0.0001166534409325401,
      "loss": 3.8263,
      "step": 275110
    },
    {
      "epoch": 0.5731666666666667,
      "grad_norm": 0.8658197522163391,
      "learning_rate": 0.00011664382915124583,
      "loss": 3.7377,
      "step": 275120
    },
    {
      "epoch": 0.5731875,
      "grad_norm": 0.8228360414505005,
      "learning_rate": 0.00011663421751403704,
      "loss": 3.815,
      "step": 275130
    },
    {
      "epoch": 0.5732083333333333,
      "grad_norm": 0.8824344873428345,
      "learning_rate": 0.00011662460602095526,
      "loss": 3.791,
      "step": 275140
    },
    {
      "epoch": 0.5732291666666667,
      "grad_norm": 0.856189489364624,
      "learning_rate": 0.00011661499467204192,
      "loss": 3.9577,
      "step": 275150
    },
    {
      "epoch": 0.57325,
      "grad_norm": 0.7892290949821472,
      "learning_rate": 0.0001166053834673386,
      "loss": 3.8205,
      "step": 275160
    },
    {
      "epoch": 0.5732708333333333,
      "grad_norm": 0.8827645778656006,
      "learning_rate": 0.00011659577240688685,
      "loss": 3.8414,
      "step": 275170
    },
    {
      "epoch": 0.5732916666666666,
      "grad_norm": 0.806167483329773,
      "learning_rate": 0.00011658616149072808,
      "loss": 3.8062,
      "step": 275180
    },
    {
      "epoch": 0.5733125,
      "grad_norm": 1.7733495235443115,
      "learning_rate": 0.00011657655071890389,
      "loss": 3.7601,
      "step": 275190
    },
    {
      "epoch": 0.5733333333333334,
      "grad_norm": 0.847686231136322,
      "learning_rate": 0.00011656694009145581,
      "loss": 3.6331,
      "step": 275200
    },
    {
      "epoch": 0.5733541666666667,
      "grad_norm": 0.8991918563842773,
      "learning_rate": 0.00011655732960842525,
      "loss": 3.7566,
      "step": 275210
    },
    {
      "epoch": 0.573375,
      "grad_norm": 0.8332071304321289,
      "learning_rate": 0.00011654771926985385,
      "loss": 3.6877,
      "step": 275220
    },
    {
      "epoch": 0.5733958333333333,
      "grad_norm": 0.8840717077255249,
      "learning_rate": 0.00011653810907578302,
      "loss": 3.6371,
      "step": 275230
    },
    {
      "epoch": 0.5734166666666667,
      "grad_norm": 0.7638934850692749,
      "learning_rate": 0.00011652849902625429,
      "loss": 3.8524,
      "step": 275240
    },
    {
      "epoch": 0.5734375,
      "grad_norm": 0.873481035232544,
      "learning_rate": 0.00011651888912130926,
      "loss": 3.7878,
      "step": 275250
    },
    {
      "epoch": 0.5734583333333333,
      "grad_norm": 0.8727297782897949,
      "learning_rate": 0.00011650927936098934,
      "loss": 3.8513,
      "step": 275260
    },
    {
      "epoch": 0.5734791666666667,
      "grad_norm": 0.9276388883590698,
      "learning_rate": 0.00011649966974533606,
      "loss": 3.7945,
      "step": 275270
    },
    {
      "epoch": 0.5735,
      "grad_norm": 0.9723181128501892,
      "learning_rate": 0.00011649006027439099,
      "loss": 3.8507,
      "step": 275280
    },
    {
      "epoch": 0.5735208333333334,
      "grad_norm": 0.9335536956787109,
      "learning_rate": 0.00011648045094819557,
      "loss": 3.7063,
      "step": 275290
    },
    {
      "epoch": 0.5735416666666666,
      "grad_norm": 0.8370121717453003,
      "learning_rate": 0.00011647084176679138,
      "loss": 3.6894,
      "step": 275300
    },
    {
      "epoch": 0.5735625,
      "grad_norm": 0.8369017243385315,
      "learning_rate": 0.0001164612327302198,
      "loss": 3.8444,
      "step": 275310
    },
    {
      "epoch": 0.5735833333333333,
      "grad_norm": 0.8801559805870056,
      "learning_rate": 0.00011645162383852251,
      "loss": 3.7006,
      "step": 275320
    },
    {
      "epoch": 0.5736041666666667,
      "grad_norm": 0.9120083451271057,
      "learning_rate": 0.00011644201509174085,
      "loss": 3.8019,
      "step": 275330
    },
    {
      "epoch": 0.573625,
      "grad_norm": 0.7908041477203369,
      "learning_rate": 0.00011643240648991639,
      "loss": 3.6817,
      "step": 275340
    },
    {
      "epoch": 0.5736458333333333,
      "grad_norm": 0.9055659770965576,
      "learning_rate": 0.00011642279803309072,
      "loss": 3.7889,
      "step": 275350
    },
    {
      "epoch": 0.5736666666666667,
      "grad_norm": 0.7871668338775635,
      "learning_rate": 0.00011641318972130525,
      "loss": 3.7804,
      "step": 275360
    },
    {
      "epoch": 0.5736875,
      "grad_norm": 1.0399399995803833,
      "learning_rate": 0.00011640358155460144,
      "loss": 3.8679,
      "step": 275370
    },
    {
      "epoch": 0.5737083333333334,
      "grad_norm": 0.7657402753829956,
      "learning_rate": 0.00011639397353302094,
      "loss": 3.898,
      "step": 275380
    },
    {
      "epoch": 0.5737291666666666,
      "grad_norm": 0.7470833659172058,
      "learning_rate": 0.00011638436565660515,
      "loss": 3.7332,
      "step": 275390
    },
    {
      "epoch": 0.57375,
      "grad_norm": 0.758944571018219,
      "learning_rate": 0.00011637475792539553,
      "loss": 3.7507,
      "step": 275400
    },
    {
      "epoch": 0.5737708333333333,
      "grad_norm": 0.6857202649116516,
      "learning_rate": 0.00011636515033943375,
      "loss": 3.7527,
      "step": 275410
    },
    {
      "epoch": 0.5737916666666667,
      "grad_norm": 0.855756402015686,
      "learning_rate": 0.00011635554289876115,
      "loss": 3.9631,
      "step": 275420
    },
    {
      "epoch": 0.5738125,
      "grad_norm": 0.7606830596923828,
      "learning_rate": 0.00011634593560341927,
      "loss": 3.8099,
      "step": 275430
    },
    {
      "epoch": 0.5738333333333333,
      "grad_norm": 0.75779128074646,
      "learning_rate": 0.00011633632845344968,
      "loss": 3.7275,
      "step": 275440
    },
    {
      "epoch": 0.5738541666666667,
      "grad_norm": 1.1025310754776,
      "learning_rate": 0.00011632672144889383,
      "loss": 3.9066,
      "step": 275450
    },
    {
      "epoch": 0.573875,
      "grad_norm": 0.9333045482635498,
      "learning_rate": 0.00011631711458979316,
      "loss": 3.7345,
      "step": 275460
    },
    {
      "epoch": 0.5738958333333334,
      "grad_norm": 0.9710012674331665,
      "learning_rate": 0.00011630750787618923,
      "loss": 3.6479,
      "step": 275470
    },
    {
      "epoch": 0.5739166666666666,
      "grad_norm": 0.9977791905403137,
      "learning_rate": 0.00011629790130812358,
      "loss": 3.6575,
      "step": 275480
    },
    {
      "epoch": 0.5739375,
      "grad_norm": 0.8293595910072327,
      "learning_rate": 0.0001162882948856376,
      "loss": 3.986,
      "step": 275490
    },
    {
      "epoch": 0.5739583333333333,
      "grad_norm": 0.8953592777252197,
      "learning_rate": 0.00011627868860877287,
      "loss": 3.6841,
      "step": 275500
    },
    {
      "epoch": 0.5739791666666667,
      "grad_norm": 0.9330013394355774,
      "learning_rate": 0.00011626908247757087,
      "loss": 3.759,
      "step": 275510
    },
    {
      "epoch": 0.574,
      "grad_norm": 0.8581236600875854,
      "learning_rate": 0.00011625947649207304,
      "loss": 3.8573,
      "step": 275520
    },
    {
      "epoch": 0.5740208333333333,
      "grad_norm": 0.962185263633728,
      "learning_rate": 0.00011624987065232093,
      "loss": 3.8452,
      "step": 275530
    },
    {
      "epoch": 0.5740416666666667,
      "grad_norm": 1.1009138822555542,
      "learning_rate": 0.00011624026495835605,
      "loss": 3.6848,
      "step": 275540
    },
    {
      "epoch": 0.5740625,
      "grad_norm": 0.7731558680534363,
      "learning_rate": 0.0001162306594102198,
      "loss": 3.7652,
      "step": 275550
    },
    {
      "epoch": 0.5740833333333333,
      "grad_norm": 0.6862304210662842,
      "learning_rate": 0.0001162210540079538,
      "loss": 3.6082,
      "step": 275560
    },
    {
      "epoch": 0.5741041666666666,
      "grad_norm": 0.9993494749069214,
      "learning_rate": 0.00011621144875159947,
      "loss": 3.7569,
      "step": 275570
    },
    {
      "epoch": 0.574125,
      "grad_norm": 0.727767288684845,
      "learning_rate": 0.00011620184364119825,
      "loss": 3.9308,
      "step": 275580
    },
    {
      "epoch": 0.5741458333333334,
      "grad_norm": 0.918232798576355,
      "learning_rate": 0.00011619223867679177,
      "loss": 3.8512,
      "step": 275590
    },
    {
      "epoch": 0.5741666666666667,
      "grad_norm": 0.7539295554161072,
      "learning_rate": 0.00011618263385842138,
      "loss": 3.8339,
      "step": 275600
    },
    {
      "epoch": 0.5741875,
      "grad_norm": 0.8184583783149719,
      "learning_rate": 0.00011617302918612868,
      "loss": 3.7018,
      "step": 275610
    },
    {
      "epoch": 0.5742083333333333,
      "grad_norm": 0.7708327770233154,
      "learning_rate": 0.00011616342465995502,
      "loss": 3.7737,
      "step": 275620
    },
    {
      "epoch": 0.5742291666666667,
      "grad_norm": 0.7649028897285461,
      "learning_rate": 0.00011615382027994202,
      "loss": 3.7365,
      "step": 275630
    },
    {
      "epoch": 0.57425,
      "grad_norm": 0.8017619252204895,
      "learning_rate": 0.00011614421604613114,
      "loss": 3.8247,
      "step": 275640
    },
    {
      "epoch": 0.5742708333333333,
      "grad_norm": 0.8311747908592224,
      "learning_rate": 0.00011613461195856379,
      "loss": 3.7124,
      "step": 275650
    },
    {
      "epoch": 0.5742916666666666,
      "grad_norm": 0.8670610785484314,
      "learning_rate": 0.00011612500801728154,
      "loss": 3.8393,
      "step": 275660
    },
    {
      "epoch": 0.5743125,
      "grad_norm": 0.8987033367156982,
      "learning_rate": 0.00011611540422232588,
      "loss": 3.7175,
      "step": 275670
    },
    {
      "epoch": 0.5743333333333334,
      "grad_norm": 0.7643636465072632,
      "learning_rate": 0.00011610580057373819,
      "loss": 3.883,
      "step": 275680
    },
    {
      "epoch": 0.5743541666666667,
      "grad_norm": 0.8477941751480103,
      "learning_rate": 0.00011609619707156007,
      "loss": 3.7848,
      "step": 275690
    },
    {
      "epoch": 0.574375,
      "grad_norm": 1.1234873533248901,
      "learning_rate": 0.00011608659371583298,
      "loss": 3.7406,
      "step": 275700
    },
    {
      "epoch": 0.5743958333333333,
      "grad_norm": 0.8283042907714844,
      "learning_rate": 0.00011607699050659832,
      "loss": 3.6755,
      "step": 275710
    },
    {
      "epoch": 0.5744166666666667,
      "grad_norm": 1.0007904767990112,
      "learning_rate": 0.00011606738744389771,
      "loss": 3.8675,
      "step": 275720
    },
    {
      "epoch": 0.5744375,
      "grad_norm": 0.8130150437355042,
      "learning_rate": 0.0001160577845277725,
      "loss": 3.644,
      "step": 275730
    },
    {
      "epoch": 0.5744583333333333,
      "grad_norm": 0.7598440051078796,
      "learning_rate": 0.00011604818175826421,
      "loss": 3.7011,
      "step": 275740
    },
    {
      "epoch": 0.5744791666666667,
      "grad_norm": 0.7839648723602295,
      "learning_rate": 0.00011603857913541439,
      "loss": 3.7523,
      "step": 275750
    },
    {
      "epoch": 0.5745,
      "grad_norm": 0.9632213115692139,
      "learning_rate": 0.00011602897665926446,
      "loss": 3.765,
      "step": 275760
    },
    {
      "epoch": 0.5745208333333334,
      "grad_norm": 0.9216117858886719,
      "learning_rate": 0.00011601937432985584,
      "loss": 3.8628,
      "step": 275770
    },
    {
      "epoch": 0.5745416666666666,
      "grad_norm": 0.7474203705787659,
      "learning_rate": 0.00011600977214723015,
      "loss": 3.8999,
      "step": 275780
    },
    {
      "epoch": 0.5745625,
      "grad_norm": 0.7633328437805176,
      "learning_rate": 0.00011600017011142874,
      "loss": 4.0285,
      "step": 275790
    },
    {
      "epoch": 0.5745833333333333,
      "grad_norm": 0.8602767586708069,
      "learning_rate": 0.00011599056822249313,
      "loss": 3.8838,
      "step": 275800
    },
    {
      "epoch": 0.5746041666666667,
      "grad_norm": 0.8672155737876892,
      "learning_rate": 0.00011598096648046484,
      "loss": 3.802,
      "step": 275810
    },
    {
      "epoch": 0.574625,
      "grad_norm": 0.8795049786567688,
      "learning_rate": 0.00011597136488538534,
      "loss": 3.6992,
      "step": 275820
    },
    {
      "epoch": 0.5746458333333333,
      "grad_norm": 1.0457502603530884,
      "learning_rate": 0.00011596176343729596,
      "loss": 3.6385,
      "step": 275830
    },
    {
      "epoch": 0.5746666666666667,
      "grad_norm": 0.7863340377807617,
      "learning_rate": 0.00011595216213623839,
      "loss": 3.8205,
      "step": 275840
    },
    {
      "epoch": 0.5746875,
      "grad_norm": 0.8680471777915955,
      "learning_rate": 0.00011594256098225401,
      "loss": 3.6996,
      "step": 275850
    },
    {
      "epoch": 0.5747083333333334,
      "grad_norm": 0.7873648405075073,
      "learning_rate": 0.0001159329599753842,
      "loss": 3.9514,
      "step": 275860
    },
    {
      "epoch": 0.5747291666666666,
      "grad_norm": 0.8341253995895386,
      "learning_rate": 0.00011592335911567057,
      "loss": 3.9479,
      "step": 275870
    },
    {
      "epoch": 0.57475,
      "grad_norm": 1.0237222909927368,
      "learning_rate": 0.00011591375840315458,
      "loss": 3.8458,
      "step": 275880
    },
    {
      "epoch": 0.5747708333333333,
      "grad_norm": 0.9654949307441711,
      "learning_rate": 0.00011590415783787761,
      "loss": 3.8912,
      "step": 275890
    },
    {
      "epoch": 0.5747916666666667,
      "grad_norm": 0.7952190637588501,
      "learning_rate": 0.00011589455741988114,
      "loss": 3.8185,
      "step": 275900
    },
    {
      "epoch": 0.5748125,
      "grad_norm": 0.8198661804199219,
      "learning_rate": 0.00011588495714920677,
      "loss": 3.6548,
      "step": 275910
    },
    {
      "epoch": 0.5748333333333333,
      "grad_norm": 0.9617007374763489,
      "learning_rate": 0.00011587535702589585,
      "loss": 3.7373,
      "step": 275920
    },
    {
      "epoch": 0.5748541666666667,
      "grad_norm": 0.811469554901123,
      "learning_rate": 0.00011586575704998984,
      "loss": 3.8463,
      "step": 275930
    },
    {
      "epoch": 0.574875,
      "grad_norm": 0.8409115672111511,
      "learning_rate": 0.0001158561572215303,
      "loss": 3.8867,
      "step": 275940
    },
    {
      "epoch": 0.5748958333333334,
      "grad_norm": 1.102582335472107,
      "learning_rate": 0.00011584655754055867,
      "loss": 3.7729,
      "step": 275950
    },
    {
      "epoch": 0.5749166666666666,
      "grad_norm": 0.7899297475814819,
      "learning_rate": 0.0001158369580071163,
      "loss": 4.0253,
      "step": 275960
    },
    {
      "epoch": 0.5749375,
      "grad_norm": 0.821137547492981,
      "learning_rate": 0.0001158273586212448,
      "loss": 3.9076,
      "step": 275970
    },
    {
      "epoch": 0.5749583333333333,
      "grad_norm": 0.8856390714645386,
      "learning_rate": 0.00011581775938298562,
      "loss": 3.6815,
      "step": 275980
    },
    {
      "epoch": 0.5749791666666667,
      "grad_norm": 0.8904665112495422,
      "learning_rate": 0.00011580816029238012,
      "loss": 3.6895,
      "step": 275990
    },
    {
      "epoch": 0.575,
      "grad_norm": 0.7798004150390625,
      "learning_rate": 0.00011579856134946986,
      "loss": 3.7466,
      "step": 276000
    },
    {
      "epoch": 0.575,
      "eval_loss": 4.089731693267822,
      "eval_runtime": 8.8582,
      "eval_samples_per_second": 1.129,
      "eval_steps_per_second": 0.339,
      "step": 276000
    },
    {
      "epoch": 0.5750208333333333,
      "grad_norm": 0.8398697376251221,
      "learning_rate": 0.00011578896255429632,
      "loss": 3.7012,
      "step": 276010
    },
    {
      "epoch": 0.5750416666666667,
      "grad_norm": 0.9369279742240906,
      "learning_rate": 0.00011577936390690083,
      "loss": 3.808,
      "step": 276020
    },
    {
      "epoch": 0.5750625,
      "grad_norm": 0.9144772887229919,
      "learning_rate": 0.000115769765407325,
      "loss": 3.7452,
      "step": 276030
    },
    {
      "epoch": 0.5750833333333333,
      "grad_norm": 0.8322731256484985,
      "learning_rate": 0.00011576016705561026,
      "loss": 3.8026,
      "step": 276040
    },
    {
      "epoch": 0.5751041666666666,
      "grad_norm": 0.8054218888282776,
      "learning_rate": 0.00011575056885179798,
      "loss": 3.6875,
      "step": 276050
    },
    {
      "epoch": 0.575125,
      "grad_norm": 1.0287894010543823,
      "learning_rate": 0.00011574097079592971,
      "loss": 3.8579,
      "step": 276060
    },
    {
      "epoch": 0.5751458333333334,
      "grad_norm": 0.8444398045539856,
      "learning_rate": 0.00011573137288804693,
      "loss": 3.7798,
      "step": 276070
    },
    {
      "epoch": 0.5751666666666667,
      "grad_norm": 0.8074960112571716,
      "learning_rate": 0.00011572177512819099,
      "loss": 3.7401,
      "step": 276080
    },
    {
      "epoch": 0.5751875,
      "grad_norm": 0.796407163143158,
      "learning_rate": 0.00011571217751640348,
      "loss": 3.6073,
      "step": 276090
    },
    {
      "epoch": 0.5752083333333333,
      "grad_norm": 0.787855327129364,
      "learning_rate": 0.00011570258005272574,
      "loss": 3.7012,
      "step": 276100
    },
    {
      "epoch": 0.5752291666666667,
      "grad_norm": 0.8759103417396545,
      "learning_rate": 0.00011569298273719926,
      "loss": 3.6616,
      "step": 276110
    },
    {
      "epoch": 0.57525,
      "grad_norm": 1.0056614875793457,
      "learning_rate": 0.00011568338556986558,
      "loss": 3.8178,
      "step": 276120
    },
    {
      "epoch": 0.5752708333333333,
      "grad_norm": 0.8209707736968994,
      "learning_rate": 0.00011567378855076605,
      "loss": 3.7729,
      "step": 276130
    },
    {
      "epoch": 0.5752916666666666,
      "grad_norm": 0.8240753412246704,
      "learning_rate": 0.00011566419167994215,
      "loss": 3.7674,
      "step": 276140
    },
    {
      "epoch": 0.5753125,
      "grad_norm": 0.8317669630050659,
      "learning_rate": 0.0001156545949574354,
      "loss": 3.7139,
      "step": 276150
    },
    {
      "epoch": 0.5753333333333334,
      "grad_norm": 0.8362876772880554,
      "learning_rate": 0.00011564499838328718,
      "loss": 3.8188,
      "step": 276160
    },
    {
      "epoch": 0.5753541666666667,
      "grad_norm": 0.8116744160652161,
      "learning_rate": 0.00011563540195753894,
      "loss": 3.8177,
      "step": 276170
    },
    {
      "epoch": 0.575375,
      "grad_norm": 0.9408127069473267,
      "learning_rate": 0.00011562580568023221,
      "loss": 3.8444,
      "step": 276180
    },
    {
      "epoch": 0.5753958333333333,
      "grad_norm": 0.8071548938751221,
      "learning_rate": 0.00011561620955140838,
      "loss": 3.6622,
      "step": 276190
    },
    {
      "epoch": 0.5754166666666667,
      "grad_norm": 0.9015122056007385,
      "learning_rate": 0.00011560661357110894,
      "loss": 3.6893,
      "step": 276200
    },
    {
      "epoch": 0.5754375,
      "grad_norm": 0.9506940245628357,
      "learning_rate": 0.00011559701773937525,
      "loss": 3.7817,
      "step": 276210
    },
    {
      "epoch": 0.5754583333333333,
      "grad_norm": 0.7924625873565674,
      "learning_rate": 0.00011558742205624888,
      "loss": 3.7025,
      "step": 276220
    },
    {
      "epoch": 0.5754791666666667,
      "grad_norm": 1.111708641052246,
      "learning_rate": 0.0001155778265217712,
      "loss": 3.9207,
      "step": 276230
    },
    {
      "epoch": 0.5755,
      "grad_norm": 0.8459513783454895,
      "learning_rate": 0.00011556823113598366,
      "loss": 3.8535,
      "step": 276240
    },
    {
      "epoch": 0.5755208333333334,
      "grad_norm": 0.9233331084251404,
      "learning_rate": 0.00011555863589892779,
      "loss": 3.9195,
      "step": 276250
    },
    {
      "epoch": 0.5755416666666666,
      "grad_norm": 0.8218464851379395,
      "learning_rate": 0.00011554904081064494,
      "loss": 3.9492,
      "step": 276260
    },
    {
      "epoch": 0.5755625,
      "grad_norm": 0.9118483662605286,
      "learning_rate": 0.00011553944587117659,
      "loss": 3.8237,
      "step": 276270
    },
    {
      "epoch": 0.5755833333333333,
      "grad_norm": 0.9056189060211182,
      "learning_rate": 0.00011552985108056424,
      "loss": 3.7517,
      "step": 276280
    },
    {
      "epoch": 0.5756041666666667,
      "grad_norm": 0.8144922852516174,
      "learning_rate": 0.00011552025643884926,
      "loss": 3.8458,
      "step": 276290
    },
    {
      "epoch": 0.575625,
      "grad_norm": 0.8394346237182617,
      "learning_rate": 0.00011551066194607308,
      "loss": 3.8025,
      "step": 276300
    },
    {
      "epoch": 0.5756458333333333,
      "grad_norm": 0.834094762802124,
      "learning_rate": 0.00011550106760227727,
      "loss": 3.8626,
      "step": 276310
    },
    {
      "epoch": 0.5756666666666667,
      "grad_norm": 0.9430779218673706,
      "learning_rate": 0.0001154914734075032,
      "loss": 3.5903,
      "step": 276320
    },
    {
      "epoch": 0.5756875,
      "grad_norm": 1.3130215406417847,
      "learning_rate": 0.00011548187936179218,
      "loss": 3.719,
      "step": 276330
    },
    {
      "epoch": 0.5757083333333334,
      "grad_norm": 0.8851138949394226,
      "learning_rate": 0.0001154722854651859,
      "loss": 3.6734,
      "step": 276340
    },
    {
      "epoch": 0.5757291666666666,
      "grad_norm": 0.8110343217849731,
      "learning_rate": 0.00011546269171772566,
      "loss": 3.7251,
      "step": 276350
    },
    {
      "epoch": 0.57575,
      "grad_norm": 0.8525301218032837,
      "learning_rate": 0.00011545309811945286,
      "loss": 3.8397,
      "step": 276360
    },
    {
      "epoch": 0.5757708333333333,
      "grad_norm": 0.8464174866676331,
      "learning_rate": 0.00011544350467040905,
      "loss": 3.8877,
      "step": 276370
    },
    {
      "epoch": 0.5757916666666667,
      "grad_norm": 0.7555222511291504,
      "learning_rate": 0.00011543391137063565,
      "loss": 3.7358,
      "step": 276380
    },
    {
      "epoch": 0.5758125,
      "grad_norm": 0.8820923566818237,
      "learning_rate": 0.00011542431822017399,
      "loss": 3.8359,
      "step": 276390
    },
    {
      "epoch": 0.5758333333333333,
      "grad_norm": 0.9812701344490051,
      "learning_rate": 0.00011541472521906563,
      "loss": 3.6207,
      "step": 276400
    },
    {
      "epoch": 0.5758541666666667,
      "grad_norm": 0.7603805065155029,
      "learning_rate": 0.000115405132367352,
      "loss": 3.8626,
      "step": 276410
    },
    {
      "epoch": 0.575875,
      "grad_norm": 0.8342525362968445,
      "learning_rate": 0.00011539553966507443,
      "loss": 3.7571,
      "step": 276420
    },
    {
      "epoch": 0.5758958333333334,
      "grad_norm": 0.7645283937454224,
      "learning_rate": 0.00011538594711227448,
      "loss": 3.9311,
      "step": 276430
    },
    {
      "epoch": 0.5759166666666666,
      "grad_norm": 1.0617059469223022,
      "learning_rate": 0.00011537635470899357,
      "loss": 3.8635,
      "step": 276440
    },
    {
      "epoch": 0.5759375,
      "grad_norm": 0.7954264283180237,
      "learning_rate": 0.00011536676245527304,
      "loss": 3.9286,
      "step": 276450
    },
    {
      "epoch": 0.5759583333333333,
      "grad_norm": 0.8151825666427612,
      "learning_rate": 0.00011535717035115443,
      "loss": 3.6079,
      "step": 276460
    },
    {
      "epoch": 0.5759791666666667,
      "grad_norm": 0.8419132232666016,
      "learning_rate": 0.00011534757839667911,
      "loss": 3.9758,
      "step": 276470
    },
    {
      "epoch": 0.576,
      "grad_norm": 0.8033458590507507,
      "learning_rate": 0.00011533798659188857,
      "loss": 4.055,
      "step": 276480
    },
    {
      "epoch": 0.5760208333333333,
      "grad_norm": 0.7890604734420776,
      "learning_rate": 0.00011532839493682415,
      "loss": 3.8592,
      "step": 276490
    },
    {
      "epoch": 0.5760416666666667,
      "grad_norm": 0.8631080985069275,
      "learning_rate": 0.00011531880343152737,
      "loss": 3.861,
      "step": 276500
    },
    {
      "epoch": 0.5760625,
      "grad_norm": 0.9894164800643921,
      "learning_rate": 0.00011530921207603965,
      "loss": 3.8749,
      "step": 276510
    },
    {
      "epoch": 0.5760833333333333,
      "grad_norm": 0.8250058889389038,
      "learning_rate": 0.00011529962087040235,
      "loss": 3.7365,
      "step": 276520
    },
    {
      "epoch": 0.5761041666666666,
      "grad_norm": 0.7893354296684265,
      "learning_rate": 0.00011529002981465697,
      "loss": 3.8207,
      "step": 276530
    },
    {
      "epoch": 0.576125,
      "grad_norm": 1.198089838027954,
      "learning_rate": 0.00011528043890884499,
      "loss": 3.7778,
      "step": 276540
    },
    {
      "epoch": 0.5761458333333334,
      "grad_norm": 0.8088424801826477,
      "learning_rate": 0.00011527084815300768,
      "loss": 3.6872,
      "step": 276550
    },
    {
      "epoch": 0.5761666666666667,
      "grad_norm": 0.7674400210380554,
      "learning_rate": 0.00011526125754718659,
      "loss": 3.6899,
      "step": 276560
    },
    {
      "epoch": 0.5761875,
      "grad_norm": 0.8246201872825623,
      "learning_rate": 0.00011525166709142314,
      "loss": 3.9398,
      "step": 276570
    },
    {
      "epoch": 0.5762083333333333,
      "grad_norm": 0.9147427678108215,
      "learning_rate": 0.00011524207678575869,
      "loss": 3.7393,
      "step": 276580
    },
    {
      "epoch": 0.5762291666666667,
      "grad_norm": 0.7918261885643005,
      "learning_rate": 0.00011523248663023476,
      "loss": 3.7337,
      "step": 276590
    },
    {
      "epoch": 0.57625,
      "grad_norm": 0.8938524723052979,
      "learning_rate": 0.0001152228966248927,
      "loss": 3.8058,
      "step": 276600
    },
    {
      "epoch": 0.5762708333333333,
      "grad_norm": 0.8186196088790894,
      "learning_rate": 0.00011521330676977393,
      "loss": 3.7132,
      "step": 276610
    },
    {
      "epoch": 0.5762916666666666,
      "grad_norm": 0.7245369553565979,
      "learning_rate": 0.00011520371706491998,
      "loss": 3.9022,
      "step": 276620
    },
    {
      "epoch": 0.5763125,
      "grad_norm": 0.9313729405403137,
      "learning_rate": 0.00011519412751037214,
      "loss": 3.8029,
      "step": 276630
    },
    {
      "epoch": 0.5763333333333334,
      "grad_norm": 0.7917792797088623,
      "learning_rate": 0.00011518453810617187,
      "loss": 3.7147,
      "step": 276640
    },
    {
      "epoch": 0.5763541666666666,
      "grad_norm": 0.7565785646438599,
      "learning_rate": 0.0001151749488523607,
      "loss": 3.7333,
      "step": 276650
    },
    {
      "epoch": 0.576375,
      "grad_norm": 0.9390931725502014,
      "learning_rate": 0.00011516535974897991,
      "loss": 3.9759,
      "step": 276660
    },
    {
      "epoch": 0.5763958333333333,
      "grad_norm": 0.7909947037696838,
      "learning_rate": 0.00011515577079607096,
      "loss": 3.7905,
      "step": 276670
    },
    {
      "epoch": 0.5764166666666667,
      "grad_norm": 0.9138247966766357,
      "learning_rate": 0.00011514618199367534,
      "loss": 3.7755,
      "step": 276680
    },
    {
      "epoch": 0.5764375,
      "grad_norm": 0.7862473130226135,
      "learning_rate": 0.00011513659334183441,
      "loss": 3.6367,
      "step": 276690
    },
    {
      "epoch": 0.5764583333333333,
      "grad_norm": 1.07527756690979,
      "learning_rate": 0.00011512700484058953,
      "loss": 3.8273,
      "step": 276700
    },
    {
      "epoch": 0.5764791666666667,
      "grad_norm": 0.9488818645477295,
      "learning_rate": 0.00011511741648998226,
      "loss": 3.9093,
      "step": 276710
    },
    {
      "epoch": 0.5765,
      "grad_norm": 0.7715399861335754,
      "learning_rate": 0.00011510782829005396,
      "loss": 3.7821,
      "step": 276720
    },
    {
      "epoch": 0.5765208333333334,
      "grad_norm": 0.8104950785636902,
      "learning_rate": 0.00011509824024084594,
      "loss": 3.6986,
      "step": 276730
    },
    {
      "epoch": 0.5765416666666666,
      "grad_norm": 0.881878674030304,
      "learning_rate": 0.00011508865234239975,
      "loss": 3.7099,
      "step": 276740
    },
    {
      "epoch": 0.5765625,
      "grad_norm": 0.7964702248573303,
      "learning_rate": 0.0001150790645947568,
      "loss": 3.8893,
      "step": 276750
    },
    {
      "epoch": 0.5765833333333333,
      "grad_norm": 0.7440175414085388,
      "learning_rate": 0.00011506947699795842,
      "loss": 3.9685,
      "step": 276760
    },
    {
      "epoch": 0.5766041666666667,
      "grad_norm": 0.8518626689910889,
      "learning_rate": 0.00011505988955204609,
      "loss": 3.8633,
      "step": 276770
    },
    {
      "epoch": 0.576625,
      "grad_norm": 0.915669322013855,
      "learning_rate": 0.00011505030225706124,
      "loss": 3.8105,
      "step": 276780
    },
    {
      "epoch": 0.5766458333333333,
      "grad_norm": 0.8691737055778503,
      "learning_rate": 0.0001150407151130452,
      "loss": 3.8012,
      "step": 276790
    },
    {
      "epoch": 0.5766666666666667,
      "grad_norm": 0.9455496668815613,
      "learning_rate": 0.00011503112812003943,
      "loss": 3.7172,
      "step": 276800
    },
    {
      "epoch": 0.5766875,
      "grad_norm": 0.7815631031990051,
      "learning_rate": 0.00011502154127808539,
      "loss": 3.7694,
      "step": 276810
    },
    {
      "epoch": 0.5767083333333334,
      "grad_norm": 0.7915047407150269,
      "learning_rate": 0.00011501195458722445,
      "loss": 3.7552,
      "step": 276820
    },
    {
      "epoch": 0.5767291666666666,
      "grad_norm": 0.7867891192436218,
      "learning_rate": 0.00011500236804749795,
      "loss": 3.7355,
      "step": 276830
    },
    {
      "epoch": 0.57675,
      "grad_norm": 0.8530927300453186,
      "learning_rate": 0.00011499278165894742,
      "loss": 3.9431,
      "step": 276840
    },
    {
      "epoch": 0.5767708333333333,
      "grad_norm": 0.9228267073631287,
      "learning_rate": 0.00011498319542161423,
      "loss": 3.8614,
      "step": 276850
    },
    {
      "epoch": 0.5767916666666667,
      "grad_norm": 0.9659817218780518,
      "learning_rate": 0.00011497360933553969,
      "loss": 3.9299,
      "step": 276860
    },
    {
      "epoch": 0.5768125,
      "grad_norm": 0.7708901166915894,
      "learning_rate": 0.00011496402340076537,
      "loss": 3.791,
      "step": 276870
    },
    {
      "epoch": 0.5768333333333333,
      "grad_norm": 0.8752820491790771,
      "learning_rate": 0.0001149544376173326,
      "loss": 3.9071,
      "step": 276880
    },
    {
      "epoch": 0.5768541666666667,
      "grad_norm": 1.0389628410339355,
      "learning_rate": 0.00011494485198528274,
      "loss": 3.7715,
      "step": 276890
    },
    {
      "epoch": 0.576875,
      "grad_norm": 0.7496665120124817,
      "learning_rate": 0.00011493526650465726,
      "loss": 3.8417,
      "step": 276900
    },
    {
      "epoch": 0.5768958333333334,
      "grad_norm": 0.9692444801330566,
      "learning_rate": 0.0001149256811754976,
      "loss": 3.856,
      "step": 276910
    },
    {
      "epoch": 0.5769166666666666,
      "grad_norm": 1.0250269174575806,
      "learning_rate": 0.00011491609599784503,
      "loss": 3.9472,
      "step": 276920
    },
    {
      "epoch": 0.5769375,
      "grad_norm": 0.778606116771698,
      "learning_rate": 0.00011490651097174109,
      "loss": 3.7849,
      "step": 276930
    },
    {
      "epoch": 0.5769583333333334,
      "grad_norm": 0.9719074368476868,
      "learning_rate": 0.00011489692609722715,
      "loss": 3.822,
      "step": 276940
    },
    {
      "epoch": 0.5769791666666667,
      "grad_norm": 0.8492377996444702,
      "learning_rate": 0.00011488734137434454,
      "loss": 3.6044,
      "step": 276950
    },
    {
      "epoch": 0.577,
      "grad_norm": 0.6728181838989258,
      "learning_rate": 0.00011487775680313477,
      "loss": 3.9097,
      "step": 276960
    },
    {
      "epoch": 0.5770208333333333,
      "grad_norm": 0.9230254292488098,
      "learning_rate": 0.00011486817238363918,
      "loss": 3.7266,
      "step": 276970
    },
    {
      "epoch": 0.5770416666666667,
      "grad_norm": 0.8367080688476562,
      "learning_rate": 0.00011485858811589911,
      "loss": 3.9051,
      "step": 276980
    },
    {
      "epoch": 0.5770625,
      "grad_norm": 0.8586632013320923,
      "learning_rate": 0.00011484900399995613,
      "loss": 3.9629,
      "step": 276990
    },
    {
      "epoch": 0.5770833333333333,
      "grad_norm": 0.9326167106628418,
      "learning_rate": 0.00011483942003585148,
      "loss": 3.7865,
      "step": 277000
    },
    {
      "epoch": 0.5770833333333333,
      "eval_loss": 4.0868940353393555,
      "eval_runtime": 8.9711,
      "eval_samples_per_second": 1.115,
      "eval_steps_per_second": 0.334,
      "step": 277000
    },
    {
      "epoch": 0.5771041666666666,
      "grad_norm": 0.9426261186599731,
      "learning_rate": 0.0001148298362236266,
      "loss": 3.8829,
      "step": 277010
    },
    {
      "epoch": 0.577125,
      "grad_norm": 0.7882068753242493,
      "learning_rate": 0.00011482025256332296,
      "loss": 3.7058,
      "step": 277020
    },
    {
      "epoch": 0.5771458333333334,
      "grad_norm": 0.8399784564971924,
      "learning_rate": 0.00011481066905498189,
      "loss": 3.7301,
      "step": 277030
    },
    {
      "epoch": 0.5771666666666667,
      "grad_norm": 0.8391768932342529,
      "learning_rate": 0.00011480108569864476,
      "loss": 3.7125,
      "step": 277040
    },
    {
      "epoch": 0.5771875,
      "grad_norm": 0.7961732149124146,
      "learning_rate": 0.00011479150249435306,
      "loss": 3.6971,
      "step": 277050
    },
    {
      "epoch": 0.5772083333333333,
      "grad_norm": 0.8797929883003235,
      "learning_rate": 0.00011478191944214809,
      "loss": 3.6227,
      "step": 277060
    },
    {
      "epoch": 0.5772291666666667,
      "grad_norm": 0.8057597279548645,
      "learning_rate": 0.00011477233654207134,
      "loss": 3.7718,
      "step": 277070
    },
    {
      "epoch": 0.57725,
      "grad_norm": 0.7700454592704773,
      "learning_rate": 0.00011476275379416412,
      "loss": 3.9512,
      "step": 277080
    },
    {
      "epoch": 0.5772708333333333,
      "grad_norm": 0.7635000348091125,
      "learning_rate": 0.00011475317119846787,
      "loss": 3.7729,
      "step": 277090
    },
    {
      "epoch": 0.5772916666666666,
      "grad_norm": 0.9253350496292114,
      "learning_rate": 0.00011474358875502395,
      "loss": 3.8738,
      "step": 277100
    },
    {
      "epoch": 0.5773125,
      "grad_norm": 0.8937140107154846,
      "learning_rate": 0.00011473400646387374,
      "loss": 3.7166,
      "step": 277110
    },
    {
      "epoch": 0.5773333333333334,
      "grad_norm": 0.9995089769363403,
      "learning_rate": 0.00011472442432505873,
      "loss": 3.9713,
      "step": 277120
    },
    {
      "epoch": 0.5773541666666666,
      "grad_norm": 0.904622495174408,
      "learning_rate": 0.00011471484233862021,
      "loss": 3.8965,
      "step": 277130
    },
    {
      "epoch": 0.577375,
      "grad_norm": 0.7756131291389465,
      "learning_rate": 0.00011470526050459957,
      "loss": 3.6287,
      "step": 277140
    },
    {
      "epoch": 0.5773958333333333,
      "grad_norm": 0.8904626965522766,
      "learning_rate": 0.00011469567882303829,
      "loss": 3.7835,
      "step": 277150
    },
    {
      "epoch": 0.5774166666666667,
      "grad_norm": 0.8565461039543152,
      "learning_rate": 0.00011468609729397769,
      "loss": 3.7516,
      "step": 277160
    },
    {
      "epoch": 0.5774375,
      "grad_norm": 0.8960555195808411,
      "learning_rate": 0.00011467651591745914,
      "loss": 3.8375,
      "step": 277170
    },
    {
      "epoch": 0.5774583333333333,
      "grad_norm": 0.778745710849762,
      "learning_rate": 0.00011466693469352411,
      "loss": 3.6785,
      "step": 277180
    },
    {
      "epoch": 0.5774791666666667,
      "grad_norm": 0.7797208428382874,
      "learning_rate": 0.0001146573536222139,
      "loss": 3.6263,
      "step": 277190
    },
    {
      "epoch": 0.5775,
      "grad_norm": 0.8356949090957642,
      "learning_rate": 0.00011464777270356991,
      "loss": 3.6405,
      "step": 277200
    },
    {
      "epoch": 0.5775208333333334,
      "grad_norm": 0.8582133054733276,
      "learning_rate": 0.00011463819193763363,
      "loss": 3.9258,
      "step": 277210
    },
    {
      "epoch": 0.5775416666666666,
      "grad_norm": 0.8035001158714294,
      "learning_rate": 0.00011462861132444633,
      "loss": 4.0098,
      "step": 277220
    },
    {
      "epoch": 0.5775625,
      "grad_norm": 0.776501476764679,
      "learning_rate": 0.00011461903086404939,
      "loss": 3.7477,
      "step": 277230
    },
    {
      "epoch": 0.5775833333333333,
      "grad_norm": 0.9043184518814087,
      "learning_rate": 0.00011460945055648425,
      "loss": 3.7302,
      "step": 277240
    },
    {
      "epoch": 0.5776041666666667,
      "grad_norm": 0.8325158953666687,
      "learning_rate": 0.00011459987040179231,
      "loss": 3.6924,
      "step": 277250
    },
    {
      "epoch": 0.577625,
      "grad_norm": 0.9531106352806091,
      "learning_rate": 0.00011459029040001487,
      "loss": 3.6936,
      "step": 277260
    },
    {
      "epoch": 0.5776458333333333,
      "grad_norm": 1.005795955657959,
      "learning_rate": 0.00011458071055119335,
      "loss": 3.8798,
      "step": 277270
    },
    {
      "epoch": 0.5776666666666667,
      "grad_norm": 0.7129437327384949,
      "learning_rate": 0.00011457113085536921,
      "loss": 3.798,
      "step": 277280
    },
    {
      "epoch": 0.5776875,
      "grad_norm": 0.858258843421936,
      "learning_rate": 0.00011456155131258368,
      "loss": 3.8053,
      "step": 277290
    },
    {
      "epoch": 0.5777083333333334,
      "grad_norm": 0.8064360618591309,
      "learning_rate": 0.00011455197192287826,
      "loss": 3.7989,
      "step": 277300
    },
    {
      "epoch": 0.5777291666666666,
      "grad_norm": 0.9652279019355774,
      "learning_rate": 0.00011454239268629433,
      "loss": 3.6117,
      "step": 277310
    },
    {
      "epoch": 0.57775,
      "grad_norm": 0.8273589015007019,
      "learning_rate": 0.00011453281360287315,
      "loss": 3.896,
      "step": 277320
    },
    {
      "epoch": 0.5777708333333333,
      "grad_norm": 0.9527394771575928,
      "learning_rate": 0.00011452323467265624,
      "loss": 3.8025,
      "step": 277330
    },
    {
      "epoch": 0.5777916666666667,
      "grad_norm": 0.8828807473182678,
      "learning_rate": 0.00011451365589568488,
      "loss": 3.6393,
      "step": 277340
    },
    {
      "epoch": 0.5778125,
      "grad_norm": 0.808662474155426,
      "learning_rate": 0.00011450407727200046,
      "loss": 3.8952,
      "step": 277350
    },
    {
      "epoch": 0.5778333333333333,
      "grad_norm": 1.0828139781951904,
      "learning_rate": 0.00011449449880164443,
      "loss": 3.586,
      "step": 277360
    },
    {
      "epoch": 0.5778541666666667,
      "grad_norm": 0.7518097758293152,
      "learning_rate": 0.0001144849204846581,
      "loss": 3.7673,
      "step": 277370
    },
    {
      "epoch": 0.577875,
      "grad_norm": 1.0021055936813354,
      "learning_rate": 0.00011447534232108285,
      "loss": 3.5546,
      "step": 277380
    },
    {
      "epoch": 0.5778958333333334,
      "grad_norm": 0.8257189393043518,
      "learning_rate": 0.00011446576431096003,
      "loss": 3.7308,
      "step": 277390
    },
    {
      "epoch": 0.5779166666666666,
      "grad_norm": 0.9063305258750916,
      "learning_rate": 0.00011445618645433105,
      "loss": 3.7583,
      "step": 277400
    },
    {
      "epoch": 0.5779375,
      "grad_norm": 0.8171173334121704,
      "learning_rate": 0.00011444660875123733,
      "loss": 3.6362,
      "step": 277410
    },
    {
      "epoch": 0.5779583333333334,
      "grad_norm": 0.8207328915596008,
      "learning_rate": 0.00011443703120172011,
      "loss": 3.7338,
      "step": 277420
    },
    {
      "epoch": 0.5779791666666667,
      "grad_norm": 0.8599452972412109,
      "learning_rate": 0.00011442745380582088,
      "loss": 3.6517,
      "step": 277430
    },
    {
      "epoch": 0.578,
      "grad_norm": 0.7566887140274048,
      "learning_rate": 0.00011441787656358098,
      "loss": 3.7919,
      "step": 277440
    },
    {
      "epoch": 0.5780208333333333,
      "grad_norm": 0.8009917736053467,
      "learning_rate": 0.00011440829947504174,
      "loss": 3.686,
      "step": 277450
    },
    {
      "epoch": 0.5780416666666667,
      "grad_norm": 0.7527526617050171,
      "learning_rate": 0.00011439872254024458,
      "loss": 3.7748,
      "step": 277460
    },
    {
      "epoch": 0.5780625,
      "grad_norm": 0.735620379447937,
      "learning_rate": 0.00011438914575923085,
      "loss": 3.7741,
      "step": 277470
    },
    {
      "epoch": 0.5780833333333333,
      "grad_norm": 0.8310791254043579,
      "learning_rate": 0.00011437956913204185,
      "loss": 3.6914,
      "step": 277480
    },
    {
      "epoch": 0.5781041666666666,
      "grad_norm": 1.0923893451690674,
      "learning_rate": 0.0001143699926587191,
      "loss": 3.6854,
      "step": 277490
    },
    {
      "epoch": 0.578125,
      "grad_norm": 0.7582059502601624,
      "learning_rate": 0.00011436041633930385,
      "loss": 3.687,
      "step": 277500
    },
    {
      "epoch": 0.5781458333333334,
      "grad_norm": 0.8034061789512634,
      "learning_rate": 0.00011435084017383743,
      "loss": 3.6543,
      "step": 277510
    },
    {
      "epoch": 0.5781666666666667,
      "grad_norm": 0.8054297566413879,
      "learning_rate": 0.00011434126416236136,
      "loss": 3.8924,
      "step": 277520
    },
    {
      "epoch": 0.5781875,
      "grad_norm": 0.8904407024383545,
      "learning_rate": 0.00011433168830491689,
      "loss": 3.7673,
      "step": 277530
    },
    {
      "epoch": 0.5782083333333333,
      "grad_norm": 0.9446718692779541,
      "learning_rate": 0.00011432211260154535,
      "loss": 3.7154,
      "step": 277540
    },
    {
      "epoch": 0.5782291666666667,
      "grad_norm": 0.9267600178718567,
      "learning_rate": 0.00011431253705228825,
      "loss": 3.87,
      "step": 277550
    },
    {
      "epoch": 0.57825,
      "grad_norm": 0.8377173542976379,
      "learning_rate": 0.00011430296165718682,
      "loss": 3.7562,
      "step": 277560
    },
    {
      "epoch": 0.5782708333333333,
      "grad_norm": 0.9342687726020813,
      "learning_rate": 0.00011429338641628243,
      "loss": 3.715,
      "step": 277570
    },
    {
      "epoch": 0.5782916666666666,
      "grad_norm": 0.9182215929031372,
      "learning_rate": 0.00011428381132961656,
      "loss": 3.7954,
      "step": 277580
    },
    {
      "epoch": 0.5783125,
      "grad_norm": 0.7572116851806641,
      "learning_rate": 0.00011427423639723046,
      "loss": 3.8387,
      "step": 277590
    },
    {
      "epoch": 0.5783333333333334,
      "grad_norm": 0.9279311895370483,
      "learning_rate": 0.00011426466161916548,
      "loss": 3.7456,
      "step": 277600
    },
    {
      "epoch": 0.5783541666666666,
      "grad_norm": 0.8856953978538513,
      "learning_rate": 0.00011425508699546303,
      "loss": 3.7028,
      "step": 277610
    },
    {
      "epoch": 0.578375,
      "grad_norm": 0.8153077960014343,
      "learning_rate": 0.0001142455125261645,
      "loss": 3.8504,
      "step": 277620
    },
    {
      "epoch": 0.5783958333333333,
      "grad_norm": 0.7982103228569031,
      "learning_rate": 0.00011423593821131112,
      "loss": 3.6744,
      "step": 277630
    },
    {
      "epoch": 0.5784166666666667,
      "grad_norm": 1.0737375020980835,
      "learning_rate": 0.00011422636405094438,
      "loss": 3.8159,
      "step": 277640
    },
    {
      "epoch": 0.5784375,
      "grad_norm": 0.8798964023590088,
      "learning_rate": 0.00011421679004510561,
      "loss": 3.8854,
      "step": 277650
    },
    {
      "epoch": 0.5784583333333333,
      "grad_norm": 0.9423009157180786,
      "learning_rate": 0.00011420721619383612,
      "loss": 3.8888,
      "step": 277660
    },
    {
      "epoch": 0.5784791666666667,
      "grad_norm": 0.9301125407218933,
      "learning_rate": 0.00011419764249717724,
      "loss": 3.7812,
      "step": 277670
    },
    {
      "epoch": 0.5785,
      "grad_norm": 0.9954027533531189,
      "learning_rate": 0.00011418806895517044,
      "loss": 3.8658,
      "step": 277680
    },
    {
      "epoch": 0.5785208333333334,
      "grad_norm": 1.0736898183822632,
      "learning_rate": 0.00011417849556785699,
      "loss": 3.778,
      "step": 277690
    },
    {
      "epoch": 0.5785416666666666,
      "grad_norm": 0.7891371846199036,
      "learning_rate": 0.00011416892233527823,
      "loss": 3.7955,
      "step": 277700
    },
    {
      "epoch": 0.5785625,
      "grad_norm": 1.0251141786575317,
      "learning_rate": 0.00011415934925747559,
      "loss": 3.8552,
      "step": 277710
    },
    {
      "epoch": 0.5785833333333333,
      "grad_norm": 0.7296857833862305,
      "learning_rate": 0.0001141497763344904,
      "loss": 3.6795,
      "step": 277720
    },
    {
      "epoch": 0.5786041666666667,
      "grad_norm": 0.7813429832458496,
      "learning_rate": 0.0001141402035663639,
      "loss": 3.8445,
      "step": 277730
    },
    {
      "epoch": 0.578625,
      "grad_norm": 0.8539171814918518,
      "learning_rate": 0.00011413063095313755,
      "loss": 3.8795,
      "step": 277740
    },
    {
      "epoch": 0.5786458333333333,
      "grad_norm": 0.841045081615448,
      "learning_rate": 0.0001141210584948527,
      "loss": 3.961,
      "step": 277750
    },
    {
      "epoch": 0.5786666666666667,
      "grad_norm": 0.7807507514953613,
      "learning_rate": 0.00011411148619155066,
      "loss": 3.7318,
      "step": 277760
    },
    {
      "epoch": 0.5786875,
      "grad_norm": 0.8673530220985413,
      "learning_rate": 0.00011410191404327279,
      "loss": 3.7451,
      "step": 277770
    },
    {
      "epoch": 0.5787083333333334,
      "grad_norm": 0.7675256133079529,
      "learning_rate": 0.00011409234205006047,
      "loss": 3.8185,
      "step": 277780
    },
    {
      "epoch": 0.5787291666666666,
      "grad_norm": 0.753756582736969,
      "learning_rate": 0.00011408277021195497,
      "loss": 3.8103,
      "step": 277790
    },
    {
      "epoch": 0.57875,
      "grad_norm": 0.8711734414100647,
      "learning_rate": 0.00011407319852899772,
      "loss": 3.7346,
      "step": 277800
    },
    {
      "epoch": 0.5787708333333333,
      "grad_norm": 0.9822643399238586,
      "learning_rate": 0.00011406362700123005,
      "loss": 3.7254,
      "step": 277810
    },
    {
      "epoch": 0.5787916666666667,
      "grad_norm": 0.8659610152244568,
      "learning_rate": 0.00011405405562869324,
      "loss": 3.7733,
      "step": 277820
    },
    {
      "epoch": 0.5788125,
      "grad_norm": 0.8677757978439331,
      "learning_rate": 0.00011404448441142873,
      "loss": 3.8172,
      "step": 277830
    },
    {
      "epoch": 0.5788333333333333,
      "grad_norm": 0.7902680039405823,
      "learning_rate": 0.0001140349133494778,
      "loss": 3.7753,
      "step": 277840
    },
    {
      "epoch": 0.5788541666666667,
      "grad_norm": 0.899921178817749,
      "learning_rate": 0.00011402534244288176,
      "loss": 3.7753,
      "step": 277850
    },
    {
      "epoch": 0.578875,
      "grad_norm": 0.812495768070221,
      "learning_rate": 0.00011401577169168208,
      "loss": 3.8871,
      "step": 277860
    },
    {
      "epoch": 0.5788958333333334,
      "grad_norm": 0.9312545657157898,
      "learning_rate": 0.00011400620109591996,
      "loss": 3.8061,
      "step": 277870
    },
    {
      "epoch": 0.5789166666666666,
      "grad_norm": 0.833625853061676,
      "learning_rate": 0.00011399663065563681,
      "loss": 3.7757,
      "step": 277880
    },
    {
      "epoch": 0.5789375,
      "grad_norm": 0.7933692932128906,
      "learning_rate": 0.00011398706037087401,
      "loss": 3.8735,
      "step": 277890
    },
    {
      "epoch": 0.5789583333333334,
      "grad_norm": 1.0435158014297485,
      "learning_rate": 0.00011397749024167281,
      "loss": 3.7879,
      "step": 277900
    },
    {
      "epoch": 0.5789791666666667,
      "grad_norm": 0.8921546936035156,
      "learning_rate": 0.00011396792026807458,
      "loss": 3.8208,
      "step": 277910
    },
    {
      "epoch": 0.579,
      "grad_norm": 0.8301501274108887,
      "learning_rate": 0.00011395835045012074,
      "loss": 3.9441,
      "step": 277920
    },
    {
      "epoch": 0.5790208333333333,
      "grad_norm": 0.8439311981201172,
      "learning_rate": 0.0001139487807878525,
      "loss": 3.8626,
      "step": 277930
    },
    {
      "epoch": 0.5790416666666667,
      "grad_norm": 0.7719154953956604,
      "learning_rate": 0.00011393921128131132,
      "loss": 3.7262,
      "step": 277940
    },
    {
      "epoch": 0.5790625,
      "grad_norm": 0.827328622341156,
      "learning_rate": 0.0001139296419305384,
      "loss": 3.9573,
      "step": 277950
    },
    {
      "epoch": 0.5790833333333333,
      "grad_norm": 0.7937088012695312,
      "learning_rate": 0.00011392007273557519,
      "loss": 3.8713,
      "step": 277960
    },
    {
      "epoch": 0.5791041666666666,
      "grad_norm": 0.914132297039032,
      "learning_rate": 0.000113910503696463,
      "loss": 3.8662,
      "step": 277970
    },
    {
      "epoch": 0.579125,
      "grad_norm": 0.9901167750358582,
      "learning_rate": 0.00011390093481324308,
      "loss": 3.8808,
      "step": 277980
    },
    {
      "epoch": 0.5791458333333334,
      "grad_norm": 0.772149384021759,
      "learning_rate": 0.0001138913660859569,
      "loss": 3.7742,
      "step": 277990
    },
    {
      "epoch": 0.5791666666666667,
      "grad_norm": 0.7547382712364197,
      "learning_rate": 0.0001138817975146457,
      "loss": 3.8352,
      "step": 278000
    },
    {
      "epoch": 0.5791666666666667,
      "eval_loss": 4.0946502685546875,
      "eval_runtime": 9.8211,
      "eval_samples_per_second": 1.018,
      "eval_steps_per_second": 0.305,
      "step": 278000
    },
    {
      "epoch": 0.5791875,
      "grad_norm": 0.7831796407699585,
      "learning_rate": 0.00011387222909935082,
      "loss": 3.7379,
      "step": 278010
    },
    {
      "epoch": 0.5792083333333333,
      "grad_norm": 0.8492569327354431,
      "learning_rate": 0.00011386266084011364,
      "loss": 3.7617,
      "step": 278020
    },
    {
      "epoch": 0.5792291666666667,
      "grad_norm": 0.8843562602996826,
      "learning_rate": 0.00011385309273697546,
      "loss": 3.5928,
      "step": 278030
    },
    {
      "epoch": 0.57925,
      "grad_norm": 0.7781016230583191,
      "learning_rate": 0.00011384352478997757,
      "loss": 3.7836,
      "step": 278040
    },
    {
      "epoch": 0.5792708333333333,
      "grad_norm": 0.747821569442749,
      "learning_rate": 0.0001138339569991614,
      "loss": 3.8468,
      "step": 278050
    },
    {
      "epoch": 0.5792916666666666,
      "grad_norm": 0.8289347887039185,
      "learning_rate": 0.00011382438936456819,
      "loss": 3.8893,
      "step": 278060
    },
    {
      "epoch": 0.5793125,
      "grad_norm": 0.7520660161972046,
      "learning_rate": 0.00011381482188623927,
      "loss": 3.7759,
      "step": 278070
    },
    {
      "epoch": 0.5793333333333334,
      "grad_norm": 1.070595145225525,
      "learning_rate": 0.00011380525456421605,
      "loss": 3.8517,
      "step": 278080
    },
    {
      "epoch": 0.5793541666666666,
      "grad_norm": 0.7978640794754028,
      "learning_rate": 0.00011379568739853981,
      "loss": 3.771,
      "step": 278090
    },
    {
      "epoch": 0.579375,
      "grad_norm": 1.0734789371490479,
      "learning_rate": 0.00011378612038925183,
      "loss": 3.9368,
      "step": 278100
    },
    {
      "epoch": 0.5793958333333333,
      "grad_norm": 0.8197237253189087,
      "learning_rate": 0.00011377655353639348,
      "loss": 3.7208,
      "step": 278110
    },
    {
      "epoch": 0.5794166666666667,
      "grad_norm": 0.8510340452194214,
      "learning_rate": 0.0001137669868400061,
      "loss": 3.7818,
      "step": 278120
    },
    {
      "epoch": 0.5794375,
      "grad_norm": 0.7831813097000122,
      "learning_rate": 0.00011375742030013096,
      "loss": 3.8899,
      "step": 278130
    },
    {
      "epoch": 0.5794583333333333,
      "grad_norm": 0.892139196395874,
      "learning_rate": 0.00011374785391680945,
      "loss": 3.6824,
      "step": 278140
    },
    {
      "epoch": 0.5794791666666667,
      "grad_norm": 0.8386101722717285,
      "learning_rate": 0.00011373828769008286,
      "loss": 3.7061,
      "step": 278150
    },
    {
      "epoch": 0.5795,
      "grad_norm": 0.961078941822052,
      "learning_rate": 0.00011372872161999249,
      "loss": 3.7736,
      "step": 278160
    },
    {
      "epoch": 0.5795208333333334,
      "grad_norm": 0.7711538076400757,
      "learning_rate": 0.0001137191557065797,
      "loss": 3.8595,
      "step": 278170
    },
    {
      "epoch": 0.5795416666666666,
      "grad_norm": 0.8508030772209167,
      "learning_rate": 0.00011370958994988582,
      "loss": 3.8909,
      "step": 278180
    },
    {
      "epoch": 0.5795625,
      "grad_norm": 0.8439329266548157,
      "learning_rate": 0.0001137000243499521,
      "loss": 3.7736,
      "step": 278190
    },
    {
      "epoch": 0.5795833333333333,
      "grad_norm": 0.8144544959068298,
      "learning_rate": 0.00011369045890681992,
      "loss": 3.9051,
      "step": 278200
    },
    {
      "epoch": 0.5796041666666667,
      "grad_norm": 0.8072595000267029,
      "learning_rate": 0.00011368089362053064,
      "loss": 3.7414,
      "step": 278210
    },
    {
      "epoch": 0.579625,
      "grad_norm": 0.8089427351951599,
      "learning_rate": 0.00011367132849112543,
      "loss": 3.7877,
      "step": 278220
    },
    {
      "epoch": 0.5796458333333333,
      "grad_norm": 0.8596937656402588,
      "learning_rate": 0.00011366176351864579,
      "loss": 3.9636,
      "step": 278230
    },
    {
      "epoch": 0.5796666666666667,
      "grad_norm": 0.8293452858924866,
      "learning_rate": 0.0001136521987031329,
      "loss": 3.7748,
      "step": 278240
    },
    {
      "epoch": 0.5796875,
      "grad_norm": 1.2121875286102295,
      "learning_rate": 0.00011364263404462815,
      "loss": 3.7193,
      "step": 278250
    },
    {
      "epoch": 0.5797083333333334,
      "grad_norm": 0.9433884024620056,
      "learning_rate": 0.0001136330695431728,
      "loss": 3.8357,
      "step": 278260
    },
    {
      "epoch": 0.5797291666666666,
      "grad_norm": 0.8089771270751953,
      "learning_rate": 0.00011362350519880821,
      "loss": 3.8402,
      "step": 278270
    },
    {
      "epoch": 0.57975,
      "grad_norm": 0.9465482831001282,
      "learning_rate": 0.0001136139410115757,
      "loss": 3.7492,
      "step": 278280
    },
    {
      "epoch": 0.5797708333333333,
      "grad_norm": 0.8059661984443665,
      "learning_rate": 0.0001136043769815165,
      "loss": 3.8987,
      "step": 278290
    },
    {
      "epoch": 0.5797916666666667,
      "grad_norm": 0.9872564673423767,
      "learning_rate": 0.00011359481310867202,
      "loss": 3.9042,
      "step": 278300
    },
    {
      "epoch": 0.5798125,
      "grad_norm": 0.7552925944328308,
      "learning_rate": 0.00011358524939308357,
      "loss": 3.6893,
      "step": 278310
    },
    {
      "epoch": 0.5798333333333333,
      "grad_norm": 0.797400712966919,
      "learning_rate": 0.00011357568583479237,
      "loss": 3.7751,
      "step": 278320
    },
    {
      "epoch": 0.5798541666666667,
      "grad_norm": 0.8768553137779236,
      "learning_rate": 0.00011356612243383984,
      "loss": 3.6838,
      "step": 278330
    },
    {
      "epoch": 0.579875,
      "grad_norm": 1.3289897441864014,
      "learning_rate": 0.00011355655919026722,
      "loss": 3.7198,
      "step": 278340
    },
    {
      "epoch": 0.5798958333333334,
      "grad_norm": 0.9308923482894897,
      "learning_rate": 0.0001135469961041158,
      "loss": 3.62,
      "step": 278350
    },
    {
      "epoch": 0.5799166666666666,
      "grad_norm": 1.0509717464447021,
      "learning_rate": 0.000113537433175427,
      "loss": 3.6349,
      "step": 278360
    },
    {
      "epoch": 0.5799375,
      "grad_norm": 0.8313900828361511,
      "learning_rate": 0.00011352787040424202,
      "loss": 3.6961,
      "step": 278370
    },
    {
      "epoch": 0.5799583333333334,
      "grad_norm": 0.843502402305603,
      "learning_rate": 0.00011351830779060218,
      "loss": 3.5587,
      "step": 278380
    },
    {
      "epoch": 0.5799791666666667,
      "grad_norm": 0.8525992035865784,
      "learning_rate": 0.00011350874533454884,
      "loss": 4.0366,
      "step": 278390
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8571634888648987,
      "learning_rate": 0.00011349918303612328,
      "loss": 3.6422,
      "step": 278400
    },
    {
      "epoch": 0.5800208333333333,
      "grad_norm": 0.985161542892456,
      "learning_rate": 0.00011348962089536676,
      "loss": 3.7806,
      "step": 278410
    },
    {
      "epoch": 0.5800416666666667,
      "grad_norm": 1.0432770252227783,
      "learning_rate": 0.00011348005891232069,
      "loss": 3.7987,
      "step": 278420
    },
    {
      "epoch": 0.5800625,
      "grad_norm": 0.8037770390510559,
      "learning_rate": 0.00011347049708702627,
      "loss": 3.8837,
      "step": 278430
    },
    {
      "epoch": 0.5800833333333333,
      "grad_norm": 0.7773721218109131,
      "learning_rate": 0.00011346093541952483,
      "loss": 3.7123,
      "step": 278440
    },
    {
      "epoch": 0.5801041666666666,
      "grad_norm": 0.8896771669387817,
      "learning_rate": 0.00011345137390985772,
      "loss": 3.8151,
      "step": 278450
    },
    {
      "epoch": 0.580125,
      "grad_norm": 0.8995418548583984,
      "learning_rate": 0.00011344181255806623,
      "loss": 3.6954,
      "step": 278460
    },
    {
      "epoch": 0.5801458333333334,
      "grad_norm": 0.7985080480575562,
      "learning_rate": 0.00011343225136419157,
      "loss": 3.7685,
      "step": 278470
    },
    {
      "epoch": 0.5801666666666667,
      "grad_norm": 0.9411132335662842,
      "learning_rate": 0.00011342269032827513,
      "loss": 3.6793,
      "step": 278480
    },
    {
      "epoch": 0.5801875,
      "grad_norm": 0.9927834868431091,
      "learning_rate": 0.00011341312945035824,
      "loss": 3.6211,
      "step": 278490
    },
    {
      "epoch": 0.5802083333333333,
      "grad_norm": 0.8533077239990234,
      "learning_rate": 0.00011340356873048207,
      "loss": 3.6133,
      "step": 278500
    },
    {
      "epoch": 0.5802291666666667,
      "grad_norm": 0.8042877912521362,
      "learning_rate": 0.00011339400816868805,
      "loss": 3.7589,
      "step": 278510
    },
    {
      "epoch": 0.58025,
      "grad_norm": 0.9007971882820129,
      "learning_rate": 0.00011338444776501743,
      "loss": 3.6742,
      "step": 278520
    },
    {
      "epoch": 0.5802708333333333,
      "grad_norm": 0.8246674537658691,
      "learning_rate": 0.00011337488751951147,
      "loss": 3.8132,
      "step": 278530
    },
    {
      "epoch": 0.5802916666666667,
      "grad_norm": 0.7739272117614746,
      "learning_rate": 0.0001133653274322115,
      "loss": 3.8612,
      "step": 278540
    },
    {
      "epoch": 0.5803125,
      "grad_norm": 0.752337634563446,
      "learning_rate": 0.00011335576750315886,
      "loss": 3.8335,
      "step": 278550
    },
    {
      "epoch": 0.5803333333333334,
      "grad_norm": 0.8353674411773682,
      "learning_rate": 0.00011334620773239476,
      "loss": 3.7359,
      "step": 278560
    },
    {
      "epoch": 0.5803541666666666,
      "grad_norm": 1.0448991060256958,
      "learning_rate": 0.0001133366481199605,
      "loss": 3.7097,
      "step": 278570
    },
    {
      "epoch": 0.580375,
      "grad_norm": 0.8131214380264282,
      "learning_rate": 0.00011332708866589747,
      "loss": 3.7918,
      "step": 278580
    },
    {
      "epoch": 0.5803958333333333,
      "grad_norm": 1.1106369495391846,
      "learning_rate": 0.00011331752937024692,
      "loss": 3.8273,
      "step": 278590
    },
    {
      "epoch": 0.5804166666666667,
      "grad_norm": 0.8776969313621521,
      "learning_rate": 0.00011330797023305005,
      "loss": 3.6653,
      "step": 278600
    },
    {
      "epoch": 0.5804375,
      "grad_norm": 0.7685831785202026,
      "learning_rate": 0.00011329841125434827,
      "loss": 3.7521,
      "step": 278610
    },
    {
      "epoch": 0.5804583333333333,
      "grad_norm": 0.7592056393623352,
      "learning_rate": 0.00011328885243418283,
      "loss": 3.9369,
      "step": 278620
    },
    {
      "epoch": 0.5804791666666667,
      "grad_norm": 0.8055098056793213,
      "learning_rate": 0.00011327929377259497,
      "loss": 4.0386,
      "step": 278630
    },
    {
      "epoch": 0.5805,
      "grad_norm": 0.6851750612258911,
      "learning_rate": 0.00011326973526962604,
      "loss": 3.8365,
      "step": 278640
    },
    {
      "epoch": 0.5805208333333334,
      "grad_norm": 0.7683029174804688,
      "learning_rate": 0.00011326017692531737,
      "loss": 3.7062,
      "step": 278650
    },
    {
      "epoch": 0.5805416666666666,
      "grad_norm": 0.7968752980232239,
      "learning_rate": 0.00011325061873971013,
      "loss": 3.7767,
      "step": 278660
    },
    {
      "epoch": 0.5805625,
      "grad_norm": 0.8142379522323608,
      "learning_rate": 0.00011324106071284569,
      "loss": 3.9306,
      "step": 278670
    },
    {
      "epoch": 0.5805833333333333,
      "grad_norm": 0.8002153038978577,
      "learning_rate": 0.00011323150284476534,
      "loss": 3.7544,
      "step": 278680
    },
    {
      "epoch": 0.5806041666666667,
      "grad_norm": 0.7885226011276245,
      "learning_rate": 0.00011322194513551031,
      "loss": 3.7514,
      "step": 278690
    },
    {
      "epoch": 0.580625,
      "grad_norm": 0.7098385095596313,
      "learning_rate": 0.00011321238758512193,
      "loss": 3.8429,
      "step": 278700
    },
    {
      "epoch": 0.5806458333333333,
      "grad_norm": 0.8066558241844177,
      "learning_rate": 0.0001132028301936415,
      "loss": 3.9136,
      "step": 278710
    },
    {
      "epoch": 0.5806666666666667,
      "grad_norm": 0.8035369515419006,
      "learning_rate": 0.00011319327296111022,
      "loss": 3.7781,
      "step": 278720
    },
    {
      "epoch": 0.5806875,
      "grad_norm": 1.011118769645691,
      "learning_rate": 0.0001131837158875695,
      "loss": 3.8372,
      "step": 278730
    },
    {
      "epoch": 0.5807083333333334,
      "grad_norm": 0.7478300333023071,
      "learning_rate": 0.00011317415897306053,
      "loss": 3.6633,
      "step": 278740
    },
    {
      "epoch": 0.5807291666666666,
      "grad_norm": 0.8622997403144836,
      "learning_rate": 0.00011316460221762458,
      "loss": 3.7016,
      "step": 278750
    },
    {
      "epoch": 0.58075,
      "grad_norm": 0.9021822214126587,
      "learning_rate": 0.00011315504562130302,
      "loss": 3.7618,
      "step": 278760
    },
    {
      "epoch": 0.5807708333333333,
      "grad_norm": 0.7786867618560791,
      "learning_rate": 0.00011314548918413705,
      "loss": 3.6346,
      "step": 278770
    },
    {
      "epoch": 0.5807916666666667,
      "grad_norm": 0.8452900052070618,
      "learning_rate": 0.00011313593290616796,
      "loss": 3.7533,
      "step": 278780
    },
    {
      "epoch": 0.5808125,
      "grad_norm": 0.8499677777290344,
      "learning_rate": 0.0001131263767874371,
      "loss": 3.7847,
      "step": 278790
    },
    {
      "epoch": 0.5808333333333333,
      "grad_norm": 1.2479736804962158,
      "learning_rate": 0.00011311682082798567,
      "loss": 3.5775,
      "step": 278800
    },
    {
      "epoch": 0.5808541666666667,
      "grad_norm": 0.7329143285751343,
      "learning_rate": 0.00011310726502785493,
      "loss": 3.7486,
      "step": 278810
    },
    {
      "epoch": 0.580875,
      "grad_norm": 0.8904889225959778,
      "learning_rate": 0.00011309770938708628,
      "loss": 3.793,
      "step": 278820
    },
    {
      "epoch": 0.5808958333333333,
      "grad_norm": 1.0764350891113281,
      "learning_rate": 0.00011308815390572092,
      "loss": 3.8142,
      "step": 278830
    },
    {
      "epoch": 0.5809166666666666,
      "grad_norm": 0.8723015189170837,
      "learning_rate": 0.00011307859858380008,
      "loss": 3.706,
      "step": 278840
    },
    {
      "epoch": 0.5809375,
      "grad_norm": 0.9029892683029175,
      "learning_rate": 0.00011306904342136505,
      "loss": 3.574,
      "step": 278850
    },
    {
      "epoch": 0.5809583333333334,
      "grad_norm": 0.8534233570098877,
      "learning_rate": 0.00011305948841845721,
      "loss": 3.8618,
      "step": 278860
    },
    {
      "epoch": 0.5809791666666667,
      "grad_norm": 0.8732708692550659,
      "learning_rate": 0.00011304993357511772,
      "loss": 3.6804,
      "step": 278870
    },
    {
      "epoch": 0.581,
      "grad_norm": 0.8941478133201599,
      "learning_rate": 0.00011304037889138786,
      "loss": 3.9767,
      "step": 278880
    },
    {
      "epoch": 0.5810208333333333,
      "grad_norm": 0.7695741057395935,
      "learning_rate": 0.000113030824367309,
      "loss": 3.7319,
      "step": 278890
    },
    {
      "epoch": 0.5810416666666667,
      "grad_norm": 1.0612974166870117,
      "learning_rate": 0.00011302127000292231,
      "loss": 3.6379,
      "step": 278900
    },
    {
      "epoch": 0.5810625,
      "grad_norm": 0.8527657985687256,
      "learning_rate": 0.00011301171579826907,
      "loss": 3.7678,
      "step": 278910
    },
    {
      "epoch": 0.5810833333333333,
      "grad_norm": 0.8496683239936829,
      "learning_rate": 0.00011300216175339063,
      "loss": 3.863,
      "step": 278920
    },
    {
      "epoch": 0.5811041666666666,
      "grad_norm": 0.8721469044685364,
      "learning_rate": 0.00011299260786832817,
      "loss": 3.8791,
      "step": 278930
    },
    {
      "epoch": 0.581125,
      "grad_norm": 0.9274972677230835,
      "learning_rate": 0.00011298305414312298,
      "loss": 3.7154,
      "step": 278940
    },
    {
      "epoch": 0.5811458333333334,
      "grad_norm": 0.7892199158668518,
      "learning_rate": 0.00011297350057781638,
      "loss": 3.7945,
      "step": 278950
    },
    {
      "epoch": 0.5811666666666667,
      "grad_norm": 0.925735592842102,
      "learning_rate": 0.00011296394717244963,
      "loss": 3.7111,
      "step": 278960
    },
    {
      "epoch": 0.5811875,
      "grad_norm": 0.856319010257721,
      "learning_rate": 0.0001129543939270639,
      "loss": 3.8434,
      "step": 278970
    },
    {
      "epoch": 0.5812083333333333,
      "grad_norm": 0.9388561248779297,
      "learning_rate": 0.00011294484084170056,
      "loss": 3.8101,
      "step": 278980
    },
    {
      "epoch": 0.5812291666666667,
      "grad_norm": 0.8436501622200012,
      "learning_rate": 0.00011293528791640086,
      "loss": 3.7034,
      "step": 278990
    },
    {
      "epoch": 0.58125,
      "grad_norm": 0.8180677890777588,
      "learning_rate": 0.00011292573515120599,
      "loss": 3.7003,
      "step": 279000
    },
    {
      "epoch": 0.58125,
      "eval_loss": 4.092065334320068,
      "eval_runtime": 8.4747,
      "eval_samples_per_second": 1.18,
      "eval_steps_per_second": 0.354,
      "step": 279000
    },
    {
      "epoch": 0.5812708333333333,
      "grad_norm": 0.9511638879776001,
      "learning_rate": 0.0001129161825461573,
      "loss": 3.709,
      "step": 279010
    },
    {
      "epoch": 0.5812916666666667,
      "grad_norm": 0.8975405097007751,
      "learning_rate": 0.00011290663010129604,
      "loss": 3.9411,
      "step": 279020
    },
    {
      "epoch": 0.5813125,
      "grad_norm": 0.8103051781654358,
      "learning_rate": 0.0001128970778166634,
      "loss": 3.7912,
      "step": 279030
    },
    {
      "epoch": 0.5813333333333334,
      "grad_norm": 0.7407956123352051,
      "learning_rate": 0.00011288752569230073,
      "loss": 3.6465,
      "step": 279040
    },
    {
      "epoch": 0.5813541666666666,
      "grad_norm": 0.8628368973731995,
      "learning_rate": 0.00011287797372824929,
      "loss": 3.7762,
      "step": 279050
    },
    {
      "epoch": 0.581375,
      "grad_norm": 0.9194782376289368,
      "learning_rate": 0.00011286842192455026,
      "loss": 3.9668,
      "step": 279060
    },
    {
      "epoch": 0.5813958333333333,
      "grad_norm": 0.8932006359100342,
      "learning_rate": 0.00011285887028124497,
      "loss": 3.8963,
      "step": 279070
    },
    {
      "epoch": 0.5814166666666667,
      "grad_norm": 0.7606428861618042,
      "learning_rate": 0.00011284931879837469,
      "loss": 3.7895,
      "step": 279080
    },
    {
      "epoch": 0.5814375,
      "grad_norm": 0.791343092918396,
      "learning_rate": 0.00011283976747598058,
      "loss": 3.6176,
      "step": 279090
    },
    {
      "epoch": 0.5814583333333333,
      "grad_norm": 0.9177668690681458,
      "learning_rate": 0.00011283021631410406,
      "loss": 3.7672,
      "step": 279100
    },
    {
      "epoch": 0.5814791666666667,
      "grad_norm": 0.8324673175811768,
      "learning_rate": 0.00011282066531278622,
      "loss": 3.9751,
      "step": 279110
    },
    {
      "epoch": 0.5815,
      "grad_norm": 0.9014431238174438,
      "learning_rate": 0.00011281111447206844,
      "loss": 3.7471,
      "step": 279120
    },
    {
      "epoch": 0.5815208333333334,
      "grad_norm": 1.0202916860580444,
      "learning_rate": 0.00011280156379199186,
      "loss": 3.6022,
      "step": 279130
    },
    {
      "epoch": 0.5815416666666666,
      "grad_norm": 0.8724943995475769,
      "learning_rate": 0.00011279201327259782,
      "loss": 3.8658,
      "step": 279140
    },
    {
      "epoch": 0.5815625,
      "grad_norm": 0.7996186017990112,
      "learning_rate": 0.0001127824629139276,
      "loss": 3.7643,
      "step": 279150
    },
    {
      "epoch": 0.5815833333333333,
      "grad_norm": 0.8780612945556641,
      "learning_rate": 0.00011277291271602233,
      "loss": 3.6641,
      "step": 279160
    },
    {
      "epoch": 0.5816041666666667,
      "grad_norm": 1.162787675857544,
      "learning_rate": 0.0001127633626789234,
      "loss": 3.7848,
      "step": 279170
    },
    {
      "epoch": 0.581625,
      "grad_norm": 0.9192883968353271,
      "learning_rate": 0.00011275381280267202,
      "loss": 3.8424,
      "step": 279180
    },
    {
      "epoch": 0.5816458333333333,
      "grad_norm": 0.8308643102645874,
      "learning_rate": 0.00011274426308730935,
      "loss": 3.667,
      "step": 279190
    },
    {
      "epoch": 0.5816666666666667,
      "grad_norm": 0.7995231747627258,
      "learning_rate": 0.00011273471353287675,
      "loss": 3.578,
      "step": 279200
    },
    {
      "epoch": 0.5816875,
      "grad_norm": 0.7489630579948425,
      "learning_rate": 0.0001127251641394155,
      "loss": 3.6605,
      "step": 279210
    },
    {
      "epoch": 0.5817083333333334,
      "grad_norm": 0.8683384656906128,
      "learning_rate": 0.00011271561490696669,
      "loss": 3.7349,
      "step": 279220
    },
    {
      "epoch": 0.5817291666666666,
      "grad_norm": 0.985799252986908,
      "learning_rate": 0.00011270606583557174,
      "loss": 3.8464,
      "step": 279230
    },
    {
      "epoch": 0.58175,
      "grad_norm": 0.8369434475898743,
      "learning_rate": 0.0001126965169252718,
      "loss": 3.8578,
      "step": 279240
    },
    {
      "epoch": 0.5817708333333333,
      "grad_norm": 0.9658039808273315,
      "learning_rate": 0.00011268696817610809,
      "loss": 3.8068,
      "step": 279250
    },
    {
      "epoch": 0.5817916666666667,
      "grad_norm": 0.8334325551986694,
      "learning_rate": 0.000112677419588122,
      "loss": 3.7819,
      "step": 279260
    },
    {
      "epoch": 0.5818125,
      "grad_norm": 1.104504942893982,
      "learning_rate": 0.00011266787116135463,
      "loss": 3.8684,
      "step": 279270
    },
    {
      "epoch": 0.5818333333333333,
      "grad_norm": 0.929967999458313,
      "learning_rate": 0.00011265832289584726,
      "loss": 3.861,
      "step": 279280
    },
    {
      "epoch": 0.5818541666666667,
      "grad_norm": 1.1485459804534912,
      "learning_rate": 0.0001126487747916412,
      "loss": 3.9051,
      "step": 279290
    },
    {
      "epoch": 0.581875,
      "grad_norm": 0.9116552472114563,
      "learning_rate": 0.00011263922684877763,
      "loss": 3.8048,
      "step": 279300
    },
    {
      "epoch": 0.5818958333333333,
      "grad_norm": 0.7934881448745728,
      "learning_rate": 0.00011262967906729778,
      "loss": 3.6357,
      "step": 279310
    },
    {
      "epoch": 0.5819166666666666,
      "grad_norm": 0.8111448884010315,
      "learning_rate": 0.00011262013144724299,
      "loss": 3.8039,
      "step": 279320
    },
    {
      "epoch": 0.5819375,
      "grad_norm": 0.8734360337257385,
      "learning_rate": 0.00011261058398865443,
      "loss": 3.809,
      "step": 279330
    },
    {
      "epoch": 0.5819583333333334,
      "grad_norm": 0.8545896410942078,
      "learning_rate": 0.00011260103669157328,
      "loss": 3.7668,
      "step": 279340
    },
    {
      "epoch": 0.5819791666666667,
      "grad_norm": 0.7793245911598206,
      "learning_rate": 0.0001125914895560409,
      "loss": 3.8589,
      "step": 279350
    },
    {
      "epoch": 0.582,
      "grad_norm": 0.7392600774765015,
      "learning_rate": 0.00011258194258209847,
      "loss": 3.5775,
      "step": 279360
    },
    {
      "epoch": 0.5820208333333333,
      "grad_norm": 0.9188321232795715,
      "learning_rate": 0.0001125723957697872,
      "loss": 3.8155,
      "step": 279370
    },
    {
      "epoch": 0.5820416666666667,
      "grad_norm": 1.0170938968658447,
      "learning_rate": 0.0001125628491191484,
      "loss": 3.6365,
      "step": 279380
    },
    {
      "epoch": 0.5820625,
      "grad_norm": 0.8655376434326172,
      "learning_rate": 0.00011255330263022331,
      "loss": 3.6672,
      "step": 279390
    },
    {
      "epoch": 0.5820833333333333,
      "grad_norm": 0.7978600859642029,
      "learning_rate": 0.00011254375630305306,
      "loss": 3.975,
      "step": 279400
    },
    {
      "epoch": 0.5821041666666666,
      "grad_norm": 0.8123672008514404,
      "learning_rate": 0.00011253421013767898,
      "loss": 3.7674,
      "step": 279410
    },
    {
      "epoch": 0.582125,
      "grad_norm": 0.836715042591095,
      "learning_rate": 0.00011252466413414232,
      "loss": 3.8218,
      "step": 279420
    },
    {
      "epoch": 0.5821458333333334,
      "grad_norm": 0.7942513227462769,
      "learning_rate": 0.00011251511829248425,
      "loss": 3.7544,
      "step": 279430
    },
    {
      "epoch": 0.5821666666666667,
      "grad_norm": 0.9583114385604858,
      "learning_rate": 0.00011250557261274598,
      "loss": 3.8796,
      "step": 279440
    },
    {
      "epoch": 0.5821875,
      "grad_norm": 0.7986226081848145,
      "learning_rate": 0.00011249602709496889,
      "loss": 3.7743,
      "step": 279450
    },
    {
      "epoch": 0.5822083333333333,
      "grad_norm": 0.8399797677993774,
      "learning_rate": 0.0001124864817391941,
      "loss": 3.9163,
      "step": 279460
    },
    {
      "epoch": 0.5822291666666667,
      "grad_norm": 0.716685950756073,
      "learning_rate": 0.00011247693654546278,
      "loss": 3.8388,
      "step": 279470
    },
    {
      "epoch": 0.58225,
      "grad_norm": 0.92695552110672,
      "learning_rate": 0.00011246739151381631,
      "loss": 3.8317,
      "step": 279480
    },
    {
      "epoch": 0.5822708333333333,
      "grad_norm": 0.9250374436378479,
      "learning_rate": 0.00011245784664429585,
      "loss": 3.8297,
      "step": 279490
    },
    {
      "epoch": 0.5822916666666667,
      "grad_norm": 0.8680259585380554,
      "learning_rate": 0.0001124483019369426,
      "loss": 3.8025,
      "step": 279500
    },
    {
      "epoch": 0.5823125,
      "grad_norm": 0.854198157787323,
      "learning_rate": 0.00011243875739179783,
      "loss": 3.7243,
      "step": 279510
    },
    {
      "epoch": 0.5823333333333334,
      "grad_norm": 0.8020083904266357,
      "learning_rate": 0.0001124292130089028,
      "loss": 3.7256,
      "step": 279520
    },
    {
      "epoch": 0.5823541666666666,
      "grad_norm": 1.0552082061767578,
      "learning_rate": 0.00011241966878829864,
      "loss": 3.6671,
      "step": 279530
    },
    {
      "epoch": 0.582375,
      "grad_norm": 0.9148074388504028,
      "learning_rate": 0.00011241012473002664,
      "loss": 3.7213,
      "step": 279540
    },
    {
      "epoch": 0.5823958333333333,
      "grad_norm": 0.7537786364555359,
      "learning_rate": 0.00011240058083412808,
      "loss": 3.6098,
      "step": 279550
    },
    {
      "epoch": 0.5824166666666667,
      "grad_norm": 0.8701866269111633,
      "learning_rate": 0.00011239103710064406,
      "loss": 3.7293,
      "step": 279560
    },
    {
      "epoch": 0.5824375,
      "grad_norm": 0.9142826199531555,
      "learning_rate": 0.0001123814935296159,
      "loss": 3.9118,
      "step": 279570
    },
    {
      "epoch": 0.5824583333333333,
      "grad_norm": 0.7985354065895081,
      "learning_rate": 0.00011237195012108483,
      "loss": 3.7466,
      "step": 279580
    },
    {
      "epoch": 0.5824791666666667,
      "grad_norm": 0.8172922730445862,
      "learning_rate": 0.00011236240687509199,
      "loss": 3.7573,
      "step": 279590
    },
    {
      "epoch": 0.5825,
      "grad_norm": 0.7420334219932556,
      "learning_rate": 0.0001123528637916787,
      "loss": 3.7587,
      "step": 279600
    },
    {
      "epoch": 0.5825208333333334,
      "grad_norm": 0.7990710139274597,
      "learning_rate": 0.00011234332087088613,
      "loss": 3.8,
      "step": 279610
    },
    {
      "epoch": 0.5825416666666666,
      "grad_norm": 0.7535853385925293,
      "learning_rate": 0.00011233377811275546,
      "loss": 3.609,
      "step": 279620
    },
    {
      "epoch": 0.5825625,
      "grad_norm": 0.8345986008644104,
      "learning_rate": 0.00011232423551732802,
      "loss": 3.7291,
      "step": 279630
    },
    {
      "epoch": 0.5825833333333333,
      "grad_norm": 0.7965999841690063,
      "learning_rate": 0.00011231469308464493,
      "loss": 3.733,
      "step": 279640
    },
    {
      "epoch": 0.5826041666666667,
      "grad_norm": 0.9001144170761108,
      "learning_rate": 0.00011230515081474744,
      "loss": 3.7002,
      "step": 279650
    },
    {
      "epoch": 0.582625,
      "grad_norm": 0.8545798659324646,
      "learning_rate": 0.00011229560870767681,
      "loss": 3.7062,
      "step": 279660
    },
    {
      "epoch": 0.5826458333333333,
      "grad_norm": 0.8025124073028564,
      "learning_rate": 0.00011228606676347421,
      "loss": 3.7424,
      "step": 279670
    },
    {
      "epoch": 0.5826666666666667,
      "grad_norm": 0.9591346383094788,
      "learning_rate": 0.00011227652498218085,
      "loss": 3.8079,
      "step": 279680
    },
    {
      "epoch": 0.5826875,
      "grad_norm": 0.8482382893562317,
      "learning_rate": 0.00011226698336383803,
      "loss": 3.8193,
      "step": 279690
    },
    {
      "epoch": 0.5827083333333334,
      "grad_norm": 0.8703051805496216,
      "learning_rate": 0.00011225744190848686,
      "loss": 3.8651,
      "step": 279700
    },
    {
      "epoch": 0.5827291666666666,
      "grad_norm": 0.70098876953125,
      "learning_rate": 0.00011224790061616868,
      "loss": 3.7983,
      "step": 279710
    },
    {
      "epoch": 0.58275,
      "grad_norm": 0.8145421743392944,
      "learning_rate": 0.0001122383594869245,
      "loss": 3.7879,
      "step": 279720
    },
    {
      "epoch": 0.5827708333333333,
      "grad_norm": 0.7642744779586792,
      "learning_rate": 0.00011222881852079576,
      "loss": 3.6873,
      "step": 279730
    },
    {
      "epoch": 0.5827916666666667,
      "grad_norm": 0.9563251733779907,
      "learning_rate": 0.00011221927771782354,
      "loss": 3.6702,
      "step": 279740
    },
    {
      "epoch": 0.5828125,
      "grad_norm": 0.8136380910873413,
      "learning_rate": 0.00011220973707804905,
      "loss": 3.8593,
      "step": 279750
    },
    {
      "epoch": 0.5828333333333333,
      "grad_norm": 0.904193639755249,
      "learning_rate": 0.0001122001966015136,
      "loss": 3.6806,
      "step": 279760
    },
    {
      "epoch": 0.5828541666666667,
      "grad_norm": 0.8468846082687378,
      "learning_rate": 0.0001121906562882583,
      "loss": 3.805,
      "step": 279770
    },
    {
      "epoch": 0.582875,
      "grad_norm": 0.8154682517051697,
      "learning_rate": 0.00011218111613832436,
      "loss": 3.8113,
      "step": 279780
    },
    {
      "epoch": 0.5828958333333333,
      "grad_norm": 0.8008928298950195,
      "learning_rate": 0.0001121715761517531,
      "loss": 3.8625,
      "step": 279790
    },
    {
      "epoch": 0.5829166666666666,
      "grad_norm": 0.8485921621322632,
      "learning_rate": 0.00011216203632858565,
      "loss": 3.8387,
      "step": 279800
    },
    {
      "epoch": 0.5829375,
      "grad_norm": 0.7510070204734802,
      "learning_rate": 0.00011215249666886316,
      "loss": 3.8391,
      "step": 279810
    },
    {
      "epoch": 0.5829583333333334,
      "grad_norm": 0.8297376036643982,
      "learning_rate": 0.00011214295717262699,
      "loss": 3.835,
      "step": 279820
    },
    {
      "epoch": 0.5829791666666667,
      "grad_norm": 0.7717003226280212,
      "learning_rate": 0.00011213341783991824,
      "loss": 3.9218,
      "step": 279830
    },
    {
      "epoch": 0.583,
      "grad_norm": 0.8176546692848206,
      "learning_rate": 0.00011212387867077809,
      "loss": 3.6473,
      "step": 279840
    },
    {
      "epoch": 0.5830208333333333,
      "grad_norm": 0.7964830994606018,
      "learning_rate": 0.00011211433966524782,
      "loss": 3.9731,
      "step": 279850
    },
    {
      "epoch": 0.5830416666666667,
      "grad_norm": 0.7843245267868042,
      "learning_rate": 0.00011210480082336863,
      "loss": 3.8387,
      "step": 279860
    },
    {
      "epoch": 0.5830625,
      "grad_norm": 0.7965776324272156,
      "learning_rate": 0.00011209526214518165,
      "loss": 3.6876,
      "step": 279870
    },
    {
      "epoch": 0.5830833333333333,
      "grad_norm": 0.9611556529998779,
      "learning_rate": 0.00011208572363072814,
      "loss": 3.7279,
      "step": 279880
    },
    {
      "epoch": 0.5831041666666666,
      "grad_norm": 0.9267429113388062,
      "learning_rate": 0.00011207618528004935,
      "loss": 3.781,
      "step": 279890
    },
    {
      "epoch": 0.583125,
      "grad_norm": 0.7757375836372375,
      "learning_rate": 0.00011206664709318637,
      "loss": 3.8149,
      "step": 279900
    },
    {
      "epoch": 0.5831458333333334,
      "grad_norm": 0.7502971887588501,
      "learning_rate": 0.00011205710907018047,
      "loss": 3.7532,
      "step": 279910
    },
    {
      "epoch": 0.5831666666666667,
      "grad_norm": 0.8627447485923767,
      "learning_rate": 0.0001120475712110729,
      "loss": 3.7062,
      "step": 279920
    },
    {
      "epoch": 0.5831875,
      "grad_norm": 0.8385758399963379,
      "learning_rate": 0.00011203803351590472,
      "loss": 3.7832,
      "step": 279930
    },
    {
      "epoch": 0.5832083333333333,
      "grad_norm": 0.8746872544288635,
      "learning_rate": 0.00011202849598471722,
      "loss": 3.7058,
      "step": 279940
    },
    {
      "epoch": 0.5832291666666667,
      "grad_norm": 0.9635211825370789,
      "learning_rate": 0.00011201895861755166,
      "loss": 3.8828,
      "step": 279950
    },
    {
      "epoch": 0.58325,
      "grad_norm": 0.7919101715087891,
      "learning_rate": 0.00011200942141444908,
      "loss": 3.7251,
      "step": 279960
    },
    {
      "epoch": 0.5832708333333333,
      "grad_norm": 0.9265871644020081,
      "learning_rate": 0.00011199988437545081,
      "loss": 3.6456,
      "step": 279970
    },
    {
      "epoch": 0.5832916666666667,
      "grad_norm": 0.7813671231269836,
      "learning_rate": 0.00011199034750059799,
      "loss": 3.7003,
      "step": 279980
    },
    {
      "epoch": 0.5833125,
      "grad_norm": 0.8076022267341614,
      "learning_rate": 0.00011198081078993177,
      "loss": 3.7127,
      "step": 279990
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 0.7883127331733704,
      "learning_rate": 0.0001119712742434935,
      "loss": 3.8638,
      "step": 280000
    },
    {
      "epoch": 0.5833333333333334,
      "eval_loss": 4.093489646911621,
      "eval_runtime": 8.8253,
      "eval_samples_per_second": 1.133,
      "eval_steps_per_second": 0.34,
      "step": 280000
    },
    {
      "epoch": 0.5833541666666666,
      "grad_norm": 0.7868064045906067,
      "learning_rate": 0.0001119617378613242,
      "loss": 3.7325,
      "step": 280010
    },
    {
      "epoch": 0.583375,
      "grad_norm": 0.9836024641990662,
      "learning_rate": 0.00011195220164346519,
      "loss": 3.6744,
      "step": 280020
    },
    {
      "epoch": 0.5833958333333333,
      "grad_norm": 1.0095810890197754,
      "learning_rate": 0.00011194266558995755,
      "loss": 3.8627,
      "step": 280030
    },
    {
      "epoch": 0.5834166666666667,
      "grad_norm": 0.795762300491333,
      "learning_rate": 0.00011193312970084254,
      "loss": 3.8907,
      "step": 280040
    },
    {
      "epoch": 0.5834375,
      "grad_norm": 0.8135502934455872,
      "learning_rate": 0.00011192359397616139,
      "loss": 3.8317,
      "step": 280050
    },
    {
      "epoch": 0.5834583333333333,
      "grad_norm": 0.8939974904060364,
      "learning_rate": 0.00011191405841595516,
      "loss": 3.7236,
      "step": 280060
    },
    {
      "epoch": 0.5834791666666667,
      "grad_norm": 0.8719174265861511,
      "learning_rate": 0.00011190452302026518,
      "loss": 3.7851,
      "step": 280070
    },
    {
      "epoch": 0.5835,
      "grad_norm": 0.8296314477920532,
      "learning_rate": 0.0001118949877891326,
      "loss": 3.8236,
      "step": 280080
    },
    {
      "epoch": 0.5835208333333334,
      "grad_norm": 0.8352503776550293,
      "learning_rate": 0.00011188545272259854,
      "loss": 3.7238,
      "step": 280090
    },
    {
      "epoch": 0.5835416666666666,
      "grad_norm": 0.8306942582130432,
      "learning_rate": 0.00011187591782070427,
      "loss": 3.8781,
      "step": 280100
    },
    {
      "epoch": 0.5835625,
      "grad_norm": 0.9080977439880371,
      "learning_rate": 0.00011186638308349093,
      "loss": 3.6753,
      "step": 280110
    },
    {
      "epoch": 0.5835833333333333,
      "grad_norm": 0.8406841158866882,
      "learning_rate": 0.0001118568485109997,
      "loss": 3.9183,
      "step": 280120
    },
    {
      "epoch": 0.5836041666666667,
      "grad_norm": 0.9187785983085632,
      "learning_rate": 0.00011184731410327184,
      "loss": 3.8104,
      "step": 280130
    },
    {
      "epoch": 0.583625,
      "grad_norm": 0.8592218160629272,
      "learning_rate": 0.00011183777986034844,
      "loss": 3.8219,
      "step": 280140
    },
    {
      "epoch": 0.5836458333333333,
      "grad_norm": 0.8756939172744751,
      "learning_rate": 0.0001118282457822707,
      "loss": 3.781,
      "step": 280150
    },
    {
      "epoch": 0.5836666666666667,
      "grad_norm": 0.8511167764663696,
      "learning_rate": 0.0001118187118690799,
      "loss": 3.7933,
      "step": 280160
    },
    {
      "epoch": 0.5836875,
      "grad_norm": 1.0298398733139038,
      "learning_rate": 0.00011180917812081713,
      "loss": 3.77,
      "step": 280170
    },
    {
      "epoch": 0.5837083333333334,
      "grad_norm": 0.8394966721534729,
      "learning_rate": 0.00011179964453752354,
      "loss": 3.9046,
      "step": 280180
    },
    {
      "epoch": 0.5837291666666666,
      "grad_norm": 0.780202329158783,
      "learning_rate": 0.00011179011111924042,
      "loss": 3.7216,
      "step": 280190
    },
    {
      "epoch": 0.58375,
      "grad_norm": 0.8041144013404846,
      "learning_rate": 0.00011178057786600889,
      "loss": 3.6887,
      "step": 280200
    },
    {
      "epoch": 0.5837708333333333,
      "grad_norm": 0.833292543888092,
      "learning_rate": 0.00011177104477787009,
      "loss": 3.5528,
      "step": 280210
    },
    {
      "epoch": 0.5837916666666667,
      "grad_norm": 0.7438796758651733,
      "learning_rate": 0.0001117615118548653,
      "loss": 3.8347,
      "step": 280220
    },
    {
      "epoch": 0.5838125,
      "grad_norm": 0.7309713959693909,
      "learning_rate": 0.00011175197909703566,
      "loss": 3.7526,
      "step": 280230
    },
    {
      "epoch": 0.5838333333333333,
      "grad_norm": 0.8258368372917175,
      "learning_rate": 0.00011174244650442225,
      "loss": 3.7888,
      "step": 280240
    },
    {
      "epoch": 0.5838541666666667,
      "grad_norm": 0.7881349325180054,
      "learning_rate": 0.00011173291407706638,
      "loss": 3.6317,
      "step": 280250
    },
    {
      "epoch": 0.583875,
      "grad_norm": 0.8505812287330627,
      "learning_rate": 0.0001117233818150092,
      "loss": 3.8209,
      "step": 280260
    },
    {
      "epoch": 0.5838958333333333,
      "grad_norm": 0.8411759734153748,
      "learning_rate": 0.00011171384971829179,
      "loss": 3.7891,
      "step": 280270
    },
    {
      "epoch": 0.5839166666666666,
      "grad_norm": 0.9579243659973145,
      "learning_rate": 0.00011170431778695543,
      "loss": 3.7585,
      "step": 280280
    },
    {
      "epoch": 0.5839375,
      "grad_norm": 0.8163029551506042,
      "learning_rate": 0.00011169478602104128,
      "loss": 3.7206,
      "step": 280290
    },
    {
      "epoch": 0.5839583333333334,
      "grad_norm": 0.8152295351028442,
      "learning_rate": 0.00011168525442059047,
      "loss": 3.8454,
      "step": 280300
    },
    {
      "epoch": 0.5839791666666667,
      "grad_norm": 0.824606716632843,
      "learning_rate": 0.00011167572298564416,
      "loss": 3.8774,
      "step": 280310
    },
    {
      "epoch": 0.584,
      "grad_norm": 0.9995819330215454,
      "learning_rate": 0.00011166619171624361,
      "loss": 3.6542,
      "step": 280320
    },
    {
      "epoch": 0.5840208333333333,
      "grad_norm": 0.8415182828903198,
      "learning_rate": 0.00011165666061242997,
      "loss": 3.7002,
      "step": 280330
    },
    {
      "epoch": 0.5840416666666667,
      "grad_norm": 0.8584157824516296,
      "learning_rate": 0.0001116471296742443,
      "loss": 3.6495,
      "step": 280340
    },
    {
      "epoch": 0.5840625,
      "grad_norm": 0.8035801649093628,
      "learning_rate": 0.00011163759890172788,
      "loss": 3.8376,
      "step": 280350
    },
    {
      "epoch": 0.5840833333333333,
      "grad_norm": 0.7701402306556702,
      "learning_rate": 0.00011162806829492185,
      "loss": 3.7939,
      "step": 280360
    },
    {
      "epoch": 0.5841041666666666,
      "grad_norm": 0.8779562711715698,
      "learning_rate": 0.00011161853785386735,
      "loss": 4.0825,
      "step": 280370
    },
    {
      "epoch": 0.584125,
      "grad_norm": 0.8586621284484863,
      "learning_rate": 0.0001116090075786056,
      "loss": 3.7465,
      "step": 280380
    },
    {
      "epoch": 0.5841458333333334,
      "grad_norm": 0.7991102933883667,
      "learning_rate": 0.00011159947746917776,
      "loss": 3.7282,
      "step": 280390
    },
    {
      "epoch": 0.5841666666666666,
      "grad_norm": 0.8793022632598877,
      "learning_rate": 0.00011158994752562492,
      "loss": 3.7067,
      "step": 280400
    },
    {
      "epoch": 0.5841875,
      "grad_norm": 0.7486221194267273,
      "learning_rate": 0.00011158041774798833,
      "loss": 3.8147,
      "step": 280410
    },
    {
      "epoch": 0.5842083333333333,
      "grad_norm": 0.7821490168571472,
      "learning_rate": 0.00011157088813630917,
      "loss": 3.8548,
      "step": 280420
    },
    {
      "epoch": 0.5842291666666667,
      "grad_norm": 0.8904522061347961,
      "learning_rate": 0.0001115613586906285,
      "loss": 3.9602,
      "step": 280430
    },
    {
      "epoch": 0.58425,
      "grad_norm": 0.8606180548667908,
      "learning_rate": 0.00011155182941098755,
      "loss": 3.7682,
      "step": 280440
    },
    {
      "epoch": 0.5842708333333333,
      "grad_norm": 0.8923056125640869,
      "learning_rate": 0.00011154230029742753,
      "loss": 3.8013,
      "step": 280450
    },
    {
      "epoch": 0.5842916666666667,
      "grad_norm": 0.9115864634513855,
      "learning_rate": 0.00011153277134998949,
      "loss": 3.8873,
      "step": 280460
    },
    {
      "epoch": 0.5843125,
      "grad_norm": 0.8259078860282898,
      "learning_rate": 0.00011152324256871473,
      "loss": 3.6505,
      "step": 280470
    },
    {
      "epoch": 0.5843333333333334,
      "grad_norm": 0.8143638372421265,
      "learning_rate": 0.00011151371395364428,
      "loss": 3.8624,
      "step": 280480
    },
    {
      "epoch": 0.5843541666666666,
      "grad_norm": 0.8274738788604736,
      "learning_rate": 0.00011150418550481932,
      "loss": 3.7969,
      "step": 280490
    },
    {
      "epoch": 0.584375,
      "grad_norm": 0.7929245233535767,
      "learning_rate": 0.00011149465722228111,
      "loss": 3.8307,
      "step": 280500
    },
    {
      "epoch": 0.5843958333333333,
      "grad_norm": 0.7639392018318176,
      "learning_rate": 0.0001114851291060707,
      "loss": 3.9277,
      "step": 280510
    },
    {
      "epoch": 0.5844166666666667,
      "grad_norm": 0.9404863119125366,
      "learning_rate": 0.00011147560115622926,
      "loss": 3.9397,
      "step": 280520
    },
    {
      "epoch": 0.5844375,
      "grad_norm": 0.7256828546524048,
      "learning_rate": 0.00011146607337279805,
      "loss": 3.7271,
      "step": 280530
    },
    {
      "epoch": 0.5844583333333333,
      "grad_norm": 0.846307635307312,
      "learning_rate": 0.00011145654575581809,
      "loss": 3.9228,
      "step": 280540
    },
    {
      "epoch": 0.5844791666666667,
      "grad_norm": 0.7650641202926636,
      "learning_rate": 0.00011144701830533058,
      "loss": 3.8913,
      "step": 280550
    },
    {
      "epoch": 0.5845,
      "grad_norm": 0.8213356733322144,
      "learning_rate": 0.00011143749102137674,
      "loss": 3.832,
      "step": 280560
    },
    {
      "epoch": 0.5845208333333334,
      "grad_norm": 1.001526117324829,
      "learning_rate": 0.00011142796390399768,
      "loss": 3.7205,
      "step": 280570
    },
    {
      "epoch": 0.5845416666666666,
      "grad_norm": 0.9671235084533691,
      "learning_rate": 0.0001114184369532345,
      "loss": 3.6829,
      "step": 280580
    },
    {
      "epoch": 0.5845625,
      "grad_norm": 0.7835294008255005,
      "learning_rate": 0.00011140891016912843,
      "loss": 3.7921,
      "step": 280590
    },
    {
      "epoch": 0.5845833333333333,
      "grad_norm": 0.737661600112915,
      "learning_rate": 0.00011139938355172063,
      "loss": 3.7363,
      "step": 280600
    },
    {
      "epoch": 0.5846041666666667,
      "grad_norm": 0.7524949312210083,
      "learning_rate": 0.00011138985710105217,
      "loss": 3.6306,
      "step": 280610
    },
    {
      "epoch": 0.584625,
      "grad_norm": 0.7908626794815063,
      "learning_rate": 0.00011138033081716421,
      "loss": 3.8824,
      "step": 280620
    },
    {
      "epoch": 0.5846458333333333,
      "grad_norm": 0.931818425655365,
      "learning_rate": 0.000111370804700098,
      "loss": 3.7797,
      "step": 280630
    },
    {
      "epoch": 0.5846666666666667,
      "grad_norm": 0.7731735110282898,
      "learning_rate": 0.0001113612787498946,
      "loss": 3.9368,
      "step": 280640
    },
    {
      "epoch": 0.5846875,
      "grad_norm": 0.9643980860710144,
      "learning_rate": 0.00011135175296659515,
      "loss": 3.6731,
      "step": 280650
    },
    {
      "epoch": 0.5847083333333334,
      "grad_norm": 0.9140379428863525,
      "learning_rate": 0.00011134222735024088,
      "loss": 3.9202,
      "step": 280660
    },
    {
      "epoch": 0.5847291666666666,
      "grad_norm": 0.8442375063896179,
      "learning_rate": 0.00011133270190087286,
      "loss": 3.7799,
      "step": 280670
    },
    {
      "epoch": 0.58475,
      "grad_norm": 0.8216691613197327,
      "learning_rate": 0.00011132317661853224,
      "loss": 3.7225,
      "step": 280680
    },
    {
      "epoch": 0.5847708333333334,
      "grad_norm": 0.8032580614089966,
      "learning_rate": 0.00011131365150326023,
      "loss": 3.798,
      "step": 280690
    },
    {
      "epoch": 0.5847916666666667,
      "grad_norm": 0.794703483581543,
      "learning_rate": 0.00011130412655509792,
      "loss": 3.7044,
      "step": 280700
    },
    {
      "epoch": 0.5848125,
      "grad_norm": 0.8144464492797852,
      "learning_rate": 0.00011129460177408642,
      "loss": 3.627,
      "step": 280710
    },
    {
      "epoch": 0.5848333333333333,
      "grad_norm": 0.7860255241394043,
      "learning_rate": 0.000111285077160267,
      "loss": 3.7487,
      "step": 280720
    },
    {
      "epoch": 0.5848541666666667,
      "grad_norm": 0.9511545300483704,
      "learning_rate": 0.00011127555271368071,
      "loss": 3.7624,
      "step": 280730
    },
    {
      "epoch": 0.584875,
      "grad_norm": 0.8043039441108704,
      "learning_rate": 0.00011126602843436864,
      "loss": 3.7967,
      "step": 280740
    },
    {
      "epoch": 0.5848958333333333,
      "grad_norm": 1.1212226152420044,
      "learning_rate": 0.00011125650432237204,
      "loss": 3.8851,
      "step": 280750
    },
    {
      "epoch": 0.5849166666666666,
      "grad_norm": 0.8283631205558777,
      "learning_rate": 0.00011124698037773202,
      "loss": 3.9037,
      "step": 280760
    },
    {
      "epoch": 0.5849375,
      "grad_norm": 0.7935258150100708,
      "learning_rate": 0.00011123745660048964,
      "loss": 3.7796,
      "step": 280770
    },
    {
      "epoch": 0.5849583333333334,
      "grad_norm": 0.9099780917167664,
      "learning_rate": 0.00011122793299068616,
      "loss": 3.6933,
      "step": 280780
    },
    {
      "epoch": 0.5849791666666667,
      "grad_norm": 0.7327675819396973,
      "learning_rate": 0.00011121840954836268,
      "loss": 3.7369,
      "step": 280790
    },
    {
      "epoch": 0.585,
      "grad_norm": 0.8470777869224548,
      "learning_rate": 0.00011120888627356025,
      "loss": 3.8107,
      "step": 280800
    },
    {
      "epoch": 0.5850208333333333,
      "grad_norm": 0.8448584675788879,
      "learning_rate": 0.00011119936316632011,
      "loss": 3.761,
      "step": 280810
    },
    {
      "epoch": 0.5850416666666667,
      "grad_norm": 1.1299253702163696,
      "learning_rate": 0.00011118984022668339,
      "loss": 3.6954,
      "step": 280820
    },
    {
      "epoch": 0.5850625,
      "grad_norm": 0.8495244383811951,
      "learning_rate": 0.00011118031745469116,
      "loss": 3.7902,
      "step": 280830
    },
    {
      "epoch": 0.5850833333333333,
      "grad_norm": 0.7704307436943054,
      "learning_rate": 0.00011117079485038463,
      "loss": 3.7741,
      "step": 280840
    },
    {
      "epoch": 0.5851041666666666,
      "grad_norm": 0.7834610939025879,
      "learning_rate": 0.00011116127241380488,
      "loss": 3.9506,
      "step": 280850
    },
    {
      "epoch": 0.585125,
      "grad_norm": 0.9921311736106873,
      "learning_rate": 0.00011115175014499302,
      "loss": 3.7213,
      "step": 280860
    },
    {
      "epoch": 0.5851458333333334,
      "grad_norm": 0.9000431895256042,
      "learning_rate": 0.00011114222804399028,
      "loss": 3.821,
      "step": 280870
    },
    {
      "epoch": 0.5851666666666666,
      "grad_norm": 0.8621782064437866,
      "learning_rate": 0.00011113270611083772,
      "loss": 3.8573,
      "step": 280880
    },
    {
      "epoch": 0.5851875,
      "grad_norm": 0.7622989416122437,
      "learning_rate": 0.0001111231843455765,
      "loss": 3.6596,
      "step": 280890
    },
    {
      "epoch": 0.5852083333333333,
      "grad_norm": 0.9010566473007202,
      "learning_rate": 0.00011111366274824768,
      "loss": 3.7624,
      "step": 280900
    },
    {
      "epoch": 0.5852291666666667,
      "grad_norm": 0.8142180442810059,
      "learning_rate": 0.00011110414131889247,
      "loss": 3.8652,
      "step": 280910
    },
    {
      "epoch": 0.58525,
      "grad_norm": 0.997169017791748,
      "learning_rate": 0.000111094620057552,
      "loss": 3.742,
      "step": 280920
    },
    {
      "epoch": 0.5852708333333333,
      "grad_norm": 0.7443352341651917,
      "learning_rate": 0.00011108509896426732,
      "loss": 3.8731,
      "step": 280930
    },
    {
      "epoch": 0.5852916666666667,
      "grad_norm": 0.7815921306610107,
      "learning_rate": 0.00011107557803907964,
      "loss": 3.9554,
      "step": 280940
    },
    {
      "epoch": 0.5853125,
      "grad_norm": 0.8251944780349731,
      "learning_rate": 0.00011106605728203011,
      "loss": 3.7341,
      "step": 280950
    },
    {
      "epoch": 0.5853333333333334,
      "grad_norm": 0.7156394124031067,
      "learning_rate": 0.0001110565366931597,
      "loss": 3.9057,
      "step": 280960
    },
    {
      "epoch": 0.5853541666666666,
      "grad_norm": 0.7660454511642456,
      "learning_rate": 0.00011104701627250972,
      "loss": 3.6792,
      "step": 280970
    },
    {
      "epoch": 0.585375,
      "grad_norm": 0.8185062408447266,
      "learning_rate": 0.00011103749602012118,
      "loss": 3.7475,
      "step": 280980
    },
    {
      "epoch": 0.5853958333333333,
      "grad_norm": 0.7683357000350952,
      "learning_rate": 0.00011102797593603518,
      "loss": 3.897,
      "step": 280990
    },
    {
      "epoch": 0.5854166666666667,
      "grad_norm": 0.8729420900344849,
      "learning_rate": 0.00011101845602029298,
      "loss": 3.7721,
      "step": 281000
    },
    {
      "epoch": 0.5854166666666667,
      "eval_loss": 4.095201015472412,
      "eval_runtime": 8.2716,
      "eval_samples_per_second": 1.209,
      "eval_steps_per_second": 0.363,
      "step": 281000
    },
    {
      "epoch": 0.5854375,
      "grad_norm": 0.8369439244270325,
      "learning_rate": 0.00011100893627293558,
      "loss": 3.8219,
      "step": 281010
    },
    {
      "epoch": 0.5854583333333333,
      "grad_norm": 0.802467405796051,
      "learning_rate": 0.00011099941669400412,
      "loss": 3.7177,
      "step": 281020
    },
    {
      "epoch": 0.5854791666666667,
      "grad_norm": 0.9020689129829407,
      "learning_rate": 0.00011098989728353982,
      "loss": 3.7005,
      "step": 281030
    },
    {
      "epoch": 0.5855,
      "grad_norm": 1.0197149515151978,
      "learning_rate": 0.00011098037804158366,
      "loss": 3.6734,
      "step": 281040
    },
    {
      "epoch": 0.5855208333333334,
      "grad_norm": 0.9033275246620178,
      "learning_rate": 0.00011097085896817681,
      "loss": 3.6979,
      "step": 281050
    },
    {
      "epoch": 0.5855416666666666,
      "grad_norm": 1.2069635391235352,
      "learning_rate": 0.00011096134006336044,
      "loss": 3.7867,
      "step": 281060
    },
    {
      "epoch": 0.5855625,
      "grad_norm": 0.856010913848877,
      "learning_rate": 0.00011095182132717563,
      "loss": 3.6227,
      "step": 281070
    },
    {
      "epoch": 0.5855833333333333,
      "grad_norm": 0.8214594721794128,
      "learning_rate": 0.00011094230275966345,
      "loss": 3.7319,
      "step": 281080
    },
    {
      "epoch": 0.5856041666666667,
      "grad_norm": 0.7498530745506287,
      "learning_rate": 0.0001109327843608651,
      "loss": 3.5682,
      "step": 281090
    },
    {
      "epoch": 0.585625,
      "grad_norm": 0.8286347389221191,
      "learning_rate": 0.0001109232661308217,
      "loss": 3.9028,
      "step": 281100
    },
    {
      "epoch": 0.5856458333333333,
      "grad_norm": 0.9173303842544556,
      "learning_rate": 0.00011091374806957424,
      "loss": 3.8643,
      "step": 281110
    },
    {
      "epoch": 0.5856666666666667,
      "grad_norm": 0.85714191198349,
      "learning_rate": 0.00011090423017716394,
      "loss": 3.8982,
      "step": 281120
    },
    {
      "epoch": 0.5856875,
      "grad_norm": 0.8332928419113159,
      "learning_rate": 0.00011089471245363192,
      "loss": 3.7509,
      "step": 281130
    },
    {
      "epoch": 0.5857083333333334,
      "grad_norm": 0.8240624070167542,
      "learning_rate": 0.00011088519489901923,
      "loss": 3.5831,
      "step": 281140
    },
    {
      "epoch": 0.5857291666666666,
      "grad_norm": 0.8996704816818237,
      "learning_rate": 0.00011087567751336701,
      "loss": 3.6243,
      "step": 281150
    },
    {
      "epoch": 0.58575,
      "grad_norm": 1.4985311031341553,
      "learning_rate": 0.00011086616029671643,
      "loss": 3.8173,
      "step": 281160
    },
    {
      "epoch": 0.5857708333333334,
      "grad_norm": 0.9162986874580383,
      "learning_rate": 0.00011085664324910848,
      "loss": 3.7986,
      "step": 281170
    },
    {
      "epoch": 0.5857916666666667,
      "grad_norm": 0.7987216114997864,
      "learning_rate": 0.00011084712637058437,
      "loss": 3.7447,
      "step": 281180
    },
    {
      "epoch": 0.5858125,
      "grad_norm": 0.7804686427116394,
      "learning_rate": 0.00011083760966118519,
      "loss": 3.8909,
      "step": 281190
    },
    {
      "epoch": 0.5858333333333333,
      "grad_norm": 0.817034125328064,
      "learning_rate": 0.00011082809312095203,
      "loss": 3.8171,
      "step": 281200
    },
    {
      "epoch": 0.5858541666666667,
      "grad_norm": 0.7978305220603943,
      "learning_rate": 0.00011081857674992594,
      "loss": 3.7038,
      "step": 281210
    },
    {
      "epoch": 0.585875,
      "grad_norm": 1.0212886333465576,
      "learning_rate": 0.0001108090605481482,
      "loss": 3.8418,
      "step": 281220
    },
    {
      "epoch": 0.5858958333333333,
      "grad_norm": 0.8582334518432617,
      "learning_rate": 0.00011079954451565977,
      "loss": 3.7923,
      "step": 281230
    },
    {
      "epoch": 0.5859166666666666,
      "grad_norm": 0.9063507914543152,
      "learning_rate": 0.00011079002865250173,
      "loss": 3.6492,
      "step": 281240
    },
    {
      "epoch": 0.5859375,
      "grad_norm": 0.9627203345298767,
      "learning_rate": 0.00011078051295871528,
      "loss": 3.6942,
      "step": 281250
    },
    {
      "epoch": 0.5859583333333334,
      "grad_norm": 0.8739058375358582,
      "learning_rate": 0.00011077099743434154,
      "loss": 3.8755,
      "step": 281260
    },
    {
      "epoch": 0.5859791666666667,
      "grad_norm": 0.7879725694656372,
      "learning_rate": 0.00011076148207942147,
      "loss": 3.8998,
      "step": 281270
    },
    {
      "epoch": 0.586,
      "grad_norm": 0.8487318158149719,
      "learning_rate": 0.00011075196689399633,
      "loss": 3.6537,
      "step": 281280
    },
    {
      "epoch": 0.5860208333333333,
      "grad_norm": 0.8684716820716858,
      "learning_rate": 0.00011074245187810716,
      "loss": 3.7718,
      "step": 281290
    },
    {
      "epoch": 0.5860416666666667,
      "grad_norm": 0.8096296787261963,
      "learning_rate": 0.00011073293703179501,
      "loss": 3.8498,
      "step": 281300
    },
    {
      "epoch": 0.5860625,
      "grad_norm": 0.8400543332099915,
      "learning_rate": 0.00011072342235510105,
      "loss": 3.8438,
      "step": 281310
    },
    {
      "epoch": 0.5860833333333333,
      "grad_norm": 0.7670343518257141,
      "learning_rate": 0.0001107139078480664,
      "loss": 3.7897,
      "step": 281320
    },
    {
      "epoch": 0.5861041666666666,
      "grad_norm": 0.8918637037277222,
      "learning_rate": 0.00011070439351073205,
      "loss": 3.7346,
      "step": 281330
    },
    {
      "epoch": 0.586125,
      "grad_norm": 0.8387070298194885,
      "learning_rate": 0.00011069487934313922,
      "loss": 3.7483,
      "step": 281340
    },
    {
      "epoch": 0.5861458333333334,
      "grad_norm": 0.8827123045921326,
      "learning_rate": 0.00011068536534532894,
      "loss": 3.7085,
      "step": 281350
    },
    {
      "epoch": 0.5861666666666666,
      "grad_norm": 0.8427452445030212,
      "learning_rate": 0.00011067585151734228,
      "loss": 3.8724,
      "step": 281360
    },
    {
      "epoch": 0.5861875,
      "grad_norm": 1.1820036172866821,
      "learning_rate": 0.00011066633785922043,
      "loss": 3.7621,
      "step": 281370
    },
    {
      "epoch": 0.5862083333333333,
      "grad_norm": 0.8967869877815247,
      "learning_rate": 0.00011065682437100442,
      "loss": 3.8287,
      "step": 281380
    },
    {
      "epoch": 0.5862291666666667,
      "grad_norm": 0.9494266510009766,
      "learning_rate": 0.00011064731105273531,
      "loss": 3.8582,
      "step": 281390
    },
    {
      "epoch": 0.58625,
      "grad_norm": 0.8504648208618164,
      "learning_rate": 0.00011063779790445432,
      "loss": 3.7775,
      "step": 281400
    },
    {
      "epoch": 0.5862708333333333,
      "grad_norm": 0.8435928821563721,
      "learning_rate": 0.00011062828492620241,
      "loss": 3.6554,
      "step": 281410
    },
    {
      "epoch": 0.5862916666666667,
      "grad_norm": 0.8023450374603271,
      "learning_rate": 0.0001106187721180207,
      "loss": 3.8274,
      "step": 281420
    },
    {
      "epoch": 0.5863125,
      "grad_norm": 0.7720051407814026,
      "learning_rate": 0.00011060925947995035,
      "loss": 3.9649,
      "step": 281430
    },
    {
      "epoch": 0.5863333333333334,
      "grad_norm": 0.8060827851295471,
      "learning_rate": 0.00011059974701203241,
      "loss": 3.6996,
      "step": 281440
    },
    {
      "epoch": 0.5863541666666666,
      "grad_norm": 0.8830263018608093,
      "learning_rate": 0.00011059023471430792,
      "loss": 3.6868,
      "step": 281450
    },
    {
      "epoch": 0.586375,
      "grad_norm": 0.9882263541221619,
      "learning_rate": 0.00011058072258681809,
      "loss": 3.6744,
      "step": 281460
    },
    {
      "epoch": 0.5863958333333333,
      "grad_norm": 0.872880756855011,
      "learning_rate": 0.0001105712106296039,
      "loss": 3.7779,
      "step": 281470
    },
    {
      "epoch": 0.5864166666666667,
      "grad_norm": 0.8742560148239136,
      "learning_rate": 0.00011056169884270648,
      "loss": 3.6151,
      "step": 281480
    },
    {
      "epoch": 0.5864375,
      "grad_norm": 0.8120354413986206,
      "learning_rate": 0.00011055218722616686,
      "loss": 3.6711,
      "step": 281490
    },
    {
      "epoch": 0.5864583333333333,
      "grad_norm": 0.8397785425186157,
      "learning_rate": 0.00011054267578002626,
      "loss": 3.7224,
      "step": 281500
    },
    {
      "epoch": 0.5864791666666667,
      "grad_norm": 0.8597421646118164,
      "learning_rate": 0.00011053316450432563,
      "loss": 3.8292,
      "step": 281510
    },
    {
      "epoch": 0.5865,
      "grad_norm": 0.7356181144714355,
      "learning_rate": 0.00011052365339910609,
      "loss": 3.7801,
      "step": 281520
    },
    {
      "epoch": 0.5865208333333334,
      "grad_norm": 0.8905415534973145,
      "learning_rate": 0.00011051414246440878,
      "loss": 3.773,
      "step": 281530
    },
    {
      "epoch": 0.5865416666666666,
      "grad_norm": 0.8361613750457764,
      "learning_rate": 0.00011050463170027473,
      "loss": 3.8054,
      "step": 281540
    },
    {
      "epoch": 0.5865625,
      "grad_norm": 0.9276780486106873,
      "learning_rate": 0.00011049512110674501,
      "loss": 3.4427,
      "step": 281550
    },
    {
      "epoch": 0.5865833333333333,
      "grad_norm": 0.8053569197654724,
      "learning_rate": 0.00011048561068386079,
      "loss": 3.7746,
      "step": 281560
    },
    {
      "epoch": 0.5866041666666667,
      "grad_norm": 0.8273311853408813,
      "learning_rate": 0.00011047610043166306,
      "loss": 3.7574,
      "step": 281570
    },
    {
      "epoch": 0.586625,
      "grad_norm": 0.8384431600570679,
      "learning_rate": 0.00011046659035019288,
      "loss": 3.6127,
      "step": 281580
    },
    {
      "epoch": 0.5866458333333333,
      "grad_norm": 0.7825536131858826,
      "learning_rate": 0.00011045708043949147,
      "loss": 3.6748,
      "step": 281590
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 0.8818015456199646,
      "learning_rate": 0.00011044757069959981,
      "loss": 3.9224,
      "step": 281600
    },
    {
      "epoch": 0.5866875,
      "grad_norm": 0.8200442790985107,
      "learning_rate": 0.00011043806113055894,
      "loss": 3.8517,
      "step": 281610
    },
    {
      "epoch": 0.5867083333333334,
      "grad_norm": 0.8975578546524048,
      "learning_rate": 0.00011042855173241,
      "loss": 3.648,
      "step": 281620
    },
    {
      "epoch": 0.5867291666666666,
      "grad_norm": 0.7423302531242371,
      "learning_rate": 0.0001104190425051941,
      "loss": 3.7306,
      "step": 281630
    },
    {
      "epoch": 0.58675,
      "grad_norm": 0.9072436690330505,
      "learning_rate": 0.00011040953344895219,
      "loss": 3.9966,
      "step": 281640
    },
    {
      "epoch": 0.5867708333333334,
      "grad_norm": 0.8609134554862976,
      "learning_rate": 0.00011040002456372546,
      "loss": 3.662,
      "step": 281650
    },
    {
      "epoch": 0.5867916666666667,
      "grad_norm": 0.838168203830719,
      "learning_rate": 0.000110390515849555,
      "loss": 3.8253,
      "step": 281660
    },
    {
      "epoch": 0.5868125,
      "grad_norm": 0.803887665271759,
      "learning_rate": 0.00011038100730648174,
      "loss": 3.8193,
      "step": 281670
    },
    {
      "epoch": 0.5868333333333333,
      "grad_norm": 0.8603841066360474,
      "learning_rate": 0.00011037149893454688,
      "loss": 3.9884,
      "step": 281680
    },
    {
      "epoch": 0.5868541666666667,
      "grad_norm": 0.8585084080696106,
      "learning_rate": 0.00011036199073379151,
      "loss": 3.6481,
      "step": 281690
    },
    {
      "epoch": 0.586875,
      "grad_norm": 0.9334920644760132,
      "learning_rate": 0.00011035248270425657,
      "loss": 3.7597,
      "step": 281700
    },
    {
      "epoch": 0.5868958333333333,
      "grad_norm": 0.9371404051780701,
      "learning_rate": 0.00011034297484598324,
      "loss": 3.7363,
      "step": 281710
    },
    {
      "epoch": 0.5869166666666666,
      "grad_norm": 1.0350362062454224,
      "learning_rate": 0.00011033346715901262,
      "loss": 3.6854,
      "step": 281720
    },
    {
      "epoch": 0.5869375,
      "grad_norm": 0.8037796020507812,
      "learning_rate": 0.00011032395964338564,
      "loss": 3.7347,
      "step": 281730
    },
    {
      "epoch": 0.5869583333333334,
      "grad_norm": 0.9617959856987,
      "learning_rate": 0.0001103144522991435,
      "loss": 3.8172,
      "step": 281740
    },
    {
      "epoch": 0.5869791666666667,
      "grad_norm": 0.7966148257255554,
      "learning_rate": 0.00011030494512632722,
      "loss": 3.8979,
      "step": 281750
    },
    {
      "epoch": 0.587,
      "grad_norm": 0.7660108208656311,
      "learning_rate": 0.0001102954381249778,
      "loss": 3.5809,
      "step": 281760
    },
    {
      "epoch": 0.5870208333333333,
      "grad_norm": 0.8340241312980652,
      "learning_rate": 0.00011028593129513646,
      "loss": 3.7207,
      "step": 281770
    },
    {
      "epoch": 0.5870416666666667,
      "grad_norm": 0.8682473301887512,
      "learning_rate": 0.00011027642463684413,
      "loss": 3.7663,
      "step": 281780
    },
    {
      "epoch": 0.5870625,
      "grad_norm": 0.8083466291427612,
      "learning_rate": 0.00011026691815014195,
      "loss": 3.863,
      "step": 281790
    },
    {
      "epoch": 0.5870833333333333,
      "grad_norm": 0.842159628868103,
      "learning_rate": 0.0001102574118350709,
      "loss": 3.7356,
      "step": 281800
    },
    {
      "epoch": 0.5871041666666666,
      "grad_norm": 0.8572203516960144,
      "learning_rate": 0.00011024790569167215,
      "loss": 3.6924,
      "step": 281810
    },
    {
      "epoch": 0.587125,
      "grad_norm": 0.8772425055503845,
      "learning_rate": 0.00011023839971998671,
      "loss": 3.7742,
      "step": 281820
    },
    {
      "epoch": 0.5871458333333334,
      "grad_norm": 1.1431097984313965,
      "learning_rate": 0.00011022889392005559,
      "loss": 3.8336,
      "step": 281830
    },
    {
      "epoch": 0.5871666666666666,
      "grad_norm": 0.7364959716796875,
      "learning_rate": 0.00011021938829191999,
      "loss": 3.8492,
      "step": 281840
    },
    {
      "epoch": 0.5871875,
      "grad_norm": 0.8961079716682434,
      "learning_rate": 0.00011020988283562083,
      "loss": 3.8685,
      "step": 281850
    },
    {
      "epoch": 0.5872083333333333,
      "grad_norm": 0.8431705832481384,
      "learning_rate": 0.0001102003775511992,
      "loss": 3.9893,
      "step": 281860
    },
    {
      "epoch": 0.5872291666666667,
      "grad_norm": 0.7767200469970703,
      "learning_rate": 0.00011019087243869625,
      "loss": 3.9288,
      "step": 281870
    },
    {
      "epoch": 0.58725,
      "grad_norm": 0.8669517636299133,
      "learning_rate": 0.00011018136749815294,
      "loss": 3.797,
      "step": 281880
    },
    {
      "epoch": 0.5872708333333333,
      "grad_norm": 0.8245920538902283,
      "learning_rate": 0.00011017186272961034,
      "loss": 3.5565,
      "step": 281890
    },
    {
      "epoch": 0.5872916666666667,
      "grad_norm": 0.8152979016304016,
      "learning_rate": 0.0001101623581331096,
      "loss": 3.8712,
      "step": 281900
    },
    {
      "epoch": 0.5873125,
      "grad_norm": 0.8678677678108215,
      "learning_rate": 0.00011015285370869164,
      "loss": 3.7051,
      "step": 281910
    },
    {
      "epoch": 0.5873333333333334,
      "grad_norm": 0.7974948883056641,
      "learning_rate": 0.00011014334945639755,
      "loss": 3.7892,
      "step": 281920
    },
    {
      "epoch": 0.5873541666666666,
      "grad_norm": 0.826458215713501,
      "learning_rate": 0.00011013384537626851,
      "loss": 3.9377,
      "step": 281930
    },
    {
      "epoch": 0.587375,
      "grad_norm": 0.9965624809265137,
      "learning_rate": 0.00011012434146834543,
      "loss": 3.9658,
      "step": 281940
    },
    {
      "epoch": 0.5873958333333333,
      "grad_norm": 0.809966504573822,
      "learning_rate": 0.00011011483773266938,
      "loss": 3.7961,
      "step": 281950
    },
    {
      "epoch": 0.5874166666666667,
      "grad_norm": 0.8344767689704895,
      "learning_rate": 0.0001101053341692815,
      "loss": 3.7764,
      "step": 281960
    },
    {
      "epoch": 0.5874375,
      "grad_norm": 0.820766270160675,
      "learning_rate": 0.00011009583077822278,
      "loss": 3.8744,
      "step": 281970
    },
    {
      "epoch": 0.5874583333333333,
      "grad_norm": 0.7875028848648071,
      "learning_rate": 0.00011008632755953423,
      "loss": 3.8775,
      "step": 281980
    },
    {
      "epoch": 0.5874791666666667,
      "grad_norm": 0.988935649394989,
      "learning_rate": 0.00011007682451325697,
      "loss": 3.8847,
      "step": 281990
    },
    {
      "epoch": 0.5875,
      "grad_norm": 0.8304396271705627,
      "learning_rate": 0.00011006732163943206,
      "loss": 3.5453,
      "step": 282000
    },
    {
      "epoch": 0.5875,
      "eval_loss": 4.096488952636719,
      "eval_runtime": 8.8278,
      "eval_samples_per_second": 1.133,
      "eval_steps_per_second": 0.34,
      "step": 282000
    },
    {
      "epoch": 0.5875208333333334,
      "grad_norm": 0.8169193267822266,
      "learning_rate": 0.00011005781893810045,
      "loss": 3.6878,
      "step": 282010
    },
    {
      "epoch": 0.5875416666666666,
      "grad_norm": 0.91551673412323,
      "learning_rate": 0.00011004831640930327,
      "loss": 3.7363,
      "step": 282020
    },
    {
      "epoch": 0.5875625,
      "grad_norm": 0.9007418751716614,
      "learning_rate": 0.0001100388140530816,
      "loss": 3.8117,
      "step": 282030
    },
    {
      "epoch": 0.5875833333333333,
      "grad_norm": 0.7446587085723877,
      "learning_rate": 0.00011002931186947637,
      "loss": 3.7366,
      "step": 282040
    },
    {
      "epoch": 0.5876041666666667,
      "grad_norm": 0.8410376906394958,
      "learning_rate": 0.0001100198098585287,
      "loss": 3.6172,
      "step": 282050
    },
    {
      "epoch": 0.587625,
      "grad_norm": 0.9479069113731384,
      "learning_rate": 0.00011001030802027968,
      "loss": 3.7449,
      "step": 282060
    },
    {
      "epoch": 0.5876458333333333,
      "grad_norm": 0.8827880620956421,
      "learning_rate": 0.00011000080635477026,
      "loss": 3.7242,
      "step": 282070
    },
    {
      "epoch": 0.5876666666666667,
      "grad_norm": 0.7848623394966125,
      "learning_rate": 0.0001099913048620415,
      "loss": 3.9497,
      "step": 282080
    },
    {
      "epoch": 0.5876875,
      "grad_norm": 0.8171465396881104,
      "learning_rate": 0.00010998180354213453,
      "loss": 3.9444,
      "step": 282090
    },
    {
      "epoch": 0.5877083333333334,
      "grad_norm": 0.7846819162368774,
      "learning_rate": 0.00010997230239509032,
      "loss": 3.7789,
      "step": 282100
    },
    {
      "epoch": 0.5877291666666666,
      "grad_norm": 0.997673749923706,
      "learning_rate": 0.00010996280142094986,
      "loss": 3.739,
      "step": 282110
    },
    {
      "epoch": 0.58775,
      "grad_norm": 0.8609362244606018,
      "learning_rate": 0.00010995330061975428,
      "loss": 3.7189,
      "step": 282120
    },
    {
      "epoch": 0.5877708333333334,
      "grad_norm": 0.9059004187583923,
      "learning_rate": 0.00010994379999154464,
      "loss": 3.7573,
      "step": 282130
    },
    {
      "epoch": 0.5877916666666667,
      "grad_norm": 0.7939931154251099,
      "learning_rate": 0.00010993429953636183,
      "loss": 3.8844,
      "step": 282140
    },
    {
      "epoch": 0.5878125,
      "grad_norm": 0.8804129958152771,
      "learning_rate": 0.00010992479925424704,
      "loss": 3.6268,
      "step": 282150
    },
    {
      "epoch": 0.5878333333333333,
      "grad_norm": 0.7719776630401611,
      "learning_rate": 0.00010991529914524129,
      "loss": 3.8687,
      "step": 282160
    },
    {
      "epoch": 0.5878541666666667,
      "grad_norm": 0.8785973191261292,
      "learning_rate": 0.00010990579920938549,
      "loss": 3.7633,
      "step": 282170
    },
    {
      "epoch": 0.587875,
      "grad_norm": 0.9196930527687073,
      "learning_rate": 0.00010989629944672083,
      "loss": 3.9546,
      "step": 282180
    },
    {
      "epoch": 0.5878958333333333,
      "grad_norm": 0.785106360912323,
      "learning_rate": 0.00010988679985728831,
      "loss": 3.7824,
      "step": 282190
    },
    {
      "epoch": 0.5879166666666666,
      "grad_norm": 0.801455020904541,
      "learning_rate": 0.00010987730044112886,
      "loss": 3.8586,
      "step": 282200
    },
    {
      "epoch": 0.5879375,
      "grad_norm": 0.7419496774673462,
      "learning_rate": 0.00010986780119828363,
      "loss": 3.7689,
      "step": 282210
    },
    {
      "epoch": 0.5879583333333334,
      "grad_norm": 0.7821342945098877,
      "learning_rate": 0.00010985830212879365,
      "loss": 3.7231,
      "step": 282220
    },
    {
      "epoch": 0.5879791666666667,
      "grad_norm": 0.8541171550750732,
      "learning_rate": 0.00010984880323269984,
      "loss": 3.7338,
      "step": 282230
    },
    {
      "epoch": 0.588,
      "grad_norm": 0.8734264373779297,
      "learning_rate": 0.00010983930451004338,
      "loss": 3.948,
      "step": 282240
    },
    {
      "epoch": 0.5880208333333333,
      "grad_norm": 0.8266927599906921,
      "learning_rate": 0.0001098298059608652,
      "loss": 3.7288,
      "step": 282250
    },
    {
      "epoch": 0.5880416666666667,
      "grad_norm": 0.8043205738067627,
      "learning_rate": 0.0001098203075852063,
      "loss": 3.7109,
      "step": 282260
    },
    {
      "epoch": 0.5880625,
      "grad_norm": 0.8383448123931885,
      "learning_rate": 0.00010981080938310785,
      "loss": 3.8676,
      "step": 282270
    },
    {
      "epoch": 0.5880833333333333,
      "grad_norm": 0.9165242910385132,
      "learning_rate": 0.00010980131135461077,
      "loss": 3.6959,
      "step": 282280
    },
    {
      "epoch": 0.5881041666666667,
      "grad_norm": 0.9785425662994385,
      "learning_rate": 0.00010979181349975608,
      "loss": 3.7926,
      "step": 282290
    },
    {
      "epoch": 0.588125,
      "grad_norm": 0.8057971596717834,
      "learning_rate": 0.0001097823158185849,
      "loss": 3.7974,
      "step": 282300
    },
    {
      "epoch": 0.5881458333333334,
      "grad_norm": 0.7922574281692505,
      "learning_rate": 0.00010977281831113815,
      "loss": 3.8173,
      "step": 282310
    },
    {
      "epoch": 0.5881666666666666,
      "grad_norm": 0.7691789269447327,
      "learning_rate": 0.00010976332097745689,
      "loss": 3.7221,
      "step": 282320
    },
    {
      "epoch": 0.5881875,
      "grad_norm": 0.8624277710914612,
      "learning_rate": 0.0001097538238175822,
      "loss": 3.978,
      "step": 282330
    },
    {
      "epoch": 0.5882083333333333,
      "grad_norm": 0.9342413544654846,
      "learning_rate": 0.00010974432683155508,
      "loss": 3.6862,
      "step": 282340
    },
    {
      "epoch": 0.5882291666666667,
      "grad_norm": 0.92484050989151,
      "learning_rate": 0.00010973483001941647,
      "loss": 3.8292,
      "step": 282350
    },
    {
      "epoch": 0.58825,
      "grad_norm": 0.7500460743904114,
      "learning_rate": 0.00010972533338120747,
      "loss": 3.7546,
      "step": 282360
    },
    {
      "epoch": 0.5882708333333333,
      "grad_norm": 1.0526502132415771,
      "learning_rate": 0.00010971583691696915,
      "loss": 3.712,
      "step": 282370
    },
    {
      "epoch": 0.5882916666666667,
      "grad_norm": 0.7866625189781189,
      "learning_rate": 0.00010970634062674241,
      "loss": 3.8469,
      "step": 282380
    },
    {
      "epoch": 0.5883125,
      "grad_norm": 0.8208744525909424,
      "learning_rate": 0.00010969684451056832,
      "loss": 3.7795,
      "step": 282390
    },
    {
      "epoch": 0.5883333333333334,
      "grad_norm": 0.8375921249389648,
      "learning_rate": 0.00010968734856848795,
      "loss": 3.6726,
      "step": 282400
    },
    {
      "epoch": 0.5883541666666666,
      "grad_norm": 0.7875362634658813,
      "learning_rate": 0.00010967785280054225,
      "loss": 3.8919,
      "step": 282410
    },
    {
      "epoch": 0.588375,
      "grad_norm": 0.7662009596824646,
      "learning_rate": 0.00010966835720677224,
      "loss": 3.8918,
      "step": 282420
    },
    {
      "epoch": 0.5883958333333333,
      "grad_norm": 0.8071197271347046,
      "learning_rate": 0.000109658861787219,
      "loss": 3.8192,
      "step": 282430
    },
    {
      "epoch": 0.5884166666666667,
      "grad_norm": 0.8329436779022217,
      "learning_rate": 0.00010964936654192352,
      "loss": 3.6516,
      "step": 282440
    },
    {
      "epoch": 0.5884375,
      "grad_norm": 0.9099705815315247,
      "learning_rate": 0.00010963987147092675,
      "loss": 3.7529,
      "step": 282450
    },
    {
      "epoch": 0.5884583333333333,
      "grad_norm": 0.7877095937728882,
      "learning_rate": 0.00010963037657426982,
      "loss": 3.7314,
      "step": 282460
    },
    {
      "epoch": 0.5884791666666667,
      "grad_norm": 0.7857767343521118,
      "learning_rate": 0.0001096208818519937,
      "loss": 3.6653,
      "step": 282470
    },
    {
      "epoch": 0.5885,
      "grad_norm": 0.73280268907547,
      "learning_rate": 0.00010961138730413931,
      "loss": 3.8969,
      "step": 282480
    },
    {
      "epoch": 0.5885208333333334,
      "grad_norm": 0.882701575756073,
      "learning_rate": 0.00010960189293074777,
      "loss": 3.6925,
      "step": 282490
    },
    {
      "epoch": 0.5885416666666666,
      "grad_norm": 0.825787365436554,
      "learning_rate": 0.0001095923987318601,
      "loss": 3.8237,
      "step": 282500
    },
    {
      "epoch": 0.5885625,
      "grad_norm": 0.7963617444038391,
      "learning_rate": 0.00010958290470751723,
      "loss": 3.732,
      "step": 282510
    },
    {
      "epoch": 0.5885833333333333,
      "grad_norm": 0.9073163270950317,
      "learning_rate": 0.00010957341085776021,
      "loss": 3.7378,
      "step": 282520
    },
    {
      "epoch": 0.5886041666666667,
      "grad_norm": 0.7859821319580078,
      "learning_rate": 0.00010956391718263009,
      "loss": 3.7197,
      "step": 282530
    },
    {
      "epoch": 0.588625,
      "grad_norm": 0.7611510753631592,
      "learning_rate": 0.00010955442368216779,
      "loss": 3.7589,
      "step": 282540
    },
    {
      "epoch": 0.5886458333333333,
      "grad_norm": 0.790361762046814,
      "learning_rate": 0.00010954493035641442,
      "loss": 3.8031,
      "step": 282550
    },
    {
      "epoch": 0.5886666666666667,
      "grad_norm": 1.602432131767273,
      "learning_rate": 0.00010953543720541093,
      "loss": 3.8701,
      "step": 282560
    },
    {
      "epoch": 0.5886875,
      "grad_norm": 0.866011381149292,
      "learning_rate": 0.0001095259442291983,
      "loss": 3.8678,
      "step": 282570
    },
    {
      "epoch": 0.5887083333333333,
      "grad_norm": 0.8430402278900146,
      "learning_rate": 0.00010951645142781759,
      "loss": 3.7288,
      "step": 282580
    },
    {
      "epoch": 0.5887291666666666,
      "grad_norm": 0.8082484006881714,
      "learning_rate": 0.00010950695880130981,
      "loss": 3.734,
      "step": 282590
    },
    {
      "epoch": 0.58875,
      "grad_norm": 0.8304650783538818,
      "learning_rate": 0.00010949746634971588,
      "loss": 3.5409,
      "step": 282600
    },
    {
      "epoch": 0.5887708333333334,
      "grad_norm": 0.8794147968292236,
      "learning_rate": 0.00010948797407307694,
      "loss": 3.7876,
      "step": 282610
    },
    {
      "epoch": 0.5887916666666667,
      "grad_norm": 0.7683068513870239,
      "learning_rate": 0.00010947848197143387,
      "loss": 3.6349,
      "step": 282620
    },
    {
      "epoch": 0.5888125,
      "grad_norm": 0.7519150376319885,
      "learning_rate": 0.0001094689900448277,
      "loss": 3.7465,
      "step": 282630
    },
    {
      "epoch": 0.5888333333333333,
      "grad_norm": 0.7955266833305359,
      "learning_rate": 0.00010945949829329951,
      "loss": 3.8423,
      "step": 282640
    },
    {
      "epoch": 0.5888541666666667,
      "grad_norm": 0.8232091665267944,
      "learning_rate": 0.0001094500067168902,
      "loss": 3.8892,
      "step": 282650
    },
    {
      "epoch": 0.588875,
      "grad_norm": 0.9288877248764038,
      "learning_rate": 0.00010944051531564085,
      "loss": 3.7429,
      "step": 282660
    },
    {
      "epoch": 0.5888958333333333,
      "grad_norm": 0.9368053674697876,
      "learning_rate": 0.00010943102408959236,
      "loss": 3.8154,
      "step": 282670
    },
    {
      "epoch": 0.5889166666666666,
      "grad_norm": 0.8698233962059021,
      "learning_rate": 0.00010942153303878581,
      "loss": 3.9357,
      "step": 282680
    },
    {
      "epoch": 0.5889375,
      "grad_norm": 0.744920015335083,
      "learning_rate": 0.0001094120421632622,
      "loss": 3.7652,
      "step": 282690
    },
    {
      "epoch": 0.5889583333333334,
      "grad_norm": 0.74635249376297,
      "learning_rate": 0.00010940255146306244,
      "loss": 3.8359,
      "step": 282700
    },
    {
      "epoch": 0.5889791666666667,
      "grad_norm": 0.829608678817749,
      "learning_rate": 0.00010939306093822764,
      "loss": 3.7187,
      "step": 282710
    },
    {
      "epoch": 0.589,
      "grad_norm": 0.7963525652885437,
      "learning_rate": 0.00010938357058879876,
      "loss": 3.8536,
      "step": 282720
    },
    {
      "epoch": 0.5890208333333333,
      "grad_norm": 0.819715142250061,
      "learning_rate": 0.0001093740804148167,
      "loss": 3.8735,
      "step": 282730
    },
    {
      "epoch": 0.5890416666666667,
      "grad_norm": 0.7612877488136292,
      "learning_rate": 0.00010936459041632262,
      "loss": 3.6722,
      "step": 282740
    },
    {
      "epoch": 0.5890625,
      "grad_norm": 0.7771178483963013,
      "learning_rate": 0.00010935510059335739,
      "loss": 3.7997,
      "step": 282750
    },
    {
      "epoch": 0.5890833333333333,
      "grad_norm": 0.7569910883903503,
      "learning_rate": 0.000109345610945962,
      "loss": 3.8589,
      "step": 282760
    },
    {
      "epoch": 0.5891041666666667,
      "grad_norm": 0.7726694941520691,
      "learning_rate": 0.00010933612147417754,
      "loss": 3.6993,
      "step": 282770
    },
    {
      "epoch": 0.589125,
      "grad_norm": 0.796879768371582,
      "learning_rate": 0.00010932663217804491,
      "loss": 3.7874,
      "step": 282780
    },
    {
      "epoch": 0.5891458333333334,
      "grad_norm": 0.8134179711341858,
      "learning_rate": 0.0001093171430576051,
      "loss": 3.6866,
      "step": 282790
    },
    {
      "epoch": 0.5891666666666666,
      "grad_norm": 0.7433292865753174,
      "learning_rate": 0.0001093076541128992,
      "loss": 3.8291,
      "step": 282800
    },
    {
      "epoch": 0.5891875,
      "grad_norm": 1.097263216972351,
      "learning_rate": 0.00010929816534396809,
      "loss": 3.7297,
      "step": 282810
    },
    {
      "epoch": 0.5892083333333333,
      "grad_norm": 0.7436822652816772,
      "learning_rate": 0.00010928867675085273,
      "loss": 3.6667,
      "step": 282820
    },
    {
      "epoch": 0.5892291666666667,
      "grad_norm": 0.7797564268112183,
      "learning_rate": 0.00010927918833359428,
      "loss": 3.7267,
      "step": 282830
    },
    {
      "epoch": 0.58925,
      "grad_norm": 0.9738176465034485,
      "learning_rate": 0.00010926970009223359,
      "loss": 3.8195,
      "step": 282840
    },
    {
      "epoch": 0.5892708333333333,
      "grad_norm": 0.809637725353241,
      "learning_rate": 0.00010926021202681162,
      "loss": 3.6701,
      "step": 282850
    },
    {
      "epoch": 0.5892916666666667,
      "grad_norm": 0.8591988682746887,
      "learning_rate": 0.00010925072413736945,
      "loss": 3.7645,
      "step": 282860
    },
    {
      "epoch": 0.5893125,
      "grad_norm": 0.796450674533844,
      "learning_rate": 0.00010924123642394804,
      "loss": 3.9409,
      "step": 282870
    },
    {
      "epoch": 0.5893333333333334,
      "grad_norm": 0.7044215798377991,
      "learning_rate": 0.0001092317488865883,
      "loss": 3.749,
      "step": 282880
    },
    {
      "epoch": 0.5893541666666666,
      "grad_norm": 0.8510662317276001,
      "learning_rate": 0.00010922226152533129,
      "loss": 3.7865,
      "step": 282890
    },
    {
      "epoch": 0.589375,
      "grad_norm": 0.8023435473442078,
      "learning_rate": 0.00010921277434021801,
      "loss": 3.6921,
      "step": 282900
    },
    {
      "epoch": 0.5893958333333333,
      "grad_norm": 0.9613472819328308,
      "learning_rate": 0.00010920328733128934,
      "loss": 3.6657,
      "step": 282910
    },
    {
      "epoch": 0.5894166666666667,
      "grad_norm": 0.7792013883590698,
      "learning_rate": 0.00010919380049858635,
      "loss": 3.7234,
      "step": 282920
    },
    {
      "epoch": 0.5894375,
      "grad_norm": 0.8978819847106934,
      "learning_rate": 0.00010918431384215001,
      "loss": 3.8545,
      "step": 282930
    },
    {
      "epoch": 0.5894583333333333,
      "grad_norm": 1.2749849557876587,
      "learning_rate": 0.00010917482736202122,
      "loss": 3.7428,
      "step": 282940
    },
    {
      "epoch": 0.5894791666666667,
      "grad_norm": 0.96194988489151,
      "learning_rate": 0.00010916534105824105,
      "loss": 3.7254,
      "step": 282950
    },
    {
      "epoch": 0.5895,
      "grad_norm": 0.7974497079849243,
      "learning_rate": 0.00010915585493085047,
      "loss": 3.7066,
      "step": 282960
    },
    {
      "epoch": 0.5895208333333334,
      "grad_norm": 0.7335662841796875,
      "learning_rate": 0.00010914636897989044,
      "loss": 3.8229,
      "step": 282970
    },
    {
      "epoch": 0.5895416666666666,
      "grad_norm": 1.0378292798995972,
      "learning_rate": 0.00010913688320540185,
      "loss": 3.6881,
      "step": 282980
    },
    {
      "epoch": 0.5895625,
      "grad_norm": 0.9889402389526367,
      "learning_rate": 0.0001091273976074258,
      "loss": 3.7808,
      "step": 282990
    },
    {
      "epoch": 0.5895833333333333,
      "grad_norm": 0.8942327499389648,
      "learning_rate": 0.00010911791218600322,
      "loss": 3.6949,
      "step": 283000
    },
    {
      "epoch": 0.5895833333333333,
      "eval_loss": 4.103841304779053,
      "eval_runtime": 8.8335,
      "eval_samples_per_second": 1.132,
      "eval_steps_per_second": 0.34,
      "step": 283000
    },
    {
      "epoch": 0.5896041666666667,
      "grad_norm": 0.8396546840667725,
      "learning_rate": 0.00010910842694117503,
      "loss": 3.7245,
      "step": 283010
    },
    {
      "epoch": 0.589625,
      "grad_norm": 0.8354061841964722,
      "learning_rate": 0.00010909894187298228,
      "loss": 3.7452,
      "step": 283020
    },
    {
      "epoch": 0.5896458333333333,
      "grad_norm": 1.022092580795288,
      "learning_rate": 0.00010908945698146593,
      "loss": 3.9396,
      "step": 283030
    },
    {
      "epoch": 0.5896666666666667,
      "grad_norm": 0.9462467432022095,
      "learning_rate": 0.00010907997226666689,
      "loss": 3.8613,
      "step": 283040
    },
    {
      "epoch": 0.5896875,
      "grad_norm": 0.7895062565803528,
      "learning_rate": 0.00010907048772862619,
      "loss": 3.7614,
      "step": 283050
    },
    {
      "epoch": 0.5897083333333333,
      "grad_norm": 0.7708600759506226,
      "learning_rate": 0.00010906100336738481,
      "loss": 3.8608,
      "step": 283060
    },
    {
      "epoch": 0.5897291666666666,
      "grad_norm": 0.87654709815979,
      "learning_rate": 0.00010905151918298364,
      "loss": 3.7741,
      "step": 283070
    },
    {
      "epoch": 0.58975,
      "grad_norm": 0.8281553387641907,
      "learning_rate": 0.00010904203517546373,
      "loss": 3.8418,
      "step": 283080
    },
    {
      "epoch": 0.5897708333333334,
      "grad_norm": 0.8274850845336914,
      "learning_rate": 0.00010903255134486605,
      "loss": 3.7577,
      "step": 283090
    },
    {
      "epoch": 0.5897916666666667,
      "grad_norm": 0.8677209615707397,
      "learning_rate": 0.00010902306769123145,
      "loss": 3.708,
      "step": 283100
    },
    {
      "epoch": 0.5898125,
      "grad_norm": 0.8285591006278992,
      "learning_rate": 0.00010901358421460106,
      "loss": 3.7468,
      "step": 283110
    },
    {
      "epoch": 0.5898333333333333,
      "grad_norm": 0.8271482586860657,
      "learning_rate": 0.00010900410091501571,
      "loss": 3.6105,
      "step": 283120
    },
    {
      "epoch": 0.5898541666666667,
      "grad_norm": 0.9167162179946899,
      "learning_rate": 0.00010899461779251641,
      "loss": 3.7249,
      "step": 283130
    },
    {
      "epoch": 0.589875,
      "grad_norm": 0.875821053981781,
      "learning_rate": 0.00010898513484714418,
      "loss": 3.8004,
      "step": 283140
    },
    {
      "epoch": 0.5898958333333333,
      "grad_norm": 0.809236466884613,
      "learning_rate": 0.0001089756520789399,
      "loss": 3.7496,
      "step": 283150
    },
    {
      "epoch": 0.5899166666666666,
      "grad_norm": 1.2914353609085083,
      "learning_rate": 0.00010896616948794453,
      "loss": 3.7155,
      "step": 283160
    },
    {
      "epoch": 0.5899375,
      "grad_norm": 0.8637938499450684,
      "learning_rate": 0.00010895668707419914,
      "loss": 3.8963,
      "step": 283170
    },
    {
      "epoch": 0.5899583333333334,
      "grad_norm": 0.8427276611328125,
      "learning_rate": 0.00010894720483774458,
      "loss": 3.7545,
      "step": 283180
    },
    {
      "epoch": 0.5899791666666667,
      "grad_norm": 0.8114216327667236,
      "learning_rate": 0.00010893772277862182,
      "loss": 3.7435,
      "step": 283190
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8901214003562927,
      "learning_rate": 0.00010892824089687189,
      "loss": 3.8506,
      "step": 283200
    },
    {
      "epoch": 0.5900208333333333,
      "grad_norm": 0.8800327181816101,
      "learning_rate": 0.0001089187591925357,
      "loss": 3.8868,
      "step": 283210
    },
    {
      "epoch": 0.5900416666666667,
      "grad_norm": 0.7027839422225952,
      "learning_rate": 0.00010890927766565415,
      "loss": 3.825,
      "step": 283220
    },
    {
      "epoch": 0.5900625,
      "grad_norm": 0.9350358247756958,
      "learning_rate": 0.00010889979631626831,
      "loss": 3.7859,
      "step": 283230
    },
    {
      "epoch": 0.5900833333333333,
      "grad_norm": 0.764931321144104,
      "learning_rate": 0.0001088903151444191,
      "loss": 3.8216,
      "step": 283240
    },
    {
      "epoch": 0.5901041666666667,
      "grad_norm": 0.7212954759597778,
      "learning_rate": 0.00010888083415014743,
      "loss": 3.7479,
      "step": 283250
    },
    {
      "epoch": 0.590125,
      "grad_norm": 1.0008598566055298,
      "learning_rate": 0.00010887135333349423,
      "loss": 3.6028,
      "step": 283260
    },
    {
      "epoch": 0.5901458333333334,
      "grad_norm": 0.8746875524520874,
      "learning_rate": 0.0001088618726945006,
      "loss": 3.9355,
      "step": 283270
    },
    {
      "epoch": 0.5901666666666666,
      "grad_norm": 0.8319010138511658,
      "learning_rate": 0.00010885239223320732,
      "loss": 3.8867,
      "step": 283280
    },
    {
      "epoch": 0.5901875,
      "grad_norm": 0.9261482954025269,
      "learning_rate": 0.00010884291194965541,
      "loss": 3.7748,
      "step": 283290
    },
    {
      "epoch": 0.5902083333333333,
      "grad_norm": 0.8649211525917053,
      "learning_rate": 0.0001088334318438859,
      "loss": 3.8736,
      "step": 283300
    },
    {
      "epoch": 0.5902291666666667,
      "grad_norm": 0.7950296401977539,
      "learning_rate": 0.00010882395191593963,
      "loss": 3.7863,
      "step": 283310
    },
    {
      "epoch": 0.59025,
      "grad_norm": 0.8590871095657349,
      "learning_rate": 0.00010881447216585755,
      "loss": 3.7814,
      "step": 283320
    },
    {
      "epoch": 0.5902708333333333,
      "grad_norm": 0.9909397959709167,
      "learning_rate": 0.00010880499259368072,
      "loss": 3.799,
      "step": 283330
    },
    {
      "epoch": 0.5902916666666667,
      "grad_norm": 0.9285853505134583,
      "learning_rate": 0.00010879551319945002,
      "loss": 3.7972,
      "step": 283340
    },
    {
      "epoch": 0.5903125,
      "grad_norm": 0.8742495179176331,
      "learning_rate": 0.00010878603398320632,
      "loss": 3.838,
      "step": 283350
    },
    {
      "epoch": 0.5903333333333334,
      "grad_norm": 0.8946903944015503,
      "learning_rate": 0.00010877655494499067,
      "loss": 3.9148,
      "step": 283360
    },
    {
      "epoch": 0.5903541666666666,
      "grad_norm": 0.8438200950622559,
      "learning_rate": 0.00010876707608484404,
      "loss": 3.7855,
      "step": 283370
    },
    {
      "epoch": 0.590375,
      "grad_norm": 1.016491413116455,
      "learning_rate": 0.00010875759740280724,
      "loss": 3.9353,
      "step": 283380
    },
    {
      "epoch": 0.5903958333333333,
      "grad_norm": 0.9252704977989197,
      "learning_rate": 0.00010874811889892132,
      "loss": 3.7644,
      "step": 283390
    },
    {
      "epoch": 0.5904166666666667,
      "grad_norm": 0.86613529920578,
      "learning_rate": 0.00010873864057322722,
      "loss": 3.4613,
      "step": 283400
    },
    {
      "epoch": 0.5904375,
      "grad_norm": 0.7761616110801697,
      "learning_rate": 0.00010872916242576583,
      "loss": 3.7731,
      "step": 283410
    },
    {
      "epoch": 0.5904583333333333,
      "grad_norm": 0.8203104138374329,
      "learning_rate": 0.00010871968445657811,
      "loss": 3.8899,
      "step": 283420
    },
    {
      "epoch": 0.5904791666666667,
      "grad_norm": 0.8047980070114136,
      "learning_rate": 0.00010871020666570509,
      "loss": 3.7142,
      "step": 283430
    },
    {
      "epoch": 0.5905,
      "grad_norm": 0.9224254488945007,
      "learning_rate": 0.00010870072905318754,
      "loss": 3.6782,
      "step": 283440
    },
    {
      "epoch": 0.5905208333333334,
      "grad_norm": 0.8611360788345337,
      "learning_rate": 0.00010869125161906653,
      "loss": 3.6662,
      "step": 283450
    },
    {
      "epoch": 0.5905416666666666,
      "grad_norm": 0.9279156923294067,
      "learning_rate": 0.000108681774363383,
      "loss": 3.7763,
      "step": 283460
    },
    {
      "epoch": 0.5905625,
      "grad_norm": 0.8703584671020508,
      "learning_rate": 0.0001086722972861778,
      "loss": 3.7595,
      "step": 283470
    },
    {
      "epoch": 0.5905833333333333,
      "grad_norm": 0.8406699299812317,
      "learning_rate": 0.00010866282038749197,
      "loss": 3.729,
      "step": 283480
    },
    {
      "epoch": 0.5906041666666667,
      "grad_norm": 0.8328960537910461,
      "learning_rate": 0.00010865334366736635,
      "loss": 3.6494,
      "step": 283490
    },
    {
      "epoch": 0.590625,
      "grad_norm": 0.9234548211097717,
      "learning_rate": 0.0001086438671258419,
      "loss": 3.645,
      "step": 283500
    },
    {
      "epoch": 0.5906458333333333,
      "grad_norm": 0.946514368057251,
      "learning_rate": 0.00010863439076295963,
      "loss": 3.7491,
      "step": 283510
    },
    {
      "epoch": 0.5906666666666667,
      "grad_norm": 1.1211073398590088,
      "learning_rate": 0.00010862491457876039,
      "loss": 3.9595,
      "step": 283520
    },
    {
      "epoch": 0.5906875,
      "grad_norm": 0.9000553488731384,
      "learning_rate": 0.00010861543857328511,
      "loss": 3.6356,
      "step": 283530
    },
    {
      "epoch": 0.5907083333333333,
      "grad_norm": 0.7447906136512756,
      "learning_rate": 0.00010860596274657481,
      "loss": 3.8694,
      "step": 283540
    },
    {
      "epoch": 0.5907291666666666,
      "grad_norm": 0.8201872110366821,
      "learning_rate": 0.00010859648709867035,
      "loss": 3.667,
      "step": 283550
    },
    {
      "epoch": 0.59075,
      "grad_norm": 0.9423001408576965,
      "learning_rate": 0.00010858701162961269,
      "loss": 3.8051,
      "step": 283560
    },
    {
      "epoch": 0.5907708333333334,
      "grad_norm": 0.7993738055229187,
      "learning_rate": 0.0001085775363394427,
      "loss": 3.9232,
      "step": 283570
    },
    {
      "epoch": 0.5907916666666667,
      "grad_norm": 0.8158687949180603,
      "learning_rate": 0.00010856806122820139,
      "loss": 3.7635,
      "step": 283580
    },
    {
      "epoch": 0.5908125,
      "grad_norm": 0.7162002921104431,
      "learning_rate": 0.00010855858629592967,
      "loss": 3.8141,
      "step": 283590
    },
    {
      "epoch": 0.5908333333333333,
      "grad_norm": 0.8630032539367676,
      "learning_rate": 0.00010854911154266839,
      "loss": 3.7851,
      "step": 283600
    },
    {
      "epoch": 0.5908541666666667,
      "grad_norm": 0.7130821347236633,
      "learning_rate": 0.00010853963696845864,
      "loss": 3.8316,
      "step": 283610
    },
    {
      "epoch": 0.590875,
      "grad_norm": 0.7923570871353149,
      "learning_rate": 0.00010853016257334116,
      "loss": 3.7654,
      "step": 283620
    },
    {
      "epoch": 0.5908958333333333,
      "grad_norm": 0.8484240174293518,
      "learning_rate": 0.00010852068835735698,
      "loss": 3.8948,
      "step": 283630
    },
    {
      "epoch": 0.5909166666666666,
      "grad_norm": 0.9529421925544739,
      "learning_rate": 0.00010851121432054705,
      "loss": 3.7623,
      "step": 283640
    },
    {
      "epoch": 0.5909375,
      "grad_norm": 1.0261327028274536,
      "learning_rate": 0.00010850174046295222,
      "loss": 3.8409,
      "step": 283650
    },
    {
      "epoch": 0.5909583333333334,
      "grad_norm": 0.9373992085456848,
      "learning_rate": 0.00010849226678461341,
      "loss": 3.6405,
      "step": 283660
    },
    {
      "epoch": 0.5909791666666667,
      "grad_norm": 0.9176967740058899,
      "learning_rate": 0.00010848279328557164,
      "loss": 3.6587,
      "step": 283670
    },
    {
      "epoch": 0.591,
      "grad_norm": 0.8846982717514038,
      "learning_rate": 0.00010847331996586776,
      "loss": 3.7434,
      "step": 283680
    },
    {
      "epoch": 0.5910208333333333,
      "grad_norm": 0.8619236946105957,
      "learning_rate": 0.00010846384682554264,
      "loss": 3.7672,
      "step": 283690
    },
    {
      "epoch": 0.5910416666666667,
      "grad_norm": 0.7734251618385315,
      "learning_rate": 0.00010845437386463734,
      "loss": 3.6607,
      "step": 283700
    },
    {
      "epoch": 0.5910625,
      "grad_norm": 0.9676688313484192,
      "learning_rate": 0.00010844490108319269,
      "loss": 3.815,
      "step": 283710
    },
    {
      "epoch": 0.5910833333333333,
      "grad_norm": 0.9138150215148926,
      "learning_rate": 0.00010843542848124953,
      "loss": 3.8486,
      "step": 283720
    },
    {
      "epoch": 0.5911041666666667,
      "grad_norm": 0.682063102722168,
      "learning_rate": 0.00010842595605884896,
      "loss": 3.8218,
      "step": 283730
    },
    {
      "epoch": 0.591125,
      "grad_norm": 0.8295977711677551,
      "learning_rate": 0.00010841648381603182,
      "loss": 3.8346,
      "step": 283740
    },
    {
      "epoch": 0.5911458333333334,
      "grad_norm": 1.0149180889129639,
      "learning_rate": 0.00010840701175283893,
      "loss": 3.9354,
      "step": 283750
    },
    {
      "epoch": 0.5911666666666666,
      "grad_norm": 1.0411558151245117,
      "learning_rate": 0.00010839753986931131,
      "loss": 3.8714,
      "step": 283760
    },
    {
      "epoch": 0.5911875,
      "grad_norm": 0.844041645526886,
      "learning_rate": 0.00010838806816548989,
      "loss": 3.7351,
      "step": 283770
    },
    {
      "epoch": 0.5912083333333333,
      "grad_norm": 0.9889567494392395,
      "learning_rate": 0.00010837859664141547,
      "loss": 3.9271,
      "step": 283780
    },
    {
      "epoch": 0.5912291666666667,
      "grad_norm": 0.9299643635749817,
      "learning_rate": 0.0001083691252971291,
      "loss": 3.791,
      "step": 283790
    },
    {
      "epoch": 0.59125,
      "grad_norm": 0.7981259822845459,
      "learning_rate": 0.00010835965413267164,
      "loss": 3.8538,
      "step": 283800
    },
    {
      "epoch": 0.5912708333333333,
      "grad_norm": 0.9141929149627686,
      "learning_rate": 0.00010835018314808393,
      "loss": 3.5878,
      "step": 283810
    },
    {
      "epoch": 0.5912916666666667,
      "grad_norm": 1.0353604555130005,
      "learning_rate": 0.00010834071234340698,
      "loss": 3.834,
      "step": 283820
    },
    {
      "epoch": 0.5913125,
      "grad_norm": 0.8471803665161133,
      "learning_rate": 0.0001083312417186817,
      "loss": 3.6495,
      "step": 283830
    },
    {
      "epoch": 0.5913333333333334,
      "grad_norm": 0.8322617411613464,
      "learning_rate": 0.00010832177127394893,
      "loss": 3.8358,
      "step": 283840
    },
    {
      "epoch": 0.5913541666666666,
      "grad_norm": 0.9133058190345764,
      "learning_rate": 0.00010831230100924958,
      "loss": 3.8595,
      "step": 283850
    },
    {
      "epoch": 0.591375,
      "grad_norm": 0.9296842217445374,
      "learning_rate": 0.0001083028309246246,
      "loss": 3.6708,
      "step": 283860
    },
    {
      "epoch": 0.5913958333333333,
      "grad_norm": 0.7870156764984131,
      "learning_rate": 0.00010829336102011494,
      "loss": 3.7081,
      "step": 283870
    },
    {
      "epoch": 0.5914166666666667,
      "grad_norm": 0.8329671621322632,
      "learning_rate": 0.00010828389129576138,
      "loss": 4.0496,
      "step": 283880
    },
    {
      "epoch": 0.5914375,
      "grad_norm": 1.0341891050338745,
      "learning_rate": 0.00010827442175160493,
      "loss": 3.8334,
      "step": 283890
    },
    {
      "epoch": 0.5914583333333333,
      "grad_norm": 0.7749432921409607,
      "learning_rate": 0.00010826495238768646,
      "loss": 3.9745,
      "step": 283900
    },
    {
      "epoch": 0.5914791666666667,
      "grad_norm": 1.0377559661865234,
      "learning_rate": 0.00010825548320404686,
      "loss": 3.8284,
      "step": 283910
    },
    {
      "epoch": 0.5915,
      "grad_norm": 0.8383781909942627,
      "learning_rate": 0.00010824601420072705,
      "loss": 3.7759,
      "step": 283920
    },
    {
      "epoch": 0.5915208333333334,
      "grad_norm": 0.7749475836753845,
      "learning_rate": 0.00010823654537776798,
      "loss": 3.7119,
      "step": 283930
    },
    {
      "epoch": 0.5915416666666666,
      "grad_norm": 0.8819986581802368,
      "learning_rate": 0.00010822707673521042,
      "loss": 3.6888,
      "step": 283940
    },
    {
      "epoch": 0.5915625,
      "grad_norm": 1.0533727407455444,
      "learning_rate": 0.0001082176082730954,
      "loss": 3.8395,
      "step": 283950
    },
    {
      "epoch": 0.5915833333333333,
      "grad_norm": 1.1469409465789795,
      "learning_rate": 0.0001082081399914638,
      "loss": 3.8342,
      "step": 283960
    },
    {
      "epoch": 0.5916041666666667,
      "grad_norm": 0.8044074773788452,
      "learning_rate": 0.00010819867189035646,
      "loss": 3.7029,
      "step": 283970
    },
    {
      "epoch": 0.591625,
      "grad_norm": 0.8818071484565735,
      "learning_rate": 0.00010818920396981434,
      "loss": 3.8298,
      "step": 283980
    },
    {
      "epoch": 0.5916458333333333,
      "grad_norm": 0.8414320945739746,
      "learning_rate": 0.00010817973622987829,
      "loss": 3.7816,
      "step": 283990
    },
    {
      "epoch": 0.5916666666666667,
      "grad_norm": 0.8265148401260376,
      "learning_rate": 0.00010817026867058918,
      "loss": 3.8031,
      "step": 284000
    },
    {
      "epoch": 0.5916666666666667,
      "eval_loss": 4.095561981201172,
      "eval_runtime": 8.5536,
      "eval_samples_per_second": 1.169,
      "eval_steps_per_second": 0.351,
      "step": 284000
    },
    {
      "epoch": 0.5916875,
      "grad_norm": 0.9394278526306152,
      "learning_rate": 0.00010816080129198802,
      "loss": 3.7904,
      "step": 284010
    },
    {
      "epoch": 0.5917083333333333,
      "grad_norm": 1.0076000690460205,
      "learning_rate": 0.00010815133409411562,
      "loss": 3.6463,
      "step": 284020
    },
    {
      "epoch": 0.5917291666666666,
      "grad_norm": 0.8711342215538025,
      "learning_rate": 0.00010814186707701284,
      "loss": 3.7666,
      "step": 284030
    },
    {
      "epoch": 0.59175,
      "grad_norm": 0.8729531168937683,
      "learning_rate": 0.00010813240024072072,
      "loss": 3.8006,
      "step": 284040
    },
    {
      "epoch": 0.5917708333333334,
      "grad_norm": 1.0119417905807495,
      "learning_rate": 0.00010812293358528,
      "loss": 3.7852,
      "step": 284050
    },
    {
      "epoch": 0.5917916666666667,
      "grad_norm": 1.10677969455719,
      "learning_rate": 0.0001081134671107316,
      "loss": 3.6973,
      "step": 284060
    },
    {
      "epoch": 0.5918125,
      "grad_norm": 0.8068947196006775,
      "learning_rate": 0.00010810400081711651,
      "loss": 3.8201,
      "step": 284070
    },
    {
      "epoch": 0.5918333333333333,
      "grad_norm": 0.8378281593322754,
      "learning_rate": 0.00010809453470447553,
      "loss": 3.7589,
      "step": 284080
    },
    {
      "epoch": 0.5918541666666667,
      "grad_norm": 0.8748869299888611,
      "learning_rate": 0.00010808506877284952,
      "loss": 3.6534,
      "step": 284090
    },
    {
      "epoch": 0.591875,
      "grad_norm": 0.867938756942749,
      "learning_rate": 0.00010807560302227953,
      "loss": 3.7342,
      "step": 284100
    },
    {
      "epoch": 0.5918958333333333,
      "grad_norm": 0.8396078944206238,
      "learning_rate": 0.00010806613745280629,
      "loss": 3.7437,
      "step": 284110
    },
    {
      "epoch": 0.5919166666666666,
      "grad_norm": 0.7686216235160828,
      "learning_rate": 0.0001080566720644707,
      "loss": 3.7563,
      "step": 284120
    },
    {
      "epoch": 0.5919375,
      "grad_norm": 1.0026246309280396,
      "learning_rate": 0.00010804720685731371,
      "loss": 3.8663,
      "step": 284130
    },
    {
      "epoch": 0.5919583333333334,
      "grad_norm": 0.9367178678512573,
      "learning_rate": 0.0001080377418313762,
      "loss": 3.8603,
      "step": 284140
    },
    {
      "epoch": 0.5919791666666666,
      "grad_norm": 0.7633408308029175,
      "learning_rate": 0.00010802827698669902,
      "loss": 3.7438,
      "step": 284150
    },
    {
      "epoch": 0.592,
      "grad_norm": 0.8876169323921204,
      "learning_rate": 0.00010801881232332305,
      "loss": 3.9405,
      "step": 284160
    },
    {
      "epoch": 0.5920208333333333,
      "grad_norm": 0.9210740923881531,
      "learning_rate": 0.00010800934784128922,
      "loss": 3.6532,
      "step": 284170
    },
    {
      "epoch": 0.5920416666666667,
      "grad_norm": 0.8993156552314758,
      "learning_rate": 0.00010799988354063838,
      "loss": 3.6395,
      "step": 284180
    },
    {
      "epoch": 0.5920625,
      "grad_norm": 0.8593333959579468,
      "learning_rate": 0.0001079904194214114,
      "loss": 3.761,
      "step": 284190
    },
    {
      "epoch": 0.5920833333333333,
      "grad_norm": 0.798490583896637,
      "learning_rate": 0.00010798095548364921,
      "loss": 3.6814,
      "step": 284200
    },
    {
      "epoch": 0.5921041666666667,
      "grad_norm": 0.788880467414856,
      "learning_rate": 0.00010797149172739266,
      "loss": 3.7305,
      "step": 284210
    },
    {
      "epoch": 0.592125,
      "grad_norm": 0.874369204044342,
      "learning_rate": 0.00010796202815268256,
      "loss": 3.7862,
      "step": 284220
    },
    {
      "epoch": 0.5921458333333334,
      "grad_norm": 0.8118057250976562,
      "learning_rate": 0.00010795256475955994,
      "loss": 3.6854,
      "step": 284230
    },
    {
      "epoch": 0.5921666666666666,
      "grad_norm": 0.8948209285736084,
      "learning_rate": 0.0001079431015480656,
      "loss": 3.754,
      "step": 284240
    },
    {
      "epoch": 0.5921875,
      "grad_norm": 0.8504323959350586,
      "learning_rate": 0.00010793363851824037,
      "loss": 3.6982,
      "step": 284250
    },
    {
      "epoch": 0.5922083333333333,
      "grad_norm": 0.6824007630348206,
      "learning_rate": 0.00010792417567012517,
      "loss": 3.9081,
      "step": 284260
    },
    {
      "epoch": 0.5922291666666667,
      "grad_norm": 0.7996346950531006,
      "learning_rate": 0.00010791471300376092,
      "loss": 3.8159,
      "step": 284270
    },
    {
      "epoch": 0.59225,
      "grad_norm": 0.9308686256408691,
      "learning_rate": 0.00010790525051918839,
      "loss": 4.0305,
      "step": 284280
    },
    {
      "epoch": 0.5922708333333333,
      "grad_norm": 0.8029568195343018,
      "learning_rate": 0.00010789578821644854,
      "loss": 3.8053,
      "step": 284290
    },
    {
      "epoch": 0.5922916666666667,
      "grad_norm": 0.7316889762878418,
      "learning_rate": 0.00010788632609558225,
      "loss": 3.7697,
      "step": 284300
    },
    {
      "epoch": 0.5923125,
      "grad_norm": 0.7953688502311707,
      "learning_rate": 0.00010787686415663031,
      "loss": 3.6397,
      "step": 284310
    },
    {
      "epoch": 0.5923333333333334,
      "grad_norm": 0.7740405201911926,
      "learning_rate": 0.00010786740239963366,
      "loss": 3.8642,
      "step": 284320
    },
    {
      "epoch": 0.5923541666666666,
      "grad_norm": 0.8329975008964539,
      "learning_rate": 0.00010785794082463321,
      "loss": 3.9095,
      "step": 284330
    },
    {
      "epoch": 0.592375,
      "grad_norm": 0.8024327158927917,
      "learning_rate": 0.00010784847943166969,
      "loss": 3.6721,
      "step": 284340
    },
    {
      "epoch": 0.5923958333333333,
      "grad_norm": 0.760361909866333,
      "learning_rate": 0.00010783901822078413,
      "loss": 3.7876,
      "step": 284350
    },
    {
      "epoch": 0.5924166666666667,
      "grad_norm": 0.7922893762588501,
      "learning_rate": 0.00010782955719201728,
      "loss": 3.8205,
      "step": 284360
    },
    {
      "epoch": 0.5924375,
      "grad_norm": 0.7874628305435181,
      "learning_rate": 0.00010782009634541002,
      "loss": 3.7415,
      "step": 284370
    },
    {
      "epoch": 0.5924583333333333,
      "grad_norm": 0.6349524855613708,
      "learning_rate": 0.0001078106356810033,
      "loss": 3.9203,
      "step": 284380
    },
    {
      "epoch": 0.5924791666666667,
      "grad_norm": 0.8363587856292725,
      "learning_rate": 0.00010780117519883793,
      "loss": 3.7529,
      "step": 284390
    },
    {
      "epoch": 0.5925,
      "grad_norm": 0.9260473847389221,
      "learning_rate": 0.00010779171489895476,
      "loss": 3.7798,
      "step": 284400
    },
    {
      "epoch": 0.5925208333333334,
      "grad_norm": 0.8420724868774414,
      "learning_rate": 0.0001077822547813947,
      "loss": 3.8576,
      "step": 284410
    },
    {
      "epoch": 0.5925416666666666,
      "grad_norm": 0.8213186264038086,
      "learning_rate": 0.00010777279484619857,
      "loss": 3.6632,
      "step": 284420
    },
    {
      "epoch": 0.5925625,
      "grad_norm": 0.9016607999801636,
      "learning_rate": 0.00010776333509340729,
      "loss": 3.7847,
      "step": 284430
    },
    {
      "epoch": 0.5925833333333334,
      "grad_norm": 0.9582640528678894,
      "learning_rate": 0.00010775387552306161,
      "loss": 3.8795,
      "step": 284440
    },
    {
      "epoch": 0.5926041666666667,
      "grad_norm": 0.9859427809715271,
      "learning_rate": 0.0001077444161352025,
      "loss": 3.985,
      "step": 284450
    },
    {
      "epoch": 0.592625,
      "grad_norm": 0.8153135180473328,
      "learning_rate": 0.00010773495692987082,
      "loss": 3.7927,
      "step": 284460
    },
    {
      "epoch": 0.5926458333333333,
      "grad_norm": 0.7400534749031067,
      "learning_rate": 0.00010772549790710732,
      "loss": 3.7759,
      "step": 284470
    },
    {
      "epoch": 0.5926666666666667,
      "grad_norm": 0.9323468804359436,
      "learning_rate": 0.00010771603906695302,
      "loss": 3.8119,
      "step": 284480
    },
    {
      "epoch": 0.5926875,
      "grad_norm": 1.0267260074615479,
      "learning_rate": 0.00010770658040944867,
      "loss": 3.7078,
      "step": 284490
    },
    {
      "epoch": 0.5927083333333333,
      "grad_norm": 0.9034358859062195,
      "learning_rate": 0.00010769712193463509,
      "loss": 3.7469,
      "step": 284500
    },
    {
      "epoch": 0.5927291666666666,
      "grad_norm": 0.7372963428497314,
      "learning_rate": 0.00010768766364255328,
      "loss": 3.817,
      "step": 284510
    },
    {
      "epoch": 0.59275,
      "grad_norm": 0.8908959627151489,
      "learning_rate": 0.00010767820553324397,
      "loss": 3.7289,
      "step": 284520
    },
    {
      "epoch": 0.5927708333333334,
      "grad_norm": 0.7968847155570984,
      "learning_rate": 0.00010766874760674805,
      "loss": 3.7156,
      "step": 284530
    },
    {
      "epoch": 0.5927916666666667,
      "grad_norm": 0.7342005372047424,
      "learning_rate": 0.00010765928986310644,
      "loss": 3.7258,
      "step": 284540
    },
    {
      "epoch": 0.5928125,
      "grad_norm": 0.863051176071167,
      "learning_rate": 0.00010764983230235988,
      "loss": 3.8517,
      "step": 284550
    },
    {
      "epoch": 0.5928333333333333,
      "grad_norm": 0.7948487401008606,
      "learning_rate": 0.00010764037492454929,
      "loss": 3.7137,
      "step": 284560
    },
    {
      "epoch": 0.5928541666666667,
      "grad_norm": 0.8438398241996765,
      "learning_rate": 0.00010763091772971554,
      "loss": 3.8547,
      "step": 284570
    },
    {
      "epoch": 0.592875,
      "grad_norm": 0.781777560710907,
      "learning_rate": 0.00010762146071789945,
      "loss": 3.7601,
      "step": 284580
    },
    {
      "epoch": 0.5928958333333333,
      "grad_norm": 0.9683605432510376,
      "learning_rate": 0.00010761200388914183,
      "loss": 3.762,
      "step": 284590
    },
    {
      "epoch": 0.5929166666666666,
      "grad_norm": 0.9094547629356384,
      "learning_rate": 0.00010760254724348363,
      "loss": 3.9036,
      "step": 284600
    },
    {
      "epoch": 0.5929375,
      "grad_norm": 0.8588361144065857,
      "learning_rate": 0.00010759309078096567,
      "loss": 3.7723,
      "step": 284610
    },
    {
      "epoch": 0.5929583333333334,
      "grad_norm": 0.8142486214637756,
      "learning_rate": 0.00010758363450162869,
      "loss": 3.9584,
      "step": 284620
    },
    {
      "epoch": 0.5929791666666666,
      "grad_norm": 0.8771375417709351,
      "learning_rate": 0.00010757417840551365,
      "loss": 3.9549,
      "step": 284630
    },
    {
      "epoch": 0.593,
      "grad_norm": 1.1921658515930176,
      "learning_rate": 0.00010756472249266143,
      "loss": 3.9996,
      "step": 284640
    },
    {
      "epoch": 0.5930208333333333,
      "grad_norm": 0.849530041217804,
      "learning_rate": 0.00010755526676311271,
      "loss": 3.8054,
      "step": 284650
    },
    {
      "epoch": 0.5930416666666667,
      "grad_norm": 0.8116884231567383,
      "learning_rate": 0.00010754581121690848,
      "loss": 3.7977,
      "step": 284660
    },
    {
      "epoch": 0.5930625,
      "grad_norm": 1.0711681842803955,
      "learning_rate": 0.00010753635585408957,
      "loss": 3.6848,
      "step": 284670
    },
    {
      "epoch": 0.5930833333333333,
      "grad_norm": 0.8104336857795715,
      "learning_rate": 0.00010752690067469673,
      "loss": 3.6693,
      "step": 284680
    },
    {
      "epoch": 0.5931041666666667,
      "grad_norm": 0.7605330944061279,
      "learning_rate": 0.00010751744567877091,
      "loss": 3.6858,
      "step": 284690
    },
    {
      "epoch": 0.593125,
      "grad_norm": 0.8389910459518433,
      "learning_rate": 0.00010750799086635292,
      "loss": 3.8155,
      "step": 284700
    },
    {
      "epoch": 0.5931458333333334,
      "grad_norm": 0.8465815186500549,
      "learning_rate": 0.00010749853623748361,
      "loss": 3.8903,
      "step": 284710
    },
    {
      "epoch": 0.5931666666666666,
      "grad_norm": 0.7520155906677246,
      "learning_rate": 0.00010748908179220375,
      "loss": 3.9067,
      "step": 284720
    },
    {
      "epoch": 0.5931875,
      "grad_norm": 0.8215343952178955,
      "learning_rate": 0.00010747962753055422,
      "loss": 3.7744,
      "step": 284730
    },
    {
      "epoch": 0.5932083333333333,
      "grad_norm": 1.2151283025741577,
      "learning_rate": 0.00010747017345257594,
      "loss": 3.8155,
      "step": 284740
    },
    {
      "epoch": 0.5932291666666667,
      "grad_norm": 0.7792643904685974,
      "learning_rate": 0.00010746071955830959,
      "loss": 3.8511,
      "step": 284750
    },
    {
      "epoch": 0.59325,
      "grad_norm": 0.9439573884010315,
      "learning_rate": 0.00010745126584779613,
      "loss": 3.7741,
      "step": 284760
    },
    {
      "epoch": 0.5932708333333333,
      "grad_norm": 0.7879701256752014,
      "learning_rate": 0.00010744181232107639,
      "loss": 3.7479,
      "step": 284770
    },
    {
      "epoch": 0.5932916666666667,
      "grad_norm": 0.8021529316902161,
      "learning_rate": 0.0001074323589781911,
      "loss": 3.5406,
      "step": 284780
    },
    {
      "epoch": 0.5933125,
      "grad_norm": 0.8456575274467468,
      "learning_rate": 0.00010742290581918122,
      "loss": 3.8191,
      "step": 284790
    },
    {
      "epoch": 0.5933333333333334,
      "grad_norm": 0.8764699101448059,
      "learning_rate": 0.00010741345284408757,
      "loss": 3.7598,
      "step": 284800
    },
    {
      "epoch": 0.5933541666666666,
      "grad_norm": 0.8755501508712769,
      "learning_rate": 0.00010740400005295085,
      "loss": 3.7355,
      "step": 284810
    },
    {
      "epoch": 0.593375,
      "grad_norm": 0.7791294455528259,
      "learning_rate": 0.00010739454744581207,
      "loss": 3.6502,
      "step": 284820
    },
    {
      "epoch": 0.5933958333333333,
      "grad_norm": 0.8608524799346924,
      "learning_rate": 0.00010738509502271196,
      "loss": 3.7096,
      "step": 284830
    },
    {
      "epoch": 0.5934166666666667,
      "grad_norm": 0.8324053883552551,
      "learning_rate": 0.00010737564278369134,
      "loss": 3.8784,
      "step": 284840
    },
    {
      "epoch": 0.5934375,
      "grad_norm": 0.778377890586853,
      "learning_rate": 0.00010736619072879112,
      "loss": 3.6212,
      "step": 284850
    },
    {
      "epoch": 0.5934583333333333,
      "grad_norm": 0.9069806337356567,
      "learning_rate": 0.00010735673885805207,
      "loss": 3.7224,
      "step": 284860
    },
    {
      "epoch": 0.5934791666666667,
      "grad_norm": 0.9235588908195496,
      "learning_rate": 0.00010734728717151498,
      "loss": 3.7405,
      "step": 284870
    },
    {
      "epoch": 0.5935,
      "grad_norm": 0.8022618293762207,
      "learning_rate": 0.0001073378356692208,
      "loss": 3.9556,
      "step": 284880
    },
    {
      "epoch": 0.5935208333333334,
      "grad_norm": 0.7506225109100342,
      "learning_rate": 0.00010732838435121024,
      "loss": 3.6686,
      "step": 284890
    },
    {
      "epoch": 0.5935416666666666,
      "grad_norm": 1.0264993906021118,
      "learning_rate": 0.00010731893321752414,
      "loss": 3.6973,
      "step": 284900
    },
    {
      "epoch": 0.5935625,
      "grad_norm": 0.8099842071533203,
      "learning_rate": 0.00010730948226820343,
      "loss": 3.8644,
      "step": 284910
    },
    {
      "epoch": 0.5935833333333334,
      "grad_norm": 0.8079174160957336,
      "learning_rate": 0.00010730003150328881,
      "loss": 3.7414,
      "step": 284920
    },
    {
      "epoch": 0.5936041666666667,
      "grad_norm": 0.8470092415809631,
      "learning_rate": 0.00010729058092282113,
      "loss": 3.6694,
      "step": 284930
    },
    {
      "epoch": 0.593625,
      "grad_norm": 0.8356762528419495,
      "learning_rate": 0.00010728113052684131,
      "loss": 3.8622,
      "step": 284940
    },
    {
      "epoch": 0.5936458333333333,
      "grad_norm": 0.8436787128448486,
      "learning_rate": 0.00010727168031539002,
      "loss": 3.7552,
      "step": 284950
    },
    {
      "epoch": 0.5936666666666667,
      "grad_norm": 0.7041515707969666,
      "learning_rate": 0.00010726223028850818,
      "loss": 3.8345,
      "step": 284960
    },
    {
      "epoch": 0.5936875,
      "grad_norm": 0.7977032661437988,
      "learning_rate": 0.00010725278044623662,
      "loss": 3.6273,
      "step": 284970
    },
    {
      "epoch": 0.5937083333333333,
      "grad_norm": 0.7949784994125366,
      "learning_rate": 0.00010724333078861613,
      "loss": 3.9296,
      "step": 284980
    },
    {
      "epoch": 0.5937291666666666,
      "grad_norm": 1.0639303922653198,
      "learning_rate": 0.00010723388131568748,
      "loss": 3.9525,
      "step": 284990
    },
    {
      "epoch": 0.59375,
      "grad_norm": 0.7891696691513062,
      "learning_rate": 0.00010722443202749154,
      "loss": 3.8408,
      "step": 285000
    },
    {
      "epoch": 0.59375,
      "eval_loss": 4.095250606536865,
      "eval_runtime": 9.1017,
      "eval_samples_per_second": 1.099,
      "eval_steps_per_second": 0.33,
      "step": 285000
    },
    {
      "epoch": 0.5937708333333334,
      "grad_norm": 0.9492200016975403,
      "learning_rate": 0.00010721498292406918,
      "loss": 3.8823,
      "step": 285010
    },
    {
      "epoch": 0.5937916666666667,
      "grad_norm": 0.8286773562431335,
      "learning_rate": 0.00010720553400546112,
      "loss": 4.0412,
      "step": 285020
    },
    {
      "epoch": 0.5938125,
      "grad_norm": 0.8292562365531921,
      "learning_rate": 0.00010719608527170817,
      "loss": 3.6414,
      "step": 285030
    },
    {
      "epoch": 0.5938333333333333,
      "grad_norm": 0.8474432229995728,
      "learning_rate": 0.00010718663672285128,
      "loss": 3.8323,
      "step": 285040
    },
    {
      "epoch": 0.5938541666666667,
      "grad_norm": 0.7695380449295044,
      "learning_rate": 0.00010717718835893111,
      "loss": 3.8093,
      "step": 285050
    },
    {
      "epoch": 0.593875,
      "grad_norm": 0.8878709673881531,
      "learning_rate": 0.00010716774017998852,
      "loss": 3.7821,
      "step": 285060
    },
    {
      "epoch": 0.5938958333333333,
      "grad_norm": 0.8430858850479126,
      "learning_rate": 0.00010715829218606441,
      "loss": 3.7221,
      "step": 285070
    },
    {
      "epoch": 0.5939166666666666,
      "grad_norm": 0.8331056237220764,
      "learning_rate": 0.00010714884437719947,
      "loss": 3.824,
      "step": 285080
    },
    {
      "epoch": 0.5939375,
      "grad_norm": 0.8174951076507568,
      "learning_rate": 0.00010713939675343453,
      "loss": 3.7479,
      "step": 285090
    },
    {
      "epoch": 0.5939583333333334,
      "grad_norm": 0.858576238155365,
      "learning_rate": 0.0001071299493148105,
      "loss": 3.8469,
      "step": 285100
    },
    {
      "epoch": 0.5939791666666666,
      "grad_norm": 0.821951687335968,
      "learning_rate": 0.00010712050206136811,
      "loss": 3.7413,
      "step": 285110
    },
    {
      "epoch": 0.594,
      "grad_norm": 1.0051463842391968,
      "learning_rate": 0.00010711105499314812,
      "loss": 3.7296,
      "step": 285120
    },
    {
      "epoch": 0.5940208333333333,
      "grad_norm": 0.8504893183708191,
      "learning_rate": 0.00010710160811019142,
      "loss": 3.8353,
      "step": 285130
    },
    {
      "epoch": 0.5940416666666667,
      "grad_norm": 0.8888230323791504,
      "learning_rate": 0.00010709216141253885,
      "loss": 3.834,
      "step": 285140
    },
    {
      "epoch": 0.5940625,
      "grad_norm": 0.7501758933067322,
      "learning_rate": 0.00010708271490023108,
      "loss": 3.6378,
      "step": 285150
    },
    {
      "epoch": 0.5940833333333333,
      "grad_norm": 1.015505075454712,
      "learning_rate": 0.00010707326857330903,
      "loss": 3.904,
      "step": 285160
    },
    {
      "epoch": 0.5941041666666667,
      "grad_norm": 0.7839066386222839,
      "learning_rate": 0.00010706382243181349,
      "loss": 3.6953,
      "step": 285170
    },
    {
      "epoch": 0.594125,
      "grad_norm": 0.8699686527252197,
      "learning_rate": 0.0001070543764757852,
      "loss": 3.753,
      "step": 285180
    },
    {
      "epoch": 0.5941458333333334,
      "grad_norm": 0.8267320394515991,
      "learning_rate": 0.00010704493070526501,
      "loss": 3.8297,
      "step": 285190
    },
    {
      "epoch": 0.5941666666666666,
      "grad_norm": 0.7726786136627197,
      "learning_rate": 0.00010703548512029376,
      "loss": 3.9748,
      "step": 285200
    },
    {
      "epoch": 0.5941875,
      "grad_norm": 0.8493012189865112,
      "learning_rate": 0.00010702603972091215,
      "loss": 3.8546,
      "step": 285210
    },
    {
      "epoch": 0.5942083333333333,
      "grad_norm": 0.7684198021888733,
      "learning_rate": 0.00010701659450716109,
      "loss": 3.927,
      "step": 285220
    },
    {
      "epoch": 0.5942291666666667,
      "grad_norm": 1.0038710832595825,
      "learning_rate": 0.0001070071494790813,
      "loss": 3.8219,
      "step": 285230
    },
    {
      "epoch": 0.59425,
      "grad_norm": 1.1409623622894287,
      "learning_rate": 0.00010699770463671357,
      "loss": 3.7736,
      "step": 285240
    },
    {
      "epoch": 0.5942708333333333,
      "grad_norm": 0.8374553918838501,
      "learning_rate": 0.0001069882599800988,
      "loss": 3.7097,
      "step": 285250
    },
    {
      "epoch": 0.5942916666666667,
      "grad_norm": 0.6867042779922485,
      "learning_rate": 0.00010697881550927769,
      "loss": 3.8514,
      "step": 285260
    },
    {
      "epoch": 0.5943125,
      "grad_norm": 0.7951908111572266,
      "learning_rate": 0.00010696937122429105,
      "loss": 3.6643,
      "step": 285270
    },
    {
      "epoch": 0.5943333333333334,
      "grad_norm": 0.9758247137069702,
      "learning_rate": 0.00010695992712517976,
      "loss": 3.7423,
      "step": 285280
    },
    {
      "epoch": 0.5943541666666666,
      "grad_norm": 0.8118310570716858,
      "learning_rate": 0.00010695048321198449,
      "loss": 4.0305,
      "step": 285290
    },
    {
      "epoch": 0.594375,
      "grad_norm": 0.8818101286888123,
      "learning_rate": 0.00010694103948474614,
      "loss": 3.8336,
      "step": 285300
    },
    {
      "epoch": 0.5943958333333333,
      "grad_norm": 0.8774569034576416,
      "learning_rate": 0.00010693159594350538,
      "loss": 3.6549,
      "step": 285310
    },
    {
      "epoch": 0.5944166666666667,
      "grad_norm": 0.7835121154785156,
      "learning_rate": 0.00010692215258830311,
      "loss": 3.8197,
      "step": 285320
    },
    {
      "epoch": 0.5944375,
      "grad_norm": 0.953957736492157,
      "learning_rate": 0.00010691270941918015,
      "loss": 3.955,
      "step": 285330
    },
    {
      "epoch": 0.5944583333333333,
      "grad_norm": 0.801969051361084,
      "learning_rate": 0.00010690326643617715,
      "loss": 3.6432,
      "step": 285340
    },
    {
      "epoch": 0.5944791666666667,
      "grad_norm": 0.8339767456054688,
      "learning_rate": 0.00010689382363933503,
      "loss": 3.6889,
      "step": 285350
    },
    {
      "epoch": 0.5945,
      "grad_norm": 0.8365703821182251,
      "learning_rate": 0.0001068843810286945,
      "loss": 3.8098,
      "step": 285360
    },
    {
      "epoch": 0.5945208333333334,
      "grad_norm": 0.831951379776001,
      "learning_rate": 0.00010687493860429636,
      "loss": 3.7238,
      "step": 285370
    },
    {
      "epoch": 0.5945416666666666,
      "grad_norm": 0.8106719255447388,
      "learning_rate": 0.00010686549636618148,
      "loss": 3.8227,
      "step": 285380
    },
    {
      "epoch": 0.5945625,
      "grad_norm": 0.7945353984832764,
      "learning_rate": 0.00010685605431439053,
      "loss": 3.9435,
      "step": 285390
    },
    {
      "epoch": 0.5945833333333334,
      "grad_norm": 0.9905279874801636,
      "learning_rate": 0.00010684661244896433,
      "loss": 3.674,
      "step": 285400
    },
    {
      "epoch": 0.5946041666666667,
      "grad_norm": 0.8012567162513733,
      "learning_rate": 0.00010683717076994375,
      "loss": 3.8018,
      "step": 285410
    },
    {
      "epoch": 0.594625,
      "grad_norm": 0.9003998637199402,
      "learning_rate": 0.00010682772927736948,
      "loss": 3.8382,
      "step": 285420
    },
    {
      "epoch": 0.5946458333333333,
      "grad_norm": 0.8395389318466187,
      "learning_rate": 0.00010681828797128228,
      "loss": 3.6631,
      "step": 285430
    },
    {
      "epoch": 0.5946666666666667,
      "grad_norm": 0.8758142590522766,
      "learning_rate": 0.00010680884685172305,
      "loss": 3.8175,
      "step": 285440
    },
    {
      "epoch": 0.5946875,
      "grad_norm": 0.9371935725212097,
      "learning_rate": 0.00010679940591873248,
      "loss": 3.8583,
      "step": 285450
    },
    {
      "epoch": 0.5947083333333333,
      "grad_norm": 0.8177861571311951,
      "learning_rate": 0.00010678996517235135,
      "loss": 3.6706,
      "step": 285460
    },
    {
      "epoch": 0.5947291666666666,
      "grad_norm": 0.9524903893470764,
      "learning_rate": 0.00010678052461262053,
      "loss": 3.8008,
      "step": 285470
    },
    {
      "epoch": 0.59475,
      "grad_norm": 0.8260664343833923,
      "learning_rate": 0.00010677108423958072,
      "loss": 3.75,
      "step": 285480
    },
    {
      "epoch": 0.5947708333333334,
      "grad_norm": 0.8461417555809021,
      "learning_rate": 0.00010676164405327267,
      "loss": 3.784,
      "step": 285490
    },
    {
      "epoch": 0.5947916666666667,
      "grad_norm": 0.8131154775619507,
      "learning_rate": 0.00010675220405373723,
      "loss": 3.8476,
      "step": 285500
    },
    {
      "epoch": 0.5948125,
      "grad_norm": 0.8396860957145691,
      "learning_rate": 0.00010674276424101517,
      "loss": 3.6579,
      "step": 285510
    },
    {
      "epoch": 0.5948333333333333,
      "grad_norm": 0.9590365886688232,
      "learning_rate": 0.00010673332461514719,
      "loss": 3.9357,
      "step": 285520
    },
    {
      "epoch": 0.5948541666666667,
      "grad_norm": 0.8108172416687012,
      "learning_rate": 0.00010672388517617415,
      "loss": 3.8549,
      "step": 285530
    },
    {
      "epoch": 0.594875,
      "grad_norm": 0.8840535879135132,
      "learning_rate": 0.00010671444592413684,
      "loss": 3.6493,
      "step": 285540
    },
    {
      "epoch": 0.5948958333333333,
      "grad_norm": 0.7992245554924011,
      "learning_rate": 0.00010670500685907592,
      "loss": 3.9058,
      "step": 285550
    },
    {
      "epoch": 0.5949166666666666,
      "grad_norm": 0.7902708053588867,
      "learning_rate": 0.00010669556798103228,
      "loss": 3.7008,
      "step": 285560
    },
    {
      "epoch": 0.5949375,
      "grad_norm": 0.8386861681938171,
      "learning_rate": 0.00010668612929004663,
      "loss": 3.9028,
      "step": 285570
    },
    {
      "epoch": 0.5949583333333334,
      "grad_norm": 0.7867953181266785,
      "learning_rate": 0.00010667669078615975,
      "loss": 3.6861,
      "step": 285580
    },
    {
      "epoch": 0.5949791666666666,
      "grad_norm": 0.9366764426231384,
      "learning_rate": 0.00010666725246941243,
      "loss": 3.8724,
      "step": 285590
    },
    {
      "epoch": 0.595,
      "grad_norm": 0.8621249794960022,
      "learning_rate": 0.00010665781433984544,
      "loss": 3.5747,
      "step": 285600
    },
    {
      "epoch": 0.5950208333333333,
      "grad_norm": 0.836633026599884,
      "learning_rate": 0.00010664837639749954,
      "loss": 3.8825,
      "step": 285610
    },
    {
      "epoch": 0.5950416666666667,
      "grad_norm": 0.8256551623344421,
      "learning_rate": 0.00010663893864241545,
      "loss": 3.7394,
      "step": 285620
    },
    {
      "epoch": 0.5950625,
      "grad_norm": 1.0352985858917236,
      "learning_rate": 0.00010662950107463399,
      "loss": 3.7593,
      "step": 285630
    },
    {
      "epoch": 0.5950833333333333,
      "grad_norm": 0.8523209095001221,
      "learning_rate": 0.00010662006369419596,
      "loss": 3.6606,
      "step": 285640
    },
    {
      "epoch": 0.5951041666666667,
      "grad_norm": 0.9943518042564392,
      "learning_rate": 0.00010661062650114202,
      "loss": 3.6739,
      "step": 285650
    },
    {
      "epoch": 0.595125,
      "grad_norm": 1.052664041519165,
      "learning_rate": 0.00010660118949551302,
      "loss": 3.7371,
      "step": 285660
    },
    {
      "epoch": 0.5951458333333334,
      "grad_norm": 0.7733030915260315,
      "learning_rate": 0.00010659175267734976,
      "loss": 3.9382,
      "step": 285670
    },
    {
      "epoch": 0.5951666666666666,
      "grad_norm": 0.8236353993415833,
      "learning_rate": 0.00010658231604669288,
      "loss": 3.8232,
      "step": 285680
    },
    {
      "epoch": 0.5951875,
      "grad_norm": 0.8232183456420898,
      "learning_rate": 0.00010657287960358323,
      "loss": 3.5413,
      "step": 285690
    },
    {
      "epoch": 0.5952083333333333,
      "grad_norm": 0.8094238042831421,
      "learning_rate": 0.00010656344334806158,
      "loss": 3.8272,
      "step": 285700
    },
    {
      "epoch": 0.5952291666666667,
      "grad_norm": 1.0459412336349487,
      "learning_rate": 0.00010655400728016861,
      "loss": 3.7662,
      "step": 285710
    },
    {
      "epoch": 0.59525,
      "grad_norm": 0.7343413829803467,
      "learning_rate": 0.00010654457139994517,
      "loss": 3.9098,
      "step": 285720
    },
    {
      "epoch": 0.5952708333333333,
      "grad_norm": 0.866905927658081,
      "learning_rate": 0.00010653513570743197,
      "loss": 3.8658,
      "step": 285730
    },
    {
      "epoch": 0.5952916666666667,
      "grad_norm": 0.7851847410202026,
      "learning_rate": 0.00010652570020266973,
      "loss": 3.7225,
      "step": 285740
    },
    {
      "epoch": 0.5953125,
      "grad_norm": 0.8419811725616455,
      "learning_rate": 0.00010651626488569933,
      "loss": 3.6938,
      "step": 285750
    },
    {
      "epoch": 0.5953333333333334,
      "grad_norm": 0.8104168772697449,
      "learning_rate": 0.00010650682975656143,
      "loss": 4.1531,
      "step": 285760
    },
    {
      "epoch": 0.5953541666666666,
      "grad_norm": 0.8066051006317139,
      "learning_rate": 0.00010649739481529677,
      "loss": 3.6364,
      "step": 285770
    },
    {
      "epoch": 0.595375,
      "grad_norm": 0.7410434484481812,
      "learning_rate": 0.00010648796006194621,
      "loss": 3.8428,
      "step": 285780
    },
    {
      "epoch": 0.5953958333333333,
      "grad_norm": 0.8890019655227661,
      "learning_rate": 0.00010647852549655041,
      "loss": 3.7459,
      "step": 285790
    },
    {
      "epoch": 0.5954166666666667,
      "grad_norm": 0.9935755729675293,
      "learning_rate": 0.00010646909111915012,
      "loss": 3.8576,
      "step": 285800
    },
    {
      "epoch": 0.5954375,
      "grad_norm": 0.9056264162063599,
      "learning_rate": 0.00010645965692978618,
      "loss": 3.8024,
      "step": 285810
    },
    {
      "epoch": 0.5954583333333333,
      "grad_norm": 0.8272311687469482,
      "learning_rate": 0.00010645022292849928,
      "loss": 3.6515,
      "step": 285820
    },
    {
      "epoch": 0.5954791666666667,
      "grad_norm": 0.8140178322792053,
      "learning_rate": 0.00010644078911533012,
      "loss": 3.9582,
      "step": 285830
    },
    {
      "epoch": 0.5955,
      "grad_norm": 1.0481367111206055,
      "learning_rate": 0.00010643135549031958,
      "loss": 3.7419,
      "step": 285840
    },
    {
      "epoch": 0.5955208333333334,
      "grad_norm": 1.004677653312683,
      "learning_rate": 0.00010642192205350835,
      "loss": 3.8617,
      "step": 285850
    },
    {
      "epoch": 0.5955416666666666,
      "grad_norm": 0.9629618525505066,
      "learning_rate": 0.0001064124888049371,
      "loss": 3.7584,
      "step": 285860
    },
    {
      "epoch": 0.5955625,
      "grad_norm": 0.9408401250839233,
      "learning_rate": 0.00010640305574464667,
      "loss": 3.8914,
      "step": 285870
    },
    {
      "epoch": 0.5955833333333334,
      "grad_norm": 0.8523157238960266,
      "learning_rate": 0.00010639362287267782,
      "loss": 3.7647,
      "step": 285880
    },
    {
      "epoch": 0.5956041666666667,
      "grad_norm": 0.8414642214775085,
      "learning_rate": 0.00010638419018907121,
      "loss": 3.8972,
      "step": 285890
    },
    {
      "epoch": 0.595625,
      "grad_norm": 0.8884281516075134,
      "learning_rate": 0.00010637475769386762,
      "loss": 3.7677,
      "step": 285900
    },
    {
      "epoch": 0.5956458333333333,
      "grad_norm": 0.7862133979797363,
      "learning_rate": 0.00010636532538710787,
      "loss": 3.819,
      "step": 285910
    },
    {
      "epoch": 0.5956666666666667,
      "grad_norm": 0.8640515208244324,
      "learning_rate": 0.00010635589326883261,
      "loss": 3.7751,
      "step": 285920
    },
    {
      "epoch": 0.5956875,
      "grad_norm": 0.8253647685050964,
      "learning_rate": 0.00010634646133908258,
      "loss": 3.9246,
      "step": 285930
    },
    {
      "epoch": 0.5957083333333333,
      "grad_norm": 0.7794767618179321,
      "learning_rate": 0.00010633702959789863,
      "loss": 3.6829,
      "step": 285940
    },
    {
      "epoch": 0.5957291666666666,
      "grad_norm": 0.7931094765663147,
      "learning_rate": 0.00010632759804532138,
      "loss": 3.6573,
      "step": 285950
    },
    {
      "epoch": 0.59575,
      "grad_norm": 0.9342790246009827,
      "learning_rate": 0.00010631816668139161,
      "loss": 3.868,
      "step": 285960
    },
    {
      "epoch": 0.5957708333333334,
      "grad_norm": 1.068570613861084,
      "learning_rate": 0.00010630873550615011,
      "loss": 3.9206,
      "step": 285970
    },
    {
      "epoch": 0.5957916666666667,
      "grad_norm": 0.8484529256820679,
      "learning_rate": 0.00010629930451963761,
      "loss": 3.6172,
      "step": 285980
    },
    {
      "epoch": 0.5958125,
      "grad_norm": 0.8513346314430237,
      "learning_rate": 0.00010628987372189473,
      "loss": 3.8684,
      "step": 285990
    },
    {
      "epoch": 0.5958333333333333,
      "grad_norm": 0.7741593718528748,
      "learning_rate": 0.00010628044311296233,
      "loss": 3.9591,
      "step": 286000
    },
    {
      "epoch": 0.5958333333333333,
      "eval_loss": 4.08912992477417,
      "eval_runtime": 8.6036,
      "eval_samples_per_second": 1.162,
      "eval_steps_per_second": 0.349,
      "step": 286000
    },
    {
      "epoch": 0.5958541666666667,
      "grad_norm": 0.781688392162323,
      "learning_rate": 0.00010627101269288113,
      "loss": 3.8147,
      "step": 286010
    },
    {
      "epoch": 0.595875,
      "grad_norm": 0.7876655459403992,
      "learning_rate": 0.0001062615824616918,
      "loss": 3.5688,
      "step": 286020
    },
    {
      "epoch": 0.5958958333333333,
      "grad_norm": 0.9542100429534912,
      "learning_rate": 0.00010625215241943514,
      "loss": 3.9053,
      "step": 286030
    },
    {
      "epoch": 0.5959166666666667,
      "grad_norm": 0.8500146865844727,
      "learning_rate": 0.00010624272256615191,
      "loss": 3.7916,
      "step": 286040
    },
    {
      "epoch": 0.5959375,
      "grad_norm": 0.8801037669181824,
      "learning_rate": 0.00010623329290188273,
      "loss": 3.63,
      "step": 286050
    },
    {
      "epoch": 0.5959583333333334,
      "grad_norm": 0.8741130232810974,
      "learning_rate": 0.00010622386342666844,
      "loss": 3.589,
      "step": 286060
    },
    {
      "epoch": 0.5959791666666666,
      "grad_norm": 0.8814659118652344,
      "learning_rate": 0.00010621443414054976,
      "loss": 3.8327,
      "step": 286070
    },
    {
      "epoch": 0.596,
      "grad_norm": 0.8544805645942688,
      "learning_rate": 0.00010620500504356732,
      "loss": 3.8609,
      "step": 286080
    },
    {
      "epoch": 0.5960208333333333,
      "grad_norm": 1.0653586387634277,
      "learning_rate": 0.00010619557613576195,
      "loss": 3.6859,
      "step": 286090
    },
    {
      "epoch": 0.5960416666666667,
      "grad_norm": 0.829659640789032,
      "learning_rate": 0.00010618614741717439,
      "loss": 3.7028,
      "step": 286100
    },
    {
      "epoch": 0.5960625,
      "grad_norm": 0.7396763563156128,
      "learning_rate": 0.00010617671888784528,
      "loss": 3.9059,
      "step": 286110
    },
    {
      "epoch": 0.5960833333333333,
      "grad_norm": 0.9345604181289673,
      "learning_rate": 0.00010616729054781544,
      "loss": 3.9202,
      "step": 286120
    },
    {
      "epoch": 0.5961041666666667,
      "grad_norm": 0.9439265727996826,
      "learning_rate": 0.00010615786239712553,
      "loss": 3.7923,
      "step": 286130
    },
    {
      "epoch": 0.596125,
      "grad_norm": 0.7738009095191956,
      "learning_rate": 0.00010614843443581626,
      "loss": 3.7419,
      "step": 286140
    },
    {
      "epoch": 0.5961458333333334,
      "grad_norm": 0.8459572792053223,
      "learning_rate": 0.00010613900666392849,
      "loss": 3.7514,
      "step": 286150
    },
    {
      "epoch": 0.5961666666666666,
      "grad_norm": 0.9096760153770447,
      "learning_rate": 0.0001061295790815028,
      "loss": 3.7921,
      "step": 286160
    },
    {
      "epoch": 0.5961875,
      "grad_norm": 0.7918219566345215,
      "learning_rate": 0.00010612015168857993,
      "loss": 3.823,
      "step": 286170
    },
    {
      "epoch": 0.5962083333333333,
      "grad_norm": 0.8941727876663208,
      "learning_rate": 0.0001061107244852007,
      "loss": 3.7739,
      "step": 286180
    },
    {
      "epoch": 0.5962291666666667,
      "grad_norm": 0.7858244180679321,
      "learning_rate": 0.00010610129747140575,
      "loss": 3.6237,
      "step": 286190
    },
    {
      "epoch": 0.59625,
      "grad_norm": 0.8794342875480652,
      "learning_rate": 0.00010609187064723581,
      "loss": 3.7563,
      "step": 286200
    },
    {
      "epoch": 0.5962708333333333,
      "grad_norm": 0.7519277334213257,
      "learning_rate": 0.00010608244401273159,
      "loss": 3.8418,
      "step": 286210
    },
    {
      "epoch": 0.5962916666666667,
      "grad_norm": 0.9056413769721985,
      "learning_rate": 0.00010607301756793386,
      "loss": 3.9184,
      "step": 286220
    },
    {
      "epoch": 0.5963125,
      "grad_norm": 0.9530258178710938,
      "learning_rate": 0.00010606359131288329,
      "loss": 3.7483,
      "step": 286230
    },
    {
      "epoch": 0.5963333333333334,
      "grad_norm": 1.0108879804611206,
      "learning_rate": 0.00010605416524762058,
      "loss": 3.7788,
      "step": 286240
    },
    {
      "epoch": 0.5963541666666666,
      "grad_norm": 0.8327213525772095,
      "learning_rate": 0.00010604473937218654,
      "loss": 3.8991,
      "step": 286250
    },
    {
      "epoch": 0.596375,
      "grad_norm": 0.7773325443267822,
      "learning_rate": 0.00010603531368662181,
      "loss": 3.5937,
      "step": 286260
    },
    {
      "epoch": 0.5963958333333333,
      "grad_norm": 0.9897722005844116,
      "learning_rate": 0.00010602588819096708,
      "loss": 3.8001,
      "step": 286270
    },
    {
      "epoch": 0.5964166666666667,
      "grad_norm": 0.807869017124176,
      "learning_rate": 0.00010601646288526317,
      "loss": 3.8358,
      "step": 286280
    },
    {
      "epoch": 0.5964375,
      "grad_norm": 0.9256541728973389,
      "learning_rate": 0.0001060070377695507,
      "loss": 3.8085,
      "step": 286290
    },
    {
      "epoch": 0.5964583333333333,
      "grad_norm": 0.7842980027198792,
      "learning_rate": 0.00010599761284387039,
      "loss": 3.8574,
      "step": 286300
    },
    {
      "epoch": 0.5964791666666667,
      "grad_norm": 0.9130359888076782,
      "learning_rate": 0.00010598818810826303,
      "loss": 3.7812,
      "step": 286310
    },
    {
      "epoch": 0.5965,
      "grad_norm": 0.936212956905365,
      "learning_rate": 0.00010597876356276924,
      "loss": 3.7364,
      "step": 286320
    },
    {
      "epoch": 0.5965208333333333,
      "grad_norm": 0.9630703926086426,
      "learning_rate": 0.00010596933920742975,
      "loss": 3.7849,
      "step": 286330
    },
    {
      "epoch": 0.5965416666666666,
      "grad_norm": 0.7366828322410583,
      "learning_rate": 0.00010595991504228533,
      "loss": 3.6168,
      "step": 286340
    },
    {
      "epoch": 0.5965625,
      "grad_norm": 0.8559461236000061,
      "learning_rate": 0.00010595049106737666,
      "loss": 3.784,
      "step": 286350
    },
    {
      "epoch": 0.5965833333333334,
      "grad_norm": 0.8683322072029114,
      "learning_rate": 0.00010594106728274437,
      "loss": 3.7354,
      "step": 286360
    },
    {
      "epoch": 0.5966041666666667,
      "grad_norm": 0.7660696506500244,
      "learning_rate": 0.00010593164368842924,
      "loss": 3.7385,
      "step": 286370
    },
    {
      "epoch": 0.596625,
      "grad_norm": 0.8385220170021057,
      "learning_rate": 0.00010592222028447203,
      "loss": 3.9552,
      "step": 286380
    },
    {
      "epoch": 0.5966458333333333,
      "grad_norm": 0.8759763836860657,
      "learning_rate": 0.0001059127970709133,
      "loss": 4.0371,
      "step": 286390
    },
    {
      "epoch": 0.5966666666666667,
      "grad_norm": 0.7360811233520508,
      "learning_rate": 0.00010590337404779386,
      "loss": 3.7197,
      "step": 286400
    },
    {
      "epoch": 0.5966875,
      "grad_norm": 0.9782266616821289,
      "learning_rate": 0.00010589395121515441,
      "loss": 3.736,
      "step": 286410
    },
    {
      "epoch": 0.5967083333333333,
      "grad_norm": 0.839890718460083,
      "learning_rate": 0.0001058845285730356,
      "loss": 3.7227,
      "step": 286420
    },
    {
      "epoch": 0.5967291666666666,
      "grad_norm": 1.047775149345398,
      "learning_rate": 0.0001058751061214782,
      "loss": 3.8688,
      "step": 286430
    },
    {
      "epoch": 0.59675,
      "grad_norm": 0.7776777148246765,
      "learning_rate": 0.00010586568386052289,
      "loss": 3.7552,
      "step": 286440
    },
    {
      "epoch": 0.5967708333333334,
      "grad_norm": 0.85313880443573,
      "learning_rate": 0.00010585626179021028,
      "loss": 3.8049,
      "step": 286450
    },
    {
      "epoch": 0.5967916666666667,
      "grad_norm": 0.9111906290054321,
      "learning_rate": 0.0001058468399105812,
      "loss": 3.7768,
      "step": 286460
    },
    {
      "epoch": 0.5968125,
      "grad_norm": 0.9771920442581177,
      "learning_rate": 0.00010583741822167631,
      "loss": 3.8166,
      "step": 286470
    },
    {
      "epoch": 0.5968333333333333,
      "grad_norm": 0.795925498008728,
      "learning_rate": 0.00010582799672353631,
      "loss": 3.6034,
      "step": 286480
    },
    {
      "epoch": 0.5968541666666667,
      "grad_norm": 0.8086099624633789,
      "learning_rate": 0.0001058185754162018,
      "loss": 3.9556,
      "step": 286490
    },
    {
      "epoch": 0.596875,
      "grad_norm": 0.8922034502029419,
      "learning_rate": 0.0001058091542997136,
      "loss": 3.6661,
      "step": 286500
    },
    {
      "epoch": 0.5968958333333333,
      "grad_norm": 0.8700608611106873,
      "learning_rate": 0.0001057997333741124,
      "loss": 3.8463,
      "step": 286510
    },
    {
      "epoch": 0.5969166666666667,
      "grad_norm": 0.8673251867294312,
      "learning_rate": 0.00010579031263943877,
      "loss": 3.9327,
      "step": 286520
    },
    {
      "epoch": 0.5969375,
      "grad_norm": 0.8518767356872559,
      "learning_rate": 0.00010578089209573351,
      "loss": 3.7967,
      "step": 286530
    },
    {
      "epoch": 0.5969583333333334,
      "grad_norm": 0.8061322569847107,
      "learning_rate": 0.00010577147174303738,
      "loss": 3.8131,
      "step": 286540
    },
    {
      "epoch": 0.5969791666666666,
      "grad_norm": 1.0015602111816406,
      "learning_rate": 0.00010576205158139087,
      "loss": 3.8182,
      "step": 286550
    },
    {
      "epoch": 0.597,
      "grad_norm": 0.7284181118011475,
      "learning_rate": 0.00010575263161083485,
      "loss": 3.8885,
      "step": 286560
    },
    {
      "epoch": 0.5970208333333333,
      "grad_norm": 0.8334420919418335,
      "learning_rate": 0.00010574321183140995,
      "loss": 3.8357,
      "step": 286570
    },
    {
      "epoch": 0.5970416666666667,
      "grad_norm": 0.9804068207740784,
      "learning_rate": 0.0001057337922431568,
      "loss": 3.8832,
      "step": 286580
    },
    {
      "epoch": 0.5970625,
      "grad_norm": 0.8146132826805115,
      "learning_rate": 0.0001057243728461162,
      "loss": 3.7845,
      "step": 286590
    },
    {
      "epoch": 0.5970833333333333,
      "grad_norm": 0.773264467716217,
      "learning_rate": 0.0001057149536403288,
      "loss": 3.774,
      "step": 286600
    },
    {
      "epoch": 0.5971041666666667,
      "grad_norm": 0.9419618248939514,
      "learning_rate": 0.00010570553462583521,
      "loss": 3.7938,
      "step": 286610
    },
    {
      "epoch": 0.597125,
      "grad_norm": 0.9072402715682983,
      "learning_rate": 0.00010569611580267623,
      "loss": 3.906,
      "step": 286620
    },
    {
      "epoch": 0.5971458333333334,
      "grad_norm": 0.9128910899162292,
      "learning_rate": 0.00010568669717089249,
      "loss": 3.8817,
      "step": 286630
    },
    {
      "epoch": 0.5971666666666666,
      "grad_norm": 1.1826529502868652,
      "learning_rate": 0.00010567727873052462,
      "loss": 3.775,
      "step": 286640
    },
    {
      "epoch": 0.5971875,
      "grad_norm": 0.7607091069221497,
      "learning_rate": 0.00010566786048161342,
      "loss": 3.8027,
      "step": 286650
    },
    {
      "epoch": 0.5972083333333333,
      "grad_norm": 1.004746437072754,
      "learning_rate": 0.00010565844242419951,
      "loss": 3.9341,
      "step": 286660
    },
    {
      "epoch": 0.5972291666666667,
      "grad_norm": 0.7480806112289429,
      "learning_rate": 0.00010564902455832353,
      "loss": 3.6914,
      "step": 286670
    },
    {
      "epoch": 0.59725,
      "grad_norm": 0.7667286992073059,
      "learning_rate": 0.00010563960688402628,
      "loss": 3.7212,
      "step": 286680
    },
    {
      "epoch": 0.5972708333333333,
      "grad_norm": 0.8726901412010193,
      "learning_rate": 0.00010563018940134831,
      "loss": 3.7076,
      "step": 286690
    },
    {
      "epoch": 0.5972916666666667,
      "grad_norm": 0.8456996083259583,
      "learning_rate": 0.00010562077211033035,
      "loss": 3.9382,
      "step": 286700
    },
    {
      "epoch": 0.5973125,
      "grad_norm": 0.8895494937896729,
      "learning_rate": 0.00010561135501101316,
      "loss": 3.8404,
      "step": 286710
    },
    {
      "epoch": 0.5973333333333334,
      "grad_norm": 0.8315129280090332,
      "learning_rate": 0.00010560193810343733,
      "loss": 3.7497,
      "step": 286720
    },
    {
      "epoch": 0.5973541666666666,
      "grad_norm": 0.7659429311752319,
      "learning_rate": 0.0001055925213876435,
      "loss": 4.1069,
      "step": 286730
    },
    {
      "epoch": 0.597375,
      "grad_norm": 0.8925768136978149,
      "learning_rate": 0.00010558310486367241,
      "loss": 3.6757,
      "step": 286740
    },
    {
      "epoch": 0.5973958333333333,
      "grad_norm": 0.7680211067199707,
      "learning_rate": 0.0001055736885315648,
      "loss": 3.7594,
      "step": 286750
    },
    {
      "epoch": 0.5974166666666667,
      "grad_norm": 0.8399031758308411,
      "learning_rate": 0.00010556427239136118,
      "loss": 3.8425,
      "step": 286760
    },
    {
      "epoch": 0.5974375,
      "grad_norm": 0.7945659160614014,
      "learning_rate": 0.00010555485644310235,
      "loss": 3.8646,
      "step": 286770
    },
    {
      "epoch": 0.5974583333333333,
      "grad_norm": 0.78963702917099,
      "learning_rate": 0.00010554544068682897,
      "loss": 3.7109,
      "step": 286780
    },
    {
      "epoch": 0.5974791666666667,
      "grad_norm": 0.8670523762702942,
      "learning_rate": 0.00010553602512258167,
      "loss": 3.7377,
      "step": 286790
    },
    {
      "epoch": 0.5975,
      "grad_norm": 0.7543500661849976,
      "learning_rate": 0.00010552660975040111,
      "loss": 3.7716,
      "step": 286800
    },
    {
      "epoch": 0.5975208333333333,
      "grad_norm": 0.944068968296051,
      "learning_rate": 0.00010551719457032804,
      "loss": 3.7224,
      "step": 286810
    },
    {
      "epoch": 0.5975416666666666,
      "grad_norm": 0.789906919002533,
      "learning_rate": 0.00010550777958240307,
      "loss": 3.7476,
      "step": 286820
    },
    {
      "epoch": 0.5975625,
      "grad_norm": 0.9055172204971313,
      "learning_rate": 0.00010549836478666683,
      "loss": 3.8255,
      "step": 286830
    },
    {
      "epoch": 0.5975833333333334,
      "grad_norm": 0.9774402379989624,
      "learning_rate": 0.0001054889501831601,
      "loss": 3.747,
      "step": 286840
    },
    {
      "epoch": 0.5976041666666667,
      "grad_norm": 0.8301442265510559,
      "learning_rate": 0.00010547953577192351,
      "loss": 3.8891,
      "step": 286850
    },
    {
      "epoch": 0.597625,
      "grad_norm": 0.8922845721244812,
      "learning_rate": 0.00010547012155299764,
      "loss": 3.8009,
      "step": 286860
    },
    {
      "epoch": 0.5976458333333333,
      "grad_norm": 0.8544005751609802,
      "learning_rate": 0.00010546070752642323,
      "loss": 3.589,
      "step": 286870
    },
    {
      "epoch": 0.5976666666666667,
      "grad_norm": 0.7948870062828064,
      "learning_rate": 0.00010545129369224097,
      "loss": 3.8543,
      "step": 286880
    },
    {
      "epoch": 0.5976875,
      "grad_norm": 0.7437671422958374,
      "learning_rate": 0.00010544188005049142,
      "loss": 3.7274,
      "step": 286890
    },
    {
      "epoch": 0.5977083333333333,
      "grad_norm": 0.8114988803863525,
      "learning_rate": 0.00010543246660121536,
      "loss": 3.8609,
      "step": 286900
    },
    {
      "epoch": 0.5977291666666666,
      "grad_norm": 1.1243269443511963,
      "learning_rate": 0.00010542305334445343,
      "loss": 4.0101,
      "step": 286910
    },
    {
      "epoch": 0.59775,
      "grad_norm": 0.6852272748947144,
      "learning_rate": 0.0001054136402802462,
      "loss": 3.6691,
      "step": 286920
    },
    {
      "epoch": 0.5977708333333334,
      "grad_norm": 0.9399352669715881,
      "learning_rate": 0.00010540422740863443,
      "loss": 3.6895,
      "step": 286930
    },
    {
      "epoch": 0.5977916666666667,
      "grad_norm": 0.8344747424125671,
      "learning_rate": 0.00010539481472965877,
      "loss": 3.7659,
      "step": 286940
    },
    {
      "epoch": 0.5978125,
      "grad_norm": 0.9344396591186523,
      "learning_rate": 0.00010538540224335979,
      "loss": 3.7726,
      "step": 286950
    },
    {
      "epoch": 0.5978333333333333,
      "grad_norm": 0.9608712792396545,
      "learning_rate": 0.00010537598994977824,
      "loss": 3.6901,
      "step": 286960
    },
    {
      "epoch": 0.5978541666666667,
      "grad_norm": 0.7411078214645386,
      "learning_rate": 0.00010536657784895481,
      "loss": 3.8308,
      "step": 286970
    },
    {
      "epoch": 0.597875,
      "grad_norm": 0.9782818555831909,
      "learning_rate": 0.00010535716594092998,
      "loss": 3.8953,
      "step": 286980
    },
    {
      "epoch": 0.5978958333333333,
      "grad_norm": 0.8801277875900269,
      "learning_rate": 0.00010534775422574464,
      "loss": 3.66,
      "step": 286990
    },
    {
      "epoch": 0.5979166666666667,
      "grad_norm": 0.7937880754470825,
      "learning_rate": 0.00010533834270343926,
      "loss": 3.711,
      "step": 287000
    },
    {
      "epoch": 0.5979166666666667,
      "eval_loss": 4.0868916511535645,
      "eval_runtime": 8.7817,
      "eval_samples_per_second": 1.139,
      "eval_steps_per_second": 0.342,
      "step": 287000
    },
    {
      "epoch": 0.5979375,
      "grad_norm": 0.8738725185394287,
      "learning_rate": 0.00010532893137405455,
      "loss": 3.7684,
      "step": 287010
    },
    {
      "epoch": 0.5979583333333334,
      "grad_norm": 0.7846020460128784,
      "learning_rate": 0.00010531952023763121,
      "loss": 3.8124,
      "step": 287020
    },
    {
      "epoch": 0.5979791666666666,
      "grad_norm": 0.823470413684845,
      "learning_rate": 0.00010531010929420987,
      "loss": 3.677,
      "step": 287030
    },
    {
      "epoch": 0.598,
      "grad_norm": 0.8521048426628113,
      "learning_rate": 0.0001053006985438311,
      "loss": 3.8147,
      "step": 287040
    },
    {
      "epoch": 0.5980208333333333,
      "grad_norm": 0.8475498557090759,
      "learning_rate": 0.0001052912879865357,
      "loss": 3.8172,
      "step": 287050
    },
    {
      "epoch": 0.5980416666666667,
      "grad_norm": 0.8672252297401428,
      "learning_rate": 0.00010528187762236421,
      "loss": 3.8449,
      "step": 287060
    },
    {
      "epoch": 0.5980625,
      "grad_norm": 0.8654336333274841,
      "learning_rate": 0.00010527246745135732,
      "loss": 3.665,
      "step": 287070
    },
    {
      "epoch": 0.5980833333333333,
      "grad_norm": 0.7826207280158997,
      "learning_rate": 0.00010526305747355562,
      "loss": 3.6504,
      "step": 287080
    },
    {
      "epoch": 0.5981041666666667,
      "grad_norm": 0.8520756363868713,
      "learning_rate": 0.00010525364768899982,
      "loss": 3.8569,
      "step": 287090
    },
    {
      "epoch": 0.598125,
      "grad_norm": 1.0722441673278809,
      "learning_rate": 0.0001052442380977306,
      "loss": 3.8701,
      "step": 287100
    },
    {
      "epoch": 0.5981458333333334,
      "grad_norm": 0.815929114818573,
      "learning_rate": 0.00010523482869978848,
      "loss": 3.7163,
      "step": 287110
    },
    {
      "epoch": 0.5981666666666666,
      "grad_norm": 0.891628623008728,
      "learning_rate": 0.00010522541949521426,
      "loss": 3.8143,
      "step": 287120
    },
    {
      "epoch": 0.5981875,
      "grad_norm": 1.0508452653884888,
      "learning_rate": 0.00010521601048404846,
      "loss": 3.7224,
      "step": 287130
    },
    {
      "epoch": 0.5982083333333333,
      "grad_norm": 0.7787337899208069,
      "learning_rate": 0.00010520660166633173,
      "loss": 3.8635,
      "step": 287140
    },
    {
      "epoch": 0.5982291666666667,
      "grad_norm": 0.7322503924369812,
      "learning_rate": 0.0001051971930421048,
      "loss": 3.8291,
      "step": 287150
    },
    {
      "epoch": 0.59825,
      "grad_norm": 0.7631312608718872,
      "learning_rate": 0.00010518778461140827,
      "loss": 3.7852,
      "step": 287160
    },
    {
      "epoch": 0.5982708333333333,
      "grad_norm": 0.8588317632675171,
      "learning_rate": 0.00010517837637428272,
      "loss": 3.8946,
      "step": 287170
    },
    {
      "epoch": 0.5982916666666667,
      "grad_norm": 0.7857629060745239,
      "learning_rate": 0.00010516896833076892,
      "loss": 3.6498,
      "step": 287180
    },
    {
      "epoch": 0.5983125,
      "grad_norm": 0.8461281061172485,
      "learning_rate": 0.00010515956048090737,
      "loss": 3.8048,
      "step": 287190
    },
    {
      "epoch": 0.5983333333333334,
      "grad_norm": 1.100036382675171,
      "learning_rate": 0.00010515015282473877,
      "loss": 3.9008,
      "step": 287200
    },
    {
      "epoch": 0.5983541666666666,
      "grad_norm": 0.8955807089805603,
      "learning_rate": 0.00010514074536230382,
      "loss": 3.7592,
      "step": 287210
    },
    {
      "epoch": 0.598375,
      "grad_norm": 0.7902340292930603,
      "learning_rate": 0.00010513133809364305,
      "loss": 3.8223,
      "step": 287220
    },
    {
      "epoch": 0.5983958333333333,
      "grad_norm": 0.895068883895874,
      "learning_rate": 0.00010512193101879712,
      "loss": 3.8746,
      "step": 287230
    },
    {
      "epoch": 0.5984166666666667,
      "grad_norm": 0.7683542370796204,
      "learning_rate": 0.0001051125241378067,
      "loss": 3.7402,
      "step": 287240
    },
    {
      "epoch": 0.5984375,
      "grad_norm": 0.9613784551620483,
      "learning_rate": 0.00010510311745071244,
      "loss": 3.768,
      "step": 287250
    },
    {
      "epoch": 0.5984583333333333,
      "grad_norm": 0.7385702729225159,
      "learning_rate": 0.00010509371095755489,
      "loss": 3.8029,
      "step": 287260
    },
    {
      "epoch": 0.5984791666666667,
      "grad_norm": 0.7865728735923767,
      "learning_rate": 0.00010508430465837473,
      "loss": 3.7267,
      "step": 287270
    },
    {
      "epoch": 0.5985,
      "grad_norm": 0.8068681955337524,
      "learning_rate": 0.00010507489855321267,
      "loss": 3.9274,
      "step": 287280
    },
    {
      "epoch": 0.5985208333333333,
      "grad_norm": 0.7989528179168701,
      "learning_rate": 0.00010506549264210918,
      "loss": 3.8702,
      "step": 287290
    },
    {
      "epoch": 0.5985416666666666,
      "grad_norm": 0.9306918978691101,
      "learning_rate": 0.000105056086925105,
      "loss": 4.0342,
      "step": 287300
    },
    {
      "epoch": 0.5985625,
      "grad_norm": 0.9237723350524902,
      "learning_rate": 0.00010504668140224078,
      "loss": 3.7856,
      "step": 287310
    },
    {
      "epoch": 0.5985833333333334,
      "grad_norm": 0.8229462504386902,
      "learning_rate": 0.00010503727607355704,
      "loss": 3.7749,
      "step": 287320
    },
    {
      "epoch": 0.5986041666666667,
      "grad_norm": 0.8422691822052002,
      "learning_rate": 0.00010502787093909451,
      "loss": 3.847,
      "step": 287330
    },
    {
      "epoch": 0.598625,
      "grad_norm": 0.8211561441421509,
      "learning_rate": 0.00010501846599889377,
      "loss": 3.8179,
      "step": 287340
    },
    {
      "epoch": 0.5986458333333333,
      "grad_norm": 1.027849793434143,
      "learning_rate": 0.00010500906125299542,
      "loss": 3.6152,
      "step": 287350
    },
    {
      "epoch": 0.5986666666666667,
      "grad_norm": 0.8021681308746338,
      "learning_rate": 0.00010499965670144018,
      "loss": 3.6847,
      "step": 287360
    },
    {
      "epoch": 0.5986875,
      "grad_norm": 0.8181710243225098,
      "learning_rate": 0.00010499025234426856,
      "loss": 3.8482,
      "step": 287370
    },
    {
      "epoch": 0.5987083333333333,
      "grad_norm": 0.8404598832130432,
      "learning_rate": 0.00010498084818152129,
      "loss": 3.868,
      "step": 287380
    },
    {
      "epoch": 0.5987291666666666,
      "grad_norm": 1.1041157245635986,
      "learning_rate": 0.00010497144421323885,
      "loss": 3.6919,
      "step": 287390
    },
    {
      "epoch": 0.59875,
      "grad_norm": 0.8833524584770203,
      "learning_rate": 0.000104962040439462,
      "loss": 3.938,
      "step": 287400
    },
    {
      "epoch": 0.5987708333333334,
      "grad_norm": 0.9204471111297607,
      "learning_rate": 0.00010495263686023132,
      "loss": 3.6912,
      "step": 287410
    },
    {
      "epoch": 0.5987916666666667,
      "grad_norm": 0.9747740030288696,
      "learning_rate": 0.00010494323347558738,
      "loss": 3.9448,
      "step": 287420
    },
    {
      "epoch": 0.5988125,
      "grad_norm": 0.9193398952484131,
      "learning_rate": 0.00010493383028557084,
      "loss": 3.9612,
      "step": 287430
    },
    {
      "epoch": 0.5988333333333333,
      "grad_norm": 0.769569456577301,
      "learning_rate": 0.00010492442729022236,
      "loss": 3.6918,
      "step": 287440
    },
    {
      "epoch": 0.5988541666666667,
      "grad_norm": 0.8637754321098328,
      "learning_rate": 0.00010491502448958246,
      "loss": 3.7552,
      "step": 287450
    },
    {
      "epoch": 0.598875,
      "grad_norm": 0.9242686033248901,
      "learning_rate": 0.00010490562188369183,
      "loss": 3.9041,
      "step": 287460
    },
    {
      "epoch": 0.5988958333333333,
      "grad_norm": 0.7607565522193909,
      "learning_rate": 0.00010489621947259107,
      "loss": 3.7414,
      "step": 287470
    },
    {
      "epoch": 0.5989166666666667,
      "grad_norm": 0.9509011507034302,
      "learning_rate": 0.00010488681725632075,
      "loss": 3.8875,
      "step": 287480
    },
    {
      "epoch": 0.5989375,
      "grad_norm": 0.8401480317115784,
      "learning_rate": 0.0001048774152349216,
      "loss": 3.8418,
      "step": 287490
    },
    {
      "epoch": 0.5989583333333334,
      "grad_norm": 0.8332960605621338,
      "learning_rate": 0.0001048680134084341,
      "loss": 3.7983,
      "step": 287500
    },
    {
      "epoch": 0.5989791666666666,
      "grad_norm": 0.8320390582084656,
      "learning_rate": 0.00010485861177689889,
      "loss": 3.9524,
      "step": 287510
    },
    {
      "epoch": 0.599,
      "grad_norm": 0.848315417766571,
      "learning_rate": 0.00010484921034035668,
      "loss": 3.7932,
      "step": 287520
    },
    {
      "epoch": 0.5990208333333333,
      "grad_norm": 0.8967174291610718,
      "learning_rate": 0.00010483980909884798,
      "loss": 3.9084,
      "step": 287530
    },
    {
      "epoch": 0.5990416666666667,
      "grad_norm": 0.8022021651268005,
      "learning_rate": 0.00010483040805241339,
      "loss": 3.6902,
      "step": 287540
    },
    {
      "epoch": 0.5990625,
      "grad_norm": 0.7811541557312012,
      "learning_rate": 0.00010482100720109362,
      "loss": 3.7715,
      "step": 287550
    },
    {
      "epoch": 0.5990833333333333,
      "grad_norm": 0.881600558757782,
      "learning_rate": 0.00010481160654492919,
      "loss": 3.8118,
      "step": 287560
    },
    {
      "epoch": 0.5991041666666667,
      "grad_norm": 0.8362042903900146,
      "learning_rate": 0.00010480220608396068,
      "loss": 3.828,
      "step": 287570
    },
    {
      "epoch": 0.599125,
      "grad_norm": 0.7875555157661438,
      "learning_rate": 0.00010479280581822883,
      "loss": 3.7268,
      "step": 287580
    },
    {
      "epoch": 0.5991458333333334,
      "grad_norm": 0.85761559009552,
      "learning_rate": 0.00010478340574777414,
      "loss": 3.7177,
      "step": 287590
    },
    {
      "epoch": 0.5991666666666666,
      "grad_norm": 0.8094275593757629,
      "learning_rate": 0.00010477400587263721,
      "loss": 3.8328,
      "step": 287600
    },
    {
      "epoch": 0.5991875,
      "grad_norm": 0.9486293792724609,
      "learning_rate": 0.00010476460619285872,
      "loss": 3.9295,
      "step": 287610
    },
    {
      "epoch": 0.5992083333333333,
      "grad_norm": 0.9314991235733032,
      "learning_rate": 0.00010475520670847924,
      "loss": 4.1088,
      "step": 287620
    },
    {
      "epoch": 0.5992291666666667,
      "grad_norm": 1.1296560764312744,
      "learning_rate": 0.00010474580741953927,
      "loss": 3.7561,
      "step": 287630
    },
    {
      "epoch": 0.59925,
      "grad_norm": 0.7985389232635498,
      "learning_rate": 0.00010473640832607957,
      "loss": 3.6845,
      "step": 287640
    },
    {
      "epoch": 0.5992708333333333,
      "grad_norm": 0.7030267119407654,
      "learning_rate": 0.00010472700942814066,
      "loss": 3.7281,
      "step": 287650
    },
    {
      "epoch": 0.5992916666666667,
      "grad_norm": 0.833797037601471,
      "learning_rate": 0.00010471761072576315,
      "loss": 3.813,
      "step": 287660
    },
    {
      "epoch": 0.5993125,
      "grad_norm": 0.8438807129859924,
      "learning_rate": 0.00010470821221898758,
      "loss": 3.7926,
      "step": 287670
    },
    {
      "epoch": 0.5993333333333334,
      "grad_norm": 0.7375826239585876,
      "learning_rate": 0.00010469881390785468,
      "loss": 3.7833,
      "step": 287680
    },
    {
      "epoch": 0.5993541666666666,
      "grad_norm": 0.8946240544319153,
      "learning_rate": 0.00010468941579240496,
      "loss": 3.8022,
      "step": 287690
    },
    {
      "epoch": 0.599375,
      "grad_norm": 0.7284537553787231,
      "learning_rate": 0.00010468001787267897,
      "loss": 3.7779,
      "step": 287700
    },
    {
      "epoch": 0.5993958333333333,
      "grad_norm": 0.7368201613426208,
      "learning_rate": 0.00010467062014871744,
      "loss": 3.8665,
      "step": 287710
    },
    {
      "epoch": 0.5994166666666667,
      "grad_norm": 0.9392905235290527,
      "learning_rate": 0.00010466122262056088,
      "loss": 3.9254,
      "step": 287720
    },
    {
      "epoch": 0.5994375,
      "grad_norm": 0.8047255277633667,
      "learning_rate": 0.00010465182528824983,
      "loss": 3.769,
      "step": 287730
    },
    {
      "epoch": 0.5994583333333333,
      "grad_norm": 0.8702569007873535,
      "learning_rate": 0.00010464242815182498,
      "loss": 3.6601,
      "step": 287740
    },
    {
      "epoch": 0.5994791666666667,
      "grad_norm": 0.9292597770690918,
      "learning_rate": 0.00010463303121132694,
      "loss": 3.7225,
      "step": 287750
    },
    {
      "epoch": 0.5995,
      "grad_norm": 1.083766222000122,
      "learning_rate": 0.00010462363446679615,
      "loss": 3.9096,
      "step": 287760
    },
    {
      "epoch": 0.5995208333333333,
      "grad_norm": 0.8019455671310425,
      "learning_rate": 0.00010461423791827334,
      "loss": 3.7809,
      "step": 287770
    },
    {
      "epoch": 0.5995416666666666,
      "grad_norm": 0.8187059164047241,
      "learning_rate": 0.00010460484156579908,
      "loss": 3.8627,
      "step": 287780
    },
    {
      "epoch": 0.5995625,
      "grad_norm": 0.8299680948257446,
      "learning_rate": 0.00010459544540941388,
      "loss": 3.7505,
      "step": 287790
    },
    {
      "epoch": 0.5995833333333334,
      "grad_norm": 0.7671732902526855,
      "learning_rate": 0.00010458604944915844,
      "loss": 3.7894,
      "step": 287800
    },
    {
      "epoch": 0.5996041666666667,
      "grad_norm": 0.9334911108016968,
      "learning_rate": 0.0001045766536850733,
      "loss": 3.6466,
      "step": 287810
    },
    {
      "epoch": 0.599625,
      "grad_norm": 0.8090458512306213,
      "learning_rate": 0.00010456725811719896,
      "loss": 3.8927,
      "step": 287820
    },
    {
      "epoch": 0.5996458333333333,
      "grad_norm": 0.8455280065536499,
      "learning_rate": 0.00010455786274557612,
      "loss": 3.8015,
      "step": 287830
    },
    {
      "epoch": 0.5996666666666667,
      "grad_norm": 0.8783570528030396,
      "learning_rate": 0.00010454846757024538,
      "loss": 3.9405,
      "step": 287840
    },
    {
      "epoch": 0.5996875,
      "grad_norm": 0.8311591744422913,
      "learning_rate": 0.00010453907259124718,
      "loss": 3.7781,
      "step": 287850
    },
    {
      "epoch": 0.5997083333333333,
      "grad_norm": 0.8315288424491882,
      "learning_rate": 0.00010452967780862226,
      "loss": 3.5403,
      "step": 287860
    },
    {
      "epoch": 0.5997291666666666,
      "grad_norm": 0.8787941336631775,
      "learning_rate": 0.00010452028322241111,
      "loss": 3.7061,
      "step": 287870
    },
    {
      "epoch": 0.59975,
      "grad_norm": 0.8330724835395813,
      "learning_rate": 0.0001045108888326543,
      "loss": 3.7116,
      "step": 287880
    },
    {
      "epoch": 0.5997708333333334,
      "grad_norm": 0.9760400652885437,
      "learning_rate": 0.00010450149463939251,
      "loss": 3.7122,
      "step": 287890
    },
    {
      "epoch": 0.5997916666666666,
      "grad_norm": 0.8909734487533569,
      "learning_rate": 0.00010449210064266623,
      "loss": 3.8066,
      "step": 287900
    },
    {
      "epoch": 0.5998125,
      "grad_norm": 0.8164889812469482,
      "learning_rate": 0.000104482706842516,
      "loss": 3.7212,
      "step": 287910
    },
    {
      "epoch": 0.5998333333333333,
      "grad_norm": 0.7722901105880737,
      "learning_rate": 0.00010447331323898255,
      "loss": 3.7457,
      "step": 287920
    },
    {
      "epoch": 0.5998541666666667,
      "grad_norm": 0.9238521456718445,
      "learning_rate": 0.00010446391983210631,
      "loss": 3.8988,
      "step": 287930
    },
    {
      "epoch": 0.599875,
      "grad_norm": 0.8850170969963074,
      "learning_rate": 0.00010445452662192791,
      "loss": 3.6773,
      "step": 287940
    },
    {
      "epoch": 0.5998958333333333,
      "grad_norm": 0.8483327031135559,
      "learning_rate": 0.00010444513360848798,
      "loss": 3.7431,
      "step": 287950
    },
    {
      "epoch": 0.5999166666666667,
      "grad_norm": 0.7634807825088501,
      "learning_rate": 0.000104435740791827,
      "loss": 3.6627,
      "step": 287960
    },
    {
      "epoch": 0.5999375,
      "grad_norm": 1.2744412422180176,
      "learning_rate": 0.00010442634817198563,
      "loss": 3.7767,
      "step": 287970
    },
    {
      "epoch": 0.5999583333333334,
      "grad_norm": 0.819196879863739,
      "learning_rate": 0.00010441695574900432,
      "loss": 3.8055,
      "step": 287980
    },
    {
      "epoch": 0.5999791666666666,
      "grad_norm": 0.8867786526679993,
      "learning_rate": 0.00010440756352292379,
      "loss": 3.669,
      "step": 287990
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8902817368507385,
      "learning_rate": 0.00010439817149378449,
      "loss": 3.7253,
      "step": 288000
    },
    {
      "epoch": 0.6,
      "eval_loss": 4.086565971374512,
      "eval_runtime": 8.3319,
      "eval_samples_per_second": 1.2,
      "eval_steps_per_second": 0.36,
      "step": 288000
    },
    {
      "epoch": 0.6000208333333333,
      "grad_norm": 0.7792659997940063,
      "learning_rate": 0.00010438877966162703,
      "loss": 3.8879,
      "step": 288010
    },
    {
      "epoch": 0.6000416666666667,
      "grad_norm": 0.8732050061225891,
      "learning_rate": 0.00010437938802649205,
      "loss": 3.7287,
      "step": 288020
    },
    {
      "epoch": 0.6000625,
      "grad_norm": 0.8446193337440491,
      "learning_rate": 0.00010436999658842,
      "loss": 3.8511,
      "step": 288030
    },
    {
      "epoch": 0.6000833333333333,
      "grad_norm": 0.8102714419364929,
      "learning_rate": 0.00010436060534745148,
      "loss": 3.6446,
      "step": 288040
    },
    {
      "epoch": 0.6001041666666667,
      "grad_norm": 0.8515508770942688,
      "learning_rate": 0.00010435121430362718,
      "loss": 3.8218,
      "step": 288050
    },
    {
      "epoch": 0.600125,
      "grad_norm": 0.8614469170570374,
      "learning_rate": 0.00010434182345698749,
      "loss": 4.0055,
      "step": 288060
    },
    {
      "epoch": 0.6001458333333334,
      "grad_norm": 1.0028254985809326,
      "learning_rate": 0.00010433243280757301,
      "loss": 3.7105,
      "step": 288070
    },
    {
      "epoch": 0.6001666666666666,
      "grad_norm": 0.7821412086486816,
      "learning_rate": 0.00010432304235542445,
      "loss": 3.9235,
      "step": 288080
    },
    {
      "epoch": 0.6001875,
      "grad_norm": 0.8313906192779541,
      "learning_rate": 0.00010431365210058221,
      "loss": 3.7567,
      "step": 288090
    },
    {
      "epoch": 0.6002083333333333,
      "grad_norm": 0.8272364735603333,
      "learning_rate": 0.00010430426204308688,
      "loss": 3.6705,
      "step": 288100
    },
    {
      "epoch": 0.6002291666666667,
      "grad_norm": 0.7471861243247986,
      "learning_rate": 0.00010429487218297913,
      "loss": 3.682,
      "step": 288110
    },
    {
      "epoch": 0.60025,
      "grad_norm": 0.7680759429931641,
      "learning_rate": 0.00010428548252029941,
      "loss": 3.8776,
      "step": 288120
    },
    {
      "epoch": 0.6002708333333333,
      "grad_norm": 0.8075109124183655,
      "learning_rate": 0.00010427609305508827,
      "loss": 3.643,
      "step": 288130
    },
    {
      "epoch": 0.6002916666666667,
      "grad_norm": 0.8017611503601074,
      "learning_rate": 0.00010426670378738634,
      "loss": 3.714,
      "step": 288140
    },
    {
      "epoch": 0.6003125,
      "grad_norm": 0.8567026853561401,
      "learning_rate": 0.00010425731471723415,
      "loss": 3.754,
      "step": 288150
    },
    {
      "epoch": 0.6003333333333334,
      "grad_norm": 0.8381097912788391,
      "learning_rate": 0.00010424792584467223,
      "loss": 3.8836,
      "step": 288160
    },
    {
      "epoch": 0.6003541666666666,
      "grad_norm": 0.8037269711494446,
      "learning_rate": 0.00010423853716974117,
      "loss": 3.735,
      "step": 288170
    },
    {
      "epoch": 0.600375,
      "grad_norm": 0.7046252489089966,
      "learning_rate": 0.00010422914869248155,
      "loss": 3.6007,
      "step": 288180
    },
    {
      "epoch": 0.6003958333333334,
      "grad_norm": 0.8595468997955322,
      "learning_rate": 0.00010421976041293383,
      "loss": 3.697,
      "step": 288190
    },
    {
      "epoch": 0.6004166666666667,
      "grad_norm": 0.8003635406494141,
      "learning_rate": 0.00010421037233113866,
      "loss": 3.8082,
      "step": 288200
    },
    {
      "epoch": 0.6004375,
      "grad_norm": 0.825623095035553,
      "learning_rate": 0.00010420098444713659,
      "loss": 3.6143,
      "step": 288210
    },
    {
      "epoch": 0.6004583333333333,
      "grad_norm": 1.0824295282363892,
      "learning_rate": 0.00010419159676096805,
      "loss": 3.818,
      "step": 288220
    },
    {
      "epoch": 0.6004791666666667,
      "grad_norm": 0.9054719805717468,
      "learning_rate": 0.00010418220927267377,
      "loss": 3.6595,
      "step": 288230
    },
    {
      "epoch": 0.6005,
      "grad_norm": 0.7580874562263489,
      "learning_rate": 0.00010417282198229418,
      "loss": 3.6573,
      "step": 288240
    },
    {
      "epoch": 0.6005208333333333,
      "grad_norm": 0.8778418302536011,
      "learning_rate": 0.00010416343488986988,
      "loss": 3.8318,
      "step": 288250
    },
    {
      "epoch": 0.6005416666666666,
      "grad_norm": 0.8696300983428955,
      "learning_rate": 0.00010415404799544133,
      "loss": 3.8391,
      "step": 288260
    },
    {
      "epoch": 0.6005625,
      "grad_norm": 0.920615553855896,
      "learning_rate": 0.0001041446612990492,
      "loss": 3.7429,
      "step": 288270
    },
    {
      "epoch": 0.6005833333333334,
      "grad_norm": 1.0634244680404663,
      "learning_rate": 0.00010413527480073399,
      "loss": 3.8864,
      "step": 288280
    },
    {
      "epoch": 0.6006041666666667,
      "grad_norm": 0.8030101656913757,
      "learning_rate": 0.00010412588850053619,
      "loss": 3.802,
      "step": 288290
    },
    {
      "epoch": 0.600625,
      "grad_norm": 0.7796856164932251,
      "learning_rate": 0.00010411650239849641,
      "loss": 3.9573,
      "step": 288300
    },
    {
      "epoch": 0.6006458333333333,
      "grad_norm": 0.8720639944076538,
      "learning_rate": 0.00010410711649465522,
      "loss": 3.7937,
      "step": 288310
    },
    {
      "epoch": 0.6006666666666667,
      "grad_norm": 0.9788789749145508,
      "learning_rate": 0.00010409773078905305,
      "loss": 3.6675,
      "step": 288320
    },
    {
      "epoch": 0.6006875,
      "grad_norm": 0.85044926404953,
      "learning_rate": 0.00010408834528173055,
      "loss": 3.9363,
      "step": 288330
    },
    {
      "epoch": 0.6007083333333333,
      "grad_norm": 0.8720236420631409,
      "learning_rate": 0.00010407895997272825,
      "loss": 3.756,
      "step": 288340
    },
    {
      "epoch": 0.6007291666666666,
      "grad_norm": 0.8381051421165466,
      "learning_rate": 0.00010406957486208661,
      "loss": 3.6777,
      "step": 288350
    },
    {
      "epoch": 0.60075,
      "grad_norm": 0.7951586842536926,
      "learning_rate": 0.0001040601899498463,
      "loss": 3.9388,
      "step": 288360
    },
    {
      "epoch": 0.6007708333333334,
      "grad_norm": 0.8929020166397095,
      "learning_rate": 0.00010405080523604774,
      "loss": 3.7885,
      "step": 288370
    },
    {
      "epoch": 0.6007916666666666,
      "grad_norm": 0.8956670761108398,
      "learning_rate": 0.00010404142072073149,
      "loss": 3.8735,
      "step": 288380
    },
    {
      "epoch": 0.6008125,
      "grad_norm": 0.9717432856559753,
      "learning_rate": 0.00010403203640393817,
      "loss": 3.8209,
      "step": 288390
    },
    {
      "epoch": 0.6008333333333333,
      "grad_norm": 0.9215056896209717,
      "learning_rate": 0.00010402265228570822,
      "loss": 3.7416,
      "step": 288400
    },
    {
      "epoch": 0.6008541666666667,
      "grad_norm": 1.0664393901824951,
      "learning_rate": 0.00010401326836608219,
      "loss": 3.7276,
      "step": 288410
    },
    {
      "epoch": 0.600875,
      "grad_norm": 0.825904369354248,
      "learning_rate": 0.00010400388464510069,
      "loss": 3.6432,
      "step": 288420
    },
    {
      "epoch": 0.6008958333333333,
      "grad_norm": 0.9868297576904297,
      "learning_rate": 0.00010399450112280418,
      "loss": 3.7219,
      "step": 288430
    },
    {
      "epoch": 0.6009166666666667,
      "grad_norm": 0.8234660625457764,
      "learning_rate": 0.00010398511779923318,
      "loss": 3.7611,
      "step": 288440
    },
    {
      "epoch": 0.6009375,
      "grad_norm": 0.8581112623214722,
      "learning_rate": 0.00010397573467442833,
      "loss": 3.7729,
      "step": 288450
    },
    {
      "epoch": 0.6009583333333334,
      "grad_norm": 1.0002254247665405,
      "learning_rate": 0.00010396635174843004,
      "loss": 3.6825,
      "step": 288460
    },
    {
      "epoch": 0.6009791666666666,
      "grad_norm": 0.8466026186943054,
      "learning_rate": 0.00010395696902127886,
      "loss": 3.742,
      "step": 288470
    },
    {
      "epoch": 0.601,
      "grad_norm": 0.8104313015937805,
      "learning_rate": 0.00010394758649301543,
      "loss": 3.8285,
      "step": 288480
    },
    {
      "epoch": 0.6010208333333333,
      "grad_norm": 0.8125463128089905,
      "learning_rate": 0.00010393820416368018,
      "loss": 3.7824,
      "step": 288490
    },
    {
      "epoch": 0.6010416666666667,
      "grad_norm": 0.9423075318336487,
      "learning_rate": 0.0001039288220333136,
      "loss": 3.8225,
      "step": 288500
    },
    {
      "epoch": 0.6010625,
      "grad_norm": 0.8039259314537048,
      "learning_rate": 0.00010391944010195631,
      "loss": 3.7443,
      "step": 288510
    },
    {
      "epoch": 0.6010833333333333,
      "grad_norm": 0.8730680346488953,
      "learning_rate": 0.00010391005836964882,
      "loss": 3.9123,
      "step": 288520
    },
    {
      "epoch": 0.6011041666666667,
      "grad_norm": 0.7797470092773438,
      "learning_rate": 0.00010390067683643158,
      "loss": 3.7075,
      "step": 288530
    },
    {
      "epoch": 0.601125,
      "grad_norm": 0.7786293029785156,
      "learning_rate": 0.00010389129550234517,
      "loss": 3.7576,
      "step": 288540
    },
    {
      "epoch": 0.6011458333333334,
      "grad_norm": 0.7728910446166992,
      "learning_rate": 0.00010388191436743016,
      "loss": 3.8036,
      "step": 288550
    },
    {
      "epoch": 0.6011666666666666,
      "grad_norm": 0.9319543838500977,
      "learning_rate": 0.00010387253343172701,
      "loss": 3.7625,
      "step": 288560
    },
    {
      "epoch": 0.6011875,
      "grad_norm": 0.8470950722694397,
      "learning_rate": 0.00010386315269527621,
      "loss": 3.7006,
      "step": 288570
    },
    {
      "epoch": 0.6012083333333333,
      "grad_norm": 0.8288833498954773,
      "learning_rate": 0.0001038537721581184,
      "loss": 3.5768,
      "step": 288580
    },
    {
      "epoch": 0.6012291666666667,
      "grad_norm": 0.980633556842804,
      "learning_rate": 0.000103844391820294,
      "loss": 3.7102,
      "step": 288590
    },
    {
      "epoch": 0.60125,
      "grad_norm": 0.8324139714241028,
      "learning_rate": 0.00010383501168184352,
      "loss": 3.9128,
      "step": 288600
    },
    {
      "epoch": 0.6012708333333333,
      "grad_norm": 0.7956876158714294,
      "learning_rate": 0.00010382563174280758,
      "loss": 3.9768,
      "step": 288610
    },
    {
      "epoch": 0.6012916666666667,
      "grad_norm": 0.6911171078681946,
      "learning_rate": 0.00010381625200322665,
      "loss": 3.7512,
      "step": 288620
    },
    {
      "epoch": 0.6013125,
      "grad_norm": 0.812754213809967,
      "learning_rate": 0.00010380687246314112,
      "loss": 3.7716,
      "step": 288630
    },
    {
      "epoch": 0.6013333333333334,
      "grad_norm": 0.9374662041664124,
      "learning_rate": 0.00010379749312259169,
      "loss": 3.6515,
      "step": 288640
    },
    {
      "epoch": 0.6013541666666666,
      "grad_norm": 0.9078734517097473,
      "learning_rate": 0.00010378811398161881,
      "loss": 3.8115,
      "step": 288650
    },
    {
      "epoch": 0.601375,
      "grad_norm": 0.7669709920883179,
      "learning_rate": 0.00010377873504026294,
      "loss": 3.6937,
      "step": 288660
    },
    {
      "epoch": 0.6013958333333334,
      "grad_norm": 0.8810083866119385,
      "learning_rate": 0.00010376935629856467,
      "loss": 3.8771,
      "step": 288670
    },
    {
      "epoch": 0.6014166666666667,
      "grad_norm": 0.8362292051315308,
      "learning_rate": 0.00010375997775656451,
      "loss": 4.0138,
      "step": 288680
    },
    {
      "epoch": 0.6014375,
      "grad_norm": 0.847313404083252,
      "learning_rate": 0.00010375059941430288,
      "loss": 3.6224,
      "step": 288690
    },
    {
      "epoch": 0.6014583333333333,
      "grad_norm": 0.9028564691543579,
      "learning_rate": 0.00010374122127182037,
      "loss": 3.8636,
      "step": 288700
    },
    {
      "epoch": 0.6014791666666667,
      "grad_norm": 0.721258819103241,
      "learning_rate": 0.00010373184332915754,
      "loss": 3.5682,
      "step": 288710
    },
    {
      "epoch": 0.6015,
      "grad_norm": 0.79251629114151,
      "learning_rate": 0.00010372246558635474,
      "loss": 3.5973,
      "step": 288720
    },
    {
      "epoch": 0.6015208333333333,
      "grad_norm": 0.7730836272239685,
      "learning_rate": 0.00010371308804345264,
      "loss": 3.7941,
      "step": 288730
    },
    {
      "epoch": 0.6015416666666666,
      "grad_norm": 0.8320125341415405,
      "learning_rate": 0.00010370371070049164,
      "loss": 3.7727,
      "step": 288740
    },
    {
      "epoch": 0.6015625,
      "grad_norm": 0.811449408531189,
      "learning_rate": 0.00010369433355751227,
      "loss": 3.7612,
      "step": 288750
    },
    {
      "epoch": 0.6015833333333334,
      "grad_norm": 0.9635288119316101,
      "learning_rate": 0.0001036849566145551,
      "loss": 3.72,
      "step": 288760
    },
    {
      "epoch": 0.6016041666666667,
      "grad_norm": 0.8693856000900269,
      "learning_rate": 0.00010367557987166055,
      "loss": 3.8562,
      "step": 288770
    },
    {
      "epoch": 0.601625,
      "grad_norm": 0.8418801426887512,
      "learning_rate": 0.00010366620332886914,
      "loss": 3.7487,
      "step": 288780
    },
    {
      "epoch": 0.6016458333333333,
      "grad_norm": 0.9691896438598633,
      "learning_rate": 0.00010365682698622144,
      "loss": 3.6335,
      "step": 288790
    },
    {
      "epoch": 0.6016666666666667,
      "grad_norm": 0.9655444622039795,
      "learning_rate": 0.0001036474508437579,
      "loss": 3.8233,
      "step": 288800
    },
    {
      "epoch": 0.6016875,
      "grad_norm": 0.7715107798576355,
      "learning_rate": 0.00010363807490151896,
      "loss": 3.8674,
      "step": 288810
    },
    {
      "epoch": 0.6017083333333333,
      "grad_norm": 0.8241222500801086,
      "learning_rate": 0.00010362869915954526,
      "loss": 3.6864,
      "step": 288820
    },
    {
      "epoch": 0.6017291666666666,
      "grad_norm": 0.8253352642059326,
      "learning_rate": 0.00010361932361787719,
      "loss": 3.9343,
      "step": 288830
    },
    {
      "epoch": 0.60175,
      "grad_norm": 0.9390108585357666,
      "learning_rate": 0.00010360994827655533,
      "loss": 3.7313,
      "step": 288840
    },
    {
      "epoch": 0.6017708333333334,
      "grad_norm": 0.8134980201721191,
      "learning_rate": 0.00010360057313562006,
      "loss": 3.6244,
      "step": 288850
    },
    {
      "epoch": 0.6017916666666666,
      "grad_norm": 0.8830820322036743,
      "learning_rate": 0.000103591198195112,
      "loss": 3.7961,
      "step": 288860
    },
    {
      "epoch": 0.6018125,
      "grad_norm": 1.0021506547927856,
      "learning_rate": 0.00010358182345507158,
      "loss": 3.7894,
      "step": 288870
    },
    {
      "epoch": 0.6018333333333333,
      "grad_norm": 0.7106004357337952,
      "learning_rate": 0.00010357244891553927,
      "loss": 3.8753,
      "step": 288880
    },
    {
      "epoch": 0.6018541666666667,
      "grad_norm": 1.2216135263442993,
      "learning_rate": 0.00010356307457655566,
      "loss": 3.6794,
      "step": 288890
    },
    {
      "epoch": 0.601875,
      "grad_norm": 0.9041370749473572,
      "learning_rate": 0.00010355370043816117,
      "loss": 3.9151,
      "step": 288900
    },
    {
      "epoch": 0.6018958333333333,
      "grad_norm": 0.8375245332717896,
      "learning_rate": 0.00010354432650039626,
      "loss": 3.7685,
      "step": 288910
    },
    {
      "epoch": 0.6019166666666667,
      "grad_norm": 0.7996999621391296,
      "learning_rate": 0.00010353495276330152,
      "loss": 3.6625,
      "step": 288920
    },
    {
      "epoch": 0.6019375,
      "grad_norm": 0.8798809051513672,
      "learning_rate": 0.00010352557922691742,
      "loss": 3.896,
      "step": 288930
    },
    {
      "epoch": 0.6019583333333334,
      "grad_norm": 0.9850637912750244,
      "learning_rate": 0.00010351620589128434,
      "loss": 3.6746,
      "step": 288940
    },
    {
      "epoch": 0.6019791666666666,
      "grad_norm": 0.9604367017745972,
      "learning_rate": 0.00010350683275644293,
      "loss": 3.6067,
      "step": 288950
    },
    {
      "epoch": 0.602,
      "grad_norm": 0.8074501752853394,
      "learning_rate": 0.00010349745982243356,
      "loss": 3.7453,
      "step": 288960
    },
    {
      "epoch": 0.6020208333333333,
      "grad_norm": 0.8750182390213013,
      "learning_rate": 0.00010348808708929671,
      "loss": 3.73,
      "step": 288970
    },
    {
      "epoch": 0.6020416666666667,
      "grad_norm": 0.8606668710708618,
      "learning_rate": 0.00010347871455707302,
      "loss": 3.8231,
      "step": 288980
    },
    {
      "epoch": 0.6020625,
      "grad_norm": 0.7771251797676086,
      "learning_rate": 0.00010346934222580284,
      "loss": 3.8776,
      "step": 288990
    },
    {
      "epoch": 0.6020833333333333,
      "grad_norm": 0.8712558150291443,
      "learning_rate": 0.00010345997009552663,
      "loss": 3.9207,
      "step": 289000
    },
    {
      "epoch": 0.6020833333333333,
      "eval_loss": 4.082566261291504,
      "eval_runtime": 8.3167,
      "eval_samples_per_second": 1.202,
      "eval_steps_per_second": 0.361,
      "step": 289000
    },
    {
      "epoch": 0.6021041666666667,
      "grad_norm": 0.8587681651115417,
      "learning_rate": 0.00010345059816628494,
      "loss": 3.8954,
      "step": 289010
    },
    {
      "epoch": 0.602125,
      "grad_norm": 0.8053352236747742,
      "learning_rate": 0.00010344122643811828,
      "loss": 3.9644,
      "step": 289020
    },
    {
      "epoch": 0.6021458333333334,
      "grad_norm": 0.8722015023231506,
      "learning_rate": 0.00010343185491106703,
      "loss": 3.7039,
      "step": 289030
    },
    {
      "epoch": 0.6021666666666666,
      "grad_norm": 0.8469521999359131,
      "learning_rate": 0.00010342248358517178,
      "loss": 3.7037,
      "step": 289040
    },
    {
      "epoch": 0.6021875,
      "grad_norm": 0.7813798189163208,
      "learning_rate": 0.00010341311246047298,
      "loss": 3.6988,
      "step": 289050
    },
    {
      "epoch": 0.6022083333333333,
      "grad_norm": 0.9511951208114624,
      "learning_rate": 0.00010340374153701105,
      "loss": 3.7093,
      "step": 289060
    },
    {
      "epoch": 0.6022291666666667,
      "grad_norm": 0.803080141544342,
      "learning_rate": 0.00010339437081482654,
      "loss": 3.8112,
      "step": 289070
    },
    {
      "epoch": 0.60225,
      "grad_norm": 0.8362505435943604,
      "learning_rate": 0.00010338500029395993,
      "loss": 3.7646,
      "step": 289080
    },
    {
      "epoch": 0.6022708333333333,
      "grad_norm": 0.881182074546814,
      "learning_rate": 0.00010337562997445157,
      "loss": 3.7159,
      "step": 289090
    },
    {
      "epoch": 0.6022916666666667,
      "grad_norm": 0.8623988032341003,
      "learning_rate": 0.0001033662598563421,
      "loss": 3.7619,
      "step": 289100
    },
    {
      "epoch": 0.6023125,
      "grad_norm": 0.8379650115966797,
      "learning_rate": 0.00010335688993967195,
      "loss": 3.8436,
      "step": 289110
    },
    {
      "epoch": 0.6023333333333334,
      "grad_norm": 0.7910286784172058,
      "learning_rate": 0.0001033475202244815,
      "loss": 3.7765,
      "step": 289120
    },
    {
      "epoch": 0.6023541666666666,
      "grad_norm": 0.7525619268417358,
      "learning_rate": 0.00010333815071081139,
      "loss": 3.6747,
      "step": 289130
    },
    {
      "epoch": 0.602375,
      "grad_norm": 0.8480855226516724,
      "learning_rate": 0.00010332878139870195,
      "loss": 3.7367,
      "step": 289140
    },
    {
      "epoch": 0.6023958333333334,
      "grad_norm": 1.0415551662445068,
      "learning_rate": 0.00010331941228819372,
      "loss": 3.6877,
      "step": 289150
    },
    {
      "epoch": 0.6024166666666667,
      "grad_norm": 0.7930053472518921,
      "learning_rate": 0.0001033100433793271,
      "loss": 3.7143,
      "step": 289160
    },
    {
      "epoch": 0.6024375,
      "grad_norm": 1.012804627418518,
      "learning_rate": 0.00010330067467214266,
      "loss": 3.822,
      "step": 289170
    },
    {
      "epoch": 0.6024583333333333,
      "grad_norm": 0.7923358082771301,
      "learning_rate": 0.00010329130616668082,
      "loss": 3.7539,
      "step": 289180
    },
    {
      "epoch": 0.6024791666666667,
      "grad_norm": 1.080002784729004,
      "learning_rate": 0.000103281937862982,
      "loss": 3.7609,
      "step": 289190
    },
    {
      "epoch": 0.6025,
      "grad_norm": 0.9017173051834106,
      "learning_rate": 0.00010327256976108675,
      "loss": 3.8095,
      "step": 289200
    },
    {
      "epoch": 0.6025208333333333,
      "grad_norm": 0.8951343297958374,
      "learning_rate": 0.00010326320186103553,
      "loss": 3.8273,
      "step": 289210
    },
    {
      "epoch": 0.6025416666666666,
      "grad_norm": 0.8418387770652771,
      "learning_rate": 0.00010325383416286871,
      "loss": 3.9906,
      "step": 289220
    },
    {
      "epoch": 0.6025625,
      "grad_norm": 0.8650746941566467,
      "learning_rate": 0.0001032444666666269,
      "loss": 3.6218,
      "step": 289230
    },
    {
      "epoch": 0.6025833333333334,
      "grad_norm": 0.8066406846046448,
      "learning_rate": 0.00010323509937235045,
      "loss": 3.6872,
      "step": 289240
    },
    {
      "epoch": 0.6026041666666667,
      "grad_norm": 0.8577037453651428,
      "learning_rate": 0.00010322573228007982,
      "loss": 3.7357,
      "step": 289250
    },
    {
      "epoch": 0.602625,
      "grad_norm": 0.850248396396637,
      "learning_rate": 0.00010321636538985559,
      "loss": 3.9483,
      "step": 289260
    },
    {
      "epoch": 0.6026458333333333,
      "grad_norm": 0.7435806393623352,
      "learning_rate": 0.0001032069987017181,
      "loss": 3.7572,
      "step": 289270
    },
    {
      "epoch": 0.6026666666666667,
      "grad_norm": 0.9910647869110107,
      "learning_rate": 0.00010319763221570781,
      "loss": 3.8748,
      "step": 289280
    },
    {
      "epoch": 0.6026875,
      "grad_norm": 0.7142569422721863,
      "learning_rate": 0.00010318826593186532,
      "loss": 3.7616,
      "step": 289290
    },
    {
      "epoch": 0.6027083333333333,
      "grad_norm": 1.0402023792266846,
      "learning_rate": 0.00010317889985023093,
      "loss": 3.7592,
      "step": 289300
    },
    {
      "epoch": 0.6027291666666666,
      "grad_norm": 1.261134147644043,
      "learning_rate": 0.00010316953397084515,
      "loss": 3.7649,
      "step": 289310
    },
    {
      "epoch": 0.60275,
      "grad_norm": 0.7995954155921936,
      "learning_rate": 0.00010316016829374849,
      "loss": 3.7356,
      "step": 289320
    },
    {
      "epoch": 0.6027708333333334,
      "grad_norm": 0.9376223683357239,
      "learning_rate": 0.00010315080281898135,
      "loss": 3.5268,
      "step": 289330
    },
    {
      "epoch": 0.6027916666666666,
      "grad_norm": 0.7574068903923035,
      "learning_rate": 0.00010314143754658416,
      "loss": 3.9407,
      "step": 289340
    },
    {
      "epoch": 0.6028125,
      "grad_norm": 0.8473040461540222,
      "learning_rate": 0.00010313207247659747,
      "loss": 3.8159,
      "step": 289350
    },
    {
      "epoch": 0.6028333333333333,
      "grad_norm": 0.753795862197876,
      "learning_rate": 0.00010312270760906168,
      "loss": 3.8245,
      "step": 289360
    },
    {
      "epoch": 0.6028541666666667,
      "grad_norm": 0.9395481944084167,
      "learning_rate": 0.00010311334294401717,
      "loss": 3.8866,
      "step": 289370
    },
    {
      "epoch": 0.602875,
      "grad_norm": 0.7452681064605713,
      "learning_rate": 0.00010310397848150449,
      "loss": 3.7141,
      "step": 289380
    },
    {
      "epoch": 0.6028958333333333,
      "grad_norm": 0.8819716572761536,
      "learning_rate": 0.0001030946142215641,
      "loss": 3.8395,
      "step": 289390
    },
    {
      "epoch": 0.6029166666666667,
      "grad_norm": 0.8049349188804626,
      "learning_rate": 0.00010308525016423632,
      "loss": 3.9633,
      "step": 289400
    },
    {
      "epoch": 0.6029375,
      "grad_norm": 0.9476402401924133,
      "learning_rate": 0.00010307588630956175,
      "loss": 3.8271,
      "step": 289410
    },
    {
      "epoch": 0.6029583333333334,
      "grad_norm": 0.9756447672843933,
      "learning_rate": 0.00010306652265758081,
      "loss": 3.4786,
      "step": 289420
    },
    {
      "epoch": 0.6029791666666666,
      "grad_norm": 0.8396246433258057,
      "learning_rate": 0.00010305715920833387,
      "loss": 3.6969,
      "step": 289430
    },
    {
      "epoch": 0.603,
      "grad_norm": 0.8184540271759033,
      "learning_rate": 0.0001030477959618614,
      "loss": 3.817,
      "step": 289440
    },
    {
      "epoch": 0.6030208333333333,
      "grad_norm": 0.8141668438911438,
      "learning_rate": 0.0001030384329182039,
      "loss": 3.7662,
      "step": 289450
    },
    {
      "epoch": 0.6030416666666667,
      "grad_norm": 1.0405993461608887,
      "learning_rate": 0.00010302907007740177,
      "loss": 3.9983,
      "step": 289460
    },
    {
      "epoch": 0.6030625,
      "grad_norm": 0.7783528566360474,
      "learning_rate": 0.00010301970743949545,
      "loss": 3.775,
      "step": 289470
    },
    {
      "epoch": 0.6030833333333333,
      "grad_norm": 0.7377431392669678,
      "learning_rate": 0.00010301034500452545,
      "loss": 3.7861,
      "step": 289480
    },
    {
      "epoch": 0.6031041666666667,
      "grad_norm": 0.989401638507843,
      "learning_rate": 0.00010300098277253216,
      "loss": 3.7995,
      "step": 289490
    },
    {
      "epoch": 0.603125,
      "grad_norm": 0.8101419806480408,
      "learning_rate": 0.00010299162074355595,
      "loss": 3.7881,
      "step": 289500
    },
    {
      "epoch": 0.6031458333333334,
      "grad_norm": 0.7681097984313965,
      "learning_rate": 0.00010298225891763737,
      "loss": 3.6683,
      "step": 289510
    },
    {
      "epoch": 0.6031666666666666,
      "grad_norm": 0.7875149846076965,
      "learning_rate": 0.00010297289729481683,
      "loss": 3.5455,
      "step": 289520
    },
    {
      "epoch": 0.6031875,
      "grad_norm": 0.8980077505111694,
      "learning_rate": 0.00010296353587513472,
      "loss": 3.8939,
      "step": 289530
    },
    {
      "epoch": 0.6032083333333333,
      "grad_norm": 0.8281174302101135,
      "learning_rate": 0.00010295417465863156,
      "loss": 3.8131,
      "step": 289540
    },
    {
      "epoch": 0.6032291666666667,
      "grad_norm": 0.7644981145858765,
      "learning_rate": 0.00010294481364534775,
      "loss": 3.8496,
      "step": 289550
    },
    {
      "epoch": 0.60325,
      "grad_norm": 1.022280216217041,
      "learning_rate": 0.00010293545283532367,
      "loss": 3.7261,
      "step": 289560
    },
    {
      "epoch": 0.6032708333333333,
      "grad_norm": 0.7319244146347046,
      "learning_rate": 0.00010292609222859982,
      "loss": 3.7532,
      "step": 289570
    },
    {
      "epoch": 0.6032916666666667,
      "grad_norm": 0.7852628231048584,
      "learning_rate": 0.00010291673182521667,
      "loss": 3.8941,
      "step": 289580
    },
    {
      "epoch": 0.6033125,
      "grad_norm": 0.9640373587608337,
      "learning_rate": 0.00010290737162521452,
      "loss": 3.6653,
      "step": 289590
    },
    {
      "epoch": 0.6033333333333334,
      "grad_norm": 0.8961464762687683,
      "learning_rate": 0.00010289801162863393,
      "loss": 3.8462,
      "step": 289600
    },
    {
      "epoch": 0.6033541666666666,
      "grad_norm": 0.9089875221252441,
      "learning_rate": 0.0001028886518355153,
      "loss": 3.6112,
      "step": 289610
    },
    {
      "epoch": 0.603375,
      "grad_norm": 0.8499845266342163,
      "learning_rate": 0.000102879292245899,
      "loss": 3.7266,
      "step": 289620
    },
    {
      "epoch": 0.6033958333333334,
      "grad_norm": 0.7329803109169006,
      "learning_rate": 0.00010286993285982557,
      "loss": 3.7672,
      "step": 289630
    },
    {
      "epoch": 0.6034166666666667,
      "grad_norm": 0.8373688459396362,
      "learning_rate": 0.00010286057367733533,
      "loss": 3.8104,
      "step": 289640
    },
    {
      "epoch": 0.6034375,
      "grad_norm": 0.946666955947876,
      "learning_rate": 0.00010285121469846873,
      "loss": 3.907,
      "step": 289650
    },
    {
      "epoch": 0.6034583333333333,
      "grad_norm": 0.8007330298423767,
      "learning_rate": 0.00010284185592326629,
      "loss": 3.8256,
      "step": 289660
    },
    {
      "epoch": 0.6034791666666667,
      "grad_norm": 0.8332236409187317,
      "learning_rate": 0.00010283249735176832,
      "loss": 3.7682,
      "step": 289670
    },
    {
      "epoch": 0.6035,
      "grad_norm": 0.8808955550193787,
      "learning_rate": 0.00010282313898401527,
      "loss": 3.8743,
      "step": 289680
    },
    {
      "epoch": 0.6035208333333333,
      "grad_norm": 0.9079034328460693,
      "learning_rate": 0.00010281378082004764,
      "loss": 3.9696,
      "step": 289690
    },
    {
      "epoch": 0.6035416666666666,
      "grad_norm": 0.7821794748306274,
      "learning_rate": 0.00010280442285990578,
      "loss": 3.7945,
      "step": 289700
    },
    {
      "epoch": 0.6035625,
      "grad_norm": 0.9370877742767334,
      "learning_rate": 0.00010279506510363008,
      "loss": 3.8333,
      "step": 289710
    },
    {
      "epoch": 0.6035833333333334,
      "grad_norm": 0.80681973695755,
      "learning_rate": 0.00010278570755126107,
      "loss": 3.7645,
      "step": 289720
    },
    {
      "epoch": 0.6036041666666667,
      "grad_norm": 0.9692926406860352,
      "learning_rate": 0.00010277635020283915,
      "loss": 3.8133,
      "step": 289730
    },
    {
      "epoch": 0.603625,
      "grad_norm": 0.9623268246650696,
      "learning_rate": 0.00010276699305840464,
      "loss": 3.8235,
      "step": 289740
    },
    {
      "epoch": 0.6036458333333333,
      "grad_norm": 0.8138838410377502,
      "learning_rate": 0.00010275763611799802,
      "loss": 3.7443,
      "step": 289750
    },
    {
      "epoch": 0.6036666666666667,
      "grad_norm": 0.811264157295227,
      "learning_rate": 0.00010274827938165976,
      "loss": 3.9025,
      "step": 289760
    },
    {
      "epoch": 0.6036875,
      "grad_norm": 0.7894351482391357,
      "learning_rate": 0.0001027389228494302,
      "loss": 3.6997,
      "step": 289770
    },
    {
      "epoch": 0.6037083333333333,
      "grad_norm": 0.8535146713256836,
      "learning_rate": 0.00010272956652134975,
      "loss": 3.7937,
      "step": 289780
    },
    {
      "epoch": 0.6037291666666667,
      "grad_norm": 1.1457768678665161,
      "learning_rate": 0.00010272021039745896,
      "loss": 3.7722,
      "step": 289790
    },
    {
      "epoch": 0.60375,
      "grad_norm": 0.680849552154541,
      "learning_rate": 0.00010271085447779807,
      "loss": 3.7874,
      "step": 289800
    },
    {
      "epoch": 0.6037708333333334,
      "grad_norm": 0.9159944653511047,
      "learning_rate": 0.00010270149876240755,
      "loss": 3.9231,
      "step": 289810
    },
    {
      "epoch": 0.6037916666666666,
      "grad_norm": 0.8217567801475525,
      "learning_rate": 0.00010269214325132791,
      "loss": 3.7339,
      "step": 289820
    },
    {
      "epoch": 0.6038125,
      "grad_norm": 0.9120956659317017,
      "learning_rate": 0.00010268278794459945,
      "loss": 3.7381,
      "step": 289830
    },
    {
      "epoch": 0.6038333333333333,
      "grad_norm": 0.7818111777305603,
      "learning_rate": 0.00010267343284226257,
      "loss": 3.7289,
      "step": 289840
    },
    {
      "epoch": 0.6038541666666667,
      "grad_norm": 0.7780625224113464,
      "learning_rate": 0.0001026640779443578,
      "loss": 3.6565,
      "step": 289850
    },
    {
      "epoch": 0.603875,
      "grad_norm": 0.7816179990768433,
      "learning_rate": 0.00010265472325092548,
      "loss": 3.9479,
      "step": 289860
    },
    {
      "epoch": 0.6038958333333333,
      "grad_norm": 0.83247971534729,
      "learning_rate": 0.00010264536876200595,
      "loss": 3.7507,
      "step": 289870
    },
    {
      "epoch": 0.6039166666666667,
      "grad_norm": 0.8235746026039124,
      "learning_rate": 0.0001026360144776397,
      "loss": 3.7395,
      "step": 289880
    },
    {
      "epoch": 0.6039375,
      "grad_norm": 0.8270888328552246,
      "learning_rate": 0.00010262666039786717,
      "loss": 3.8466,
      "step": 289890
    },
    {
      "epoch": 0.6039583333333334,
      "grad_norm": 0.8399445414543152,
      "learning_rate": 0.00010261730652272866,
      "loss": 3.9294,
      "step": 289900
    },
    {
      "epoch": 0.6039791666666666,
      "grad_norm": 0.8461104035377502,
      "learning_rate": 0.00010260795285226464,
      "loss": 3.5135,
      "step": 289910
    },
    {
      "epoch": 0.604,
      "grad_norm": 0.7865018844604492,
      "learning_rate": 0.00010259859938651554,
      "loss": 3.805,
      "step": 289920
    },
    {
      "epoch": 0.6040208333333333,
      "grad_norm": 1.0399373769760132,
      "learning_rate": 0.00010258924612552167,
      "loss": 3.6881,
      "step": 289930
    },
    {
      "epoch": 0.6040416666666667,
      "grad_norm": 0.8433408737182617,
      "learning_rate": 0.00010257989306932353,
      "loss": 3.7265,
      "step": 289940
    },
    {
      "epoch": 0.6040625,
      "grad_norm": 0.8548460602760315,
      "learning_rate": 0.00010257054021796149,
      "loss": 3.7592,
      "step": 289950
    },
    {
      "epoch": 0.6040833333333333,
      "grad_norm": 0.7276974320411682,
      "learning_rate": 0.0001025611875714759,
      "loss": 3.8579,
      "step": 289960
    },
    {
      "epoch": 0.6041041666666667,
      "grad_norm": 0.8718032240867615,
      "learning_rate": 0.00010255183512990722,
      "loss": 3.7821,
      "step": 289970
    },
    {
      "epoch": 0.604125,
      "grad_norm": 0.793857216835022,
      "learning_rate": 0.00010254248289329589,
      "loss": 3.765,
      "step": 289980
    },
    {
      "epoch": 0.6041458333333334,
      "grad_norm": 1.03546142578125,
      "learning_rate": 0.00010253313086168216,
      "loss": 3.8794,
      "step": 289990
    },
    {
      "epoch": 0.6041666666666666,
      "grad_norm": 0.7247728705406189,
      "learning_rate": 0.00010252377903510657,
      "loss": 3.9178,
      "step": 290000
    },
    {
      "epoch": 0.6041666666666666,
      "eval_loss": 4.079751491546631,
      "eval_runtime": 7.9469,
      "eval_samples_per_second": 1.258,
      "eval_steps_per_second": 0.378,
      "step": 290000
    },
    {
      "epoch": 0.6041875,
      "grad_norm": 0.77791827917099,
      "learning_rate": 0.00010251442741360946,
      "loss": 3.7213,
      "step": 290010
    },
    {
      "epoch": 0.6042083333333333,
      "grad_norm": 0.9646579027175903,
      "learning_rate": 0.00010250507599723124,
      "loss": 3.818,
      "step": 290020
    },
    {
      "epoch": 0.6042291666666667,
      "grad_norm": 0.788529098033905,
      "learning_rate": 0.00010249572478601224,
      "loss": 3.6682,
      "step": 290030
    },
    {
      "epoch": 0.60425,
      "grad_norm": 0.9165420532226562,
      "learning_rate": 0.00010248637377999293,
      "loss": 3.8583,
      "step": 290040
    },
    {
      "epoch": 0.6042708333333333,
      "grad_norm": 0.7554135322570801,
      "learning_rate": 0.0001024770229792137,
      "loss": 3.9202,
      "step": 290050
    },
    {
      "epoch": 0.6042916666666667,
      "grad_norm": 0.8315942883491516,
      "learning_rate": 0.00010246767238371485,
      "loss": 3.9124,
      "step": 290060
    },
    {
      "epoch": 0.6043125,
      "grad_norm": 0.7304964661598206,
      "learning_rate": 0.0001024583219935369,
      "loss": 3.7005,
      "step": 290070
    },
    {
      "epoch": 0.6043333333333333,
      "grad_norm": 0.8823599815368652,
      "learning_rate": 0.0001024489718087202,
      "loss": 3.7704,
      "step": 290080
    },
    {
      "epoch": 0.6043541666666666,
      "grad_norm": 0.8162366151809692,
      "learning_rate": 0.00010243962182930506,
      "loss": 3.6563,
      "step": 290090
    },
    {
      "epoch": 0.604375,
      "grad_norm": 0.8924098014831543,
      "learning_rate": 0.00010243027205533196,
      "loss": 3.682,
      "step": 290100
    },
    {
      "epoch": 0.6043958333333334,
      "grad_norm": 0.7862005233764648,
      "learning_rate": 0.00010242092248684128,
      "loss": 3.6217,
      "step": 290110
    },
    {
      "epoch": 0.6044166666666667,
      "grad_norm": 0.748084545135498,
      "learning_rate": 0.00010241157312387332,
      "loss": 3.8628,
      "step": 290120
    },
    {
      "epoch": 0.6044375,
      "grad_norm": 0.7433131337165833,
      "learning_rate": 0.0001024022239664686,
      "loss": 3.9205,
      "step": 290130
    },
    {
      "epoch": 0.6044583333333333,
      "grad_norm": 0.7961979508399963,
      "learning_rate": 0.00010239287501466738,
      "loss": 3.7586,
      "step": 290140
    },
    {
      "epoch": 0.6044791666666667,
      "grad_norm": 0.7824592590332031,
      "learning_rate": 0.00010238352626851008,
      "loss": 3.7526,
      "step": 290150
    },
    {
      "epoch": 0.6045,
      "grad_norm": 1.1932369470596313,
      "learning_rate": 0.00010237417772803715,
      "loss": 3.8014,
      "step": 290160
    },
    {
      "epoch": 0.6045208333333333,
      "grad_norm": 0.9030966758728027,
      "learning_rate": 0.00010236482939328892,
      "loss": 3.995,
      "step": 290170
    },
    {
      "epoch": 0.6045416666666666,
      "grad_norm": 0.8460291028022766,
      "learning_rate": 0.00010235548126430572,
      "loss": 3.8934,
      "step": 290180
    },
    {
      "epoch": 0.6045625,
      "grad_norm": 0.8465469479560852,
      "learning_rate": 0.00010234613334112803,
      "loss": 3.6444,
      "step": 290190
    },
    {
      "epoch": 0.6045833333333334,
      "grad_norm": 0.8016942739486694,
      "learning_rate": 0.00010233678562379617,
      "loss": 3.9897,
      "step": 290200
    },
    {
      "epoch": 0.6046041666666667,
      "grad_norm": 0.8502763509750366,
      "learning_rate": 0.00010232743811235049,
      "loss": 3.7089,
      "step": 290210
    },
    {
      "epoch": 0.604625,
      "grad_norm": 1.431036114692688,
      "learning_rate": 0.00010231809080683146,
      "loss": 3.659,
      "step": 290220
    },
    {
      "epoch": 0.6046458333333333,
      "grad_norm": 0.8587365746498108,
      "learning_rate": 0.00010230874370727943,
      "loss": 3.7407,
      "step": 290230
    },
    {
      "epoch": 0.6046666666666667,
      "grad_norm": 0.8384844660758972,
      "learning_rate": 0.00010229939681373467,
      "loss": 3.7807,
      "step": 290240
    },
    {
      "epoch": 0.6046875,
      "grad_norm": 0.764602541923523,
      "learning_rate": 0.00010229005012623766,
      "loss": 3.9764,
      "step": 290250
    },
    {
      "epoch": 0.6047083333333333,
      "grad_norm": 0.9725072383880615,
      "learning_rate": 0.00010228070364482878,
      "loss": 3.86,
      "step": 290260
    },
    {
      "epoch": 0.6047291666666667,
      "grad_norm": 1.1061592102050781,
      "learning_rate": 0.00010227135736954831,
      "loss": 3.752,
      "step": 290270
    },
    {
      "epoch": 0.60475,
      "grad_norm": 0.9431971907615662,
      "learning_rate": 0.00010226201130043673,
      "loss": 3.734,
      "step": 290280
    },
    {
      "epoch": 0.6047708333333334,
      "grad_norm": 0.7364974021911621,
      "learning_rate": 0.00010225266543753439,
      "loss": 3.7228,
      "step": 290290
    },
    {
      "epoch": 0.6047916666666666,
      "grad_norm": 0.8486171960830688,
      "learning_rate": 0.00010224331978088159,
      "loss": 3.7069,
      "step": 290300
    },
    {
      "epoch": 0.6048125,
      "grad_norm": 0.7965936660766602,
      "learning_rate": 0.00010223397433051874,
      "loss": 3.8755,
      "step": 290310
    },
    {
      "epoch": 0.6048333333333333,
      "grad_norm": 0.7608980536460876,
      "learning_rate": 0.00010222462908648628,
      "loss": 3.7175,
      "step": 290320
    },
    {
      "epoch": 0.6048541666666667,
      "grad_norm": 1.0277373790740967,
      "learning_rate": 0.00010221528404882446,
      "loss": 3.9322,
      "step": 290330
    },
    {
      "epoch": 0.604875,
      "grad_norm": 0.7805495858192444,
      "learning_rate": 0.00010220593921757366,
      "loss": 3.8499,
      "step": 290340
    },
    {
      "epoch": 0.6048958333333333,
      "grad_norm": 0.7634713649749756,
      "learning_rate": 0.00010219659459277434,
      "loss": 3.7372,
      "step": 290350
    },
    {
      "epoch": 0.6049166666666667,
      "grad_norm": 0.7711268663406372,
      "learning_rate": 0.00010218725017446685,
      "loss": 3.8383,
      "step": 290360
    },
    {
      "epoch": 0.6049375,
      "grad_norm": 1.2038280963897705,
      "learning_rate": 0.00010217790596269143,
      "loss": 3.652,
      "step": 290370
    },
    {
      "epoch": 0.6049583333333334,
      "grad_norm": 0.8298643231391907,
      "learning_rate": 0.00010216856195748856,
      "loss": 3.614,
      "step": 290380
    },
    {
      "epoch": 0.6049791666666666,
      "grad_norm": 0.7817586064338684,
      "learning_rate": 0.00010215921815889859,
      "loss": 3.6013,
      "step": 290390
    },
    {
      "epoch": 0.605,
      "grad_norm": 0.7679852843284607,
      "learning_rate": 0.0001021498745669618,
      "loss": 3.9609,
      "step": 290400
    },
    {
      "epoch": 0.6050208333333333,
      "grad_norm": 0.8202371001243591,
      "learning_rate": 0.00010214053118171864,
      "loss": 3.832,
      "step": 290410
    },
    {
      "epoch": 0.6050416666666667,
      "grad_norm": 0.7864697575569153,
      "learning_rate": 0.00010213118800320949,
      "loss": 3.6145,
      "step": 290420
    },
    {
      "epoch": 0.6050625,
      "grad_norm": 0.8379036784172058,
      "learning_rate": 0.00010212184503147458,
      "loss": 3.6556,
      "step": 290430
    },
    {
      "epoch": 0.6050833333333333,
      "grad_norm": 0.8017393350601196,
      "learning_rate": 0.0001021125022665544,
      "loss": 3.6866,
      "step": 290440
    },
    {
      "epoch": 0.6051041666666667,
      "grad_norm": 0.8618094325065613,
      "learning_rate": 0.00010210315970848925,
      "loss": 3.7139,
      "step": 290450
    },
    {
      "epoch": 0.605125,
      "grad_norm": 0.8779866695404053,
      "learning_rate": 0.00010209381735731947,
      "loss": 4.0728,
      "step": 290460
    },
    {
      "epoch": 0.6051458333333334,
      "grad_norm": 0.9124608635902405,
      "learning_rate": 0.00010208447521308544,
      "loss": 3.7135,
      "step": 290470
    },
    {
      "epoch": 0.6051666666666666,
      "grad_norm": 0.8433899283409119,
      "learning_rate": 0.00010207513327582756,
      "loss": 4.03,
      "step": 290480
    },
    {
      "epoch": 0.6051875,
      "grad_norm": 0.9652035236358643,
      "learning_rate": 0.00010206579154558605,
      "loss": 3.6831,
      "step": 290490
    },
    {
      "epoch": 0.6052083333333333,
      "grad_norm": 0.8784377574920654,
      "learning_rate": 0.00010205645002240142,
      "loss": 3.768,
      "step": 290500
    },
    {
      "epoch": 0.6052291666666667,
      "grad_norm": 0.8374748826026917,
      "learning_rate": 0.00010204710870631394,
      "loss": 3.5865,
      "step": 290510
    },
    {
      "epoch": 0.60525,
      "grad_norm": 0.7796828150749207,
      "learning_rate": 0.00010203776759736391,
      "loss": 3.8091,
      "step": 290520
    },
    {
      "epoch": 0.6052708333333333,
      "grad_norm": 0.8002904653549194,
      "learning_rate": 0.00010202842669559183,
      "loss": 3.6872,
      "step": 290530
    },
    {
      "epoch": 0.6052916666666667,
      "grad_norm": 0.909354567527771,
      "learning_rate": 0.0001020190860010379,
      "loss": 3.8563,
      "step": 290540
    },
    {
      "epoch": 0.6053125,
      "grad_norm": 0.860037088394165,
      "learning_rate": 0.00010200974551374247,
      "loss": 3.9064,
      "step": 290550
    },
    {
      "epoch": 0.6053333333333333,
      "grad_norm": 0.8294612169265747,
      "learning_rate": 0.00010200040523374605,
      "loss": 3.9099,
      "step": 290560
    },
    {
      "epoch": 0.6053541666666666,
      "grad_norm": 0.979403555393219,
      "learning_rate": 0.00010199106516108885,
      "loss": 3.7789,
      "step": 290570
    },
    {
      "epoch": 0.605375,
      "grad_norm": 0.8781810402870178,
      "learning_rate": 0.0001019817252958112,
      "loss": 3.6625,
      "step": 290580
    },
    {
      "epoch": 0.6053958333333334,
      "grad_norm": 1.192389965057373,
      "learning_rate": 0.00010197238563795356,
      "loss": 3.7386,
      "step": 290590
    },
    {
      "epoch": 0.6054166666666667,
      "grad_norm": 0.8891709446907043,
      "learning_rate": 0.00010196304618755615,
      "loss": 3.5092,
      "step": 290600
    },
    {
      "epoch": 0.6054375,
      "grad_norm": 1.198026180267334,
      "learning_rate": 0.00010195370694465942,
      "loss": 3.7357,
      "step": 290610
    },
    {
      "epoch": 0.6054583333333333,
      "grad_norm": 0.8773875832557678,
      "learning_rate": 0.00010194436790930359,
      "loss": 3.841,
      "step": 290620
    },
    {
      "epoch": 0.6054791666666667,
      "grad_norm": 0.884212851524353,
      "learning_rate": 0.00010193502908152913,
      "loss": 3.814,
      "step": 290630
    },
    {
      "epoch": 0.6055,
      "grad_norm": 0.7307878732681274,
      "learning_rate": 0.00010192569046137628,
      "loss": 3.8878,
      "step": 290640
    },
    {
      "epoch": 0.6055208333333333,
      "grad_norm": 0.8203430771827698,
      "learning_rate": 0.0001019163520488854,
      "loss": 3.5916,
      "step": 290650
    },
    {
      "epoch": 0.6055416666666666,
      "grad_norm": 0.797380805015564,
      "learning_rate": 0.0001019070138440969,
      "loss": 3.8361,
      "step": 290660
    },
    {
      "epoch": 0.6055625,
      "grad_norm": 0.7650955319404602,
      "learning_rate": 0.00010189767584705103,
      "loss": 3.669,
      "step": 290670
    },
    {
      "epoch": 0.6055833333333334,
      "grad_norm": 1.0194975137710571,
      "learning_rate": 0.00010188833805778814,
      "loss": 3.8117,
      "step": 290680
    },
    {
      "epoch": 0.6056041666666667,
      "grad_norm": 0.7204537987709045,
      "learning_rate": 0.00010187900047634865,
      "loss": 3.7834,
      "step": 290690
    },
    {
      "epoch": 0.605625,
      "grad_norm": 0.8782863616943359,
      "learning_rate": 0.00010186966310277277,
      "loss": 3.5302,
      "step": 290700
    },
    {
      "epoch": 0.6056458333333333,
      "grad_norm": 0.9590573310852051,
      "learning_rate": 0.0001018603259371009,
      "loss": 3.9162,
      "step": 290710
    },
    {
      "epoch": 0.6056666666666667,
      "grad_norm": 0.8681952357292175,
      "learning_rate": 0.0001018509889793734,
      "loss": 3.8934,
      "step": 290720
    },
    {
      "epoch": 0.6056875,
      "grad_norm": 1.133685827255249,
      "learning_rate": 0.00010184165222963058,
      "loss": 3.7573,
      "step": 290730
    },
    {
      "epoch": 0.6057083333333333,
      "grad_norm": 0.9134490489959717,
      "learning_rate": 0.00010183231568791271,
      "loss": 3.8104,
      "step": 290740
    },
    {
      "epoch": 0.6057291666666667,
      "grad_norm": 0.9912922382354736,
      "learning_rate": 0.0001018229793542602,
      "loss": 3.7933,
      "step": 290750
    },
    {
      "epoch": 0.60575,
      "grad_norm": 0.7972820401191711,
      "learning_rate": 0.00010181364322871334,
      "loss": 3.798,
      "step": 290760
    },
    {
      "epoch": 0.6057708333333334,
      "grad_norm": 0.9461498260498047,
      "learning_rate": 0.00010180430731131245,
      "loss": 3.6958,
      "step": 290770
    },
    {
      "epoch": 0.6057916666666666,
      "grad_norm": 0.8100544810295105,
      "learning_rate": 0.00010179497160209791,
      "loss": 3.7268,
      "step": 290780
    },
    {
      "epoch": 0.6058125,
      "grad_norm": 0.796842098236084,
      "learning_rate": 0.00010178563610111002,
      "loss": 3.8637,
      "step": 290790
    },
    {
      "epoch": 0.6058333333333333,
      "grad_norm": 0.7932485342025757,
      "learning_rate": 0.00010177630080838904,
      "loss": 3.8307,
      "step": 290800
    },
    {
      "epoch": 0.6058541666666667,
      "grad_norm": 0.7961597442626953,
      "learning_rate": 0.00010176696572397538,
      "loss": 3.8155,
      "step": 290810
    },
    {
      "epoch": 0.605875,
      "grad_norm": 0.8808767199516296,
      "learning_rate": 0.00010175763084790936,
      "loss": 3.6839,
      "step": 290820
    },
    {
      "epoch": 0.6058958333333333,
      "grad_norm": 0.8475745916366577,
      "learning_rate": 0.00010174829618023124,
      "loss": 3.8818,
      "step": 290830
    },
    {
      "epoch": 0.6059166666666667,
      "grad_norm": 0.875079333782196,
      "learning_rate": 0.00010173896172098141,
      "loss": 3.7569,
      "step": 290840
    },
    {
      "epoch": 0.6059375,
      "grad_norm": 0.8614256381988525,
      "learning_rate": 0.00010172962747020018,
      "loss": 3.7541,
      "step": 290850
    },
    {
      "epoch": 0.6059583333333334,
      "grad_norm": 0.8583967089653015,
      "learning_rate": 0.0001017202934279278,
      "loss": 3.6388,
      "step": 290860
    },
    {
      "epoch": 0.6059791666666666,
      "grad_norm": 0.8412079215049744,
      "learning_rate": 0.00010171095959420469,
      "loss": 3.7764,
      "step": 290870
    },
    {
      "epoch": 0.606,
      "grad_norm": 0.771507978439331,
      "learning_rate": 0.0001017016259690711,
      "loss": 3.7225,
      "step": 290880
    },
    {
      "epoch": 0.6060208333333333,
      "grad_norm": 0.7680283784866333,
      "learning_rate": 0.0001016922925525674,
      "loss": 3.8949,
      "step": 290890
    },
    {
      "epoch": 0.6060416666666667,
      "grad_norm": 0.8716824054718018,
      "learning_rate": 0.00010168295934473381,
      "loss": 3.7743,
      "step": 290900
    },
    {
      "epoch": 0.6060625,
      "grad_norm": 0.771527111530304,
      "learning_rate": 0.00010167362634561075,
      "loss": 3.6402,
      "step": 290910
    },
    {
      "epoch": 0.6060833333333333,
      "grad_norm": 0.8388252258300781,
      "learning_rate": 0.00010166429355523852,
      "loss": 3.798,
      "step": 290920
    },
    {
      "epoch": 0.6061041666666667,
      "grad_norm": 0.8034449815750122,
      "learning_rate": 0.00010165496097365732,
      "loss": 3.7312,
      "step": 290930
    },
    {
      "epoch": 0.606125,
      "grad_norm": 0.8830364346504211,
      "learning_rate": 0.00010164562860090762,
      "loss": 3.9391,
      "step": 290940
    },
    {
      "epoch": 0.6061458333333334,
      "grad_norm": 0.7882313132286072,
      "learning_rate": 0.00010163629643702968,
      "loss": 3.7135,
      "step": 290950
    },
    {
      "epoch": 0.6061666666666666,
      "grad_norm": 0.744135320186615,
      "learning_rate": 0.00010162696448206375,
      "loss": 3.9498,
      "step": 290960
    },
    {
      "epoch": 0.6061875,
      "grad_norm": 0.8396154642105103,
      "learning_rate": 0.00010161763273605019,
      "loss": 3.8367,
      "step": 290970
    },
    {
      "epoch": 0.6062083333333333,
      "grad_norm": 0.8516814708709717,
      "learning_rate": 0.00010160830119902936,
      "loss": 3.8494,
      "step": 290980
    },
    {
      "epoch": 0.6062291666666667,
      "grad_norm": 0.8568600416183472,
      "learning_rate": 0.00010159896987104144,
      "loss": 3.7541,
      "step": 290990
    },
    {
      "epoch": 0.60625,
      "grad_norm": 0.8484349846839905,
      "learning_rate": 0.00010158963875212688,
      "loss": 3.8347,
      "step": 291000
    },
    {
      "epoch": 0.60625,
      "eval_loss": 4.09091854095459,
      "eval_runtime": 8.8535,
      "eval_samples_per_second": 1.13,
      "eval_steps_per_second": 0.339,
      "step": 291000
    },
    {
      "epoch": 0.6062708333333333,
      "grad_norm": 0.7787948250770569,
      "learning_rate": 0.00010158030784232589,
      "loss": 3.7768,
      "step": 291010
    },
    {
      "epoch": 0.6062916666666667,
      "grad_norm": 0.7469545006752014,
      "learning_rate": 0.00010157097714167876,
      "loss": 3.8422,
      "step": 291020
    },
    {
      "epoch": 0.6063125,
      "grad_norm": 0.8288912773132324,
      "learning_rate": 0.0001015616466502259,
      "loss": 3.8451,
      "step": 291030
    },
    {
      "epoch": 0.6063333333333333,
      "grad_norm": 0.9951646327972412,
      "learning_rate": 0.00010155231636800754,
      "loss": 3.7959,
      "step": 291040
    },
    {
      "epoch": 0.6063541666666666,
      "grad_norm": 0.7430817484855652,
      "learning_rate": 0.00010154298629506397,
      "loss": 3.9792,
      "step": 291050
    },
    {
      "epoch": 0.606375,
      "grad_norm": 0.7550567388534546,
      "learning_rate": 0.00010153365643143557,
      "loss": 3.9046,
      "step": 291060
    },
    {
      "epoch": 0.6063958333333334,
      "grad_norm": 0.9514368176460266,
      "learning_rate": 0.00010152432677716254,
      "loss": 3.7898,
      "step": 291070
    },
    {
      "epoch": 0.6064166666666667,
      "grad_norm": 0.754598081111908,
      "learning_rate": 0.00010151499733228522,
      "loss": 3.8375,
      "step": 291080
    },
    {
      "epoch": 0.6064375,
      "grad_norm": 0.8522886037826538,
      "learning_rate": 0.00010150566809684399,
      "loss": 3.7234,
      "step": 291090
    },
    {
      "epoch": 0.6064583333333333,
      "grad_norm": 0.7702893614768982,
      "learning_rate": 0.00010149633907087902,
      "loss": 3.7812,
      "step": 291100
    },
    {
      "epoch": 0.6064791666666667,
      "grad_norm": 0.8478049039840698,
      "learning_rate": 0.00010148701025443066,
      "loss": 3.7645,
      "step": 291110
    },
    {
      "epoch": 0.6065,
      "grad_norm": 0.8447532653808594,
      "learning_rate": 0.00010147768164753925,
      "loss": 3.8584,
      "step": 291120
    },
    {
      "epoch": 0.6065208333333333,
      "grad_norm": 0.8761350512504578,
      "learning_rate": 0.00010146835325024507,
      "loss": 3.8545,
      "step": 291130
    },
    {
      "epoch": 0.6065416666666666,
      "grad_norm": 0.7574831247329712,
      "learning_rate": 0.00010145902506258832,
      "loss": 3.9495,
      "step": 291140
    },
    {
      "epoch": 0.6065625,
      "grad_norm": 1.0055323839187622,
      "learning_rate": 0.0001014496970846094,
      "loss": 3.8338,
      "step": 291150
    },
    {
      "epoch": 0.6065833333333334,
      "grad_norm": 0.9666800498962402,
      "learning_rate": 0.00010144036931634861,
      "loss": 3.862,
      "step": 291160
    },
    {
      "epoch": 0.6066041666666667,
      "grad_norm": 0.7489696145057678,
      "learning_rate": 0.00010143104175784613,
      "loss": 3.7999,
      "step": 291170
    },
    {
      "epoch": 0.606625,
      "grad_norm": 0.7640668153762817,
      "learning_rate": 0.00010142171440914236,
      "loss": 3.7164,
      "step": 291180
    },
    {
      "epoch": 0.6066458333333333,
      "grad_norm": 0.8117685914039612,
      "learning_rate": 0.00010141238727027761,
      "loss": 3.6932,
      "step": 291190
    },
    {
      "epoch": 0.6066666666666667,
      "grad_norm": 0.8580778241157532,
      "learning_rate": 0.00010140306034129207,
      "loss": 3.7574,
      "step": 291200
    },
    {
      "epoch": 0.6066875,
      "grad_norm": 0.7524095177650452,
      "learning_rate": 0.00010139373362222602,
      "loss": 3.6816,
      "step": 291210
    },
    {
      "epoch": 0.6067083333333333,
      "grad_norm": 1.0389882326126099,
      "learning_rate": 0.00010138440711311987,
      "loss": 3.6575,
      "step": 291220
    },
    {
      "epoch": 0.6067291666666667,
      "grad_norm": 0.8406562209129333,
      "learning_rate": 0.00010137508081401387,
      "loss": 3.6927,
      "step": 291230
    },
    {
      "epoch": 0.60675,
      "grad_norm": 1.0048874616622925,
      "learning_rate": 0.00010136575472494818,
      "loss": 3.9492,
      "step": 291240
    },
    {
      "epoch": 0.6067708333333334,
      "grad_norm": 0.7841412425041199,
      "learning_rate": 0.0001013564288459632,
      "loss": 3.8032,
      "step": 291250
    },
    {
      "epoch": 0.6067916666666666,
      "grad_norm": 0.9167222380638123,
      "learning_rate": 0.00010134710317709926,
      "loss": 3.6912,
      "step": 291260
    },
    {
      "epoch": 0.6068125,
      "grad_norm": 0.8130645751953125,
      "learning_rate": 0.00010133777771839649,
      "loss": 3.7416,
      "step": 291270
    },
    {
      "epoch": 0.6068333333333333,
      "grad_norm": 0.8441600203514099,
      "learning_rate": 0.0001013284524698953,
      "loss": 3.5767,
      "step": 291280
    },
    {
      "epoch": 0.6068541666666667,
      "grad_norm": 0.9333775043487549,
      "learning_rate": 0.00010131912743163596,
      "loss": 3.9185,
      "step": 291290
    },
    {
      "epoch": 0.606875,
      "grad_norm": 0.798021137714386,
      "learning_rate": 0.00010130980260365865,
      "loss": 3.8139,
      "step": 291300
    },
    {
      "epoch": 0.6068958333333333,
      "grad_norm": 0.8661494255065918,
      "learning_rate": 0.00010130047798600373,
      "loss": 3.7765,
      "step": 291310
    },
    {
      "epoch": 0.6069166666666667,
      "grad_norm": 0.8338358998298645,
      "learning_rate": 0.00010129115357871155,
      "loss": 3.7689,
      "step": 291320
    },
    {
      "epoch": 0.6069375,
      "grad_norm": 0.8227535486221313,
      "learning_rate": 0.00010128182938182222,
      "loss": 3.7275,
      "step": 291330
    },
    {
      "epoch": 0.6069583333333334,
      "grad_norm": 0.8395747542381287,
      "learning_rate": 0.00010127250539537612,
      "loss": 3.8281,
      "step": 291340
    },
    {
      "epoch": 0.6069791666666666,
      "grad_norm": 0.8617942929267883,
      "learning_rate": 0.00010126318161941356,
      "loss": 3.827,
      "step": 291350
    },
    {
      "epoch": 0.607,
      "grad_norm": 0.9356260895729065,
      "learning_rate": 0.00010125385805397469,
      "loss": 3.5596,
      "step": 291360
    },
    {
      "epoch": 0.6070208333333333,
      "grad_norm": 0.907913863658905,
      "learning_rate": 0.00010124453469909992,
      "loss": 3.7734,
      "step": 291370
    },
    {
      "epoch": 0.6070416666666667,
      "grad_norm": 0.8527598977088928,
      "learning_rate": 0.00010123521155482946,
      "loss": 3.7099,
      "step": 291380
    },
    {
      "epoch": 0.6070625,
      "grad_norm": 0.8408729434013367,
      "learning_rate": 0.00010122588862120352,
      "loss": 3.8488,
      "step": 291390
    },
    {
      "epoch": 0.6070833333333333,
      "grad_norm": 0.9098384976387024,
      "learning_rate": 0.0001012165658982625,
      "loss": 3.8114,
      "step": 291400
    },
    {
      "epoch": 0.6071041666666667,
      "grad_norm": 0.8060368299484253,
      "learning_rate": 0.00010120724338604657,
      "loss": 3.6325,
      "step": 291410
    },
    {
      "epoch": 0.607125,
      "grad_norm": 0.88799649477005,
      "learning_rate": 0.000101197921084596,
      "loss": 3.7774,
      "step": 291420
    },
    {
      "epoch": 0.6071458333333334,
      "grad_norm": 0.837537407875061,
      "learning_rate": 0.0001011885989939512,
      "loss": 3.9303,
      "step": 291430
    },
    {
      "epoch": 0.6071666666666666,
      "grad_norm": 0.851564347743988,
      "learning_rate": 0.00010117927711415225,
      "loss": 3.7883,
      "step": 291440
    },
    {
      "epoch": 0.6071875,
      "grad_norm": 0.8982861042022705,
      "learning_rate": 0.00010116995544523949,
      "loss": 3.7812,
      "step": 291450
    },
    {
      "epoch": 0.6072083333333333,
      "grad_norm": 0.7986809611320496,
      "learning_rate": 0.00010116063398725327,
      "loss": 3.9676,
      "step": 291460
    },
    {
      "epoch": 0.6072291666666667,
      "grad_norm": 0.7327333092689514,
      "learning_rate": 0.00010115131274023373,
      "loss": 3.9708,
      "step": 291470
    },
    {
      "epoch": 0.60725,
      "grad_norm": 0.9185476899147034,
      "learning_rate": 0.00010114199170422121,
      "loss": 3.6817,
      "step": 291480
    },
    {
      "epoch": 0.6072708333333333,
      "grad_norm": 0.8517040014266968,
      "learning_rate": 0.00010113267087925588,
      "loss": 3.7335,
      "step": 291490
    },
    {
      "epoch": 0.6072916666666667,
      "grad_norm": 0.8818946480751038,
      "learning_rate": 0.00010112335026537814,
      "loss": 3.8016,
      "step": 291500
    },
    {
      "epoch": 0.6073125,
      "grad_norm": 0.9960705637931824,
      "learning_rate": 0.00010111402986262817,
      "loss": 3.7924,
      "step": 291510
    },
    {
      "epoch": 0.6073333333333333,
      "grad_norm": 0.7278701066970825,
      "learning_rate": 0.00010110470967104617,
      "loss": 3.7117,
      "step": 291520
    },
    {
      "epoch": 0.6073541666666666,
      "grad_norm": 0.7639452219009399,
      "learning_rate": 0.00010109538969067256,
      "loss": 3.9698,
      "step": 291530
    },
    {
      "epoch": 0.607375,
      "grad_norm": 0.9615887999534607,
      "learning_rate": 0.00010108606992154748,
      "loss": 3.9768,
      "step": 291540
    },
    {
      "epoch": 0.6073958333333334,
      "grad_norm": 0.8918329477310181,
      "learning_rate": 0.00010107675036371115,
      "loss": 3.8633,
      "step": 291550
    },
    {
      "epoch": 0.6074166666666667,
      "grad_norm": 0.8728626370429993,
      "learning_rate": 0.000101067431017204,
      "loss": 3.5095,
      "step": 291560
    },
    {
      "epoch": 0.6074375,
      "grad_norm": 1.0200284719467163,
      "learning_rate": 0.00010105811188206612,
      "loss": 3.7543,
      "step": 291570
    },
    {
      "epoch": 0.6074583333333333,
      "grad_norm": 1.0122276544570923,
      "learning_rate": 0.0001010487929583378,
      "loss": 3.7331,
      "step": 291580
    },
    {
      "epoch": 0.6074791666666667,
      "grad_norm": 0.9802846908569336,
      "learning_rate": 0.00010103947424605938,
      "loss": 3.8339,
      "step": 291590
    },
    {
      "epoch": 0.6075,
      "grad_norm": 0.9323431849479675,
      "learning_rate": 0.00010103015574527106,
      "loss": 3.8429,
      "step": 291600
    },
    {
      "epoch": 0.6075208333333333,
      "grad_norm": 0.9176202416419983,
      "learning_rate": 0.00010102083745601299,
      "loss": 3.7484,
      "step": 291610
    },
    {
      "epoch": 0.6075416666666666,
      "grad_norm": 0.8361853957176208,
      "learning_rate": 0.0001010115193783256,
      "loss": 3.5991,
      "step": 291620
    },
    {
      "epoch": 0.6075625,
      "grad_norm": 0.9021012187004089,
      "learning_rate": 0.00010100220151224906,
      "loss": 3.6809,
      "step": 291630
    },
    {
      "epoch": 0.6075833333333334,
      "grad_norm": 0.9816566109657288,
      "learning_rate": 0.00010099288385782353,
      "loss": 3.8232,
      "step": 291640
    },
    {
      "epoch": 0.6076041666666666,
      "grad_norm": 0.762874186038971,
      "learning_rate": 0.00010098356641508941,
      "loss": 3.8002,
      "step": 291650
    },
    {
      "epoch": 0.607625,
      "grad_norm": 0.9650925397872925,
      "learning_rate": 0.00010097424918408688,
      "loss": 3.6791,
      "step": 291660
    },
    {
      "epoch": 0.6076458333333333,
      "grad_norm": 0.9629271626472473,
      "learning_rate": 0.00010096493216485616,
      "loss": 3.7907,
      "step": 291670
    },
    {
      "epoch": 0.6076666666666667,
      "grad_norm": 1.0030713081359863,
      "learning_rate": 0.00010095561535743753,
      "loss": 3.8674,
      "step": 291680
    },
    {
      "epoch": 0.6076875,
      "grad_norm": 0.9434208273887634,
      "learning_rate": 0.00010094629876187129,
      "loss": 3.8056,
      "step": 291690
    },
    {
      "epoch": 0.6077083333333333,
      "grad_norm": 0.986422061920166,
      "learning_rate": 0.00010093698237819753,
      "loss": 3.658,
      "step": 291700
    },
    {
      "epoch": 0.6077291666666667,
      "grad_norm": 0.8073773384094238,
      "learning_rate": 0.00010092766620645661,
      "loss": 3.9478,
      "step": 291710
    },
    {
      "epoch": 0.60775,
      "grad_norm": 0.7804270386695862,
      "learning_rate": 0.00010091835024668879,
      "loss": 3.7919,
      "step": 291720
    },
    {
      "epoch": 0.6077708333333334,
      "grad_norm": 0.817798912525177,
      "learning_rate": 0.0001009090344989342,
      "loss": 3.618,
      "step": 291730
    },
    {
      "epoch": 0.6077916666666666,
      "grad_norm": 0.8818069696426392,
      "learning_rate": 0.00010089971896323324,
      "loss": 3.8729,
      "step": 291740
    },
    {
      "epoch": 0.6078125,
      "grad_norm": 1.2396845817565918,
      "learning_rate": 0.000100890403639626,
      "loss": 3.8878,
      "step": 291750
    },
    {
      "epoch": 0.6078333333333333,
      "grad_norm": 1.0904051065444946,
      "learning_rate": 0.00010088108852815276,
      "loss": 3.8746,
      "step": 291760
    },
    {
      "epoch": 0.6078541666666667,
      "grad_norm": 1.9276230335235596,
      "learning_rate": 0.00010087177362885383,
      "loss": 3.8125,
      "step": 291770
    },
    {
      "epoch": 0.607875,
      "grad_norm": 0.8813338875770569,
      "learning_rate": 0.00010086245894176936,
      "loss": 3.9763,
      "step": 291780
    },
    {
      "epoch": 0.6078958333333333,
      "grad_norm": 1.0399888753890991,
      "learning_rate": 0.00010085314446693964,
      "loss": 3.7931,
      "step": 291790
    },
    {
      "epoch": 0.6079166666666667,
      "grad_norm": 0.7497260570526123,
      "learning_rate": 0.00010084383020440485,
      "loss": 3.7551,
      "step": 291800
    },
    {
      "epoch": 0.6079375,
      "grad_norm": 0.832999050617218,
      "learning_rate": 0.00010083451615420526,
      "loss": 3.583,
      "step": 291810
    },
    {
      "epoch": 0.6079583333333334,
      "grad_norm": 0.9969663619995117,
      "learning_rate": 0.00010082520231638115,
      "loss": 3.7979,
      "step": 291820
    },
    {
      "epoch": 0.6079791666666666,
      "grad_norm": 0.8101349472999573,
      "learning_rate": 0.00010081588869097262,
      "loss": 3.5693,
      "step": 291830
    },
    {
      "epoch": 0.608,
      "grad_norm": 0.819317102432251,
      "learning_rate": 0.00010080657527802,
      "loss": 3.8251,
      "step": 291840
    },
    {
      "epoch": 0.6080208333333333,
      "grad_norm": 1.0578924417495728,
      "learning_rate": 0.00010079726207756358,
      "loss": 3.7551,
      "step": 291850
    },
    {
      "epoch": 0.6080416666666667,
      "grad_norm": 0.6890048384666443,
      "learning_rate": 0.0001007879490896434,
      "loss": 3.8714,
      "step": 291860
    },
    {
      "epoch": 0.6080625,
      "grad_norm": 0.8176803588867188,
      "learning_rate": 0.0001007786363142999,
      "loss": 3.9525,
      "step": 291870
    },
    {
      "epoch": 0.6080833333333333,
      "grad_norm": 0.8705455660820007,
      "learning_rate": 0.00010076932375157315,
      "loss": 3.8344,
      "step": 291880
    },
    {
      "epoch": 0.6081041666666667,
      "grad_norm": 0.8671731948852539,
      "learning_rate": 0.00010076001140150343,
      "loss": 3.7521,
      "step": 291890
    },
    {
      "epoch": 0.608125,
      "grad_norm": 0.7514486908912659,
      "learning_rate": 0.00010075069926413102,
      "loss": 3.7753,
      "step": 291900
    },
    {
      "epoch": 0.6081458333333334,
      "grad_norm": 0.8914669752120972,
      "learning_rate": 0.00010074138733949607,
      "loss": 3.7535,
      "step": 291910
    },
    {
      "epoch": 0.6081666666666666,
      "grad_norm": 1.0742195844650269,
      "learning_rate": 0.00010073207562763879,
      "loss": 3.7174,
      "step": 291920
    },
    {
      "epoch": 0.6081875,
      "grad_norm": 0.8851110935211182,
      "learning_rate": 0.0001007227641285995,
      "loss": 3.6346,
      "step": 291930
    },
    {
      "epoch": 0.6082083333333334,
      "grad_norm": 0.8240110874176025,
      "learning_rate": 0.00010071345284241834,
      "loss": 3.6269,
      "step": 291940
    },
    {
      "epoch": 0.6082291666666667,
      "grad_norm": 0.8368943333625793,
      "learning_rate": 0.00010070414176913551,
      "loss": 3.9332,
      "step": 291950
    },
    {
      "epoch": 0.60825,
      "grad_norm": 0.8352355360984802,
      "learning_rate": 0.00010069483090879135,
      "loss": 3.8061,
      "step": 291960
    },
    {
      "epoch": 0.6082708333333333,
      "grad_norm": 0.8527804613113403,
      "learning_rate": 0.00010068552026142598,
      "loss": 3.8393,
      "step": 291970
    },
    {
      "epoch": 0.6082916666666667,
      "grad_norm": 0.8395987153053284,
      "learning_rate": 0.00010067620982707962,
      "loss": 3.7506,
      "step": 291980
    },
    {
      "epoch": 0.6083125,
      "grad_norm": 0.7890907526016235,
      "learning_rate": 0.00010066689960579254,
      "loss": 3.8809,
      "step": 291990
    },
    {
      "epoch": 0.6083333333333333,
      "grad_norm": 0.8234530091285706,
      "learning_rate": 0.00010065758959760495,
      "loss": 3.7539,
      "step": 292000
    },
    {
      "epoch": 0.6083333333333333,
      "eval_loss": 4.0801191329956055,
      "eval_runtime": 9.1483,
      "eval_samples_per_second": 1.093,
      "eval_steps_per_second": 0.328,
      "step": 292000
    },
    {
      "epoch": 0.6083541666666666,
      "grad_norm": 0.8102450370788574,
      "learning_rate": 0.00010064827980255698,
      "loss": 3.7187,
      "step": 292010
    },
    {
      "epoch": 0.608375,
      "grad_norm": 1.0921807289123535,
      "learning_rate": 0.00010063897022068891,
      "loss": 3.7459,
      "step": 292020
    },
    {
      "epoch": 0.6083958333333334,
      "grad_norm": 0.8317762613296509,
      "learning_rate": 0.00010062966085204102,
      "loss": 3.7633,
      "step": 292030
    },
    {
      "epoch": 0.6084166666666667,
      "grad_norm": 0.7403659224510193,
      "learning_rate": 0.00010062035169665336,
      "loss": 3.7623,
      "step": 292040
    },
    {
      "epoch": 0.6084375,
      "grad_norm": 0.8165831565856934,
      "learning_rate": 0.00010061104275456626,
      "loss": 3.8759,
      "step": 292050
    },
    {
      "epoch": 0.6084583333333333,
      "grad_norm": 0.939825177192688,
      "learning_rate": 0.00010060173402581997,
      "loss": 3.7321,
      "step": 292060
    },
    {
      "epoch": 0.6084791666666667,
      "grad_norm": 0.7990128993988037,
      "learning_rate": 0.00010059242551045459,
      "loss": 3.7921,
      "step": 292070
    },
    {
      "epoch": 0.6085,
      "grad_norm": 0.8215133547782898,
      "learning_rate": 0.00010058311720851034,
      "loss": 3.8948,
      "step": 292080
    },
    {
      "epoch": 0.6085208333333333,
      "grad_norm": 0.8058924674987793,
      "learning_rate": 0.00010057380912002754,
      "loss": 3.8863,
      "step": 292090
    },
    {
      "epoch": 0.6085416666666666,
      "grad_norm": 0.8121582269668579,
      "learning_rate": 0.0001005645012450463,
      "loss": 3.8355,
      "step": 292100
    },
    {
      "epoch": 0.6085625,
      "grad_norm": 0.7864306569099426,
      "learning_rate": 0.00010055519358360675,
      "loss": 3.8251,
      "step": 292110
    },
    {
      "epoch": 0.6085833333333334,
      "grad_norm": 0.9274870753288269,
      "learning_rate": 0.0001005458861357493,
      "loss": 3.8349,
      "step": 292120
    },
    {
      "epoch": 0.6086041666666666,
      "grad_norm": 0.7710118889808655,
      "learning_rate": 0.00010053657890151405,
      "loss": 3.8643,
      "step": 292130
    },
    {
      "epoch": 0.608625,
      "grad_norm": 0.7370051145553589,
      "learning_rate": 0.00010052727188094112,
      "loss": 3.9141,
      "step": 292140
    },
    {
      "epoch": 0.6086458333333333,
      "grad_norm": 0.8332331776618958,
      "learning_rate": 0.00010051796507407086,
      "loss": 3.9679,
      "step": 292150
    },
    {
      "epoch": 0.6086666666666667,
      "grad_norm": 0.811978816986084,
      "learning_rate": 0.00010050865848094339,
      "loss": 3.7178,
      "step": 292160
    },
    {
      "epoch": 0.6086875,
      "grad_norm": 0.8609059453010559,
      "learning_rate": 0.00010049935210159888,
      "loss": 3.861,
      "step": 292170
    },
    {
      "epoch": 0.6087083333333333,
      "grad_norm": 0.8705582618713379,
      "learning_rate": 0.00010049004593607762,
      "loss": 3.8015,
      "step": 292180
    },
    {
      "epoch": 0.6087291666666667,
      "grad_norm": 0.87828129529953,
      "learning_rate": 0.0001004807399844198,
      "loss": 3.7092,
      "step": 292190
    },
    {
      "epoch": 0.60875,
      "grad_norm": 0.7396469712257385,
      "learning_rate": 0.00010047143424666549,
      "loss": 3.7147,
      "step": 292200
    },
    {
      "epoch": 0.6087708333333334,
      "grad_norm": 0.7925994396209717,
      "learning_rate": 0.00010046212872285502,
      "loss": 3.7799,
      "step": 292210
    },
    {
      "epoch": 0.6087916666666666,
      "grad_norm": 0.777786135673523,
      "learning_rate": 0.00010045282341302859,
      "loss": 3.8746,
      "step": 292220
    },
    {
      "epoch": 0.6088125,
      "grad_norm": 0.9297609925270081,
      "learning_rate": 0.00010044351831722628,
      "loss": 3.8983,
      "step": 292230
    },
    {
      "epoch": 0.6088333333333333,
      "grad_norm": 0.9177654385566711,
      "learning_rate": 0.00010043421343548842,
      "loss": 3.7578,
      "step": 292240
    },
    {
      "epoch": 0.6088541666666667,
      "grad_norm": 0.847709596157074,
      "learning_rate": 0.0001004249087678551,
      "loss": 3.7858,
      "step": 292250
    },
    {
      "epoch": 0.608875,
      "grad_norm": 0.8921941518783569,
      "learning_rate": 0.00010041560431436653,
      "loss": 3.8913,
      "step": 292260
    },
    {
      "epoch": 0.6088958333333333,
      "grad_norm": 0.8778122067451477,
      "learning_rate": 0.00010040630007506296,
      "loss": 3.7933,
      "step": 292270
    },
    {
      "epoch": 0.6089166666666667,
      "grad_norm": 0.8612541556358337,
      "learning_rate": 0.00010039699604998456,
      "loss": 3.6847,
      "step": 292280
    },
    {
      "epoch": 0.6089375,
      "grad_norm": 0.848414957523346,
      "learning_rate": 0.00010038769223917142,
      "loss": 3.8817,
      "step": 292290
    },
    {
      "epoch": 0.6089583333333334,
      "grad_norm": 0.8202168941497803,
      "learning_rate": 0.0001003783886426639,
      "loss": 3.7857,
      "step": 292300
    },
    {
      "epoch": 0.6089791666666666,
      "grad_norm": 0.8031692504882812,
      "learning_rate": 0.00010036908526050208,
      "loss": 3.5924,
      "step": 292310
    },
    {
      "epoch": 0.609,
      "grad_norm": 1.0985066890716553,
      "learning_rate": 0.0001003597820927261,
      "loss": 3.7685,
      "step": 292320
    },
    {
      "epoch": 0.6090208333333333,
      "grad_norm": 0.8622667193412781,
      "learning_rate": 0.0001003504791393763,
      "loss": 3.8765,
      "step": 292330
    },
    {
      "epoch": 0.6090416666666667,
      "grad_norm": 0.8767608404159546,
      "learning_rate": 0.00010034117640049274,
      "loss": 3.6931,
      "step": 292340
    },
    {
      "epoch": 0.6090625,
      "grad_norm": 0.9474055767059326,
      "learning_rate": 0.00010033187387611562,
      "loss": 4.0382,
      "step": 292350
    },
    {
      "epoch": 0.6090833333333333,
      "grad_norm": 0.7364004254341125,
      "learning_rate": 0.00010032257156628522,
      "loss": 3.8707,
      "step": 292360
    },
    {
      "epoch": 0.6091041666666667,
      "grad_norm": 0.8853234648704529,
      "learning_rate": 0.0001003132694710416,
      "loss": 3.8974,
      "step": 292370
    },
    {
      "epoch": 0.609125,
      "grad_norm": 0.7301451563835144,
      "learning_rate": 0.00010030396759042501,
      "loss": 3.7197,
      "step": 292380
    },
    {
      "epoch": 0.6091458333333334,
      "grad_norm": 0.8812732100486755,
      "learning_rate": 0.00010029466592447553,
      "loss": 3.6521,
      "step": 292390
    },
    {
      "epoch": 0.6091666666666666,
      "grad_norm": 0.7828285694122314,
      "learning_rate": 0.00010028536447323351,
      "loss": 3.8168,
      "step": 292400
    },
    {
      "epoch": 0.6091875,
      "grad_norm": 0.8200979232788086,
      "learning_rate": 0.00010027606323673899,
      "loss": 3.6691,
      "step": 292410
    },
    {
      "epoch": 0.6092083333333334,
      "grad_norm": 1.203576683998108,
      "learning_rate": 0.00010026676221503217,
      "loss": 3.7896,
      "step": 292420
    },
    {
      "epoch": 0.6092291666666667,
      "grad_norm": 0.9547288417816162,
      "learning_rate": 0.00010025746140815334,
      "loss": 3.9517,
      "step": 292430
    },
    {
      "epoch": 0.60925,
      "grad_norm": 0.9066145420074463,
      "learning_rate": 0.00010024816081614253,
      "loss": 3.704,
      "step": 292440
    },
    {
      "epoch": 0.6092708333333333,
      "grad_norm": 0.9179773926734924,
      "learning_rate": 0.00010023886043903994,
      "loss": 3.7994,
      "step": 292450
    },
    {
      "epoch": 0.6092916666666667,
      "grad_norm": 0.8076096773147583,
      "learning_rate": 0.00010022956027688582,
      "loss": 3.7859,
      "step": 292460
    },
    {
      "epoch": 0.6093125,
      "grad_norm": 0.8977216482162476,
      "learning_rate": 0.00010022026032972029,
      "loss": 3.8178,
      "step": 292470
    },
    {
      "epoch": 0.6093333333333333,
      "grad_norm": 0.7948158979415894,
      "learning_rate": 0.00010021096059758352,
      "loss": 3.7769,
      "step": 292480
    },
    {
      "epoch": 0.6093541666666666,
      "grad_norm": 0.8846182227134705,
      "learning_rate": 0.00010020166108051571,
      "loss": 3.8006,
      "step": 292490
    },
    {
      "epoch": 0.609375,
      "grad_norm": 0.8209632039070129,
      "learning_rate": 0.00010019236177855706,
      "loss": 3.7556,
      "step": 292500
    },
    {
      "epoch": 0.6093958333333334,
      "grad_norm": 0.8540794253349304,
      "learning_rate": 0.0001001830626917476,
      "loss": 3.9387,
      "step": 292510
    },
    {
      "epoch": 0.6094166666666667,
      "grad_norm": 0.8474448919296265,
      "learning_rate": 0.00010017376382012762,
      "loss": 3.9039,
      "step": 292520
    },
    {
      "epoch": 0.6094375,
      "grad_norm": 0.7689774036407471,
      "learning_rate": 0.00010016446516373731,
      "loss": 3.6674,
      "step": 292530
    },
    {
      "epoch": 0.6094583333333333,
      "grad_norm": 0.7586365938186646,
      "learning_rate": 0.0001001551667226167,
      "loss": 3.7821,
      "step": 292540
    },
    {
      "epoch": 0.6094791666666667,
      "grad_norm": 0.8611171841621399,
      "learning_rate": 0.00010014586849680609,
      "loss": 3.8761,
      "step": 292550
    },
    {
      "epoch": 0.6095,
      "grad_norm": 0.7631022334098816,
      "learning_rate": 0.00010013657048634561,
      "loss": 3.782,
      "step": 292560
    },
    {
      "epoch": 0.6095208333333333,
      "grad_norm": 0.8103776574134827,
      "learning_rate": 0.00010012727269127536,
      "loss": 3.7141,
      "step": 292570
    },
    {
      "epoch": 0.6095416666666666,
      "grad_norm": 0.8287762403488159,
      "learning_rate": 0.00010011797511163558,
      "loss": 3.9796,
      "step": 292580
    },
    {
      "epoch": 0.6095625,
      "grad_norm": 0.8954394459724426,
      "learning_rate": 0.00010010867774746641,
      "loss": 3.9185,
      "step": 292590
    },
    {
      "epoch": 0.6095833333333334,
      "grad_norm": 0.8469667434692383,
      "learning_rate": 0.00010009938059880795,
      "loss": 4.0529,
      "step": 292600
    },
    {
      "epoch": 0.6096041666666666,
      "grad_norm": 0.8770663738250732,
      "learning_rate": 0.00010009008366570047,
      "loss": 3.8751,
      "step": 292610
    },
    {
      "epoch": 0.609625,
      "grad_norm": 0.7895976305007935,
      "learning_rate": 0.00010008078694818407,
      "loss": 3.7342,
      "step": 292620
    },
    {
      "epoch": 0.6096458333333333,
      "grad_norm": 0.8925125598907471,
      "learning_rate": 0.00010007149044629887,
      "loss": 3.7706,
      "step": 292630
    },
    {
      "epoch": 0.6096666666666667,
      "grad_norm": 0.8087764382362366,
      "learning_rate": 0.00010006219416008514,
      "loss": 4.0218,
      "step": 292640
    },
    {
      "epoch": 0.6096875,
      "grad_norm": 0.7787243127822876,
      "learning_rate": 0.00010005289808958291,
      "loss": 3.5937,
      "step": 292650
    },
    {
      "epoch": 0.6097083333333333,
      "grad_norm": 0.8407545685768127,
      "learning_rate": 0.00010004360223483244,
      "loss": 3.6941,
      "step": 292660
    },
    {
      "epoch": 0.6097291666666667,
      "grad_norm": 0.8060769438743591,
      "learning_rate": 0.00010003430659587374,
      "loss": 3.7128,
      "step": 292670
    },
    {
      "epoch": 0.60975,
      "grad_norm": 0.9730434417724609,
      "learning_rate": 0.00010002501117274713,
      "loss": 3.6292,
      "step": 292680
    },
    {
      "epoch": 0.6097708333333334,
      "grad_norm": 0.8662858009338379,
      "learning_rate": 0.00010001571596549269,
      "loss": 3.8432,
      "step": 292690
    },
    {
      "epoch": 0.6097916666666666,
      "grad_norm": 0.819413423538208,
      "learning_rate": 0.00010000642097415054,
      "loss": 3.7082,
      "step": 292700
    },
    {
      "epoch": 0.6098125,
      "grad_norm": 0.87579745054245,
      "learning_rate": 9.999712619876087e-05,
      "loss": 3.7792,
      "step": 292710
    },
    {
      "epoch": 0.6098333333333333,
      "grad_norm": 0.999334990978241,
      "learning_rate": 9.998783163936386e-05,
      "loss": 3.6173,
      "step": 292720
    },
    {
      "epoch": 0.6098541666666667,
      "grad_norm": 0.8653162717819214,
      "learning_rate": 9.997853729599955e-05,
      "loss": 3.9051,
      "step": 292730
    },
    {
      "epoch": 0.609875,
      "grad_norm": 0.9813939332962036,
      "learning_rate": 9.996924316870824e-05,
      "loss": 3.719,
      "step": 292740
    },
    {
      "epoch": 0.6098958333333333,
      "grad_norm": 0.9549275636672974,
      "learning_rate": 9.995994925752994e-05,
      "loss": 3.7819,
      "step": 292750
    },
    {
      "epoch": 0.6099166666666667,
      "grad_norm": 0.8673343062400818,
      "learning_rate": 9.995065556250485e-05,
      "loss": 3.8121,
      "step": 292760
    },
    {
      "epoch": 0.6099375,
      "grad_norm": 0.9554367661476135,
      "learning_rate": 9.994136208367315e-05,
      "loss": 3.7347,
      "step": 292770
    },
    {
      "epoch": 0.6099583333333334,
      "grad_norm": 0.8399300575256348,
      "learning_rate": 9.993206882107496e-05,
      "loss": 3.8697,
      "step": 292780
    },
    {
      "epoch": 0.6099791666666666,
      "grad_norm": 0.858273983001709,
      "learning_rate": 9.992277577475034e-05,
      "loss": 3.6994,
      "step": 292790
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8539068102836609,
      "learning_rate": 9.99134829447396e-05,
      "loss": 3.8029,
      "step": 292800
    },
    {
      "epoch": 0.6100208333333333,
      "grad_norm": 0.8064156174659729,
      "learning_rate": 9.990419033108273e-05,
      "loss": 3.792,
      "step": 292810
    },
    {
      "epoch": 0.6100416666666667,
      "grad_norm": 0.8191757798194885,
      "learning_rate": 9.989489793381993e-05,
      "loss": 3.6922,
      "step": 292820
    },
    {
      "epoch": 0.6100625,
      "grad_norm": 0.8989507555961609,
      "learning_rate": 9.988560575299138e-05,
      "loss": 3.6432,
      "step": 292830
    },
    {
      "epoch": 0.6100833333333333,
      "grad_norm": 0.8528431057929993,
      "learning_rate": 9.987631378863713e-05,
      "loss": 3.7177,
      "step": 292840
    },
    {
      "epoch": 0.6101041666666667,
      "grad_norm": 0.9285131692886353,
      "learning_rate": 9.986702204079735e-05,
      "loss": 3.7083,
      "step": 292850
    },
    {
      "epoch": 0.610125,
      "grad_norm": 0.7836660742759705,
      "learning_rate": 9.985773050951226e-05,
      "loss": 3.8115,
      "step": 292860
    },
    {
      "epoch": 0.6101458333333334,
      "grad_norm": 0.7857266664505005,
      "learning_rate": 9.984843919482192e-05,
      "loss": 3.9394,
      "step": 292870
    },
    {
      "epoch": 0.6101666666666666,
      "grad_norm": 0.8729676008224487,
      "learning_rate": 9.983914809676641e-05,
      "loss": 3.8347,
      "step": 292880
    },
    {
      "epoch": 0.6101875,
      "grad_norm": 0.9111571907997131,
      "learning_rate": 9.982985721538595e-05,
      "loss": 3.6987,
      "step": 292890
    },
    {
      "epoch": 0.6102083333333334,
      "grad_norm": 0.7749779224395752,
      "learning_rate": 9.982056655072069e-05,
      "loss": 3.7869,
      "step": 292900
    },
    {
      "epoch": 0.6102291666666667,
      "grad_norm": 1.004676103591919,
      "learning_rate": 9.981127610281064e-05,
      "loss": 4.0035,
      "step": 292910
    },
    {
      "epoch": 0.61025,
      "grad_norm": 0.8150733113288879,
      "learning_rate": 9.980198587169608e-05,
      "loss": 3.7361,
      "step": 292920
    },
    {
      "epoch": 0.6102708333333333,
      "grad_norm": 0.9109196662902832,
      "learning_rate": 9.979269585741705e-05,
      "loss": 3.7197,
      "step": 292930
    },
    {
      "epoch": 0.6102916666666667,
      "grad_norm": 0.8151795864105225,
      "learning_rate": 9.978340606001369e-05,
      "loss": 3.7667,
      "step": 292940
    },
    {
      "epoch": 0.6103125,
      "grad_norm": 0.8726934790611267,
      "learning_rate": 9.977411647952615e-05,
      "loss": 3.8884,
      "step": 292950
    },
    {
      "epoch": 0.6103333333333333,
      "grad_norm": 0.8875999450683594,
      "learning_rate": 9.976482711599455e-05,
      "loss": 3.8984,
      "step": 292960
    },
    {
      "epoch": 0.6103541666666666,
      "grad_norm": 0.8977676630020142,
      "learning_rate": 9.975553796945902e-05,
      "loss": 3.9628,
      "step": 292970
    },
    {
      "epoch": 0.610375,
      "grad_norm": 0.7638230919837952,
      "learning_rate": 9.974624903995962e-05,
      "loss": 3.6526,
      "step": 292980
    },
    {
      "epoch": 0.6103958333333334,
      "grad_norm": 0.9318265914916992,
      "learning_rate": 9.97369603275366e-05,
      "loss": 3.8054,
      "step": 292990
    },
    {
      "epoch": 0.6104166666666667,
      "grad_norm": 0.8679589629173279,
      "learning_rate": 9.972767183223003e-05,
      "loss": 3.6809,
      "step": 293000
    },
    {
      "epoch": 0.6104166666666667,
      "eval_loss": 4.088183403015137,
      "eval_runtime": 8.2714,
      "eval_samples_per_second": 1.209,
      "eval_steps_per_second": 0.363,
      "step": 293000
    },
    {
      "epoch": 0.6104375,
      "grad_norm": 0.9175968170166016,
      "learning_rate": 9.971838355407995e-05,
      "loss": 3.6711,
      "step": 293010
    },
    {
      "epoch": 0.6104583333333333,
      "grad_norm": 0.7886463403701782,
      "learning_rate": 9.970909549312657e-05,
      "loss": 3.781,
      "step": 293020
    },
    {
      "epoch": 0.6104791666666667,
      "grad_norm": 0.8324286937713623,
      "learning_rate": 9.969980764941003e-05,
      "loss": 3.9041,
      "step": 293030
    },
    {
      "epoch": 0.6105,
      "grad_norm": 0.9487607479095459,
      "learning_rate": 9.969052002297035e-05,
      "loss": 3.7682,
      "step": 293040
    },
    {
      "epoch": 0.6105208333333333,
      "grad_norm": 0.8945944905281067,
      "learning_rate": 9.968123261384775e-05,
      "loss": 3.8295,
      "step": 293050
    },
    {
      "epoch": 0.6105416666666666,
      "grad_norm": 0.7558075785636902,
      "learning_rate": 9.967194542208231e-05,
      "loss": 3.6457,
      "step": 293060
    },
    {
      "epoch": 0.6105625,
      "grad_norm": 0.7893832921981812,
      "learning_rate": 9.96626584477141e-05,
      "loss": 3.8438,
      "step": 293070
    },
    {
      "epoch": 0.6105833333333334,
      "grad_norm": 0.9146319627761841,
      "learning_rate": 9.965337169078331e-05,
      "loss": 3.6953,
      "step": 293080
    },
    {
      "epoch": 0.6106041666666666,
      "grad_norm": 0.9992817044258118,
      "learning_rate": 9.964408515133008e-05,
      "loss": 3.8278,
      "step": 293090
    },
    {
      "epoch": 0.610625,
      "grad_norm": 0.7807167768478394,
      "learning_rate": 9.963479882939437e-05,
      "loss": 3.8705,
      "step": 293100
    },
    {
      "epoch": 0.6106458333333333,
      "grad_norm": 0.7870544791221619,
      "learning_rate": 9.962551272501649e-05,
      "loss": 3.8511,
      "step": 293110
    },
    {
      "epoch": 0.6106666666666667,
      "grad_norm": 0.8284424543380737,
      "learning_rate": 9.961622683823639e-05,
      "loss": 3.7518,
      "step": 293120
    },
    {
      "epoch": 0.6106875,
      "grad_norm": 0.896418035030365,
      "learning_rate": 9.960694116909425e-05,
      "loss": 3.7574,
      "step": 293130
    },
    {
      "epoch": 0.6107083333333333,
      "grad_norm": 0.9333497285842896,
      "learning_rate": 9.959765571763022e-05,
      "loss": 3.7455,
      "step": 293140
    },
    {
      "epoch": 0.6107291666666667,
      "grad_norm": 0.7937079071998596,
      "learning_rate": 9.958837048388432e-05,
      "loss": 3.7848,
      "step": 293150
    },
    {
      "epoch": 0.61075,
      "grad_norm": 0.7841818332672119,
      "learning_rate": 9.95790854678967e-05,
      "loss": 3.8023,
      "step": 293160
    },
    {
      "epoch": 0.6107708333333334,
      "grad_norm": 0.8707848191261292,
      "learning_rate": 9.956980066970752e-05,
      "loss": 3.7396,
      "step": 293170
    },
    {
      "epoch": 0.6107916666666666,
      "grad_norm": 1.0687973499298096,
      "learning_rate": 9.956051608935681e-05,
      "loss": 3.8859,
      "step": 293180
    },
    {
      "epoch": 0.6108125,
      "grad_norm": 0.746649980545044,
      "learning_rate": 9.955123172688469e-05,
      "loss": 3.8635,
      "step": 293190
    },
    {
      "epoch": 0.6108333333333333,
      "grad_norm": 0.7903822064399719,
      "learning_rate": 9.954194758233133e-05,
      "loss": 3.7468,
      "step": 293200
    },
    {
      "epoch": 0.6108541666666667,
      "grad_norm": 1.0071041584014893,
      "learning_rate": 9.953266365573675e-05,
      "loss": 3.6317,
      "step": 293210
    },
    {
      "epoch": 0.610875,
      "grad_norm": 1.003822922706604,
      "learning_rate": 9.952337994714105e-05,
      "loss": 3.8083,
      "step": 293220
    },
    {
      "epoch": 0.6108958333333333,
      "grad_norm": 0.7853062152862549,
      "learning_rate": 9.951409645658446e-05,
      "loss": 3.7233,
      "step": 293230
    },
    {
      "epoch": 0.6109166666666667,
      "grad_norm": 0.7424829602241516,
      "learning_rate": 9.950481318410697e-05,
      "loss": 3.9357,
      "step": 293240
    },
    {
      "epoch": 0.6109375,
      "grad_norm": 0.8789400458335876,
      "learning_rate": 9.949553012974866e-05,
      "loss": 3.9037,
      "step": 293250
    },
    {
      "epoch": 0.6109583333333334,
      "grad_norm": 0.8251473307609558,
      "learning_rate": 9.948624729354964e-05,
      "loss": 3.7751,
      "step": 293260
    },
    {
      "epoch": 0.6109791666666666,
      "grad_norm": 0.8147608637809753,
      "learning_rate": 9.94769646755501e-05,
      "loss": 3.7112,
      "step": 293270
    },
    {
      "epoch": 0.611,
      "grad_norm": 0.9862532615661621,
      "learning_rate": 9.946768227579005e-05,
      "loss": 3.7614,
      "step": 293280
    },
    {
      "epoch": 0.6110208333333333,
      "grad_norm": 1.0366272926330566,
      "learning_rate": 9.945840009430958e-05,
      "loss": 3.7548,
      "step": 293290
    },
    {
      "epoch": 0.6110416666666667,
      "grad_norm": 0.8604875802993774,
      "learning_rate": 9.944911813114888e-05,
      "loss": 3.8296,
      "step": 293300
    },
    {
      "epoch": 0.6110625,
      "grad_norm": 0.7875571846961975,
      "learning_rate": 9.943983638634794e-05,
      "loss": 3.7143,
      "step": 293310
    },
    {
      "epoch": 0.6110833333333333,
      "grad_norm": 1.0889085531234741,
      "learning_rate": 9.943055485994688e-05,
      "loss": 3.8679,
      "step": 293320
    },
    {
      "epoch": 0.6111041666666667,
      "grad_norm": 0.9551666975021362,
      "learning_rate": 9.942127355198584e-05,
      "loss": 3.6795,
      "step": 293330
    },
    {
      "epoch": 0.611125,
      "grad_norm": 0.8659322261810303,
      "learning_rate": 9.941199246250485e-05,
      "loss": 3.6781,
      "step": 293340
    },
    {
      "epoch": 0.6111458333333334,
      "grad_norm": 1.051880121231079,
      "learning_rate": 9.940271159154403e-05,
      "loss": 3.6727,
      "step": 293350
    },
    {
      "epoch": 0.6111666666666666,
      "grad_norm": 0.9678624272346497,
      "learning_rate": 9.939343093914349e-05,
      "loss": 3.8662,
      "step": 293360
    },
    {
      "epoch": 0.6111875,
      "grad_norm": 0.7960554957389832,
      "learning_rate": 9.938415050534332e-05,
      "loss": 3.63,
      "step": 293370
    },
    {
      "epoch": 0.6112083333333334,
      "grad_norm": 0.8821923732757568,
      "learning_rate": 9.937487029018352e-05,
      "loss": 3.793,
      "step": 293380
    },
    {
      "epoch": 0.6112291666666667,
      "grad_norm": 0.8753757476806641,
      "learning_rate": 9.936559029370429e-05,
      "loss": 3.9242,
      "step": 293390
    },
    {
      "epoch": 0.61125,
      "grad_norm": 0.8093892335891724,
      "learning_rate": 9.935631051594567e-05,
      "loss": 3.7584,
      "step": 293400
    },
    {
      "epoch": 0.6112708333333333,
      "grad_norm": 0.7999067902565002,
      "learning_rate": 9.93470309569477e-05,
      "loss": 3.8116,
      "step": 293410
    },
    {
      "epoch": 0.6112916666666667,
      "grad_norm": 0.7435644865036011,
      "learning_rate": 9.933775161675053e-05,
      "loss": 3.8127,
      "step": 293420
    },
    {
      "epoch": 0.6113125,
      "grad_norm": 0.865092396736145,
      "learning_rate": 9.932847249539425e-05,
      "loss": 3.7594,
      "step": 293430
    },
    {
      "epoch": 0.6113333333333333,
      "grad_norm": 0.8243180513381958,
      "learning_rate": 9.931919359291884e-05,
      "loss": 3.8349,
      "step": 293440
    },
    {
      "epoch": 0.6113541666666666,
      "grad_norm": 0.8381953239440918,
      "learning_rate": 9.930991490936449e-05,
      "loss": 3.8039,
      "step": 293450
    },
    {
      "epoch": 0.611375,
      "grad_norm": 0.8337656259536743,
      "learning_rate": 9.930063644477126e-05,
      "loss": 3.8095,
      "step": 293460
    },
    {
      "epoch": 0.6113958333333334,
      "grad_norm": 0.7696161270141602,
      "learning_rate": 9.929135819917918e-05,
      "loss": 3.5478,
      "step": 293470
    },
    {
      "epoch": 0.6114166666666667,
      "grad_norm": 0.8343083262443542,
      "learning_rate": 9.928208017262839e-05,
      "loss": 3.7748,
      "step": 293480
    },
    {
      "epoch": 0.6114375,
      "grad_norm": 0.9338713884353638,
      "learning_rate": 9.927280236515894e-05,
      "loss": 3.7706,
      "step": 293490
    },
    {
      "epoch": 0.6114583333333333,
      "grad_norm": 0.8350509405136108,
      "learning_rate": 9.926352477681087e-05,
      "loss": 3.6075,
      "step": 293500
    },
    {
      "epoch": 0.6114791666666667,
      "grad_norm": 1.231870412826538,
      "learning_rate": 9.925424740762433e-05,
      "loss": 3.8234,
      "step": 293510
    },
    {
      "epoch": 0.6115,
      "grad_norm": 0.784146249294281,
      "learning_rate": 9.924497025763934e-05,
      "loss": 3.7299,
      "step": 293520
    },
    {
      "epoch": 0.6115208333333333,
      "grad_norm": 1.1375315189361572,
      "learning_rate": 9.923569332689594e-05,
      "loss": 3.7507,
      "step": 293530
    },
    {
      "epoch": 0.6115416666666667,
      "grad_norm": 0.822762668132782,
      "learning_rate": 9.922641661543435e-05,
      "loss": 3.8775,
      "step": 293540
    },
    {
      "epoch": 0.6115625,
      "grad_norm": 0.8332509994506836,
      "learning_rate": 9.921714012329447e-05,
      "loss": 3.7031,
      "step": 293550
    },
    {
      "epoch": 0.6115833333333334,
      "grad_norm": 0.6754676699638367,
      "learning_rate": 9.920786385051648e-05,
      "loss": 3.5211,
      "step": 293560
    },
    {
      "epoch": 0.6116041666666666,
      "grad_norm": 0.9569028615951538,
      "learning_rate": 9.919858779714037e-05,
      "loss": 3.8189,
      "step": 293570
    },
    {
      "epoch": 0.611625,
      "grad_norm": 1.0195014476776123,
      "learning_rate": 9.918931196320629e-05,
      "loss": 3.7747,
      "step": 293580
    },
    {
      "epoch": 0.6116458333333333,
      "grad_norm": 0.8306516408920288,
      "learning_rate": 9.918003634875428e-05,
      "loss": 3.8182,
      "step": 293590
    },
    {
      "epoch": 0.6116666666666667,
      "grad_norm": 0.9236767888069153,
      "learning_rate": 9.917076095382434e-05,
      "loss": 3.7676,
      "step": 293600
    },
    {
      "epoch": 0.6116875,
      "grad_norm": 0.7902464866638184,
      "learning_rate": 9.916148577845667e-05,
      "loss": 3.9169,
      "step": 293610
    },
    {
      "epoch": 0.6117083333333333,
      "grad_norm": 0.8300751447677612,
      "learning_rate": 9.915221082269122e-05,
      "loss": 3.867,
      "step": 293620
    },
    {
      "epoch": 0.6117291666666667,
      "grad_norm": 0.956504762172699,
      "learning_rate": 9.914293608656804e-05,
      "loss": 3.8023,
      "step": 293630
    },
    {
      "epoch": 0.61175,
      "grad_norm": 0.931473970413208,
      "learning_rate": 9.913366157012734e-05,
      "loss": 3.9207,
      "step": 293640
    },
    {
      "epoch": 0.6117708333333334,
      "grad_norm": 0.8086122870445251,
      "learning_rate": 9.912438727340903e-05,
      "loss": 3.7388,
      "step": 293650
    },
    {
      "epoch": 0.6117916666666666,
      "grad_norm": 1.0013563632965088,
      "learning_rate": 9.911511319645322e-05,
      "loss": 3.6949,
      "step": 293660
    },
    {
      "epoch": 0.6118125,
      "grad_norm": 0.8754801750183105,
      "learning_rate": 9.910583933930002e-05,
      "loss": 3.8177,
      "step": 293670
    },
    {
      "epoch": 0.6118333333333333,
      "grad_norm": 0.8453056216239929,
      "learning_rate": 9.909656570198943e-05,
      "loss": 3.7703,
      "step": 293680
    },
    {
      "epoch": 0.6118541666666667,
      "grad_norm": 1.0427533388137817,
      "learning_rate": 9.908729228456148e-05,
      "loss": 3.6303,
      "step": 293690
    },
    {
      "epoch": 0.611875,
      "grad_norm": 0.9057050943374634,
      "learning_rate": 9.907801908705636e-05,
      "loss": 3.6659,
      "step": 293700
    },
    {
      "epoch": 0.6118958333333333,
      "grad_norm": 0.77353835105896,
      "learning_rate": 9.9068746109514e-05,
      "loss": 3.7911,
      "step": 293710
    },
    {
      "epoch": 0.6119166666666667,
      "grad_norm": 0.8124827146530151,
      "learning_rate": 9.905947335197445e-05,
      "loss": 3.7112,
      "step": 293720
    },
    {
      "epoch": 0.6119375,
      "grad_norm": 0.8761504888534546,
      "learning_rate": 9.90502008144779e-05,
      "loss": 3.7875,
      "step": 293730
    },
    {
      "epoch": 0.6119583333333334,
      "grad_norm": 0.8703590631484985,
      "learning_rate": 9.904092849706431e-05,
      "loss": 3.7087,
      "step": 293740
    },
    {
      "epoch": 0.6119791666666666,
      "grad_norm": 0.8486114740371704,
      "learning_rate": 9.903165639977367e-05,
      "loss": 3.8058,
      "step": 293750
    },
    {
      "epoch": 0.612,
      "grad_norm": 0.9698323607444763,
      "learning_rate": 9.902238452264612e-05,
      "loss": 3.8838,
      "step": 293760
    },
    {
      "epoch": 0.6120208333333333,
      "grad_norm": 0.8449358940124512,
      "learning_rate": 9.901311286572173e-05,
      "loss": 3.7524,
      "step": 293770
    },
    {
      "epoch": 0.6120416666666667,
      "grad_norm": 0.8260049223899841,
      "learning_rate": 9.900384142904046e-05,
      "loss": 3.753,
      "step": 293780
    },
    {
      "epoch": 0.6120625,
      "grad_norm": 0.8222893476486206,
      "learning_rate": 9.899457021264242e-05,
      "loss": 3.6892,
      "step": 293790
    },
    {
      "epoch": 0.6120833333333333,
      "grad_norm": 0.8704472184181213,
      "learning_rate": 9.89852992165677e-05,
      "loss": 3.8529,
      "step": 293800
    },
    {
      "epoch": 0.6121041666666667,
      "grad_norm": 0.7805536985397339,
      "learning_rate": 9.897602844085622e-05,
      "loss": 3.8451,
      "step": 293810
    },
    {
      "epoch": 0.612125,
      "grad_norm": 0.7954726219177246,
      "learning_rate": 9.896675788554814e-05,
      "loss": 3.7646,
      "step": 293820
    },
    {
      "epoch": 0.6121458333333333,
      "grad_norm": 0.7890459895133972,
      "learning_rate": 9.89574875506835e-05,
      "loss": 3.7748,
      "step": 293830
    },
    {
      "epoch": 0.6121666666666666,
      "grad_norm": 1.1315877437591553,
      "learning_rate": 9.894821743630226e-05,
      "loss": 3.7652,
      "step": 293840
    },
    {
      "epoch": 0.6121875,
      "grad_norm": 1.2927159070968628,
      "learning_rate": 9.893894754244448e-05,
      "loss": 3.6423,
      "step": 293850
    },
    {
      "epoch": 0.6122083333333334,
      "grad_norm": 0.7659140825271606,
      "learning_rate": 9.892967786915033e-05,
      "loss": 3.8278,
      "step": 293860
    },
    {
      "epoch": 0.6122291666666667,
      "grad_norm": 0.7851277589797974,
      "learning_rate": 9.89204084164597e-05,
      "loss": 3.7137,
      "step": 293870
    },
    {
      "epoch": 0.61225,
      "grad_norm": 0.7874343991279602,
      "learning_rate": 9.891113918441267e-05,
      "loss": 3.7512,
      "step": 293880
    },
    {
      "epoch": 0.6122708333333333,
      "grad_norm": 0.7419680953025818,
      "learning_rate": 9.890187017304932e-05,
      "loss": 3.7996,
      "step": 293890
    },
    {
      "epoch": 0.6122916666666667,
      "grad_norm": 0.9605893492698669,
      "learning_rate": 9.88926013824097e-05,
      "loss": 3.6146,
      "step": 293900
    },
    {
      "epoch": 0.6123125,
      "grad_norm": 0.8494226932525635,
      "learning_rate": 9.888333281253374e-05,
      "loss": 3.7939,
      "step": 293910
    },
    {
      "epoch": 0.6123333333333333,
      "grad_norm": 0.7786350846290588,
      "learning_rate": 9.887406446346159e-05,
      "loss": 3.9156,
      "step": 293920
    },
    {
      "epoch": 0.6123541666666666,
      "grad_norm": 0.9840356111526489,
      "learning_rate": 9.886479633523326e-05,
      "loss": 3.8703,
      "step": 293930
    },
    {
      "epoch": 0.612375,
      "grad_norm": 0.7379295825958252,
      "learning_rate": 9.885552842788871e-05,
      "loss": 3.7535,
      "step": 293940
    },
    {
      "epoch": 0.6123958333333334,
      "grad_norm": 0.7382610440254211,
      "learning_rate": 9.884626074146808e-05,
      "loss": 3.7382,
      "step": 293950
    },
    {
      "epoch": 0.6124166666666667,
      "grad_norm": 0.7407358288764954,
      "learning_rate": 9.883699327601138e-05,
      "loss": 3.6017,
      "step": 293960
    },
    {
      "epoch": 0.6124375,
      "grad_norm": 0.8501245379447937,
      "learning_rate": 9.882772603155856e-05,
      "loss": 3.8618,
      "step": 293970
    },
    {
      "epoch": 0.6124583333333333,
      "grad_norm": 0.7987787127494812,
      "learning_rate": 9.881845900814971e-05,
      "loss": 3.7135,
      "step": 293980
    },
    {
      "epoch": 0.6124791666666667,
      "grad_norm": 0.8820785284042358,
      "learning_rate": 9.880919220582491e-05,
      "loss": 4.0795,
      "step": 293990
    },
    {
      "epoch": 0.6125,
      "grad_norm": 0.8238054513931274,
      "learning_rate": 9.879992562462408e-05,
      "loss": 3.9774,
      "step": 294000
    },
    {
      "epoch": 0.6125,
      "eval_loss": 4.089212894439697,
      "eval_runtime": 8.3414,
      "eval_samples_per_second": 1.199,
      "eval_steps_per_second": 0.36,
      "step": 294000
    },
    {
      "epoch": 0.6125208333333333,
      "grad_norm": 0.9975195527076721,
      "learning_rate": 9.879065926458736e-05,
      "loss": 3.827,
      "step": 294010
    },
    {
      "epoch": 0.6125416666666667,
      "grad_norm": 0.8231433629989624,
      "learning_rate": 9.878139312575469e-05,
      "loss": 3.7782,
      "step": 294020
    },
    {
      "epoch": 0.6125625,
      "grad_norm": 0.7350205183029175,
      "learning_rate": 9.87721272081661e-05,
      "loss": 3.5832,
      "step": 294030
    },
    {
      "epoch": 0.6125833333333334,
      "grad_norm": 0.9020984172821045,
      "learning_rate": 9.87628615118617e-05,
      "loss": 3.8097,
      "step": 294040
    },
    {
      "epoch": 0.6126041666666666,
      "grad_norm": 0.7558574676513672,
      "learning_rate": 9.875359603688144e-05,
      "loss": 3.6419,
      "step": 294050
    },
    {
      "epoch": 0.612625,
      "grad_norm": 0.856650710105896,
      "learning_rate": 9.874433078326531e-05,
      "loss": 3.9482,
      "step": 294060
    },
    {
      "epoch": 0.6126458333333333,
      "grad_norm": 0.7691658139228821,
      "learning_rate": 9.873506575105346e-05,
      "loss": 3.7669,
      "step": 294070
    },
    {
      "epoch": 0.6126666666666667,
      "grad_norm": 0.8648867011070251,
      "learning_rate": 9.87258009402858e-05,
      "loss": 3.7041,
      "step": 294080
    },
    {
      "epoch": 0.6126875,
      "grad_norm": 0.8777569532394409,
      "learning_rate": 9.871653635100234e-05,
      "loss": 3.7513,
      "step": 294090
    },
    {
      "epoch": 0.6127083333333333,
      "grad_norm": 0.925062894821167,
      "learning_rate": 9.870727198324322e-05,
      "loss": 3.8392,
      "step": 294100
    },
    {
      "epoch": 0.6127291666666667,
      "grad_norm": 0.8479577898979187,
      "learning_rate": 9.869800783704838e-05,
      "loss": 3.8944,
      "step": 294110
    },
    {
      "epoch": 0.61275,
      "grad_norm": 0.8091170787811279,
      "learning_rate": 9.868874391245777e-05,
      "loss": 3.8075,
      "step": 294120
    },
    {
      "epoch": 0.6127708333333334,
      "grad_norm": 0.8509892821311951,
      "learning_rate": 9.867948020951151e-05,
      "loss": 3.7551,
      "step": 294130
    },
    {
      "epoch": 0.6127916666666666,
      "grad_norm": 0.8427444696426392,
      "learning_rate": 9.867021672824963e-05,
      "loss": 3.6539,
      "step": 294140
    },
    {
      "epoch": 0.6128125,
      "grad_norm": 0.8263928890228271,
      "learning_rate": 9.866095346871203e-05,
      "loss": 3.6403,
      "step": 294150
    },
    {
      "epoch": 0.6128333333333333,
      "grad_norm": 0.8801373243331909,
      "learning_rate": 9.865169043093878e-05,
      "loss": 3.8279,
      "step": 294160
    },
    {
      "epoch": 0.6128541666666667,
      "grad_norm": 0.825404703617096,
      "learning_rate": 9.864242761496997e-05,
      "loss": 3.7404,
      "step": 294170
    },
    {
      "epoch": 0.612875,
      "grad_norm": 0.8152204751968384,
      "learning_rate": 9.86331650208455e-05,
      "loss": 3.8773,
      "step": 294180
    },
    {
      "epoch": 0.6128958333333333,
      "grad_norm": 0.9929429888725281,
      "learning_rate": 9.86239026486054e-05,
      "loss": 3.7395,
      "step": 294190
    },
    {
      "epoch": 0.6129166666666667,
      "grad_norm": 0.7751299142837524,
      "learning_rate": 9.861464049828977e-05,
      "loss": 3.6255,
      "step": 294200
    },
    {
      "epoch": 0.6129375,
      "grad_norm": 0.8198127150535583,
      "learning_rate": 9.860537856993852e-05,
      "loss": 3.755,
      "step": 294210
    },
    {
      "epoch": 0.6129583333333334,
      "grad_norm": 0.8790547847747803,
      "learning_rate": 9.859611686359167e-05,
      "loss": 3.7137,
      "step": 294220
    },
    {
      "epoch": 0.6129791666666666,
      "grad_norm": 0.8327027559280396,
      "learning_rate": 9.858685537928929e-05,
      "loss": 3.7605,
      "step": 294230
    },
    {
      "epoch": 0.613,
      "grad_norm": 0.9604237079620361,
      "learning_rate": 9.857759411707135e-05,
      "loss": 3.8716,
      "step": 294240
    },
    {
      "epoch": 0.6130208333333333,
      "grad_norm": 0.8934502005577087,
      "learning_rate": 9.856833307697778e-05,
      "loss": 3.8217,
      "step": 294250
    },
    {
      "epoch": 0.6130416666666667,
      "grad_norm": 0.8450319170951843,
      "learning_rate": 9.85590722590487e-05,
      "loss": 3.782,
      "step": 294260
    },
    {
      "epoch": 0.6130625,
      "grad_norm": 0.9887334704399109,
      "learning_rate": 9.854981166332408e-05,
      "loss": 3.7951,
      "step": 294270
    },
    {
      "epoch": 0.6130833333333333,
      "grad_norm": 0.8640122413635254,
      "learning_rate": 9.854055128984387e-05,
      "loss": 3.7689,
      "step": 294280
    },
    {
      "epoch": 0.6131041666666667,
      "grad_norm": 0.9304729104042053,
      "learning_rate": 9.853129113864812e-05,
      "loss": 3.7272,
      "step": 294290
    },
    {
      "epoch": 0.613125,
      "grad_norm": 0.9536687731742859,
      "learning_rate": 9.852203120977686e-05,
      "loss": 3.6768,
      "step": 294300
    },
    {
      "epoch": 0.6131458333333333,
      "grad_norm": 0.8009347319602966,
      "learning_rate": 9.851277150326998e-05,
      "loss": 3.8047,
      "step": 294310
    },
    {
      "epoch": 0.6131666666666666,
      "grad_norm": 0.8042900562286377,
      "learning_rate": 9.850351201916759e-05,
      "loss": 3.7947,
      "step": 294320
    },
    {
      "epoch": 0.6131875,
      "grad_norm": 0.9696651101112366,
      "learning_rate": 9.849425275750966e-05,
      "loss": 3.7703,
      "step": 294330
    },
    {
      "epoch": 0.6132083333333334,
      "grad_norm": 0.8065703511238098,
      "learning_rate": 9.848499371833611e-05,
      "loss": 3.6695,
      "step": 294340
    },
    {
      "epoch": 0.6132291666666667,
      "grad_norm": 0.8766418099403381,
      "learning_rate": 9.847573490168704e-05,
      "loss": 3.826,
      "step": 294350
    },
    {
      "epoch": 0.61325,
      "grad_norm": 0.8726977109909058,
      "learning_rate": 9.846647630760244e-05,
      "loss": 3.9113,
      "step": 294360
    },
    {
      "epoch": 0.6132708333333333,
      "grad_norm": 0.7797701954841614,
      "learning_rate": 9.845721793612216e-05,
      "loss": 3.8393,
      "step": 294370
    },
    {
      "epoch": 0.6132916666666667,
      "grad_norm": 0.8689391016960144,
      "learning_rate": 9.84479597872864e-05,
      "loss": 3.9346,
      "step": 294380
    },
    {
      "epoch": 0.6133125,
      "grad_norm": 0.8713699579238892,
      "learning_rate": 9.8438701861135e-05,
      "loss": 3.9386,
      "step": 294390
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 0.7516641020774841,
      "learning_rate": 9.842944415770798e-05,
      "loss": 3.7395,
      "step": 294400
    },
    {
      "epoch": 0.6133541666666666,
      "grad_norm": 1.3403528928756714,
      "learning_rate": 9.84201866770454e-05,
      "loss": 3.7741,
      "step": 294410
    },
    {
      "epoch": 0.613375,
      "grad_norm": 0.9458437561988831,
      "learning_rate": 9.841092941918716e-05,
      "loss": 3.6968,
      "step": 294420
    },
    {
      "epoch": 0.6133958333333334,
      "grad_norm": 0.9118580222129822,
      "learning_rate": 9.840167238417332e-05,
      "loss": 3.9196,
      "step": 294430
    },
    {
      "epoch": 0.6134166666666667,
      "grad_norm": 0.8197310566902161,
      "learning_rate": 9.839241557204377e-05,
      "loss": 3.7594,
      "step": 294440
    },
    {
      "epoch": 0.6134375,
      "grad_norm": 0.8464175462722778,
      "learning_rate": 9.83831589828386e-05,
      "loss": 3.7598,
      "step": 294450
    },
    {
      "epoch": 0.6134583333333333,
      "grad_norm": 0.8988440632820129,
      "learning_rate": 9.837390261659777e-05,
      "loss": 3.7736,
      "step": 294460
    },
    {
      "epoch": 0.6134791666666667,
      "grad_norm": 0.7758762240409851,
      "learning_rate": 9.836464647336118e-05,
      "loss": 3.8136,
      "step": 294470
    },
    {
      "epoch": 0.6135,
      "grad_norm": 0.9546405673027039,
      "learning_rate": 9.835539055316892e-05,
      "loss": 3.8458,
      "step": 294480
    },
    {
      "epoch": 0.6135208333333333,
      "grad_norm": 0.838074266910553,
      "learning_rate": 9.834613485606094e-05,
      "loss": 3.819,
      "step": 294490
    },
    {
      "epoch": 0.6135416666666667,
      "grad_norm": 0.7985588908195496,
      "learning_rate": 9.833687938207718e-05,
      "loss": 3.7163,
      "step": 294500
    },
    {
      "epoch": 0.6135625,
      "grad_norm": 0.8666166663169861,
      "learning_rate": 9.83276241312577e-05,
      "loss": 3.7856,
      "step": 294510
    },
    {
      "epoch": 0.6135833333333334,
      "grad_norm": 0.8923761248588562,
      "learning_rate": 9.831836910364239e-05,
      "loss": 3.518,
      "step": 294520
    },
    {
      "epoch": 0.6136041666666666,
      "grad_norm": 0.8183085322380066,
      "learning_rate": 9.830911429927124e-05,
      "loss": 3.7584,
      "step": 294530
    },
    {
      "epoch": 0.613625,
      "grad_norm": 0.9477730393409729,
      "learning_rate": 9.829985971818433e-05,
      "loss": 3.5848,
      "step": 294540
    },
    {
      "epoch": 0.6136458333333333,
      "grad_norm": 0.9440180659294128,
      "learning_rate": 9.829060536042154e-05,
      "loss": 3.8499,
      "step": 294550
    },
    {
      "epoch": 0.6136666666666667,
      "grad_norm": 0.8517971038818359,
      "learning_rate": 9.82813512260228e-05,
      "loss": 3.6763,
      "step": 294560
    },
    {
      "epoch": 0.6136875,
      "grad_norm": 0.7618067264556885,
      "learning_rate": 9.827209731502824e-05,
      "loss": 3.8016,
      "step": 294570
    },
    {
      "epoch": 0.6137083333333333,
      "grad_norm": 0.9933449029922485,
      "learning_rate": 9.826284362747772e-05,
      "loss": 4.0115,
      "step": 294580
    },
    {
      "epoch": 0.6137291666666667,
      "grad_norm": 0.8959729671478271,
      "learning_rate": 9.825359016341119e-05,
      "loss": 3.8092,
      "step": 294590
    },
    {
      "epoch": 0.61375,
      "grad_norm": 0.7968676686286926,
      "learning_rate": 9.824433692286873e-05,
      "loss": 3.7166,
      "step": 294600
    },
    {
      "epoch": 0.6137708333333334,
      "grad_norm": 0.7777445316314697,
      "learning_rate": 9.823508390589024e-05,
      "loss": 3.753,
      "step": 294610
    },
    {
      "epoch": 0.6137916666666666,
      "grad_norm": 0.7829159498214722,
      "learning_rate": 9.822583111251564e-05,
      "loss": 3.6805,
      "step": 294620
    },
    {
      "epoch": 0.6138125,
      "grad_norm": 1.0692368745803833,
      "learning_rate": 9.8216578542785e-05,
      "loss": 3.8721,
      "step": 294630
    },
    {
      "epoch": 0.6138333333333333,
      "grad_norm": 0.8598551750183105,
      "learning_rate": 9.820732619673827e-05,
      "loss": 3.8536,
      "step": 294640
    },
    {
      "epoch": 0.6138541666666667,
      "grad_norm": 0.9020296931266785,
      "learning_rate": 9.819807407441533e-05,
      "loss": 3.5648,
      "step": 294650
    },
    {
      "epoch": 0.613875,
      "grad_norm": 0.9172835946083069,
      "learning_rate": 9.818882217585622e-05,
      "loss": 3.6895,
      "step": 294660
    },
    {
      "epoch": 0.6138958333333333,
      "grad_norm": 1.2277541160583496,
      "learning_rate": 9.817957050110092e-05,
      "loss": 3.8022,
      "step": 294670
    },
    {
      "epoch": 0.6139166666666667,
      "grad_norm": 0.7596564888954163,
      "learning_rate": 9.817031905018933e-05,
      "loss": 3.7607,
      "step": 294680
    },
    {
      "epoch": 0.6139375,
      "grad_norm": 0.9893462657928467,
      "learning_rate": 9.816106782316146e-05,
      "loss": 3.7401,
      "step": 294690
    },
    {
      "epoch": 0.6139583333333334,
      "grad_norm": 0.8443586826324463,
      "learning_rate": 9.815181682005729e-05,
      "loss": 3.7985,
      "step": 294700
    },
    {
      "epoch": 0.6139791666666666,
      "grad_norm": 0.8421092629432678,
      "learning_rate": 9.814256604091669e-05,
      "loss": 3.8548,
      "step": 294710
    },
    {
      "epoch": 0.614,
      "grad_norm": 0.7944013476371765,
      "learning_rate": 9.813331548577969e-05,
      "loss": 3.8957,
      "step": 294720
    },
    {
      "epoch": 0.6140208333333333,
      "grad_norm": 0.8764123916625977,
      "learning_rate": 9.812406515468628e-05,
      "loss": 3.8795,
      "step": 294730
    },
    {
      "epoch": 0.6140416666666667,
      "grad_norm": 0.8434528708457947,
      "learning_rate": 9.81148150476764e-05,
      "loss": 3.7535,
      "step": 294740
    },
    {
      "epoch": 0.6140625,
      "grad_norm": 0.8198631405830383,
      "learning_rate": 9.810556516478988e-05,
      "loss": 3.9044,
      "step": 294750
    },
    {
      "epoch": 0.6140833333333333,
      "grad_norm": 0.8976413607597351,
      "learning_rate": 9.809631550606682e-05,
      "loss": 3.8792,
      "step": 294760
    },
    {
      "epoch": 0.6141041666666667,
      "grad_norm": 0.9497621655464172,
      "learning_rate": 9.808706607154717e-05,
      "loss": 3.8815,
      "step": 294770
    },
    {
      "epoch": 0.614125,
      "grad_norm": 0.8937332630157471,
      "learning_rate": 9.807781686127078e-05,
      "loss": 3.7603,
      "step": 294780
    },
    {
      "epoch": 0.6141458333333333,
      "grad_norm": 1.0516271591186523,
      "learning_rate": 9.806856787527771e-05,
      "loss": 3.6266,
      "step": 294790
    },
    {
      "epoch": 0.6141666666666666,
      "grad_norm": 0.8507387042045593,
      "learning_rate": 9.80593191136079e-05,
      "loss": 3.7679,
      "step": 294800
    },
    {
      "epoch": 0.6141875,
      "grad_norm": 0.9554174542427063,
      "learning_rate": 9.805007057630119e-05,
      "loss": 3.8004,
      "step": 294810
    },
    {
      "epoch": 0.6142083333333334,
      "grad_norm": 0.9707975387573242,
      "learning_rate": 9.804082226339766e-05,
      "loss": 3.7302,
      "step": 294820
    },
    {
      "epoch": 0.6142291666666667,
      "grad_norm": 0.8367897868156433,
      "learning_rate": 9.803157417493726e-05,
      "loss": 3.8385,
      "step": 294830
    },
    {
      "epoch": 0.61425,
      "grad_norm": 0.8037440776824951,
      "learning_rate": 9.802232631095978e-05,
      "loss": 3.7674,
      "step": 294840
    },
    {
      "epoch": 0.6142708333333333,
      "grad_norm": 0.8819454908370972,
      "learning_rate": 9.801307867150536e-05,
      "loss": 3.8504,
      "step": 294850
    },
    {
      "epoch": 0.6142916666666667,
      "grad_norm": 0.9009127020835876,
      "learning_rate": 9.800383125661385e-05,
      "loss": 3.819,
      "step": 294860
    },
    {
      "epoch": 0.6143125,
      "grad_norm": 0.889643132686615,
      "learning_rate": 9.799458406632515e-05,
      "loss": 3.7268,
      "step": 294870
    },
    {
      "epoch": 0.6143333333333333,
      "grad_norm": 0.9664813280105591,
      "learning_rate": 9.798533710067934e-05,
      "loss": 3.8185,
      "step": 294880
    },
    {
      "epoch": 0.6143541666666666,
      "grad_norm": 1.0326943397521973,
      "learning_rate": 9.797609035971626e-05,
      "loss": 3.6606,
      "step": 294890
    },
    {
      "epoch": 0.614375,
      "grad_norm": 0.9510374069213867,
      "learning_rate": 9.796684384347583e-05,
      "loss": 3.9808,
      "step": 294900
    },
    {
      "epoch": 0.6143958333333334,
      "grad_norm": 0.7802889943122864,
      "learning_rate": 9.79575975519981e-05,
      "loss": 3.8167,
      "step": 294910
    },
    {
      "epoch": 0.6144166666666667,
      "grad_norm": 0.789371907711029,
      "learning_rate": 9.794835148532293e-05,
      "loss": 3.7399,
      "step": 294920
    },
    {
      "epoch": 0.6144375,
      "grad_norm": 1.00359308719635,
      "learning_rate": 9.793910564349025e-05,
      "loss": 3.7439,
      "step": 294930
    },
    {
      "epoch": 0.6144583333333333,
      "grad_norm": 0.7781513333320618,
      "learning_rate": 9.792986002654007e-05,
      "loss": 3.7264,
      "step": 294940
    },
    {
      "epoch": 0.6144791666666667,
      "grad_norm": 0.7904919981956482,
      "learning_rate": 9.792061463451226e-05,
      "loss": 3.8821,
      "step": 294950
    },
    {
      "epoch": 0.6145,
      "grad_norm": 0.8388857841491699,
      "learning_rate": 9.791136946744674e-05,
      "loss": 3.7962,
      "step": 294960
    },
    {
      "epoch": 0.6145208333333333,
      "grad_norm": 0.9440687298774719,
      "learning_rate": 9.790212452538357e-05,
      "loss": 3.8473,
      "step": 294970
    },
    {
      "epoch": 0.6145416666666667,
      "grad_norm": 0.8527240753173828,
      "learning_rate": 9.789287980836256e-05,
      "loss": 3.6287,
      "step": 294980
    },
    {
      "epoch": 0.6145625,
      "grad_norm": 0.7626631259918213,
      "learning_rate": 9.788363531642365e-05,
      "loss": 3.5769,
      "step": 294990
    },
    {
      "epoch": 0.6145833333333334,
      "grad_norm": 0.8280425667762756,
      "learning_rate": 9.787439104960686e-05,
      "loss": 3.99,
      "step": 295000
    },
    {
      "epoch": 0.6145833333333334,
      "eval_loss": 4.090389251708984,
      "eval_runtime": 8.8484,
      "eval_samples_per_second": 1.13,
      "eval_steps_per_second": 0.339,
      "step": 295000
    },
    {
      "epoch": 0.6146041666666666,
      "grad_norm": 0.8944404721260071,
      "learning_rate": 9.786514700795209e-05,
      "loss": 3.755,
      "step": 295010
    },
    {
      "epoch": 0.614625,
      "grad_norm": 0.903108537197113,
      "learning_rate": 9.78559031914992e-05,
      "loss": 3.6641,
      "step": 295020
    },
    {
      "epoch": 0.6146458333333333,
      "grad_norm": 0.8370714783668518,
      "learning_rate": 9.784665960028814e-05,
      "loss": 3.8023,
      "step": 295030
    },
    {
      "epoch": 0.6146666666666667,
      "grad_norm": 0.9037480354309082,
      "learning_rate": 9.783741623435893e-05,
      "loss": 3.89,
      "step": 295040
    },
    {
      "epoch": 0.6146875,
      "grad_norm": 0.9281365275382996,
      "learning_rate": 9.782817309375141e-05,
      "loss": 3.7384,
      "step": 295050
    },
    {
      "epoch": 0.6147083333333333,
      "grad_norm": 0.8727490901947021,
      "learning_rate": 9.781893017850549e-05,
      "loss": 3.8525,
      "step": 295060
    },
    {
      "epoch": 0.6147291666666667,
      "grad_norm": 0.770885169506073,
      "learning_rate": 9.78096874886612e-05,
      "loss": 3.6632,
      "step": 295070
    },
    {
      "epoch": 0.61475,
      "grad_norm": 0.8518949151039124,
      "learning_rate": 9.780044502425839e-05,
      "loss": 3.8203,
      "step": 295080
    },
    {
      "epoch": 0.6147708333333334,
      "grad_norm": 0.9907003045082092,
      "learning_rate": 9.779120278533694e-05,
      "loss": 3.6739,
      "step": 295090
    },
    {
      "epoch": 0.6147916666666666,
      "grad_norm": 0.9120936393737793,
      "learning_rate": 9.77819607719369e-05,
      "loss": 3.6471,
      "step": 295100
    },
    {
      "epoch": 0.6148125,
      "grad_norm": 0.850818395614624,
      "learning_rate": 9.777271898409811e-05,
      "loss": 3.6051,
      "step": 295110
    },
    {
      "epoch": 0.6148333333333333,
      "grad_norm": 0.8508384823799133,
      "learning_rate": 9.776347742186045e-05,
      "loss": 3.7467,
      "step": 295120
    },
    {
      "epoch": 0.6148541666666667,
      "grad_norm": 0.8565958738327026,
      "learning_rate": 9.775423608526391e-05,
      "loss": 3.7066,
      "step": 295130
    },
    {
      "epoch": 0.614875,
      "grad_norm": 0.8691299557685852,
      "learning_rate": 9.774499497434845e-05,
      "loss": 3.7419,
      "step": 295140
    },
    {
      "epoch": 0.6148958333333333,
      "grad_norm": 0.7761958241462708,
      "learning_rate": 9.773575408915384e-05,
      "loss": 3.8135,
      "step": 295150
    },
    {
      "epoch": 0.6149166666666667,
      "grad_norm": 0.9888981580734253,
      "learning_rate": 9.772651342972013e-05,
      "loss": 3.7546,
      "step": 295160
    },
    {
      "epoch": 0.6149375,
      "grad_norm": 0.8164289593696594,
      "learning_rate": 9.77172729960872e-05,
      "loss": 3.7876,
      "step": 295170
    },
    {
      "epoch": 0.6149583333333334,
      "grad_norm": 0.8507300019264221,
      "learning_rate": 9.770803278829493e-05,
      "loss": 3.8452,
      "step": 295180
    },
    {
      "epoch": 0.6149791666666666,
      "grad_norm": 0.8221125602722168,
      "learning_rate": 9.769879280638326e-05,
      "loss": 3.7328,
      "step": 295190
    },
    {
      "epoch": 0.615,
      "grad_norm": 0.7095503211021423,
      "learning_rate": 9.768955305039214e-05,
      "loss": 3.6434,
      "step": 295200
    },
    {
      "epoch": 0.6150208333333333,
      "grad_norm": 0.8162330389022827,
      "learning_rate": 9.768031352036138e-05,
      "loss": 3.813,
      "step": 295210
    },
    {
      "epoch": 0.6150416666666667,
      "grad_norm": 0.824146568775177,
      "learning_rate": 9.767107421633099e-05,
      "loss": 3.7084,
      "step": 295220
    },
    {
      "epoch": 0.6150625,
      "grad_norm": 0.9467077851295471,
      "learning_rate": 9.766183513834089e-05,
      "loss": 3.6141,
      "step": 295230
    },
    {
      "epoch": 0.6150833333333333,
      "grad_norm": 0.861073911190033,
      "learning_rate": 9.765259628643087e-05,
      "loss": 3.6011,
      "step": 295240
    },
    {
      "epoch": 0.6151041666666667,
      "grad_norm": 0.873860239982605,
      "learning_rate": 9.764335766064099e-05,
      "loss": 3.7408,
      "step": 295250
    },
    {
      "epoch": 0.615125,
      "grad_norm": 0.8864156603813171,
      "learning_rate": 9.763411926101103e-05,
      "loss": 3.7465,
      "step": 295260
    },
    {
      "epoch": 0.6151458333333333,
      "grad_norm": 1.0409916639328003,
      "learning_rate": 9.762488108758092e-05,
      "loss": 3.8547,
      "step": 295270
    },
    {
      "epoch": 0.6151666666666666,
      "grad_norm": 0.8538146018981934,
      "learning_rate": 9.761564314039064e-05,
      "loss": 3.8518,
      "step": 295280
    },
    {
      "epoch": 0.6151875,
      "grad_norm": 0.9076822996139526,
      "learning_rate": 9.760640541948006e-05,
      "loss": 3.803,
      "step": 295290
    },
    {
      "epoch": 0.6152083333333334,
      "grad_norm": 0.9181805849075317,
      "learning_rate": 9.759716792488901e-05,
      "loss": 3.7087,
      "step": 295300
    },
    {
      "epoch": 0.6152291666666667,
      "grad_norm": 0.9001553654670715,
      "learning_rate": 9.75879306566575e-05,
      "loss": 3.7895,
      "step": 295310
    },
    {
      "epoch": 0.61525,
      "grad_norm": 0.7944180965423584,
      "learning_rate": 9.757869361482536e-05,
      "loss": 3.7699,
      "step": 295320
    },
    {
      "epoch": 0.6152708333333333,
      "grad_norm": 0.8426575064659119,
      "learning_rate": 9.756945679943258e-05,
      "loss": 3.8439,
      "step": 295330
    },
    {
      "epoch": 0.6152916666666667,
      "grad_norm": 0.8150777220726013,
      "learning_rate": 9.75602202105189e-05,
      "loss": 3.7906,
      "step": 295340
    },
    {
      "epoch": 0.6153125,
      "grad_norm": 0.906600832939148,
      "learning_rate": 9.755098384812435e-05,
      "loss": 3.8787,
      "step": 295350
    },
    {
      "epoch": 0.6153333333333333,
      "grad_norm": 0.7704975008964539,
      "learning_rate": 9.754174771228879e-05,
      "loss": 3.7772,
      "step": 295360
    },
    {
      "epoch": 0.6153541666666666,
      "grad_norm": 0.9040305614471436,
      "learning_rate": 9.753251180305209e-05,
      "loss": 3.6549,
      "step": 295370
    },
    {
      "epoch": 0.615375,
      "grad_norm": 0.7793295979499817,
      "learning_rate": 9.752327612045423e-05,
      "loss": 3.8161,
      "step": 295380
    },
    {
      "epoch": 0.6153958333333334,
      "grad_norm": 0.8562172055244446,
      "learning_rate": 9.751404066453501e-05,
      "loss": 3.6957,
      "step": 295390
    },
    {
      "epoch": 0.6154166666666666,
      "grad_norm": 0.885482132434845,
      "learning_rate": 9.750480543533433e-05,
      "loss": 3.7349,
      "step": 295400
    },
    {
      "epoch": 0.6154375,
      "grad_norm": 0.9607635140419006,
      "learning_rate": 9.749557043289217e-05,
      "loss": 3.7184,
      "step": 295410
    },
    {
      "epoch": 0.6154583333333333,
      "grad_norm": 0.831208348274231,
      "learning_rate": 9.748633565724831e-05,
      "loss": 3.8959,
      "step": 295420
    },
    {
      "epoch": 0.6154791666666667,
      "grad_norm": 0.906932532787323,
      "learning_rate": 9.74771011084427e-05,
      "loss": 3.8363,
      "step": 295430
    },
    {
      "epoch": 0.6155,
      "grad_norm": 1.0417309999465942,
      "learning_rate": 9.746786678651526e-05,
      "loss": 3.7614,
      "step": 295440
    },
    {
      "epoch": 0.6155208333333333,
      "grad_norm": 0.7680004835128784,
      "learning_rate": 9.745863269150582e-05,
      "loss": 3.726,
      "step": 295450
    },
    {
      "epoch": 0.6155416666666667,
      "grad_norm": 0.812821090221405,
      "learning_rate": 9.744939882345428e-05,
      "loss": 3.7608,
      "step": 295460
    },
    {
      "epoch": 0.6155625,
      "grad_norm": 0.7912366390228271,
      "learning_rate": 9.744016518240057e-05,
      "loss": 3.7706,
      "step": 295470
    },
    {
      "epoch": 0.6155833333333334,
      "grad_norm": 0.9678072929382324,
      "learning_rate": 9.74309317683845e-05,
      "loss": 3.792,
      "step": 295480
    },
    {
      "epoch": 0.6156041666666666,
      "grad_norm": 0.8659648895263672,
      "learning_rate": 9.742169858144599e-05,
      "loss": 3.8745,
      "step": 295490
    },
    {
      "epoch": 0.615625,
      "grad_norm": 0.7907547354698181,
      "learning_rate": 9.741246562162499e-05,
      "loss": 3.7777,
      "step": 295500
    },
    {
      "epoch": 0.6156458333333333,
      "grad_norm": 0.8115448355674744,
      "learning_rate": 9.740323288896132e-05,
      "loss": 3.7168,
      "step": 295510
    },
    {
      "epoch": 0.6156666666666667,
      "grad_norm": 0.7888864874839783,
      "learning_rate": 9.73940003834948e-05,
      "loss": 3.8118,
      "step": 295520
    },
    {
      "epoch": 0.6156875,
      "grad_norm": 0.7923818826675415,
      "learning_rate": 9.738476810526541e-05,
      "loss": 3.7157,
      "step": 295530
    },
    {
      "epoch": 0.6157083333333333,
      "grad_norm": 0.9018550515174866,
      "learning_rate": 9.737553605431303e-05,
      "loss": 3.784,
      "step": 295540
    },
    {
      "epoch": 0.6157291666666667,
      "grad_norm": 0.8906061053276062,
      "learning_rate": 9.736630423067742e-05,
      "loss": 3.7894,
      "step": 295550
    },
    {
      "epoch": 0.61575,
      "grad_norm": 0.9350517988204956,
      "learning_rate": 9.73570726343986e-05,
      "loss": 3.8688,
      "step": 295560
    },
    {
      "epoch": 0.6157708333333334,
      "grad_norm": 0.7651176452636719,
      "learning_rate": 9.734784126551638e-05,
      "loss": 3.8041,
      "step": 295570
    },
    {
      "epoch": 0.6157916666666666,
      "grad_norm": 0.8092108964920044,
      "learning_rate": 9.733861012407063e-05,
      "loss": 3.6363,
      "step": 295580
    },
    {
      "epoch": 0.6158125,
      "grad_norm": 0.7937979102134705,
      "learning_rate": 9.732937921010124e-05,
      "loss": 3.8327,
      "step": 295590
    },
    {
      "epoch": 0.6158333333333333,
      "grad_norm": 0.872985303401947,
      "learning_rate": 9.732014852364814e-05,
      "loss": 3.7778,
      "step": 295600
    },
    {
      "epoch": 0.6158541666666667,
      "grad_norm": 1.0000660419464111,
      "learning_rate": 9.731091806475112e-05,
      "loss": 3.7918,
      "step": 295610
    },
    {
      "epoch": 0.615875,
      "grad_norm": 0.8219959735870361,
      "learning_rate": 9.730168783345004e-05,
      "loss": 3.7941,
      "step": 295620
    },
    {
      "epoch": 0.6158958333333333,
      "grad_norm": 1.0722774267196655,
      "learning_rate": 9.729245782978483e-05,
      "loss": 3.684,
      "step": 295630
    },
    {
      "epoch": 0.6159166666666667,
      "grad_norm": 0.9147750735282898,
      "learning_rate": 9.728322805379537e-05,
      "loss": 3.7694,
      "step": 295640
    },
    {
      "epoch": 0.6159375,
      "grad_norm": 0.8578335642814636,
      "learning_rate": 9.727399850552142e-05,
      "loss": 3.8165,
      "step": 295650
    },
    {
      "epoch": 0.6159583333333334,
      "grad_norm": 0.7963261604309082,
      "learning_rate": 9.726476918500299e-05,
      "loss": 3.8585,
      "step": 295660
    },
    {
      "epoch": 0.6159791666666666,
      "grad_norm": 0.8393591642379761,
      "learning_rate": 9.725554009227989e-05,
      "loss": 3.7486,
      "step": 295670
    },
    {
      "epoch": 0.616,
      "grad_norm": 1.0286756753921509,
      "learning_rate": 9.724631122739192e-05,
      "loss": 3.7183,
      "step": 295680
    },
    {
      "epoch": 0.6160208333333334,
      "grad_norm": 0.8797096014022827,
      "learning_rate": 9.723708259037904e-05,
      "loss": 3.9929,
      "step": 295690
    },
    {
      "epoch": 0.6160416666666667,
      "grad_norm": 1.0537362098693848,
      "learning_rate": 9.72278541812811e-05,
      "loss": 3.8533,
      "step": 295700
    },
    {
      "epoch": 0.6160625,
      "grad_norm": 0.8924600481987,
      "learning_rate": 9.721862600013789e-05,
      "loss": 3.772,
      "step": 295710
    },
    {
      "epoch": 0.6160833333333333,
      "grad_norm": 0.768012285232544,
      "learning_rate": 9.720939804698934e-05,
      "loss": 3.724,
      "step": 295720
    },
    {
      "epoch": 0.6161041666666667,
      "grad_norm": 0.9356263279914856,
      "learning_rate": 9.720017032187534e-05,
      "loss": 3.8354,
      "step": 295730
    },
    {
      "epoch": 0.616125,
      "grad_norm": 0.8672733902931213,
      "learning_rate": 9.719094282483566e-05,
      "loss": 3.7381,
      "step": 295740
    },
    {
      "epoch": 0.6161458333333333,
      "grad_norm": 0.8933895230293274,
      "learning_rate": 9.718171555591022e-05,
      "loss": 3.6308,
      "step": 295750
    },
    {
      "epoch": 0.6161666666666666,
      "grad_norm": 0.9356716275215149,
      "learning_rate": 9.717248851513887e-05,
      "loss": 3.8278,
      "step": 295760
    },
    {
      "epoch": 0.6161875,
      "grad_norm": 0.8603678345680237,
      "learning_rate": 9.71632617025614e-05,
      "loss": 3.8251,
      "step": 295770
    },
    {
      "epoch": 0.6162083333333334,
      "grad_norm": 0.8230292797088623,
      "learning_rate": 9.715403511821781e-05,
      "loss": 3.911,
      "step": 295780
    },
    {
      "epoch": 0.6162291666666667,
      "grad_norm": 0.8529970645904541,
      "learning_rate": 9.714480876214783e-05,
      "loss": 3.8778,
      "step": 295790
    },
    {
      "epoch": 0.61625,
      "grad_norm": 0.8557131290435791,
      "learning_rate": 9.713558263439132e-05,
      "loss": 3.6852,
      "step": 295800
    },
    {
      "epoch": 0.6162708333333333,
      "grad_norm": 0.8729450702667236,
      "learning_rate": 9.712635673498825e-05,
      "loss": 3.9205,
      "step": 295810
    },
    {
      "epoch": 0.6162916666666667,
      "grad_norm": 0.9893913269042969,
      "learning_rate": 9.711713106397833e-05,
      "loss": 3.6976,
      "step": 295820
    },
    {
      "epoch": 0.6163125,
      "grad_norm": 1.0003360509872437,
      "learning_rate": 9.710790562140144e-05,
      "loss": 3.9286,
      "step": 295830
    },
    {
      "epoch": 0.6163333333333333,
      "grad_norm": 0.854581892490387,
      "learning_rate": 9.709868040729755e-05,
      "loss": 3.7678,
      "step": 295840
    },
    {
      "epoch": 0.6163541666666666,
      "grad_norm": 0.9393748641014099,
      "learning_rate": 9.708945542170636e-05,
      "loss": 3.8291,
      "step": 295850
    },
    {
      "epoch": 0.616375,
      "grad_norm": 0.8598981499671936,
      "learning_rate": 9.708023066466776e-05,
      "loss": 3.6911,
      "step": 295860
    },
    {
      "epoch": 0.6163958333333334,
      "grad_norm": 0.9320052862167358,
      "learning_rate": 9.707100613622169e-05,
      "loss": 3.5557,
      "step": 295870
    },
    {
      "epoch": 0.6164166666666666,
      "grad_norm": 0.7368797063827515,
      "learning_rate": 9.706178183640791e-05,
      "loss": 3.7953,
      "step": 295880
    },
    {
      "epoch": 0.6164375,
      "grad_norm": 0.8750339150428772,
      "learning_rate": 9.705255776526623e-05,
      "loss": 3.8671,
      "step": 295890
    },
    {
      "epoch": 0.6164583333333333,
      "grad_norm": 0.9405615329742432,
      "learning_rate": 9.704333392283657e-05,
      "loss": 3.7592,
      "step": 295900
    },
    {
      "epoch": 0.6164791666666667,
      "grad_norm": 0.9428192973136902,
      "learning_rate": 9.703411030915876e-05,
      "loss": 3.7785,
      "step": 295910
    },
    {
      "epoch": 0.6165,
      "grad_norm": 0.7610790133476257,
      "learning_rate": 9.702488692427262e-05,
      "loss": 3.8077,
      "step": 295920
    },
    {
      "epoch": 0.6165208333333333,
      "grad_norm": 0.8658614158630371,
      "learning_rate": 9.701566376821795e-05,
      "loss": 3.7827,
      "step": 295930
    },
    {
      "epoch": 0.6165416666666667,
      "grad_norm": 0.8287463188171387,
      "learning_rate": 9.700644084103471e-05,
      "loss": 3.8552,
      "step": 295940
    },
    {
      "epoch": 0.6165625,
      "grad_norm": 0.9229000210762024,
      "learning_rate": 9.699721814276264e-05,
      "loss": 3.7958,
      "step": 295950
    },
    {
      "epoch": 0.6165833333333334,
      "grad_norm": 0.9404018521308899,
      "learning_rate": 9.698799567344157e-05,
      "loss": 3.6101,
      "step": 295960
    },
    {
      "epoch": 0.6166041666666666,
      "grad_norm": 0.7054689526557922,
      "learning_rate": 9.697877343311144e-05,
      "loss": 3.886,
      "step": 295970
    },
    {
      "epoch": 0.616625,
      "grad_norm": 0.7768982648849487,
      "learning_rate": 9.696955142181199e-05,
      "loss": 3.5342,
      "step": 295980
    },
    {
      "epoch": 0.6166458333333333,
      "grad_norm": 0.8159003257751465,
      "learning_rate": 9.696032963958307e-05,
      "loss": 3.8321,
      "step": 295990
    },
    {
      "epoch": 0.6166666666666667,
      "grad_norm": 0.8108258247375488,
      "learning_rate": 9.695110808646456e-05,
      "loss": 3.8178,
      "step": 296000
    },
    {
      "epoch": 0.6166666666666667,
      "eval_loss": 4.085278511047363,
      "eval_runtime": 9.493,
      "eval_samples_per_second": 1.053,
      "eval_steps_per_second": 0.316,
      "step": 296000
    },
    {
      "epoch": 0.6166875,
      "grad_norm": 0.8082860708236694,
      "learning_rate": 9.69418867624963e-05,
      "loss": 3.8732,
      "step": 296010
    },
    {
      "epoch": 0.6167083333333333,
      "grad_norm": 0.8636878728866577,
      "learning_rate": 9.6932665667718e-05,
      "loss": 3.8436,
      "step": 296020
    },
    {
      "epoch": 0.6167291666666667,
      "grad_norm": 1.0930256843566895,
      "learning_rate": 9.692344480216963e-05,
      "loss": 3.8609,
      "step": 296030
    },
    {
      "epoch": 0.61675,
      "grad_norm": 0.8368425369262695,
      "learning_rate": 9.691422416589098e-05,
      "loss": 3.8071,
      "step": 296040
    },
    {
      "epoch": 0.6167708333333334,
      "grad_norm": 0.8587851524353027,
      "learning_rate": 9.690500375892181e-05,
      "loss": 3.8034,
      "step": 296050
    },
    {
      "epoch": 0.6167916666666666,
      "grad_norm": 0.8244616389274597,
      "learning_rate": 9.689578358130206e-05,
      "loss": 3.71,
      "step": 296060
    },
    {
      "epoch": 0.6168125,
      "grad_norm": 0.853470504283905,
      "learning_rate": 9.688656363307152e-05,
      "loss": 3.8584,
      "step": 296070
    },
    {
      "epoch": 0.6168333333333333,
      "grad_norm": 0.9163671135902405,
      "learning_rate": 9.687734391426993e-05,
      "loss": 3.6561,
      "step": 296080
    },
    {
      "epoch": 0.6168541666666667,
      "grad_norm": 0.9074391722679138,
      "learning_rate": 9.686812442493724e-05,
      "loss": 3.5779,
      "step": 296090
    },
    {
      "epoch": 0.616875,
      "grad_norm": 0.8400567173957825,
      "learning_rate": 9.685890516511323e-05,
      "loss": 3.745,
      "step": 296100
    },
    {
      "epoch": 0.6168958333333333,
      "grad_norm": 1.30488121509552,
      "learning_rate": 9.684968613483769e-05,
      "loss": 3.8424,
      "step": 296110
    },
    {
      "epoch": 0.6169166666666667,
      "grad_norm": 0.7939503192901611,
      "learning_rate": 9.684046733415049e-05,
      "loss": 3.8159,
      "step": 296120
    },
    {
      "epoch": 0.6169375,
      "grad_norm": 0.9725323915481567,
      "learning_rate": 9.683124876309142e-05,
      "loss": 3.7442,
      "step": 296130
    },
    {
      "epoch": 0.6169583333333334,
      "grad_norm": 0.8478773832321167,
      "learning_rate": 9.682203042170026e-05,
      "loss": 3.8413,
      "step": 296140
    },
    {
      "epoch": 0.6169791666666666,
      "grad_norm": 0.7396162152290344,
      "learning_rate": 9.681281231001695e-05,
      "loss": 3.6456,
      "step": 296150
    },
    {
      "epoch": 0.617,
      "grad_norm": 0.7376783490180969,
      "learning_rate": 9.680359442808122e-05,
      "loss": 3.581,
      "step": 296160
    },
    {
      "epoch": 0.6170208333333334,
      "grad_norm": 0.860107421875,
      "learning_rate": 9.679437677593286e-05,
      "loss": 3.7573,
      "step": 296170
    },
    {
      "epoch": 0.6170416666666667,
      "grad_norm": 0.8045779466629028,
      "learning_rate": 9.67851593536118e-05,
      "loss": 3.9147,
      "step": 296180
    },
    {
      "epoch": 0.6170625,
      "grad_norm": 0.8768818378448486,
      "learning_rate": 9.677594216115775e-05,
      "loss": 3.7673,
      "step": 296190
    },
    {
      "epoch": 0.6170833333333333,
      "grad_norm": 0.7656653523445129,
      "learning_rate": 9.67667251986106e-05,
      "loss": 3.7848,
      "step": 296200
    },
    {
      "epoch": 0.6171041666666667,
      "grad_norm": 1.0838189125061035,
      "learning_rate": 9.675750846601007e-05,
      "loss": 3.928,
      "step": 296210
    },
    {
      "epoch": 0.617125,
      "grad_norm": 0.929620087146759,
      "learning_rate": 9.674829196339604e-05,
      "loss": 3.8555,
      "step": 296220
    },
    {
      "epoch": 0.6171458333333333,
      "grad_norm": 0.8678210377693176,
      "learning_rate": 9.673907569080834e-05,
      "loss": 3.6831,
      "step": 296230
    },
    {
      "epoch": 0.6171666666666666,
      "grad_norm": 0.7634808421134949,
      "learning_rate": 9.67298596482867e-05,
      "loss": 3.8945,
      "step": 296240
    },
    {
      "epoch": 0.6171875,
      "grad_norm": 0.9497177004814148,
      "learning_rate": 9.672064383587105e-05,
      "loss": 3.8713,
      "step": 296250
    },
    {
      "epoch": 0.6172083333333334,
      "grad_norm": 0.8345152139663696,
      "learning_rate": 9.671142825360111e-05,
      "loss": 3.7743,
      "step": 296260
    },
    {
      "epoch": 0.6172291666666667,
      "grad_norm": 0.9008763432502747,
      "learning_rate": 9.670221290151664e-05,
      "loss": 3.7046,
      "step": 296270
    },
    {
      "epoch": 0.61725,
      "grad_norm": 0.7988986968994141,
      "learning_rate": 9.66929977796576e-05,
      "loss": 3.7423,
      "step": 296280
    },
    {
      "epoch": 0.6172708333333333,
      "grad_norm": 0.8452168703079224,
      "learning_rate": 9.668378288806367e-05,
      "loss": 3.8026,
      "step": 296290
    },
    {
      "epoch": 0.6172916666666667,
      "grad_norm": 0.8690430521965027,
      "learning_rate": 9.667456822677466e-05,
      "loss": 3.8591,
      "step": 296300
    },
    {
      "epoch": 0.6173125,
      "grad_norm": 0.9320059418678284,
      "learning_rate": 9.666535379583047e-05,
      "loss": 3.7275,
      "step": 296310
    },
    {
      "epoch": 0.6173333333333333,
      "grad_norm": 0.7936944365501404,
      "learning_rate": 9.665613959527083e-05,
      "loss": 3.7891,
      "step": 296320
    },
    {
      "epoch": 0.6173541666666666,
      "grad_norm": 0.7906092405319214,
      "learning_rate": 9.66469256251355e-05,
      "loss": 3.7279,
      "step": 296330
    },
    {
      "epoch": 0.617375,
      "grad_norm": 1.084911823272705,
      "learning_rate": 9.66377118854644e-05,
      "loss": 3.7815,
      "step": 296340
    },
    {
      "epoch": 0.6173958333333334,
      "grad_norm": 0.8433524370193481,
      "learning_rate": 9.662849837629722e-05,
      "loss": 3.7678,
      "step": 296350
    },
    {
      "epoch": 0.6174166666666666,
      "grad_norm": 0.9299524426460266,
      "learning_rate": 9.661928509767379e-05,
      "loss": 3.8195,
      "step": 296360
    },
    {
      "epoch": 0.6174375,
      "grad_norm": 0.8176583051681519,
      "learning_rate": 9.661007204963397e-05,
      "loss": 3.8503,
      "step": 296370
    },
    {
      "epoch": 0.6174583333333333,
      "grad_norm": 0.8985389471054077,
      "learning_rate": 9.66008592322175e-05,
      "loss": 3.7843,
      "step": 296380
    },
    {
      "epoch": 0.6174791666666667,
      "grad_norm": 1.2303963899612427,
      "learning_rate": 9.659164664546413e-05,
      "loss": 3.9686,
      "step": 296390
    },
    {
      "epoch": 0.6175,
      "grad_norm": 0.8924729824066162,
      "learning_rate": 9.658243428941372e-05,
      "loss": 3.8624,
      "step": 296400
    },
    {
      "epoch": 0.6175208333333333,
      "grad_norm": 0.8641865849494934,
      "learning_rate": 9.657322216410611e-05,
      "loss": 3.9268,
      "step": 296410
    },
    {
      "epoch": 0.6175416666666667,
      "grad_norm": 0.7843825221061707,
      "learning_rate": 9.656401026958095e-05,
      "loss": 3.7609,
      "step": 296420
    },
    {
      "epoch": 0.6175625,
      "grad_norm": 0.8207606077194214,
      "learning_rate": 9.655479860587815e-05,
      "loss": 3.8357,
      "step": 296430
    },
    {
      "epoch": 0.6175833333333334,
      "grad_norm": 0.9064454436302185,
      "learning_rate": 9.65455871730375e-05,
      "loss": 3.8444,
      "step": 296440
    },
    {
      "epoch": 0.6176041666666666,
      "grad_norm": 0.7372456192970276,
      "learning_rate": 9.653637597109868e-05,
      "loss": 3.7076,
      "step": 296450
    },
    {
      "epoch": 0.617625,
      "grad_norm": 0.9197031855583191,
      "learning_rate": 9.65271650001016e-05,
      "loss": 3.7757,
      "step": 296460
    },
    {
      "epoch": 0.6176458333333333,
      "grad_norm": 0.9177712798118591,
      "learning_rate": 9.651795426008601e-05,
      "loss": 3.7904,
      "step": 296470
    },
    {
      "epoch": 0.6176666666666667,
      "grad_norm": 0.7784044146537781,
      "learning_rate": 9.650874375109166e-05,
      "loss": 3.9376,
      "step": 296480
    },
    {
      "epoch": 0.6176875,
      "grad_norm": 0.8711751103401184,
      "learning_rate": 9.649953347315836e-05,
      "loss": 3.7122,
      "step": 296490
    },
    {
      "epoch": 0.6177083333333333,
      "grad_norm": 0.7938516736030579,
      "learning_rate": 9.649032342632594e-05,
      "loss": 3.8634,
      "step": 296500
    },
    {
      "epoch": 0.6177291666666667,
      "grad_norm": 0.8167446255683899,
      "learning_rate": 9.648111361063417e-05,
      "loss": 3.646,
      "step": 296510
    },
    {
      "epoch": 0.61775,
      "grad_norm": 0.8802165389060974,
      "learning_rate": 9.647190402612271e-05,
      "loss": 3.931,
      "step": 296520
    },
    {
      "epoch": 0.6177708333333334,
      "grad_norm": 1.0722018480300903,
      "learning_rate": 9.646269467283148e-05,
      "loss": 3.6137,
      "step": 296530
    },
    {
      "epoch": 0.6177916666666666,
      "grad_norm": 0.8561230301856995,
      "learning_rate": 9.645348555080024e-05,
      "loss": 3.8582,
      "step": 296540
    },
    {
      "epoch": 0.6178125,
      "grad_norm": 0.8645942807197571,
      "learning_rate": 9.644427666006869e-05,
      "loss": 3.7835,
      "step": 296550
    },
    {
      "epoch": 0.6178333333333333,
      "grad_norm": 0.9027866125106812,
      "learning_rate": 9.64350680006767e-05,
      "loss": 3.9988,
      "step": 296560
    },
    {
      "epoch": 0.6178541666666667,
      "grad_norm": 0.8678508400917053,
      "learning_rate": 9.642585957266405e-05,
      "loss": 3.8079,
      "step": 296570
    },
    {
      "epoch": 0.617875,
      "grad_norm": 0.8583168387413025,
      "learning_rate": 9.641665137607043e-05,
      "loss": 3.76,
      "step": 296580
    },
    {
      "epoch": 0.6178958333333333,
      "grad_norm": 1.001367449760437,
      "learning_rate": 9.640744341093564e-05,
      "loss": 3.7112,
      "step": 296590
    },
    {
      "epoch": 0.6179166666666667,
      "grad_norm": 1.0988520383834839,
      "learning_rate": 9.639823567729956e-05,
      "loss": 3.9193,
      "step": 296600
    },
    {
      "epoch": 0.6179375,
      "grad_norm": 0.9819632768630981,
      "learning_rate": 9.638902817520184e-05,
      "loss": 3.7049,
      "step": 296610
    },
    {
      "epoch": 0.6179583333333334,
      "grad_norm": 0.8399432301521301,
      "learning_rate": 9.637982090468233e-05,
      "loss": 3.9403,
      "step": 296620
    },
    {
      "epoch": 0.6179791666666666,
      "grad_norm": 0.8141496181488037,
      "learning_rate": 9.637061386578073e-05,
      "loss": 3.8873,
      "step": 296630
    },
    {
      "epoch": 0.618,
      "grad_norm": 0.7920694947242737,
      "learning_rate": 9.636140705853682e-05,
      "loss": 3.6179,
      "step": 296640
    },
    {
      "epoch": 0.6180208333333334,
      "grad_norm": 0.8307777643203735,
      "learning_rate": 9.63522004829905e-05,
      "loss": 3.7205,
      "step": 296650
    },
    {
      "epoch": 0.6180416666666667,
      "grad_norm": 1.0255447626113892,
      "learning_rate": 9.634299413918136e-05,
      "loss": 3.5047,
      "step": 296660
    },
    {
      "epoch": 0.6180625,
      "grad_norm": 1.0676822662353516,
      "learning_rate": 9.633378802714923e-05,
      "loss": 3.6586,
      "step": 296670
    },
    {
      "epoch": 0.6180833333333333,
      "grad_norm": 0.790988564491272,
      "learning_rate": 9.632458214693397e-05,
      "loss": 3.8321,
      "step": 296680
    },
    {
      "epoch": 0.6181041666666667,
      "grad_norm": 0.9557664394378662,
      "learning_rate": 9.631537649857522e-05,
      "loss": 3.8763,
      "step": 296690
    },
    {
      "epoch": 0.618125,
      "grad_norm": 0.9096288681030273,
      "learning_rate": 9.630617108211277e-05,
      "loss": 3.819,
      "step": 296700
    },
    {
      "epoch": 0.6181458333333333,
      "grad_norm": 0.7598894238471985,
      "learning_rate": 9.629696589758648e-05,
      "loss": 3.7362,
      "step": 296710
    },
    {
      "epoch": 0.6181666666666666,
      "grad_norm": 1.0050822496414185,
      "learning_rate": 9.628776094503601e-05,
      "loss": 3.6207,
      "step": 296720
    },
    {
      "epoch": 0.6181875,
      "grad_norm": 0.8357539772987366,
      "learning_rate": 9.627855622450108e-05,
      "loss": 3.7849,
      "step": 296730
    },
    {
      "epoch": 0.6182083333333334,
      "grad_norm": 0.8447256684303284,
      "learning_rate": 9.626935173602165e-05,
      "loss": 3.7893,
      "step": 296740
    },
    {
      "epoch": 0.6182291666666667,
      "grad_norm": 0.8264516592025757,
      "learning_rate": 9.626014747963731e-05,
      "loss": 3.9322,
      "step": 296750
    },
    {
      "epoch": 0.61825,
      "grad_norm": 0.8391881585121155,
      "learning_rate": 9.62509434553878e-05,
      "loss": 3.8368,
      "step": 296760
    },
    {
      "epoch": 0.6182708333333333,
      "grad_norm": 0.8743928074836731,
      "learning_rate": 9.6241739663313e-05,
      "loss": 3.5636,
      "step": 296770
    },
    {
      "epoch": 0.6182916666666667,
      "grad_norm": 0.923620343208313,
      "learning_rate": 9.62325361034526e-05,
      "loss": 3.7508,
      "step": 296780
    },
    {
      "epoch": 0.6183125,
      "grad_norm": 1.1414966583251953,
      "learning_rate": 9.622333277584635e-05,
      "loss": 3.8189,
      "step": 296790
    },
    {
      "epoch": 0.6183333333333333,
      "grad_norm": 0.8706612586975098,
      "learning_rate": 9.621412968053395e-05,
      "loss": 3.8434,
      "step": 296800
    },
    {
      "epoch": 0.6183541666666666,
      "grad_norm": 0.785003125667572,
      "learning_rate": 9.620492681755534e-05,
      "loss": 3.6554,
      "step": 296810
    },
    {
      "epoch": 0.618375,
      "grad_norm": 0.9288896322250366,
      "learning_rate": 9.619572418695008e-05,
      "loss": 3.854,
      "step": 296820
    },
    {
      "epoch": 0.6183958333333334,
      "grad_norm": 0.8686792254447937,
      "learning_rate": 9.618652178875798e-05,
      "loss": 3.7838,
      "step": 296830
    },
    {
      "epoch": 0.6184166666666666,
      "grad_norm": 0.7958293557167053,
      "learning_rate": 9.617731962301886e-05,
      "loss": 3.8934,
      "step": 296840
    },
    {
      "epoch": 0.6184375,
      "grad_norm": 0.841164767742157,
      "learning_rate": 9.616811768977239e-05,
      "loss": 3.7224,
      "step": 296850
    },
    {
      "epoch": 0.6184583333333333,
      "grad_norm": 0.9003117084503174,
      "learning_rate": 9.615891598905832e-05,
      "loss": 3.7981,
      "step": 296860
    },
    {
      "epoch": 0.6184791666666667,
      "grad_norm": 0.792665421962738,
      "learning_rate": 9.614971452091645e-05,
      "loss": 3.8697,
      "step": 296870
    },
    {
      "epoch": 0.6185,
      "grad_norm": 0.7755269408226013,
      "learning_rate": 9.614051328538652e-05,
      "loss": 3.6881,
      "step": 296880
    },
    {
      "epoch": 0.6185208333333333,
      "grad_norm": 0.7724848985671997,
      "learning_rate": 9.613131228250821e-05,
      "loss": 3.8654,
      "step": 296890
    },
    {
      "epoch": 0.6185416666666667,
      "grad_norm": 0.7964643836021423,
      "learning_rate": 9.612211151232132e-05,
      "loss": 3.6477,
      "step": 296900
    },
    {
      "epoch": 0.6185625,
      "grad_norm": 0.8950971364974976,
      "learning_rate": 9.611291097486561e-05,
      "loss": 3.9938,
      "step": 296910
    },
    {
      "epoch": 0.6185833333333334,
      "grad_norm": 1.2544827461242676,
      "learning_rate": 9.610371067018074e-05,
      "loss": 3.8971,
      "step": 296920
    },
    {
      "epoch": 0.6186041666666666,
      "grad_norm": 0.7402970194816589,
      "learning_rate": 9.609451059830653e-05,
      "loss": 3.7739,
      "step": 296930
    },
    {
      "epoch": 0.618625,
      "grad_norm": 1.4844274520874023,
      "learning_rate": 9.608531075928274e-05,
      "loss": 3.7094,
      "step": 296940
    },
    {
      "epoch": 0.6186458333333333,
      "grad_norm": 0.7942668795585632,
      "learning_rate": 9.607611115314899e-05,
      "loss": 3.7143,
      "step": 296950
    },
    {
      "epoch": 0.6186666666666667,
      "grad_norm": 0.7548977136611938,
      "learning_rate": 9.606691177994512e-05,
      "loss": 3.9079,
      "step": 296960
    },
    {
      "epoch": 0.6186875,
      "grad_norm": 0.8777881264686584,
      "learning_rate": 9.605771263971089e-05,
      "loss": 3.8257,
      "step": 296970
    },
    {
      "epoch": 0.6187083333333333,
      "grad_norm": 0.8463850617408752,
      "learning_rate": 9.604851373248594e-05,
      "loss": 3.6286,
      "step": 296980
    },
    {
      "epoch": 0.6187291666666667,
      "grad_norm": 0.8193777799606323,
      "learning_rate": 9.603931505831007e-05,
      "loss": 3.8113,
      "step": 296990
    },
    {
      "epoch": 0.61875,
      "grad_norm": 0.8349812626838684,
      "learning_rate": 9.603011661722301e-05,
      "loss": 3.8028,
      "step": 297000
    },
    {
      "epoch": 0.61875,
      "eval_loss": 4.081884384155273,
      "eval_runtime": 9.5076,
      "eval_samples_per_second": 1.052,
      "eval_steps_per_second": 0.316,
      "step": 297000
    },
    {
      "epoch": 0.6187708333333334,
      "grad_norm": 0.820480465888977,
      "learning_rate": 9.602091840926444e-05,
      "loss": 3.7864,
      "step": 297010
    },
    {
      "epoch": 0.6187916666666666,
      "grad_norm": 0.8338617086410522,
      "learning_rate": 9.601172043447423e-05,
      "loss": 3.6001,
      "step": 297020
    },
    {
      "epoch": 0.6188125,
      "grad_norm": 0.8009341955184937,
      "learning_rate": 9.600252269289195e-05,
      "loss": 3.7302,
      "step": 297030
    },
    {
      "epoch": 0.6188333333333333,
      "grad_norm": 0.8606090545654297,
      "learning_rate": 9.599332518455738e-05,
      "loss": 3.7539,
      "step": 297040
    },
    {
      "epoch": 0.6188541666666667,
      "grad_norm": 0.8161788582801819,
      "learning_rate": 9.598412790951032e-05,
      "loss": 3.8358,
      "step": 297050
    },
    {
      "epoch": 0.618875,
      "grad_norm": 0.8527824878692627,
      "learning_rate": 9.597493086779043e-05,
      "loss": 3.8172,
      "step": 297060
    },
    {
      "epoch": 0.6188958333333333,
      "grad_norm": 0.8396486043930054,
      "learning_rate": 9.59657340594374e-05,
      "loss": 3.8415,
      "step": 297070
    },
    {
      "epoch": 0.6189166666666667,
      "grad_norm": 0.8416311740875244,
      "learning_rate": 9.595653748449109e-05,
      "loss": 3.6855,
      "step": 297080
    },
    {
      "epoch": 0.6189375,
      "grad_norm": 0.9610157012939453,
      "learning_rate": 9.59473411429911e-05,
      "loss": 3.7352,
      "step": 297090
    },
    {
      "epoch": 0.6189583333333334,
      "grad_norm": 0.8840394616127014,
      "learning_rate": 9.593814503497725e-05,
      "loss": 3.9332,
      "step": 297100
    },
    {
      "epoch": 0.6189791666666666,
      "grad_norm": 0.8242537975311279,
      "learning_rate": 9.592894916048914e-05,
      "loss": 3.8569,
      "step": 297110
    },
    {
      "epoch": 0.619,
      "grad_norm": 0.8272463083267212,
      "learning_rate": 9.591975351956664e-05,
      "loss": 3.7974,
      "step": 297120
    },
    {
      "epoch": 0.6190208333333334,
      "grad_norm": 0.9145943522453308,
      "learning_rate": 9.591055811224935e-05,
      "loss": 3.6784,
      "step": 297130
    },
    {
      "epoch": 0.6190416666666667,
      "grad_norm": 0.785078763961792,
      "learning_rate": 9.590136293857702e-05,
      "loss": 3.8411,
      "step": 297140
    },
    {
      "epoch": 0.6190625,
      "grad_norm": 0.7657367587089539,
      "learning_rate": 9.589216799858946e-05,
      "loss": 3.807,
      "step": 297150
    },
    {
      "epoch": 0.6190833333333333,
      "grad_norm": 0.8290889859199524,
      "learning_rate": 9.588297329232627e-05,
      "loss": 3.8175,
      "step": 297160
    },
    {
      "epoch": 0.6191041666666667,
      "grad_norm": 0.7928743958473206,
      "learning_rate": 9.587377881982719e-05,
      "loss": 3.7668,
      "step": 297170
    },
    {
      "epoch": 0.619125,
      "grad_norm": 0.826694130897522,
      "learning_rate": 9.586458458113203e-05,
      "loss": 3.6359,
      "step": 297180
    },
    {
      "epoch": 0.6191458333333333,
      "grad_norm": 0.8923127055168152,
      "learning_rate": 9.585539057628038e-05,
      "loss": 3.9381,
      "step": 297190
    },
    {
      "epoch": 0.6191666666666666,
      "grad_norm": 0.9764368534088135,
      "learning_rate": 9.584619680531201e-05,
      "loss": 3.9241,
      "step": 297200
    },
    {
      "epoch": 0.6191875,
      "grad_norm": 0.7734724879264832,
      "learning_rate": 9.583700326826666e-05,
      "loss": 3.8953,
      "step": 297210
    },
    {
      "epoch": 0.6192083333333334,
      "grad_norm": 0.8281139135360718,
      "learning_rate": 9.582780996518404e-05,
      "loss": 3.8319,
      "step": 297220
    },
    {
      "epoch": 0.6192291666666667,
      "grad_norm": 0.8587824702262878,
      "learning_rate": 9.581861689610375e-05,
      "loss": 3.7597,
      "step": 297230
    },
    {
      "epoch": 0.61925,
      "grad_norm": 0.9384492635726929,
      "learning_rate": 9.580942406106569e-05,
      "loss": 3.8314,
      "step": 297240
    },
    {
      "epoch": 0.6192708333333333,
      "grad_norm": 0.8815089464187622,
      "learning_rate": 9.580023146010945e-05,
      "loss": 3.7728,
      "step": 297250
    },
    {
      "epoch": 0.6192916666666667,
      "grad_norm": 1.0260258913040161,
      "learning_rate": 9.57910390932747e-05,
      "loss": 3.9041,
      "step": 297260
    },
    {
      "epoch": 0.6193125,
      "grad_norm": 0.863739550113678,
      "learning_rate": 9.578184696060123e-05,
      "loss": 4.0903,
      "step": 297270
    },
    {
      "epoch": 0.6193333333333333,
      "grad_norm": 1.0740660429000854,
      "learning_rate": 9.577265506212876e-05,
      "loss": 3.9183,
      "step": 297280
    },
    {
      "epoch": 0.6193541666666667,
      "grad_norm": 0.8291411399841309,
      "learning_rate": 9.576346339789688e-05,
      "loss": 3.6334,
      "step": 297290
    },
    {
      "epoch": 0.619375,
      "grad_norm": 0.8240576386451721,
      "learning_rate": 9.575427196794542e-05,
      "loss": 4.0468,
      "step": 297300
    },
    {
      "epoch": 0.6193958333333334,
      "grad_norm": 0.901547372341156,
      "learning_rate": 9.574508077231405e-05,
      "loss": 3.6833,
      "step": 297310
    },
    {
      "epoch": 0.6194166666666666,
      "grad_norm": 0.8703473210334778,
      "learning_rate": 9.573588981104238e-05,
      "loss": 3.7559,
      "step": 297320
    },
    {
      "epoch": 0.6194375,
      "grad_norm": 0.8318756818771362,
      "learning_rate": 9.572669908417023e-05,
      "loss": 3.8708,
      "step": 297330
    },
    {
      "epoch": 0.6194583333333333,
      "grad_norm": 0.808111310005188,
      "learning_rate": 9.57175085917373e-05,
      "loss": 3.8067,
      "step": 297340
    },
    {
      "epoch": 0.6194791666666667,
      "grad_norm": 0.7778981328010559,
      "learning_rate": 9.57083183337832e-05,
      "loss": 3.9088,
      "step": 297350
    },
    {
      "epoch": 0.6195,
      "grad_norm": 0.8031676411628723,
      "learning_rate": 9.569912831034766e-05,
      "loss": 3.8318,
      "step": 297360
    },
    {
      "epoch": 0.6195208333333333,
      "grad_norm": 0.9679064154624939,
      "learning_rate": 9.568993852147044e-05,
      "loss": 3.7393,
      "step": 297370
    },
    {
      "epoch": 0.6195416666666667,
      "grad_norm": 1.0541276931762695,
      "learning_rate": 9.568074896719121e-05,
      "loss": 3.8367,
      "step": 297380
    },
    {
      "epoch": 0.6195625,
      "grad_norm": 0.8445208072662354,
      "learning_rate": 9.567155964754956e-05,
      "loss": 3.8333,
      "step": 297390
    },
    {
      "epoch": 0.6195833333333334,
      "grad_norm": 0.928580641746521,
      "learning_rate": 9.566237056258532e-05,
      "loss": 3.69,
      "step": 297400
    },
    {
      "epoch": 0.6196041666666666,
      "grad_norm": 0.8070337772369385,
      "learning_rate": 9.565318171233813e-05,
      "loss": 3.8692,
      "step": 297410
    },
    {
      "epoch": 0.619625,
      "grad_norm": 0.9153856039047241,
      "learning_rate": 9.564399309684763e-05,
      "loss": 3.7744,
      "step": 297420
    },
    {
      "epoch": 0.6196458333333333,
      "grad_norm": 0.9140968322753906,
      "learning_rate": 9.56348047161536e-05,
      "loss": 3.7821,
      "step": 297430
    },
    {
      "epoch": 0.6196666666666667,
      "grad_norm": 0.8864439129829407,
      "learning_rate": 9.562561657029574e-05,
      "loss": 3.7437,
      "step": 297440
    },
    {
      "epoch": 0.6196875,
      "grad_norm": 0.8029454946517944,
      "learning_rate": 9.56164286593136e-05,
      "loss": 3.8112,
      "step": 297450
    },
    {
      "epoch": 0.6197083333333333,
      "grad_norm": 1.025283694267273,
      "learning_rate": 9.560724098324702e-05,
      "loss": 3.8858,
      "step": 297460
    },
    {
      "epoch": 0.6197291666666667,
      "grad_norm": 0.8119401335716248,
      "learning_rate": 9.559805354213565e-05,
      "loss": 3.6924,
      "step": 297470
    },
    {
      "epoch": 0.61975,
      "grad_norm": 0.8772488832473755,
      "learning_rate": 9.55888663360191e-05,
      "loss": 3.8151,
      "step": 297480
    },
    {
      "epoch": 0.6197708333333334,
      "grad_norm": 0.9600579142570496,
      "learning_rate": 9.557967936493712e-05,
      "loss": 3.8195,
      "step": 297490
    },
    {
      "epoch": 0.6197916666666666,
      "grad_norm": 0.8070321083068848,
      "learning_rate": 9.557049262892944e-05,
      "loss": 3.7872,
      "step": 297500
    },
    {
      "epoch": 0.6198125,
      "grad_norm": 0.8441056609153748,
      "learning_rate": 9.556130612803562e-05,
      "loss": 3.739,
      "step": 297510
    },
    {
      "epoch": 0.6198333333333333,
      "grad_norm": 0.8682197332382202,
      "learning_rate": 9.555211986229546e-05,
      "loss": 3.7347,
      "step": 297520
    },
    {
      "epoch": 0.6198541666666667,
      "grad_norm": 0.852118968963623,
      "learning_rate": 9.554293383174857e-05,
      "loss": 3.8727,
      "step": 297530
    },
    {
      "epoch": 0.619875,
      "grad_norm": 0.7780918478965759,
      "learning_rate": 9.553374803643462e-05,
      "loss": 3.8136,
      "step": 297540
    },
    {
      "epoch": 0.6198958333333333,
      "grad_norm": 0.8447439670562744,
      "learning_rate": 9.552456247639337e-05,
      "loss": 3.7604,
      "step": 297550
    },
    {
      "epoch": 0.6199166666666667,
      "grad_norm": 0.8412631750106812,
      "learning_rate": 9.551537715166441e-05,
      "loss": 3.6621,
      "step": 297560
    },
    {
      "epoch": 0.6199375,
      "grad_norm": 0.8863887786865234,
      "learning_rate": 9.550619206228745e-05,
      "loss": 3.937,
      "step": 297570
    },
    {
      "epoch": 0.6199583333333333,
      "grad_norm": 0.8297488689422607,
      "learning_rate": 9.54970072083022e-05,
      "loss": 3.7598,
      "step": 297580
    },
    {
      "epoch": 0.6199791666666666,
      "grad_norm": 0.796183705329895,
      "learning_rate": 9.54878225897483e-05,
      "loss": 3.6055,
      "step": 297590
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8834927082061768,
      "learning_rate": 9.547863820666538e-05,
      "loss": 3.7227,
      "step": 297600
    },
    {
      "epoch": 0.6200208333333334,
      "grad_norm": 1.31706702709198,
      "learning_rate": 9.546945405909325e-05,
      "loss": 3.7939,
      "step": 297610
    },
    {
      "epoch": 0.6200416666666667,
      "grad_norm": 0.9108125567436218,
      "learning_rate": 9.546027014707149e-05,
      "loss": 3.7984,
      "step": 297620
    },
    {
      "epoch": 0.6200625,
      "grad_norm": 0.9694534540176392,
      "learning_rate": 9.545108647063968e-05,
      "loss": 3.8597,
      "step": 297630
    },
    {
      "epoch": 0.6200833333333333,
      "grad_norm": 0.8390901684761047,
      "learning_rate": 9.544190302983763e-05,
      "loss": 3.8895,
      "step": 297640
    },
    {
      "epoch": 0.6201041666666667,
      "grad_norm": 0.8987320065498352,
      "learning_rate": 9.5432719824705e-05,
      "loss": 3.709,
      "step": 297650
    },
    {
      "epoch": 0.620125,
      "grad_norm": 0.7989816069602966,
      "learning_rate": 9.542353685528139e-05,
      "loss": 3.7446,
      "step": 297660
    },
    {
      "epoch": 0.6201458333333333,
      "grad_norm": 1.1915181875228882,
      "learning_rate": 9.541435412160647e-05,
      "loss": 3.7923,
      "step": 297670
    },
    {
      "epoch": 0.6201666666666666,
      "grad_norm": 0.8304257392883301,
      "learning_rate": 9.540517162372e-05,
      "loss": 3.8366,
      "step": 297680
    },
    {
      "epoch": 0.6201875,
      "grad_norm": 0.7918643355369568,
      "learning_rate": 9.539598936166154e-05,
      "loss": 3.9377,
      "step": 297690
    },
    {
      "epoch": 0.6202083333333334,
      "grad_norm": 0.9077059030532837,
      "learning_rate": 9.538680733547076e-05,
      "loss": 3.9222,
      "step": 297700
    },
    {
      "epoch": 0.6202291666666667,
      "grad_norm": 0.7997696995735168,
      "learning_rate": 9.53776255451874e-05,
      "loss": 3.8226,
      "step": 297710
    },
    {
      "epoch": 0.62025,
      "grad_norm": 0.8274604678153992,
      "learning_rate": 9.536844399085108e-05,
      "loss": 3.7603,
      "step": 297720
    },
    {
      "epoch": 0.6202708333333333,
      "grad_norm": 0.9013824462890625,
      "learning_rate": 9.53592626725014e-05,
      "loss": 3.7598,
      "step": 297730
    },
    {
      "epoch": 0.6202916666666667,
      "grad_norm": 0.8040098547935486,
      "learning_rate": 9.535008159017816e-05,
      "loss": 3.833,
      "step": 297740
    },
    {
      "epoch": 0.6203125,
      "grad_norm": 0.8271915912628174,
      "learning_rate": 9.534090074392092e-05,
      "loss": 3.6357,
      "step": 297750
    },
    {
      "epoch": 0.6203333333333333,
      "grad_norm": 0.8776158094406128,
      "learning_rate": 9.533172013376929e-05,
      "loss": 3.6447,
      "step": 297760
    },
    {
      "epoch": 0.6203541666666667,
      "grad_norm": 0.9228850603103638,
      "learning_rate": 9.532253975976301e-05,
      "loss": 3.6437,
      "step": 297770
    },
    {
      "epoch": 0.620375,
      "grad_norm": 0.8733831644058228,
      "learning_rate": 9.531335962194178e-05,
      "loss": 3.8659,
      "step": 297780
    },
    {
      "epoch": 0.6203958333333334,
      "grad_norm": 1.051555871963501,
      "learning_rate": 9.530417972034511e-05,
      "loss": 3.8763,
      "step": 297790
    },
    {
      "epoch": 0.6204166666666666,
      "grad_norm": 0.8594317436218262,
      "learning_rate": 9.529500005501277e-05,
      "loss": 3.6877,
      "step": 297800
    },
    {
      "epoch": 0.6204375,
      "grad_norm": 0.9342063665390015,
      "learning_rate": 9.528582062598438e-05,
      "loss": 3.7113,
      "step": 297810
    },
    {
      "epoch": 0.6204583333333333,
      "grad_norm": 0.8593860864639282,
      "learning_rate": 9.527664143329957e-05,
      "loss": 3.8658,
      "step": 297820
    },
    {
      "epoch": 0.6204791666666667,
      "grad_norm": 0.8638442158699036,
      "learning_rate": 9.5267462476998e-05,
      "loss": 3.7428,
      "step": 297830
    },
    {
      "epoch": 0.6205,
      "grad_norm": 0.8021771311759949,
      "learning_rate": 9.525828375711938e-05,
      "loss": 3.7452,
      "step": 297840
    },
    {
      "epoch": 0.6205208333333333,
      "grad_norm": 0.873153567314148,
      "learning_rate": 9.524910527370324e-05,
      "loss": 3.8655,
      "step": 297850
    },
    {
      "epoch": 0.6205416666666667,
      "grad_norm": 0.8015013337135315,
      "learning_rate": 9.523992702678932e-05,
      "loss": 3.8389,
      "step": 297860
    },
    {
      "epoch": 0.6205625,
      "grad_norm": 0.9132459163665771,
      "learning_rate": 9.523074901641728e-05,
      "loss": 3.812,
      "step": 297870
    },
    {
      "epoch": 0.6205833333333334,
      "grad_norm": 0.8864531517028809,
      "learning_rate": 9.522157124262668e-05,
      "loss": 3.921,
      "step": 297880
    },
    {
      "epoch": 0.6206041666666666,
      "grad_norm": 0.8655661940574646,
      "learning_rate": 9.521239370545723e-05,
      "loss": 3.7799,
      "step": 297890
    },
    {
      "epoch": 0.620625,
      "grad_norm": 0.8268746137619019,
      "learning_rate": 9.520321640494854e-05,
      "loss": 3.7625,
      "step": 297900
    },
    {
      "epoch": 0.6206458333333333,
      "grad_norm": 0.9398876428604126,
      "learning_rate": 9.519403934114023e-05,
      "loss": 3.6704,
      "step": 297910
    },
    {
      "epoch": 0.6206666666666667,
      "grad_norm": 0.8977453708648682,
      "learning_rate": 9.518486251407206e-05,
      "loss": 3.6537,
      "step": 297920
    },
    {
      "epoch": 0.6206875,
      "grad_norm": 0.8396095037460327,
      "learning_rate": 9.517568592378352e-05,
      "loss": 3.7025,
      "step": 297930
    },
    {
      "epoch": 0.6207083333333333,
      "grad_norm": 0.9349267482757568,
      "learning_rate": 9.516650957031432e-05,
      "loss": 3.7021,
      "step": 297940
    },
    {
      "epoch": 0.6207291666666667,
      "grad_norm": 0.7984915971755981,
      "learning_rate": 9.515733345370413e-05,
      "loss": 3.7028,
      "step": 297950
    },
    {
      "epoch": 0.62075,
      "grad_norm": 0.905642032623291,
      "learning_rate": 9.514815757399253e-05,
      "loss": 3.7016,
      "step": 297960
    },
    {
      "epoch": 0.6207708333333334,
      "grad_norm": 0.9094860553741455,
      "learning_rate": 9.513898193121919e-05,
      "loss": 3.6523,
      "step": 297970
    },
    {
      "epoch": 0.6207916666666666,
      "grad_norm": 0.9166383147239685,
      "learning_rate": 9.512980652542371e-05,
      "loss": 3.8465,
      "step": 297980
    },
    {
      "epoch": 0.6208125,
      "grad_norm": 0.7988864779472351,
      "learning_rate": 9.512063135664575e-05,
      "loss": 3.7602,
      "step": 297990
    },
    {
      "epoch": 0.6208333333333333,
      "grad_norm": 0.8168799877166748,
      "learning_rate": 9.511145642492497e-05,
      "loss": 3.7628,
      "step": 298000
    },
    {
      "epoch": 0.6208333333333333,
      "eval_loss": 4.084568023681641,
      "eval_runtime": 9.2514,
      "eval_samples_per_second": 1.081,
      "eval_steps_per_second": 0.324,
      "step": 298000
    },
    {
      "epoch": 0.6208541666666667,
      "grad_norm": 0.7697490453720093,
      "learning_rate": 9.510228173030092e-05,
      "loss": 3.5874,
      "step": 298010
    },
    {
      "epoch": 0.620875,
      "grad_norm": 0.9023405909538269,
      "learning_rate": 9.509310727281335e-05,
      "loss": 3.8128,
      "step": 298020
    },
    {
      "epoch": 0.6208958333333333,
      "grad_norm": 0.767551064491272,
      "learning_rate": 9.508393305250178e-05,
      "loss": 3.7888,
      "step": 298030
    },
    {
      "epoch": 0.6209166666666667,
      "grad_norm": 0.898738443851471,
      "learning_rate": 9.507475906940586e-05,
      "loss": 3.7663,
      "step": 298040
    },
    {
      "epoch": 0.6209375,
      "grad_norm": 0.7331085801124573,
      "learning_rate": 9.506558532356529e-05,
      "loss": 3.8541,
      "step": 298050
    },
    {
      "epoch": 0.6209583333333333,
      "grad_norm": 1.102264404296875,
      "learning_rate": 9.505641181501962e-05,
      "loss": 3.8005,
      "step": 298060
    },
    {
      "epoch": 0.6209791666666666,
      "grad_norm": 0.8453526496887207,
      "learning_rate": 9.504723854380847e-05,
      "loss": 3.8545,
      "step": 298070
    },
    {
      "epoch": 0.621,
      "grad_norm": 0.8530891537666321,
      "learning_rate": 9.503806550997157e-05,
      "loss": 3.7715,
      "step": 298080
    },
    {
      "epoch": 0.6210208333333334,
      "grad_norm": 0.919188380241394,
      "learning_rate": 9.502889271354844e-05,
      "loss": 3.869,
      "step": 298090
    },
    {
      "epoch": 0.6210416666666667,
      "grad_norm": 0.9269299507141113,
      "learning_rate": 9.501972015457868e-05,
      "loss": 3.7941,
      "step": 298100
    },
    {
      "epoch": 0.6210625,
      "grad_norm": 0.9415562152862549,
      "learning_rate": 9.501054783310207e-05,
      "loss": 3.8485,
      "step": 298110
    },
    {
      "epoch": 0.6210833333333333,
      "grad_norm": 1.0554817914962769,
      "learning_rate": 9.500137574915809e-05,
      "loss": 3.8312,
      "step": 298120
    },
    {
      "epoch": 0.6211041666666667,
      "grad_norm": 1.041934609413147,
      "learning_rate": 9.499220390278635e-05,
      "loss": 3.9898,
      "step": 298130
    },
    {
      "epoch": 0.621125,
      "grad_norm": 0.7704170942306519,
      "learning_rate": 9.498303229402655e-05,
      "loss": 3.7264,
      "step": 298140
    },
    {
      "epoch": 0.6211458333333333,
      "grad_norm": 0.9126719236373901,
      "learning_rate": 9.49738609229183e-05,
      "loss": 3.7679,
      "step": 298150
    },
    {
      "epoch": 0.6211666666666666,
      "grad_norm": 1.0112520456314087,
      "learning_rate": 9.496468978950112e-05,
      "loss": 3.8607,
      "step": 298160
    },
    {
      "epoch": 0.6211875,
      "grad_norm": 0.9875612258911133,
      "learning_rate": 9.495551889381474e-05,
      "loss": 3.9357,
      "step": 298170
    },
    {
      "epoch": 0.6212083333333334,
      "grad_norm": 0.8582165837287903,
      "learning_rate": 9.494634823589874e-05,
      "loss": 3.8699,
      "step": 298180
    },
    {
      "epoch": 0.6212291666666667,
      "grad_norm": 0.8432323336601257,
      "learning_rate": 9.493717781579268e-05,
      "loss": 3.9274,
      "step": 298190
    },
    {
      "epoch": 0.62125,
      "grad_norm": 0.8040129542350769,
      "learning_rate": 9.492800763353626e-05,
      "loss": 3.6969,
      "step": 298200
    },
    {
      "epoch": 0.6212708333333333,
      "grad_norm": 0.9111244678497314,
      "learning_rate": 9.491883768916905e-05,
      "loss": 3.9093,
      "step": 298210
    },
    {
      "epoch": 0.6212916666666667,
      "grad_norm": 0.8452147841453552,
      "learning_rate": 9.490966798273061e-05,
      "loss": 3.9557,
      "step": 298220
    },
    {
      "epoch": 0.6213125,
      "grad_norm": 0.8547709584236145,
      "learning_rate": 9.490049851426062e-05,
      "loss": 3.7613,
      "step": 298230
    },
    {
      "epoch": 0.6213333333333333,
      "grad_norm": 0.9853127002716064,
      "learning_rate": 9.48913292837987e-05,
      "loss": 3.8844,
      "step": 298240
    },
    {
      "epoch": 0.6213541666666667,
      "grad_norm": 0.9671542644500732,
      "learning_rate": 9.488216029138444e-05,
      "loss": 3.8852,
      "step": 298250
    },
    {
      "epoch": 0.621375,
      "grad_norm": 0.9425337314605713,
      "learning_rate": 9.487299153705736e-05,
      "loss": 3.7661,
      "step": 298260
    },
    {
      "epoch": 0.6213958333333334,
      "grad_norm": 0.771578848361969,
      "learning_rate": 9.486382302085716e-05,
      "loss": 3.6704,
      "step": 298270
    },
    {
      "epoch": 0.6214166666666666,
      "grad_norm": 0.8911818861961365,
      "learning_rate": 9.485465474282346e-05,
      "loss": 3.6568,
      "step": 298280
    },
    {
      "epoch": 0.6214375,
      "grad_norm": 0.8038893938064575,
      "learning_rate": 9.484548670299575e-05,
      "loss": 3.8448,
      "step": 298290
    },
    {
      "epoch": 0.6214583333333333,
      "grad_norm": 0.8027129173278809,
      "learning_rate": 9.483631890141375e-05,
      "loss": 3.8969,
      "step": 298300
    },
    {
      "epoch": 0.6214791666666667,
      "grad_norm": 0.814728856086731,
      "learning_rate": 9.482715133811704e-05,
      "loss": 3.6684,
      "step": 298310
    },
    {
      "epoch": 0.6215,
      "grad_norm": 0.9761314392089844,
      "learning_rate": 9.481798401314513e-05,
      "loss": 3.9196,
      "step": 298320
    },
    {
      "epoch": 0.6215208333333333,
      "grad_norm": 0.7617948651313782,
      "learning_rate": 9.480881692653775e-05,
      "loss": 3.8192,
      "step": 298330
    },
    {
      "epoch": 0.6215416666666667,
      "grad_norm": 0.8170454502105713,
      "learning_rate": 9.479965007833444e-05,
      "loss": 3.7268,
      "step": 298340
    },
    {
      "epoch": 0.6215625,
      "grad_norm": 0.9988476037979126,
      "learning_rate": 9.479048346857472e-05,
      "loss": 3.6701,
      "step": 298350
    },
    {
      "epoch": 0.6215833333333334,
      "grad_norm": 0.836229681968689,
      "learning_rate": 9.47813170972983e-05,
      "loss": 3.7972,
      "step": 298360
    },
    {
      "epoch": 0.6216041666666666,
      "grad_norm": 0.7933621406555176,
      "learning_rate": 9.477215096454476e-05,
      "loss": 3.8809,
      "step": 298370
    },
    {
      "epoch": 0.621625,
      "grad_norm": 0.9092794060707092,
      "learning_rate": 9.476298507035361e-05,
      "loss": 3.8709,
      "step": 298380
    },
    {
      "epoch": 0.6216458333333333,
      "grad_norm": 0.7735906839370728,
      "learning_rate": 9.475381941476456e-05,
      "loss": 3.8427,
      "step": 298390
    },
    {
      "epoch": 0.6216666666666667,
      "grad_norm": 0.9435043334960938,
      "learning_rate": 9.474465399781711e-05,
      "loss": 3.6222,
      "step": 298400
    },
    {
      "epoch": 0.6216875,
      "grad_norm": 0.8445766568183899,
      "learning_rate": 9.473548881955086e-05,
      "loss": 3.8391,
      "step": 298410
    },
    {
      "epoch": 0.6217083333333333,
      "grad_norm": 0.7781491279602051,
      "learning_rate": 9.472632388000547e-05,
      "loss": 3.7586,
      "step": 298420
    },
    {
      "epoch": 0.6217291666666667,
      "grad_norm": 0.9749190211296082,
      "learning_rate": 9.471715917922047e-05,
      "loss": 3.8659,
      "step": 298430
    },
    {
      "epoch": 0.62175,
      "grad_norm": 0.8446419835090637,
      "learning_rate": 9.470799471723542e-05,
      "loss": 3.8244,
      "step": 298440
    },
    {
      "epoch": 0.6217708333333334,
      "grad_norm": 0.8882859349250793,
      "learning_rate": 9.469883049409001e-05,
      "loss": 3.7671,
      "step": 298450
    },
    {
      "epoch": 0.6217916666666666,
      "grad_norm": 0.857134997844696,
      "learning_rate": 9.468966650982372e-05,
      "loss": 3.8149,
      "step": 298460
    },
    {
      "epoch": 0.6218125,
      "grad_norm": 0.7519410848617554,
      "learning_rate": 9.468050276447615e-05,
      "loss": 3.712,
      "step": 298470
    },
    {
      "epoch": 0.6218333333333333,
      "grad_norm": 0.8517089486122131,
      "learning_rate": 9.467133925808698e-05,
      "loss": 3.7996,
      "step": 298480
    },
    {
      "epoch": 0.6218541666666667,
      "grad_norm": 0.7376191020011902,
      "learning_rate": 9.466217599069569e-05,
      "loss": 3.5886,
      "step": 298490
    },
    {
      "epoch": 0.621875,
      "grad_norm": 0.9217195510864258,
      "learning_rate": 9.465301296234188e-05,
      "loss": 3.7553,
      "step": 298500
    },
    {
      "epoch": 0.6218958333333333,
      "grad_norm": 0.8794544339179993,
      "learning_rate": 9.464385017306519e-05,
      "loss": 3.9433,
      "step": 298510
    },
    {
      "epoch": 0.6219166666666667,
      "grad_norm": 0.9490089416503906,
      "learning_rate": 9.463468762290516e-05,
      "loss": 3.6948,
      "step": 298520
    },
    {
      "epoch": 0.6219375,
      "grad_norm": 0.8116563558578491,
      "learning_rate": 9.46255253119013e-05,
      "loss": 3.8881,
      "step": 298530
    },
    {
      "epoch": 0.6219583333333333,
      "grad_norm": 0.8312418460845947,
      "learning_rate": 9.46163632400933e-05,
      "loss": 3.8836,
      "step": 298540
    },
    {
      "epoch": 0.6219791666666666,
      "grad_norm": 0.8917447328567505,
      "learning_rate": 9.460720140752069e-05,
      "loss": 3.6959,
      "step": 298550
    },
    {
      "epoch": 0.622,
      "grad_norm": 0.8418092727661133,
      "learning_rate": 9.459803981422304e-05,
      "loss": 3.8324,
      "step": 298560
    },
    {
      "epoch": 0.6220208333333334,
      "grad_norm": 0.9630600810050964,
      "learning_rate": 9.458887846023986e-05,
      "loss": 3.6341,
      "step": 298570
    },
    {
      "epoch": 0.6220416666666667,
      "grad_norm": 0.8915267586708069,
      "learning_rate": 9.457971734561091e-05,
      "loss": 3.9164,
      "step": 298580
    },
    {
      "epoch": 0.6220625,
      "grad_norm": 1.0100557804107666,
      "learning_rate": 9.457055647037557e-05,
      "loss": 3.699,
      "step": 298590
    },
    {
      "epoch": 0.6220833333333333,
      "grad_norm": 0.8930773138999939,
      "learning_rate": 9.456139583457346e-05,
      "loss": 3.8021,
      "step": 298600
    },
    {
      "epoch": 0.6221041666666667,
      "grad_norm": 0.7383667230606079,
      "learning_rate": 9.455223543824426e-05,
      "loss": 3.8548,
      "step": 298610
    },
    {
      "epoch": 0.622125,
      "grad_norm": 0.7882107496261597,
      "learning_rate": 9.454307528142742e-05,
      "loss": 3.7671,
      "step": 298620
    },
    {
      "epoch": 0.6221458333333333,
      "grad_norm": 0.9717805981636047,
      "learning_rate": 9.45339153641625e-05,
      "loss": 3.7499,
      "step": 298630
    },
    {
      "epoch": 0.6221666666666666,
      "grad_norm": 0.8407166600227356,
      "learning_rate": 9.452475568648915e-05,
      "loss": 3.7003,
      "step": 298640
    },
    {
      "epoch": 0.6221875,
      "grad_norm": 0.9032004475593567,
      "learning_rate": 9.451559624844692e-05,
      "loss": 3.6581,
      "step": 298650
    },
    {
      "epoch": 0.6222083333333334,
      "grad_norm": 0.86806720495224,
      "learning_rate": 9.45064370500753e-05,
      "loss": 3.9136,
      "step": 298660
    },
    {
      "epoch": 0.6222291666666667,
      "grad_norm": 0.8192035555839539,
      "learning_rate": 9.449727809141392e-05,
      "loss": 3.7558,
      "step": 298670
    },
    {
      "epoch": 0.62225,
      "grad_norm": 0.8586412072181702,
      "learning_rate": 9.448811937250237e-05,
      "loss": 3.7449,
      "step": 298680
    },
    {
      "epoch": 0.6222708333333333,
      "grad_norm": 1.2344846725463867,
      "learning_rate": 9.44789608933801e-05,
      "loss": 3.895,
      "step": 298690
    },
    {
      "epoch": 0.6222916666666667,
      "grad_norm": 0.881460428237915,
      "learning_rate": 9.446980265408678e-05,
      "loss": 3.7539,
      "step": 298700
    },
    {
      "epoch": 0.6223125,
      "grad_norm": 0.8343231678009033,
      "learning_rate": 9.446064465466197e-05,
      "loss": 3.8765,
      "step": 298710
    },
    {
      "epoch": 0.6223333333333333,
      "grad_norm": 0.8461002111434937,
      "learning_rate": 9.445148689514513e-05,
      "loss": 3.9451,
      "step": 298720
    },
    {
      "epoch": 0.6223541666666667,
      "grad_norm": 0.8166335821151733,
      "learning_rate": 9.444232937557589e-05,
      "loss": 3.8215,
      "step": 298730
    },
    {
      "epoch": 0.622375,
      "grad_norm": 1.0184036493301392,
      "learning_rate": 9.443317209599384e-05,
      "loss": 3.7443,
      "step": 298740
    },
    {
      "epoch": 0.6223958333333334,
      "grad_norm": 0.7875980734825134,
      "learning_rate": 9.442401505643844e-05,
      "loss": 3.6935,
      "step": 298750
    },
    {
      "epoch": 0.6224166666666666,
      "grad_norm": 0.8574492931365967,
      "learning_rate": 9.441485825694934e-05,
      "loss": 3.7255,
      "step": 298760
    },
    {
      "epoch": 0.6224375,
      "grad_norm": 0.7809149026870728,
      "learning_rate": 9.440570169756602e-05,
      "loss": 3.876,
      "step": 298770
    },
    {
      "epoch": 0.6224583333333333,
      "grad_norm": 0.971125066280365,
      "learning_rate": 9.439654537832804e-05,
      "loss": 4.0194,
      "step": 298780
    },
    {
      "epoch": 0.6224791666666667,
      "grad_norm": 0.785525918006897,
      "learning_rate": 9.438738929927503e-05,
      "loss": 3.7559,
      "step": 298790
    },
    {
      "epoch": 0.6225,
      "grad_norm": 0.8011088371276855,
      "learning_rate": 9.437823346044647e-05,
      "loss": 3.8051,
      "step": 298800
    },
    {
      "epoch": 0.6225208333333333,
      "grad_norm": 0.8839430212974548,
      "learning_rate": 9.436907786188189e-05,
      "loss": 3.7434,
      "step": 298810
    },
    {
      "epoch": 0.6225416666666667,
      "grad_norm": 0.804752767086029,
      "learning_rate": 9.43599225036209e-05,
      "loss": 3.6837,
      "step": 298820
    },
    {
      "epoch": 0.6225625,
      "grad_norm": 0.7140737771987915,
      "learning_rate": 9.435076738570304e-05,
      "loss": 3.8353,
      "step": 298830
    },
    {
      "epoch": 0.6225833333333334,
      "grad_norm": 0.9366557598114014,
      "learning_rate": 9.434161250816785e-05,
      "loss": 3.8638,
      "step": 298840
    },
    {
      "epoch": 0.6226041666666666,
      "grad_norm": 0.774057924747467,
      "learning_rate": 9.43324578710548e-05,
      "loss": 3.5755,
      "step": 298850
    },
    {
      "epoch": 0.622625,
      "grad_norm": 0.8688359260559082,
      "learning_rate": 9.432330347440352e-05,
      "loss": 3.8688,
      "step": 298860
    },
    {
      "epoch": 0.6226458333333333,
      "grad_norm": 0.7365770936012268,
      "learning_rate": 9.431414931825357e-05,
      "loss": 3.7471,
      "step": 298870
    },
    {
      "epoch": 0.6226666666666667,
      "grad_norm": 0.8088544011116028,
      "learning_rate": 9.430499540264438e-05,
      "loss": 3.7096,
      "step": 298880
    },
    {
      "epoch": 0.6226875,
      "grad_norm": 0.808527946472168,
      "learning_rate": 9.429584172761565e-05,
      "loss": 3.9664,
      "step": 298890
    },
    {
      "epoch": 0.6227083333333333,
      "grad_norm": 0.7852871417999268,
      "learning_rate": 9.428668829320677e-05,
      "loss": 3.7063,
      "step": 298900
    },
    {
      "epoch": 0.6227291666666667,
      "grad_norm": 0.9181403517723083,
      "learning_rate": 9.427753509945733e-05,
      "loss": 3.7849,
      "step": 298910
    },
    {
      "epoch": 0.62275,
      "grad_norm": 0.8053699731826782,
      "learning_rate": 9.426838214640694e-05,
      "loss": 3.7727,
      "step": 298920
    },
    {
      "epoch": 0.6227708333333334,
      "grad_norm": 0.8787956237792969,
      "learning_rate": 9.425922943409507e-05,
      "loss": 3.7017,
      "step": 298930
    },
    {
      "epoch": 0.6227916666666666,
      "grad_norm": 0.8534008860588074,
      "learning_rate": 9.425007696256122e-05,
      "loss": 3.7407,
      "step": 298940
    },
    {
      "epoch": 0.6228125,
      "grad_norm": 0.8491268754005432,
      "learning_rate": 9.424092473184502e-05,
      "loss": 3.798,
      "step": 298950
    },
    {
      "epoch": 0.6228333333333333,
      "grad_norm": 0.9488648772239685,
      "learning_rate": 9.423177274198595e-05,
      "loss": 3.615,
      "step": 298960
    },
    {
      "epoch": 0.6228541666666667,
      "grad_norm": 0.9118533134460449,
      "learning_rate": 9.422262099302349e-05,
      "loss": 3.6259,
      "step": 298970
    },
    {
      "epoch": 0.622875,
      "grad_norm": 0.7814366221427917,
      "learning_rate": 9.421346948499729e-05,
      "loss": 3.8636,
      "step": 298980
    },
    {
      "epoch": 0.6228958333333333,
      "grad_norm": 0.8299939036369324,
      "learning_rate": 9.420431821794679e-05,
      "loss": 3.7705,
      "step": 298990
    },
    {
      "epoch": 0.6229166666666667,
      "grad_norm": 0.8550758361816406,
      "learning_rate": 9.419516719191152e-05,
      "loss": 3.8974,
      "step": 299000
    },
    {
      "epoch": 0.6229166666666667,
      "eval_loss": 4.085837364196777,
      "eval_runtime": 9.0036,
      "eval_samples_per_second": 1.111,
      "eval_steps_per_second": 0.333,
      "step": 299000
    },
    {
      "epoch": 0.6229375,
      "grad_norm": 0.8716549873352051,
      "learning_rate": 9.418601640693113e-05,
      "loss": 3.6313,
      "step": 299010
    },
    {
      "epoch": 0.6229583333333333,
      "grad_norm": 0.8561294078826904,
      "learning_rate": 9.417686586304503e-05,
      "loss": 3.9385,
      "step": 299020
    },
    {
      "epoch": 0.6229791666666666,
      "grad_norm": 0.8195761442184448,
      "learning_rate": 9.416771556029271e-05,
      "loss": 3.7632,
      "step": 299030
    },
    {
      "epoch": 0.623,
      "grad_norm": 0.7996634840965271,
      "learning_rate": 9.415856549871379e-05,
      "loss": 3.9125,
      "step": 299040
    },
    {
      "epoch": 0.6230208333333334,
      "grad_norm": 0.8075212240219116,
      "learning_rate": 9.414941567834782e-05,
      "loss": 3.5826,
      "step": 299050
    },
    {
      "epoch": 0.6230416666666667,
      "grad_norm": 0.9023499488830566,
      "learning_rate": 9.414026609923416e-05,
      "loss": 3.7458,
      "step": 299060
    },
    {
      "epoch": 0.6230625,
      "grad_norm": 0.7819997668266296,
      "learning_rate": 9.41311167614125e-05,
      "loss": 3.6239,
      "step": 299070
    },
    {
      "epoch": 0.6230833333333333,
      "grad_norm": 0.8229759335517883,
      "learning_rate": 9.412196766492236e-05,
      "loss": 3.7861,
      "step": 299080
    },
    {
      "epoch": 0.6231041666666667,
      "grad_norm": 1.0066708326339722,
      "learning_rate": 9.411281880980309e-05,
      "loss": 3.8796,
      "step": 299090
    },
    {
      "epoch": 0.623125,
      "grad_norm": 0.8853894472122192,
      "learning_rate": 9.410367019609436e-05,
      "loss": 3.8182,
      "step": 299100
    },
    {
      "epoch": 0.6231458333333333,
      "grad_norm": 1.0069111585617065,
      "learning_rate": 9.409452182383569e-05,
      "loss": 3.7678,
      "step": 299110
    },
    {
      "epoch": 0.6231666666666666,
      "grad_norm": 0.7808910608291626,
      "learning_rate": 9.40853736930665e-05,
      "loss": 3.7608,
      "step": 299120
    },
    {
      "epoch": 0.6231875,
      "grad_norm": 0.9104899764060974,
      "learning_rate": 9.407622580382641e-05,
      "loss": 3.8394,
      "step": 299130
    },
    {
      "epoch": 0.6232083333333334,
      "grad_norm": 0.8600553870201111,
      "learning_rate": 9.406707815615488e-05,
      "loss": 3.7309,
      "step": 299140
    },
    {
      "epoch": 0.6232291666666666,
      "grad_norm": 0.8267426490783691,
      "learning_rate": 9.405793075009143e-05,
      "loss": 3.784,
      "step": 299150
    },
    {
      "epoch": 0.62325,
      "grad_norm": 0.9021289944648743,
      "learning_rate": 9.404878358567556e-05,
      "loss": 4.0683,
      "step": 299160
    },
    {
      "epoch": 0.6232708333333333,
      "grad_norm": 0.7502585053443909,
      "learning_rate": 9.403963666294678e-05,
      "loss": 3.9479,
      "step": 299170
    },
    {
      "epoch": 0.6232916666666667,
      "grad_norm": 0.8952597379684448,
      "learning_rate": 9.403048998194467e-05,
      "loss": 3.8671,
      "step": 299180
    },
    {
      "epoch": 0.6233125,
      "grad_norm": 0.8815714716911316,
      "learning_rate": 9.402134354270864e-05,
      "loss": 3.677,
      "step": 299190
    },
    {
      "epoch": 0.6233333333333333,
      "grad_norm": 0.9445626735687256,
      "learning_rate": 9.401219734527828e-05,
      "loss": 3.6943,
      "step": 299200
    },
    {
      "epoch": 0.6233541666666667,
      "grad_norm": 0.8999515771865845,
      "learning_rate": 9.400305138969308e-05,
      "loss": 3.7655,
      "step": 299210
    },
    {
      "epoch": 0.623375,
      "grad_norm": 1.022566795349121,
      "learning_rate": 9.399390567599249e-05,
      "loss": 3.6649,
      "step": 299220
    },
    {
      "epoch": 0.6233958333333334,
      "grad_norm": 1.005645513534546,
      "learning_rate": 9.398476020421606e-05,
      "loss": 3.7582,
      "step": 299230
    },
    {
      "epoch": 0.6234166666666666,
      "grad_norm": 0.8647992014884949,
      "learning_rate": 9.397561497440334e-05,
      "loss": 3.6586,
      "step": 299240
    },
    {
      "epoch": 0.6234375,
      "grad_norm": 0.8948290944099426,
      "learning_rate": 9.396646998659374e-05,
      "loss": 3.7361,
      "step": 299250
    },
    {
      "epoch": 0.6234583333333333,
      "grad_norm": 0.9278470873832703,
      "learning_rate": 9.395732524082685e-05,
      "loss": 3.6467,
      "step": 299260
    },
    {
      "epoch": 0.6234791666666667,
      "grad_norm": 0.7963247299194336,
      "learning_rate": 9.39481807371421e-05,
      "loss": 4.0041,
      "step": 299270
    },
    {
      "epoch": 0.6235,
      "grad_norm": 0.772821307182312,
      "learning_rate": 9.393903647557902e-05,
      "loss": 3.809,
      "step": 299280
    },
    {
      "epoch": 0.6235208333333333,
      "grad_norm": 0.8134801387786865,
      "learning_rate": 9.392989245617716e-05,
      "loss": 3.8439,
      "step": 299290
    },
    {
      "epoch": 0.6235416666666667,
      "grad_norm": 0.9987372159957886,
      "learning_rate": 9.392074867897592e-05,
      "loss": 3.5762,
      "step": 299300
    },
    {
      "epoch": 0.6235625,
      "grad_norm": 0.7602993845939636,
      "learning_rate": 9.391160514401484e-05,
      "loss": 3.8854,
      "step": 299310
    },
    {
      "epoch": 0.6235833333333334,
      "grad_norm": 0.8561531901359558,
      "learning_rate": 9.390246185133346e-05,
      "loss": 3.6534,
      "step": 299320
    },
    {
      "epoch": 0.6236041666666666,
      "grad_norm": 1.1440620422363281,
      "learning_rate": 9.389331880097125e-05,
      "loss": 3.6653,
      "step": 299330
    },
    {
      "epoch": 0.623625,
      "grad_norm": 0.8101168274879456,
      "learning_rate": 9.388417599296763e-05,
      "loss": 3.7281,
      "step": 299340
    },
    {
      "epoch": 0.6236458333333333,
      "grad_norm": 0.720172643661499,
      "learning_rate": 9.387503342736223e-05,
      "loss": 3.8954,
      "step": 299350
    },
    {
      "epoch": 0.6236666666666667,
      "grad_norm": 1.1204736232757568,
      "learning_rate": 9.386589110419445e-05,
      "loss": 3.7903,
      "step": 299360
    },
    {
      "epoch": 0.6236875,
      "grad_norm": 0.7945095300674438,
      "learning_rate": 9.385674902350375e-05,
      "loss": 3.8435,
      "step": 299370
    },
    {
      "epoch": 0.6237083333333333,
      "grad_norm": 0.7776488065719604,
      "learning_rate": 9.384760718532974e-05,
      "loss": 3.5666,
      "step": 299380
    },
    {
      "epoch": 0.6237291666666667,
      "grad_norm": 0.8121945261955261,
      "learning_rate": 9.383846558971184e-05,
      "loss": 3.6796,
      "step": 299390
    },
    {
      "epoch": 0.62375,
      "grad_norm": 0.8054572343826294,
      "learning_rate": 9.382932423668947e-05,
      "loss": 3.8366,
      "step": 299400
    },
    {
      "epoch": 0.6237708333333334,
      "grad_norm": 0.8921095132827759,
      "learning_rate": 9.382018312630224e-05,
      "loss": 3.8383,
      "step": 299410
    },
    {
      "epoch": 0.6237916666666666,
      "grad_norm": 0.76180100440979,
      "learning_rate": 9.381104225858959e-05,
      "loss": 3.8845,
      "step": 299420
    },
    {
      "epoch": 0.6238125,
      "grad_norm": 0.8169859647750854,
      "learning_rate": 9.380190163359097e-05,
      "loss": 3.8552,
      "step": 299430
    },
    {
      "epoch": 0.6238333333333334,
      "grad_norm": 1.0536261796951294,
      "learning_rate": 9.379276125134585e-05,
      "loss": 3.6007,
      "step": 299440
    },
    {
      "epoch": 0.6238541666666667,
      "grad_norm": 0.7949946522712708,
      "learning_rate": 9.378362111189383e-05,
      "loss": 3.9904,
      "step": 299450
    },
    {
      "epoch": 0.623875,
      "grad_norm": 0.8971896767616272,
      "learning_rate": 9.377448121527428e-05,
      "loss": 3.7114,
      "step": 299460
    },
    {
      "epoch": 0.6238958333333333,
      "grad_norm": 1.0639383792877197,
      "learning_rate": 9.376534156152668e-05,
      "loss": 3.7403,
      "step": 299470
    },
    {
      "epoch": 0.6239166666666667,
      "grad_norm": 0.8829340934753418,
      "learning_rate": 9.375620215069062e-05,
      "loss": 3.9132,
      "step": 299480
    },
    {
      "epoch": 0.6239375,
      "grad_norm": 0.8770833611488342,
      "learning_rate": 9.37470629828055e-05,
      "loss": 3.8228,
      "step": 299490
    },
    {
      "epoch": 0.6239583333333333,
      "grad_norm": 0.8184422850608826,
      "learning_rate": 9.37379240579107e-05,
      "loss": 3.6964,
      "step": 299500
    },
    {
      "epoch": 0.6239791666666666,
      "grad_norm": 0.8032745718955994,
      "learning_rate": 9.372878537604589e-05,
      "loss": 3.7487,
      "step": 299510
    },
    {
      "epoch": 0.624,
      "grad_norm": 1.1008182764053345,
      "learning_rate": 9.371964693725046e-05,
      "loss": 3.7471,
      "step": 299520
    },
    {
      "epoch": 0.6240208333333334,
      "grad_norm": 0.9367163181304932,
      "learning_rate": 9.371050874156382e-05,
      "loss": 3.8376,
      "step": 299530
    },
    {
      "epoch": 0.6240416666666667,
      "grad_norm": 1.1293885707855225,
      "learning_rate": 9.370137078902552e-05,
      "loss": 3.8981,
      "step": 299540
    },
    {
      "epoch": 0.6240625,
      "grad_norm": 0.9112109541893005,
      "learning_rate": 9.369223307967505e-05,
      "loss": 3.9645,
      "step": 299550
    },
    {
      "epoch": 0.6240833333333333,
      "grad_norm": 1.0035851001739502,
      "learning_rate": 9.368309561355179e-05,
      "loss": 3.8245,
      "step": 299560
    },
    {
      "epoch": 0.6241041666666667,
      "grad_norm": 0.8367327451705933,
      "learning_rate": 9.367395839069529e-05,
      "loss": 3.7346,
      "step": 299570
    },
    {
      "epoch": 0.624125,
      "grad_norm": 0.864067792892456,
      "learning_rate": 9.366482141114502e-05,
      "loss": 3.7389,
      "step": 299580
    },
    {
      "epoch": 0.6241458333333333,
      "grad_norm": 0.9064844250679016,
      "learning_rate": 9.365568467494038e-05,
      "loss": 3.6228,
      "step": 299590
    },
    {
      "epoch": 0.6241666666666666,
      "grad_norm": 0.9256223440170288,
      "learning_rate": 9.36465481821209e-05,
      "loss": 3.9141,
      "step": 299600
    },
    {
      "epoch": 0.6241875,
      "grad_norm": 0.8444375395774841,
      "learning_rate": 9.363741193272605e-05,
      "loss": 3.9537,
      "step": 299610
    },
    {
      "epoch": 0.6242083333333334,
      "grad_norm": 0.8883495926856995,
      "learning_rate": 9.36282759267952e-05,
      "loss": 3.76,
      "step": 299620
    },
    {
      "epoch": 0.6242291666666666,
      "grad_norm": 0.8631683588027954,
      "learning_rate": 9.361914016436797e-05,
      "loss": 3.5908,
      "step": 299630
    },
    {
      "epoch": 0.62425,
      "grad_norm": 1.0416566133499146,
      "learning_rate": 9.361000464548371e-05,
      "loss": 3.6785,
      "step": 299640
    },
    {
      "epoch": 0.6242708333333333,
      "grad_norm": 0.8477964997291565,
      "learning_rate": 9.360086937018185e-05,
      "loss": 3.7528,
      "step": 299650
    },
    {
      "epoch": 0.6242916666666667,
      "grad_norm": 1.0160715579986572,
      "learning_rate": 9.359173433850199e-05,
      "loss": 3.7934,
      "step": 299660
    },
    {
      "epoch": 0.6243125,
      "grad_norm": 0.756242573261261,
      "learning_rate": 9.358259955048346e-05,
      "loss": 3.9035,
      "step": 299670
    },
    {
      "epoch": 0.6243333333333333,
      "grad_norm": 0.7810983657836914,
      "learning_rate": 9.357346500616575e-05,
      "loss": 3.801,
      "step": 299680
    },
    {
      "epoch": 0.6243541666666667,
      "grad_norm": 0.8660990595817566,
      "learning_rate": 9.356433070558842e-05,
      "loss": 3.7437,
      "step": 299690
    },
    {
      "epoch": 0.624375,
      "grad_norm": 0.896803081035614,
      "learning_rate": 9.355519664879078e-05,
      "loss": 3.627,
      "step": 299700
    },
    {
      "epoch": 0.6243958333333334,
      "grad_norm": 0.8251351714134216,
      "learning_rate": 9.354606283581232e-05,
      "loss": 3.6834,
      "step": 299710
    },
    {
      "epoch": 0.6244166666666666,
      "grad_norm": 0.7565134167671204,
      "learning_rate": 9.35369292666926e-05,
      "loss": 3.633,
      "step": 299720
    },
    {
      "epoch": 0.6244375,
      "grad_norm": 0.9023234844207764,
      "learning_rate": 9.352779594147096e-05,
      "loss": 3.6559,
      "step": 299730
    },
    {
      "epoch": 0.6244583333333333,
      "grad_norm": 0.8823260068893433,
      "learning_rate": 9.351866286018691e-05,
      "loss": 3.7251,
      "step": 299740
    },
    {
      "epoch": 0.6244791666666667,
      "grad_norm": 0.8479496836662292,
      "learning_rate": 9.350953002287984e-05,
      "loss": 3.8478,
      "step": 299750
    },
    {
      "epoch": 0.6245,
      "grad_norm": 0.9377636909484863,
      "learning_rate": 9.350039742958927e-05,
      "loss": 3.6808,
      "step": 299760
    },
    {
      "epoch": 0.6245208333333333,
      "grad_norm": 0.9473831653594971,
      "learning_rate": 9.349126508035462e-05,
      "loss": 3.754,
      "step": 299770
    },
    {
      "epoch": 0.6245416666666667,
      "grad_norm": 0.8257113695144653,
      "learning_rate": 9.348213297521527e-05,
      "loss": 3.7254,
      "step": 299780
    },
    {
      "epoch": 0.6245625,
      "grad_norm": 0.9858779311180115,
      "learning_rate": 9.347300111421083e-05,
      "loss": 3.9165,
      "step": 299790
    },
    {
      "epoch": 0.6245833333333334,
      "grad_norm": 1.113503098487854,
      "learning_rate": 9.34638694973806e-05,
      "loss": 3.8513,
      "step": 299800
    },
    {
      "epoch": 0.6246041666666666,
      "grad_norm": 0.8159778714179993,
      "learning_rate": 9.345473812476406e-05,
      "loss": 3.8847,
      "step": 299810
    },
    {
      "epoch": 0.624625,
      "grad_norm": 0.9272345304489136,
      "learning_rate": 9.34456069964007e-05,
      "loss": 3.8739,
      "step": 299820
    },
    {
      "epoch": 0.6246458333333333,
      "grad_norm": 0.8491958379745483,
      "learning_rate": 9.343647611232993e-05,
      "loss": 3.8092,
      "step": 299830
    },
    {
      "epoch": 0.6246666666666667,
      "grad_norm": 0.8763323426246643,
      "learning_rate": 9.342734547259115e-05,
      "loss": 3.8567,
      "step": 299840
    },
    {
      "epoch": 0.6246875,
      "grad_norm": 0.7765594720840454,
      "learning_rate": 9.341821507722391e-05,
      "loss": 3.6995,
      "step": 299850
    },
    {
      "epoch": 0.6247083333333333,
      "grad_norm": 0.7597874402999878,
      "learning_rate": 9.340908492626757e-05,
      "loss": 3.7228,
      "step": 299860
    },
    {
      "epoch": 0.6247291666666667,
      "grad_norm": 0.8224925398826599,
      "learning_rate": 9.339995501976153e-05,
      "loss": 3.734,
      "step": 299870
    },
    {
      "epoch": 0.62475,
      "grad_norm": 0.7756549119949341,
      "learning_rate": 9.339082535774535e-05,
      "loss": 3.7477,
      "step": 299880
    },
    {
      "epoch": 0.6247708333333334,
      "grad_norm": 0.9961170554161072,
      "learning_rate": 9.338169594025839e-05,
      "loss": 3.7808,
      "step": 299890
    },
    {
      "epoch": 0.6247916666666666,
      "grad_norm": 0.7399198412895203,
      "learning_rate": 9.337256676734004e-05,
      "loss": 3.7458,
      "step": 299900
    },
    {
      "epoch": 0.6248125,
      "grad_norm": 0.7941576242446899,
      "learning_rate": 9.336343783902982e-05,
      "loss": 3.8134,
      "step": 299910
    },
    {
      "epoch": 0.6248333333333334,
      "grad_norm": 0.8265154957771301,
      "learning_rate": 9.335430915536717e-05,
      "loss": 3.7251,
      "step": 299920
    },
    {
      "epoch": 0.6248541666666667,
      "grad_norm": 0.7262126803398132,
      "learning_rate": 9.334518071639139e-05,
      "loss": 3.6191,
      "step": 299930
    },
    {
      "epoch": 0.624875,
      "grad_norm": 0.8519588112831116,
      "learning_rate": 9.333605252214205e-05,
      "loss": 3.8283,
      "step": 299940
    },
    {
      "epoch": 0.6248958333333333,
      "grad_norm": 1.088752269744873,
      "learning_rate": 9.332692457265858e-05,
      "loss": 3.7875,
      "step": 299950
    },
    {
      "epoch": 0.6249166666666667,
      "grad_norm": 0.7673940062522888,
      "learning_rate": 9.33177968679803e-05,
      "loss": 3.7367,
      "step": 299960
    },
    {
      "epoch": 0.6249375,
      "grad_norm": 0.8232280611991882,
      "learning_rate": 9.330866940814671e-05,
      "loss": 4.0352,
      "step": 299970
    },
    {
      "epoch": 0.6249583333333333,
      "grad_norm": 0.9373167753219604,
      "learning_rate": 9.329954219319726e-05,
      "loss": 3.8296,
      "step": 299980
    },
    {
      "epoch": 0.6249791666666666,
      "grad_norm": 0.7392756938934326,
      "learning_rate": 9.329041522317129e-05,
      "loss": 3.5903,
      "step": 299990
    },
    {
      "epoch": 0.625,
      "grad_norm": 1.0775667428970337,
      "learning_rate": 9.32812884981083e-05,
      "loss": 3.8916,
      "step": 300000
    },
    {
      "epoch": 0.625,
      "eval_loss": 4.079405784606934,
      "eval_runtime": 9.3602,
      "eval_samples_per_second": 1.068,
      "eval_steps_per_second": 0.321,
      "step": 300000
    },
    {
      "epoch": 0.6250208333333334,
      "grad_norm": 0.8659244775772095,
      "learning_rate": 9.327216201804774e-05,
      "loss": 3.8398,
      "step": 300010
    },
    {
      "epoch": 0.6250416666666667,
      "grad_norm": 0.7752177715301514,
      "learning_rate": 9.326303578302897e-05,
      "loss": 3.647,
      "step": 300020
    },
    {
      "epoch": 0.6250625,
      "grad_norm": 0.8140940070152283,
      "learning_rate": 9.325390979309139e-05,
      "loss": 3.8476,
      "step": 300030
    },
    {
      "epoch": 0.6250833333333333,
      "grad_norm": 0.9437229633331299,
      "learning_rate": 9.324478404827448e-05,
      "loss": 3.8236,
      "step": 300040
    },
    {
      "epoch": 0.6251041666666667,
      "grad_norm": 1.0484861135482788,
      "learning_rate": 9.323565854861765e-05,
      "loss": 3.6689,
      "step": 300050
    },
    {
      "epoch": 0.625125,
      "grad_norm": 1.0272778272628784,
      "learning_rate": 9.322653329416026e-05,
      "loss": 3.6924,
      "step": 300060
    },
    {
      "epoch": 0.6251458333333333,
      "grad_norm": 0.8311991095542908,
      "learning_rate": 9.32174082849418e-05,
      "loss": 3.8094,
      "step": 300070
    },
    {
      "epoch": 0.6251666666666666,
      "grad_norm": 0.9005937576293945,
      "learning_rate": 9.32082835210017e-05,
      "loss": 3.6891,
      "step": 300080
    },
    {
      "epoch": 0.6251875,
      "grad_norm": 0.7871305346488953,
      "learning_rate": 9.319915900237926e-05,
      "loss": 3.6064,
      "step": 300090
    },
    {
      "epoch": 0.6252083333333334,
      "grad_norm": 1.033279299736023,
      "learning_rate": 9.3190034729114e-05,
      "loss": 3.8549,
      "step": 300100
    },
    {
      "epoch": 0.6252291666666666,
      "grad_norm": 0.7621746063232422,
      "learning_rate": 9.318091070124536e-05,
      "loss": 3.7354,
      "step": 300110
    },
    {
      "epoch": 0.62525,
      "grad_norm": 0.9071531891822815,
      "learning_rate": 9.31717869188126e-05,
      "loss": 3.6359,
      "step": 300120
    },
    {
      "epoch": 0.6252708333333333,
      "grad_norm": 0.8048319816589355,
      "learning_rate": 9.316266338185532e-05,
      "loss": 3.9037,
      "step": 300130
    },
    {
      "epoch": 0.6252916666666667,
      "grad_norm": 0.9212338328361511,
      "learning_rate": 9.315354009041278e-05,
      "loss": 3.8248,
      "step": 300140
    },
    {
      "epoch": 0.6253125,
      "grad_norm": 0.8071906566619873,
      "learning_rate": 9.314441704452442e-05,
      "loss": 3.857,
      "step": 300150
    },
    {
      "epoch": 0.6253333333333333,
      "grad_norm": 0.8924387693405151,
      "learning_rate": 9.313529424422974e-05,
      "loss": 3.7922,
      "step": 300160
    },
    {
      "epoch": 0.6253541666666667,
      "grad_norm": 0.7647923827171326,
      "learning_rate": 9.312617168956804e-05,
      "loss": 3.6781,
      "step": 300170
    },
    {
      "epoch": 0.625375,
      "grad_norm": 0.9243895411491394,
      "learning_rate": 9.311704938057874e-05,
      "loss": 3.8639,
      "step": 300180
    },
    {
      "epoch": 0.6253958333333334,
      "grad_norm": 1.1569734811782837,
      "learning_rate": 9.310792731730134e-05,
      "loss": 3.7804,
      "step": 300190
    },
    {
      "epoch": 0.6254166666666666,
      "grad_norm": 0.8723496198654175,
      "learning_rate": 9.309880549977513e-05,
      "loss": 3.5884,
      "step": 300200
    },
    {
      "epoch": 0.6254375,
      "grad_norm": 0.9285814166069031,
      "learning_rate": 9.308968392803954e-05,
      "loss": 3.7808,
      "step": 300210
    },
    {
      "epoch": 0.6254583333333333,
      "grad_norm": 0.8418128490447998,
      "learning_rate": 9.308056260213405e-05,
      "loss": 3.7706,
      "step": 300220
    },
    {
      "epoch": 0.6254791666666667,
      "grad_norm": 0.8069294095039368,
      "learning_rate": 9.307144152209795e-05,
      "loss": 3.6984,
      "step": 300230
    },
    {
      "epoch": 0.6255,
      "grad_norm": 0.8951533436775208,
      "learning_rate": 9.30623206879707e-05,
      "loss": 3.7667,
      "step": 300240
    },
    {
      "epoch": 0.6255208333333333,
      "grad_norm": 0.9432979822158813,
      "learning_rate": 9.305320009979171e-05,
      "loss": 3.8384,
      "step": 300250
    },
    {
      "epoch": 0.6255416666666667,
      "grad_norm": 0.9805476069450378,
      "learning_rate": 9.304407975760036e-05,
      "loss": 3.8573,
      "step": 300260
    },
    {
      "epoch": 0.6255625,
      "grad_norm": 1.0166658163070679,
      "learning_rate": 9.303495966143599e-05,
      "loss": 3.7254,
      "step": 300270
    },
    {
      "epoch": 0.6255833333333334,
      "grad_norm": 1.0572896003723145,
      "learning_rate": 9.302583981133808e-05,
      "loss": 3.7699,
      "step": 300280
    },
    {
      "epoch": 0.6256041666666666,
      "grad_norm": 0.821264386177063,
      "learning_rate": 9.301672020734601e-05,
      "loss": 3.8307,
      "step": 300290
    },
    {
      "epoch": 0.625625,
      "grad_norm": 0.9730920791625977,
      "learning_rate": 9.300760084949907e-05,
      "loss": 3.8438,
      "step": 300300
    },
    {
      "epoch": 0.6256458333333333,
      "grad_norm": 0.9063682556152344,
      "learning_rate": 9.29984817378368e-05,
      "loss": 4.028,
      "step": 300310
    },
    {
      "epoch": 0.6256666666666667,
      "grad_norm": 0.8402699828147888,
      "learning_rate": 9.298936287239855e-05,
      "loss": 3.827,
      "step": 300320
    },
    {
      "epoch": 0.6256875,
      "grad_norm": 0.8136534690856934,
      "learning_rate": 9.298024425322365e-05,
      "loss": 3.7033,
      "step": 300330
    },
    {
      "epoch": 0.6257083333333333,
      "grad_norm": 0.7303826808929443,
      "learning_rate": 9.29711258803515e-05,
      "loss": 3.8122,
      "step": 300340
    },
    {
      "epoch": 0.6257291666666667,
      "grad_norm": 0.8475490212440491,
      "learning_rate": 9.296200775382157e-05,
      "loss": 3.7811,
      "step": 300350
    },
    {
      "epoch": 0.62575,
      "grad_norm": 0.8429573178291321,
      "learning_rate": 9.295288987367314e-05,
      "loss": 3.874,
      "step": 300360
    },
    {
      "epoch": 0.6257708333333334,
      "grad_norm": 1.032492995262146,
      "learning_rate": 9.294377223994566e-05,
      "loss": 3.7892,
      "step": 300370
    },
    {
      "epoch": 0.6257916666666666,
      "grad_norm": 0.8209789991378784,
      "learning_rate": 9.293465485267853e-05,
      "loss": 3.7804,
      "step": 300380
    },
    {
      "epoch": 0.6258125,
      "grad_norm": 0.9246670007705688,
      "learning_rate": 9.29255377119111e-05,
      "loss": 3.7718,
      "step": 300390
    },
    {
      "epoch": 0.6258333333333334,
      "grad_norm": 0.911127507686615,
      "learning_rate": 9.291642081768269e-05,
      "loss": 3.8675,
      "step": 300400
    },
    {
      "epoch": 0.6258541666666667,
      "grad_norm": 0.7813677787780762,
      "learning_rate": 9.29073041700328e-05,
      "loss": 3.8091,
      "step": 300410
    },
    {
      "epoch": 0.625875,
      "grad_norm": 0.8205837607383728,
      "learning_rate": 9.289818776900076e-05,
      "loss": 3.8443,
      "step": 300420
    },
    {
      "epoch": 0.6258958333333333,
      "grad_norm": 0.9275433421134949,
      "learning_rate": 9.288907161462592e-05,
      "loss": 3.6749,
      "step": 300430
    },
    {
      "epoch": 0.6259166666666667,
      "grad_norm": 0.782453715801239,
      "learning_rate": 9.287995570694769e-05,
      "loss": 3.8855,
      "step": 300440
    },
    {
      "epoch": 0.6259375,
      "grad_norm": 0.8787527084350586,
      "learning_rate": 9.287084004600548e-05,
      "loss": 3.7526,
      "step": 300450
    },
    {
      "epoch": 0.6259583333333333,
      "grad_norm": 0.7920159697532654,
      "learning_rate": 9.286172463183856e-05,
      "loss": 3.9965,
      "step": 300460
    },
    {
      "epoch": 0.6259791666666666,
      "grad_norm": 0.8081966042518616,
      "learning_rate": 9.285260946448642e-05,
      "loss": 3.6612,
      "step": 300470
    },
    {
      "epoch": 0.626,
      "grad_norm": 1.022132396697998,
      "learning_rate": 9.284349454398841e-05,
      "loss": 3.7309,
      "step": 300480
    },
    {
      "epoch": 0.6260208333333334,
      "grad_norm": 0.9475234746932983,
      "learning_rate": 9.28343798703838e-05,
      "loss": 3.8205,
      "step": 300490
    },
    {
      "epoch": 0.6260416666666667,
      "grad_norm": 1.016284465789795,
      "learning_rate": 9.282526544371207e-05,
      "loss": 3.7012,
      "step": 300500
    },
    {
      "epoch": 0.6260625,
      "grad_norm": 0.933700442314148,
      "learning_rate": 9.281615126401261e-05,
      "loss": 3.8286,
      "step": 300510
    },
    {
      "epoch": 0.6260833333333333,
      "grad_norm": 1.0191495418548584,
      "learning_rate": 9.280703733132468e-05,
      "loss": 3.5539,
      "step": 300520
    },
    {
      "epoch": 0.6261041666666667,
      "grad_norm": 0.7995049953460693,
      "learning_rate": 9.279792364568778e-05,
      "loss": 3.6381,
      "step": 300530
    },
    {
      "epoch": 0.626125,
      "grad_norm": 0.9769328832626343,
      "learning_rate": 9.278881020714116e-05,
      "loss": 3.6502,
      "step": 300540
    },
    {
      "epoch": 0.6261458333333333,
      "grad_norm": 0.9110910296440125,
      "learning_rate": 9.277969701572422e-05,
      "loss": 3.8262,
      "step": 300550
    },
    {
      "epoch": 0.6261666666666666,
      "grad_norm": 0.8749018311500549,
      "learning_rate": 9.277058407147639e-05,
      "loss": 3.8603,
      "step": 300560
    },
    {
      "epoch": 0.6261875,
      "grad_norm": 0.7832927703857422,
      "learning_rate": 9.276147137443696e-05,
      "loss": 3.7486,
      "step": 300570
    },
    {
      "epoch": 0.6262083333333334,
      "grad_norm": 0.9427353739738464,
      "learning_rate": 9.275235892464528e-05,
      "loss": 3.7172,
      "step": 300580
    },
    {
      "epoch": 0.6262291666666666,
      "grad_norm": 0.8087380528450012,
      "learning_rate": 9.274324672214081e-05,
      "loss": 3.5198,
      "step": 300590
    },
    {
      "epoch": 0.62625,
      "grad_norm": 0.9711349010467529,
      "learning_rate": 9.273413476696282e-05,
      "loss": 3.7555,
      "step": 300600
    },
    {
      "epoch": 0.6262708333333333,
      "grad_norm": 0.8265629410743713,
      "learning_rate": 9.272502305915073e-05,
      "loss": 3.9057,
      "step": 300610
    },
    {
      "epoch": 0.6262916666666667,
      "grad_norm": 0.9600284695625305,
      "learning_rate": 9.27159115987438e-05,
      "loss": 3.6997,
      "step": 300620
    },
    {
      "epoch": 0.6263125,
      "grad_norm": 0.7874913215637207,
      "learning_rate": 9.270680038578153e-05,
      "loss": 3.9525,
      "step": 300630
    },
    {
      "epoch": 0.6263333333333333,
      "grad_norm": 0.7703568935394287,
      "learning_rate": 9.269768942030316e-05,
      "loss": 3.7066,
      "step": 300640
    },
    {
      "epoch": 0.6263541666666667,
      "grad_norm": 0.8204183578491211,
      "learning_rate": 9.268857870234809e-05,
      "loss": 3.9018,
      "step": 300650
    },
    {
      "epoch": 0.626375,
      "grad_norm": 0.7551759481430054,
      "learning_rate": 9.267946823195572e-05,
      "loss": 3.5756,
      "step": 300660
    },
    {
      "epoch": 0.6263958333333334,
      "grad_norm": 0.8234511017799377,
      "learning_rate": 9.267035800916533e-05,
      "loss": 3.7249,
      "step": 300670
    },
    {
      "epoch": 0.6264166666666666,
      "grad_norm": 1.109093189239502,
      "learning_rate": 9.266124803401624e-05,
      "loss": 3.7308,
      "step": 300680
    },
    {
      "epoch": 0.6264375,
      "grad_norm": 0.8647588491439819,
      "learning_rate": 9.265213830654797e-05,
      "loss": 3.8313,
      "step": 300690
    },
    {
      "epoch": 0.6264583333333333,
      "grad_norm": 0.8030863404273987,
      "learning_rate": 9.264302882679971e-05,
      "loss": 3.89,
      "step": 300700
    },
    {
      "epoch": 0.6264791666666667,
      "grad_norm": 0.8695851564407349,
      "learning_rate": 9.263391959481084e-05,
      "loss": 3.7415,
      "step": 300710
    },
    {
      "epoch": 0.6265,
      "grad_norm": 0.7804007530212402,
      "learning_rate": 9.262481061062077e-05,
      "loss": 3.7095,
      "step": 300720
    },
    {
      "epoch": 0.6265208333333333,
      "grad_norm": 0.8012030124664307,
      "learning_rate": 9.26157018742688e-05,
      "loss": 3.679,
      "step": 300730
    },
    {
      "epoch": 0.6265416666666667,
      "grad_norm": 0.819987952709198,
      "learning_rate": 9.260659338579422e-05,
      "loss": 3.9116,
      "step": 300740
    },
    {
      "epoch": 0.6265625,
      "grad_norm": 0.8539497256278992,
      "learning_rate": 9.259748514523653e-05,
      "loss": 3.8035,
      "step": 300750
    },
    {
      "epoch": 0.6265833333333334,
      "grad_norm": 0.9586921334266663,
      "learning_rate": 9.258837715263498e-05,
      "loss": 3.8218,
      "step": 300760
    },
    {
      "epoch": 0.6266041666666666,
      "grad_norm": 0.8277042508125305,
      "learning_rate": 9.257926940802885e-05,
      "loss": 3.7715,
      "step": 300770
    },
    {
      "epoch": 0.626625,
      "grad_norm": 0.7992563843727112,
      "learning_rate": 9.257016191145758e-05,
      "loss": 3.8011,
      "step": 300780
    },
    {
      "epoch": 0.6266458333333333,
      "grad_norm": 1.0134730339050293,
      "learning_rate": 9.25610546629605e-05,
      "loss": 3.7855,
      "step": 300790
    },
    {
      "epoch": 0.6266666666666667,
      "grad_norm": 0.7617055773735046,
      "learning_rate": 9.255194766257687e-05,
      "loss": 3.7007,
      "step": 300800
    },
    {
      "epoch": 0.6266875,
      "grad_norm": 1.0045417547225952,
      "learning_rate": 9.254284091034613e-05,
      "loss": 3.7504,
      "step": 300810
    },
    {
      "epoch": 0.6267083333333333,
      "grad_norm": 0.8444632887840271,
      "learning_rate": 9.25337344063076e-05,
      "loss": 3.7455,
      "step": 300820
    },
    {
      "epoch": 0.6267291666666667,
      "grad_norm": 0.8403873443603516,
      "learning_rate": 9.252462815050054e-05,
      "loss": 3.724,
      "step": 300830
    },
    {
      "epoch": 0.62675,
      "grad_norm": 0.8149324655532837,
      "learning_rate": 9.251552214296433e-05,
      "loss": 3.8439,
      "step": 300840
    },
    {
      "epoch": 0.6267708333333334,
      "grad_norm": 0.7766588926315308,
      "learning_rate": 9.250641638373836e-05,
      "loss": 3.6334,
      "step": 300850
    },
    {
      "epoch": 0.6267916666666666,
      "grad_norm": 0.852530300617218,
      "learning_rate": 9.249731087286187e-05,
      "loss": 3.7237,
      "step": 300860
    },
    {
      "epoch": 0.6268125,
      "grad_norm": 0.844249963760376,
      "learning_rate": 9.248820561037424e-05,
      "loss": 3.9411,
      "step": 300870
    },
    {
      "epoch": 0.6268333333333334,
      "grad_norm": 0.7746432423591614,
      "learning_rate": 9.247910059631484e-05,
      "loss": 3.911,
      "step": 300880
    },
    {
      "epoch": 0.6268541666666667,
      "grad_norm": 0.8090285658836365,
      "learning_rate": 9.246999583072291e-05,
      "loss": 3.9825,
      "step": 300890
    },
    {
      "epoch": 0.626875,
      "grad_norm": 0.8387415409088135,
      "learning_rate": 9.246089131363787e-05,
      "loss": 3.7716,
      "step": 300900
    },
    {
      "epoch": 0.6268958333333333,
      "grad_norm": 0.8218038082122803,
      "learning_rate": 9.245178704509897e-05,
      "loss": 3.744,
      "step": 300910
    },
    {
      "epoch": 0.6269166666666667,
      "grad_norm": 0.9480786919593811,
      "learning_rate": 9.24426830251456e-05,
      "loss": 3.861,
      "step": 300920
    },
    {
      "epoch": 0.6269375,
      "grad_norm": 0.8407257199287415,
      "learning_rate": 9.2433579253817e-05,
      "loss": 3.9616,
      "step": 300930
    },
    {
      "epoch": 0.6269583333333333,
      "grad_norm": 0.7803667187690735,
      "learning_rate": 9.24244757311526e-05,
      "loss": 3.881,
      "step": 300940
    },
    {
      "epoch": 0.6269791666666666,
      "grad_norm": 0.9265745878219604,
      "learning_rate": 9.241537245719169e-05,
      "loss": 3.6833,
      "step": 300950
    },
    {
      "epoch": 0.627,
      "grad_norm": 0.8256815075874329,
      "learning_rate": 9.240626943197351e-05,
      "loss": 3.8037,
      "step": 300960
    },
    {
      "epoch": 0.6270208333333334,
      "grad_norm": 0.8914546370506287,
      "learning_rate": 9.239716665553749e-05,
      "loss": 3.6838,
      "step": 300970
    },
    {
      "epoch": 0.6270416666666667,
      "grad_norm": 0.8363865613937378,
      "learning_rate": 9.238806412792294e-05,
      "loss": 3.6769,
      "step": 300980
    },
    {
      "epoch": 0.6270625,
      "grad_norm": 0.8178786039352417,
      "learning_rate": 9.237896184916908e-05,
      "loss": 3.7876,
      "step": 300990
    },
    {
      "epoch": 0.6270833333333333,
      "grad_norm": 1.1548796892166138,
      "learning_rate": 9.236985981931535e-05,
      "loss": 3.6816,
      "step": 301000
    },
    {
      "epoch": 0.6270833333333333,
      "eval_loss": 4.088930606842041,
      "eval_runtime": 8.9577,
      "eval_samples_per_second": 1.116,
      "eval_steps_per_second": 0.335,
      "step": 301000
    },
    {
      "epoch": 0.6271041666666667,
      "grad_norm": 0.8470903635025024,
      "learning_rate": 9.2360758038401e-05,
      "loss": 3.8736,
      "step": 301010
    },
    {
      "epoch": 0.627125,
      "grad_norm": 0.9530842304229736,
      "learning_rate": 9.235165650646533e-05,
      "loss": 3.817,
      "step": 301020
    },
    {
      "epoch": 0.6271458333333333,
      "grad_norm": 0.8484577536582947,
      "learning_rate": 9.234255522354773e-05,
      "loss": 3.8292,
      "step": 301030
    },
    {
      "epoch": 0.6271666666666667,
      "grad_norm": 0.9402695894241333,
      "learning_rate": 9.233345418968746e-05,
      "loss": 3.9364,
      "step": 301040
    },
    {
      "epoch": 0.6271875,
      "grad_norm": 0.9810612797737122,
      "learning_rate": 9.232435340492381e-05,
      "loss": 3.8492,
      "step": 301050
    },
    {
      "epoch": 0.6272083333333334,
      "grad_norm": 0.8414016366004944,
      "learning_rate": 9.231525286929615e-05,
      "loss": 3.8187,
      "step": 301060
    },
    {
      "epoch": 0.6272291666666666,
      "grad_norm": 0.8741570115089417,
      "learning_rate": 9.230615258284377e-05,
      "loss": 3.843,
      "step": 301070
    },
    {
      "epoch": 0.62725,
      "grad_norm": 1.0809000730514526,
      "learning_rate": 9.229705254560593e-05,
      "loss": 3.8033,
      "step": 301080
    },
    {
      "epoch": 0.6272708333333333,
      "grad_norm": 0.9945182204246521,
      "learning_rate": 9.228795275762204e-05,
      "loss": 3.8886,
      "step": 301090
    },
    {
      "epoch": 0.6272916666666667,
      "grad_norm": 0.8574299216270447,
      "learning_rate": 9.227885321893132e-05,
      "loss": 3.6402,
      "step": 301100
    },
    {
      "epoch": 0.6273125,
      "grad_norm": 0.8032575249671936,
      "learning_rate": 9.226975392957309e-05,
      "loss": 3.7435,
      "step": 301110
    },
    {
      "epoch": 0.6273333333333333,
      "grad_norm": 0.898327112197876,
      "learning_rate": 9.226065488958672e-05,
      "loss": 3.7995,
      "step": 301120
    },
    {
      "epoch": 0.6273541666666667,
      "grad_norm": 1.0482759475708008,
      "learning_rate": 9.225155609901147e-05,
      "loss": 3.7896,
      "step": 301130
    },
    {
      "epoch": 0.627375,
      "grad_norm": 0.7572363615036011,
      "learning_rate": 9.224245755788659e-05,
      "loss": 3.7659,
      "step": 301140
    },
    {
      "epoch": 0.6273958333333334,
      "grad_norm": 0.9688701033592224,
      "learning_rate": 9.223335926625144e-05,
      "loss": 3.7454,
      "step": 301150
    },
    {
      "epoch": 0.6274166666666666,
      "grad_norm": 0.7316981554031372,
      "learning_rate": 9.222426122414537e-05,
      "loss": 3.7984,
      "step": 301160
    },
    {
      "epoch": 0.6274375,
      "grad_norm": 0.8304212093353271,
      "learning_rate": 9.221516343160755e-05,
      "loss": 3.8942,
      "step": 301170
    },
    {
      "epoch": 0.6274583333333333,
      "grad_norm": 0.9177834987640381,
      "learning_rate": 9.220606588867734e-05,
      "loss": 3.6259,
      "step": 301180
    },
    {
      "epoch": 0.6274791666666667,
      "grad_norm": 0.8523882627487183,
      "learning_rate": 9.219696859539413e-05,
      "loss": 3.8035,
      "step": 301190
    },
    {
      "epoch": 0.6275,
      "grad_norm": 0.836349368095398,
      "learning_rate": 9.21878715517971e-05,
      "loss": 3.6738,
      "step": 301200
    },
    {
      "epoch": 0.6275208333333333,
      "grad_norm": 0.7853603959083557,
      "learning_rate": 9.217877475792554e-05,
      "loss": 3.8407,
      "step": 301210
    },
    {
      "epoch": 0.6275416666666667,
      "grad_norm": 0.8221355080604553,
      "learning_rate": 9.216967821381884e-05,
      "loss": 3.6093,
      "step": 301220
    },
    {
      "epoch": 0.6275625,
      "grad_norm": 0.8085706233978271,
      "learning_rate": 9.216058191951621e-05,
      "loss": 3.9483,
      "step": 301230
    },
    {
      "epoch": 0.6275833333333334,
      "grad_norm": 0.8185737133026123,
      "learning_rate": 9.215148587505696e-05,
      "loss": 3.6995,
      "step": 301240
    },
    {
      "epoch": 0.6276041666666666,
      "grad_norm": 0.9123957753181458,
      "learning_rate": 9.214239008048044e-05,
      "loss": 3.7658,
      "step": 301250
    },
    {
      "epoch": 0.627625,
      "grad_norm": 0.9053905010223389,
      "learning_rate": 9.213329453582588e-05,
      "loss": 3.6823,
      "step": 301260
    },
    {
      "epoch": 0.6276458333333333,
      "grad_norm": 0.8686220645904541,
      "learning_rate": 9.212419924113256e-05,
      "loss": 3.9577,
      "step": 301270
    },
    {
      "epoch": 0.6276666666666667,
      "grad_norm": 0.811103343963623,
      "learning_rate": 9.211510419643979e-05,
      "loss": 3.8555,
      "step": 301280
    },
    {
      "epoch": 0.6276875,
      "grad_norm": 0.791031002998352,
      "learning_rate": 9.21060094017869e-05,
      "loss": 3.8107,
      "step": 301290
    },
    {
      "epoch": 0.6277083333333333,
      "grad_norm": 0.9857469201087952,
      "learning_rate": 9.209691485721306e-05,
      "loss": 3.7449,
      "step": 301300
    },
    {
      "epoch": 0.6277291666666667,
      "grad_norm": 0.9710245132446289,
      "learning_rate": 9.208782056275766e-05,
      "loss": 3.7015,
      "step": 301310
    },
    {
      "epoch": 0.62775,
      "grad_norm": 0.8895391821861267,
      "learning_rate": 9.207872651845998e-05,
      "loss": 3.7725,
      "step": 301320
    },
    {
      "epoch": 0.6277708333333333,
      "grad_norm": 0.9862987399101257,
      "learning_rate": 9.206963272435925e-05,
      "loss": 3.782,
      "step": 301330
    },
    {
      "epoch": 0.6277916666666666,
      "grad_norm": 0.9222316145896912,
      "learning_rate": 9.206053918049476e-05,
      "loss": 3.6789,
      "step": 301340
    },
    {
      "epoch": 0.6278125,
      "grad_norm": 0.8637233376502991,
      "learning_rate": 9.205144588690587e-05,
      "loss": 3.9522,
      "step": 301350
    },
    {
      "epoch": 0.6278333333333334,
      "grad_norm": 0.8073850274085999,
      "learning_rate": 9.204235284363171e-05,
      "loss": 3.5508,
      "step": 301360
    },
    {
      "epoch": 0.6278541666666667,
      "grad_norm": 0.9049445390701294,
      "learning_rate": 9.20332600507117e-05,
      "loss": 3.8791,
      "step": 301370
    },
    {
      "epoch": 0.627875,
      "grad_norm": 0.9043413400650024,
      "learning_rate": 9.202416750818507e-05,
      "loss": 3.9171,
      "step": 301380
    },
    {
      "epoch": 0.6278958333333333,
      "grad_norm": 0.8013696670532227,
      "learning_rate": 9.201507521609104e-05,
      "loss": 3.9769,
      "step": 301390
    },
    {
      "epoch": 0.6279166666666667,
      "grad_norm": 0.832286536693573,
      "learning_rate": 9.200598317446899e-05,
      "loss": 3.8037,
      "step": 301400
    },
    {
      "epoch": 0.6279375,
      "grad_norm": 0.9125387668609619,
      "learning_rate": 9.19968913833581e-05,
      "loss": 3.9704,
      "step": 301410
    },
    {
      "epoch": 0.6279583333333333,
      "grad_norm": 0.746273398399353,
      "learning_rate": 9.198779984279766e-05,
      "loss": 3.8907,
      "step": 301420
    },
    {
      "epoch": 0.6279791666666666,
      "grad_norm": 0.8864343762397766,
      "learning_rate": 9.197870855282701e-05,
      "loss": 3.657,
      "step": 301430
    },
    {
      "epoch": 0.628,
      "grad_norm": 1.0220773220062256,
      "learning_rate": 9.196961751348536e-05,
      "loss": 3.8429,
      "step": 301440
    },
    {
      "epoch": 0.6280208333333334,
      "grad_norm": 1.1197558641433716,
      "learning_rate": 9.196052672481195e-05,
      "loss": 3.7275,
      "step": 301450
    },
    {
      "epoch": 0.6280416666666667,
      "grad_norm": 1.06324303150177,
      "learning_rate": 9.195143618684615e-05,
      "loss": 3.8186,
      "step": 301460
    },
    {
      "epoch": 0.6280625,
      "grad_norm": 0.764114499092102,
      "learning_rate": 9.194234589962715e-05,
      "loss": 3.8358,
      "step": 301470
    },
    {
      "epoch": 0.6280833333333333,
      "grad_norm": 0.9817675948143005,
      "learning_rate": 9.19332558631942e-05,
      "loss": 3.8083,
      "step": 301480
    },
    {
      "epoch": 0.6281041666666667,
      "grad_norm": 0.7567165493965149,
      "learning_rate": 9.192416607758666e-05,
      "loss": 3.7326,
      "step": 301490
    },
    {
      "epoch": 0.628125,
      "grad_norm": 1.0740081071853638,
      "learning_rate": 9.191507654284372e-05,
      "loss": 3.7464,
      "step": 301500
    },
    {
      "epoch": 0.6281458333333333,
      "grad_norm": 0.821733295917511,
      "learning_rate": 9.190598725900465e-05,
      "loss": 3.8732,
      "step": 301510
    },
    {
      "epoch": 0.6281666666666667,
      "grad_norm": 0.974809467792511,
      "learning_rate": 9.189689822610867e-05,
      "loss": 3.7071,
      "step": 301520
    },
    {
      "epoch": 0.6281875,
      "grad_norm": 0.8895672559738159,
      "learning_rate": 9.188780944419518e-05,
      "loss": 3.8191,
      "step": 301530
    },
    {
      "epoch": 0.6282083333333334,
      "grad_norm": 1.8097728490829468,
      "learning_rate": 9.187872091330329e-05,
      "loss": 3.8115,
      "step": 301540
    },
    {
      "epoch": 0.6282291666666666,
      "grad_norm": 0.8982122540473938,
      "learning_rate": 9.18696326334723e-05,
      "loss": 3.9126,
      "step": 301550
    },
    {
      "epoch": 0.62825,
      "grad_norm": 0.853588342666626,
      "learning_rate": 9.186054460474156e-05,
      "loss": 3.7171,
      "step": 301560
    },
    {
      "epoch": 0.6282708333333333,
      "grad_norm": 0.8941503167152405,
      "learning_rate": 9.185145682715022e-05,
      "loss": 3.7781,
      "step": 301570
    },
    {
      "epoch": 0.6282916666666667,
      "grad_norm": 0.8415258526802063,
      "learning_rate": 9.184236930073751e-05,
      "loss": 3.6455,
      "step": 301580
    },
    {
      "epoch": 0.6283125,
      "grad_norm": 0.8825841546058655,
      "learning_rate": 9.183328202554284e-05,
      "loss": 3.8076,
      "step": 301590
    },
    {
      "epoch": 0.6283333333333333,
      "grad_norm": 0.8219534754753113,
      "learning_rate": 9.182419500160532e-05,
      "loss": 3.8348,
      "step": 301600
    },
    {
      "epoch": 0.6283541666666667,
      "grad_norm": 0.7794554829597473,
      "learning_rate": 9.181510822896423e-05,
      "loss": 3.6269,
      "step": 301610
    },
    {
      "epoch": 0.628375,
      "grad_norm": 0.9765761494636536,
      "learning_rate": 9.180602170765889e-05,
      "loss": 3.7109,
      "step": 301620
    },
    {
      "epoch": 0.6283958333333334,
      "grad_norm": 0.9203971028327942,
      "learning_rate": 9.179693543772851e-05,
      "loss": 3.8471,
      "step": 301630
    },
    {
      "epoch": 0.6284166666666666,
      "grad_norm": 0.9038833379745483,
      "learning_rate": 9.178784941921226e-05,
      "loss": 3.8448,
      "step": 301640
    },
    {
      "epoch": 0.6284375,
      "grad_norm": 1.1305302381515503,
      "learning_rate": 9.177876365214949e-05,
      "loss": 3.628,
      "step": 301650
    },
    {
      "epoch": 0.6284583333333333,
      "grad_norm": 0.9351330399513245,
      "learning_rate": 9.176967813657946e-05,
      "loss": 3.9265,
      "step": 301660
    },
    {
      "epoch": 0.6284791666666667,
      "grad_norm": 0.8937041163444519,
      "learning_rate": 9.17605928725413e-05,
      "loss": 3.7175,
      "step": 301670
    },
    {
      "epoch": 0.6285,
      "grad_norm": 0.8609963655471802,
      "learning_rate": 9.175150786007436e-05,
      "loss": 3.7894,
      "step": 301680
    },
    {
      "epoch": 0.6285208333333333,
      "grad_norm": 0.8017917275428772,
      "learning_rate": 9.174242309921788e-05,
      "loss": 3.5067,
      "step": 301690
    },
    {
      "epoch": 0.6285416666666667,
      "grad_norm": 0.9663270115852356,
      "learning_rate": 9.1733338590011e-05,
      "loss": 3.9273,
      "step": 301700
    },
    {
      "epoch": 0.6285625,
      "grad_norm": 0.9082284569740295,
      "learning_rate": 9.172425433249307e-05,
      "loss": 3.7087,
      "step": 301710
    },
    {
      "epoch": 0.6285833333333334,
      "grad_norm": 0.9612810015678406,
      "learning_rate": 9.171517032670334e-05,
      "loss": 3.7723,
      "step": 301720
    },
    {
      "epoch": 0.6286041666666666,
      "grad_norm": 0.9726672768592834,
      "learning_rate": 9.170608657268094e-05,
      "loss": 3.9311,
      "step": 301730
    },
    {
      "epoch": 0.628625,
      "grad_norm": 0.808403491973877,
      "learning_rate": 9.169700307046517e-05,
      "loss": 3.8494,
      "step": 301740
    },
    {
      "epoch": 0.6286458333333333,
      "grad_norm": 0.8980398178100586,
      "learning_rate": 9.168791982009534e-05,
      "loss": 3.5306,
      "step": 301750
    },
    {
      "epoch": 0.6286666666666667,
      "grad_norm": 1.0224767923355103,
      "learning_rate": 9.167883682161054e-05,
      "loss": 3.6601,
      "step": 301760
    },
    {
      "epoch": 0.6286875,
      "grad_norm": 1.1795222759246826,
      "learning_rate": 9.166975407505016e-05,
      "loss": 3.7113,
      "step": 301770
    },
    {
      "epoch": 0.6287083333333333,
      "grad_norm": 0.9517862796783447,
      "learning_rate": 9.166067158045328e-05,
      "loss": 3.74,
      "step": 301780
    },
    {
      "epoch": 0.6287291666666667,
      "grad_norm": 0.8351039886474609,
      "learning_rate": 9.165158933785926e-05,
      "loss": 3.7414,
      "step": 301790
    },
    {
      "epoch": 0.62875,
      "grad_norm": 0.8051459789276123,
      "learning_rate": 9.16425073473072e-05,
      "loss": 3.7748,
      "step": 301800
    },
    {
      "epoch": 0.6287708333333333,
      "grad_norm": 0.7718384265899658,
      "learning_rate": 9.163342560883647e-05,
      "loss": 3.9458,
      "step": 301810
    },
    {
      "epoch": 0.6287916666666666,
      "grad_norm": 0.8426230549812317,
      "learning_rate": 9.162434412248626e-05,
      "loss": 3.6649,
      "step": 301820
    },
    {
      "epoch": 0.6288125,
      "grad_norm": 0.9169777035713196,
      "learning_rate": 9.16152628882957e-05,
      "loss": 3.6378,
      "step": 301830
    },
    {
      "epoch": 0.6288333333333334,
      "grad_norm": 0.8271489143371582,
      "learning_rate": 9.160618190630412e-05,
      "loss": 3.7951,
      "step": 301840
    },
    {
      "epoch": 0.6288541666666667,
      "grad_norm": 0.9116208553314209,
      "learning_rate": 9.159710117655078e-05,
      "loss": 3.7743,
      "step": 301850
    },
    {
      "epoch": 0.628875,
      "grad_norm": 0.9248406291007996,
      "learning_rate": 9.158802069907477e-05,
      "loss": 3.7729,
      "step": 301860
    },
    {
      "epoch": 0.6288958333333333,
      "grad_norm": 0.9094000458717346,
      "learning_rate": 9.157894047391542e-05,
      "loss": 3.7694,
      "step": 301870
    },
    {
      "epoch": 0.6289166666666667,
      "grad_norm": 0.7691742181777954,
      "learning_rate": 9.156986050111195e-05,
      "loss": 3.796,
      "step": 301880
    },
    {
      "epoch": 0.6289375,
      "grad_norm": 0.9411746263504028,
      "learning_rate": 9.156078078070349e-05,
      "loss": 3.7635,
      "step": 301890
    },
    {
      "epoch": 0.6289583333333333,
      "grad_norm": 0.7194616794586182,
      "learning_rate": 9.15517013127294e-05,
      "loss": 3.8502,
      "step": 301900
    },
    {
      "epoch": 0.6289791666666666,
      "grad_norm": 0.801296591758728,
      "learning_rate": 9.154262209722878e-05,
      "loss": 3.7211,
      "step": 301910
    },
    {
      "epoch": 0.629,
      "grad_norm": 0.848906397819519,
      "learning_rate": 9.153354313424088e-05,
      "loss": 3.7166,
      "step": 301920
    },
    {
      "epoch": 0.6290208333333334,
      "grad_norm": 0.7664034366607666,
      "learning_rate": 9.152446442380498e-05,
      "loss": 4.0135,
      "step": 301930
    },
    {
      "epoch": 0.6290416666666667,
      "grad_norm": 0.7840571403503418,
      "learning_rate": 9.15153859659602e-05,
      "loss": 3.7197,
      "step": 301940
    },
    {
      "epoch": 0.6290625,
      "grad_norm": 0.8467427492141724,
      "learning_rate": 9.15063077607458e-05,
      "loss": 3.7627,
      "step": 301950
    },
    {
      "epoch": 0.6290833333333333,
      "grad_norm": 1.009246587753296,
      "learning_rate": 9.149722980820104e-05,
      "loss": 3.6735,
      "step": 301960
    },
    {
      "epoch": 0.6291041666666667,
      "grad_norm": 0.8809149861335754,
      "learning_rate": 9.148815210836506e-05,
      "loss": 3.8306,
      "step": 301970
    },
    {
      "epoch": 0.629125,
      "grad_norm": 0.9449756145477295,
      "learning_rate": 9.14790746612771e-05,
      "loss": 3.572,
      "step": 301980
    },
    {
      "epoch": 0.6291458333333333,
      "grad_norm": 0.8744836449623108,
      "learning_rate": 9.146999746697641e-05,
      "loss": 3.7096,
      "step": 301990
    },
    {
      "epoch": 0.6291666666666667,
      "grad_norm": 0.7705751657485962,
      "learning_rate": 9.146092052550217e-05,
      "loss": 3.6983,
      "step": 302000
    },
    {
      "epoch": 0.6291666666666667,
      "eval_loss": 4.092526435852051,
      "eval_runtime": 9.5663,
      "eval_samples_per_second": 1.045,
      "eval_steps_per_second": 0.314,
      "step": 302000
    },
    {
      "epoch": 0.6291875,
      "grad_norm": 0.9288721084594727,
      "learning_rate": 9.145184383689348e-05,
      "loss": 3.6751,
      "step": 302010
    },
    {
      "epoch": 0.6292083333333334,
      "grad_norm": 0.9198130369186401,
      "learning_rate": 9.144276740118975e-05,
      "loss": 3.8307,
      "step": 302020
    },
    {
      "epoch": 0.6292291666666666,
      "grad_norm": 0.7555490136146545,
      "learning_rate": 9.14336912184301e-05,
      "loss": 3.663,
      "step": 302030
    },
    {
      "epoch": 0.62925,
      "grad_norm": 1.1005679368972778,
      "learning_rate": 9.142461528865363e-05,
      "loss": 3.7322,
      "step": 302040
    },
    {
      "epoch": 0.6292708333333333,
      "grad_norm": 0.8500051498413086,
      "learning_rate": 9.141553961189968e-05,
      "loss": 3.705,
      "step": 302050
    },
    {
      "epoch": 0.6292916666666667,
      "grad_norm": 0.8036527633666992,
      "learning_rate": 9.140646418820744e-05,
      "loss": 3.6475,
      "step": 302060
    },
    {
      "epoch": 0.6293125,
      "grad_norm": 0.9897603988647461,
      "learning_rate": 9.139738901761602e-05,
      "loss": 3.8755,
      "step": 302070
    },
    {
      "epoch": 0.6293333333333333,
      "grad_norm": 0.9962586760520935,
      "learning_rate": 9.138831410016471e-05,
      "loss": 3.9033,
      "step": 302080
    },
    {
      "epoch": 0.6293541666666667,
      "grad_norm": 0.9536541104316711,
      "learning_rate": 9.137923943589272e-05,
      "loss": 3.8074,
      "step": 302090
    },
    {
      "epoch": 0.629375,
      "grad_norm": 0.7797109484672546,
      "learning_rate": 9.137016502483919e-05,
      "loss": 3.5303,
      "step": 302100
    },
    {
      "epoch": 0.6293958333333334,
      "grad_norm": 0.9230901598930359,
      "learning_rate": 9.13610908670433e-05,
      "loss": 3.6889,
      "step": 302110
    },
    {
      "epoch": 0.6294166666666666,
      "grad_norm": 0.9772207736968994,
      "learning_rate": 9.135201696254435e-05,
      "loss": 3.9801,
      "step": 302120
    },
    {
      "epoch": 0.6294375,
      "grad_norm": 0.9237444400787354,
      "learning_rate": 9.134294331138147e-05,
      "loss": 3.9416,
      "step": 302130
    },
    {
      "epoch": 0.6294583333333333,
      "grad_norm": 0.860986053943634,
      "learning_rate": 9.133386991359381e-05,
      "loss": 3.7805,
      "step": 302140
    },
    {
      "epoch": 0.6294791666666667,
      "grad_norm": 0.9204338788986206,
      "learning_rate": 9.132479676922062e-05,
      "loss": 3.8543,
      "step": 302150
    },
    {
      "epoch": 0.6295,
      "grad_norm": 0.8880399465560913,
      "learning_rate": 9.131572387830113e-05,
      "loss": 4.0662,
      "step": 302160
    },
    {
      "epoch": 0.6295208333333333,
      "grad_norm": 0.7915704846382141,
      "learning_rate": 9.13066512408744e-05,
      "loss": 3.6652,
      "step": 302170
    },
    {
      "epoch": 0.6295416666666667,
      "grad_norm": 0.8774212598800659,
      "learning_rate": 9.129757885697975e-05,
      "loss": 3.9386,
      "step": 302180
    },
    {
      "epoch": 0.6295625,
      "grad_norm": 0.8914564847946167,
      "learning_rate": 9.128850672665635e-05,
      "loss": 3.958,
      "step": 302190
    },
    {
      "epoch": 0.6295833333333334,
      "grad_norm": 0.8859208822250366,
      "learning_rate": 9.127943484994332e-05,
      "loss": 3.834,
      "step": 302200
    },
    {
      "epoch": 0.6296041666666666,
      "grad_norm": 0.8427510261535645,
      "learning_rate": 9.127036322687987e-05,
      "loss": 3.6983,
      "step": 302210
    },
    {
      "epoch": 0.629625,
      "grad_norm": 0.8530905842781067,
      "learning_rate": 9.126129185750526e-05,
      "loss": 3.8209,
      "step": 302220
    },
    {
      "epoch": 0.6296458333333333,
      "grad_norm": 0.9450284242630005,
      "learning_rate": 9.125222074185858e-05,
      "loss": 3.7447,
      "step": 302230
    },
    {
      "epoch": 0.6296666666666667,
      "grad_norm": 0.8943276405334473,
      "learning_rate": 9.124314987997907e-05,
      "loss": 3.8235,
      "step": 302240
    },
    {
      "epoch": 0.6296875,
      "grad_norm": 1.0986829996109009,
      "learning_rate": 9.123407927190592e-05,
      "loss": 3.8437,
      "step": 302250
    },
    {
      "epoch": 0.6297083333333333,
      "grad_norm": 0.8469066023826599,
      "learning_rate": 9.122500891767824e-05,
      "loss": 3.837,
      "step": 302260
    },
    {
      "epoch": 0.6297291666666667,
      "grad_norm": 0.932121992111206,
      "learning_rate": 9.121593881733529e-05,
      "loss": 3.767,
      "step": 302270
    },
    {
      "epoch": 0.62975,
      "grad_norm": 0.8457830548286438,
      "learning_rate": 9.12068689709162e-05,
      "loss": 3.8721,
      "step": 302280
    },
    {
      "epoch": 0.6297708333333333,
      "grad_norm": 0.814687967300415,
      "learning_rate": 9.119779937846014e-05,
      "loss": 3.8974,
      "step": 302290
    },
    {
      "epoch": 0.6297916666666666,
      "grad_norm": 0.7817471623420715,
      "learning_rate": 9.118873004000636e-05,
      "loss": 3.8574,
      "step": 302300
    },
    {
      "epoch": 0.6298125,
      "grad_norm": 0.8010926246643066,
      "learning_rate": 9.117966095559396e-05,
      "loss": 4.0732,
      "step": 302310
    },
    {
      "epoch": 0.6298333333333334,
      "grad_norm": 0.8956518769264221,
      "learning_rate": 9.117059212526212e-05,
      "loss": 3.6291,
      "step": 302320
    },
    {
      "epoch": 0.6298541666666667,
      "grad_norm": 0.9633451104164124,
      "learning_rate": 9.116152354905009e-05,
      "loss": 3.6773,
      "step": 302330
    },
    {
      "epoch": 0.629875,
      "grad_norm": 0.8763797879219055,
      "learning_rate": 9.115245522699695e-05,
      "loss": 3.7747,
      "step": 302340
    },
    {
      "epoch": 0.6298958333333333,
      "grad_norm": 0.8746654987335205,
      "learning_rate": 9.11433871591419e-05,
      "loss": 4.1275,
      "step": 302350
    },
    {
      "epoch": 0.6299166666666667,
      "grad_norm": 0.8393908143043518,
      "learning_rate": 9.113431934552417e-05,
      "loss": 3.6743,
      "step": 302360
    },
    {
      "epoch": 0.6299375,
      "grad_norm": 0.8561269044876099,
      "learning_rate": 9.112525178618285e-05,
      "loss": 3.6413,
      "step": 302370
    },
    {
      "epoch": 0.6299583333333333,
      "grad_norm": 0.8123800754547119,
      "learning_rate": 9.111618448115716e-05,
      "loss": 3.7577,
      "step": 302380
    },
    {
      "epoch": 0.6299791666666666,
      "grad_norm": 0.8354860544204712,
      "learning_rate": 9.11071174304862e-05,
      "loss": 3.713,
      "step": 302390
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.852469801902771,
      "learning_rate": 9.109805063420923e-05,
      "loss": 3.9098,
      "step": 302400
    },
    {
      "epoch": 0.6300208333333334,
      "grad_norm": 0.8452673554420471,
      "learning_rate": 9.108898409236534e-05,
      "loss": 3.7701,
      "step": 302410
    },
    {
      "epoch": 0.6300416666666667,
      "grad_norm": 0.9657443761825562,
      "learning_rate": 9.107991780499368e-05,
      "loss": 3.7491,
      "step": 302420
    },
    {
      "epoch": 0.6300625,
      "grad_norm": 1.0425254106521606,
      "learning_rate": 9.107085177213353e-05,
      "loss": 3.8934,
      "step": 302430
    },
    {
      "epoch": 0.6300833333333333,
      "grad_norm": 0.9087566137313843,
      "learning_rate": 9.106178599382394e-05,
      "loss": 3.7927,
      "step": 302440
    },
    {
      "epoch": 0.6301041666666667,
      "grad_norm": 0.7745648622512817,
      "learning_rate": 9.105272047010406e-05,
      "loss": 3.7447,
      "step": 302450
    },
    {
      "epoch": 0.630125,
      "grad_norm": 1.0896127223968506,
      "learning_rate": 9.104365520101317e-05,
      "loss": 3.7129,
      "step": 302460
    },
    {
      "epoch": 0.6301458333333333,
      "grad_norm": 0.8286281228065491,
      "learning_rate": 9.103459018659032e-05,
      "loss": 3.8079,
      "step": 302470
    },
    {
      "epoch": 0.6301666666666667,
      "grad_norm": 0.8419908285140991,
      "learning_rate": 9.102552542687467e-05,
      "loss": 3.8186,
      "step": 302480
    },
    {
      "epoch": 0.6301875,
      "grad_norm": 0.8090102076530457,
      "learning_rate": 9.101646092190547e-05,
      "loss": 3.9437,
      "step": 302490
    },
    {
      "epoch": 0.6302083333333334,
      "grad_norm": 0.86506187915802,
      "learning_rate": 9.100739667172181e-05,
      "loss": 3.94,
      "step": 302500
    },
    {
      "epoch": 0.6302291666666666,
      "grad_norm": 0.8115306496620178,
      "learning_rate": 9.099833267636277e-05,
      "loss": 3.7307,
      "step": 302510
    },
    {
      "epoch": 0.63025,
      "grad_norm": 0.8908604979515076,
      "learning_rate": 9.098926893586763e-05,
      "loss": 3.5733,
      "step": 302520
    },
    {
      "epoch": 0.6302708333333333,
      "grad_norm": 0.978553831577301,
      "learning_rate": 9.098020545027553e-05,
      "loss": 3.7571,
      "step": 302530
    },
    {
      "epoch": 0.6302916666666667,
      "grad_norm": 0.7907329797744751,
      "learning_rate": 9.097114221962549e-05,
      "loss": 3.9319,
      "step": 302540
    },
    {
      "epoch": 0.6303125,
      "grad_norm": 1.0518964529037476,
      "learning_rate": 9.096207924395679e-05,
      "loss": 3.8962,
      "step": 302550
    },
    {
      "epoch": 0.6303333333333333,
      "grad_norm": 1.1950064897537231,
      "learning_rate": 9.095301652330858e-05,
      "loss": 3.7606,
      "step": 302560
    },
    {
      "epoch": 0.6303541666666667,
      "grad_norm": 0.9397720694541931,
      "learning_rate": 9.094395405771988e-05,
      "loss": 3.957,
      "step": 302570
    },
    {
      "epoch": 0.630375,
      "grad_norm": 1.1716583967208862,
      "learning_rate": 9.093489184722999e-05,
      "loss": 3.9457,
      "step": 302580
    },
    {
      "epoch": 0.6303958333333334,
      "grad_norm": 0.8604233860969543,
      "learning_rate": 9.092582989187798e-05,
      "loss": 3.6925,
      "step": 302590
    },
    {
      "epoch": 0.6304166666666666,
      "grad_norm": 1.1033657789230347,
      "learning_rate": 9.091676819170297e-05,
      "loss": 3.7878,
      "step": 302600
    },
    {
      "epoch": 0.6304375,
      "grad_norm": 0.9388048052787781,
      "learning_rate": 9.090770674674415e-05,
      "loss": 3.803,
      "step": 302610
    },
    {
      "epoch": 0.6304583333333333,
      "grad_norm": 0.9485385417938232,
      "learning_rate": 9.089864555704068e-05,
      "loss": 3.7904,
      "step": 302620
    },
    {
      "epoch": 0.6304791666666667,
      "grad_norm": 0.8364756107330322,
      "learning_rate": 9.08895846226316e-05,
      "loss": 3.7722,
      "step": 302630
    },
    {
      "epoch": 0.6305,
      "grad_norm": 0.8638667464256287,
      "learning_rate": 9.08805239435562e-05,
      "loss": 3.826,
      "step": 302640
    },
    {
      "epoch": 0.6305208333333333,
      "grad_norm": 0.857796311378479,
      "learning_rate": 9.087146351985349e-05,
      "loss": 3.817,
      "step": 302650
    },
    {
      "epoch": 0.6305416666666667,
      "grad_norm": 0.9488063454627991,
      "learning_rate": 9.086240335156262e-05,
      "loss": 3.8856,
      "step": 302660
    },
    {
      "epoch": 0.6305625,
      "grad_norm": 0.8111248016357422,
      "learning_rate": 9.085334343872282e-05,
      "loss": 3.8022,
      "step": 302670
    },
    {
      "epoch": 0.6305833333333334,
      "grad_norm": 1.0039677619934082,
      "learning_rate": 9.084428378137314e-05,
      "loss": 3.8734,
      "step": 302680
    },
    {
      "epoch": 0.6306041666666666,
      "grad_norm": 0.7503305077552795,
      "learning_rate": 9.083522437955277e-05,
      "loss": 3.7199,
      "step": 302690
    },
    {
      "epoch": 0.630625,
      "grad_norm": 0.8511571884155273,
      "learning_rate": 9.082616523330074e-05,
      "loss": 3.7279,
      "step": 302700
    },
    {
      "epoch": 0.6306458333333333,
      "grad_norm": 1.0524005889892578,
      "learning_rate": 9.081710634265631e-05,
      "loss": 3.7754,
      "step": 302710
    },
    {
      "epoch": 0.6306666666666667,
      "grad_norm": 0.9558177590370178,
      "learning_rate": 9.080804770765856e-05,
      "loss": 3.7953,
      "step": 302720
    },
    {
      "epoch": 0.6306875,
      "grad_norm": 0.8156810402870178,
      "learning_rate": 9.079898932834655e-05,
      "loss": 3.6797,
      "step": 302730
    },
    {
      "epoch": 0.6307083333333333,
      "grad_norm": 0.7464371919631958,
      "learning_rate": 9.078993120475952e-05,
      "loss": 3.727,
      "step": 302740
    },
    {
      "epoch": 0.6307291666666667,
      "grad_norm": 0.8587202429771423,
      "learning_rate": 9.078087333693658e-05,
      "loss": 3.8381,
      "step": 302750
    },
    {
      "epoch": 0.63075,
      "grad_norm": 0.7718175053596497,
      "learning_rate": 9.077181572491675e-05,
      "loss": 3.9102,
      "step": 302760
    },
    {
      "epoch": 0.6307708333333333,
      "grad_norm": 0.7776816487312317,
      "learning_rate": 9.07627583687393e-05,
      "loss": 3.7175,
      "step": 302770
    },
    {
      "epoch": 0.6307916666666666,
      "grad_norm": 0.7863184213638306,
      "learning_rate": 9.075370126844326e-05,
      "loss": 3.7738,
      "step": 302780
    },
    {
      "epoch": 0.6308125,
      "grad_norm": 1.273895025253296,
      "learning_rate": 9.074464442406774e-05,
      "loss": 3.6933,
      "step": 302790
    },
    {
      "epoch": 0.6308333333333334,
      "grad_norm": 0.8760145902633667,
      "learning_rate": 9.073558783565199e-05,
      "loss": 3.6951,
      "step": 302800
    },
    {
      "epoch": 0.6308541666666667,
      "grad_norm": 0.8493756055831909,
      "learning_rate": 9.072653150323498e-05,
      "loss": 3.8674,
      "step": 302810
    },
    {
      "epoch": 0.630875,
      "grad_norm": 0.7893248796463013,
      "learning_rate": 9.071747542685586e-05,
      "loss": 3.8562,
      "step": 302820
    },
    {
      "epoch": 0.6308958333333333,
      "grad_norm": 0.8814780116081238,
      "learning_rate": 9.070841960655385e-05,
      "loss": 3.8349,
      "step": 302830
    },
    {
      "epoch": 0.6309166666666667,
      "grad_norm": 0.8580073118209839,
      "learning_rate": 9.069936404236797e-05,
      "loss": 3.6467,
      "step": 302840
    },
    {
      "epoch": 0.6309375,
      "grad_norm": 0.9315447807312012,
      "learning_rate": 9.069030873433734e-05,
      "loss": 3.6871,
      "step": 302850
    },
    {
      "epoch": 0.6309583333333333,
      "grad_norm": 0.8173828125,
      "learning_rate": 9.068125368250116e-05,
      "loss": 3.7108,
      "step": 302860
    },
    {
      "epoch": 0.6309791666666666,
      "grad_norm": 1.0846117734909058,
      "learning_rate": 9.067219888689845e-05,
      "loss": 3.8531,
      "step": 302870
    },
    {
      "epoch": 0.631,
      "grad_norm": 0.8886105418205261,
      "learning_rate": 9.066314434756832e-05,
      "loss": 3.9874,
      "step": 302880
    },
    {
      "epoch": 0.6310208333333334,
      "grad_norm": 0.9653686285018921,
      "learning_rate": 9.065409006454998e-05,
      "loss": 3.9565,
      "step": 302890
    },
    {
      "epoch": 0.6310416666666666,
      "grad_norm": 0.8074596524238586,
      "learning_rate": 9.064503603788247e-05,
      "loss": 3.7355,
      "step": 302900
    },
    {
      "epoch": 0.6310625,
      "grad_norm": 1.004581093788147,
      "learning_rate": 9.063598226760489e-05,
      "loss": 3.8552,
      "step": 302910
    },
    {
      "epoch": 0.6310833333333333,
      "grad_norm": 0.9366825222969055,
      "learning_rate": 9.062692875375638e-05,
      "loss": 3.7931,
      "step": 302920
    },
    {
      "epoch": 0.6311041666666667,
      "grad_norm": 0.8779158592224121,
      "learning_rate": 9.061787549637604e-05,
      "loss": 3.8787,
      "step": 302930
    },
    {
      "epoch": 0.631125,
      "grad_norm": 0.8874459862709045,
      "learning_rate": 9.060882249550294e-05,
      "loss": 3.7976,
      "step": 302940
    },
    {
      "epoch": 0.6311458333333333,
      "grad_norm": 0.755753755569458,
      "learning_rate": 9.059976975117623e-05,
      "loss": 3.6654,
      "step": 302950
    },
    {
      "epoch": 0.6311666666666667,
      "grad_norm": 0.801957905292511,
      "learning_rate": 9.059071726343506e-05,
      "loss": 3.8616,
      "step": 302960
    },
    {
      "epoch": 0.6311875,
      "grad_norm": 0.8821014165878296,
      "learning_rate": 9.058166503231843e-05,
      "loss": 3.7572,
      "step": 302970
    },
    {
      "epoch": 0.6312083333333334,
      "grad_norm": 0.8322089910507202,
      "learning_rate": 9.057261305786546e-05,
      "loss": 3.8977,
      "step": 302980
    },
    {
      "epoch": 0.6312291666666666,
      "grad_norm": 0.8129192590713501,
      "learning_rate": 9.056356134011532e-05,
      "loss": 3.84,
      "step": 302990
    },
    {
      "epoch": 0.63125,
      "grad_norm": 0.8270228505134583,
      "learning_rate": 9.055450987910709e-05,
      "loss": 3.8691,
      "step": 303000
    },
    {
      "epoch": 0.63125,
      "eval_loss": 4.083328723907471,
      "eval_runtime": 9.4241,
      "eval_samples_per_second": 1.061,
      "eval_steps_per_second": 0.318,
      "step": 303000
    },
    {
      "epoch": 0.6312708333333333,
      "grad_norm": 0.7976054549217224,
      "learning_rate": 9.054545867487978e-05,
      "loss": 3.6411,
      "step": 303010
    },
    {
      "epoch": 0.6312916666666667,
      "grad_norm": 0.8567771315574646,
      "learning_rate": 9.053640772747258e-05,
      "loss": 3.8309,
      "step": 303020
    },
    {
      "epoch": 0.6313125,
      "grad_norm": 0.7618511319160461,
      "learning_rate": 9.052735703692462e-05,
      "loss": 3.8746,
      "step": 303030
    },
    {
      "epoch": 0.6313333333333333,
      "grad_norm": 0.7940900921821594,
      "learning_rate": 9.051830660327484e-05,
      "loss": 3.7708,
      "step": 303040
    },
    {
      "epoch": 0.6313541666666667,
      "grad_norm": 1.0495212078094482,
      "learning_rate": 9.050925642656248e-05,
      "loss": 3.8603,
      "step": 303050
    },
    {
      "epoch": 0.631375,
      "grad_norm": 0.8605079650878906,
      "learning_rate": 9.05002065068266e-05,
      "loss": 3.8708,
      "step": 303060
    },
    {
      "epoch": 0.6313958333333334,
      "grad_norm": 0.825002908706665,
      "learning_rate": 9.049115684410622e-05,
      "loss": 3.5537,
      "step": 303070
    },
    {
      "epoch": 0.6314166666666666,
      "grad_norm": 0.8049122095108032,
      "learning_rate": 9.048210743844054e-05,
      "loss": 3.8423,
      "step": 303080
    },
    {
      "epoch": 0.6314375,
      "grad_norm": 0.8896842002868652,
      "learning_rate": 9.04730582898686e-05,
      "loss": 3.8177,
      "step": 303090
    },
    {
      "epoch": 0.6314583333333333,
      "grad_norm": 0.8623688817024231,
      "learning_rate": 9.046400939842944e-05,
      "loss": 3.7068,
      "step": 303100
    },
    {
      "epoch": 0.6314791666666667,
      "grad_norm": 0.9655369520187378,
      "learning_rate": 9.045496076416221e-05,
      "loss": 3.8055,
      "step": 303110
    },
    {
      "epoch": 0.6315,
      "grad_norm": 0.9390326142311096,
      "learning_rate": 9.044591238710602e-05,
      "loss": 3.8169,
      "step": 303120
    },
    {
      "epoch": 0.6315208333333333,
      "grad_norm": 0.8105204105377197,
      "learning_rate": 9.043686426729986e-05,
      "loss": 3.5304,
      "step": 303130
    },
    {
      "epoch": 0.6315416666666667,
      "grad_norm": 0.8516541719436646,
      "learning_rate": 9.042781640478291e-05,
      "loss": 3.8116,
      "step": 303140
    },
    {
      "epoch": 0.6315625,
      "grad_norm": 0.8293896913528442,
      "learning_rate": 9.04187687995942e-05,
      "loss": 3.6729,
      "step": 303150
    },
    {
      "epoch": 0.6315833333333334,
      "grad_norm": 0.9616299271583557,
      "learning_rate": 9.040972145177282e-05,
      "loss": 3.6738,
      "step": 303160
    },
    {
      "epoch": 0.6316041666666666,
      "grad_norm": 0.9033802151679993,
      "learning_rate": 9.040067436135787e-05,
      "loss": 3.6139,
      "step": 303170
    },
    {
      "epoch": 0.631625,
      "grad_norm": 0.8871757984161377,
      "learning_rate": 9.039162752838839e-05,
      "loss": 3.691,
      "step": 303180
    },
    {
      "epoch": 0.6316458333333334,
      "grad_norm": 0.8665431141853333,
      "learning_rate": 9.038258095290348e-05,
      "loss": 3.8083,
      "step": 303190
    },
    {
      "epoch": 0.6316666666666667,
      "grad_norm": 1.956250548362732,
      "learning_rate": 9.037353463494227e-05,
      "loss": 3.7378,
      "step": 303200
    },
    {
      "epoch": 0.6316875,
      "grad_norm": 0.9318661689758301,
      "learning_rate": 9.036448857454374e-05,
      "loss": 3.7682,
      "step": 303210
    },
    {
      "epoch": 0.6317083333333333,
      "grad_norm": 0.8444350361824036,
      "learning_rate": 9.035544277174701e-05,
      "loss": 3.6394,
      "step": 303220
    },
    {
      "epoch": 0.6317291666666667,
      "grad_norm": 0.7891516089439392,
      "learning_rate": 9.034639722659123e-05,
      "loss": 3.6992,
      "step": 303230
    },
    {
      "epoch": 0.63175,
      "grad_norm": 0.8539112210273743,
      "learning_rate": 9.033735193911533e-05,
      "loss": 3.8835,
      "step": 303240
    },
    {
      "epoch": 0.6317708333333333,
      "grad_norm": 0.943151593208313,
      "learning_rate": 9.032830690935845e-05,
      "loss": 3.816,
      "step": 303250
    },
    {
      "epoch": 0.6317916666666666,
      "grad_norm": 0.8534560203552246,
      "learning_rate": 9.031926213735971e-05,
      "loss": 3.6767,
      "step": 303260
    },
    {
      "epoch": 0.6318125,
      "grad_norm": 0.7902752757072449,
      "learning_rate": 9.031021762315816e-05,
      "loss": 3.574,
      "step": 303270
    },
    {
      "epoch": 0.6318333333333334,
      "grad_norm": 0.834140956401825,
      "learning_rate": 9.03011733667928e-05,
      "loss": 3.7517,
      "step": 303280
    },
    {
      "epoch": 0.6318541666666667,
      "grad_norm": 0.8399925827980042,
      "learning_rate": 9.029212936830269e-05,
      "loss": 3.8153,
      "step": 303290
    },
    {
      "epoch": 0.631875,
      "grad_norm": 0.9241101145744324,
      "learning_rate": 9.028308562772704e-05,
      "loss": 3.713,
      "step": 303300
    },
    {
      "epoch": 0.6318958333333333,
      "grad_norm": 0.8455724716186523,
      "learning_rate": 9.027404214510477e-05,
      "loss": 3.8775,
      "step": 303310
    },
    {
      "epoch": 0.6319166666666667,
      "grad_norm": 0.9484418034553528,
      "learning_rate": 9.026499892047497e-05,
      "loss": 3.7394,
      "step": 303320
    },
    {
      "epoch": 0.6319375,
      "grad_norm": 0.980640172958374,
      "learning_rate": 9.02559559538768e-05,
      "loss": 3.5802,
      "step": 303330
    },
    {
      "epoch": 0.6319583333333333,
      "grad_norm": 0.9020332098007202,
      "learning_rate": 9.024691324534923e-05,
      "loss": 3.8867,
      "step": 303340
    },
    {
      "epoch": 0.6319791666666666,
      "grad_norm": 0.8443959355354309,
      "learning_rate": 9.023787079493129e-05,
      "loss": 3.8747,
      "step": 303350
    },
    {
      "epoch": 0.632,
      "grad_norm": 1.3141828775405884,
      "learning_rate": 9.022882860266216e-05,
      "loss": 3.7896,
      "step": 303360
    },
    {
      "epoch": 0.6320208333333334,
      "grad_norm": 0.9722139239311218,
      "learning_rate": 9.02197866685808e-05,
      "loss": 3.7825,
      "step": 303370
    },
    {
      "epoch": 0.6320416666666666,
      "grad_norm": 0.9306968450546265,
      "learning_rate": 9.021074499272627e-05,
      "loss": 3.5943,
      "step": 303380
    },
    {
      "epoch": 0.6320625,
      "grad_norm": 0.7949387431144714,
      "learning_rate": 9.020170357513772e-05,
      "loss": 3.6008,
      "step": 303390
    },
    {
      "epoch": 0.6320833333333333,
      "grad_norm": 0.9459190368652344,
      "learning_rate": 9.019266241585414e-05,
      "loss": 3.9454,
      "step": 303400
    },
    {
      "epoch": 0.6321041666666667,
      "grad_norm": 0.9057638645172119,
      "learning_rate": 9.018362151491453e-05,
      "loss": 3.7626,
      "step": 303410
    },
    {
      "epoch": 0.632125,
      "grad_norm": 0.797122597694397,
      "learning_rate": 9.0174580872358e-05,
      "loss": 3.9103,
      "step": 303420
    },
    {
      "epoch": 0.6321458333333333,
      "grad_norm": 0.8948184847831726,
      "learning_rate": 9.016554048822366e-05,
      "loss": 3.7391,
      "step": 303430
    },
    {
      "epoch": 0.6321666666666667,
      "grad_norm": 0.9130428433418274,
      "learning_rate": 9.015650036255043e-05,
      "loss": 3.7559,
      "step": 303440
    },
    {
      "epoch": 0.6321875,
      "grad_norm": 1.0430041551589966,
      "learning_rate": 9.014746049537747e-05,
      "loss": 3.6774,
      "step": 303450
    },
    {
      "epoch": 0.6322083333333334,
      "grad_norm": 0.9359062910079956,
      "learning_rate": 9.01384208867438e-05,
      "loss": 3.7112,
      "step": 303460
    },
    {
      "epoch": 0.6322291666666666,
      "grad_norm": 0.7771144509315491,
      "learning_rate": 9.012938153668842e-05,
      "loss": 3.7142,
      "step": 303470
    },
    {
      "epoch": 0.63225,
      "grad_norm": 0.8040445446968079,
      "learning_rate": 9.012034244525043e-05,
      "loss": 3.9033,
      "step": 303480
    },
    {
      "epoch": 0.6322708333333333,
      "grad_norm": 0.8990017771720886,
      "learning_rate": 9.01113036124689e-05,
      "loss": 3.6809,
      "step": 303490
    },
    {
      "epoch": 0.6322916666666667,
      "grad_norm": 0.8497439026832581,
      "learning_rate": 9.010226503838275e-05,
      "loss": 3.9334,
      "step": 303500
    },
    {
      "epoch": 0.6323125,
      "grad_norm": 0.8810405731201172,
      "learning_rate": 9.009322672303118e-05,
      "loss": 3.8874,
      "step": 303510
    },
    {
      "epoch": 0.6323333333333333,
      "grad_norm": 0.7836079597473145,
      "learning_rate": 9.008418866645313e-05,
      "loss": 3.7649,
      "step": 303520
    },
    {
      "epoch": 0.6323541666666667,
      "grad_norm": 1.0641952753067017,
      "learning_rate": 9.007515086868764e-05,
      "loss": 3.6389,
      "step": 303530
    },
    {
      "epoch": 0.632375,
      "grad_norm": 1.0918759107589722,
      "learning_rate": 9.006611332977384e-05,
      "loss": 3.7471,
      "step": 303540
    },
    {
      "epoch": 0.6323958333333334,
      "grad_norm": 0.8054996132850647,
      "learning_rate": 9.005707604975065e-05,
      "loss": 3.8653,
      "step": 303550
    },
    {
      "epoch": 0.6324166666666666,
      "grad_norm": 1.059085488319397,
      "learning_rate": 9.004803902865722e-05,
      "loss": 3.78,
      "step": 303560
    },
    {
      "epoch": 0.6324375,
      "grad_norm": 1.0243059396743774,
      "learning_rate": 9.003900226653247e-05,
      "loss": 3.6339,
      "step": 303570
    },
    {
      "epoch": 0.6324583333333333,
      "grad_norm": 0.9855418801307678,
      "learning_rate": 9.002996576341553e-05,
      "loss": 3.7838,
      "step": 303580
    },
    {
      "epoch": 0.6324791666666667,
      "grad_norm": 0.8545868992805481,
      "learning_rate": 9.002092951934543e-05,
      "loss": 3.7705,
      "step": 303590
    },
    {
      "epoch": 0.6325,
      "grad_norm": 0.8701494336128235,
      "learning_rate": 9.00118935343611e-05,
      "loss": 3.8241,
      "step": 303600
    },
    {
      "epoch": 0.6325208333333333,
      "grad_norm": 0.8845301866531372,
      "learning_rate": 9.000285780850168e-05,
      "loss": 3.7709,
      "step": 303610
    },
    {
      "epoch": 0.6325416666666667,
      "grad_norm": 0.8232381939888,
      "learning_rate": 8.99938223418062e-05,
      "loss": 3.8395,
      "step": 303620
    },
    {
      "epoch": 0.6325625,
      "grad_norm": 0.758471667766571,
      "learning_rate": 8.998478713431359e-05,
      "loss": 3.9136,
      "step": 303630
    },
    {
      "epoch": 0.6325833333333334,
      "grad_norm": 0.8032302856445312,
      "learning_rate": 8.9975752186063e-05,
      "loss": 3.9242,
      "step": 303640
    },
    {
      "epoch": 0.6326041666666666,
      "grad_norm": 0.8611385822296143,
      "learning_rate": 8.99667174970934e-05,
      "loss": 3.8548,
      "step": 303650
    },
    {
      "epoch": 0.632625,
      "grad_norm": 0.7603742480278015,
      "learning_rate": 8.995768306744373e-05,
      "loss": 3.7601,
      "step": 303660
    },
    {
      "epoch": 0.6326458333333334,
      "grad_norm": 0.7651995420455933,
      "learning_rate": 8.994864889715321e-05,
      "loss": 3.7635,
      "step": 303670
    },
    {
      "epoch": 0.6326666666666667,
      "grad_norm": 0.9277700185775757,
      "learning_rate": 8.993961498626072e-05,
      "loss": 3.5947,
      "step": 303680
    },
    {
      "epoch": 0.6326875,
      "grad_norm": 0.9391886591911316,
      "learning_rate": 8.993058133480527e-05,
      "loss": 3.7748,
      "step": 303690
    },
    {
      "epoch": 0.6327083333333333,
      "grad_norm": 0.9176663756370544,
      "learning_rate": 8.992154794282602e-05,
      "loss": 3.8059,
      "step": 303700
    },
    {
      "epoch": 0.6327291666666667,
      "grad_norm": 0.8779069185256958,
      "learning_rate": 8.991251481036185e-05,
      "loss": 3.8915,
      "step": 303710
    },
    {
      "epoch": 0.63275,
      "grad_norm": 1.016422986984253,
      "learning_rate": 8.990348193745182e-05,
      "loss": 3.887,
      "step": 303720
    },
    {
      "epoch": 0.6327708333333333,
      "grad_norm": 0.7722259163856506,
      "learning_rate": 8.9894449324135e-05,
      "loss": 3.8713,
      "step": 303730
    },
    {
      "epoch": 0.6327916666666666,
      "grad_norm": 0.823733389377594,
      "learning_rate": 8.988541697045035e-05,
      "loss": 3.8128,
      "step": 303740
    },
    {
      "epoch": 0.6328125,
      "grad_norm": 1.023266315460205,
      "learning_rate": 8.987638487643686e-05,
      "loss": 3.8633,
      "step": 303750
    },
    {
      "epoch": 0.6328333333333334,
      "grad_norm": 0.9132980704307556,
      "learning_rate": 8.986735304213367e-05,
      "loss": 3.8588,
      "step": 303760
    },
    {
      "epoch": 0.6328541666666667,
      "grad_norm": 0.7445198893547058,
      "learning_rate": 8.98583214675797e-05,
      "loss": 4.0277,
      "step": 303770
    },
    {
      "epoch": 0.632875,
      "grad_norm": 0.9905688762664795,
      "learning_rate": 8.984929015281393e-05,
      "loss": 3.5713,
      "step": 303780
    },
    {
      "epoch": 0.6328958333333333,
      "grad_norm": 0.9013838768005371,
      "learning_rate": 8.98402590978754e-05,
      "loss": 3.5882,
      "step": 303790
    },
    {
      "epoch": 0.6329166666666667,
      "grad_norm": 0.8809568881988525,
      "learning_rate": 8.983122830280323e-05,
      "loss": 3.825,
      "step": 303800
    },
    {
      "epoch": 0.6329375,
      "grad_norm": 0.8113438487052917,
      "learning_rate": 8.982219776763623e-05,
      "loss": 3.671,
      "step": 303810
    },
    {
      "epoch": 0.6329583333333333,
      "grad_norm": 0.8167712688446045,
      "learning_rate": 8.981316749241359e-05,
      "loss": 3.791,
      "step": 303820
    },
    {
      "epoch": 0.6329791666666666,
      "grad_norm": 0.7890447378158569,
      "learning_rate": 8.980413747717423e-05,
      "loss": 3.9863,
      "step": 303830
    },
    {
      "epoch": 0.633,
      "grad_norm": 0.8637948036193848,
      "learning_rate": 8.979510772195713e-05,
      "loss": 3.7513,
      "step": 303840
    },
    {
      "epoch": 0.6330208333333334,
      "grad_norm": 0.7400640249252319,
      "learning_rate": 8.978607822680138e-05,
      "loss": 3.6831,
      "step": 303850
    },
    {
      "epoch": 0.6330416666666666,
      "grad_norm": 0.8188867568969727,
      "learning_rate": 8.977704899174594e-05,
      "loss": 3.5926,
      "step": 303860
    },
    {
      "epoch": 0.6330625,
      "grad_norm": 0.8705604076385498,
      "learning_rate": 8.976802001682977e-05,
      "loss": 3.4396,
      "step": 303870
    },
    {
      "epoch": 0.6330833333333333,
      "grad_norm": 0.8562906384468079,
      "learning_rate": 8.975899130209192e-05,
      "loss": 3.7531,
      "step": 303880
    },
    {
      "epoch": 0.6331041666666667,
      "grad_norm": 0.7558170557022095,
      "learning_rate": 8.974996284757143e-05,
      "loss": 3.805,
      "step": 303890
    },
    {
      "epoch": 0.633125,
      "grad_norm": 0.8608410954475403,
      "learning_rate": 8.974093465330723e-05,
      "loss": 3.9523,
      "step": 303900
    },
    {
      "epoch": 0.6331458333333333,
      "grad_norm": 0.7725089192390442,
      "learning_rate": 8.973190671933831e-05,
      "loss": 3.7326,
      "step": 303910
    },
    {
      "epoch": 0.6331666666666667,
      "grad_norm": 0.8233346939086914,
      "learning_rate": 8.97228790457037e-05,
      "loss": 3.7841,
      "step": 303920
    },
    {
      "epoch": 0.6331875,
      "grad_norm": 1.0153967142105103,
      "learning_rate": 8.971385163244244e-05,
      "loss": 3.7578,
      "step": 303930
    },
    {
      "epoch": 0.6332083333333334,
      "grad_norm": 0.8666282296180725,
      "learning_rate": 8.970482447959341e-05,
      "loss": 3.8027,
      "step": 303940
    },
    {
      "epoch": 0.6332291666666666,
      "grad_norm": 0.8500616550445557,
      "learning_rate": 8.969579758719571e-05,
      "loss": 3.6906,
      "step": 303950
    },
    {
      "epoch": 0.63325,
      "grad_norm": 0.8249527812004089,
      "learning_rate": 8.968677095528832e-05,
      "loss": 3.8069,
      "step": 303960
    },
    {
      "epoch": 0.6332708333333333,
      "grad_norm": 0.8065505027770996,
      "learning_rate": 8.967774458391016e-05,
      "loss": 3.9381,
      "step": 303970
    },
    {
      "epoch": 0.6332916666666667,
      "grad_norm": 0.80020672082901,
      "learning_rate": 8.966871847310028e-05,
      "loss": 3.6263,
      "step": 303980
    },
    {
      "epoch": 0.6333125,
      "grad_norm": 0.9064909219741821,
      "learning_rate": 8.965969262289768e-05,
      "loss": 3.7888,
      "step": 303990
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 0.7981426119804382,
      "learning_rate": 8.965066703334128e-05,
      "loss": 3.8447,
      "step": 304000
    },
    {
      "epoch": 0.6333333333333333,
      "eval_loss": 4.081208229064941,
      "eval_runtime": 8.8827,
      "eval_samples_per_second": 1.126,
      "eval_steps_per_second": 0.338,
      "step": 304000
    },
    {
      "epoch": 0.6333541666666667,
      "grad_norm": 0.8714735507965088,
      "learning_rate": 8.964164170447015e-05,
      "loss": 3.836,
      "step": 304010
    },
    {
      "epoch": 0.633375,
      "grad_norm": 1.018863320350647,
      "learning_rate": 8.963261663632323e-05,
      "loss": 3.8366,
      "step": 304020
    },
    {
      "epoch": 0.6333958333333334,
      "grad_norm": 0.921272337436676,
      "learning_rate": 8.962359182893946e-05,
      "loss": 3.6668,
      "step": 304030
    },
    {
      "epoch": 0.6334166666666666,
      "grad_norm": 0.8403375148773193,
      "learning_rate": 8.961456728235794e-05,
      "loss": 3.9806,
      "step": 304040
    },
    {
      "epoch": 0.6334375,
      "grad_norm": 0.8591645359992981,
      "learning_rate": 8.960554299661757e-05,
      "loss": 3.6908,
      "step": 304050
    },
    {
      "epoch": 0.6334583333333333,
      "grad_norm": 0.8152804970741272,
      "learning_rate": 8.95965189717573e-05,
      "loss": 3.5959,
      "step": 304060
    },
    {
      "epoch": 0.6334791666666667,
      "grad_norm": 0.7962072491645813,
      "learning_rate": 8.958749520781624e-05,
      "loss": 3.8711,
      "step": 304070
    },
    {
      "epoch": 0.6335,
      "grad_norm": 0.8759406805038452,
      "learning_rate": 8.957847170483324e-05,
      "loss": 3.813,
      "step": 304080
    },
    {
      "epoch": 0.6335208333333333,
      "grad_norm": 0.788722813129425,
      "learning_rate": 8.95694484628473e-05,
      "loss": 3.6926,
      "step": 304090
    },
    {
      "epoch": 0.6335416666666667,
      "grad_norm": 0.9624251127243042,
      "learning_rate": 8.956042548189748e-05,
      "loss": 3.8397,
      "step": 304100
    },
    {
      "epoch": 0.6335625,
      "grad_norm": 0.7665444016456604,
      "learning_rate": 8.955140276202268e-05,
      "loss": 3.7652,
      "step": 304110
    },
    {
      "epoch": 0.6335833333333334,
      "grad_norm": 0.8157275915145874,
      "learning_rate": 8.954238030326185e-05,
      "loss": 3.9216,
      "step": 304120
    },
    {
      "epoch": 0.6336041666666666,
      "grad_norm": 0.8613438010215759,
      "learning_rate": 8.953335810565407e-05,
      "loss": 3.7347,
      "step": 304130
    },
    {
      "epoch": 0.633625,
      "grad_norm": 0.7614110708236694,
      "learning_rate": 8.952433616923826e-05,
      "loss": 3.7977,
      "step": 304140
    },
    {
      "epoch": 0.6336458333333334,
      "grad_norm": 0.9057242274284363,
      "learning_rate": 8.951531449405333e-05,
      "loss": 3.9325,
      "step": 304150
    },
    {
      "epoch": 0.6336666666666667,
      "grad_norm": 1.026902675628662,
      "learning_rate": 8.950629308013829e-05,
      "loss": 3.7525,
      "step": 304160
    },
    {
      "epoch": 0.6336875,
      "grad_norm": 0.7780098915100098,
      "learning_rate": 8.949727192753217e-05,
      "loss": 3.8625,
      "step": 304170
    },
    {
      "epoch": 0.6337083333333333,
      "grad_norm": 0.8515733480453491,
      "learning_rate": 8.948825103627385e-05,
      "loss": 3.7136,
      "step": 304180
    },
    {
      "epoch": 0.6337291666666667,
      "grad_norm": 0.902580201625824,
      "learning_rate": 8.947923040640232e-05,
      "loss": 3.6621,
      "step": 304190
    },
    {
      "epoch": 0.63375,
      "grad_norm": 0.8509370684623718,
      "learning_rate": 8.947021003795659e-05,
      "loss": 3.7386,
      "step": 304200
    },
    {
      "epoch": 0.6337708333333333,
      "grad_norm": 0.8237354755401611,
      "learning_rate": 8.946118993097559e-05,
      "loss": 3.8163,
      "step": 304210
    },
    {
      "epoch": 0.6337916666666666,
      "grad_norm": 0.8592059016227722,
      "learning_rate": 8.945217008549825e-05,
      "loss": 3.8622,
      "step": 304220
    },
    {
      "epoch": 0.6338125,
      "grad_norm": 0.7996659278869629,
      "learning_rate": 8.944315050156364e-05,
      "loss": 3.8313,
      "step": 304230
    },
    {
      "epoch": 0.6338333333333334,
      "grad_norm": 0.8973621129989624,
      "learning_rate": 8.943413117921059e-05,
      "loss": 3.6714,
      "step": 304240
    },
    {
      "epoch": 0.6338541666666667,
      "grad_norm": 0.8155584335327148,
      "learning_rate": 8.942511211847811e-05,
      "loss": 3.768,
      "step": 304250
    },
    {
      "epoch": 0.633875,
      "grad_norm": 0.9737463593482971,
      "learning_rate": 8.941609331940521e-05,
      "loss": 3.67,
      "step": 304260
    },
    {
      "epoch": 0.6338958333333333,
      "grad_norm": 0.817619800567627,
      "learning_rate": 8.940707478203082e-05,
      "loss": 3.7197,
      "step": 304270
    },
    {
      "epoch": 0.6339166666666667,
      "grad_norm": 0.8073508143424988,
      "learning_rate": 8.939805650639382e-05,
      "loss": 3.7836,
      "step": 304280
    },
    {
      "epoch": 0.6339375,
      "grad_norm": 0.8213972449302673,
      "learning_rate": 8.938903849253328e-05,
      "loss": 3.7353,
      "step": 304290
    },
    {
      "epoch": 0.6339583333333333,
      "grad_norm": 0.8524878621101379,
      "learning_rate": 8.93800207404881e-05,
      "loss": 3.6254,
      "step": 304300
    },
    {
      "epoch": 0.6339791666666666,
      "grad_norm": 0.780051589012146,
      "learning_rate": 8.93710032502972e-05,
      "loss": 3.8167,
      "step": 304310
    },
    {
      "epoch": 0.634,
      "grad_norm": 0.7603816986083984,
      "learning_rate": 8.936198602199958e-05,
      "loss": 3.7427,
      "step": 304320
    },
    {
      "epoch": 0.6340208333333334,
      "grad_norm": 0.9124634861946106,
      "learning_rate": 8.935296905563423e-05,
      "loss": 3.7031,
      "step": 304330
    },
    {
      "epoch": 0.6340416666666666,
      "grad_norm": 0.8063938617706299,
      "learning_rate": 8.934395235123997e-05,
      "loss": 3.7707,
      "step": 304340
    },
    {
      "epoch": 0.6340625,
      "grad_norm": 0.9902592897415161,
      "learning_rate": 8.933493590885585e-05,
      "loss": 3.8772,
      "step": 304350
    },
    {
      "epoch": 0.6340833333333333,
      "grad_norm": 0.9488160610198975,
      "learning_rate": 8.932591972852082e-05,
      "loss": 3.7483,
      "step": 304360
    },
    {
      "epoch": 0.6341041666666667,
      "grad_norm": 1.3133010864257812,
      "learning_rate": 8.931690381027376e-05,
      "loss": 3.843,
      "step": 304370
    },
    {
      "epoch": 0.634125,
      "grad_norm": 0.9909289479255676,
      "learning_rate": 8.930788815415369e-05,
      "loss": 3.7189,
      "step": 304380
    },
    {
      "epoch": 0.6341458333333333,
      "grad_norm": 0.7320574522018433,
      "learning_rate": 8.929887276019953e-05,
      "loss": 3.6309,
      "step": 304390
    },
    {
      "epoch": 0.6341666666666667,
      "grad_norm": 0.7953605651855469,
      "learning_rate": 8.928985762845017e-05,
      "loss": 3.7515,
      "step": 304400
    },
    {
      "epoch": 0.6341875,
      "grad_norm": 0.872071385383606,
      "learning_rate": 8.928084275894463e-05,
      "loss": 3.8474,
      "step": 304410
    },
    {
      "epoch": 0.6342083333333334,
      "grad_norm": 0.9100115895271301,
      "learning_rate": 8.927182815172179e-05,
      "loss": 3.5557,
      "step": 304420
    },
    {
      "epoch": 0.6342291666666666,
      "grad_norm": 0.9183951020240784,
      "learning_rate": 8.926281380682067e-05,
      "loss": 3.6993,
      "step": 304430
    },
    {
      "epoch": 0.63425,
      "grad_norm": 0.9124012589454651,
      "learning_rate": 8.925379972428008e-05,
      "loss": 3.8288,
      "step": 304440
    },
    {
      "epoch": 0.6342708333333333,
      "grad_norm": 0.9347819089889526,
      "learning_rate": 8.924478590413905e-05,
      "loss": 3.7318,
      "step": 304450
    },
    {
      "epoch": 0.6342916666666667,
      "grad_norm": 0.8309293985366821,
      "learning_rate": 8.923577234643653e-05,
      "loss": 3.7708,
      "step": 304460
    },
    {
      "epoch": 0.6343125,
      "grad_norm": 0.8142133355140686,
      "learning_rate": 8.922675905121136e-05,
      "loss": 3.8816,
      "step": 304470
    },
    {
      "epoch": 0.6343333333333333,
      "grad_norm": 0.8809217810630798,
      "learning_rate": 8.921774601850258e-05,
      "loss": 3.8168,
      "step": 304480
    },
    {
      "epoch": 0.6343541666666667,
      "grad_norm": 0.8459108471870422,
      "learning_rate": 8.920873324834909e-05,
      "loss": 3.7878,
      "step": 304490
    },
    {
      "epoch": 0.634375,
      "grad_norm": 0.7596986889839172,
      "learning_rate": 8.919972074078977e-05,
      "loss": 3.7009,
      "step": 304500
    },
    {
      "epoch": 0.6343958333333334,
      "grad_norm": 1.0464400053024292,
      "learning_rate": 8.919070849586364e-05,
      "loss": 3.8043,
      "step": 304510
    },
    {
      "epoch": 0.6344166666666666,
      "grad_norm": 0.8315162062644958,
      "learning_rate": 8.918169651360954e-05,
      "loss": 3.8751,
      "step": 304520
    },
    {
      "epoch": 0.6344375,
      "grad_norm": 5.142110824584961,
      "learning_rate": 8.917268479406642e-05,
      "loss": 3.7365,
      "step": 304530
    },
    {
      "epoch": 0.6344583333333333,
      "grad_norm": 0.7777969837188721,
      "learning_rate": 8.916367333727327e-05,
      "loss": 3.714,
      "step": 304540
    },
    {
      "epoch": 0.6344791666666667,
      "grad_norm": 0.7825206518173218,
      "learning_rate": 8.915466214326895e-05,
      "loss": 4.0138,
      "step": 304550
    },
    {
      "epoch": 0.6345,
      "grad_norm": 0.9507172107696533,
      "learning_rate": 8.914565121209239e-05,
      "loss": 3.7852,
      "step": 304560
    },
    {
      "epoch": 0.6345208333333333,
      "grad_norm": 0.8301919102668762,
      "learning_rate": 8.913664054378256e-05,
      "loss": 3.7853,
      "step": 304570
    },
    {
      "epoch": 0.6345416666666667,
      "grad_norm": 0.7727320790290833,
      "learning_rate": 8.912763013837833e-05,
      "loss": 3.9669,
      "step": 304580
    },
    {
      "epoch": 0.6345625,
      "grad_norm": 0.7734218239784241,
      "learning_rate": 8.911861999591863e-05,
      "loss": 3.9801,
      "step": 304590
    },
    {
      "epoch": 0.6345833333333334,
      "grad_norm": 0.7612955570220947,
      "learning_rate": 8.910961011644244e-05,
      "loss": 3.6664,
      "step": 304600
    },
    {
      "epoch": 0.6346041666666666,
      "grad_norm": 0.9108911752700806,
      "learning_rate": 8.910060049998861e-05,
      "loss": 3.7202,
      "step": 304610
    },
    {
      "epoch": 0.634625,
      "grad_norm": 0.8287095427513123,
      "learning_rate": 8.909159114659602e-05,
      "loss": 3.8478,
      "step": 304620
    },
    {
      "epoch": 0.6346458333333334,
      "grad_norm": 0.8427615165710449,
      "learning_rate": 8.908258205630375e-05,
      "loss": 3.7584,
      "step": 304630
    },
    {
      "epoch": 0.6346666666666667,
      "grad_norm": 0.8178716897964478,
      "learning_rate": 8.907357322915058e-05,
      "loss": 3.813,
      "step": 304640
    },
    {
      "epoch": 0.6346875,
      "grad_norm": 0.8236707448959351,
      "learning_rate": 8.906456466517542e-05,
      "loss": 3.713,
      "step": 304650
    },
    {
      "epoch": 0.6347083333333333,
      "grad_norm": 0.8366023302078247,
      "learning_rate": 8.905555636441723e-05,
      "loss": 3.6468,
      "step": 304660
    },
    {
      "epoch": 0.6347291666666667,
      "grad_norm": 0.8345358967781067,
      "learning_rate": 8.904654832691496e-05,
      "loss": 3.744,
      "step": 304670
    },
    {
      "epoch": 0.63475,
      "grad_norm": 0.7590556144714355,
      "learning_rate": 8.903754055270741e-05,
      "loss": 3.837,
      "step": 304680
    },
    {
      "epoch": 0.6347708333333333,
      "grad_norm": 0.7508638501167297,
      "learning_rate": 8.902853304183357e-05,
      "loss": 3.9891,
      "step": 304690
    },
    {
      "epoch": 0.6347916666666666,
      "grad_norm": 0.830275297164917,
      "learning_rate": 8.901952579433239e-05,
      "loss": 3.8458,
      "step": 304700
    },
    {
      "epoch": 0.6348125,
      "grad_norm": 0.811238706111908,
      "learning_rate": 8.901051881024265e-05,
      "loss": 3.8533,
      "step": 304710
    },
    {
      "epoch": 0.6348333333333334,
      "grad_norm": 0.8708066344261169,
      "learning_rate": 8.900151208960334e-05,
      "loss": 3.8536,
      "step": 304720
    },
    {
      "epoch": 0.6348541666666667,
      "grad_norm": 0.84052574634552,
      "learning_rate": 8.89925056324534e-05,
      "loss": 3.8143,
      "step": 304730
    },
    {
      "epoch": 0.634875,
      "grad_norm": 0.843791663646698,
      "learning_rate": 8.898349943883167e-05,
      "loss": 3.8808,
      "step": 304740
    },
    {
      "epoch": 0.6348958333333333,
      "grad_norm": 0.945385754108429,
      "learning_rate": 8.897449350877701e-05,
      "loss": 3.8403,
      "step": 304750
    },
    {
      "epoch": 0.6349166666666667,
      "grad_norm": 1.0232230424880981,
      "learning_rate": 8.896548784232845e-05,
      "loss": 3.8358,
      "step": 304760
    },
    {
      "epoch": 0.6349375,
      "grad_norm": 0.8785341382026672,
      "learning_rate": 8.895648243952482e-05,
      "loss": 3.7111,
      "step": 304770
    },
    {
      "epoch": 0.6349583333333333,
      "grad_norm": 0.7931777834892273,
      "learning_rate": 8.894747730040498e-05,
      "loss": 3.8017,
      "step": 304780
    },
    {
      "epoch": 0.6349791666666667,
      "grad_norm": 0.8459761142730713,
      "learning_rate": 8.893847242500791e-05,
      "loss": 3.8139,
      "step": 304790
    },
    {
      "epoch": 0.635,
      "grad_norm": 0.8973472118377686,
      "learning_rate": 8.892946781337247e-05,
      "loss": 3.7811,
      "step": 304800
    },
    {
      "epoch": 0.6350208333333334,
      "grad_norm": 0.7605161070823669,
      "learning_rate": 8.892046346553751e-05,
      "loss": 3.5213,
      "step": 304810
    },
    {
      "epoch": 0.6350416666666666,
      "grad_norm": 0.93790602684021,
      "learning_rate": 8.8911459381542e-05,
      "loss": 3.7298,
      "step": 304820
    },
    {
      "epoch": 0.6350625,
      "grad_norm": 0.9928944706916809,
      "learning_rate": 8.890245556142484e-05,
      "loss": 3.9174,
      "step": 304830
    },
    {
      "epoch": 0.6350833333333333,
      "grad_norm": 0.8896824717521667,
      "learning_rate": 8.889345200522483e-05,
      "loss": 3.7454,
      "step": 304840
    },
    {
      "epoch": 0.6351041666666667,
      "grad_norm": 0.860734224319458,
      "learning_rate": 8.888444871298094e-05,
      "loss": 3.6402,
      "step": 304850
    },
    {
      "epoch": 0.635125,
      "grad_norm": 0.8563045859336853,
      "learning_rate": 8.887544568473209e-05,
      "loss": 3.7758,
      "step": 304860
    },
    {
      "epoch": 0.6351458333333333,
      "grad_norm": 0.899929404258728,
      "learning_rate": 8.886644292051703e-05,
      "loss": 3.8447,
      "step": 304870
    },
    {
      "epoch": 0.6351666666666667,
      "grad_norm": 0.8843299150466919,
      "learning_rate": 8.885744042037478e-05,
      "loss": 3.5898,
      "step": 304880
    },
    {
      "epoch": 0.6351875,
      "grad_norm": 0.9958009719848633,
      "learning_rate": 8.884843818434422e-05,
      "loss": 3.9429,
      "step": 304890
    },
    {
      "epoch": 0.6352083333333334,
      "grad_norm": 0.8054587841033936,
      "learning_rate": 8.883943621246415e-05,
      "loss": 3.753,
      "step": 304900
    },
    {
      "epoch": 0.6352291666666666,
      "grad_norm": 1.5602461099624634,
      "learning_rate": 8.883043450477354e-05,
      "loss": 3.7881,
      "step": 304910
    },
    {
      "epoch": 0.63525,
      "grad_norm": 0.8432450294494629,
      "learning_rate": 8.882143306131123e-05,
      "loss": 3.9288,
      "step": 304920
    },
    {
      "epoch": 0.6352708333333333,
      "grad_norm": 0.750442624092102,
      "learning_rate": 8.881243188211609e-05,
      "loss": 3.7898,
      "step": 304930
    },
    {
      "epoch": 0.6352916666666667,
      "grad_norm": 0.8396214246749878,
      "learning_rate": 8.880343096722706e-05,
      "loss": 3.7699,
      "step": 304940
    },
    {
      "epoch": 0.6353125,
      "grad_norm": 0.9109832644462585,
      "learning_rate": 8.879443031668297e-05,
      "loss": 3.8988,
      "step": 304950
    },
    {
      "epoch": 0.6353333333333333,
      "grad_norm": 1.00178062915802,
      "learning_rate": 8.878542993052269e-05,
      "loss": 3.7674,
      "step": 304960
    },
    {
      "epoch": 0.6353541666666667,
      "grad_norm": 0.8632577657699585,
      "learning_rate": 8.877642980878518e-05,
      "loss": 3.7474,
      "step": 304970
    },
    {
      "epoch": 0.635375,
      "grad_norm": 1.2367222309112549,
      "learning_rate": 8.876742995150922e-05,
      "loss": 3.6742,
      "step": 304980
    },
    {
      "epoch": 0.6353958333333334,
      "grad_norm": 0.8875299096107483,
      "learning_rate": 8.875843035873368e-05,
      "loss": 3.6927,
      "step": 304990
    },
    {
      "epoch": 0.6354166666666666,
      "grad_norm": 0.7780017256736755,
      "learning_rate": 8.874943103049756e-05,
      "loss": 3.8257,
      "step": 305000
    },
    {
      "epoch": 0.6354166666666666,
      "eval_loss": 4.0760321617126465,
      "eval_runtime": 9.0114,
      "eval_samples_per_second": 1.11,
      "eval_steps_per_second": 0.333,
      "step": 305000
    },
    {
      "epoch": 0.6354375,
      "grad_norm": 0.8708333969116211,
      "learning_rate": 8.874043196683967e-05,
      "loss": 3.9442,
      "step": 305010
    },
    {
      "epoch": 0.6354583333333333,
      "grad_norm": 1.0609697103500366,
      "learning_rate": 8.873143316779882e-05,
      "loss": 3.8052,
      "step": 305020
    },
    {
      "epoch": 0.6354791666666667,
      "grad_norm": 0.954969584941864,
      "learning_rate": 8.872243463341389e-05,
      "loss": 3.9096,
      "step": 305030
    },
    {
      "epoch": 0.6355,
      "grad_norm": 1.0537642240524292,
      "learning_rate": 8.871343636372386e-05,
      "loss": 3.8652,
      "step": 305040
    },
    {
      "epoch": 0.6355208333333333,
      "grad_norm": 0.8918368220329285,
      "learning_rate": 8.870443835876745e-05,
      "loss": 3.7908,
      "step": 305050
    },
    {
      "epoch": 0.6355416666666667,
      "grad_norm": 0.8487804532051086,
      "learning_rate": 8.869544061858363e-05,
      "loss": 3.8374,
      "step": 305060
    },
    {
      "epoch": 0.6355625,
      "grad_norm": 0.8535260558128357,
      "learning_rate": 8.868644314321128e-05,
      "loss": 3.8252,
      "step": 305070
    },
    {
      "epoch": 0.6355833333333333,
      "grad_norm": 1.0310091972351074,
      "learning_rate": 8.86774459326892e-05,
      "loss": 3.9076,
      "step": 305080
    },
    {
      "epoch": 0.6356041666666666,
      "grad_norm": 0.8605415225028992,
      "learning_rate": 8.866844898705625e-05,
      "loss": 3.7037,
      "step": 305090
    },
    {
      "epoch": 0.635625,
      "grad_norm": 0.9468799233436584,
      "learning_rate": 8.865945230635138e-05,
      "loss": 4.0198,
      "step": 305100
    },
    {
      "epoch": 0.6356458333333334,
      "grad_norm": 0.7861526608467102,
      "learning_rate": 8.865045589061339e-05,
      "loss": 3.8692,
      "step": 305110
    },
    {
      "epoch": 0.6356666666666667,
      "grad_norm": 0.9420308470726013,
      "learning_rate": 8.864145973988107e-05,
      "loss": 3.818,
      "step": 305120
    },
    {
      "epoch": 0.6356875,
      "grad_norm": 0.9218617081642151,
      "learning_rate": 8.863246385419346e-05,
      "loss": 3.9018,
      "step": 305130
    },
    {
      "epoch": 0.6357083333333333,
      "grad_norm": 0.886790931224823,
      "learning_rate": 8.862346823358928e-05,
      "loss": 3.866,
      "step": 305140
    },
    {
      "epoch": 0.6357291666666667,
      "grad_norm": 0.8326277136802673,
      "learning_rate": 8.861447287810739e-05,
      "loss": 3.7474,
      "step": 305150
    },
    {
      "epoch": 0.63575,
      "grad_norm": 1.0818662643432617,
      "learning_rate": 8.86054777877867e-05,
      "loss": 3.7514,
      "step": 305160
    },
    {
      "epoch": 0.6357708333333333,
      "grad_norm": 0.788445234298706,
      "learning_rate": 8.859648296266607e-05,
      "loss": 3.5951,
      "step": 305170
    },
    {
      "epoch": 0.6357916666666666,
      "grad_norm": 0.7739758491516113,
      "learning_rate": 8.858748840278425e-05,
      "loss": 3.6965,
      "step": 305180
    },
    {
      "epoch": 0.6358125,
      "grad_norm": 0.9813807606697083,
      "learning_rate": 8.857849410818024e-05,
      "loss": 3.7682,
      "step": 305190
    },
    {
      "epoch": 0.6358333333333334,
      "grad_norm": 0.9206832647323608,
      "learning_rate": 8.856950007889283e-05,
      "loss": 3.9983,
      "step": 305200
    },
    {
      "epoch": 0.6358541666666667,
      "grad_norm": 0.9075852632522583,
      "learning_rate": 8.856050631496082e-05,
      "loss": 3.7347,
      "step": 305210
    },
    {
      "epoch": 0.635875,
      "grad_norm": 0.9409376978874207,
      "learning_rate": 8.855151281642311e-05,
      "loss": 3.8125,
      "step": 305220
    },
    {
      "epoch": 0.6358958333333333,
      "grad_norm": 0.830754816532135,
      "learning_rate": 8.854251958331858e-05,
      "loss": 3.8398,
      "step": 305230
    },
    {
      "epoch": 0.6359166666666667,
      "grad_norm": 0.8230262994766235,
      "learning_rate": 8.8533526615686e-05,
      "loss": 3.8191,
      "step": 305240
    },
    {
      "epoch": 0.6359375,
      "grad_norm": 1.018017292022705,
      "learning_rate": 8.852453391356426e-05,
      "loss": 3.7548,
      "step": 305250
    },
    {
      "epoch": 0.6359583333333333,
      "grad_norm": 0.9384811520576477,
      "learning_rate": 8.851554147699225e-05,
      "loss": 3.7599,
      "step": 305260
    },
    {
      "epoch": 0.6359791666666667,
      "grad_norm": 0.8017563819885254,
      "learning_rate": 8.850654930600869e-05,
      "loss": 3.7159,
      "step": 305270
    },
    {
      "epoch": 0.636,
      "grad_norm": 0.7647302150726318,
      "learning_rate": 8.849755740065255e-05,
      "loss": 3.7049,
      "step": 305280
    },
    {
      "epoch": 0.6360208333333334,
      "grad_norm": 0.7820969223976135,
      "learning_rate": 8.84885657609626e-05,
      "loss": 3.7502,
      "step": 305290
    },
    {
      "epoch": 0.6360416666666666,
      "grad_norm": 0.8091632127761841,
      "learning_rate": 8.847957438697764e-05,
      "loss": 3.8272,
      "step": 305300
    },
    {
      "epoch": 0.6360625,
      "grad_norm": 0.8385406136512756,
      "learning_rate": 8.847058327873667e-05,
      "loss": 3.8548,
      "step": 305310
    },
    {
      "epoch": 0.6360833333333333,
      "grad_norm": 0.8514151573181152,
      "learning_rate": 8.846159243627839e-05,
      "loss": 3.7449,
      "step": 305320
    },
    {
      "epoch": 0.6361041666666667,
      "grad_norm": 0.7589471936225891,
      "learning_rate": 8.845260185964169e-05,
      "loss": 3.8248,
      "step": 305330
    },
    {
      "epoch": 0.636125,
      "grad_norm": 0.7864570617675781,
      "learning_rate": 8.84436115488653e-05,
      "loss": 3.732,
      "step": 305340
    },
    {
      "epoch": 0.6361458333333333,
      "grad_norm": 0.8361300826072693,
      "learning_rate": 8.843462150398821e-05,
      "loss": 3.8377,
      "step": 305350
    },
    {
      "epoch": 0.6361666666666667,
      "grad_norm": 0.8299147486686707,
      "learning_rate": 8.842563172504918e-05,
      "loss": 3.7061,
      "step": 305360
    },
    {
      "epoch": 0.6361875,
      "grad_norm": 0.8341134190559387,
      "learning_rate": 8.841664221208703e-05,
      "loss": 3.7829,
      "step": 305370
    },
    {
      "epoch": 0.6362083333333334,
      "grad_norm": 0.7534701228141785,
      "learning_rate": 8.840765296514061e-05,
      "loss": 3.9105,
      "step": 305380
    },
    {
      "epoch": 0.6362291666666666,
      "grad_norm": 1.1111527681350708,
      "learning_rate": 8.83986639842488e-05,
      "loss": 3.8065,
      "step": 305390
    },
    {
      "epoch": 0.63625,
      "grad_norm": 0.9427599906921387,
      "learning_rate": 8.83896752694503e-05,
      "loss": 3.7264,
      "step": 305400
    },
    {
      "epoch": 0.6362708333333333,
      "grad_norm": 0.8145067691802979,
      "learning_rate": 8.83806868207841e-05,
      "loss": 3.8209,
      "step": 305410
    },
    {
      "epoch": 0.6362916666666667,
      "grad_norm": 0.8462110161781311,
      "learning_rate": 8.837169863828887e-05,
      "loss": 3.9422,
      "step": 305420
    },
    {
      "epoch": 0.6363125,
      "grad_norm": 0.9924582242965698,
      "learning_rate": 8.836271072200351e-05,
      "loss": 3.6787,
      "step": 305430
    },
    {
      "epoch": 0.6363333333333333,
      "grad_norm": 0.7202662229537964,
      "learning_rate": 8.835372307196691e-05,
      "loss": 3.86,
      "step": 305440
    },
    {
      "epoch": 0.6363541666666667,
      "grad_norm": 0.8208023309707642,
      "learning_rate": 8.834473568821778e-05,
      "loss": 3.8005,
      "step": 305450
    },
    {
      "epoch": 0.636375,
      "grad_norm": 0.8799587488174438,
      "learning_rate": 8.833574857079495e-05,
      "loss": 3.8043,
      "step": 305460
    },
    {
      "epoch": 0.6363958333333334,
      "grad_norm": 0.8195004463195801,
      "learning_rate": 8.832676171973736e-05,
      "loss": 3.8486,
      "step": 305470
    },
    {
      "epoch": 0.6364166666666666,
      "grad_norm": 0.7716216444969177,
      "learning_rate": 8.831777513508368e-05,
      "loss": 3.7681,
      "step": 305480
    },
    {
      "epoch": 0.6364375,
      "grad_norm": 0.8203623294830322,
      "learning_rate": 8.83087888168728e-05,
      "loss": 3.7095,
      "step": 305490
    },
    {
      "epoch": 0.6364583333333333,
      "grad_norm": 0.823229968547821,
      "learning_rate": 8.829980276514357e-05,
      "loss": 3.7714,
      "step": 305500
    },
    {
      "epoch": 0.6364791666666667,
      "grad_norm": 0.839162290096283,
      "learning_rate": 8.82908169799348e-05,
      "loss": 3.8094,
      "step": 305510
    },
    {
      "epoch": 0.6365,
      "grad_norm": 0.8463294506072998,
      "learning_rate": 8.828183146128519e-05,
      "loss": 3.7529,
      "step": 305520
    },
    {
      "epoch": 0.6365208333333333,
      "grad_norm": 0.8245723247528076,
      "learning_rate": 8.827284620923368e-05,
      "loss": 3.7069,
      "step": 305530
    },
    {
      "epoch": 0.6365416666666667,
      "grad_norm": 0.7414059638977051,
      "learning_rate": 8.826386122381907e-05,
      "loss": 3.782,
      "step": 305540
    },
    {
      "epoch": 0.6365625,
      "grad_norm": 0.9044770002365112,
      "learning_rate": 8.825487650508008e-05,
      "loss": 3.8849,
      "step": 305550
    },
    {
      "epoch": 0.6365833333333333,
      "grad_norm": 1.0358880758285522,
      "learning_rate": 8.82458920530556e-05,
      "loss": 3.894,
      "step": 305560
    },
    {
      "epoch": 0.6366041666666666,
      "grad_norm": 0.9524006247520447,
      "learning_rate": 8.823690786778448e-05,
      "loss": 3.9085,
      "step": 305570
    },
    {
      "epoch": 0.636625,
      "grad_norm": 0.890631377696991,
      "learning_rate": 8.822792394930538e-05,
      "loss": 3.8291,
      "step": 305580
    },
    {
      "epoch": 0.6366458333333334,
      "grad_norm": 0.8828296065330505,
      "learning_rate": 8.821894029765724e-05,
      "loss": 3.8478,
      "step": 305590
    },
    {
      "epoch": 0.6366666666666667,
      "grad_norm": 0.9287564754486084,
      "learning_rate": 8.820995691287886e-05,
      "loss": 3.5037,
      "step": 305600
    },
    {
      "epoch": 0.6366875,
      "grad_norm": 0.9364038705825806,
      "learning_rate": 8.820097379500896e-05,
      "loss": 3.8536,
      "step": 305610
    },
    {
      "epoch": 0.6367083333333333,
      "grad_norm": 0.8472657799720764,
      "learning_rate": 8.81919909440864e-05,
      "loss": 3.6673,
      "step": 305620
    },
    {
      "epoch": 0.6367291666666667,
      "grad_norm": 0.8122332692146301,
      "learning_rate": 8.818300836015e-05,
      "loss": 3.7236,
      "step": 305630
    },
    {
      "epoch": 0.63675,
      "grad_norm": 0.8380652070045471,
      "learning_rate": 8.817402604323853e-05,
      "loss": 3.8999,
      "step": 305640
    },
    {
      "epoch": 0.6367708333333333,
      "grad_norm": 0.847564697265625,
      "learning_rate": 8.816504399339075e-05,
      "loss": 3.7188,
      "step": 305650
    },
    {
      "epoch": 0.6367916666666666,
      "grad_norm": 0.9154630303382874,
      "learning_rate": 8.815606221064554e-05,
      "loss": 3.8628,
      "step": 305660
    },
    {
      "epoch": 0.6368125,
      "grad_norm": 0.8860058188438416,
      "learning_rate": 8.81470806950417e-05,
      "loss": 3.8067,
      "step": 305670
    },
    {
      "epoch": 0.6368333333333334,
      "grad_norm": 0.8843743205070496,
      "learning_rate": 8.813809944661791e-05,
      "loss": 3.6535,
      "step": 305680
    },
    {
      "epoch": 0.6368541666666667,
      "grad_norm": 0.846462070941925,
      "learning_rate": 8.812911846541305e-05,
      "loss": 3.9914,
      "step": 305690
    },
    {
      "epoch": 0.636875,
      "grad_norm": 1.0116369724273682,
      "learning_rate": 8.812013775146599e-05,
      "loss": 3.5956,
      "step": 305700
    },
    {
      "epoch": 0.6368958333333333,
      "grad_norm": 0.8866902589797974,
      "learning_rate": 8.811115730481534e-05,
      "loss": 3.802,
      "step": 305710
    },
    {
      "epoch": 0.6369166666666667,
      "grad_norm": 0.9992637038230896,
      "learning_rate": 8.810217712550002e-05,
      "loss": 3.9469,
      "step": 305720
    },
    {
      "epoch": 0.6369375,
      "grad_norm": 0.8112812638282776,
      "learning_rate": 8.809319721355885e-05,
      "loss": 3.6398,
      "step": 305730
    },
    {
      "epoch": 0.6369583333333333,
      "grad_norm": 0.818725049495697,
      "learning_rate": 8.80842175690305e-05,
      "loss": 3.6114,
      "step": 305740
    },
    {
      "epoch": 0.6369791666666667,
      "grad_norm": 0.9522808194160461,
      "learning_rate": 8.807523819195384e-05,
      "loss": 3.8792,
      "step": 305750
    },
    {
      "epoch": 0.637,
      "grad_norm": 1.0385680198669434,
      "learning_rate": 8.806625908236768e-05,
      "loss": 3.8661,
      "step": 305760
    },
    {
      "epoch": 0.6370208333333334,
      "grad_norm": 0.8572251796722412,
      "learning_rate": 8.805728024031072e-05,
      "loss": 3.6132,
      "step": 305770
    },
    {
      "epoch": 0.6370416666666666,
      "grad_norm": 0.9758861660957336,
      "learning_rate": 8.804830166582183e-05,
      "loss": 3.6059,
      "step": 305780
    },
    {
      "epoch": 0.6370625,
      "grad_norm": 0.817356526851654,
      "learning_rate": 8.803932335893974e-05,
      "loss": 3.777,
      "step": 305790
    },
    {
      "epoch": 0.6370833333333333,
      "grad_norm": 0.785725474357605,
      "learning_rate": 8.80303453197032e-05,
      "loss": 3.6904,
      "step": 305800
    },
    {
      "epoch": 0.6371041666666667,
      "grad_norm": 0.8941138386726379,
      "learning_rate": 8.802136754815111e-05,
      "loss": 3.718,
      "step": 305810
    },
    {
      "epoch": 0.637125,
      "grad_norm": 0.7339862585067749,
      "learning_rate": 8.801239004432214e-05,
      "loss": 3.7034,
      "step": 305820
    },
    {
      "epoch": 0.6371458333333333,
      "grad_norm": 0.8107118606567383,
      "learning_rate": 8.800341280825507e-05,
      "loss": 3.6084,
      "step": 305830
    },
    {
      "epoch": 0.6371666666666667,
      "grad_norm": 0.8729114532470703,
      "learning_rate": 8.79944358399888e-05,
      "loss": 3.6769,
      "step": 305840
    },
    {
      "epoch": 0.6371875,
      "grad_norm": 0.9425539374351501,
      "learning_rate": 8.798545913956199e-05,
      "loss": 3.6644,
      "step": 305850
    },
    {
      "epoch": 0.6372083333333334,
      "grad_norm": 1.0204310417175293,
      "learning_rate": 8.79764827070134e-05,
      "loss": 3.7527,
      "step": 305860
    },
    {
      "epoch": 0.6372291666666666,
      "grad_norm": 0.9323076009750366,
      "learning_rate": 8.796750654238193e-05,
      "loss": 3.8989,
      "step": 305870
    },
    {
      "epoch": 0.63725,
      "grad_norm": 0.8555089235305786,
      "learning_rate": 8.795853064570624e-05,
      "loss": 3.8225,
      "step": 305880
    },
    {
      "epoch": 0.6372708333333333,
      "grad_norm": 1.0912981033325195,
      "learning_rate": 8.794955501702513e-05,
      "loss": 3.7095,
      "step": 305890
    },
    {
      "epoch": 0.6372916666666667,
      "grad_norm": 0.7346795201301575,
      "learning_rate": 8.794057965637741e-05,
      "loss": 3.7247,
      "step": 305900
    },
    {
      "epoch": 0.6373125,
      "grad_norm": 0.8714191913604736,
      "learning_rate": 8.793160456380185e-05,
      "loss": 3.7669,
      "step": 305910
    },
    {
      "epoch": 0.6373333333333333,
      "grad_norm": 0.9660241603851318,
      "learning_rate": 8.792262973933714e-05,
      "loss": 3.7628,
      "step": 305920
    },
    {
      "epoch": 0.6373541666666667,
      "grad_norm": 0.8351573944091797,
      "learning_rate": 8.791365518302208e-05,
      "loss": 3.7501,
      "step": 305930
    },
    {
      "epoch": 0.637375,
      "grad_norm": 0.8882725834846497,
      "learning_rate": 8.79046808948955e-05,
      "loss": 3.7478,
      "step": 305940
    },
    {
      "epoch": 0.6373958333333334,
      "grad_norm": 0.7473497986793518,
      "learning_rate": 8.78957068749961e-05,
      "loss": 3.8436,
      "step": 305950
    },
    {
      "epoch": 0.6374166666666666,
      "grad_norm": 0.9797371029853821,
      "learning_rate": 8.788673312336263e-05,
      "loss": 3.8644,
      "step": 305960
    },
    {
      "epoch": 0.6374375,
      "grad_norm": 0.9202781319618225,
      "learning_rate": 8.787775964003394e-05,
      "loss": 3.7337,
      "step": 305970
    },
    {
      "epoch": 0.6374583333333333,
      "grad_norm": 0.7924976944923401,
      "learning_rate": 8.786878642504873e-05,
      "loss": 3.8506,
      "step": 305980
    },
    {
      "epoch": 0.6374791666666667,
      "grad_norm": 0.9047192335128784,
      "learning_rate": 8.785981347844572e-05,
      "loss": 3.7719,
      "step": 305990
    },
    {
      "epoch": 0.6375,
      "grad_norm": 0.8463741540908813,
      "learning_rate": 8.785084080026378e-05,
      "loss": 3.7056,
      "step": 306000
    },
    {
      "epoch": 0.6375,
      "eval_loss": 4.086581230163574,
      "eval_runtime": 9.4161,
      "eval_samples_per_second": 1.062,
      "eval_steps_per_second": 0.319,
      "step": 306000
    },
    {
      "epoch": 0.6375208333333333,
      "grad_norm": 0.819345235824585,
      "learning_rate": 8.784186839054162e-05,
      "loss": 3.7763,
      "step": 306010
    },
    {
      "epoch": 0.6375416666666667,
      "grad_norm": 0.8527933955192566,
      "learning_rate": 8.783289624931792e-05,
      "loss": 3.7279,
      "step": 306020
    },
    {
      "epoch": 0.6375625,
      "grad_norm": 0.8229383826255798,
      "learning_rate": 8.782392437663152e-05,
      "loss": 3.967,
      "step": 306030
    },
    {
      "epoch": 0.6375833333333333,
      "grad_norm": 0.7887251377105713,
      "learning_rate": 8.781495277252118e-05,
      "loss": 3.9718,
      "step": 306040
    },
    {
      "epoch": 0.6376041666666666,
      "grad_norm": 0.902834415435791,
      "learning_rate": 8.780598143702559e-05,
      "loss": 3.9051,
      "step": 306050
    },
    {
      "epoch": 0.637625,
      "grad_norm": 1.1159878969192505,
      "learning_rate": 8.779701037018358e-05,
      "loss": 3.6418,
      "step": 306060
    },
    {
      "epoch": 0.6376458333333334,
      "grad_norm": 1.1746740341186523,
      "learning_rate": 8.778803957203388e-05,
      "loss": 3.7662,
      "step": 306070
    },
    {
      "epoch": 0.6376666666666667,
      "grad_norm": 0.8585063815116882,
      "learning_rate": 8.777906904261515e-05,
      "loss": 3.7773,
      "step": 306080
    },
    {
      "epoch": 0.6376875,
      "grad_norm": 0.8744372725486755,
      "learning_rate": 8.777009878196626e-05,
      "loss": 3.8377,
      "step": 306090
    },
    {
      "epoch": 0.6377083333333333,
      "grad_norm": 0.7900645136833191,
      "learning_rate": 8.776112879012595e-05,
      "loss": 3.7133,
      "step": 306100
    },
    {
      "epoch": 0.6377291666666667,
      "grad_norm": 0.8566035032272339,
      "learning_rate": 8.775215906713283e-05,
      "loss": 3.9581,
      "step": 306110
    },
    {
      "epoch": 0.63775,
      "grad_norm": 0.8810459971427917,
      "learning_rate": 8.77431896130258e-05,
      "loss": 3.7965,
      "step": 306120
    },
    {
      "epoch": 0.6377708333333333,
      "grad_norm": 0.8488765954971313,
      "learning_rate": 8.773422042784359e-05,
      "loss": 3.8671,
      "step": 306130
    },
    {
      "epoch": 0.6377916666666666,
      "grad_norm": 0.9980971217155457,
      "learning_rate": 8.772525151162482e-05,
      "loss": 3.7072,
      "step": 306140
    },
    {
      "epoch": 0.6378125,
      "grad_norm": 0.9624876379966736,
      "learning_rate": 8.77162828644084e-05,
      "loss": 3.8695,
      "step": 306150
    },
    {
      "epoch": 0.6378333333333334,
      "grad_norm": 0.9866311550140381,
      "learning_rate": 8.770731448623293e-05,
      "loss": 3.5729,
      "step": 306160
    },
    {
      "epoch": 0.6378541666666667,
      "grad_norm": 1.0008232593536377,
      "learning_rate": 8.769834637713716e-05,
      "loss": 3.8261,
      "step": 306170
    },
    {
      "epoch": 0.637875,
      "grad_norm": 0.7908768653869629,
      "learning_rate": 8.768937853715996e-05,
      "loss": 3.629,
      "step": 306180
    },
    {
      "epoch": 0.6378958333333333,
      "grad_norm": 0.8292024731636047,
      "learning_rate": 8.768041096633994e-05,
      "loss": 3.6274,
      "step": 306190
    },
    {
      "epoch": 0.6379166666666667,
      "grad_norm": 0.9571748971939087,
      "learning_rate": 8.76714436647159e-05,
      "loss": 3.6261,
      "step": 306200
    },
    {
      "epoch": 0.6379375,
      "grad_norm": 0.838121235370636,
      "learning_rate": 8.766247663232652e-05,
      "loss": 3.9903,
      "step": 306210
    },
    {
      "epoch": 0.6379583333333333,
      "grad_norm": 0.8708974719047546,
      "learning_rate": 8.765350986921057e-05,
      "loss": 3.6471,
      "step": 306220
    },
    {
      "epoch": 0.6379791666666667,
      "grad_norm": 0.8667982816696167,
      "learning_rate": 8.76445433754068e-05,
      "loss": 3.7078,
      "step": 306230
    },
    {
      "epoch": 0.638,
      "grad_norm": 0.9847525358200073,
      "learning_rate": 8.76355771509539e-05,
      "loss": 3.803,
      "step": 306240
    },
    {
      "epoch": 0.6380208333333334,
      "grad_norm": 0.8041607737541199,
      "learning_rate": 8.76266111958906e-05,
      "loss": 3.8889,
      "step": 306250
    },
    {
      "epoch": 0.6380416666666666,
      "grad_norm": 0.9029136300086975,
      "learning_rate": 8.761764551025573e-05,
      "loss": 3.6987,
      "step": 306260
    },
    {
      "epoch": 0.6380625,
      "grad_norm": 0.9009109735488892,
      "learning_rate": 8.760868009408785e-05,
      "loss": 3.823,
      "step": 306270
    },
    {
      "epoch": 0.6380833333333333,
      "grad_norm": 0.951456606388092,
      "learning_rate": 8.759971494742585e-05,
      "loss": 3.8216,
      "step": 306280
    },
    {
      "epoch": 0.6381041666666667,
      "grad_norm": 0.7968245148658752,
      "learning_rate": 8.759075007030833e-05,
      "loss": 3.7251,
      "step": 306290
    },
    {
      "epoch": 0.638125,
      "grad_norm": 0.8712464570999146,
      "learning_rate": 8.758178546277407e-05,
      "loss": 3.7626,
      "step": 306300
    },
    {
      "epoch": 0.6381458333333333,
      "grad_norm": 0.8104375004768372,
      "learning_rate": 8.757282112486182e-05,
      "loss": 3.9635,
      "step": 306310
    },
    {
      "epoch": 0.6381666666666667,
      "grad_norm": 0.8507966995239258,
      "learning_rate": 8.756385705661025e-05,
      "loss": 3.7138,
      "step": 306320
    },
    {
      "epoch": 0.6381875,
      "grad_norm": 0.8623128533363342,
      "learning_rate": 8.755489325805812e-05,
      "loss": 3.8777,
      "step": 306330
    },
    {
      "epoch": 0.6382083333333334,
      "grad_norm": 1.027138352394104,
      "learning_rate": 8.75459297292441e-05,
      "loss": 3.8777,
      "step": 306340
    },
    {
      "epoch": 0.6382291666666666,
      "grad_norm": 0.8586068153381348,
      "learning_rate": 8.753696647020698e-05,
      "loss": 3.7489,
      "step": 306350
    },
    {
      "epoch": 0.63825,
      "grad_norm": 1.0878612995147705,
      "learning_rate": 8.752800348098543e-05,
      "loss": 3.6553,
      "step": 306360
    },
    {
      "epoch": 0.6382708333333333,
      "grad_norm": 0.9837749004364014,
      "learning_rate": 8.751904076161815e-05,
      "loss": 3.8416,
      "step": 306370
    },
    {
      "epoch": 0.6382916666666667,
      "grad_norm": 0.9841481447219849,
      "learning_rate": 8.751007831214391e-05,
      "loss": 3.6608,
      "step": 306380
    },
    {
      "epoch": 0.6383125,
      "grad_norm": 0.9198931455612183,
      "learning_rate": 8.75011161326014e-05,
      "loss": 3.6564,
      "step": 306390
    },
    {
      "epoch": 0.6383333333333333,
      "grad_norm": 0.8431553840637207,
      "learning_rate": 8.749215422302931e-05,
      "loss": 3.7671,
      "step": 306400
    },
    {
      "epoch": 0.6383541666666667,
      "grad_norm": 0.935710072517395,
      "learning_rate": 8.748319258346637e-05,
      "loss": 3.8051,
      "step": 306410
    },
    {
      "epoch": 0.638375,
      "grad_norm": 0.93900066614151,
      "learning_rate": 8.747423121395132e-05,
      "loss": 3.7667,
      "step": 306420
    },
    {
      "epoch": 0.6383958333333334,
      "grad_norm": 0.7457596063613892,
      "learning_rate": 8.746527011452282e-05,
      "loss": 4.0125,
      "step": 306430
    },
    {
      "epoch": 0.6384166666666666,
      "grad_norm": 0.8654966354370117,
      "learning_rate": 8.74563092852196e-05,
      "loss": 3.6796,
      "step": 306440
    },
    {
      "epoch": 0.6384375,
      "grad_norm": 1.0989912748336792,
      "learning_rate": 8.744734872608038e-05,
      "loss": 3.9116,
      "step": 306450
    },
    {
      "epoch": 0.6384583333333333,
      "grad_norm": 0.8326606154441833,
      "learning_rate": 8.743838843714383e-05,
      "loss": 3.6885,
      "step": 306460
    },
    {
      "epoch": 0.6384791666666667,
      "grad_norm": 0.7882446646690369,
      "learning_rate": 8.74294284184487e-05,
      "loss": 3.8163,
      "step": 306470
    },
    {
      "epoch": 0.6385,
      "grad_norm": 0.8959295749664307,
      "learning_rate": 8.742046867003368e-05,
      "loss": 3.8045,
      "step": 306480
    },
    {
      "epoch": 0.6385208333333333,
      "grad_norm": 0.8545756936073303,
      "learning_rate": 8.741150919193743e-05,
      "loss": 3.7234,
      "step": 306490
    },
    {
      "epoch": 0.6385416666666667,
      "grad_norm": 0.955991268157959,
      "learning_rate": 8.74025499841987e-05,
      "loss": 3.681,
      "step": 306500
    },
    {
      "epoch": 0.6385625,
      "grad_norm": 0.8010285496711731,
      "learning_rate": 8.739359104685625e-05,
      "loss": 3.8996,
      "step": 306510
    },
    {
      "epoch": 0.6385833333333333,
      "grad_norm": 0.7854828238487244,
      "learning_rate": 8.738463237994858e-05,
      "loss": 3.9142,
      "step": 306520
    },
    {
      "epoch": 0.6386041666666666,
      "grad_norm": 0.8123676776885986,
      "learning_rate": 8.737567398351462e-05,
      "loss": 3.8209,
      "step": 306530
    },
    {
      "epoch": 0.638625,
      "grad_norm": 0.7517418265342712,
      "learning_rate": 8.736671585759292e-05,
      "loss": 3.8845,
      "step": 306540
    },
    {
      "epoch": 0.6386458333333334,
      "grad_norm": 0.7946997880935669,
      "learning_rate": 8.735775800222213e-05,
      "loss": 3.7398,
      "step": 306550
    },
    {
      "epoch": 0.6386666666666667,
      "grad_norm": 0.8144868016242981,
      "learning_rate": 8.734880041744118e-05,
      "loss": 3.8709,
      "step": 306560
    },
    {
      "epoch": 0.6386875,
      "grad_norm": 0.9390460848808289,
      "learning_rate": 8.733984310328854e-05,
      "loss": 3.7373,
      "step": 306570
    },
    {
      "epoch": 0.6387083333333333,
      "grad_norm": 0.8250482678413391,
      "learning_rate": 8.733088605980291e-05,
      "loss": 3.7682,
      "step": 306580
    },
    {
      "epoch": 0.6387291666666667,
      "grad_norm": 0.8353414535522461,
      "learning_rate": 8.732192928702317e-05,
      "loss": 3.9301,
      "step": 306590
    },
    {
      "epoch": 0.63875,
      "grad_norm": 0.8205001354217529,
      "learning_rate": 8.731297278498782e-05,
      "loss": 3.6491,
      "step": 306600
    },
    {
      "epoch": 0.6387708333333333,
      "grad_norm": 0.7772575616836548,
      "learning_rate": 8.730401655373557e-05,
      "loss": 3.9437,
      "step": 306610
    },
    {
      "epoch": 0.6387916666666666,
      "grad_norm": 0.8540186285972595,
      "learning_rate": 8.729506059330526e-05,
      "loss": 3.9357,
      "step": 306620
    },
    {
      "epoch": 0.6388125,
      "grad_norm": 1.089156985282898,
      "learning_rate": 8.728610490373542e-05,
      "loss": 3.764,
      "step": 306630
    },
    {
      "epoch": 0.6388333333333334,
      "grad_norm": 0.8486628532409668,
      "learning_rate": 8.727714948506472e-05,
      "loss": 3.7961,
      "step": 306640
    },
    {
      "epoch": 0.6388541666666666,
      "grad_norm": 0.8123427629470825,
      "learning_rate": 8.7268194337332e-05,
      "loss": 3.6817,
      "step": 306650
    },
    {
      "epoch": 0.638875,
      "grad_norm": 1.0801677703857422,
      "learning_rate": 8.725923946057582e-05,
      "loss": 3.8382,
      "step": 306660
    },
    {
      "epoch": 0.6388958333333333,
      "grad_norm": 0.8091784715652466,
      "learning_rate": 8.725028485483488e-05,
      "loss": 3.7129,
      "step": 306670
    },
    {
      "epoch": 0.6389166666666667,
      "grad_norm": 0.8072741627693176,
      "learning_rate": 8.724133052014787e-05,
      "loss": 3.7791,
      "step": 306680
    },
    {
      "epoch": 0.6389375,
      "grad_norm": 0.8857191205024719,
      "learning_rate": 8.723237645655347e-05,
      "loss": 3.9277,
      "step": 306690
    },
    {
      "epoch": 0.6389583333333333,
      "grad_norm": 0.7799972891807556,
      "learning_rate": 8.722342266409036e-05,
      "loss": 3.7679,
      "step": 306700
    },
    {
      "epoch": 0.6389791666666667,
      "grad_norm": 0.7877678275108337,
      "learning_rate": 8.721446914279721e-05,
      "loss": 3.7199,
      "step": 306710
    },
    {
      "epoch": 0.639,
      "grad_norm": 0.8139337301254272,
      "learning_rate": 8.720551589271271e-05,
      "loss": 3.6951,
      "step": 306720
    },
    {
      "epoch": 0.6390208333333334,
      "grad_norm": 0.8592833280563354,
      "learning_rate": 8.719656291387553e-05,
      "loss": 3.6882,
      "step": 306730
    },
    {
      "epoch": 0.6390416666666666,
      "grad_norm": 0.9254372715950012,
      "learning_rate": 8.718761020632433e-05,
      "loss": 3.903,
      "step": 306740
    },
    {
      "epoch": 0.6390625,
      "grad_norm": 0.934900164604187,
      "learning_rate": 8.717865777009779e-05,
      "loss": 3.766,
      "step": 306750
    },
    {
      "epoch": 0.6390833333333333,
      "grad_norm": 0.8067919611930847,
      "learning_rate": 8.716970560523458e-05,
      "loss": 3.5831,
      "step": 306760
    },
    {
      "epoch": 0.6391041666666667,
      "grad_norm": 1.122157096862793,
      "learning_rate": 8.716075371177339e-05,
      "loss": 3.6653,
      "step": 306770
    },
    {
      "epoch": 0.639125,
      "grad_norm": 0.8568453788757324,
      "learning_rate": 8.715180208975284e-05,
      "loss": 3.7804,
      "step": 306780
    },
    {
      "epoch": 0.6391458333333333,
      "grad_norm": 0.7725298404693604,
      "learning_rate": 8.714285073921172e-05,
      "loss": 3.8647,
      "step": 306790
    },
    {
      "epoch": 0.6391666666666667,
      "grad_norm": 0.9246038794517517,
      "learning_rate": 8.713389966018845e-05,
      "loss": 3.9194,
      "step": 306800
    },
    {
      "epoch": 0.6391875,
      "grad_norm": 0.8665174245834351,
      "learning_rate": 8.712494885272194e-05,
      "loss": 3.7078,
      "step": 306810
    },
    {
      "epoch": 0.6392083333333334,
      "grad_norm": 0.7943683862686157,
      "learning_rate": 8.711599831685081e-05,
      "loss": 3.6826,
      "step": 306820
    },
    {
      "epoch": 0.6392291666666666,
      "grad_norm": 0.9447843432426453,
      "learning_rate": 8.710704805261356e-05,
      "loss": 3.8725,
      "step": 306830
    },
    {
      "epoch": 0.63925,
      "grad_norm": 0.8063831329345703,
      "learning_rate": 8.709809806004903e-05,
      "loss": 3.7702,
      "step": 306840
    },
    {
      "epoch": 0.6392708333333333,
      "grad_norm": 0.9633278846740723,
      "learning_rate": 8.708914833919589e-05,
      "loss": 3.7135,
      "step": 306850
    },
    {
      "epoch": 0.6392916666666667,
      "grad_norm": 0.9767175316810608,
      "learning_rate": 8.708019889009257e-05,
      "loss": 3.8932,
      "step": 306860
    },
    {
      "epoch": 0.6393125,
      "grad_norm": 0.8115822076797485,
      "learning_rate": 8.707124971277796e-05,
      "loss": 3.5918,
      "step": 306870
    },
    {
      "epoch": 0.6393333333333333,
      "grad_norm": 0.9679087996482849,
      "learning_rate": 8.706230080729073e-05,
      "loss": 3.55,
      "step": 306880
    },
    {
      "epoch": 0.6393541666666667,
      "grad_norm": 0.894962728023529,
      "learning_rate": 8.705335217366929e-05,
      "loss": 3.7548,
      "step": 306890
    },
    {
      "epoch": 0.639375,
      "grad_norm": 0.8391240835189819,
      "learning_rate": 8.70444038119526e-05,
      "loss": 3.6781,
      "step": 306900
    },
    {
      "epoch": 0.6393958333333334,
      "grad_norm": 0.8283442258834839,
      "learning_rate": 8.703545572217909e-05,
      "loss": 3.7962,
      "step": 306910
    },
    {
      "epoch": 0.6394166666666666,
      "grad_norm": 1.7673016786575317,
      "learning_rate": 8.702650790438742e-05,
      "loss": 3.5957,
      "step": 306920
    },
    {
      "epoch": 0.6394375,
      "grad_norm": 0.8269036412239075,
      "learning_rate": 8.701756035861645e-05,
      "loss": 3.7766,
      "step": 306930
    },
    {
      "epoch": 0.6394583333333334,
      "grad_norm": 1.009653925895691,
      "learning_rate": 8.700861308490464e-05,
      "loss": 3.6059,
      "step": 306940
    },
    {
      "epoch": 0.6394791666666667,
      "grad_norm": 0.8747442960739136,
      "learning_rate": 8.699966608329059e-05,
      "loss": 4.0194,
      "step": 306950
    },
    {
      "epoch": 0.6395,
      "grad_norm": 0.8632615208625793,
      "learning_rate": 8.699071935381319e-05,
      "loss": 3.6067,
      "step": 306960
    },
    {
      "epoch": 0.6395208333333333,
      "grad_norm": 1.2566202878952026,
      "learning_rate": 8.698177289651087e-05,
      "loss": 3.6918,
      "step": 306970
    },
    {
      "epoch": 0.6395416666666667,
      "grad_norm": 0.8580154776573181,
      "learning_rate": 8.697282671142231e-05,
      "loss": 3.7815,
      "step": 306980
    },
    {
      "epoch": 0.6395625,
      "grad_norm": 0.8824594020843506,
      "learning_rate": 8.696388079858629e-05,
      "loss": 3.7391,
      "step": 306990
    },
    {
      "epoch": 0.6395833333333333,
      "grad_norm": 0.7988094091415405,
      "learning_rate": 8.695493515804129e-05,
      "loss": 3.663,
      "step": 307000
    },
    {
      "epoch": 0.6395833333333333,
      "eval_loss": 4.082969665527344,
      "eval_runtime": 8.9561,
      "eval_samples_per_second": 1.117,
      "eval_steps_per_second": 0.335,
      "step": 307000
    },
    {
      "epoch": 0.6396041666666666,
      "grad_norm": 0.823116660118103,
      "learning_rate": 8.694598978982598e-05,
      "loss": 3.8498,
      "step": 307010
    },
    {
      "epoch": 0.639625,
      "grad_norm": 0.7707412242889404,
      "learning_rate": 8.693704469397912e-05,
      "loss": 3.7369,
      "step": 307020
    },
    {
      "epoch": 0.6396458333333334,
      "grad_norm": 0.9397986531257629,
      "learning_rate": 8.692809987053924e-05,
      "loss": 3.9232,
      "step": 307030
    },
    {
      "epoch": 0.6396666666666667,
      "grad_norm": 0.8521705269813538,
      "learning_rate": 8.691915531954496e-05,
      "loss": 3.6955,
      "step": 307040
    },
    {
      "epoch": 0.6396875,
      "grad_norm": 0.8920224905014038,
      "learning_rate": 8.6910211041035e-05,
      "loss": 3.8032,
      "step": 307050
    },
    {
      "epoch": 0.6397083333333333,
      "grad_norm": 0.8468098044395447,
      "learning_rate": 8.690126703504792e-05,
      "loss": 3.8539,
      "step": 307060
    },
    {
      "epoch": 0.6397291666666667,
      "grad_norm": 0.879999577999115,
      "learning_rate": 8.689232330162243e-05,
      "loss": 3.693,
      "step": 307070
    },
    {
      "epoch": 0.63975,
      "grad_norm": 0.7938832640647888,
      "learning_rate": 8.688337984079712e-05,
      "loss": 3.7962,
      "step": 307080
    },
    {
      "epoch": 0.6397708333333333,
      "grad_norm": 0.8718175292015076,
      "learning_rate": 8.687443665261059e-05,
      "loss": 3.9437,
      "step": 307090
    },
    {
      "epoch": 0.6397916666666666,
      "grad_norm": 1.0333709716796875,
      "learning_rate": 8.686549373710154e-05,
      "loss": 3.8824,
      "step": 307100
    },
    {
      "epoch": 0.6398125,
      "grad_norm": 1.187888741493225,
      "learning_rate": 8.685655109430854e-05,
      "loss": 3.8444,
      "step": 307110
    },
    {
      "epoch": 0.6398333333333334,
      "grad_norm": 0.9461555480957031,
      "learning_rate": 8.684760872427027e-05,
      "loss": 3.9467,
      "step": 307120
    },
    {
      "epoch": 0.6398541666666666,
      "grad_norm": 0.7858644127845764,
      "learning_rate": 8.683866662702532e-05,
      "loss": 3.9173,
      "step": 307130
    },
    {
      "epoch": 0.639875,
      "grad_norm": 0.9796772599220276,
      "learning_rate": 8.682972480261234e-05,
      "loss": 3.636,
      "step": 307140
    },
    {
      "epoch": 0.6398958333333333,
      "grad_norm": 0.8158097267150879,
      "learning_rate": 8.682078325106993e-05,
      "loss": 3.9552,
      "step": 307150
    },
    {
      "epoch": 0.6399166666666667,
      "grad_norm": 0.7321593165397644,
      "learning_rate": 8.68118419724368e-05,
      "loss": 3.773,
      "step": 307160
    },
    {
      "epoch": 0.6399375,
      "grad_norm": 0.88349449634552,
      "learning_rate": 8.680290096675137e-05,
      "loss": 3.5858,
      "step": 307170
    },
    {
      "epoch": 0.6399583333333333,
      "grad_norm": 0.9253945350646973,
      "learning_rate": 8.679396023405245e-05,
      "loss": 3.5427,
      "step": 307180
    },
    {
      "epoch": 0.6399791666666667,
      "grad_norm": 0.7970720529556274,
      "learning_rate": 8.678501977437868e-05,
      "loss": 3.6602,
      "step": 307190
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7667677998542786,
      "learning_rate": 8.677607958776847e-05,
      "loss": 3.8073,
      "step": 307200
    },
    {
      "epoch": 0.6400208333333334,
      "grad_norm": 0.8961771130561829,
      "learning_rate": 8.676713967426063e-05,
      "loss": 3.7038,
      "step": 307210
    },
    {
      "epoch": 0.6400416666666666,
      "grad_norm": 1.0180833339691162,
      "learning_rate": 8.67582000338938e-05,
      "loss": 3.9581,
      "step": 307220
    },
    {
      "epoch": 0.6400625,
      "grad_norm": 0.7366939783096313,
      "learning_rate": 8.674926066670637e-05,
      "loss": 3.5441,
      "step": 307230
    },
    {
      "epoch": 0.6400833333333333,
      "grad_norm": 0.8519282937049866,
      "learning_rate": 8.674032157273715e-05,
      "loss": 3.8079,
      "step": 307240
    },
    {
      "epoch": 0.6401041666666667,
      "grad_norm": 0.8604620695114136,
      "learning_rate": 8.673138275202478e-05,
      "loss": 3.5701,
      "step": 307250
    },
    {
      "epoch": 0.640125,
      "grad_norm": 0.9653746485710144,
      "learning_rate": 8.672244420460768e-05,
      "loss": 3.8376,
      "step": 307260
    },
    {
      "epoch": 0.6401458333333333,
      "grad_norm": 0.9320382475852966,
      "learning_rate": 8.671350593052467e-05,
      "loss": 3.7051,
      "step": 307270
    },
    {
      "epoch": 0.6401666666666667,
      "grad_norm": 0.9038186073303223,
      "learning_rate": 8.670456792981421e-05,
      "loss": 3.6907,
      "step": 307280
    },
    {
      "epoch": 0.6401875,
      "grad_norm": 1.3966209888458252,
      "learning_rate": 8.669563020251491e-05,
      "loss": 3.8259,
      "step": 307290
    },
    {
      "epoch": 0.6402083333333334,
      "grad_norm": 0.8877731561660767,
      "learning_rate": 8.668669274866554e-05,
      "loss": 3.7851,
      "step": 307300
    },
    {
      "epoch": 0.6402291666666666,
      "grad_norm": 0.9773591756820679,
      "learning_rate": 8.667775556830455e-05,
      "loss": 3.8459,
      "step": 307310
    },
    {
      "epoch": 0.64025,
      "grad_norm": 0.8666427135467529,
      "learning_rate": 8.66688186614705e-05,
      "loss": 3.7505,
      "step": 307320
    },
    {
      "epoch": 0.6402708333333333,
      "grad_norm": 0.8093879222869873,
      "learning_rate": 8.665988202820224e-05,
      "loss": 3.7179,
      "step": 307330
    },
    {
      "epoch": 0.6402916666666667,
      "grad_norm": 0.7793779969215393,
      "learning_rate": 8.665094566853815e-05,
      "loss": 3.7175,
      "step": 307340
    },
    {
      "epoch": 0.6403125,
      "grad_norm": 0.8512909412384033,
      "learning_rate": 8.664200958251683e-05,
      "loss": 3.5888,
      "step": 307350
    },
    {
      "epoch": 0.6403333333333333,
      "grad_norm": 1.245536208152771,
      "learning_rate": 8.66330737701771e-05,
      "loss": 3.8914,
      "step": 307360
    },
    {
      "epoch": 0.6403541666666667,
      "grad_norm": 0.9842488169670105,
      "learning_rate": 8.662413823155731e-05,
      "loss": 3.7545,
      "step": 307370
    },
    {
      "epoch": 0.640375,
      "grad_norm": 0.9010676145553589,
      "learning_rate": 8.661520296669617e-05,
      "loss": 3.9306,
      "step": 307380
    },
    {
      "epoch": 0.6403958333333334,
      "grad_norm": 0.8234205842018127,
      "learning_rate": 8.660626797563228e-05,
      "loss": 3.6273,
      "step": 307390
    },
    {
      "epoch": 0.6404166666666666,
      "grad_norm": 0.953446090221405,
      "learning_rate": 8.65973332584042e-05,
      "loss": 3.6161,
      "step": 307400
    },
    {
      "epoch": 0.6404375,
      "grad_norm": 0.8566889762878418,
      "learning_rate": 8.658839881505056e-05,
      "loss": 3.8178,
      "step": 307410
    },
    {
      "epoch": 0.6404583333333334,
      "grad_norm": 0.7930949926376343,
      "learning_rate": 8.65794646456099e-05,
      "loss": 3.821,
      "step": 307420
    },
    {
      "epoch": 0.6404791666666667,
      "grad_norm": 0.8996785283088684,
      "learning_rate": 8.657053075012087e-05,
      "loss": 3.8133,
      "step": 307430
    },
    {
      "epoch": 0.6405,
      "grad_norm": 0.9535418748855591,
      "learning_rate": 8.656159712862206e-05,
      "loss": 3.8111,
      "step": 307440
    },
    {
      "epoch": 0.6405208333333333,
      "grad_norm": 0.7970256209373474,
      "learning_rate": 8.655266378115201e-05,
      "loss": 3.7458,
      "step": 307450
    },
    {
      "epoch": 0.6405416666666667,
      "grad_norm": 0.8208585381507874,
      "learning_rate": 8.654373070774937e-05,
      "loss": 3.7689,
      "step": 307460
    },
    {
      "epoch": 0.6405625,
      "grad_norm": 0.965025007724762,
      "learning_rate": 8.653479790845267e-05,
      "loss": 3.6454,
      "step": 307470
    },
    {
      "epoch": 0.6405833333333333,
      "grad_norm": 0.8207656145095825,
      "learning_rate": 8.652586538330054e-05,
      "loss": 3.6961,
      "step": 307480
    },
    {
      "epoch": 0.6406041666666666,
      "grad_norm": 0.9985676407814026,
      "learning_rate": 8.651693313233153e-05,
      "loss": 3.9125,
      "step": 307490
    },
    {
      "epoch": 0.640625,
      "grad_norm": 0.8683242797851562,
      "learning_rate": 8.650800115558423e-05,
      "loss": 3.8846,
      "step": 307500
    },
    {
      "epoch": 0.6406458333333334,
      "grad_norm": 0.849151611328125,
      "learning_rate": 8.649906945309726e-05,
      "loss": 3.6057,
      "step": 307510
    },
    {
      "epoch": 0.6406666666666667,
      "grad_norm": 0.7514739632606506,
      "learning_rate": 8.649013802490916e-05,
      "loss": 3.7132,
      "step": 307520
    },
    {
      "epoch": 0.6406875,
      "grad_norm": 0.9736563563346863,
      "learning_rate": 8.64812068710586e-05,
      "loss": 3.833,
      "step": 307530
    },
    {
      "epoch": 0.6407083333333333,
      "grad_norm": 0.798366129398346,
      "learning_rate": 8.647227599158397e-05,
      "loss": 3.7459,
      "step": 307540
    },
    {
      "epoch": 0.6407291666666667,
      "grad_norm": 0.8442838191986084,
      "learning_rate": 8.6463345386524e-05,
      "loss": 3.8734,
      "step": 307550
    },
    {
      "epoch": 0.64075,
      "grad_norm": 0.7744479775428772,
      "learning_rate": 8.64544150559173e-05,
      "loss": 3.8741,
      "step": 307560
    },
    {
      "epoch": 0.6407708333333333,
      "grad_norm": 0.7750211954116821,
      "learning_rate": 8.644548499980223e-05,
      "loss": 3.7379,
      "step": 307570
    },
    {
      "epoch": 0.6407916666666666,
      "grad_norm": 0.8033662438392639,
      "learning_rate": 8.643655521821759e-05,
      "loss": 3.8967,
      "step": 307580
    },
    {
      "epoch": 0.6408125,
      "grad_norm": 0.8634835481643677,
      "learning_rate": 8.642762571120193e-05,
      "loss": 3.6827,
      "step": 307590
    },
    {
      "epoch": 0.6408333333333334,
      "grad_norm": 0.8861648440361023,
      "learning_rate": 8.641869647879362e-05,
      "loss": 3.7507,
      "step": 307600
    },
    {
      "epoch": 0.6408541666666666,
      "grad_norm": 0.7696179747581482,
      "learning_rate": 8.640976752103148e-05,
      "loss": 3.709,
      "step": 307610
    },
    {
      "epoch": 0.640875,
      "grad_norm": 0.7431395053863525,
      "learning_rate": 8.6400838837954e-05,
      "loss": 3.6951,
      "step": 307620
    },
    {
      "epoch": 0.6408958333333333,
      "grad_norm": 0.8201955556869507,
      "learning_rate": 8.639191042959962e-05,
      "loss": 3.8652,
      "step": 307630
    },
    {
      "epoch": 0.6409166666666667,
      "grad_norm": 0.9796703457832336,
      "learning_rate": 8.638298229600705e-05,
      "loss": 3.8251,
      "step": 307640
    },
    {
      "epoch": 0.6409375,
      "grad_norm": 1.0386861562728882,
      "learning_rate": 8.637405443721488e-05,
      "loss": 3.7677,
      "step": 307650
    },
    {
      "epoch": 0.6409583333333333,
      "grad_norm": 0.7611811757087708,
      "learning_rate": 8.63651268532615e-05,
      "loss": 3.8522,
      "step": 307660
    },
    {
      "epoch": 0.6409791666666667,
      "grad_norm": 0.7234513163566589,
      "learning_rate": 8.635619954418568e-05,
      "loss": 3.7662,
      "step": 307670
    },
    {
      "epoch": 0.641,
      "grad_norm": 0.9886673092842102,
      "learning_rate": 8.634727251002586e-05,
      "loss": 3.8189,
      "step": 307680
    },
    {
      "epoch": 0.6410208333333334,
      "grad_norm": 0.8636009693145752,
      "learning_rate": 8.63383457508206e-05,
      "loss": 3.8243,
      "step": 307690
    },
    {
      "epoch": 0.6410416666666666,
      "grad_norm": 0.8198409676551819,
      "learning_rate": 8.63294192666085e-05,
      "loss": 3.7659,
      "step": 307700
    },
    {
      "epoch": 0.6410625,
      "grad_norm": 0.8164844512939453,
      "learning_rate": 8.632049305742811e-05,
      "loss": 3.7259,
      "step": 307710
    },
    {
      "epoch": 0.6410833333333333,
      "grad_norm": 0.8703008890151978,
      "learning_rate": 8.631156712331799e-05,
      "loss": 3.9784,
      "step": 307720
    },
    {
      "epoch": 0.6411041666666667,
      "grad_norm": 0.9434190392494202,
      "learning_rate": 8.630264146431666e-05,
      "loss": 3.8468,
      "step": 307730
    },
    {
      "epoch": 0.641125,
      "grad_norm": 0.7646133303642273,
      "learning_rate": 8.629371608046273e-05,
      "loss": 3.6343,
      "step": 307740
    },
    {
      "epoch": 0.6411458333333333,
      "grad_norm": 0.9911765456199646,
      "learning_rate": 8.628479097179474e-05,
      "loss": 3.9353,
      "step": 307750
    },
    {
      "epoch": 0.6411666666666667,
      "grad_norm": 0.8460148572921753,
      "learning_rate": 8.627586613835121e-05,
      "loss": 3.7857,
      "step": 307760
    },
    {
      "epoch": 0.6411875,
      "grad_norm": 0.8192888498306274,
      "learning_rate": 8.626694158017073e-05,
      "loss": 3.7705,
      "step": 307770
    },
    {
      "epoch": 0.6412083333333334,
      "grad_norm": 0.9240146279335022,
      "learning_rate": 8.62580172972918e-05,
      "loss": 3.8159,
      "step": 307780
    },
    {
      "epoch": 0.6412291666666666,
      "grad_norm": 0.9336118102073669,
      "learning_rate": 8.624909328975303e-05,
      "loss": 3.7738,
      "step": 307790
    },
    {
      "epoch": 0.64125,
      "grad_norm": 0.9306042790412903,
      "learning_rate": 8.624016955759296e-05,
      "loss": 3.7514,
      "step": 307800
    },
    {
      "epoch": 0.6412708333333333,
      "grad_norm": 1.0486904382705688,
      "learning_rate": 8.623124610085009e-05,
      "loss": 3.8044,
      "step": 307810
    },
    {
      "epoch": 0.6412916666666667,
      "grad_norm": 0.7712141275405884,
      "learning_rate": 8.622232291956303e-05,
      "loss": 3.9151,
      "step": 307820
    },
    {
      "epoch": 0.6413125,
      "grad_norm": 0.7962857484817505,
      "learning_rate": 8.621340001377025e-05,
      "loss": 3.7001,
      "step": 307830
    },
    {
      "epoch": 0.6413333333333333,
      "grad_norm": 0.9131604433059692,
      "learning_rate": 8.620447738351037e-05,
      "loss": 3.8188,
      "step": 307840
    },
    {
      "epoch": 0.6413541666666667,
      "grad_norm": 1.0137193202972412,
      "learning_rate": 8.619555502882186e-05,
      "loss": 3.7953,
      "step": 307850
    },
    {
      "epoch": 0.641375,
      "grad_norm": 0.8396126627922058,
      "learning_rate": 8.618663294974332e-05,
      "loss": 3.8514,
      "step": 307860
    },
    {
      "epoch": 0.6413958333333334,
      "grad_norm": 1.0590451955795288,
      "learning_rate": 8.617771114631328e-05,
      "loss": 3.8802,
      "step": 307870
    },
    {
      "epoch": 0.6414166666666666,
      "grad_norm": 0.9310755133628845,
      "learning_rate": 8.616878961857024e-05,
      "loss": 3.7505,
      "step": 307880
    },
    {
      "epoch": 0.6414375,
      "grad_norm": 0.9453296661376953,
      "learning_rate": 8.615986836655275e-05,
      "loss": 3.9637,
      "step": 307890
    },
    {
      "epoch": 0.6414583333333334,
      "grad_norm": 1.1463756561279297,
      "learning_rate": 8.615094739029944e-05,
      "loss": 3.7681,
      "step": 307900
    },
    {
      "epoch": 0.6414791666666667,
      "grad_norm": 0.9263760447502136,
      "learning_rate": 8.614202668984864e-05,
      "loss": 3.7397,
      "step": 307910
    },
    {
      "epoch": 0.6415,
      "grad_norm": 0.9423230290412903,
      "learning_rate": 8.613310626523909e-05,
      "loss": 3.8861,
      "step": 307920
    },
    {
      "epoch": 0.6415208333333333,
      "grad_norm": 0.8309725522994995,
      "learning_rate": 8.612418611650927e-05,
      "loss": 3.7386,
      "step": 307930
    },
    {
      "epoch": 0.6415416666666667,
      "grad_norm": 0.8651559352874756,
      "learning_rate": 8.611526624369758e-05,
      "loss": 3.789,
      "step": 307940
    },
    {
      "epoch": 0.6415625,
      "grad_norm": 1.0655913352966309,
      "learning_rate": 8.61063466468427e-05,
      "loss": 3.7975,
      "step": 307950
    },
    {
      "epoch": 0.6415833333333333,
      "grad_norm": 0.829238772392273,
      "learning_rate": 8.609742732598318e-05,
      "loss": 3.8746,
      "step": 307960
    },
    {
      "epoch": 0.6416041666666666,
      "grad_norm": 0.9729710221290588,
      "learning_rate": 8.608850828115742e-05,
      "loss": 3.6483,
      "step": 307970
    },
    {
      "epoch": 0.641625,
      "grad_norm": 0.7840602397918701,
      "learning_rate": 8.607958951240394e-05,
      "loss": 3.8811,
      "step": 307980
    },
    {
      "epoch": 0.6416458333333334,
      "grad_norm": 0.9385847449302673,
      "learning_rate": 8.607067101976146e-05,
      "loss": 3.8094,
      "step": 307990
    },
    {
      "epoch": 0.6416666666666667,
      "grad_norm": 0.8185447454452515,
      "learning_rate": 8.60617528032683e-05,
      "loss": 3.8589,
      "step": 308000
    },
    {
      "epoch": 0.6416666666666667,
      "eval_loss": 4.078851222991943,
      "eval_runtime": 8.8337,
      "eval_samples_per_second": 1.132,
      "eval_steps_per_second": 0.34,
      "step": 308000
    },
    {
      "epoch": 0.6416875,
      "grad_norm": 0.8296528458595276,
      "learning_rate": 8.605283486296302e-05,
      "loss": 3.6606,
      "step": 308010
    },
    {
      "epoch": 0.6417083333333333,
      "grad_norm": 0.992422878742218,
      "learning_rate": 8.604391719888428e-05,
      "loss": 3.7781,
      "step": 308020
    },
    {
      "epoch": 0.6417291666666667,
      "grad_norm": 0.8524085879325867,
      "learning_rate": 8.603499981107047e-05,
      "loss": 3.9336,
      "step": 308030
    },
    {
      "epoch": 0.64175,
      "grad_norm": 0.9975120425224304,
      "learning_rate": 8.602608269956012e-05,
      "loss": 4.025,
      "step": 308040
    },
    {
      "epoch": 0.6417708333333333,
      "grad_norm": 0.8334725499153137,
      "learning_rate": 8.601716586439177e-05,
      "loss": 3.9008,
      "step": 308050
    },
    {
      "epoch": 0.6417916666666666,
      "grad_norm": 0.7713432908058167,
      "learning_rate": 8.600824930560395e-05,
      "loss": 3.7593,
      "step": 308060
    },
    {
      "epoch": 0.6418125,
      "grad_norm": 0.8752166032791138,
      "learning_rate": 8.599933302323516e-05,
      "loss": 3.7186,
      "step": 308070
    },
    {
      "epoch": 0.6418333333333334,
      "grad_norm": 0.8225270509719849,
      "learning_rate": 8.59904170173239e-05,
      "loss": 3.852,
      "step": 308080
    },
    {
      "epoch": 0.6418541666666666,
      "grad_norm": 0.8832035064697266,
      "learning_rate": 8.598150128790873e-05,
      "loss": 3.8135,
      "step": 308090
    },
    {
      "epoch": 0.641875,
      "grad_norm": 0.9048353433609009,
      "learning_rate": 8.597258583502812e-05,
      "loss": 3.914,
      "step": 308100
    },
    {
      "epoch": 0.6418958333333333,
      "grad_norm": 1.0363399982452393,
      "learning_rate": 8.596367065872059e-05,
      "loss": 3.6889,
      "step": 308110
    },
    {
      "epoch": 0.6419166666666667,
      "grad_norm": 0.8223438858985901,
      "learning_rate": 8.595475575902465e-05,
      "loss": 3.8061,
      "step": 308120
    },
    {
      "epoch": 0.6419375,
      "grad_norm": 0.8317945003509521,
      "learning_rate": 8.594584113597883e-05,
      "loss": 3.7121,
      "step": 308130
    },
    {
      "epoch": 0.6419583333333333,
      "grad_norm": 0.8277611136436462,
      "learning_rate": 8.593692678962162e-05,
      "loss": 3.7833,
      "step": 308140
    },
    {
      "epoch": 0.6419791666666667,
      "grad_norm": 0.8867955803871155,
      "learning_rate": 8.592801271999153e-05,
      "loss": 3.6751,
      "step": 308150
    },
    {
      "epoch": 0.642,
      "grad_norm": 0.8224964141845703,
      "learning_rate": 8.591909892712706e-05,
      "loss": 3.7045,
      "step": 308160
    },
    {
      "epoch": 0.6420208333333334,
      "grad_norm": 0.8861764073371887,
      "learning_rate": 8.591018541106672e-05,
      "loss": 3.8758,
      "step": 308170
    },
    {
      "epoch": 0.6420416666666666,
      "grad_norm": 0.9613661170005798,
      "learning_rate": 8.590127217184899e-05,
      "loss": 3.8151,
      "step": 308180
    },
    {
      "epoch": 0.6420625,
      "grad_norm": 0.966117799282074,
      "learning_rate": 8.58923592095124e-05,
      "loss": 3.7826,
      "step": 308190
    },
    {
      "epoch": 0.6420833333333333,
      "grad_norm": 0.7922038435935974,
      "learning_rate": 8.588344652409548e-05,
      "loss": 3.7034,
      "step": 308200
    },
    {
      "epoch": 0.6421041666666667,
      "grad_norm": 0.8982937932014465,
      "learning_rate": 8.587453411563666e-05,
      "loss": 3.6996,
      "step": 308210
    },
    {
      "epoch": 0.642125,
      "grad_norm": 0.7604324817657471,
      "learning_rate": 8.586562198417446e-05,
      "loss": 3.6635,
      "step": 308220
    },
    {
      "epoch": 0.6421458333333333,
      "grad_norm": 0.8591562509536743,
      "learning_rate": 8.58567101297474e-05,
      "loss": 3.7221,
      "step": 308230
    },
    {
      "epoch": 0.6421666666666667,
      "grad_norm": 0.9021470546722412,
      "learning_rate": 8.584779855239398e-05,
      "loss": 3.7502,
      "step": 308240
    },
    {
      "epoch": 0.6421875,
      "grad_norm": 0.841675877571106,
      "learning_rate": 8.583888725215266e-05,
      "loss": 3.8961,
      "step": 308250
    },
    {
      "epoch": 0.6422083333333334,
      "grad_norm": 0.9260366559028625,
      "learning_rate": 8.582997622906195e-05,
      "loss": 3.7407,
      "step": 308260
    },
    {
      "epoch": 0.6422291666666666,
      "grad_norm": 0.8433653712272644,
      "learning_rate": 8.58210654831604e-05,
      "loss": 3.7727,
      "step": 308270
    },
    {
      "epoch": 0.64225,
      "grad_norm": 0.8529657125473022,
      "learning_rate": 8.581215501448639e-05,
      "loss": 3.7696,
      "step": 308280
    },
    {
      "epoch": 0.6422708333333333,
      "grad_norm": 0.9098461866378784,
      "learning_rate": 8.58032448230784e-05,
      "loss": 3.6715,
      "step": 308290
    },
    {
      "epoch": 0.6422916666666667,
      "grad_norm": 0.7859862446784973,
      "learning_rate": 8.57943349089751e-05,
      "loss": 3.7863,
      "step": 308300
    },
    {
      "epoch": 0.6423125,
      "grad_norm": 0.8183407187461853,
      "learning_rate": 8.57854252722148e-05,
      "loss": 3.642,
      "step": 308310
    },
    {
      "epoch": 0.6423333333333333,
      "grad_norm": 0.8112826943397522,
      "learning_rate": 8.577651591283598e-05,
      "loss": 3.7624,
      "step": 308320
    },
    {
      "epoch": 0.6423541666666667,
      "grad_norm": 1.048923134803772,
      "learning_rate": 8.576760683087732e-05,
      "loss": 3.7815,
      "step": 308330
    },
    {
      "epoch": 0.642375,
      "grad_norm": 0.9353983998298645,
      "learning_rate": 8.575869802637711e-05,
      "loss": 3.9411,
      "step": 308340
    },
    {
      "epoch": 0.6423958333333334,
      "grad_norm": 0.9222793579101562,
      "learning_rate": 8.574978949937383e-05,
      "loss": 3.8046,
      "step": 308350
    },
    {
      "epoch": 0.6424166666666666,
      "grad_norm": 0.9072383642196655,
      "learning_rate": 8.574088124990615e-05,
      "loss": 3.7579,
      "step": 308360
    },
    {
      "epoch": 0.6424375,
      "grad_norm": 0.8714619278907776,
      "learning_rate": 8.573197327801237e-05,
      "loss": 3.8409,
      "step": 308370
    },
    {
      "epoch": 0.6424583333333334,
      "grad_norm": 0.822519838809967,
      "learning_rate": 8.572306558373097e-05,
      "loss": 3.7057,
      "step": 308380
    },
    {
      "epoch": 0.6424791666666667,
      "grad_norm": 0.7353013753890991,
      "learning_rate": 8.571415816710059e-05,
      "loss": 3.948,
      "step": 308390
    },
    {
      "epoch": 0.6425,
      "grad_norm": 0.8169522881507874,
      "learning_rate": 8.570525102815956e-05,
      "loss": 3.9683,
      "step": 308400
    },
    {
      "epoch": 0.6425208333333333,
      "grad_norm": 0.8298183083534241,
      "learning_rate": 8.569634416694638e-05,
      "loss": 3.8345,
      "step": 308410
    },
    {
      "epoch": 0.6425416666666667,
      "grad_norm": 0.8096688985824585,
      "learning_rate": 8.568743758349954e-05,
      "loss": 3.694,
      "step": 308420
    },
    {
      "epoch": 0.6425625,
      "grad_norm": 0.8946322798728943,
      "learning_rate": 8.567853127785752e-05,
      "loss": 3.7569,
      "step": 308430
    },
    {
      "epoch": 0.6425833333333333,
      "grad_norm": 0.8665819764137268,
      "learning_rate": 8.566962525005881e-05,
      "loss": 3.9477,
      "step": 308440
    },
    {
      "epoch": 0.6426041666666666,
      "grad_norm": 0.8933606743812561,
      "learning_rate": 8.566071950014181e-05,
      "loss": 3.6328,
      "step": 308450
    },
    {
      "epoch": 0.642625,
      "grad_norm": 0.754629373550415,
      "learning_rate": 8.565181402814505e-05,
      "loss": 3.4641,
      "step": 308460
    },
    {
      "epoch": 0.6426458333333334,
      "grad_norm": 1.141083002090454,
      "learning_rate": 8.564290883410699e-05,
      "loss": 3.7706,
      "step": 308470
    },
    {
      "epoch": 0.6426666666666667,
      "grad_norm": 0.8146751523017883,
      "learning_rate": 8.563400391806608e-05,
      "loss": 3.7668,
      "step": 308480
    },
    {
      "epoch": 0.6426875,
      "grad_norm": 0.7904360890388489,
      "learning_rate": 8.562509928006081e-05,
      "loss": 3.8305,
      "step": 308490
    },
    {
      "epoch": 0.6427083333333333,
      "grad_norm": 0.8841423988342285,
      "learning_rate": 8.561619492012961e-05,
      "loss": 3.8647,
      "step": 308500
    },
    {
      "epoch": 0.6427291666666667,
      "grad_norm": 1.139879822731018,
      "learning_rate": 8.560729083831098e-05,
      "loss": 3.8077,
      "step": 308510
    },
    {
      "epoch": 0.64275,
      "grad_norm": 0.7797508239746094,
      "learning_rate": 8.559838703464336e-05,
      "loss": 3.6358,
      "step": 308520
    },
    {
      "epoch": 0.6427708333333333,
      "grad_norm": 0.9850224852561951,
      "learning_rate": 8.558948350916522e-05,
      "loss": 3.8074,
      "step": 308530
    },
    {
      "epoch": 0.6427916666666667,
      "grad_norm": 0.8933379054069519,
      "learning_rate": 8.5580580261915e-05,
      "loss": 3.8358,
      "step": 308540
    },
    {
      "epoch": 0.6428125,
      "grad_norm": 0.8402029871940613,
      "learning_rate": 8.55716772929312e-05,
      "loss": 3.8817,
      "step": 308550
    },
    {
      "epoch": 0.6428333333333334,
      "grad_norm": 1.0575522184371948,
      "learning_rate": 8.556277460225229e-05,
      "loss": 3.8121,
      "step": 308560
    },
    {
      "epoch": 0.6428541666666666,
      "grad_norm": 1.3787094354629517,
      "learning_rate": 8.555387218991658e-05,
      "loss": 3.7995,
      "step": 308570
    },
    {
      "epoch": 0.642875,
      "grad_norm": 0.8188658356666565,
      "learning_rate": 8.554497005596269e-05,
      "loss": 3.8417,
      "step": 308580
    },
    {
      "epoch": 0.6428958333333333,
      "grad_norm": 0.9138988256454468,
      "learning_rate": 8.553606820042907e-05,
      "loss": 3.7159,
      "step": 308590
    },
    {
      "epoch": 0.6429166666666667,
      "grad_norm": 0.9425891637802124,
      "learning_rate": 8.5527166623354e-05,
      "loss": 3.8819,
      "step": 308600
    },
    {
      "epoch": 0.6429375,
      "grad_norm": 0.8493565320968628,
      "learning_rate": 8.55182653247761e-05,
      "loss": 3.8712,
      "step": 308610
    },
    {
      "epoch": 0.6429583333333333,
      "grad_norm": 0.8417015075683594,
      "learning_rate": 8.550936430473384e-05,
      "loss": 3.6906,
      "step": 308620
    },
    {
      "epoch": 0.6429791666666667,
      "grad_norm": 0.9121243357658386,
      "learning_rate": 8.55004635632655e-05,
      "loss": 3.6363,
      "step": 308630
    },
    {
      "epoch": 0.643,
      "grad_norm": 0.802357017993927,
      "learning_rate": 8.549156310040966e-05,
      "loss": 3.7515,
      "step": 308640
    },
    {
      "epoch": 0.6430208333333334,
      "grad_norm": 0.8473436236381531,
      "learning_rate": 8.548266291620482e-05,
      "loss": 3.6262,
      "step": 308650
    },
    {
      "epoch": 0.6430416666666666,
      "grad_norm": 1.0560320615768433,
      "learning_rate": 8.547376301068919e-05,
      "loss": 3.8654,
      "step": 308660
    },
    {
      "epoch": 0.6430625,
      "grad_norm": 0.885874330997467,
      "learning_rate": 8.546486338390149e-05,
      "loss": 3.8096,
      "step": 308670
    },
    {
      "epoch": 0.6430833333333333,
      "grad_norm": 0.9343892335891724,
      "learning_rate": 8.545596403587996e-05,
      "loss": 3.7947,
      "step": 308680
    },
    {
      "epoch": 0.6431041666666667,
      "grad_norm": 0.8668714165687561,
      "learning_rate": 8.544706496666308e-05,
      "loss": 3.6602,
      "step": 308690
    },
    {
      "epoch": 0.643125,
      "grad_norm": 0.982568085193634,
      "learning_rate": 8.543816617628946e-05,
      "loss": 3.7414,
      "step": 308700
    },
    {
      "epoch": 0.6431458333333333,
      "grad_norm": 0.8673325777053833,
      "learning_rate": 8.542926766479733e-05,
      "loss": 3.74,
      "step": 308710
    },
    {
      "epoch": 0.6431666666666667,
      "grad_norm": 0.9568312168121338,
      "learning_rate": 8.542036943222512e-05,
      "loss": 3.6458,
      "step": 308720
    },
    {
      "epoch": 0.6431875,
      "grad_norm": 0.9346904754638672,
      "learning_rate": 8.541147147861151e-05,
      "loss": 3.8896,
      "step": 308730
    },
    {
      "epoch": 0.6432083333333334,
      "grad_norm": 0.9210596084594727,
      "learning_rate": 8.540257380399471e-05,
      "loss": 3.8109,
      "step": 308740
    },
    {
      "epoch": 0.6432291666666666,
      "grad_norm": 0.7795525193214417,
      "learning_rate": 8.539367640841315e-05,
      "loss": 3.6064,
      "step": 308750
    },
    {
      "epoch": 0.64325,
      "grad_norm": 1.1761873960494995,
      "learning_rate": 8.538477929190544e-05,
      "loss": 3.8563,
      "step": 308760
    },
    {
      "epoch": 0.6432708333333333,
      "grad_norm": 1.018514633178711,
      "learning_rate": 8.537588245450988e-05,
      "loss": 3.4267,
      "step": 308770
    },
    {
      "epoch": 0.6432916666666667,
      "grad_norm": 0.873221755027771,
      "learning_rate": 8.536698589626492e-05,
      "loss": 3.4646,
      "step": 308780
    },
    {
      "epoch": 0.6433125,
      "grad_norm": 0.9138808846473694,
      "learning_rate": 8.535808961720899e-05,
      "loss": 3.8308,
      "step": 308790
    },
    {
      "epoch": 0.6433333333333333,
      "grad_norm": 0.8410571813583374,
      "learning_rate": 8.534919361738052e-05,
      "loss": 3.6472,
      "step": 308800
    },
    {
      "epoch": 0.6433541666666667,
      "grad_norm": 0.8102584481239319,
      "learning_rate": 8.534029789681796e-05,
      "loss": 3.7554,
      "step": 308810
    },
    {
      "epoch": 0.643375,
      "grad_norm": 0.8620290756225586,
      "learning_rate": 8.533140245555971e-05,
      "loss": 3.7374,
      "step": 308820
    },
    {
      "epoch": 0.6433958333333333,
      "grad_norm": 0.7888538241386414,
      "learning_rate": 8.532250729364419e-05,
      "loss": 3.7951,
      "step": 308830
    },
    {
      "epoch": 0.6434166666666666,
      "grad_norm": 0.9294484257698059,
      "learning_rate": 8.531361241110986e-05,
      "loss": 3.6716,
      "step": 308840
    },
    {
      "epoch": 0.6434375,
      "grad_norm": 0.9108406901359558,
      "learning_rate": 8.530471780799511e-05,
      "loss": 3.6688,
      "step": 308850
    },
    {
      "epoch": 0.6434583333333334,
      "grad_norm": 0.9150688648223877,
      "learning_rate": 8.529582348433838e-05,
      "loss": 3.634,
      "step": 308860
    },
    {
      "epoch": 0.6434791666666667,
      "grad_norm": 0.8908341526985168,
      "learning_rate": 8.528692944017806e-05,
      "loss": 3.7733,
      "step": 308870
    },
    {
      "epoch": 0.6435,
      "grad_norm": 0.89955735206604,
      "learning_rate": 8.52780356755526e-05,
      "loss": 3.6629,
      "step": 308880
    },
    {
      "epoch": 0.6435208333333333,
      "grad_norm": 0.8522722125053406,
      "learning_rate": 8.526914219050042e-05,
      "loss": 3.7794,
      "step": 308890
    },
    {
      "epoch": 0.6435416666666667,
      "grad_norm": 0.9976872205734253,
      "learning_rate": 8.526024898505997e-05,
      "loss": 3.7515,
      "step": 308900
    },
    {
      "epoch": 0.6435625,
      "grad_norm": 0.8385097980499268,
      "learning_rate": 8.52513560592695e-05,
      "loss": 3.8882,
      "step": 308910
    },
    {
      "epoch": 0.6435833333333333,
      "grad_norm": 0.7960213422775269,
      "learning_rate": 8.52424634131676e-05,
      "loss": 3.6816,
      "step": 308920
    },
    {
      "epoch": 0.6436041666666666,
      "grad_norm": 0.7517566084861755,
      "learning_rate": 8.52335710467927e-05,
      "loss": 3.7567,
      "step": 308930
    },
    {
      "epoch": 0.643625,
      "grad_norm": 1.0680087804794312,
      "learning_rate": 8.522467896018301e-05,
      "loss": 3.9581,
      "step": 308940
    },
    {
      "epoch": 0.6436458333333334,
      "grad_norm": 0.9097794890403748,
      "learning_rate": 8.521578715337711e-05,
      "loss": 3.9008,
      "step": 308950
    },
    {
      "epoch": 0.6436666666666667,
      "grad_norm": 0.7876918911933899,
      "learning_rate": 8.520689562641344e-05,
      "loss": 3.9092,
      "step": 308960
    },
    {
      "epoch": 0.6436875,
      "grad_norm": 0.8276733756065369,
      "learning_rate": 8.519800437933022e-05,
      "loss": 3.844,
      "step": 308970
    },
    {
      "epoch": 0.6437083333333333,
      "grad_norm": 0.7787588238716125,
      "learning_rate": 8.518911341216602e-05,
      "loss": 3.9133,
      "step": 308980
    },
    {
      "epoch": 0.6437291666666667,
      "grad_norm": 0.9552678465843201,
      "learning_rate": 8.518022272495925e-05,
      "loss": 3.8268,
      "step": 308990
    },
    {
      "epoch": 0.64375,
      "grad_norm": 1.106090784072876,
      "learning_rate": 8.517133231774816e-05,
      "loss": 3.6582,
      "step": 309000
    },
    {
      "epoch": 0.64375,
      "eval_loss": 4.08057165145874,
      "eval_runtime": 9.5304,
      "eval_samples_per_second": 1.049,
      "eval_steps_per_second": 0.315,
      "step": 309000
    },
    {
      "epoch": 0.6437708333333333,
      "grad_norm": 0.9680564999580383,
      "learning_rate": 8.516244219057129e-05,
      "loss": 3.8066,
      "step": 309010
    },
    {
      "epoch": 0.6437916666666667,
      "grad_norm": 1.0927201509475708,
      "learning_rate": 8.51535523434671e-05,
      "loss": 3.7362,
      "step": 309020
    },
    {
      "epoch": 0.6438125,
      "grad_norm": 0.8753328919410706,
      "learning_rate": 8.514466277647374e-05,
      "loss": 3.6954,
      "step": 309030
    },
    {
      "epoch": 0.6438333333333334,
      "grad_norm": 0.9731342792510986,
      "learning_rate": 8.51357734896299e-05,
      "loss": 3.7375,
      "step": 309040
    },
    {
      "epoch": 0.6438541666666666,
      "grad_norm": 0.8493691086769104,
      "learning_rate": 8.512688448297378e-05,
      "loss": 3.7409,
      "step": 309050
    },
    {
      "epoch": 0.643875,
      "grad_norm": 0.8499679565429688,
      "learning_rate": 8.511799575654378e-05,
      "loss": 3.7789,
      "step": 309060
    },
    {
      "epoch": 0.6438958333333333,
      "grad_norm": 0.8368045091629028,
      "learning_rate": 8.51091073103785e-05,
      "loss": 3.841,
      "step": 309070
    },
    {
      "epoch": 0.6439166666666667,
      "grad_norm": 0.8102967739105225,
      "learning_rate": 8.51002191445161e-05,
      "loss": 3.9061,
      "step": 309080
    },
    {
      "epoch": 0.6439375,
      "grad_norm": 0.9919058084487915,
      "learning_rate": 8.509133125899502e-05,
      "loss": 3.7223,
      "step": 309090
    },
    {
      "epoch": 0.6439583333333333,
      "grad_norm": 0.8716970682144165,
      "learning_rate": 8.508244365385382e-05,
      "loss": 3.7458,
      "step": 309100
    },
    {
      "epoch": 0.6439791666666667,
      "grad_norm": 0.8106808066368103,
      "learning_rate": 8.507355632913069e-05,
      "loss": 3.8324,
      "step": 309110
    },
    {
      "epoch": 0.644,
      "grad_norm": 0.7903763055801392,
      "learning_rate": 8.506466928486405e-05,
      "loss": 3.7149,
      "step": 309120
    },
    {
      "epoch": 0.6440208333333334,
      "grad_norm": 0.8189435005187988,
      "learning_rate": 8.505578252109244e-05,
      "loss": 3.8016,
      "step": 309130
    },
    {
      "epoch": 0.6440416666666666,
      "grad_norm": 0.9559445977210999,
      "learning_rate": 8.504689603785409e-05,
      "loss": 3.859,
      "step": 309140
    },
    {
      "epoch": 0.6440625,
      "grad_norm": 0.857279896736145,
      "learning_rate": 8.503800983518744e-05,
      "loss": 3.78,
      "step": 309150
    },
    {
      "epoch": 0.6440833333333333,
      "grad_norm": 0.802936851978302,
      "learning_rate": 8.502912391313087e-05,
      "loss": 3.7659,
      "step": 309160
    },
    {
      "epoch": 0.6441041666666667,
      "grad_norm": 0.9066548943519592,
      "learning_rate": 8.502023827172277e-05,
      "loss": 3.826,
      "step": 309170
    },
    {
      "epoch": 0.644125,
      "grad_norm": 1.1836931705474854,
      "learning_rate": 8.501135291100155e-05,
      "loss": 3.6813,
      "step": 309180
    },
    {
      "epoch": 0.6441458333333333,
      "grad_norm": 0.8322681784629822,
      "learning_rate": 8.500246783100553e-05,
      "loss": 3.7399,
      "step": 309190
    },
    {
      "epoch": 0.6441666666666667,
      "grad_norm": 0.7481773495674133,
      "learning_rate": 8.499358303177312e-05,
      "loss": 3.7154,
      "step": 309200
    },
    {
      "epoch": 0.6441875,
      "grad_norm": 0.8821075558662415,
      "learning_rate": 8.498469851334272e-05,
      "loss": 3.731,
      "step": 309210
    },
    {
      "epoch": 0.6442083333333334,
      "grad_norm": 0.8656852841377258,
      "learning_rate": 8.497581427575265e-05,
      "loss": 3.7698,
      "step": 309220
    },
    {
      "epoch": 0.6442291666666666,
      "grad_norm": 0.867411196231842,
      "learning_rate": 8.496693031904137e-05,
      "loss": 3.7118,
      "step": 309230
    },
    {
      "epoch": 0.64425,
      "grad_norm": 0.7711119055747986,
      "learning_rate": 8.495804664324718e-05,
      "loss": 3.7063,
      "step": 309240
    },
    {
      "epoch": 0.6442708333333333,
      "grad_norm": 0.844632089138031,
      "learning_rate": 8.494916324840849e-05,
      "loss": 3.7022,
      "step": 309250
    },
    {
      "epoch": 0.6442916666666667,
      "grad_norm": 0.825043261051178,
      "learning_rate": 8.494028013456365e-05,
      "loss": 3.8549,
      "step": 309260
    },
    {
      "epoch": 0.6443125,
      "grad_norm": 0.8450779318809509,
      "learning_rate": 8.493139730175114e-05,
      "loss": 3.5891,
      "step": 309270
    },
    {
      "epoch": 0.6443333333333333,
      "grad_norm": 0.8615532517433167,
      "learning_rate": 8.49225147500091e-05,
      "loss": 3.703,
      "step": 309280
    },
    {
      "epoch": 0.6443541666666667,
      "grad_norm": 0.962146520614624,
      "learning_rate": 8.491363247937609e-05,
      "loss": 3.7765,
      "step": 309290
    },
    {
      "epoch": 0.644375,
      "grad_norm": 0.82843017578125,
      "learning_rate": 8.490475048989049e-05,
      "loss": 3.8579,
      "step": 309300
    },
    {
      "epoch": 0.6443958333333333,
      "grad_norm": 0.8292627930641174,
      "learning_rate": 8.489586878159048e-05,
      "loss": 3.6875,
      "step": 309310
    },
    {
      "epoch": 0.6444166666666666,
      "grad_norm": 0.8715169429779053,
      "learning_rate": 8.488698735451462e-05,
      "loss": 3.727,
      "step": 309320
    },
    {
      "epoch": 0.6444375,
      "grad_norm": 0.973456859588623,
      "learning_rate": 8.487810620870125e-05,
      "loss": 3.7728,
      "step": 309330
    },
    {
      "epoch": 0.6444583333333334,
      "grad_norm": 1.0031085014343262,
      "learning_rate": 8.486922534418857e-05,
      "loss": 3.8146,
      "step": 309340
    },
    {
      "epoch": 0.6444791666666667,
      "grad_norm": 0.7615215182304382,
      "learning_rate": 8.48603447610151e-05,
      "loss": 3.961,
      "step": 309350
    },
    {
      "epoch": 0.6445,
      "grad_norm": 0.8429644107818604,
      "learning_rate": 8.485146445921923e-05,
      "loss": 3.8486,
      "step": 309360
    },
    {
      "epoch": 0.6445208333333333,
      "grad_norm": 0.8899486064910889,
      "learning_rate": 8.484258443883913e-05,
      "loss": 3.6281,
      "step": 309370
    },
    {
      "epoch": 0.6445416666666667,
      "grad_norm": 0.9042160511016846,
      "learning_rate": 8.483370469991332e-05,
      "loss": 3.824,
      "step": 309380
    },
    {
      "epoch": 0.6445625,
      "grad_norm": 0.9540274143218994,
      "learning_rate": 8.482482524248019e-05,
      "loss": 3.7785,
      "step": 309390
    },
    {
      "epoch": 0.6445833333333333,
      "grad_norm": 0.9058321714401245,
      "learning_rate": 8.48159460665779e-05,
      "loss": 3.8835,
      "step": 309400
    },
    {
      "epoch": 0.6446041666666666,
      "grad_norm": 0.801500678062439,
      "learning_rate": 8.480706717224502e-05,
      "loss": 3.7818,
      "step": 309410
    },
    {
      "epoch": 0.644625,
      "grad_norm": 0.7975926399230957,
      "learning_rate": 8.479818855951975e-05,
      "loss": 3.8343,
      "step": 309420
    },
    {
      "epoch": 0.6446458333333334,
      "grad_norm": 0.8472910523414612,
      "learning_rate": 8.478931022844045e-05,
      "loss": 3.8022,
      "step": 309430
    },
    {
      "epoch": 0.6446666666666667,
      "grad_norm": 0.7588302493095398,
      "learning_rate": 8.478043217904561e-05,
      "loss": 3.5369,
      "step": 309440
    },
    {
      "epoch": 0.6446875,
      "grad_norm": 0.838754415512085,
      "learning_rate": 8.477155441137345e-05,
      "loss": 3.7357,
      "step": 309450
    },
    {
      "epoch": 0.6447083333333333,
      "grad_norm": 0.8781010508537292,
      "learning_rate": 8.476267692546235e-05,
      "loss": 3.8461,
      "step": 309460
    },
    {
      "epoch": 0.6447291666666667,
      "grad_norm": 1.046065330505371,
      "learning_rate": 8.475379972135066e-05,
      "loss": 3.929,
      "step": 309470
    },
    {
      "epoch": 0.64475,
      "grad_norm": 0.8246600031852722,
      "learning_rate": 8.474492279907674e-05,
      "loss": 3.8511,
      "step": 309480
    },
    {
      "epoch": 0.6447708333333333,
      "grad_norm": 1.0372419357299805,
      "learning_rate": 8.47360461586789e-05,
      "loss": 3.7204,
      "step": 309490
    },
    {
      "epoch": 0.6447916666666667,
      "grad_norm": 0.9474164247512817,
      "learning_rate": 8.472716980019554e-05,
      "loss": 3.7566,
      "step": 309500
    },
    {
      "epoch": 0.6448125,
      "grad_norm": 0.9340609312057495,
      "learning_rate": 8.471829372366494e-05,
      "loss": 3.7938,
      "step": 309510
    },
    {
      "epoch": 0.6448333333333334,
      "grad_norm": 0.8790476322174072,
      "learning_rate": 8.470941792912549e-05,
      "loss": 3.7925,
      "step": 309520
    },
    {
      "epoch": 0.6448541666666666,
      "grad_norm": 0.7979226112365723,
      "learning_rate": 8.47005424166155e-05,
      "loss": 3.7952,
      "step": 309530
    },
    {
      "epoch": 0.644875,
      "grad_norm": 1.2365602254867554,
      "learning_rate": 8.469166718617333e-05,
      "loss": 3.9546,
      "step": 309540
    },
    {
      "epoch": 0.6448958333333333,
      "grad_norm": 0.8366410136222839,
      "learning_rate": 8.46827922378373e-05,
      "loss": 3.772,
      "step": 309550
    },
    {
      "epoch": 0.6449166666666667,
      "grad_norm": 0.9590632915496826,
      "learning_rate": 8.467391757164575e-05,
      "loss": 3.6265,
      "step": 309560
    },
    {
      "epoch": 0.6449375,
      "grad_norm": 0.7937248349189758,
      "learning_rate": 8.466504318763702e-05,
      "loss": 3.7606,
      "step": 309570
    },
    {
      "epoch": 0.6449583333333333,
      "grad_norm": 0.8247283101081848,
      "learning_rate": 8.465616908584945e-05,
      "loss": 3.9023,
      "step": 309580
    },
    {
      "epoch": 0.6449791666666667,
      "grad_norm": 0.8509910106658936,
      "learning_rate": 8.464729526632135e-05,
      "loss": 3.8783,
      "step": 309590
    },
    {
      "epoch": 0.645,
      "grad_norm": 1.018834114074707,
      "learning_rate": 8.463842172909106e-05,
      "loss": 3.7548,
      "step": 309600
    },
    {
      "epoch": 0.6450208333333334,
      "grad_norm": 0.8968173861503601,
      "learning_rate": 8.462954847419695e-05,
      "loss": 3.7337,
      "step": 309610
    },
    {
      "epoch": 0.6450416666666666,
      "grad_norm": 1.008910894393921,
      "learning_rate": 8.46206755016773e-05,
      "loss": 3.6883,
      "step": 309620
    },
    {
      "epoch": 0.6450625,
      "grad_norm": 1.0193922519683838,
      "learning_rate": 8.461180281157044e-05,
      "loss": 3.7976,
      "step": 309630
    },
    {
      "epoch": 0.6450833333333333,
      "grad_norm": 0.8448492884635925,
      "learning_rate": 8.460293040391477e-05,
      "loss": 3.926,
      "step": 309640
    },
    {
      "epoch": 0.6451041666666667,
      "grad_norm": 0.9285804629325867,
      "learning_rate": 8.459405827874846e-05,
      "loss": 3.7346,
      "step": 309650
    },
    {
      "epoch": 0.645125,
      "grad_norm": 0.8204774260520935,
      "learning_rate": 8.458518643610995e-05,
      "loss": 3.6654,
      "step": 309660
    },
    {
      "epoch": 0.6451458333333333,
      "grad_norm": 0.8965080380439758,
      "learning_rate": 8.457631487603764e-05,
      "loss": 3.656,
      "step": 309670
    },
    {
      "epoch": 0.6451666666666667,
      "grad_norm": 0.8472477793693542,
      "learning_rate": 8.456744359856961e-05,
      "loss": 3.8224,
      "step": 309680
    },
    {
      "epoch": 0.6451875,
      "grad_norm": 0.8207712173461914,
      "learning_rate": 8.45585726037444e-05,
      "loss": 3.8105,
      "step": 309690
    },
    {
      "epoch": 0.6452083333333334,
      "grad_norm": 0.8688843250274658,
      "learning_rate": 8.454970189160031e-05,
      "loss": 3.771,
      "step": 309700
    },
    {
      "epoch": 0.6452291666666666,
      "grad_norm": 0.9543813467025757,
      "learning_rate": 8.454083146217545e-05,
      "loss": 3.467,
      "step": 309710
    },
    {
      "epoch": 0.64525,
      "grad_norm": 1.0392529964447021,
      "learning_rate": 8.453196131550838e-05,
      "loss": 4.0732,
      "step": 309720
    },
    {
      "epoch": 0.6452708333333333,
      "grad_norm": 0.8787546157836914,
      "learning_rate": 8.452309145163738e-05,
      "loss": 3.8592,
      "step": 309730
    },
    {
      "epoch": 0.6452916666666667,
      "grad_norm": 0.9649401903152466,
      "learning_rate": 8.451422187060062e-05,
      "loss": 3.8415,
      "step": 309740
    },
    {
      "epoch": 0.6453125,
      "grad_norm": 0.8912728428840637,
      "learning_rate": 8.450535257243649e-05,
      "loss": 3.7169,
      "step": 309750
    },
    {
      "epoch": 0.6453333333333333,
      "grad_norm": 0.9448342323303223,
      "learning_rate": 8.44964835571834e-05,
      "loss": 3.7962,
      "step": 309760
    },
    {
      "epoch": 0.6453541666666667,
      "grad_norm": 0.984521210193634,
      "learning_rate": 8.448761482487952e-05,
      "loss": 3.8622,
      "step": 309770
    },
    {
      "epoch": 0.645375,
      "grad_norm": 0.8087832927703857,
      "learning_rate": 8.44787463755632e-05,
      "loss": 3.7476,
      "step": 309780
    },
    {
      "epoch": 0.6453958333333333,
      "grad_norm": 0.7825925350189209,
      "learning_rate": 8.446987820927278e-05,
      "loss": 3.8124,
      "step": 309790
    },
    {
      "epoch": 0.6454166666666666,
      "grad_norm": 0.8812175393104553,
      "learning_rate": 8.446101032604654e-05,
      "loss": 3.8814,
      "step": 309800
    },
    {
      "epoch": 0.6454375,
      "grad_norm": 0.8208244442939758,
      "learning_rate": 8.445214272592278e-05,
      "loss": 3.8054,
      "step": 309810
    },
    {
      "epoch": 0.6454583333333334,
      "grad_norm": 0.8374657034873962,
      "learning_rate": 8.444327540893983e-05,
      "loss": 3.733,
      "step": 309820
    },
    {
      "epoch": 0.6454791666666667,
      "grad_norm": 0.786178708076477,
      "learning_rate": 8.443440837513599e-05,
      "loss": 3.6832,
      "step": 309830
    },
    {
      "epoch": 0.6455,
      "grad_norm": 0.911896288394928,
      "learning_rate": 8.442554162454954e-05,
      "loss": 3.8093,
      "step": 309840
    },
    {
      "epoch": 0.6455208333333333,
      "grad_norm": 0.9280967116355896,
      "learning_rate": 8.441667515721879e-05,
      "loss": 3.6461,
      "step": 309850
    },
    {
      "epoch": 0.6455416666666667,
      "grad_norm": 0.8628987073898315,
      "learning_rate": 8.440780897318204e-05,
      "loss": 3.9197,
      "step": 309860
    },
    {
      "epoch": 0.6455625,
      "grad_norm": 1.5381063222885132,
      "learning_rate": 8.439894307247761e-05,
      "loss": 3.8681,
      "step": 309870
    },
    {
      "epoch": 0.6455833333333333,
      "grad_norm": 0.8624793887138367,
      "learning_rate": 8.439007745514379e-05,
      "loss": 3.7255,
      "step": 309880
    },
    {
      "epoch": 0.6456041666666666,
      "grad_norm": 0.8456271886825562,
      "learning_rate": 8.438121212121884e-05,
      "loss": 3.714,
      "step": 309890
    },
    {
      "epoch": 0.645625,
      "grad_norm": 0.9605059027671814,
      "learning_rate": 8.437234707074108e-05,
      "loss": 3.7226,
      "step": 309900
    },
    {
      "epoch": 0.6456458333333334,
      "grad_norm": 1.036272644996643,
      "learning_rate": 8.436348230374882e-05,
      "loss": 3.8166,
      "step": 309910
    },
    {
      "epoch": 0.6456666666666667,
      "grad_norm": 0.8193909525871277,
      "learning_rate": 8.435461782028033e-05,
      "loss": 3.8637,
      "step": 309920
    },
    {
      "epoch": 0.6456875,
      "grad_norm": 0.8842733502388,
      "learning_rate": 8.43457536203739e-05,
      "loss": 3.809,
      "step": 309930
    },
    {
      "epoch": 0.6457083333333333,
      "grad_norm": 0.8813020586967468,
      "learning_rate": 8.433688970406782e-05,
      "loss": 3.8016,
      "step": 309940
    },
    {
      "epoch": 0.6457291666666667,
      "grad_norm": 0.919467568397522,
      "learning_rate": 8.432802607140039e-05,
      "loss": 3.6224,
      "step": 309950
    },
    {
      "epoch": 0.64575,
      "grad_norm": 0.8880608081817627,
      "learning_rate": 8.43191627224099e-05,
      "loss": 3.5504,
      "step": 309960
    },
    {
      "epoch": 0.6457708333333333,
      "grad_norm": 0.8952180743217468,
      "learning_rate": 8.431029965713463e-05,
      "loss": 3.7404,
      "step": 309970
    },
    {
      "epoch": 0.6457916666666667,
      "grad_norm": 1.0155715942382812,
      "learning_rate": 8.430143687561287e-05,
      "loss": 3.849,
      "step": 309980
    },
    {
      "epoch": 0.6458125,
      "grad_norm": 0.8230931162834167,
      "learning_rate": 8.429257437788287e-05,
      "loss": 3.8775,
      "step": 309990
    },
    {
      "epoch": 0.6458333333333334,
      "grad_norm": 0.827805757522583,
      "learning_rate": 8.428371216398297e-05,
      "loss": 3.7783,
      "step": 310000
    },
    {
      "epoch": 0.6458333333333334,
      "eval_loss": 4.078863620758057,
      "eval_runtime": 8.6862,
      "eval_samples_per_second": 1.151,
      "eval_steps_per_second": 0.345,
      "step": 310000
    },
    {
      "epoch": 0.6458541666666666,
      "grad_norm": 0.9767631888389587,
      "learning_rate": 8.427485023395141e-05,
      "loss": 3.7957,
      "step": 310010
    },
    {
      "epoch": 0.645875,
      "grad_norm": 0.9258888363838196,
      "learning_rate": 8.426598858782648e-05,
      "loss": 3.7629,
      "step": 310020
    },
    {
      "epoch": 0.6458958333333333,
      "grad_norm": 1.0512079000473022,
      "learning_rate": 8.425712722564647e-05,
      "loss": 3.7065,
      "step": 310030
    },
    {
      "epoch": 0.6459166666666667,
      "grad_norm": 0.8417311906814575,
      "learning_rate": 8.424826614744968e-05,
      "loss": 3.8045,
      "step": 310040
    },
    {
      "epoch": 0.6459375,
      "grad_norm": 1.386907935142517,
      "learning_rate": 8.423940535327432e-05,
      "loss": 3.6487,
      "step": 310050
    },
    {
      "epoch": 0.6459583333333333,
      "grad_norm": 1.1276960372924805,
      "learning_rate": 8.423054484315863e-05,
      "loss": 3.7936,
      "step": 310060
    },
    {
      "epoch": 0.6459791666666667,
      "grad_norm": 0.8300414085388184,
      "learning_rate": 8.422168461714106e-05,
      "loss": 3.7255,
      "step": 310070
    },
    {
      "epoch": 0.646,
      "grad_norm": 0.9516057968139648,
      "learning_rate": 8.421282467525973e-05,
      "loss": 3.6481,
      "step": 310080
    },
    {
      "epoch": 0.6460208333333334,
      "grad_norm": 1.049047827720642,
      "learning_rate": 8.42039650175529e-05,
      "loss": 3.741,
      "step": 310090
    },
    {
      "epoch": 0.6460416666666666,
      "grad_norm": 1.1678012609481812,
      "learning_rate": 8.419510564405901e-05,
      "loss": 3.93,
      "step": 310100
    },
    {
      "epoch": 0.6460625,
      "grad_norm": 0.8862003684043884,
      "learning_rate": 8.418624655481617e-05,
      "loss": 3.7923,
      "step": 310110
    },
    {
      "epoch": 0.6460833333333333,
      "grad_norm": 0.8176397085189819,
      "learning_rate": 8.417738774986262e-05,
      "loss": 3.6402,
      "step": 310120
    },
    {
      "epoch": 0.6461041666666667,
      "grad_norm": 0.7998422980308533,
      "learning_rate": 8.416852922923682e-05,
      "loss": 3.6797,
      "step": 310130
    },
    {
      "epoch": 0.646125,
      "grad_norm": 0.817507266998291,
      "learning_rate": 8.415967099297686e-05,
      "loss": 3.6643,
      "step": 310140
    },
    {
      "epoch": 0.6461458333333333,
      "grad_norm": 0.8001047968864441,
      "learning_rate": 8.415081304112101e-05,
      "loss": 3.8636,
      "step": 310150
    },
    {
      "epoch": 0.6461666666666667,
      "grad_norm": 0.838782012462616,
      "learning_rate": 8.414195537370768e-05,
      "loss": 3.8333,
      "step": 310160
    },
    {
      "epoch": 0.6461875,
      "grad_norm": 0.8675852417945862,
      "learning_rate": 8.4133097990775e-05,
      "loss": 3.8613,
      "step": 310170
    },
    {
      "epoch": 0.6462083333333334,
      "grad_norm": 0.9036002159118652,
      "learning_rate": 8.412424089236124e-05,
      "loss": 3.7284,
      "step": 310180
    },
    {
      "epoch": 0.6462291666666666,
      "grad_norm": 0.7932153940200806,
      "learning_rate": 8.41153840785047e-05,
      "loss": 3.7867,
      "step": 310190
    },
    {
      "epoch": 0.64625,
      "grad_norm": 0.8198094367980957,
      "learning_rate": 8.410652754924361e-05,
      "loss": 3.7055,
      "step": 310200
    },
    {
      "epoch": 0.6462708333333333,
      "grad_norm": 0.8342512249946594,
      "learning_rate": 8.409767130461624e-05,
      "loss": 3.8102,
      "step": 310210
    },
    {
      "epoch": 0.6462916666666667,
      "grad_norm": 1.1021515130996704,
      "learning_rate": 8.408881534466086e-05,
      "loss": 3.7164,
      "step": 310220
    },
    {
      "epoch": 0.6463125,
      "grad_norm": 0.9342343807220459,
      "learning_rate": 8.407995966941569e-05,
      "loss": 3.6707,
      "step": 310230
    },
    {
      "epoch": 0.6463333333333333,
      "grad_norm": 0.8863213658332825,
      "learning_rate": 8.407110427891901e-05,
      "loss": 3.7193,
      "step": 310240
    },
    {
      "epoch": 0.6463541666666667,
      "grad_norm": 1.0174378156661987,
      "learning_rate": 8.406224917320907e-05,
      "loss": 3.6425,
      "step": 310250
    },
    {
      "epoch": 0.646375,
      "grad_norm": 0.8607897758483887,
      "learning_rate": 8.405339435232411e-05,
      "loss": 3.5744,
      "step": 310260
    },
    {
      "epoch": 0.6463958333333333,
      "grad_norm": 0.8586795926094055,
      "learning_rate": 8.404453981630239e-05,
      "loss": 3.7858,
      "step": 310270
    },
    {
      "epoch": 0.6464166666666666,
      "grad_norm": 0.8653115630149841,
      "learning_rate": 8.403568556518212e-05,
      "loss": 3.9219,
      "step": 310280
    },
    {
      "epoch": 0.6464375,
      "grad_norm": 0.842085063457489,
      "learning_rate": 8.40268315990016e-05,
      "loss": 3.8762,
      "step": 310290
    },
    {
      "epoch": 0.6464583333333334,
      "grad_norm": 0.8383873105049133,
      "learning_rate": 8.401797791779904e-05,
      "loss": 3.6549,
      "step": 310300
    },
    {
      "epoch": 0.6464791666666667,
      "grad_norm": 0.9679139256477356,
      "learning_rate": 8.400912452161271e-05,
      "loss": 3.9196,
      "step": 310310
    },
    {
      "epoch": 0.6465,
      "grad_norm": 0.8355967998504639,
      "learning_rate": 8.400027141048086e-05,
      "loss": 4.0123,
      "step": 310320
    },
    {
      "epoch": 0.6465208333333333,
      "grad_norm": 0.864013671875,
      "learning_rate": 8.399141858444176e-05,
      "loss": 3.7648,
      "step": 310330
    },
    {
      "epoch": 0.6465416666666667,
      "grad_norm": 0.9817845225334167,
      "learning_rate": 8.398256604353347e-05,
      "loss": 3.6502,
      "step": 310340
    },
    {
      "epoch": 0.6465625,
      "grad_norm": 1.1155691146850586,
      "learning_rate": 8.397371378779443e-05,
      "loss": 3.7984,
      "step": 310350
    },
    {
      "epoch": 0.6465833333333333,
      "grad_norm": 0.8006091713905334,
      "learning_rate": 8.396486181726286e-05,
      "loss": 3.641,
      "step": 310360
    },
    {
      "epoch": 0.6466041666666666,
      "grad_norm": 0.9563154578208923,
      "learning_rate": 8.395601013197683e-05,
      "loss": 3.8181,
      "step": 310370
    },
    {
      "epoch": 0.646625,
      "grad_norm": 1.1245508193969727,
      "learning_rate": 8.394715873197479e-05,
      "loss": 3.7508,
      "step": 310380
    },
    {
      "epoch": 0.6466458333333334,
      "grad_norm": 0.8496158123016357,
      "learning_rate": 8.39383076172949e-05,
      "loss": 3.6589,
      "step": 310390
    },
    {
      "epoch": 0.6466666666666666,
      "grad_norm": 0.7859788537025452,
      "learning_rate": 8.392945678797526e-05,
      "loss": 3.7984,
      "step": 310400
    },
    {
      "epoch": 0.6466875,
      "grad_norm": 0.895119309425354,
      "learning_rate": 8.392060624405433e-05,
      "loss": 3.8039,
      "step": 310410
    },
    {
      "epoch": 0.6467083333333333,
      "grad_norm": 0.7473937273025513,
      "learning_rate": 8.39117559855702e-05,
      "loss": 3.7754,
      "step": 310420
    },
    {
      "epoch": 0.6467291666666667,
      "grad_norm": 0.842185378074646,
      "learning_rate": 8.390290601256103e-05,
      "loss": 3.7465,
      "step": 310430
    },
    {
      "epoch": 0.64675,
      "grad_norm": 0.7748823165893555,
      "learning_rate": 8.389405632506526e-05,
      "loss": 3.8138,
      "step": 310440
    },
    {
      "epoch": 0.6467708333333333,
      "grad_norm": 0.9474917650222778,
      "learning_rate": 8.388520692312095e-05,
      "loss": 3.5908,
      "step": 310450
    },
    {
      "epoch": 0.6467916666666667,
      "grad_norm": 0.978987991809845,
      "learning_rate": 8.387635780676632e-05,
      "loss": 4.0362,
      "step": 310460
    },
    {
      "epoch": 0.6468125,
      "grad_norm": 0.807755172252655,
      "learning_rate": 8.386750897603978e-05,
      "loss": 3.8519,
      "step": 310470
    },
    {
      "epoch": 0.6468333333333334,
      "grad_norm": 0.824528157711029,
      "learning_rate": 8.385866043097934e-05,
      "loss": 3.7315,
      "step": 310480
    },
    {
      "epoch": 0.6468541666666666,
      "grad_norm": 0.9221739172935486,
      "learning_rate": 8.384981217162327e-05,
      "loss": 3.9036,
      "step": 310490
    },
    {
      "epoch": 0.646875,
      "grad_norm": 0.858670175075531,
      "learning_rate": 8.384096419800992e-05,
      "loss": 3.8315,
      "step": 310500
    },
    {
      "epoch": 0.6468958333333333,
      "grad_norm": 1.066239833831787,
      "learning_rate": 8.383211651017737e-05,
      "loss": 3.7951,
      "step": 310510
    },
    {
      "epoch": 0.6469166666666667,
      "grad_norm": 0.8151138424873352,
      "learning_rate": 8.382326910816384e-05,
      "loss": 3.8007,
      "step": 310520
    },
    {
      "epoch": 0.6469375,
      "grad_norm": 1.0526598691940308,
      "learning_rate": 8.38144219920077e-05,
      "loss": 3.6955,
      "step": 310530
    },
    {
      "epoch": 0.6469583333333333,
      "grad_norm": 0.8597091436386108,
      "learning_rate": 8.380557516174701e-05,
      "loss": 3.6934,
      "step": 310540
    },
    {
      "epoch": 0.6469791666666667,
      "grad_norm": 0.9700456857681274,
      "learning_rate": 8.379672861742003e-05,
      "loss": 3.6737,
      "step": 310550
    },
    {
      "epoch": 0.647,
      "grad_norm": 1.0235317945480347,
      "learning_rate": 8.378788235906495e-05,
      "loss": 3.8312,
      "step": 310560
    },
    {
      "epoch": 0.6470208333333334,
      "grad_norm": 0.976114809513092,
      "learning_rate": 8.377903638672004e-05,
      "loss": 3.9742,
      "step": 310570
    },
    {
      "epoch": 0.6470416666666666,
      "grad_norm": 0.8571757078170776,
      "learning_rate": 8.377019070042348e-05,
      "loss": 3.6218,
      "step": 310580
    },
    {
      "epoch": 0.6470625,
      "grad_norm": 0.8536178469657898,
      "learning_rate": 8.376134530021346e-05,
      "loss": 3.7712,
      "step": 310590
    },
    {
      "epoch": 0.6470833333333333,
      "grad_norm": 0.8758925199508667,
      "learning_rate": 8.375250018612823e-05,
      "loss": 3.8231,
      "step": 310600
    },
    {
      "epoch": 0.6471041666666667,
      "grad_norm": 0.9984416961669922,
      "learning_rate": 8.374365535820596e-05,
      "loss": 3.6399,
      "step": 310610
    },
    {
      "epoch": 0.647125,
      "grad_norm": 0.9624208211898804,
      "learning_rate": 8.373481081648487e-05,
      "loss": 3.6122,
      "step": 310620
    },
    {
      "epoch": 0.6471458333333333,
      "grad_norm": 0.919834554195404,
      "learning_rate": 8.37259665610032e-05,
      "loss": 3.8972,
      "step": 310630
    },
    {
      "epoch": 0.6471666666666667,
      "grad_norm": 0.8550791144371033,
      "learning_rate": 8.371712259179915e-05,
      "loss": 3.9419,
      "step": 310640
    },
    {
      "epoch": 0.6471875,
      "grad_norm": 0.7951791882514954,
      "learning_rate": 8.370827890891078e-05,
      "loss": 3.9215,
      "step": 310650
    },
    {
      "epoch": 0.6472083333333334,
      "grad_norm": 0.8602551817893982,
      "learning_rate": 8.369943551237649e-05,
      "loss": 3.7682,
      "step": 310660
    },
    {
      "epoch": 0.6472291666666666,
      "grad_norm": 0.8304486274719238,
      "learning_rate": 8.369059240223444e-05,
      "loss": 3.8225,
      "step": 310670
    },
    {
      "epoch": 0.64725,
      "grad_norm": 0.810774564743042,
      "learning_rate": 8.368174957852264e-05,
      "loss": 3.6591,
      "step": 310680
    },
    {
      "epoch": 0.6472708333333334,
      "grad_norm": 0.8926162123680115,
      "learning_rate": 8.36729070412795e-05,
      "loss": 3.7681,
      "step": 310690
    },
    {
      "epoch": 0.6472916666666667,
      "grad_norm": 0.754315197467804,
      "learning_rate": 8.366406479054323e-05,
      "loss": 3.6254,
      "step": 310700
    },
    {
      "epoch": 0.6473125,
      "grad_norm": 1.05996572971344,
      "learning_rate": 8.365522282635181e-05,
      "loss": 3.8869,
      "step": 310710
    },
    {
      "epoch": 0.6473333333333333,
      "grad_norm": 0.8741351366043091,
      "learning_rate": 8.364638114874361e-05,
      "loss": 3.8935,
      "step": 310720
    },
    {
      "epoch": 0.6473541666666667,
      "grad_norm": 0.8973149061203003,
      "learning_rate": 8.363753975775688e-05,
      "loss": 3.6642,
      "step": 310730
    },
    {
      "epoch": 0.647375,
      "grad_norm": 0.9275539517402649,
      "learning_rate": 8.362869865342955e-05,
      "loss": 3.6711,
      "step": 310740
    },
    {
      "epoch": 0.6473958333333333,
      "grad_norm": 0.780099093914032,
      "learning_rate": 8.361985783580005e-05,
      "loss": 3.8096,
      "step": 310750
    },
    {
      "epoch": 0.6474166666666666,
      "grad_norm": 0.8254257440567017,
      "learning_rate": 8.361101730490654e-05,
      "loss": 3.6456,
      "step": 310760
    },
    {
      "epoch": 0.6474375,
      "grad_norm": 1.0890785455703735,
      "learning_rate": 8.360217706078704e-05,
      "loss": 3.7985,
      "step": 310770
    },
    {
      "epoch": 0.6474583333333334,
      "grad_norm": 0.8146241903305054,
      "learning_rate": 8.359333710347997e-05,
      "loss": 3.7827,
      "step": 310780
    },
    {
      "epoch": 0.6474791666666667,
      "grad_norm": 0.8630406856536865,
      "learning_rate": 8.358449743302334e-05,
      "loss": 3.8305,
      "step": 310790
    },
    {
      "epoch": 0.6475,
      "grad_norm": 0.9388562440872192,
      "learning_rate": 8.357565804945534e-05,
      "loss": 3.7131,
      "step": 310800
    },
    {
      "epoch": 0.6475208333333333,
      "grad_norm": 0.7955484390258789,
      "learning_rate": 8.356681895281431e-05,
      "loss": 3.7068,
      "step": 310810
    },
    {
      "epoch": 0.6475416666666667,
      "grad_norm": 0.8665404915809631,
      "learning_rate": 8.355798014313828e-05,
      "loss": 3.6727,
      "step": 310820
    },
    {
      "epoch": 0.6475625,
      "grad_norm": 1.0288163423538208,
      "learning_rate": 8.354914162046542e-05,
      "loss": 3.657,
      "step": 310830
    },
    {
      "epoch": 0.6475833333333333,
      "grad_norm": 0.8666334748268127,
      "learning_rate": 8.354030338483408e-05,
      "loss": 3.8615,
      "step": 310840
    },
    {
      "epoch": 0.6476041666666666,
      "grad_norm": 0.8753039240837097,
      "learning_rate": 8.353146543628225e-05,
      "loss": 3.6357,
      "step": 310850
    },
    {
      "epoch": 0.647625,
      "grad_norm": 1.3660452365875244,
      "learning_rate": 8.352262777484814e-05,
      "loss": 3.8205,
      "step": 310860
    },
    {
      "epoch": 0.6476458333333334,
      "grad_norm": 0.7759689092636108,
      "learning_rate": 8.351379040057007e-05,
      "loss": 3.6686,
      "step": 310870
    },
    {
      "epoch": 0.6476666666666666,
      "grad_norm": 0.8436571955680847,
      "learning_rate": 8.350495331348603e-05,
      "loss": 3.7183,
      "step": 310880
    },
    {
      "epoch": 0.6476875,
      "grad_norm": 0.7755308151245117,
      "learning_rate": 8.349611651363423e-05,
      "loss": 3.7614,
      "step": 310890
    },
    {
      "epoch": 0.6477083333333333,
      "grad_norm": 0.814308762550354,
      "learning_rate": 8.348728000105302e-05,
      "loss": 3.6003,
      "step": 310900
    },
    {
      "epoch": 0.6477291666666667,
      "grad_norm": 1.0478447675704956,
      "learning_rate": 8.347844377578035e-05,
      "loss": 3.6224,
      "step": 310910
    },
    {
      "epoch": 0.64775,
      "grad_norm": 0.829347550868988,
      "learning_rate": 8.346960783785447e-05,
      "loss": 3.6812,
      "step": 310920
    },
    {
      "epoch": 0.6477708333333333,
      "grad_norm": 0.8084548115730286,
      "learning_rate": 8.346077218731357e-05,
      "loss": 3.8529,
      "step": 310930
    },
    {
      "epoch": 0.6477916666666667,
      "grad_norm": 0.8034089803695679,
      "learning_rate": 8.345193682419579e-05,
      "loss": 3.8334,
      "step": 310940
    },
    {
      "epoch": 0.6478125,
      "grad_norm": 0.9907572269439697,
      "learning_rate": 8.344310174853929e-05,
      "loss": 3.7674,
      "step": 310950
    },
    {
      "epoch": 0.6478333333333334,
      "grad_norm": 0.8214424848556519,
      "learning_rate": 8.343426696038225e-05,
      "loss": 3.5859,
      "step": 310960
    },
    {
      "epoch": 0.6478541666666666,
      "grad_norm": 1.3067880868911743,
      "learning_rate": 8.342543245976283e-05,
      "loss": 3.8348,
      "step": 310970
    },
    {
      "epoch": 0.647875,
      "grad_norm": 0.8557549118995667,
      "learning_rate": 8.34165982467192e-05,
      "loss": 3.7625,
      "step": 310980
    },
    {
      "epoch": 0.6478958333333333,
      "grad_norm": 1.0152637958526611,
      "learning_rate": 8.340776432128948e-05,
      "loss": 3.666,
      "step": 310990
    },
    {
      "epoch": 0.6479166666666667,
      "grad_norm": 0.7646178603172302,
      "learning_rate": 8.339893068351188e-05,
      "loss": 3.5443,
      "step": 311000
    },
    {
      "epoch": 0.6479166666666667,
      "eval_loss": 4.0865797996521,
      "eval_runtime": 8.7376,
      "eval_samples_per_second": 1.144,
      "eval_steps_per_second": 0.343,
      "step": 311000
    },
    {
      "epoch": 0.6479375,
      "grad_norm": 0.8994739651679993,
      "learning_rate": 8.339009733342455e-05,
      "loss": 3.652,
      "step": 311010
    },
    {
      "epoch": 0.6479583333333333,
      "grad_norm": 0.9551411867141724,
      "learning_rate": 8.338126427106561e-05,
      "loss": 3.6499,
      "step": 311020
    },
    {
      "epoch": 0.6479791666666667,
      "grad_norm": 0.8620549440383911,
      "learning_rate": 8.337243149647325e-05,
      "loss": 3.7899,
      "step": 311030
    },
    {
      "epoch": 0.648,
      "grad_norm": 0.9543657898902893,
      "learning_rate": 8.336359900968568e-05,
      "loss": 3.7278,
      "step": 311040
    },
    {
      "epoch": 0.6480208333333334,
      "grad_norm": 0.8155875205993652,
      "learning_rate": 8.335476681074084e-05,
      "loss": 3.9748,
      "step": 311050
    },
    {
      "epoch": 0.6480416666666666,
      "grad_norm": 0.8067724108695984,
      "learning_rate": 8.334593489967712e-05,
      "loss": 3.8669,
      "step": 311060
    },
    {
      "epoch": 0.6480625,
      "grad_norm": 0.8227483034133911,
      "learning_rate": 8.333710327653261e-05,
      "loss": 3.7444,
      "step": 311070
    },
    {
      "epoch": 0.6480833333333333,
      "grad_norm": 1.012213945388794,
      "learning_rate": 8.332827194134532e-05,
      "loss": 3.7052,
      "step": 311080
    },
    {
      "epoch": 0.6481041666666667,
      "grad_norm": 0.7666824460029602,
      "learning_rate": 8.331944089415355e-05,
      "loss": 3.736,
      "step": 311090
    },
    {
      "epoch": 0.648125,
      "grad_norm": 0.8706193566322327,
      "learning_rate": 8.331061013499549e-05,
      "loss": 3.6978,
      "step": 311100
    },
    {
      "epoch": 0.6481458333333333,
      "grad_norm": 0.9235091805458069,
      "learning_rate": 8.330177966390906e-05,
      "loss": 3.7121,
      "step": 311110
    },
    {
      "epoch": 0.6481666666666667,
      "grad_norm": 0.8795480728149414,
      "learning_rate": 8.32929494809326e-05,
      "loss": 3.7941,
      "step": 311120
    },
    {
      "epoch": 0.6481875,
      "grad_norm": 0.8489822149276733,
      "learning_rate": 8.328411958610425e-05,
      "loss": 3.8597,
      "step": 311130
    },
    {
      "epoch": 0.6482083333333334,
      "grad_norm": 0.8768265247344971,
      "learning_rate": 8.327528997946198e-05,
      "loss": 3.8163,
      "step": 311140
    },
    {
      "epoch": 0.6482291666666666,
      "grad_norm": 0.7440369129180908,
      "learning_rate": 8.326646066104417e-05,
      "loss": 3.7435,
      "step": 311150
    },
    {
      "epoch": 0.64825,
      "grad_norm": 0.9159914255142212,
      "learning_rate": 8.325763163088877e-05,
      "loss": 3.8853,
      "step": 311160
    },
    {
      "epoch": 0.6482708333333334,
      "grad_norm": 0.7487186193466187,
      "learning_rate": 8.324880288903393e-05,
      "loss": 3.833,
      "step": 311170
    },
    {
      "epoch": 0.6482916666666667,
      "grad_norm": 0.8782444000244141,
      "learning_rate": 8.323997443551796e-05,
      "loss": 3.8697,
      "step": 311180
    },
    {
      "epoch": 0.6483125,
      "grad_norm": 0.8965438604354858,
      "learning_rate": 8.32311462703788e-05,
      "loss": 3.8024,
      "step": 311190
    },
    {
      "epoch": 0.6483333333333333,
      "grad_norm": 1.0048269033432007,
      "learning_rate": 8.322231839365467e-05,
      "loss": 3.6659,
      "step": 311200
    },
    {
      "epoch": 0.6483541666666667,
      "grad_norm": 0.7896249890327454,
      "learning_rate": 8.32134908053837e-05,
      "loss": 3.9482,
      "step": 311210
    },
    {
      "epoch": 0.648375,
      "grad_norm": 0.87363600730896,
      "learning_rate": 8.320466350560401e-05,
      "loss": 3.7584,
      "step": 311220
    },
    {
      "epoch": 0.6483958333333333,
      "grad_norm": 0.9854857325553894,
      "learning_rate": 8.31958364943537e-05,
      "loss": 3.9844,
      "step": 311230
    },
    {
      "epoch": 0.6484166666666666,
      "grad_norm": 0.8236518502235413,
      "learning_rate": 8.318700977167098e-05,
      "loss": 3.6809,
      "step": 311240
    },
    {
      "epoch": 0.6484375,
      "grad_norm": 1.0120481252670288,
      "learning_rate": 8.317818333759392e-05,
      "loss": 3.8857,
      "step": 311250
    },
    {
      "epoch": 0.6484583333333334,
      "grad_norm": 0.8895543217658997,
      "learning_rate": 8.316935719216063e-05,
      "loss": 3.8241,
      "step": 311260
    },
    {
      "epoch": 0.6484791666666667,
      "grad_norm": 0.9918482899665833,
      "learning_rate": 8.31605313354093e-05,
      "loss": 3.7247,
      "step": 311270
    },
    {
      "epoch": 0.6485,
      "grad_norm": 0.9687920212745667,
      "learning_rate": 8.3151705767378e-05,
      "loss": 4.0009,
      "step": 311280
    },
    {
      "epoch": 0.6485208333333333,
      "grad_norm": 0.8094934225082397,
      "learning_rate": 8.314288048810487e-05,
      "loss": 3.5647,
      "step": 311290
    },
    {
      "epoch": 0.6485416666666667,
      "grad_norm": 0.7899941205978394,
      "learning_rate": 8.313405549762805e-05,
      "loss": 3.7062,
      "step": 311300
    },
    {
      "epoch": 0.6485625,
      "grad_norm": 0.8701111674308777,
      "learning_rate": 8.312523079598562e-05,
      "loss": 3.7155,
      "step": 311310
    },
    {
      "epoch": 0.6485833333333333,
      "grad_norm": 0.9079679846763611,
      "learning_rate": 8.311640638321572e-05,
      "loss": 3.6969,
      "step": 311320
    },
    {
      "epoch": 0.6486041666666666,
      "grad_norm": 0.9035034775733948,
      "learning_rate": 8.31075822593565e-05,
      "loss": 3.7084,
      "step": 311330
    },
    {
      "epoch": 0.648625,
      "grad_norm": 0.8881791234016418,
      "learning_rate": 8.309875842444602e-05,
      "loss": 3.7599,
      "step": 311340
    },
    {
      "epoch": 0.6486458333333334,
      "grad_norm": 1.0271018743515015,
      "learning_rate": 8.308993487852242e-05,
      "loss": 3.6519,
      "step": 311350
    },
    {
      "epoch": 0.6486666666666666,
      "grad_norm": 0.8119253516197205,
      "learning_rate": 8.308111162162384e-05,
      "loss": 3.6556,
      "step": 311360
    },
    {
      "epoch": 0.6486875,
      "grad_norm": 1.0020767450332642,
      "learning_rate": 8.307228865378835e-05,
      "loss": 3.9744,
      "step": 311370
    },
    {
      "epoch": 0.6487083333333333,
      "grad_norm": 0.9435694217681885,
      "learning_rate": 8.306346597505409e-05,
      "loss": 3.7557,
      "step": 311380
    },
    {
      "epoch": 0.6487291666666667,
      "grad_norm": 0.8015114665031433,
      "learning_rate": 8.305464358545916e-05,
      "loss": 3.8851,
      "step": 311390
    },
    {
      "epoch": 0.64875,
      "grad_norm": 1.1493948698043823,
      "learning_rate": 8.304582148504167e-05,
      "loss": 3.72,
      "step": 311400
    },
    {
      "epoch": 0.6487708333333333,
      "grad_norm": 0.7751615047454834,
      "learning_rate": 8.303699967383978e-05,
      "loss": 3.6891,
      "step": 311410
    },
    {
      "epoch": 0.6487916666666667,
      "grad_norm": 0.7955894470214844,
      "learning_rate": 8.302817815189144e-05,
      "loss": 3.8231,
      "step": 311420
    },
    {
      "epoch": 0.6488125,
      "grad_norm": 1.0709822177886963,
      "learning_rate": 8.30193569192349e-05,
      "loss": 3.6525,
      "step": 311430
    },
    {
      "epoch": 0.6488333333333334,
      "grad_norm": 0.8536791205406189,
      "learning_rate": 8.301053597590832e-05,
      "loss": 3.63,
      "step": 311440
    },
    {
      "epoch": 0.6488541666666666,
      "grad_norm": 1.0262916088104248,
      "learning_rate": 8.300171532194956e-05,
      "loss": 3.6368,
      "step": 311450
    },
    {
      "epoch": 0.648875,
      "grad_norm": 0.7249799966812134,
      "learning_rate": 8.299289495739695e-05,
      "loss": 3.7259,
      "step": 311460
    },
    {
      "epoch": 0.6488958333333333,
      "grad_norm": 0.9134814143180847,
      "learning_rate": 8.298407488228854e-05,
      "loss": 3.6586,
      "step": 311470
    },
    {
      "epoch": 0.6489166666666667,
      "grad_norm": 0.7712579965591431,
      "learning_rate": 8.297525509666231e-05,
      "loss": 3.7381,
      "step": 311480
    },
    {
      "epoch": 0.6489375,
      "grad_norm": 1.0428677797317505,
      "learning_rate": 8.29664356005565e-05,
      "loss": 3.7689,
      "step": 311490
    },
    {
      "epoch": 0.6489583333333333,
      "grad_norm": 0.7785667181015015,
      "learning_rate": 8.29576163940092e-05,
      "loss": 3.7675,
      "step": 311500
    },
    {
      "epoch": 0.6489791666666667,
      "grad_norm": 0.8817083835601807,
      "learning_rate": 8.294879747705842e-05,
      "loss": 3.805,
      "step": 311510
    },
    {
      "epoch": 0.649,
      "grad_norm": 0.9506509304046631,
      "learning_rate": 8.293997884974223e-05,
      "loss": 3.8141,
      "step": 311520
    },
    {
      "epoch": 0.6490208333333334,
      "grad_norm": 0.7459444403648376,
      "learning_rate": 8.29311605120989e-05,
      "loss": 3.6584,
      "step": 311530
    },
    {
      "epoch": 0.6490416666666666,
      "grad_norm": 1.0033683776855469,
      "learning_rate": 8.292234246416636e-05,
      "loss": 3.7839,
      "step": 311540
    },
    {
      "epoch": 0.6490625,
      "grad_norm": 0.8757678866386414,
      "learning_rate": 8.291352470598273e-05,
      "loss": 3.6971,
      "step": 311550
    },
    {
      "epoch": 0.6490833333333333,
      "grad_norm": 0.8562352657318115,
      "learning_rate": 8.290470723758613e-05,
      "loss": 3.8291,
      "step": 311560
    },
    {
      "epoch": 0.6491041666666667,
      "grad_norm": 0.8125230073928833,
      "learning_rate": 8.289589005901463e-05,
      "loss": 3.876,
      "step": 311570
    },
    {
      "epoch": 0.649125,
      "grad_norm": 0.8541572093963623,
      "learning_rate": 8.288707317030633e-05,
      "loss": 3.9077,
      "step": 311580
    },
    {
      "epoch": 0.6491458333333333,
      "grad_norm": 0.7617466449737549,
      "learning_rate": 8.28782565714993e-05,
      "loss": 3.4648,
      "step": 311590
    },
    {
      "epoch": 0.6491666666666667,
      "grad_norm": 0.7705448865890503,
      "learning_rate": 8.286944026263166e-05,
      "loss": 3.8305,
      "step": 311600
    },
    {
      "epoch": 0.6491875,
      "grad_norm": 0.8090256452560425,
      "learning_rate": 8.286062424374145e-05,
      "loss": 3.7618,
      "step": 311610
    },
    {
      "epoch": 0.6492083333333334,
      "grad_norm": 0.9858015775680542,
      "learning_rate": 8.285180851486676e-05,
      "loss": 3.6838,
      "step": 311620
    },
    {
      "epoch": 0.6492291666666666,
      "grad_norm": 0.9597393870353699,
      "learning_rate": 8.284299307604568e-05,
      "loss": 3.8389,
      "step": 311630
    },
    {
      "epoch": 0.64925,
      "grad_norm": 0.9912445545196533,
      "learning_rate": 8.283417792731629e-05,
      "loss": 3.9383,
      "step": 311640
    },
    {
      "epoch": 0.6492708333333334,
      "grad_norm": 0.7453787922859192,
      "learning_rate": 8.282536306871666e-05,
      "loss": 3.6461,
      "step": 311650
    },
    {
      "epoch": 0.6492916666666667,
      "grad_norm": 0.8481869101524353,
      "learning_rate": 8.281654850028488e-05,
      "loss": 3.9589,
      "step": 311660
    },
    {
      "epoch": 0.6493125,
      "grad_norm": 0.8406458497047424,
      "learning_rate": 8.280773422205901e-05,
      "loss": 3.7336,
      "step": 311670
    },
    {
      "epoch": 0.6493333333333333,
      "grad_norm": 1.1129366159439087,
      "learning_rate": 8.279892023407715e-05,
      "loss": 3.8044,
      "step": 311680
    },
    {
      "epoch": 0.6493541666666667,
      "grad_norm": 0.9764735102653503,
      "learning_rate": 8.279010653637732e-05,
      "loss": 3.6629,
      "step": 311690
    },
    {
      "epoch": 0.649375,
      "grad_norm": 0.8767901062965393,
      "learning_rate": 8.278129312899764e-05,
      "loss": 3.8105,
      "step": 311700
    },
    {
      "epoch": 0.6493958333333333,
      "grad_norm": 0.9456045627593994,
      "learning_rate": 8.277248001197618e-05,
      "loss": 3.7118,
      "step": 311710
    },
    {
      "epoch": 0.6494166666666666,
      "grad_norm": 0.7825131416320801,
      "learning_rate": 8.2763667185351e-05,
      "loss": 3.7944,
      "step": 311720
    },
    {
      "epoch": 0.6494375,
      "grad_norm": 0.8225993514060974,
      "learning_rate": 8.275485464916016e-05,
      "loss": 3.8131,
      "step": 311730
    },
    {
      "epoch": 0.6494583333333334,
      "grad_norm": 0.7750737071037292,
      "learning_rate": 8.274604240344172e-05,
      "loss": 3.8232,
      "step": 311740
    },
    {
      "epoch": 0.6494791666666667,
      "grad_norm": 0.8684003353118896,
      "learning_rate": 8.273723044823376e-05,
      "loss": 3.7263,
      "step": 311750
    },
    {
      "epoch": 0.6495,
      "grad_norm": 0.8192523717880249,
      "learning_rate": 8.272841878357434e-05,
      "loss": 3.8514,
      "step": 311760
    },
    {
      "epoch": 0.6495208333333333,
      "grad_norm": 0.9332330822944641,
      "learning_rate": 8.271960740950153e-05,
      "loss": 3.7558,
      "step": 311770
    },
    {
      "epoch": 0.6495416666666667,
      "grad_norm": 0.9191856980323792,
      "learning_rate": 8.271079632605344e-05,
      "loss": 3.6039,
      "step": 311780
    },
    {
      "epoch": 0.6495625,
      "grad_norm": 0.9462624192237854,
      "learning_rate": 8.270198553326801e-05,
      "loss": 3.7602,
      "step": 311790
    },
    {
      "epoch": 0.6495833333333333,
      "grad_norm": 0.9081847667694092,
      "learning_rate": 8.269317503118332e-05,
      "loss": 3.6394,
      "step": 311800
    },
    {
      "epoch": 0.6496041666666666,
      "grad_norm": 0.8113530278205872,
      "learning_rate": 8.268436481983754e-05,
      "loss": 3.6637,
      "step": 311810
    },
    {
      "epoch": 0.649625,
      "grad_norm": 0.7405163645744324,
      "learning_rate": 8.267555489926864e-05,
      "loss": 3.6368,
      "step": 311820
    },
    {
      "epoch": 0.6496458333333334,
      "grad_norm": 0.9662119150161743,
      "learning_rate": 8.266674526951465e-05,
      "loss": 3.9086,
      "step": 311830
    },
    {
      "epoch": 0.6496666666666666,
      "grad_norm": 0.9244858026504517,
      "learning_rate": 8.265793593061378e-05,
      "loss": 3.8731,
      "step": 311840
    },
    {
      "epoch": 0.6496875,
      "grad_norm": 0.8655552268028259,
      "learning_rate": 8.264912688260388e-05,
      "loss": 3.7929,
      "step": 311850
    },
    {
      "epoch": 0.6497083333333333,
      "grad_norm": 0.9700867533683777,
      "learning_rate": 8.264031812552306e-05,
      "loss": 3.8913,
      "step": 311860
    },
    {
      "epoch": 0.6497291666666667,
      "grad_norm": 0.8827144503593445,
      "learning_rate": 8.26315096594095e-05,
      "loss": 3.8349,
      "step": 311870
    },
    {
      "epoch": 0.64975,
      "grad_norm": 0.8500331044197083,
      "learning_rate": 8.262270148430112e-05,
      "loss": 3.6238,
      "step": 311880
    },
    {
      "epoch": 0.6497708333333333,
      "grad_norm": 0.8388808369636536,
      "learning_rate": 8.261389360023592e-05,
      "loss": 3.5071,
      "step": 311890
    },
    {
      "epoch": 0.6497916666666667,
      "grad_norm": 0.8957024812698364,
      "learning_rate": 8.260508600725216e-05,
      "loss": 3.795,
      "step": 311900
    },
    {
      "epoch": 0.6498125,
      "grad_norm": 0.8066549897193909,
      "learning_rate": 8.25962787053877e-05,
      "loss": 3.8398,
      "step": 311910
    },
    {
      "epoch": 0.6498333333333334,
      "grad_norm": 0.7567744255065918,
      "learning_rate": 8.258747169468062e-05,
      "loss": 3.7319,
      "step": 311920
    },
    {
      "epoch": 0.6498541666666666,
      "grad_norm": 1.0418236255645752,
      "learning_rate": 8.257866497516897e-05,
      "loss": 3.7317,
      "step": 311930
    },
    {
      "epoch": 0.649875,
      "grad_norm": 1.0445823669433594,
      "learning_rate": 8.25698585468908e-05,
      "loss": 3.6783,
      "step": 311940
    },
    {
      "epoch": 0.6498958333333333,
      "grad_norm": 0.9212241768836975,
      "learning_rate": 8.256105240988417e-05,
      "loss": 3.9408,
      "step": 311950
    },
    {
      "epoch": 0.6499166666666667,
      "grad_norm": 0.755782425403595,
      "learning_rate": 8.255224656418707e-05,
      "loss": 3.8861,
      "step": 311960
    },
    {
      "epoch": 0.6499375,
      "grad_norm": 0.9163057208061218,
      "learning_rate": 8.25434410098376e-05,
      "loss": 3.6355,
      "step": 311970
    },
    {
      "epoch": 0.6499583333333333,
      "grad_norm": 0.8739175200462341,
      "learning_rate": 8.253463574687374e-05,
      "loss": 3.7811,
      "step": 311980
    },
    {
      "epoch": 0.6499791666666667,
      "grad_norm": 0.9164515137672424,
      "learning_rate": 8.252583077533358e-05,
      "loss": 3.7164,
      "step": 311990
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9726574420928955,
      "learning_rate": 8.25170260952551e-05,
      "loss": 3.8477,
      "step": 312000
    },
    {
      "epoch": 0.65,
      "eval_loss": 4.07818603515625,
      "eval_runtime": 8.5958,
      "eval_samples_per_second": 1.163,
      "eval_steps_per_second": 0.349,
      "step": 312000
    },
    {
      "epoch": 0.6500208333333334,
      "grad_norm": 0.807900071144104,
      "learning_rate": 8.250822170667635e-05,
      "loss": 3.7471,
      "step": 312010
    },
    {
      "epoch": 0.6500416666666666,
      "grad_norm": 0.9644481539726257,
      "learning_rate": 8.249941760963536e-05,
      "loss": 3.8581,
      "step": 312020
    },
    {
      "epoch": 0.6500625,
      "grad_norm": 0.9675393104553223,
      "learning_rate": 8.249061380417019e-05,
      "loss": 3.6171,
      "step": 312030
    },
    {
      "epoch": 0.6500833333333333,
      "grad_norm": 0.8973501324653625,
      "learning_rate": 8.248181029031885e-05,
      "loss": 3.8491,
      "step": 312040
    },
    {
      "epoch": 0.6501041666666667,
      "grad_norm": 1.0265237092971802,
      "learning_rate": 8.247300706811935e-05,
      "loss": 3.7094,
      "step": 312050
    },
    {
      "epoch": 0.650125,
      "grad_norm": 0.8444181084632874,
      "learning_rate": 8.246420413760973e-05,
      "loss": 3.8329,
      "step": 312060
    },
    {
      "epoch": 0.6501458333333333,
      "grad_norm": 0.7785407304763794,
      "learning_rate": 8.245540149882802e-05,
      "loss": 3.9052,
      "step": 312070
    },
    {
      "epoch": 0.6501666666666667,
      "grad_norm": 0.8836687803268433,
      "learning_rate": 8.244659915181225e-05,
      "loss": 3.7919,
      "step": 312080
    },
    {
      "epoch": 0.6501875,
      "grad_norm": 0.8453516364097595,
      "learning_rate": 8.24377970966004e-05,
      "loss": 3.7165,
      "step": 312090
    },
    {
      "epoch": 0.6502083333333334,
      "grad_norm": 0.7715259194374084,
      "learning_rate": 8.242899533323061e-05,
      "loss": 3.6545,
      "step": 312100
    },
    {
      "epoch": 0.6502291666666666,
      "grad_norm": 0.8015410304069519,
      "learning_rate": 8.242019386174068e-05,
      "loss": 3.7383,
      "step": 312110
    },
    {
      "epoch": 0.65025,
      "grad_norm": 0.8303812146186829,
      "learning_rate": 8.241139268216883e-05,
      "loss": 3.9523,
      "step": 312120
    },
    {
      "epoch": 0.6502708333333334,
      "grad_norm": 0.8112398982048035,
      "learning_rate": 8.240259179455309e-05,
      "loss": 3.728,
      "step": 312130
    },
    {
      "epoch": 0.6502916666666667,
      "grad_norm": 0.7722362875938416,
      "learning_rate": 8.239379119893124e-05,
      "loss": 3.8823,
      "step": 312140
    },
    {
      "epoch": 0.6503125,
      "grad_norm": 0.8541991710662842,
      "learning_rate": 8.238499089534159e-05,
      "loss": 3.9403,
      "step": 312150
    },
    {
      "epoch": 0.6503333333333333,
      "grad_norm": 0.8265710473060608,
      "learning_rate": 8.237619088382197e-05,
      "loss": 3.8333,
      "step": 312160
    },
    {
      "epoch": 0.6503541666666667,
      "grad_norm": 0.8038555383682251,
      "learning_rate": 8.236739116441036e-05,
      "loss": 3.7178,
      "step": 312170
    },
    {
      "epoch": 0.650375,
      "grad_norm": 1.1766383647918701,
      "learning_rate": 8.235859173714495e-05,
      "loss": 3.7731,
      "step": 312180
    },
    {
      "epoch": 0.6503958333333333,
      "grad_norm": 0.8871443271636963,
      "learning_rate": 8.234979260206362e-05,
      "loss": 3.7049,
      "step": 312190
    },
    {
      "epoch": 0.6504166666666666,
      "grad_norm": 1.0563534498214722,
      "learning_rate": 8.234099375920435e-05,
      "loss": 3.6885,
      "step": 312200
    },
    {
      "epoch": 0.6504375,
      "grad_norm": 0.9804530739784241,
      "learning_rate": 8.233219520860531e-05,
      "loss": 3.8444,
      "step": 312210
    },
    {
      "epoch": 0.6504583333333334,
      "grad_norm": 0.8378660082817078,
      "learning_rate": 8.232339695030434e-05,
      "loss": 3.756,
      "step": 312220
    },
    {
      "epoch": 0.6504791666666667,
      "grad_norm": 0.792790949344635,
      "learning_rate": 8.231459898433946e-05,
      "loss": 3.7064,
      "step": 312230
    },
    {
      "epoch": 0.6505,
      "grad_norm": 0.9724880456924438,
      "learning_rate": 8.230580131074883e-05,
      "loss": 3.6981,
      "step": 312240
    },
    {
      "epoch": 0.6505208333333333,
      "grad_norm": 0.8065446615219116,
      "learning_rate": 8.22970039295703e-05,
      "loss": 3.6651,
      "step": 312250
    },
    {
      "epoch": 0.6505416666666667,
      "grad_norm": 0.9481686949729919,
      "learning_rate": 8.228820684084183e-05,
      "loss": 3.7837,
      "step": 312260
    },
    {
      "epoch": 0.6505625,
      "grad_norm": 1.028214454650879,
      "learning_rate": 8.227941004460163e-05,
      "loss": 3.6865,
      "step": 312270
    },
    {
      "epoch": 0.6505833333333333,
      "grad_norm": 0.8415665626525879,
      "learning_rate": 8.227061354088753e-05,
      "loss": 3.5088,
      "step": 312280
    },
    {
      "epoch": 0.6506041666666667,
      "grad_norm": 0.7911175489425659,
      "learning_rate": 8.226181732973756e-05,
      "loss": 3.8746,
      "step": 312290
    },
    {
      "epoch": 0.650625,
      "grad_norm": 0.8550955057144165,
      "learning_rate": 8.225302141118972e-05,
      "loss": 3.6772,
      "step": 312300
    },
    {
      "epoch": 0.6506458333333334,
      "grad_norm": 1.1758027076721191,
      "learning_rate": 8.224422578528201e-05,
      "loss": 3.7635,
      "step": 312310
    },
    {
      "epoch": 0.6506666666666666,
      "grad_norm": 0.8996643424034119,
      "learning_rate": 8.223543045205244e-05,
      "loss": 3.8243,
      "step": 312320
    },
    {
      "epoch": 0.6506875,
      "grad_norm": 0.8479741811752319,
      "learning_rate": 8.222663541153897e-05,
      "loss": 3.8223,
      "step": 312330
    },
    {
      "epoch": 0.6507083333333333,
      "grad_norm": 0.8400987982749939,
      "learning_rate": 8.221784066377961e-05,
      "loss": 3.8543,
      "step": 312340
    },
    {
      "epoch": 0.6507291666666667,
      "grad_norm": 1.2094370126724243,
      "learning_rate": 8.220904620881237e-05,
      "loss": 3.7273,
      "step": 312350
    },
    {
      "epoch": 0.65075,
      "grad_norm": 0.879782497882843,
      "learning_rate": 8.22002520466752e-05,
      "loss": 3.6794,
      "step": 312360
    },
    {
      "epoch": 0.6507708333333333,
      "grad_norm": 0.8394227027893066,
      "learning_rate": 8.21914581774061e-05,
      "loss": 3.9179,
      "step": 312370
    },
    {
      "epoch": 0.6507916666666667,
      "grad_norm": 0.8243952989578247,
      "learning_rate": 8.218266460104308e-05,
      "loss": 3.6463,
      "step": 312380
    },
    {
      "epoch": 0.6508125,
      "grad_norm": 0.807835578918457,
      "learning_rate": 8.217387131762408e-05,
      "loss": 3.8527,
      "step": 312390
    },
    {
      "epoch": 0.6508333333333334,
      "grad_norm": 0.8257299661636353,
      "learning_rate": 8.216507832718713e-05,
      "loss": 3.667,
      "step": 312400
    },
    {
      "epoch": 0.6508541666666666,
      "grad_norm": 0.769028902053833,
      "learning_rate": 8.215628562977025e-05,
      "loss": 3.5636,
      "step": 312410
    },
    {
      "epoch": 0.650875,
      "grad_norm": 0.974825382232666,
      "learning_rate": 8.214749322541121e-05,
      "loss": 3.6285,
      "step": 312420
    },
    {
      "epoch": 0.6508958333333333,
      "grad_norm": 1.0959938764572144,
      "learning_rate": 8.213870111414823e-05,
      "loss": 3.8004,
      "step": 312430
    },
    {
      "epoch": 0.6509166666666667,
      "grad_norm": 0.8955237865447998,
      "learning_rate": 8.212990929601924e-05,
      "loss": 3.8039,
      "step": 312440
    },
    {
      "epoch": 0.6509375,
      "grad_norm": 1.052800178527832,
      "learning_rate": 8.212111777106209e-05,
      "loss": 3.9397,
      "step": 312450
    },
    {
      "epoch": 0.6509583333333333,
      "grad_norm": 0.8432477712631226,
      "learning_rate": 8.211232653931488e-05,
      "loss": 3.6051,
      "step": 312460
    },
    {
      "epoch": 0.6509791666666667,
      "grad_norm": 0.8331878781318665,
      "learning_rate": 8.210353560081561e-05,
      "loss": 3.8168,
      "step": 312470
    },
    {
      "epoch": 0.651,
      "grad_norm": 0.7748584151268005,
      "learning_rate": 8.209474495560208e-05,
      "loss": 3.7842,
      "step": 312480
    },
    {
      "epoch": 0.6510208333333334,
      "grad_norm": 0.9146608710289001,
      "learning_rate": 8.208595460371243e-05,
      "loss": 3.7002,
      "step": 312490
    },
    {
      "epoch": 0.6510416666666666,
      "grad_norm": 0.850400984287262,
      "learning_rate": 8.207716454518461e-05,
      "loss": 3.6844,
      "step": 312500
    },
    {
      "epoch": 0.6510625,
      "grad_norm": 0.8899171352386475,
      "learning_rate": 8.206837478005645e-05,
      "loss": 3.7087,
      "step": 312510
    },
    {
      "epoch": 0.6510833333333333,
      "grad_norm": 0.8676007390022278,
      "learning_rate": 8.20595853083661e-05,
      "loss": 3.7324,
      "step": 312520
    },
    {
      "epoch": 0.6511041666666667,
      "grad_norm": 0.9948303699493408,
      "learning_rate": 8.205079613015148e-05,
      "loss": 3.8482,
      "step": 312530
    },
    {
      "epoch": 0.651125,
      "grad_norm": 0.84845370054245,
      "learning_rate": 8.204200724545044e-05,
      "loss": 3.8298,
      "step": 312540
    },
    {
      "epoch": 0.6511458333333333,
      "grad_norm": 0.833221971988678,
      "learning_rate": 8.20332186543011e-05,
      "loss": 3.7783,
      "step": 312550
    },
    {
      "epoch": 0.6511666666666667,
      "grad_norm": 0.7798931002616882,
      "learning_rate": 8.202443035674132e-05,
      "loss": 3.9143,
      "step": 312560
    },
    {
      "epoch": 0.6511875,
      "grad_norm": 0.8219656348228455,
      "learning_rate": 8.201564235280905e-05,
      "loss": 3.7093,
      "step": 312570
    },
    {
      "epoch": 0.6512083333333333,
      "grad_norm": 0.8391099572181702,
      "learning_rate": 8.200685464254239e-05,
      "loss": 3.8961,
      "step": 312580
    },
    {
      "epoch": 0.6512291666666666,
      "grad_norm": 0.9344066381454468,
      "learning_rate": 8.199806722597916e-05,
      "loss": 3.7756,
      "step": 312590
    },
    {
      "epoch": 0.65125,
      "grad_norm": 0.8123152852058411,
      "learning_rate": 8.198928010315728e-05,
      "loss": 3.7776,
      "step": 312600
    },
    {
      "epoch": 0.6512708333333334,
      "grad_norm": 0.7634774446487427,
      "learning_rate": 8.198049327411494e-05,
      "loss": 3.6584,
      "step": 312610
    },
    {
      "epoch": 0.6512916666666667,
      "grad_norm": 0.9130723476409912,
      "learning_rate": 8.197170673888987e-05,
      "loss": 3.7702,
      "step": 312620
    },
    {
      "epoch": 0.6513125,
      "grad_norm": 0.8857583999633789,
      "learning_rate": 8.196292049752004e-05,
      "loss": 3.7638,
      "step": 312630
    },
    {
      "epoch": 0.6513333333333333,
      "grad_norm": 0.912804126739502,
      "learning_rate": 8.195413455004357e-05,
      "loss": 3.6122,
      "step": 312640
    },
    {
      "epoch": 0.6513541666666667,
      "grad_norm": 0.9347514510154724,
      "learning_rate": 8.194534889649826e-05,
      "loss": 3.8701,
      "step": 312650
    },
    {
      "epoch": 0.651375,
      "grad_norm": 0.898102343082428,
      "learning_rate": 8.193656353692209e-05,
      "loss": 3.6717,
      "step": 312660
    },
    {
      "epoch": 0.6513958333333333,
      "grad_norm": 1.0840303897857666,
      "learning_rate": 8.192777847135306e-05,
      "loss": 3.7358,
      "step": 312670
    },
    {
      "epoch": 0.6514166666666666,
      "grad_norm": 1.063108205795288,
      "learning_rate": 8.191899369982904e-05,
      "loss": 3.8375,
      "step": 312680
    },
    {
      "epoch": 0.6514375,
      "grad_norm": 0.8830769062042236,
      "learning_rate": 8.191020922238805e-05,
      "loss": 3.7083,
      "step": 312690
    },
    {
      "epoch": 0.6514583333333334,
      "grad_norm": 0.9385952949523926,
      "learning_rate": 8.190142503906798e-05,
      "loss": 3.8223,
      "step": 312700
    },
    {
      "epoch": 0.6514791666666667,
      "grad_norm": 0.9222216010093689,
      "learning_rate": 8.189264114990682e-05,
      "loss": 3.8402,
      "step": 312710
    },
    {
      "epoch": 0.6515,
      "grad_norm": 0.9875853657722473,
      "learning_rate": 8.188385755494248e-05,
      "loss": 3.6846,
      "step": 312720
    },
    {
      "epoch": 0.6515208333333333,
      "grad_norm": 0.7805408835411072,
      "learning_rate": 8.187507425421291e-05,
      "loss": 3.7216,
      "step": 312730
    },
    {
      "epoch": 0.6515416666666667,
      "grad_norm": 0.7891342639923096,
      "learning_rate": 8.186629124775606e-05,
      "loss": 3.7543,
      "step": 312740
    },
    {
      "epoch": 0.6515625,
      "grad_norm": 1.128150463104248,
      "learning_rate": 8.185750853560986e-05,
      "loss": 3.6005,
      "step": 312750
    },
    {
      "epoch": 0.6515833333333333,
      "grad_norm": 0.8695202469825745,
      "learning_rate": 8.184872611781223e-05,
      "loss": 3.787,
      "step": 312760
    },
    {
      "epoch": 0.6516041666666667,
      "grad_norm": 0.8682193160057068,
      "learning_rate": 8.183994399440116e-05,
      "loss": 3.8173,
      "step": 312770
    },
    {
      "epoch": 0.651625,
      "grad_norm": 0.7891079783439636,
      "learning_rate": 8.183116216541461e-05,
      "loss": 3.7048,
      "step": 312780
    },
    {
      "epoch": 0.6516458333333334,
      "grad_norm": 0.8655186295509338,
      "learning_rate": 8.182238063089032e-05,
      "loss": 3.739,
      "step": 312790
    },
    {
      "epoch": 0.6516666666666666,
      "grad_norm": 0.946868896484375,
      "learning_rate": 8.181359939086642e-05,
      "loss": 3.7472,
      "step": 312800
    },
    {
      "epoch": 0.6516875,
      "grad_norm": 0.9084563255310059,
      "learning_rate": 8.180481844538084e-05,
      "loss": 3.6741,
      "step": 312810
    },
    {
      "epoch": 0.6517083333333333,
      "grad_norm": 0.9920486211776733,
      "learning_rate": 8.179603779447134e-05,
      "loss": 3.7184,
      "step": 312820
    },
    {
      "epoch": 0.6517291666666667,
      "grad_norm": 1.0026395320892334,
      "learning_rate": 8.178725743817602e-05,
      "loss": 3.6356,
      "step": 312830
    },
    {
      "epoch": 0.65175,
      "grad_norm": 0.9058321118354797,
      "learning_rate": 8.17784773765328e-05,
      "loss": 3.7107,
      "step": 312840
    },
    {
      "epoch": 0.6517708333333333,
      "grad_norm": 0.858521044254303,
      "learning_rate": 8.176969760957945e-05,
      "loss": 3.9229,
      "step": 312850
    },
    {
      "epoch": 0.6517916666666667,
      "grad_norm": 0.9100251197814941,
      "learning_rate": 8.176091813735403e-05,
      "loss": 3.7879,
      "step": 312860
    },
    {
      "epoch": 0.6518125,
      "grad_norm": 0.8652141094207764,
      "learning_rate": 8.175213895989452e-05,
      "loss": 3.8134,
      "step": 312870
    },
    {
      "epoch": 0.6518333333333334,
      "grad_norm": 0.870749831199646,
      "learning_rate": 8.174336007723864e-05,
      "loss": 3.6868,
      "step": 312880
    },
    {
      "epoch": 0.6518541666666666,
      "grad_norm": 0.7857108116149902,
      "learning_rate": 8.173458148942446e-05,
      "loss": 3.8616,
      "step": 312890
    },
    {
      "epoch": 0.651875,
      "grad_norm": 1.08501136302948,
      "learning_rate": 8.172580319648993e-05,
      "loss": 3.6459,
      "step": 312900
    },
    {
      "epoch": 0.6518958333333333,
      "grad_norm": 0.8469563126564026,
      "learning_rate": 8.171702519847279e-05,
      "loss": 3.9857,
      "step": 312910
    },
    {
      "epoch": 0.6519166666666667,
      "grad_norm": 0.9705420136451721,
      "learning_rate": 8.170824749541121e-05,
      "loss": 3.7033,
      "step": 312920
    },
    {
      "epoch": 0.6519375,
      "grad_norm": 0.7472394704818726,
      "learning_rate": 8.169947008734288e-05,
      "loss": 3.847,
      "step": 312930
    },
    {
      "epoch": 0.6519583333333333,
      "grad_norm": 0.8986923694610596,
      "learning_rate": 8.169069297430576e-05,
      "loss": 3.6684,
      "step": 312940
    },
    {
      "epoch": 0.6519791666666667,
      "grad_norm": 0.9401469230651855,
      "learning_rate": 8.168191615633792e-05,
      "loss": 3.7822,
      "step": 312950
    },
    {
      "epoch": 0.652,
      "grad_norm": 0.8049879670143127,
      "learning_rate": 8.16731396334771e-05,
      "loss": 3.7472,
      "step": 312960
    },
    {
      "epoch": 0.6520208333333334,
      "grad_norm": 1.0665897130966187,
      "learning_rate": 8.16643634057613e-05,
      "loss": 3.8238,
      "step": 312970
    },
    {
      "epoch": 0.6520416666666666,
      "grad_norm": 0.8386186957359314,
      "learning_rate": 8.165558747322835e-05,
      "loss": 3.7738,
      "step": 312980
    },
    {
      "epoch": 0.6520625,
      "grad_norm": 0.829811692237854,
      "learning_rate": 8.164681183591627e-05,
      "loss": 3.7823,
      "step": 312990
    },
    {
      "epoch": 0.6520833333333333,
      "grad_norm": 0.7802832722663879,
      "learning_rate": 8.163803649386286e-05,
      "loss": 3.9814,
      "step": 313000
    },
    {
      "epoch": 0.6520833333333333,
      "eval_loss": 4.079558372497559,
      "eval_runtime": 8.8031,
      "eval_samples_per_second": 1.136,
      "eval_steps_per_second": 0.341,
      "step": 313000
    },
    {
      "epoch": 0.6521041666666667,
      "grad_norm": 0.9424532055854797,
      "learning_rate": 8.162926144710608e-05,
      "loss": 3.7169,
      "step": 313010
    },
    {
      "epoch": 0.652125,
      "grad_norm": 0.944724977016449,
      "learning_rate": 8.162048669568386e-05,
      "loss": 3.6959,
      "step": 313020
    },
    {
      "epoch": 0.6521458333333333,
      "grad_norm": 0.92452472448349,
      "learning_rate": 8.161171223963404e-05,
      "loss": 3.6622,
      "step": 313030
    },
    {
      "epoch": 0.6521666666666667,
      "grad_norm": 1.057474136352539,
      "learning_rate": 8.160293807899457e-05,
      "loss": 3.7632,
      "step": 313040
    },
    {
      "epoch": 0.6521875,
      "grad_norm": 0.7939277291297913,
      "learning_rate": 8.159416421380331e-05,
      "loss": 3.62,
      "step": 313050
    },
    {
      "epoch": 0.6522083333333333,
      "grad_norm": 0.8671931624412537,
      "learning_rate": 8.158539064409819e-05,
      "loss": 3.5639,
      "step": 313060
    },
    {
      "epoch": 0.6522291666666666,
      "grad_norm": 0.9044506549835205,
      "learning_rate": 8.157661736991709e-05,
      "loss": 3.6728,
      "step": 313070
    },
    {
      "epoch": 0.65225,
      "grad_norm": 0.8570427894592285,
      "learning_rate": 8.156784439129797e-05,
      "loss": 3.7556,
      "step": 313080
    },
    {
      "epoch": 0.6522708333333334,
      "grad_norm": 0.9247437715530396,
      "learning_rate": 8.155907170827863e-05,
      "loss": 3.6607,
      "step": 313090
    },
    {
      "epoch": 0.6522916666666667,
      "grad_norm": 0.7708949446678162,
      "learning_rate": 8.155029932089702e-05,
      "loss": 3.7569,
      "step": 313100
    },
    {
      "epoch": 0.6523125,
      "grad_norm": 1.0176746845245361,
      "learning_rate": 8.154152722919102e-05,
      "loss": 3.7939,
      "step": 313110
    },
    {
      "epoch": 0.6523333333333333,
      "grad_norm": 0.8206382989883423,
      "learning_rate": 8.153275543319854e-05,
      "loss": 3.6994,
      "step": 313120
    },
    {
      "epoch": 0.6523541666666667,
      "grad_norm": 0.8821676969528198,
      "learning_rate": 8.152398393295743e-05,
      "loss": 3.8613,
      "step": 313130
    },
    {
      "epoch": 0.652375,
      "grad_norm": 0.884846031665802,
      "learning_rate": 8.151521272850564e-05,
      "loss": 3.8653,
      "step": 313140
    },
    {
      "epoch": 0.6523958333333333,
      "grad_norm": 0.8307839035987854,
      "learning_rate": 8.150644181988106e-05,
      "loss": 3.6708,
      "step": 313150
    },
    {
      "epoch": 0.6524166666666666,
      "grad_norm": 0.8958810567855835,
      "learning_rate": 8.14976712071214e-05,
      "loss": 3.489,
      "step": 313160
    },
    {
      "epoch": 0.6524375,
      "grad_norm": 0.8291402459144592,
      "learning_rate": 8.148890089026479e-05,
      "loss": 3.8273,
      "step": 313170
    },
    {
      "epoch": 0.6524583333333334,
      "grad_norm": 0.8059809803962708,
      "learning_rate": 8.148013086934903e-05,
      "loss": 3.8327,
      "step": 313180
    },
    {
      "epoch": 0.6524791666666667,
      "grad_norm": 0.8229787349700928,
      "learning_rate": 8.14713611444119e-05,
      "loss": 3.7115,
      "step": 313190
    },
    {
      "epoch": 0.6525,
      "grad_norm": 0.9903087019920349,
      "learning_rate": 8.14625917154914e-05,
      "loss": 3.8973,
      "step": 313200
    },
    {
      "epoch": 0.6525208333333333,
      "grad_norm": 0.9705151915550232,
      "learning_rate": 8.145382258262544e-05,
      "loss": 3.7128,
      "step": 313210
    },
    {
      "epoch": 0.6525416666666667,
      "grad_norm": 0.8237307071685791,
      "learning_rate": 8.144505374585171e-05,
      "loss": 3.916,
      "step": 313220
    },
    {
      "epoch": 0.6525625,
      "grad_norm": 0.9731273651123047,
      "learning_rate": 8.143628520520827e-05,
      "loss": 3.7429,
      "step": 313230
    },
    {
      "epoch": 0.6525833333333333,
      "grad_norm": 0.9132096767425537,
      "learning_rate": 8.1427516960733e-05,
      "loss": 3.7157,
      "step": 313240
    },
    {
      "epoch": 0.6526041666666667,
      "grad_norm": 1.0306475162506104,
      "learning_rate": 8.141874901246361e-05,
      "loss": 3.8201,
      "step": 313250
    },
    {
      "epoch": 0.652625,
      "grad_norm": 0.9964724779129028,
      "learning_rate": 8.140998136043812e-05,
      "loss": 3.8266,
      "step": 313260
    },
    {
      "epoch": 0.6526458333333334,
      "grad_norm": 0.8358855247497559,
      "learning_rate": 8.140121400469442e-05,
      "loss": 3.9786,
      "step": 313270
    },
    {
      "epoch": 0.6526666666666666,
      "grad_norm": 1.157707691192627,
      "learning_rate": 8.139244694527026e-05,
      "loss": 3.7735,
      "step": 313280
    },
    {
      "epoch": 0.6526875,
      "grad_norm": 0.8718464374542236,
      "learning_rate": 8.13836801822036e-05,
      "loss": 3.7928,
      "step": 313290
    },
    {
      "epoch": 0.6527083333333333,
      "grad_norm": 0.8387324810028076,
      "learning_rate": 8.137491371553226e-05,
      "loss": 3.8308,
      "step": 313300
    },
    {
      "epoch": 0.6527291666666667,
      "grad_norm": 0.8521003127098083,
      "learning_rate": 8.136614754529413e-05,
      "loss": 3.6796,
      "step": 313310
    },
    {
      "epoch": 0.65275,
      "grad_norm": 0.7898642420768738,
      "learning_rate": 8.135738167152707e-05,
      "loss": 3.8094,
      "step": 313320
    },
    {
      "epoch": 0.6527708333333333,
      "grad_norm": 0.82984459400177,
      "learning_rate": 8.134861609426895e-05,
      "loss": 3.7782,
      "step": 313330
    },
    {
      "epoch": 0.6527916666666667,
      "grad_norm": 0.7859256267547607,
      "learning_rate": 8.133985081355766e-05,
      "loss": 3.6333,
      "step": 313340
    },
    {
      "epoch": 0.6528125,
      "grad_norm": 1.1314252614974976,
      "learning_rate": 8.1331085829431e-05,
      "loss": 3.8723,
      "step": 313350
    },
    {
      "epoch": 0.6528333333333334,
      "grad_norm": 0.9755737781524658,
      "learning_rate": 8.13223211419269e-05,
      "loss": 3.925,
      "step": 313360
    },
    {
      "epoch": 0.6528541666666666,
      "grad_norm": 0.8596606254577637,
      "learning_rate": 8.131355675108317e-05,
      "loss": 3.7228,
      "step": 313370
    },
    {
      "epoch": 0.652875,
      "grad_norm": 1.0127464532852173,
      "learning_rate": 8.130479265693769e-05,
      "loss": 3.6842,
      "step": 313380
    },
    {
      "epoch": 0.6528958333333333,
      "grad_norm": 0.8818113803863525,
      "learning_rate": 8.129602885952831e-05,
      "loss": 3.7325,
      "step": 313390
    },
    {
      "epoch": 0.6529166666666667,
      "grad_norm": 0.9917568564414978,
      "learning_rate": 8.128726535889291e-05,
      "loss": 3.8374,
      "step": 313400
    },
    {
      "epoch": 0.6529375,
      "grad_norm": 0.8216703534126282,
      "learning_rate": 8.127850215506932e-05,
      "loss": 3.9614,
      "step": 313410
    },
    {
      "epoch": 0.6529583333333333,
      "grad_norm": 0.813045859336853,
      "learning_rate": 8.126973924809537e-05,
      "loss": 3.7005,
      "step": 313420
    },
    {
      "epoch": 0.6529791666666667,
      "grad_norm": 1.034804105758667,
      "learning_rate": 8.126097663800897e-05,
      "loss": 3.6502,
      "step": 313430
    },
    {
      "epoch": 0.653,
      "grad_norm": 0.9960312843322754,
      "learning_rate": 8.125221432484792e-05,
      "loss": 3.7198,
      "step": 313440
    },
    {
      "epoch": 0.6530208333333334,
      "grad_norm": 0.8409361839294434,
      "learning_rate": 8.124345230865012e-05,
      "loss": 3.887,
      "step": 313450
    },
    {
      "epoch": 0.6530416666666666,
      "grad_norm": 0.8369407057762146,
      "learning_rate": 8.123469058945337e-05,
      "loss": 3.6865,
      "step": 313460
    },
    {
      "epoch": 0.6530625,
      "grad_norm": 0.8393494486808777,
      "learning_rate": 8.122592916729555e-05,
      "loss": 3.7566,
      "step": 313470
    },
    {
      "epoch": 0.6530833333333333,
      "grad_norm": 0.8306788206100464,
      "learning_rate": 8.121716804221448e-05,
      "loss": 3.8442,
      "step": 313480
    },
    {
      "epoch": 0.6531041666666667,
      "grad_norm": 0.737714946269989,
      "learning_rate": 8.120840721424801e-05,
      "loss": 3.7907,
      "step": 313490
    },
    {
      "epoch": 0.653125,
      "grad_norm": 0.7904991507530212,
      "learning_rate": 8.119964668343402e-05,
      "loss": 3.8186,
      "step": 313500
    },
    {
      "epoch": 0.6531458333333333,
      "grad_norm": 0.9390755295753479,
      "learning_rate": 8.11908864498103e-05,
      "loss": 3.7132,
      "step": 313510
    },
    {
      "epoch": 0.6531666666666667,
      "grad_norm": 1.1912699937820435,
      "learning_rate": 8.118212651341473e-05,
      "loss": 3.8571,
      "step": 313520
    },
    {
      "epoch": 0.6531875,
      "grad_norm": 0.9530062675476074,
      "learning_rate": 8.117336687428512e-05,
      "loss": 3.7366,
      "step": 313530
    },
    {
      "epoch": 0.6532083333333333,
      "grad_norm": 0.8405661582946777,
      "learning_rate": 8.116460753245934e-05,
      "loss": 3.8903,
      "step": 313540
    },
    {
      "epoch": 0.6532291666666666,
      "grad_norm": 0.8582208156585693,
      "learning_rate": 8.115584848797527e-05,
      "loss": 3.6916,
      "step": 313550
    },
    {
      "epoch": 0.65325,
      "grad_norm": 0.8559679388999939,
      "learning_rate": 8.114708974087059e-05,
      "loss": 3.7523,
      "step": 313560
    },
    {
      "epoch": 0.6532708333333334,
      "grad_norm": 0.8656730055809021,
      "learning_rate": 8.113833129118319e-05,
      "loss": 3.6802,
      "step": 313570
    },
    {
      "epoch": 0.6532916666666667,
      "grad_norm": 0.8385483026504517,
      "learning_rate": 8.112957313895106e-05,
      "loss": 3.5632,
      "step": 313580
    },
    {
      "epoch": 0.6533125,
      "grad_norm": 0.8543899655342102,
      "learning_rate": 8.112081528421185e-05,
      "loss": 3.9641,
      "step": 313590
    },
    {
      "epoch": 0.6533333333333333,
      "grad_norm": 0.9769025444984436,
      "learning_rate": 8.111205772700341e-05,
      "loss": 3.6427,
      "step": 313600
    },
    {
      "epoch": 0.6533541666666667,
      "grad_norm": 0.8933286666870117,
      "learning_rate": 8.110330046736372e-05,
      "loss": 3.8233,
      "step": 313610
    },
    {
      "epoch": 0.653375,
      "grad_norm": 0.8074623942375183,
      "learning_rate": 8.109454350533043e-05,
      "loss": 3.801,
      "step": 313620
    },
    {
      "epoch": 0.6533958333333333,
      "grad_norm": 0.8200616240501404,
      "learning_rate": 8.108578684094139e-05,
      "loss": 3.6554,
      "step": 313630
    },
    {
      "epoch": 0.6534166666666666,
      "grad_norm": 1.0467290878295898,
      "learning_rate": 8.107703047423458e-05,
      "loss": 3.6045,
      "step": 313640
    },
    {
      "epoch": 0.6534375,
      "grad_norm": 0.8861689567565918,
      "learning_rate": 8.106827440524767e-05,
      "loss": 3.5525,
      "step": 313650
    },
    {
      "epoch": 0.6534583333333334,
      "grad_norm": 1.0412176847457886,
      "learning_rate": 8.105951863401856e-05,
      "loss": 3.6877,
      "step": 313660
    },
    {
      "epoch": 0.6534791666666667,
      "grad_norm": 0.9045882821083069,
      "learning_rate": 8.105076316058498e-05,
      "loss": 3.6864,
      "step": 313670
    },
    {
      "epoch": 0.6535,
      "grad_norm": 0.9722074866294861,
      "learning_rate": 8.104200798498485e-05,
      "loss": 3.7164,
      "step": 313680
    },
    {
      "epoch": 0.6535208333333333,
      "grad_norm": 0.851882815361023,
      "learning_rate": 8.103325310725593e-05,
      "loss": 3.7841,
      "step": 313690
    },
    {
      "epoch": 0.6535416666666667,
      "grad_norm": 0.7766113877296448,
      "learning_rate": 8.102449852743608e-05,
      "loss": 3.8997,
      "step": 313700
    },
    {
      "epoch": 0.6535625,
      "grad_norm": 0.8116902709007263,
      "learning_rate": 8.101574424556307e-05,
      "loss": 3.6363,
      "step": 313710
    },
    {
      "epoch": 0.6535833333333333,
      "grad_norm": 0.9165195822715759,
      "learning_rate": 8.100699026167476e-05,
      "loss": 3.7306,
      "step": 313720
    },
    {
      "epoch": 0.6536041666666667,
      "grad_norm": 0.7968547940254211,
      "learning_rate": 8.099823657580892e-05,
      "loss": 3.7515,
      "step": 313730
    },
    {
      "epoch": 0.653625,
      "grad_norm": 0.8756541609764099,
      "learning_rate": 8.09894831880034e-05,
      "loss": 3.9634,
      "step": 313740
    },
    {
      "epoch": 0.6536458333333334,
      "grad_norm": 0.9667393565177917,
      "learning_rate": 8.098073009829599e-05,
      "loss": 3.7786,
      "step": 313750
    },
    {
      "epoch": 0.6536666666666666,
      "grad_norm": 0.8292261362075806,
      "learning_rate": 8.097197730672453e-05,
      "loss": 3.7177,
      "step": 313760
    },
    {
      "epoch": 0.6536875,
      "grad_norm": 0.872982382774353,
      "learning_rate": 8.096322481332677e-05,
      "loss": 3.8611,
      "step": 313770
    },
    {
      "epoch": 0.6537083333333333,
      "grad_norm": 0.8618175387382507,
      "learning_rate": 8.095447261814057e-05,
      "loss": 3.67,
      "step": 313780
    },
    {
      "epoch": 0.6537291666666667,
      "grad_norm": 0.9721131920814514,
      "learning_rate": 8.094572072120372e-05,
      "loss": 3.7716,
      "step": 313790
    },
    {
      "epoch": 0.65375,
      "grad_norm": 0.8979289531707764,
      "learning_rate": 8.093696912255402e-05,
      "loss": 3.7971,
      "step": 313800
    },
    {
      "epoch": 0.6537708333333333,
      "grad_norm": 0.9043292999267578,
      "learning_rate": 8.092821782222928e-05,
      "loss": 3.796,
      "step": 313810
    },
    {
      "epoch": 0.6537916666666667,
      "grad_norm": 0.9147135019302368,
      "learning_rate": 8.091946682026727e-05,
      "loss": 3.7702,
      "step": 313820
    },
    {
      "epoch": 0.6538125,
      "grad_norm": 0.9582705497741699,
      "learning_rate": 8.091071611670586e-05,
      "loss": 3.6901,
      "step": 313830
    },
    {
      "epoch": 0.6538333333333334,
      "grad_norm": 0.962807297706604,
      "learning_rate": 8.090196571158278e-05,
      "loss": 3.7866,
      "step": 313840
    },
    {
      "epoch": 0.6538541666666666,
      "grad_norm": 0.920691967010498,
      "learning_rate": 8.089321560493587e-05,
      "loss": 3.7504,
      "step": 313850
    },
    {
      "epoch": 0.653875,
      "grad_norm": 0.9905972480773926,
      "learning_rate": 8.088446579680294e-05,
      "loss": 3.8389,
      "step": 313860
    },
    {
      "epoch": 0.6538958333333333,
      "grad_norm": 0.9129781723022461,
      "learning_rate": 8.087571628722178e-05,
      "loss": 3.5499,
      "step": 313870
    },
    {
      "epoch": 0.6539166666666667,
      "grad_norm": 0.9091063737869263,
      "learning_rate": 8.086696707623004e-05,
      "loss": 3.7537,
      "step": 313880
    },
    {
      "epoch": 0.6539375,
      "grad_norm": 0.8785513043403625,
      "learning_rate": 8.085821816386573e-05,
      "loss": 3.8835,
      "step": 313890
    },
    {
      "epoch": 0.6539583333333333,
      "grad_norm": 0.8228380680084229,
      "learning_rate": 8.08494695501666e-05,
      "loss": 3.791,
      "step": 313900
    },
    {
      "epoch": 0.6539791666666667,
      "grad_norm": 0.8000975251197815,
      "learning_rate": 8.084072123517027e-05,
      "loss": 3.8132,
      "step": 313910
    },
    {
      "epoch": 0.654,
      "grad_norm": 1.12235689163208,
      "learning_rate": 8.083197321891474e-05,
      "loss": 3.7553,
      "step": 313920
    },
    {
      "epoch": 0.6540208333333334,
      "grad_norm": 0.849724292755127,
      "learning_rate": 8.082322550143768e-05,
      "loss": 3.7487,
      "step": 313930
    },
    {
      "epoch": 0.6540416666666666,
      "grad_norm": 0.8574162721633911,
      "learning_rate": 8.081447808277685e-05,
      "loss": 3.7552,
      "step": 313940
    },
    {
      "epoch": 0.6540625,
      "grad_norm": 0.9323210716247559,
      "learning_rate": 8.080573096297018e-05,
      "loss": 3.7543,
      "step": 313950
    },
    {
      "epoch": 0.6540833333333333,
      "grad_norm": 0.8301578164100647,
      "learning_rate": 8.079698414205531e-05,
      "loss": 3.7643,
      "step": 313960
    },
    {
      "epoch": 0.6541041666666667,
      "grad_norm": 0.7973042726516724,
      "learning_rate": 8.078823762007002e-05,
      "loss": 3.8518,
      "step": 313970
    },
    {
      "epoch": 0.654125,
      "grad_norm": 0.8512850403785706,
      "learning_rate": 8.077949139705226e-05,
      "loss": 3.7566,
      "step": 313980
    },
    {
      "epoch": 0.6541458333333333,
      "grad_norm": 0.8213449716567993,
      "learning_rate": 8.077074547303965e-05,
      "loss": 3.9562,
      "step": 313990
    },
    {
      "epoch": 0.6541666666666667,
      "grad_norm": 0.901889443397522,
      "learning_rate": 8.076199984806997e-05,
      "loss": 3.6754,
      "step": 314000
    },
    {
      "epoch": 0.6541666666666667,
      "eval_loss": 4.077964782714844,
      "eval_runtime": 9.4265,
      "eval_samples_per_second": 1.061,
      "eval_steps_per_second": 0.318,
      "step": 314000
    },
    {
      "epoch": 0.6541875,
      "grad_norm": 0.8116830587387085,
      "learning_rate": 8.075325452218114e-05,
      "loss": 3.7899,
      "step": 314010
    },
    {
      "epoch": 0.6542083333333333,
      "grad_norm": 0.9336591362953186,
      "learning_rate": 8.07445094954108e-05,
      "loss": 3.8879,
      "step": 314020
    },
    {
      "epoch": 0.6542291666666666,
      "grad_norm": 0.7986083030700684,
      "learning_rate": 8.073576476779669e-05,
      "loss": 3.8377,
      "step": 314030
    },
    {
      "epoch": 0.65425,
      "grad_norm": 0.8777760863304138,
      "learning_rate": 8.072702033937679e-05,
      "loss": 3.7808,
      "step": 314040
    },
    {
      "epoch": 0.6542708333333334,
      "grad_norm": 0.8840257525444031,
      "learning_rate": 8.071827621018867e-05,
      "loss": 3.7422,
      "step": 314050
    },
    {
      "epoch": 0.6542916666666667,
      "grad_norm": 0.8843140006065369,
      "learning_rate": 8.070953238027019e-05,
      "loss": 3.8512,
      "step": 314060
    },
    {
      "epoch": 0.6543125,
      "grad_norm": 0.7899327278137207,
      "learning_rate": 8.07007888496591e-05,
      "loss": 3.6275,
      "step": 314070
    },
    {
      "epoch": 0.6543333333333333,
      "grad_norm": 0.8328239321708679,
      "learning_rate": 8.069204561839316e-05,
      "loss": 3.8229,
      "step": 314080
    },
    {
      "epoch": 0.6543541666666667,
      "grad_norm": 1.011589527130127,
      "learning_rate": 8.068330268651015e-05,
      "loss": 3.6471,
      "step": 314090
    },
    {
      "epoch": 0.654375,
      "grad_norm": 0.8551366329193115,
      "learning_rate": 8.067456005404784e-05,
      "loss": 3.9414,
      "step": 314100
    },
    {
      "epoch": 0.6543958333333333,
      "grad_norm": 1.0187995433807373,
      "learning_rate": 8.066581772104398e-05,
      "loss": 3.6916,
      "step": 314110
    },
    {
      "epoch": 0.6544166666666666,
      "grad_norm": 0.8946079015731812,
      "learning_rate": 8.065707568753635e-05,
      "loss": 3.8525,
      "step": 314120
    },
    {
      "epoch": 0.6544375,
      "grad_norm": 0.9098942875862122,
      "learning_rate": 8.064833395356271e-05,
      "loss": 3.8258,
      "step": 314130
    },
    {
      "epoch": 0.6544583333333334,
      "grad_norm": 0.9314014315605164,
      "learning_rate": 8.063959251916082e-05,
      "loss": 3.8149,
      "step": 314140
    },
    {
      "epoch": 0.6544791666666666,
      "grad_norm": 1.2241188287734985,
      "learning_rate": 8.063085138436847e-05,
      "loss": 3.7742,
      "step": 314150
    },
    {
      "epoch": 0.6545,
      "grad_norm": 0.9445164203643799,
      "learning_rate": 8.06221105492233e-05,
      "loss": 3.5253,
      "step": 314160
    },
    {
      "epoch": 0.6545208333333333,
      "grad_norm": 0.7925122976303101,
      "learning_rate": 8.06133700137632e-05,
      "loss": 3.7706,
      "step": 314170
    },
    {
      "epoch": 0.6545416666666667,
      "grad_norm": 0.9732252359390259,
      "learning_rate": 8.060462977802593e-05,
      "loss": 3.6402,
      "step": 314180
    },
    {
      "epoch": 0.6545625,
      "grad_norm": 0.8683890700340271,
      "learning_rate": 8.059588984204905e-05,
      "loss": 3.751,
      "step": 314190
    },
    {
      "epoch": 0.6545833333333333,
      "grad_norm": 0.8055398464202881,
      "learning_rate": 8.058715020587053e-05,
      "loss": 3.6466,
      "step": 314200
    },
    {
      "epoch": 0.6546041666666667,
      "grad_norm": 0.817152738571167,
      "learning_rate": 8.057841086952814e-05,
      "loss": 3.8258,
      "step": 314210
    },
    {
      "epoch": 0.654625,
      "grad_norm": 1.030413031578064,
      "learning_rate": 8.056967183305935e-05,
      "loss": 3.8377,
      "step": 314220
    },
    {
      "epoch": 0.6546458333333334,
      "grad_norm": 0.9266471266746521,
      "learning_rate": 8.05609330965022e-05,
      "loss": 3.7901,
      "step": 314230
    },
    {
      "epoch": 0.6546666666666666,
      "grad_norm": 0.8300533294677734,
      "learning_rate": 8.05521946598944e-05,
      "loss": 3.7399,
      "step": 314240
    },
    {
      "epoch": 0.6546875,
      "grad_norm": 0.7838889360427856,
      "learning_rate": 8.054345652327348e-05,
      "loss": 3.8993,
      "step": 314250
    },
    {
      "epoch": 0.6547083333333333,
      "grad_norm": 0.834728479385376,
      "learning_rate": 8.053471868667742e-05,
      "loss": 3.7513,
      "step": 314260
    },
    {
      "epoch": 0.6547291666666667,
      "grad_norm": 0.7983994483947754,
      "learning_rate": 8.052598115014391e-05,
      "loss": 3.58,
      "step": 314270
    },
    {
      "epoch": 0.65475,
      "grad_norm": 0.8104564547538757,
      "learning_rate": 8.051724391371056e-05,
      "loss": 3.6037,
      "step": 314280
    },
    {
      "epoch": 0.6547708333333333,
      "grad_norm": 0.9047931432723999,
      "learning_rate": 8.050850697741535e-05,
      "loss": 3.7924,
      "step": 314290
    },
    {
      "epoch": 0.6547916666666667,
      "grad_norm": 0.8547723889350891,
      "learning_rate": 8.04997703412958e-05,
      "loss": 3.629,
      "step": 314300
    },
    {
      "epoch": 0.6548125,
      "grad_norm": 0.9502518773078918,
      "learning_rate": 8.049103400538968e-05,
      "loss": 3.58,
      "step": 314310
    },
    {
      "epoch": 0.6548333333333334,
      "grad_norm": 0.8279521465301514,
      "learning_rate": 8.048229796973488e-05,
      "loss": 3.7103,
      "step": 314320
    },
    {
      "epoch": 0.6548541666666666,
      "grad_norm": 0.886766254901886,
      "learning_rate": 8.0473562234369e-05,
      "loss": 3.7968,
      "step": 314330
    },
    {
      "epoch": 0.654875,
      "grad_norm": 0.9633017778396606,
      "learning_rate": 8.046482679932975e-05,
      "loss": 3.6659,
      "step": 314340
    },
    {
      "epoch": 0.6548958333333333,
      "grad_norm": 0.8213423490524292,
      "learning_rate": 8.045609166465504e-05,
      "loss": 3.6601,
      "step": 314350
    },
    {
      "epoch": 0.6549166666666667,
      "grad_norm": 0.8955644965171814,
      "learning_rate": 8.044735683038242e-05,
      "loss": 3.8564,
      "step": 314360
    },
    {
      "epoch": 0.6549375,
      "grad_norm": 0.8387657999992371,
      "learning_rate": 8.043862229654964e-05,
      "loss": 3.6529,
      "step": 314370
    },
    {
      "epoch": 0.6549583333333333,
      "grad_norm": 0.9427018165588379,
      "learning_rate": 8.042988806319458e-05,
      "loss": 3.6288,
      "step": 314380
    },
    {
      "epoch": 0.6549791666666667,
      "grad_norm": 0.8381193280220032,
      "learning_rate": 8.042115413035481e-05,
      "loss": 3.9318,
      "step": 314390
    },
    {
      "epoch": 0.655,
      "grad_norm": 0.7617259621620178,
      "learning_rate": 8.041242049806808e-05,
      "loss": 3.7363,
      "step": 314400
    },
    {
      "epoch": 0.6550208333333334,
      "grad_norm": 0.8874143958091736,
      "learning_rate": 8.040368716637223e-05,
      "loss": 3.8746,
      "step": 314410
    },
    {
      "epoch": 0.6550416666666666,
      "grad_norm": 0.8422545194625854,
      "learning_rate": 8.039495413530485e-05,
      "loss": 3.8362,
      "step": 314420
    },
    {
      "epoch": 0.6550625,
      "grad_norm": 0.8286458849906921,
      "learning_rate": 8.038622140490376e-05,
      "loss": 3.8314,
      "step": 314430
    },
    {
      "epoch": 0.6550833333333334,
      "grad_norm": 0.8281312584877014,
      "learning_rate": 8.037748897520659e-05,
      "loss": 3.6957,
      "step": 314440
    },
    {
      "epoch": 0.6551041666666667,
      "grad_norm": 0.7884664535522461,
      "learning_rate": 8.036875684625113e-05,
      "loss": 3.8641,
      "step": 314450
    },
    {
      "epoch": 0.655125,
      "grad_norm": 0.8515207767486572,
      "learning_rate": 8.036002501807506e-05,
      "loss": 3.879,
      "step": 314460
    },
    {
      "epoch": 0.6551458333333333,
      "grad_norm": 0.8569399118423462,
      "learning_rate": 8.035129349071614e-05,
      "loss": 3.6891,
      "step": 314470
    },
    {
      "epoch": 0.6551666666666667,
      "grad_norm": 0.9577158689498901,
      "learning_rate": 8.034256226421203e-05,
      "loss": 3.8116,
      "step": 314480
    },
    {
      "epoch": 0.6551875,
      "grad_norm": 1.0762152671813965,
      "learning_rate": 8.033383133860052e-05,
      "loss": 3.7516,
      "step": 314490
    },
    {
      "epoch": 0.6552083333333333,
      "grad_norm": 0.838834822177887,
      "learning_rate": 8.032510071391926e-05,
      "loss": 3.7595,
      "step": 314500
    },
    {
      "epoch": 0.6552291666666666,
      "grad_norm": 0.8972713947296143,
      "learning_rate": 8.031637039020598e-05,
      "loss": 3.9881,
      "step": 314510
    },
    {
      "epoch": 0.65525,
      "grad_norm": 1.0790050029754639,
      "learning_rate": 8.030764036749841e-05,
      "loss": 3.8553,
      "step": 314520
    },
    {
      "epoch": 0.6552708333333334,
      "grad_norm": 0.9700765609741211,
      "learning_rate": 8.029891064583425e-05,
      "loss": 3.7509,
      "step": 314530
    },
    {
      "epoch": 0.6552916666666667,
      "grad_norm": 0.8167880773544312,
      "learning_rate": 8.029018122525121e-05,
      "loss": 3.8831,
      "step": 314540
    },
    {
      "epoch": 0.6553125,
      "grad_norm": 0.8109075427055359,
      "learning_rate": 8.028145210578704e-05,
      "loss": 3.6937,
      "step": 314550
    },
    {
      "epoch": 0.6553333333333333,
      "grad_norm": 0.8655816912651062,
      "learning_rate": 8.027272328747929e-05,
      "loss": 3.8576,
      "step": 314560
    },
    {
      "epoch": 0.6553541666666667,
      "grad_norm": 0.8792101144790649,
      "learning_rate": 8.026399477036583e-05,
      "loss": 3.6565,
      "step": 314570
    },
    {
      "epoch": 0.655375,
      "grad_norm": 0.8998767733573914,
      "learning_rate": 8.025526655448436e-05,
      "loss": 3.7576,
      "step": 314580
    },
    {
      "epoch": 0.6553958333333333,
      "grad_norm": 0.8941144347190857,
      "learning_rate": 8.024653863987243e-05,
      "loss": 3.6546,
      "step": 314590
    },
    {
      "epoch": 0.6554166666666666,
      "grad_norm": 0.9684877395629883,
      "learning_rate": 8.02378110265679e-05,
      "loss": 3.8623,
      "step": 314600
    },
    {
      "epoch": 0.6554375,
      "grad_norm": 0.7251841425895691,
      "learning_rate": 8.022908371460845e-05,
      "loss": 3.7356,
      "step": 314610
    },
    {
      "epoch": 0.6554583333333334,
      "grad_norm": 0.7927982211112976,
      "learning_rate": 8.022035670403164e-05,
      "loss": 3.5878,
      "step": 314620
    },
    {
      "epoch": 0.6554791666666666,
      "grad_norm": 0.8498255610466003,
      "learning_rate": 8.021162999487533e-05,
      "loss": 3.8044,
      "step": 314630
    },
    {
      "epoch": 0.6555,
      "grad_norm": 0.9557029008865356,
      "learning_rate": 8.020290358717721e-05,
      "loss": 3.7296,
      "step": 314640
    },
    {
      "epoch": 0.6555208333333333,
      "grad_norm": 0.8980348706245422,
      "learning_rate": 8.01941774809748e-05,
      "loss": 3.6942,
      "step": 314650
    },
    {
      "epoch": 0.6555416666666667,
      "grad_norm": 0.9665383696556091,
      "learning_rate": 8.018545167630605e-05,
      "loss": 3.8251,
      "step": 314660
    },
    {
      "epoch": 0.6555625,
      "grad_norm": 0.9375154376029968,
      "learning_rate": 8.017672617320842e-05,
      "loss": 3.8039,
      "step": 314670
    },
    {
      "epoch": 0.6555833333333333,
      "grad_norm": 1.0262248516082764,
      "learning_rate": 8.016800097171965e-05,
      "loss": 3.6636,
      "step": 314680
    },
    {
      "epoch": 0.6556041666666667,
      "grad_norm": 0.8733782172203064,
      "learning_rate": 8.015927607187761e-05,
      "loss": 3.7178,
      "step": 314690
    },
    {
      "epoch": 0.655625,
      "grad_norm": 0.8883002996444702,
      "learning_rate": 8.015055147371977e-05,
      "loss": 3.6723,
      "step": 314700
    },
    {
      "epoch": 0.6556458333333334,
      "grad_norm": 0.8197438716888428,
      "learning_rate": 8.014182717728384e-05,
      "loss": 3.7802,
      "step": 314710
    },
    {
      "epoch": 0.6556666666666666,
      "grad_norm": 0.7598360180854797,
      "learning_rate": 8.013310318260771e-05,
      "loss": 3.7348,
      "step": 314720
    },
    {
      "epoch": 0.6556875,
      "grad_norm": 0.8742824196815491,
      "learning_rate": 8.012437948972883e-05,
      "loss": 3.6469,
      "step": 314730
    },
    {
      "epoch": 0.6557083333333333,
      "grad_norm": 0.8357087969779968,
      "learning_rate": 8.011565609868497e-05,
      "loss": 3.8265,
      "step": 314740
    },
    {
      "epoch": 0.6557291666666667,
      "grad_norm": 0.8353067636489868,
      "learning_rate": 8.010693300951384e-05,
      "loss": 3.8161,
      "step": 314750
    },
    {
      "epoch": 0.65575,
      "grad_norm": 0.8118428587913513,
      "learning_rate": 8.009821022225308e-05,
      "loss": 3.6971,
      "step": 314760
    },
    {
      "epoch": 0.6557708333333333,
      "grad_norm": 0.8342434763908386,
      "learning_rate": 8.008948773694038e-05,
      "loss": 3.7206,
      "step": 314770
    },
    {
      "epoch": 0.6557916666666667,
      "grad_norm": 0.8071218132972717,
      "learning_rate": 8.008076555361344e-05,
      "loss": 3.8615,
      "step": 314780
    },
    {
      "epoch": 0.6558125,
      "grad_norm": 0.7836880683898926,
      "learning_rate": 8.007204367230988e-05,
      "loss": 3.7616,
      "step": 314790
    },
    {
      "epoch": 0.6558333333333334,
      "grad_norm": 0.908640444278717,
      "learning_rate": 8.006332209306744e-05,
      "loss": 3.6365,
      "step": 314800
    },
    {
      "epoch": 0.6558541666666666,
      "grad_norm": 1.4375823736190796,
      "learning_rate": 8.005460081592374e-05,
      "loss": 3.9105,
      "step": 314810
    },
    {
      "epoch": 0.655875,
      "grad_norm": 0.8745682239532471,
      "learning_rate": 8.004587984091651e-05,
      "loss": 3.8115,
      "step": 314820
    },
    {
      "epoch": 0.6558958333333333,
      "grad_norm": 0.8020105957984924,
      "learning_rate": 8.003715916808337e-05,
      "loss": 3.8911,
      "step": 314830
    },
    {
      "epoch": 0.6559166666666667,
      "grad_norm": 1.002525806427002,
      "learning_rate": 8.002843879746203e-05,
      "loss": 3.7299,
      "step": 314840
    },
    {
      "epoch": 0.6559375,
      "grad_norm": 1.0068559646606445,
      "learning_rate": 8.001971872909011e-05,
      "loss": 3.833,
      "step": 314850
    },
    {
      "epoch": 0.6559583333333333,
      "grad_norm": 0.7992638945579529,
      "learning_rate": 8.001099896300532e-05,
      "loss": 3.535,
      "step": 314860
    },
    {
      "epoch": 0.6559791666666667,
      "grad_norm": 0.8223649263381958,
      "learning_rate": 8.00022794992453e-05,
      "loss": 3.7454,
      "step": 314870
    },
    {
      "epoch": 0.656,
      "grad_norm": 0.9383455514907837,
      "learning_rate": 7.999356033784775e-05,
      "loss": 3.5926,
      "step": 314880
    },
    {
      "epoch": 0.6560208333333334,
      "grad_norm": 0.9821852445602417,
      "learning_rate": 7.998484147885029e-05,
      "loss": 3.804,
      "step": 314890
    },
    {
      "epoch": 0.6560416666666666,
      "grad_norm": 0.9222972989082336,
      "learning_rate": 7.99761229222906e-05,
      "loss": 3.7282,
      "step": 314900
    },
    {
      "epoch": 0.6560625,
      "grad_norm": 0.9252481460571289,
      "learning_rate": 7.996740466820634e-05,
      "loss": 3.7433,
      "step": 314910
    },
    {
      "epoch": 0.6560833333333334,
      "grad_norm": 0.9741383194923401,
      "learning_rate": 7.995868671663524e-05,
      "loss": 3.8398,
      "step": 314920
    },
    {
      "epoch": 0.6561041666666667,
      "grad_norm": 0.790634274482727,
      "learning_rate": 7.994996906761476e-05,
      "loss": 3.7675,
      "step": 314930
    },
    {
      "epoch": 0.656125,
      "grad_norm": 0.891265869140625,
      "learning_rate": 7.994125172118276e-05,
      "loss": 3.6658,
      "step": 314940
    },
    {
      "epoch": 0.6561458333333333,
      "grad_norm": 0.8193642497062683,
      "learning_rate": 7.993253467737687e-05,
      "loss": 3.8526,
      "step": 314950
    },
    {
      "epoch": 0.6561666666666667,
      "grad_norm": 0.7971246242523193,
      "learning_rate": 7.992381793623459e-05,
      "loss": 3.6755,
      "step": 314960
    },
    {
      "epoch": 0.6561875,
      "grad_norm": 0.8184801936149597,
      "learning_rate": 7.991510149779373e-05,
      "loss": 3.7908,
      "step": 314970
    },
    {
      "epoch": 0.6562083333333333,
      "grad_norm": 0.8260110020637512,
      "learning_rate": 7.990638536209193e-05,
      "loss": 3.5786,
      "step": 314980
    },
    {
      "epoch": 0.6562291666666666,
      "grad_norm": 0.7772303223609924,
      "learning_rate": 7.989766952916671e-05,
      "loss": 3.6298,
      "step": 314990
    },
    {
      "epoch": 0.65625,
      "grad_norm": 0.7807050943374634,
      "learning_rate": 7.988895399905584e-05,
      "loss": 3.6139,
      "step": 315000
    },
    {
      "epoch": 0.65625,
      "eval_loss": 4.0764946937561035,
      "eval_runtime": 8.9937,
      "eval_samples_per_second": 1.112,
      "eval_steps_per_second": 0.334,
      "step": 315000
    },
    {
      "epoch": 0.6562708333333334,
      "grad_norm": 0.9103033542633057,
      "learning_rate": 7.988023877179703e-05,
      "loss": 3.7978,
      "step": 315010
    },
    {
      "epoch": 0.6562916666666667,
      "grad_norm": 0.8369127511978149,
      "learning_rate": 7.987152384742768e-05,
      "loss": 3.8274,
      "step": 315020
    },
    {
      "epoch": 0.6563125,
      "grad_norm": 0.7999356389045715,
      "learning_rate": 7.986280922598566e-05,
      "loss": 3.9438,
      "step": 315030
    },
    {
      "epoch": 0.6563333333333333,
      "grad_norm": 0.8642434477806091,
      "learning_rate": 7.985409490750861e-05,
      "loss": 3.7369,
      "step": 315040
    },
    {
      "epoch": 0.6563541666666667,
      "grad_norm": 1.1455507278442383,
      "learning_rate": 7.984538089203404e-05,
      "loss": 3.6314,
      "step": 315050
    },
    {
      "epoch": 0.656375,
      "grad_norm": 0.8463991284370422,
      "learning_rate": 7.983666717959967e-05,
      "loss": 3.5645,
      "step": 315060
    },
    {
      "epoch": 0.6563958333333333,
      "grad_norm": 0.9330776929855347,
      "learning_rate": 7.982795377024309e-05,
      "loss": 3.596,
      "step": 315070
    },
    {
      "epoch": 0.6564166666666666,
      "grad_norm": 0.7941555976867676,
      "learning_rate": 7.981924066400202e-05,
      "loss": 3.5518,
      "step": 315080
    },
    {
      "epoch": 0.6564375,
      "grad_norm": 0.8533398509025574,
      "learning_rate": 7.9810527860914e-05,
      "loss": 3.7833,
      "step": 315090
    },
    {
      "epoch": 0.6564583333333334,
      "grad_norm": 0.9413870573043823,
      "learning_rate": 7.980181536101674e-05,
      "loss": 3.8885,
      "step": 315100
    },
    {
      "epoch": 0.6564791666666666,
      "grad_norm": 0.8604969382286072,
      "learning_rate": 7.979310316434786e-05,
      "loss": 3.7576,
      "step": 315110
    },
    {
      "epoch": 0.6565,
      "grad_norm": 1.3698457479476929,
      "learning_rate": 7.978439127094499e-05,
      "loss": 3.5906,
      "step": 315120
    },
    {
      "epoch": 0.6565208333333333,
      "grad_norm": 0.8182324767112732,
      "learning_rate": 7.977567968084575e-05,
      "loss": 3.5107,
      "step": 315130
    },
    {
      "epoch": 0.6565416666666667,
      "grad_norm": 0.8406923413276672,
      "learning_rate": 7.976696839408776e-05,
      "loss": 3.7969,
      "step": 315140
    },
    {
      "epoch": 0.6565625,
      "grad_norm": 0.807615339756012,
      "learning_rate": 7.975825741070867e-05,
      "loss": 4.0454,
      "step": 315150
    },
    {
      "epoch": 0.6565833333333333,
      "grad_norm": 0.884004533290863,
      "learning_rate": 7.974954673074612e-05,
      "loss": 3.871,
      "step": 315160
    },
    {
      "epoch": 0.6566041666666667,
      "grad_norm": 0.8303747177124023,
      "learning_rate": 7.97408363542377e-05,
      "loss": 3.5856,
      "step": 315170
    },
    {
      "epoch": 0.656625,
      "grad_norm": 0.803716242313385,
      "learning_rate": 7.973212628122108e-05,
      "loss": 3.7298,
      "step": 315180
    },
    {
      "epoch": 0.6566458333333334,
      "grad_norm": 0.9826546311378479,
      "learning_rate": 7.972341651173386e-05,
      "loss": 3.8179,
      "step": 315190
    },
    {
      "epoch": 0.6566666666666666,
      "grad_norm": 0.8099386692047119,
      "learning_rate": 7.971470704581365e-05,
      "loss": 3.8453,
      "step": 315200
    },
    {
      "epoch": 0.6566875,
      "grad_norm": 0.9840614795684814,
      "learning_rate": 7.970599788349808e-05,
      "loss": 3.621,
      "step": 315210
    },
    {
      "epoch": 0.6567083333333333,
      "grad_norm": 0.8921841979026794,
      "learning_rate": 7.969728902482479e-05,
      "loss": 3.9535,
      "step": 315220
    },
    {
      "epoch": 0.6567291666666667,
      "grad_norm": 0.8374696373939514,
      "learning_rate": 7.968858046983137e-05,
      "loss": 3.7012,
      "step": 315230
    },
    {
      "epoch": 0.65675,
      "grad_norm": 0.7821044325828552,
      "learning_rate": 7.967987221855545e-05,
      "loss": 3.673,
      "step": 315240
    },
    {
      "epoch": 0.6567708333333333,
      "grad_norm": 1.021706223487854,
      "learning_rate": 7.967116427103466e-05,
      "loss": 3.7882,
      "step": 315250
    },
    {
      "epoch": 0.6567916666666667,
      "grad_norm": 0.8072243332862854,
      "learning_rate": 7.966245662730662e-05,
      "loss": 3.7655,
      "step": 315260
    },
    {
      "epoch": 0.6568125,
      "grad_norm": 0.8641154170036316,
      "learning_rate": 7.965374928740888e-05,
      "loss": 3.6391,
      "step": 315270
    },
    {
      "epoch": 0.6568333333333334,
      "grad_norm": 0.7922230362892151,
      "learning_rate": 7.964504225137914e-05,
      "loss": 3.8411,
      "step": 315280
    },
    {
      "epoch": 0.6568541666666666,
      "grad_norm": 0.8470328450202942,
      "learning_rate": 7.9636335519255e-05,
      "loss": 3.6814,
      "step": 315290
    },
    {
      "epoch": 0.656875,
      "grad_norm": 0.9585700035095215,
      "learning_rate": 7.962762909107393e-05,
      "loss": 3.6378,
      "step": 315300
    },
    {
      "epoch": 0.6568958333333333,
      "grad_norm": 0.8741040825843811,
      "learning_rate": 7.96189229668737e-05,
      "loss": 3.8789,
      "step": 315310
    },
    {
      "epoch": 0.6569166666666667,
      "grad_norm": 0.8326958417892456,
      "learning_rate": 7.961021714669195e-05,
      "loss": 3.8097,
      "step": 315320
    },
    {
      "epoch": 0.6569375,
      "grad_norm": 0.8349337577819824,
      "learning_rate": 7.96015116305661e-05,
      "loss": 3.6765,
      "step": 315330
    },
    {
      "epoch": 0.6569583333333333,
      "grad_norm": 0.8036102652549744,
      "learning_rate": 7.959280641853382e-05,
      "loss": 3.7476,
      "step": 315340
    },
    {
      "epoch": 0.6569791666666667,
      "grad_norm": 0.8899498581886292,
      "learning_rate": 7.958410151063287e-05,
      "loss": 3.8999,
      "step": 315350
    },
    {
      "epoch": 0.657,
      "grad_norm": 0.9869905710220337,
      "learning_rate": 7.957539690690065e-05,
      "loss": 3.8297,
      "step": 315360
    },
    {
      "epoch": 0.6570208333333334,
      "grad_norm": 0.9606654047966003,
      "learning_rate": 7.95666926073748e-05,
      "loss": 3.7082,
      "step": 315370
    },
    {
      "epoch": 0.6570416666666666,
      "grad_norm": 0.9329051375389099,
      "learning_rate": 7.955798861209307e-05,
      "loss": 3.862,
      "step": 315380
    },
    {
      "epoch": 0.6570625,
      "grad_norm": 0.8306745290756226,
      "learning_rate": 7.954928492109287e-05,
      "loss": 3.7748,
      "step": 315390
    },
    {
      "epoch": 0.6570833333333334,
      "grad_norm": 1.116189956665039,
      "learning_rate": 7.954058153441184e-05,
      "loss": 3.8129,
      "step": 315400
    },
    {
      "epoch": 0.6571041666666667,
      "grad_norm": 0.9378210306167603,
      "learning_rate": 7.95318784520877e-05,
      "loss": 3.755,
      "step": 315410
    },
    {
      "epoch": 0.657125,
      "grad_norm": 0.9791264533996582,
      "learning_rate": 7.952317567415792e-05,
      "loss": 3.67,
      "step": 315420
    },
    {
      "epoch": 0.6571458333333333,
      "grad_norm": 0.8328403830528259,
      "learning_rate": 7.95144732006601e-05,
      "loss": 3.7069,
      "step": 315430
    },
    {
      "epoch": 0.6571666666666667,
      "grad_norm": 0.8609815835952759,
      "learning_rate": 7.950577103163187e-05,
      "loss": 3.6982,
      "step": 315440
    },
    {
      "epoch": 0.6571875,
      "grad_norm": 0.753011167049408,
      "learning_rate": 7.949706916711082e-05,
      "loss": 3.7828,
      "step": 315450
    },
    {
      "epoch": 0.6572083333333333,
      "grad_norm": 0.9277033805847168,
      "learning_rate": 7.948836760713448e-05,
      "loss": 3.7797,
      "step": 315460
    },
    {
      "epoch": 0.6572291666666666,
      "grad_norm": 0.9248092770576477,
      "learning_rate": 7.947966635174051e-05,
      "loss": 3.751,
      "step": 315470
    },
    {
      "epoch": 0.65725,
      "grad_norm": 1.0669770240783691,
      "learning_rate": 7.947096540096647e-05,
      "loss": 3.6738,
      "step": 315480
    },
    {
      "epoch": 0.6572708333333334,
      "grad_norm": 0.9257297515869141,
      "learning_rate": 7.946226475484995e-05,
      "loss": 3.6416,
      "step": 315490
    },
    {
      "epoch": 0.6572916666666667,
      "grad_norm": 0.8662165403366089,
      "learning_rate": 7.945356441342851e-05,
      "loss": 3.9144,
      "step": 315500
    },
    {
      "epoch": 0.6573125,
      "grad_norm": 1.00563645362854,
      "learning_rate": 7.944486437673975e-05,
      "loss": 3.9736,
      "step": 315510
    },
    {
      "epoch": 0.6573333333333333,
      "grad_norm": 0.9636408090591431,
      "learning_rate": 7.943616464482126e-05,
      "loss": 3.7739,
      "step": 315520
    },
    {
      "epoch": 0.6573541666666667,
      "grad_norm": 0.89251309633255,
      "learning_rate": 7.942746521771058e-05,
      "loss": 3.6847,
      "step": 315530
    },
    {
      "epoch": 0.657375,
      "grad_norm": 0.922373354434967,
      "learning_rate": 7.941876609544535e-05,
      "loss": 3.8271,
      "step": 315540
    },
    {
      "epoch": 0.6573958333333333,
      "grad_norm": 0.8186565041542053,
      "learning_rate": 7.94100672780631e-05,
      "loss": 3.7656,
      "step": 315550
    },
    {
      "epoch": 0.6574166666666666,
      "grad_norm": 0.7671469449996948,
      "learning_rate": 7.940136876560141e-05,
      "loss": 3.757,
      "step": 315560
    },
    {
      "epoch": 0.6574375,
      "grad_norm": 0.8614250421524048,
      "learning_rate": 7.939267055809786e-05,
      "loss": 3.9521,
      "step": 315570
    },
    {
      "epoch": 0.6574583333333334,
      "grad_norm": 0.800793468952179,
      "learning_rate": 7.938397265559003e-05,
      "loss": 3.733,
      "step": 315580
    },
    {
      "epoch": 0.6574791666666666,
      "grad_norm": 0.9475583434104919,
      "learning_rate": 7.937527505811548e-05,
      "loss": 3.8243,
      "step": 315590
    },
    {
      "epoch": 0.6575,
      "grad_norm": 0.8575137257575989,
      "learning_rate": 7.936657776571179e-05,
      "loss": 3.7565,
      "step": 315600
    },
    {
      "epoch": 0.6575208333333333,
      "grad_norm": 0.8754053711891174,
      "learning_rate": 7.935788077841653e-05,
      "loss": 3.8025,
      "step": 315610
    },
    {
      "epoch": 0.6575416666666667,
      "grad_norm": 2.6147468090057373,
      "learning_rate": 7.934918409626727e-05,
      "loss": 3.7016,
      "step": 315620
    },
    {
      "epoch": 0.6575625,
      "grad_norm": 0.8626659512519836,
      "learning_rate": 7.934048771930156e-05,
      "loss": 3.7001,
      "step": 315630
    },
    {
      "epoch": 0.6575833333333333,
      "grad_norm": 0.8363236784934998,
      "learning_rate": 7.933179164755703e-05,
      "loss": 3.7074,
      "step": 315640
    },
    {
      "epoch": 0.6576041666666667,
      "grad_norm": 0.8907325267791748,
      "learning_rate": 7.932309588107107e-05,
      "loss": 3.7076,
      "step": 315650
    },
    {
      "epoch": 0.657625,
      "grad_norm": 0.9713354706764221,
      "learning_rate": 7.931440041988148e-05,
      "loss": 3.7956,
      "step": 315660
    },
    {
      "epoch": 0.6576458333333334,
      "grad_norm": 0.9244522452354431,
      "learning_rate": 7.930570526402565e-05,
      "loss": 3.7831,
      "step": 315670
    },
    {
      "epoch": 0.6576666666666666,
      "grad_norm": 0.8958274126052856,
      "learning_rate": 7.929701041354113e-05,
      "loss": 3.8597,
      "step": 315680
    },
    {
      "epoch": 0.6576875,
      "grad_norm": 0.9433706402778625,
      "learning_rate": 7.928831586846564e-05,
      "loss": 3.8754,
      "step": 315690
    },
    {
      "epoch": 0.6577083333333333,
      "grad_norm": 1.120869755744934,
      "learning_rate": 7.927962162883659e-05,
      "loss": 3.7235,
      "step": 315700
    },
    {
      "epoch": 0.6577291666666667,
      "grad_norm": 0.9176668524742126,
      "learning_rate": 7.927092769469152e-05,
      "loss": 3.7261,
      "step": 315710
    },
    {
      "epoch": 0.65775,
      "grad_norm": 0.9010176658630371,
      "learning_rate": 7.926223406606816e-05,
      "loss": 3.7574,
      "step": 315720
    },
    {
      "epoch": 0.6577708333333333,
      "grad_norm": 0.8726673126220703,
      "learning_rate": 7.92535407430039e-05,
      "loss": 3.5301,
      "step": 315730
    },
    {
      "epoch": 0.6577916666666667,
      "grad_norm": 0.8074906468391418,
      "learning_rate": 7.924484772553628e-05,
      "loss": 3.6871,
      "step": 315740
    },
    {
      "epoch": 0.6578125,
      "grad_norm": 0.8416967988014221,
      "learning_rate": 7.923615501370302e-05,
      "loss": 3.7484,
      "step": 315750
    },
    {
      "epoch": 0.6578333333333334,
      "grad_norm": 1.0844473838806152,
      "learning_rate": 7.922746260754151e-05,
      "loss": 3.6214,
      "step": 315760
    },
    {
      "epoch": 0.6578541666666666,
      "grad_norm": 0.9690617322921753,
      "learning_rate": 7.921877050708928e-05,
      "loss": 3.7581,
      "step": 315770
    },
    {
      "epoch": 0.657875,
      "grad_norm": 1.0100921392440796,
      "learning_rate": 7.921007871238407e-05,
      "loss": 3.9972,
      "step": 315780
    },
    {
      "epoch": 0.6578958333333333,
      "grad_norm": 0.8968132734298706,
      "learning_rate": 7.920138722346323e-05,
      "loss": 3.8221,
      "step": 315790
    },
    {
      "epoch": 0.6579166666666667,
      "grad_norm": 0.8906024694442749,
      "learning_rate": 7.91926960403644e-05,
      "loss": 3.5952,
      "step": 315800
    },
    {
      "epoch": 0.6579375,
      "grad_norm": 1.1405507326126099,
      "learning_rate": 7.918400516312505e-05,
      "loss": 3.6035,
      "step": 315810
    },
    {
      "epoch": 0.6579583333333333,
      "grad_norm": 0.9024932980537415,
      "learning_rate": 7.917531459178281e-05,
      "loss": 3.5167,
      "step": 315820
    },
    {
      "epoch": 0.6579791666666667,
      "grad_norm": 0.8909913897514343,
      "learning_rate": 7.916662432637515e-05,
      "loss": 3.5768,
      "step": 315830
    },
    {
      "epoch": 0.658,
      "grad_norm": 0.802078902721405,
      "learning_rate": 7.915793436693966e-05,
      "loss": 3.9017,
      "step": 315840
    },
    {
      "epoch": 0.6580208333333334,
      "grad_norm": 0.76739901304245,
      "learning_rate": 7.914924471351383e-05,
      "loss": 3.7669,
      "step": 315850
    },
    {
      "epoch": 0.6580416666666666,
      "grad_norm": 0.8048709630966187,
      "learning_rate": 7.914055536613522e-05,
      "loss": 3.7185,
      "step": 315860
    },
    {
      "epoch": 0.6580625,
      "grad_norm": 0.856503963470459,
      "learning_rate": 7.913186632484137e-05,
      "loss": 3.7074,
      "step": 315870
    },
    {
      "epoch": 0.6580833333333334,
      "grad_norm": 0.901775598526001,
      "learning_rate": 7.91231775896698e-05,
      "loss": 3.6049,
      "step": 315880
    },
    {
      "epoch": 0.6581041666666667,
      "grad_norm": 0.9299320578575134,
      "learning_rate": 7.911448916065804e-05,
      "loss": 3.7386,
      "step": 315890
    },
    {
      "epoch": 0.658125,
      "grad_norm": 0.8024212121963501,
      "learning_rate": 7.910580103784366e-05,
      "loss": 3.8067,
      "step": 315900
    },
    {
      "epoch": 0.6581458333333333,
      "grad_norm": 0.8322703838348389,
      "learning_rate": 7.909711322126413e-05,
      "loss": 3.683,
      "step": 315910
    },
    {
      "epoch": 0.6581666666666667,
      "grad_norm": 0.9077723622322083,
      "learning_rate": 7.908842571095709e-05,
      "loss": 3.9445,
      "step": 315920
    },
    {
      "epoch": 0.6581875,
      "grad_norm": 1.1187169551849365,
      "learning_rate": 7.907973850695983e-05,
      "loss": 3.6411,
      "step": 315930
    },
    {
      "epoch": 0.6582083333333333,
      "grad_norm": 0.8385081887245178,
      "learning_rate": 7.90710516093101e-05,
      "loss": 3.7704,
      "step": 315940
    },
    {
      "epoch": 0.6582291666666666,
      "grad_norm": 0.9394160509109497,
      "learning_rate": 7.906236501804541e-05,
      "loss": 3.8147,
      "step": 315950
    },
    {
      "epoch": 0.65825,
      "grad_norm": 0.984965443611145,
      "learning_rate": 7.905367873320312e-05,
      "loss": 3.6691,
      "step": 315960
    },
    {
      "epoch": 0.6582708333333334,
      "grad_norm": 0.8319193124771118,
      "learning_rate": 7.90449927548209e-05,
      "loss": 3.7729,
      "step": 315970
    },
    {
      "epoch": 0.6582916666666667,
      "grad_norm": 0.8665568232536316,
      "learning_rate": 7.90363070829363e-05,
      "loss": 3.7208,
      "step": 315980
    },
    {
      "epoch": 0.6583125,
      "grad_norm": 0.80245441198349,
      "learning_rate": 7.902762171758662e-05,
      "loss": 3.729,
      "step": 315990
    },
    {
      "epoch": 0.6583333333333333,
      "grad_norm": 0.9893625378608704,
      "learning_rate": 7.90189366588096e-05,
      "loss": 3.862,
      "step": 316000
    },
    {
      "epoch": 0.6583333333333333,
      "eval_loss": 4.078245639801025,
      "eval_runtime": 9.0161,
      "eval_samples_per_second": 1.109,
      "eval_steps_per_second": 0.333,
      "step": 316000
    },
    {
      "epoch": 0.6583541666666667,
      "grad_norm": 0.8835532665252686,
      "learning_rate": 7.901025190664273e-05,
      "loss": 3.6892,
      "step": 316010
    },
    {
      "epoch": 0.658375,
      "grad_norm": 1.0605156421661377,
      "learning_rate": 7.900156746112335e-05,
      "loss": 3.5735,
      "step": 316020
    },
    {
      "epoch": 0.6583958333333333,
      "grad_norm": 0.8868102431297302,
      "learning_rate": 7.899288332228917e-05,
      "loss": 3.7209,
      "step": 316030
    },
    {
      "epoch": 0.6584166666666667,
      "grad_norm": 1.0052496194839478,
      "learning_rate": 7.898419949017767e-05,
      "loss": 3.8164,
      "step": 316040
    },
    {
      "epoch": 0.6584375,
      "grad_norm": 0.9210831522941589,
      "learning_rate": 7.897551596482623e-05,
      "loss": 3.8382,
      "step": 316050
    },
    {
      "epoch": 0.6584583333333334,
      "grad_norm": 0.9678910374641418,
      "learning_rate": 7.896683274627252e-05,
      "loss": 3.958,
      "step": 316060
    },
    {
      "epoch": 0.6584791666666666,
      "grad_norm": 0.8608056902885437,
      "learning_rate": 7.895814983455394e-05,
      "loss": 3.9271,
      "step": 316070
    },
    {
      "epoch": 0.6585,
      "grad_norm": 0.8156883120536804,
      "learning_rate": 7.894946722970797e-05,
      "loss": 3.9043,
      "step": 316080
    },
    {
      "epoch": 0.6585208333333333,
      "grad_norm": 0.8905847668647766,
      "learning_rate": 7.89407849317723e-05,
      "loss": 3.9095,
      "step": 316090
    },
    {
      "epoch": 0.6585416666666667,
      "grad_norm": 0.8820326328277588,
      "learning_rate": 7.893210294078424e-05,
      "loss": 3.8645,
      "step": 316100
    },
    {
      "epoch": 0.6585625,
      "grad_norm": 0.9097499251365662,
      "learning_rate": 7.892342125678132e-05,
      "loss": 3.8187,
      "step": 316110
    },
    {
      "epoch": 0.6585833333333333,
      "grad_norm": 0.8824236989021301,
      "learning_rate": 7.891473987980121e-05,
      "loss": 3.6131,
      "step": 316120
    },
    {
      "epoch": 0.6586041666666667,
      "grad_norm": 0.8172547221183777,
      "learning_rate": 7.89060588098812e-05,
      "loss": 3.5583,
      "step": 316130
    },
    {
      "epoch": 0.658625,
      "grad_norm": 0.8100044131278992,
      "learning_rate": 7.889737804705884e-05,
      "loss": 3.7114,
      "step": 316140
    },
    {
      "epoch": 0.6586458333333334,
      "grad_norm": 0.7919853925704956,
      "learning_rate": 7.888869759137179e-05,
      "loss": 3.7935,
      "step": 316150
    },
    {
      "epoch": 0.6586666666666666,
      "grad_norm": 0.858498752117157,
      "learning_rate": 7.888001744285733e-05,
      "loss": 3.9038,
      "step": 316160
    },
    {
      "epoch": 0.6586875,
      "grad_norm": 1.1334201097488403,
      "learning_rate": 7.887133760155305e-05,
      "loss": 3.8728,
      "step": 316170
    },
    {
      "epoch": 0.6587083333333333,
      "grad_norm": 0.9341407418251038,
      "learning_rate": 7.886265806749644e-05,
      "loss": 3.7158,
      "step": 316180
    },
    {
      "epoch": 0.6587291666666667,
      "grad_norm": 1.005679965019226,
      "learning_rate": 7.8853978840725e-05,
      "loss": 3.9221,
      "step": 316190
    },
    {
      "epoch": 0.65875,
      "grad_norm": 0.7701871395111084,
      "learning_rate": 7.884529992127622e-05,
      "loss": 3.77,
      "step": 316200
    },
    {
      "epoch": 0.6587708333333333,
      "grad_norm": 0.8449634909629822,
      "learning_rate": 7.883662130918755e-05,
      "loss": 3.8841,
      "step": 316210
    },
    {
      "epoch": 0.6587916666666667,
      "grad_norm": 0.8178132772445679,
      "learning_rate": 7.882794300449652e-05,
      "loss": 3.7046,
      "step": 316220
    },
    {
      "epoch": 0.6588125,
      "grad_norm": 0.8952500820159912,
      "learning_rate": 7.881926500724062e-05,
      "loss": 3.7665,
      "step": 316230
    },
    {
      "epoch": 0.6588333333333334,
      "grad_norm": 0.7689509987831116,
      "learning_rate": 7.88105873174573e-05,
      "loss": 3.7648,
      "step": 316240
    },
    {
      "epoch": 0.6588541666666666,
      "grad_norm": 1.0743491649627686,
      "learning_rate": 7.880190993518405e-05,
      "loss": 4.0575,
      "step": 316250
    },
    {
      "epoch": 0.658875,
      "grad_norm": 0.9703367948532104,
      "learning_rate": 7.879323286045839e-05,
      "loss": 3.7857,
      "step": 316260
    },
    {
      "epoch": 0.6588958333333333,
      "grad_norm": 0.8615016341209412,
      "learning_rate": 7.878455609331777e-05,
      "loss": 3.7774,
      "step": 316270
    },
    {
      "epoch": 0.6589166666666667,
      "grad_norm": 0.9244664907455444,
      "learning_rate": 7.877587963379968e-05,
      "loss": 3.7402,
      "step": 316280
    },
    {
      "epoch": 0.6589375,
      "grad_norm": 0.8230370283126831,
      "learning_rate": 7.876720348194165e-05,
      "loss": 3.9028,
      "step": 316290
    },
    {
      "epoch": 0.6589583333333333,
      "grad_norm": 0.9135506749153137,
      "learning_rate": 7.8758527637781e-05,
      "loss": 3.8379,
      "step": 316300
    },
    {
      "epoch": 0.6589791666666667,
      "grad_norm": 1.0549126863479614,
      "learning_rate": 7.874985210135538e-05,
      "loss": 3.7458,
      "step": 316310
    },
    {
      "epoch": 0.659,
      "grad_norm": 0.8587795495986938,
      "learning_rate": 7.874117687270223e-05,
      "loss": 3.8247,
      "step": 316320
    },
    {
      "epoch": 0.6590208333333333,
      "grad_norm": 0.791533887386322,
      "learning_rate": 7.87325019518589e-05,
      "loss": 4.0144,
      "step": 316330
    },
    {
      "epoch": 0.6590416666666666,
      "grad_norm": 0.8254202604293823,
      "learning_rate": 7.872382733886298e-05,
      "loss": 3.6901,
      "step": 316340
    },
    {
      "epoch": 0.6590625,
      "grad_norm": 0.8024695515632629,
      "learning_rate": 7.871515303375199e-05,
      "loss": 3.75,
      "step": 316350
    },
    {
      "epoch": 0.6590833333333334,
      "grad_norm": 0.8438613414764404,
      "learning_rate": 7.870647903656321e-05,
      "loss": 3.8822,
      "step": 316360
    },
    {
      "epoch": 0.6591041666666667,
      "grad_norm": 0.9193813800811768,
      "learning_rate": 7.869780534733425e-05,
      "loss": 3.7724,
      "step": 316370
    },
    {
      "epoch": 0.659125,
      "grad_norm": 0.8837940692901611,
      "learning_rate": 7.868913196610263e-05,
      "loss": 3.6906,
      "step": 316380
    },
    {
      "epoch": 0.6591458333333333,
      "grad_norm": 0.8787407279014587,
      "learning_rate": 7.868045889290561e-05,
      "loss": 3.5939,
      "step": 316390
    },
    {
      "epoch": 0.6591666666666667,
      "grad_norm": 0.8429365754127502,
      "learning_rate": 7.867178612778084e-05,
      "loss": 3.6857,
      "step": 316400
    },
    {
      "epoch": 0.6591875,
      "grad_norm": 0.8107511401176453,
      "learning_rate": 7.866311367076578e-05,
      "loss": 3.812,
      "step": 316410
    },
    {
      "epoch": 0.6592083333333333,
      "grad_norm": 0.8854825496673584,
      "learning_rate": 7.86544415218977e-05,
      "loss": 3.8403,
      "step": 316420
    },
    {
      "epoch": 0.6592291666666666,
      "grad_norm": 0.839251697063446,
      "learning_rate": 7.864576968121432e-05,
      "loss": 3.8128,
      "step": 316430
    },
    {
      "epoch": 0.65925,
      "grad_norm": 0.8498611450195312,
      "learning_rate": 7.863709814875293e-05,
      "loss": 3.7168,
      "step": 316440
    },
    {
      "epoch": 0.6592708333333334,
      "grad_norm": 0.8048784136772156,
      "learning_rate": 7.862842692455096e-05,
      "loss": 3.7356,
      "step": 316450
    },
    {
      "epoch": 0.6592916666666667,
      "grad_norm": 0.8147984743118286,
      "learning_rate": 7.861975600864604e-05,
      "loss": 3.6477,
      "step": 316460
    },
    {
      "epoch": 0.6593125,
      "grad_norm": 0.8543949723243713,
      "learning_rate": 7.861108540107545e-05,
      "loss": 3.7997,
      "step": 316470
    },
    {
      "epoch": 0.6593333333333333,
      "grad_norm": 1.2109493017196655,
      "learning_rate": 7.860241510187668e-05,
      "loss": 3.7608,
      "step": 316480
    },
    {
      "epoch": 0.6593541666666667,
      "grad_norm": 0.8670468330383301,
      "learning_rate": 7.859374511108732e-05,
      "loss": 3.6884,
      "step": 316490
    },
    {
      "epoch": 0.659375,
      "grad_norm": 1.0519053936004639,
      "learning_rate": 7.858507542874466e-05,
      "loss": 3.8819,
      "step": 316500
    },
    {
      "epoch": 0.6593958333333333,
      "grad_norm": 0.9180297255516052,
      "learning_rate": 7.857640605488622e-05,
      "loss": 3.7357,
      "step": 316510
    },
    {
      "epoch": 0.6594166666666667,
      "grad_norm": 1.0832040309906006,
      "learning_rate": 7.856773698954941e-05,
      "loss": 3.7347,
      "step": 316520
    },
    {
      "epoch": 0.6594375,
      "grad_norm": 0.9954524636268616,
      "learning_rate": 7.855906823277173e-05,
      "loss": 3.9099,
      "step": 316530
    },
    {
      "epoch": 0.6594583333333334,
      "grad_norm": 0.8534001708030701,
      "learning_rate": 7.855039978459056e-05,
      "loss": 3.9062,
      "step": 316540
    },
    {
      "epoch": 0.6594791666666666,
      "grad_norm": 0.841974139213562,
      "learning_rate": 7.854173164504341e-05,
      "loss": 3.7551,
      "step": 316550
    },
    {
      "epoch": 0.6595,
      "grad_norm": 1.3112742900848389,
      "learning_rate": 7.853306381416767e-05,
      "loss": 3.6563,
      "step": 316560
    },
    {
      "epoch": 0.6595208333333333,
      "grad_norm": 0.8854195475578308,
      "learning_rate": 7.852439629200082e-05,
      "loss": 3.6956,
      "step": 316570
    },
    {
      "epoch": 0.6595416666666667,
      "grad_norm": 0.8060431480407715,
      "learning_rate": 7.85157290785803e-05,
      "loss": 3.8656,
      "step": 316580
    },
    {
      "epoch": 0.6595625,
      "grad_norm": 0.9101770520210266,
      "learning_rate": 7.850706217394351e-05,
      "loss": 3.7492,
      "step": 316590
    },
    {
      "epoch": 0.6595833333333333,
      "grad_norm": 0.9502230882644653,
      "learning_rate": 7.849839557812795e-05,
      "loss": 3.7958,
      "step": 316600
    },
    {
      "epoch": 0.6596041666666667,
      "grad_norm": 0.9758163094520569,
      "learning_rate": 7.848972929117099e-05,
      "loss": 3.8476,
      "step": 316610
    },
    {
      "epoch": 0.659625,
      "grad_norm": 0.7978660464286804,
      "learning_rate": 7.848106331311008e-05,
      "loss": 3.6852,
      "step": 316620
    },
    {
      "epoch": 0.6596458333333334,
      "grad_norm": 0.9073786735534668,
      "learning_rate": 7.84723976439827e-05,
      "loss": 3.7006,
      "step": 316630
    },
    {
      "epoch": 0.6596666666666666,
      "grad_norm": 0.8878114819526672,
      "learning_rate": 7.846373228382623e-05,
      "loss": 3.5703,
      "step": 316640
    },
    {
      "epoch": 0.6596875,
      "grad_norm": 0.9810822606086731,
      "learning_rate": 7.845506723267812e-05,
      "loss": 3.9551,
      "step": 316650
    },
    {
      "epoch": 0.6597083333333333,
      "grad_norm": 0.945792019367218,
      "learning_rate": 7.844640249057585e-05,
      "loss": 3.7749,
      "step": 316660
    },
    {
      "epoch": 0.6597291666666667,
      "grad_norm": 0.8401608467102051,
      "learning_rate": 7.843773805755672e-05,
      "loss": 3.8161,
      "step": 316670
    },
    {
      "epoch": 0.65975,
      "grad_norm": 0.7951688170433044,
      "learning_rate": 7.842907393365827e-05,
      "loss": 3.7251,
      "step": 316680
    },
    {
      "epoch": 0.6597708333333333,
      "grad_norm": 0.8319090008735657,
      "learning_rate": 7.842041011891794e-05,
      "loss": 3.9154,
      "step": 316690
    },
    {
      "epoch": 0.6597916666666667,
      "grad_norm": 0.9709499478340149,
      "learning_rate": 7.841174661337298e-05,
      "loss": 3.7845,
      "step": 316700
    },
    {
      "epoch": 0.6598125,
      "grad_norm": 0.8096107244491577,
      "learning_rate": 7.840308341706103e-05,
      "loss": 3.8366,
      "step": 316710
    },
    {
      "epoch": 0.6598333333333334,
      "grad_norm": 0.9122649431228638,
      "learning_rate": 7.839442053001945e-05,
      "loss": 3.6797,
      "step": 316720
    },
    {
      "epoch": 0.6598541666666666,
      "grad_norm": 1.2596678733825684,
      "learning_rate": 7.838575795228552e-05,
      "loss": 3.7413,
      "step": 316730
    },
    {
      "epoch": 0.659875,
      "grad_norm": 0.8879762887954712,
      "learning_rate": 7.837709568389684e-05,
      "loss": 3.8678,
      "step": 316740
    },
    {
      "epoch": 0.6598958333333333,
      "grad_norm": 0.993362307548523,
      "learning_rate": 7.83684337248908e-05,
      "loss": 3.8758,
      "step": 316750
    },
    {
      "epoch": 0.6599166666666667,
      "grad_norm": 1.019898533821106,
      "learning_rate": 7.835977207530468e-05,
      "loss": 3.7048,
      "step": 316760
    },
    {
      "epoch": 0.6599375,
      "grad_norm": 0.9653089642524719,
      "learning_rate": 7.835111073517603e-05,
      "loss": 3.7094,
      "step": 316770
    },
    {
      "epoch": 0.6599583333333333,
      "grad_norm": 0.7851054668426514,
      "learning_rate": 7.834244970454226e-05,
      "loss": 3.8063,
      "step": 316780
    },
    {
      "epoch": 0.6599791666666667,
      "grad_norm": 0.8663849234580994,
      "learning_rate": 7.833378898344064e-05,
      "loss": 3.8104,
      "step": 316790
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8973802924156189,
      "learning_rate": 7.832512857190881e-05,
      "loss": 3.785,
      "step": 316800
    },
    {
      "epoch": 0.6600208333333333,
      "grad_norm": 0.8352190852165222,
      "learning_rate": 7.831646846998398e-05,
      "loss": 3.6394,
      "step": 316810
    },
    {
      "epoch": 0.6600416666666666,
      "grad_norm": 0.8618704080581665,
      "learning_rate": 7.830780867770364e-05,
      "loss": 3.7643,
      "step": 316820
    },
    {
      "epoch": 0.6600625,
      "grad_norm": 0.8416493535041809,
      "learning_rate": 7.82991491951052e-05,
      "loss": 3.5893,
      "step": 316830
    },
    {
      "epoch": 0.6600833333333334,
      "grad_norm": 0.9375908970832825,
      "learning_rate": 7.829049002222604e-05,
      "loss": 3.7993,
      "step": 316840
    },
    {
      "epoch": 0.6601041666666667,
      "grad_norm": 0.9133856892585754,
      "learning_rate": 7.828183115910358e-05,
      "loss": 3.8318,
      "step": 316850
    },
    {
      "epoch": 0.660125,
      "grad_norm": 0.8449404239654541,
      "learning_rate": 7.827317260577523e-05,
      "loss": 3.6482,
      "step": 316860
    },
    {
      "epoch": 0.6601458333333333,
      "grad_norm": 0.8496863842010498,
      "learning_rate": 7.826451436227838e-05,
      "loss": 3.7117,
      "step": 316870
    },
    {
      "epoch": 0.6601666666666667,
      "grad_norm": 0.7848246097564697,
      "learning_rate": 7.825585642865043e-05,
      "loss": 3.9382,
      "step": 316880
    },
    {
      "epoch": 0.6601875,
      "grad_norm": 0.8307750225067139,
      "learning_rate": 7.824719880492879e-05,
      "loss": 3.524,
      "step": 316890
    },
    {
      "epoch": 0.6602083333333333,
      "grad_norm": 0.8829790949821472,
      "learning_rate": 7.823854149115085e-05,
      "loss": 3.9028,
      "step": 316900
    },
    {
      "epoch": 0.6602291666666666,
      "grad_norm": 0.801038920879364,
      "learning_rate": 7.822988448735399e-05,
      "loss": 3.8216,
      "step": 316910
    },
    {
      "epoch": 0.66025,
      "grad_norm": 0.9072137475013733,
      "learning_rate": 7.822122779357561e-05,
      "loss": 3.6193,
      "step": 316920
    },
    {
      "epoch": 0.6602708333333334,
      "grad_norm": 0.7708479762077332,
      "learning_rate": 7.821257140985314e-05,
      "loss": 3.7631,
      "step": 316930
    },
    {
      "epoch": 0.6602916666666667,
      "grad_norm": 0.960392415523529,
      "learning_rate": 7.820391533622394e-05,
      "loss": 3.7432,
      "step": 316940
    },
    {
      "epoch": 0.6603125,
      "grad_norm": 0.9294925332069397,
      "learning_rate": 7.819525957272541e-05,
      "loss": 3.8367,
      "step": 316950
    },
    {
      "epoch": 0.6603333333333333,
      "grad_norm": 0.7955619692802429,
      "learning_rate": 7.818660411939493e-05,
      "loss": 3.5598,
      "step": 316960
    },
    {
      "epoch": 0.6603541666666667,
      "grad_norm": 0.9122121334075928,
      "learning_rate": 7.817794897626989e-05,
      "loss": 3.6486,
      "step": 316970
    },
    {
      "epoch": 0.660375,
      "grad_norm": 0.9080206155776978,
      "learning_rate": 7.816929414338768e-05,
      "loss": 3.8184,
      "step": 316980
    },
    {
      "epoch": 0.6603958333333333,
      "grad_norm": 0.8514348268508911,
      "learning_rate": 7.81606396207857e-05,
      "loss": 3.8194,
      "step": 316990
    },
    {
      "epoch": 0.6604166666666667,
      "grad_norm": 0.9277223944664001,
      "learning_rate": 7.815198540850132e-05,
      "loss": 3.7231,
      "step": 317000
    },
    {
      "epoch": 0.6604166666666667,
      "eval_loss": 4.077749729156494,
      "eval_runtime": 8.9721,
      "eval_samples_per_second": 1.115,
      "eval_steps_per_second": 0.334,
      "step": 317000
    },
    {
      "epoch": 0.6604375,
      "grad_norm": 0.9348568320274353,
      "learning_rate": 7.814333150657191e-05,
      "loss": 3.6945,
      "step": 317010
    },
    {
      "epoch": 0.6604583333333334,
      "grad_norm": 0.7698889970779419,
      "learning_rate": 7.813467791503488e-05,
      "loss": 3.7306,
      "step": 317020
    },
    {
      "epoch": 0.6604791666666666,
      "grad_norm": 0.8213854432106018,
      "learning_rate": 7.812602463392763e-05,
      "loss": 3.7959,
      "step": 317030
    },
    {
      "epoch": 0.6605,
      "grad_norm": 0.8473343253135681,
      "learning_rate": 7.811737166328741e-05,
      "loss": 3.824,
      "step": 317040
    },
    {
      "epoch": 0.6605208333333333,
      "grad_norm": 0.9081486463546753,
      "learning_rate": 7.810871900315175e-05,
      "loss": 3.6823,
      "step": 317050
    },
    {
      "epoch": 0.6605416666666667,
      "grad_norm": 0.8836048245429993,
      "learning_rate": 7.810006665355803e-05,
      "loss": 3.6942,
      "step": 317060
    },
    {
      "epoch": 0.6605625,
      "grad_norm": 0.9105262756347656,
      "learning_rate": 7.809141461454342e-05,
      "loss": 3.6904,
      "step": 317070
    },
    {
      "epoch": 0.6605833333333333,
      "grad_norm": 0.904841423034668,
      "learning_rate": 7.80827628861455e-05,
      "loss": 3.8011,
      "step": 317080
    },
    {
      "epoch": 0.6606041666666667,
      "grad_norm": 0.9001267552375793,
      "learning_rate": 7.807411146840166e-05,
      "loss": 3.8437,
      "step": 317090
    },
    {
      "epoch": 0.660625,
      "grad_norm": 0.794025182723999,
      "learning_rate": 7.806546036134909e-05,
      "loss": 3.6466,
      "step": 317100
    },
    {
      "epoch": 0.6606458333333334,
      "grad_norm": 0.8251006007194519,
      "learning_rate": 7.805680956502525e-05,
      "loss": 3.6904,
      "step": 317110
    },
    {
      "epoch": 0.6606666666666666,
      "grad_norm": 0.8456442952156067,
      "learning_rate": 7.80481590794676e-05,
      "loss": 3.7609,
      "step": 317120
    },
    {
      "epoch": 0.6606875,
      "grad_norm": 0.9749065041542053,
      "learning_rate": 7.803950890471335e-05,
      "loss": 3.8603,
      "step": 317130
    },
    {
      "epoch": 0.6607083333333333,
      "grad_norm": 0.8633245825767517,
      "learning_rate": 7.803085904079992e-05,
      "loss": 3.5625,
      "step": 317140
    },
    {
      "epoch": 0.6607291666666667,
      "grad_norm": 0.9808933138847351,
      "learning_rate": 7.802220948776477e-05,
      "loss": 3.7652,
      "step": 317150
    },
    {
      "epoch": 0.66075,
      "grad_norm": 0.8419376611709595,
      "learning_rate": 7.801356024564515e-05,
      "loss": 3.748,
      "step": 317160
    },
    {
      "epoch": 0.6607708333333333,
      "grad_norm": 0.8847404718399048,
      "learning_rate": 7.800491131447844e-05,
      "loss": 3.8515,
      "step": 317170
    },
    {
      "epoch": 0.6607916666666667,
      "grad_norm": 0.8249592185020447,
      "learning_rate": 7.799626269430202e-05,
      "loss": 3.6356,
      "step": 317180
    },
    {
      "epoch": 0.6608125,
      "grad_norm": 0.9412119388580322,
      "learning_rate": 7.798761438515326e-05,
      "loss": 3.7817,
      "step": 317190
    },
    {
      "epoch": 0.6608333333333334,
      "grad_norm": 0.7879725098609924,
      "learning_rate": 7.797896638706948e-05,
      "loss": 3.7736,
      "step": 317200
    },
    {
      "epoch": 0.6608541666666666,
      "grad_norm": 0.8651806116104126,
      "learning_rate": 7.797031870008806e-05,
      "loss": 3.8318,
      "step": 317210
    },
    {
      "epoch": 0.660875,
      "grad_norm": 0.8975400924682617,
      "learning_rate": 7.796167132424636e-05,
      "loss": 3.7795,
      "step": 317220
    },
    {
      "epoch": 0.6608958333333333,
      "grad_norm": 0.7417381405830383,
      "learning_rate": 7.795302425958173e-05,
      "loss": 3.6973,
      "step": 317230
    },
    {
      "epoch": 0.6609166666666667,
      "grad_norm": 0.8266734480857849,
      "learning_rate": 7.794437750613152e-05,
      "loss": 3.7794,
      "step": 317240
    },
    {
      "epoch": 0.6609375,
      "grad_norm": 0.7508269548416138,
      "learning_rate": 7.793573106393306e-05,
      "loss": 3.7894,
      "step": 317250
    },
    {
      "epoch": 0.6609583333333333,
      "grad_norm": 0.7442255020141602,
      "learning_rate": 7.792708493302374e-05,
      "loss": 3.8054,
      "step": 317260
    },
    {
      "epoch": 0.6609791666666667,
      "grad_norm": 0.851643979549408,
      "learning_rate": 7.791843911344086e-05,
      "loss": 3.6808,
      "step": 317270
    },
    {
      "epoch": 0.661,
      "grad_norm": 0.9096183776855469,
      "learning_rate": 7.790979360522181e-05,
      "loss": 3.6908,
      "step": 317280
    },
    {
      "epoch": 0.6610208333333333,
      "grad_norm": 1.006377935409546,
      "learning_rate": 7.790114840840389e-05,
      "loss": 3.8318,
      "step": 317290
    },
    {
      "epoch": 0.6610416666666666,
      "grad_norm": 0.8266997337341309,
      "learning_rate": 7.78925035230245e-05,
      "loss": 3.7794,
      "step": 317300
    },
    {
      "epoch": 0.6610625,
      "grad_norm": 0.8014026284217834,
      "learning_rate": 7.788385894912092e-05,
      "loss": 3.8635,
      "step": 317310
    },
    {
      "epoch": 0.6610833333333334,
      "grad_norm": 0.8550994396209717,
      "learning_rate": 7.787521468673055e-05,
      "loss": 3.8483,
      "step": 317320
    },
    {
      "epoch": 0.6611041666666667,
      "grad_norm": 0.8220055103302002,
      "learning_rate": 7.78665707358907e-05,
      "loss": 3.936,
      "step": 317330
    },
    {
      "epoch": 0.661125,
      "grad_norm": 0.855974555015564,
      "learning_rate": 7.785792709663871e-05,
      "loss": 3.8372,
      "step": 317340
    },
    {
      "epoch": 0.6611458333333333,
      "grad_norm": 1.010479211807251,
      "learning_rate": 7.784928376901193e-05,
      "loss": 3.7838,
      "step": 317350
    },
    {
      "epoch": 0.6611666666666667,
      "grad_norm": 0.8801307678222656,
      "learning_rate": 7.784064075304767e-05,
      "loss": 3.7269,
      "step": 317360
    },
    {
      "epoch": 0.6611875,
      "grad_norm": 0.8569091558456421,
      "learning_rate": 7.783199804878327e-05,
      "loss": 3.7922,
      "step": 317370
    },
    {
      "epoch": 0.6612083333333333,
      "grad_norm": 0.8335748910903931,
      "learning_rate": 7.782335565625614e-05,
      "loss": 3.7134,
      "step": 317380
    },
    {
      "epoch": 0.6612291666666666,
      "grad_norm": 0.8576432466506958,
      "learning_rate": 7.781471357550343e-05,
      "loss": 3.8006,
      "step": 317390
    },
    {
      "epoch": 0.66125,
      "grad_norm": 0.826034665107727,
      "learning_rate": 7.780607180656266e-05,
      "loss": 3.8202,
      "step": 317400
    },
    {
      "epoch": 0.6612708333333334,
      "grad_norm": 0.8079803586006165,
      "learning_rate": 7.779743034947112e-05,
      "loss": 3.8968,
      "step": 317410
    },
    {
      "epoch": 0.6612916666666667,
      "grad_norm": 0.886013388633728,
      "learning_rate": 7.778878920426598e-05,
      "loss": 3.5844,
      "step": 317420
    },
    {
      "epoch": 0.6613125,
      "grad_norm": 0.8519105911254883,
      "learning_rate": 7.778014837098481e-05,
      "loss": 3.7953,
      "step": 317430
    },
    {
      "epoch": 0.6613333333333333,
      "grad_norm": 0.9438519477844238,
      "learning_rate": 7.777150784966477e-05,
      "loss": 3.7127,
      "step": 317440
    },
    {
      "epoch": 0.6613541666666667,
      "grad_norm": 0.9139455556869507,
      "learning_rate": 7.776286764034316e-05,
      "loss": 3.4391,
      "step": 317450
    },
    {
      "epoch": 0.661375,
      "grad_norm": 1.242968201637268,
      "learning_rate": 7.775422774305746e-05,
      "loss": 3.7198,
      "step": 317460
    },
    {
      "epoch": 0.6613958333333333,
      "grad_norm": 0.8910685777664185,
      "learning_rate": 7.774558815784488e-05,
      "loss": 3.9263,
      "step": 317470
    },
    {
      "epoch": 0.6614166666666667,
      "grad_norm": 1.021375298500061,
      "learning_rate": 7.773694888474267e-05,
      "loss": 3.845,
      "step": 317480
    },
    {
      "epoch": 0.6614375,
      "grad_norm": 0.7874495387077332,
      "learning_rate": 7.772830992378837e-05,
      "loss": 3.652,
      "step": 317490
    },
    {
      "epoch": 0.6614583333333334,
      "grad_norm": 0.8691293597221375,
      "learning_rate": 7.771967127501911e-05,
      "loss": 3.6439,
      "step": 317500
    },
    {
      "epoch": 0.6614791666666666,
      "grad_norm": 0.8556763529777527,
      "learning_rate": 7.771103293847218e-05,
      "loss": 3.8349,
      "step": 317510
    },
    {
      "epoch": 0.6615,
      "grad_norm": 0.8266630172729492,
      "learning_rate": 7.770239491418512e-05,
      "loss": 3.7938,
      "step": 317520
    },
    {
      "epoch": 0.6615208333333333,
      "grad_norm": 0.9891747832298279,
      "learning_rate": 7.7693757202195e-05,
      "loss": 3.8086,
      "step": 317530
    },
    {
      "epoch": 0.6615416666666667,
      "grad_norm": 0.9093106389045715,
      "learning_rate": 7.76851198025392e-05,
      "loss": 3.744,
      "step": 317540
    },
    {
      "epoch": 0.6615625,
      "grad_norm": 0.9673424363136292,
      "learning_rate": 7.767648271525517e-05,
      "loss": 3.8037,
      "step": 317550
    },
    {
      "epoch": 0.6615833333333333,
      "grad_norm": 0.9765466451644897,
      "learning_rate": 7.766784594038004e-05,
      "loss": 3.7353,
      "step": 317560
    },
    {
      "epoch": 0.6616041666666667,
      "grad_norm": 0.8465277552604675,
      "learning_rate": 7.765920947795119e-05,
      "loss": 3.7802,
      "step": 317570
    },
    {
      "epoch": 0.661625,
      "grad_norm": 0.9234326481819153,
      "learning_rate": 7.765057332800592e-05,
      "loss": 4.0774,
      "step": 317580
    },
    {
      "epoch": 0.6616458333333334,
      "grad_norm": 0.8020761609077454,
      "learning_rate": 7.764193749058154e-05,
      "loss": 3.6009,
      "step": 317590
    },
    {
      "epoch": 0.6616666666666666,
      "grad_norm": 0.8560434579849243,
      "learning_rate": 7.763330196571534e-05,
      "loss": 3.7168,
      "step": 317600
    },
    {
      "epoch": 0.6616875,
      "grad_norm": 0.9860864877700806,
      "learning_rate": 7.762466675344464e-05,
      "loss": 3.8015,
      "step": 317610
    },
    {
      "epoch": 0.6617083333333333,
      "grad_norm": 0.939568817615509,
      "learning_rate": 7.761603185380673e-05,
      "loss": 3.6422,
      "step": 317620
    },
    {
      "epoch": 0.6617291666666667,
      "grad_norm": 0.8229501247406006,
      "learning_rate": 7.760739726683891e-05,
      "loss": 3.7009,
      "step": 317630
    },
    {
      "epoch": 0.66175,
      "grad_norm": 0.9064397215843201,
      "learning_rate": 7.759876299257846e-05,
      "loss": 3.8668,
      "step": 317640
    },
    {
      "epoch": 0.6617708333333333,
      "grad_norm": 0.7832546830177307,
      "learning_rate": 7.759012903106271e-05,
      "loss": 3.7224,
      "step": 317650
    },
    {
      "epoch": 0.6617916666666667,
      "grad_norm": 0.7497777342796326,
      "learning_rate": 7.758149538232894e-05,
      "loss": 3.6343,
      "step": 317660
    },
    {
      "epoch": 0.6618125,
      "grad_norm": 0.8706884384155273,
      "learning_rate": 7.757286204641446e-05,
      "loss": 3.7238,
      "step": 317670
    },
    {
      "epoch": 0.6618333333333334,
      "grad_norm": 1.0395947694778442,
      "learning_rate": 7.756422902335653e-05,
      "loss": 3.8857,
      "step": 317680
    },
    {
      "epoch": 0.6618541666666666,
      "grad_norm": 0.9416292309761047,
      "learning_rate": 7.755559631319252e-05,
      "loss": 3.8453,
      "step": 317690
    },
    {
      "epoch": 0.661875,
      "grad_norm": 0.9033189415931702,
      "learning_rate": 7.754696391595954e-05,
      "loss": 3.7628,
      "step": 317700
    },
    {
      "epoch": 0.6618958333333333,
      "grad_norm": 0.816668689250946,
      "learning_rate": 7.753833183169506e-05,
      "loss": 3.5192,
      "step": 317710
    },
    {
      "epoch": 0.6619166666666667,
      "grad_norm": 0.9815526008605957,
      "learning_rate": 7.752970006043636e-05,
      "loss": 3.929,
      "step": 317720
    },
    {
      "epoch": 0.6619375,
      "grad_norm": 0.8316575884819031,
      "learning_rate": 7.752106860222056e-05,
      "loss": 3.8448,
      "step": 317730
    },
    {
      "epoch": 0.6619583333333333,
      "grad_norm": 0.8797428607940674,
      "learning_rate": 7.751243745708511e-05,
      "loss": 3.7536,
      "step": 317740
    },
    {
      "epoch": 0.6619791666666667,
      "grad_norm": 0.7791931629180908,
      "learning_rate": 7.750380662506728e-05,
      "loss": 3.6629,
      "step": 317750
    },
    {
      "epoch": 0.662,
      "grad_norm": 0.8424707055091858,
      "learning_rate": 7.749517610620421e-05,
      "loss": 3.7862,
      "step": 317760
    },
    {
      "epoch": 0.6620208333333333,
      "grad_norm": 0.8698821067810059,
      "learning_rate": 7.748654590053334e-05,
      "loss": 3.804,
      "step": 317770
    },
    {
      "epoch": 0.6620416666666666,
      "grad_norm": 1.0553449392318726,
      "learning_rate": 7.747791600809195e-05,
      "loss": 3.7493,
      "step": 317780
    },
    {
      "epoch": 0.6620625,
      "grad_norm": 0.8905836939811707,
      "learning_rate": 7.746928642891711e-05,
      "loss": 3.7379,
      "step": 317790
    },
    {
      "epoch": 0.6620833333333334,
      "grad_norm": 0.8239919543266296,
      "learning_rate": 7.746065716304639e-05,
      "loss": 3.7854,
      "step": 317800
    },
    {
      "epoch": 0.6621041666666667,
      "grad_norm": 0.7749184370040894,
      "learning_rate": 7.745202821051684e-05,
      "loss": 3.6074,
      "step": 317810
    },
    {
      "epoch": 0.662125,
      "grad_norm": 0.8744170069694519,
      "learning_rate": 7.744339957136578e-05,
      "loss": 3.627,
      "step": 317820
    },
    {
      "epoch": 0.6621458333333333,
      "grad_norm": 0.9562029242515564,
      "learning_rate": 7.743477124563061e-05,
      "loss": 3.8415,
      "step": 317830
    },
    {
      "epoch": 0.6621666666666667,
      "grad_norm": 0.9610385298728943,
      "learning_rate": 7.742614323334845e-05,
      "loss": 3.7739,
      "step": 317840
    },
    {
      "epoch": 0.6621875,
      "grad_norm": 0.8407766819000244,
      "learning_rate": 7.741751553455655e-05,
      "loss": 3.8558,
      "step": 317850
    },
    {
      "epoch": 0.6622083333333333,
      "grad_norm": 0.8248576521873474,
      "learning_rate": 7.74088881492924e-05,
      "loss": 3.7005,
      "step": 317860
    },
    {
      "epoch": 0.6622291666666666,
      "grad_norm": 0.8872107863426208,
      "learning_rate": 7.740026107759304e-05,
      "loss": 3.6682,
      "step": 317870
    },
    {
      "epoch": 0.66225,
      "grad_norm": 0.8143259882926941,
      "learning_rate": 7.739163431949576e-05,
      "loss": 3.667,
      "step": 317880
    },
    {
      "epoch": 0.6622708333333334,
      "grad_norm": 0.9604938626289368,
      "learning_rate": 7.738300787503801e-05,
      "loss": 3.6808,
      "step": 317890
    },
    {
      "epoch": 0.6622916666666666,
      "grad_norm": 0.9932833313941956,
      "learning_rate": 7.737438174425685e-05,
      "loss": 3.6589,
      "step": 317900
    },
    {
      "epoch": 0.6623125,
      "grad_norm": 0.8499294519424438,
      "learning_rate": 7.736575592718957e-05,
      "loss": 3.8541,
      "step": 317910
    },
    {
      "epoch": 0.6623333333333333,
      "grad_norm": 0.7956624627113342,
      "learning_rate": 7.735713042387358e-05,
      "loss": 3.6556,
      "step": 317920
    },
    {
      "epoch": 0.6623541666666667,
      "grad_norm": 0.8661259412765503,
      "learning_rate": 7.734850523434597e-05,
      "loss": 3.6066,
      "step": 317930
    },
    {
      "epoch": 0.662375,
      "grad_norm": 0.8669537901878357,
      "learning_rate": 7.733988035864404e-05,
      "loss": 3.9112,
      "step": 317940
    },
    {
      "epoch": 0.6623958333333333,
      "grad_norm": 0.9016045331954956,
      "learning_rate": 7.733125579680512e-05,
      "loss": 3.7915,
      "step": 317950
    },
    {
      "epoch": 0.6624166666666667,
      "grad_norm": 0.9405551552772522,
      "learning_rate": 7.732263154886637e-05,
      "loss": 3.5618,
      "step": 317960
    },
    {
      "epoch": 0.6624375,
      "grad_norm": 0.8102812767028809,
      "learning_rate": 7.73140076148651e-05,
      "loss": 3.8368,
      "step": 317970
    },
    {
      "epoch": 0.6624583333333334,
      "grad_norm": 0.8508585691452026,
      "learning_rate": 7.730538399483854e-05,
      "loss": 3.7329,
      "step": 317980
    },
    {
      "epoch": 0.6624791666666666,
      "grad_norm": 1.0268341302871704,
      "learning_rate": 7.729676068882394e-05,
      "loss": 3.5353,
      "step": 317990
    },
    {
      "epoch": 0.6625,
      "grad_norm": 0.7583723068237305,
      "learning_rate": 7.728813769685858e-05,
      "loss": 3.9263,
      "step": 318000
    },
    {
      "epoch": 0.6625,
      "eval_loss": 4.074004173278809,
      "eval_runtime": 9.3686,
      "eval_samples_per_second": 1.067,
      "eval_steps_per_second": 0.32,
      "step": 318000
    },
    {
      "epoch": 0.6625208333333333,
      "grad_norm": 0.8528833985328674,
      "learning_rate": 7.727951501897964e-05,
      "loss": 3.7306,
      "step": 318010
    },
    {
      "epoch": 0.6625416666666667,
      "grad_norm": 0.7631750702857971,
      "learning_rate": 7.727089265522445e-05,
      "loss": 3.8125,
      "step": 318020
    },
    {
      "epoch": 0.6625625,
      "grad_norm": 0.975714921951294,
      "learning_rate": 7.726227060563026e-05,
      "loss": 3.7849,
      "step": 318030
    },
    {
      "epoch": 0.6625833333333333,
      "grad_norm": 0.814214825630188,
      "learning_rate": 7.725364887023414e-05,
      "loss": 3.8132,
      "step": 318040
    },
    {
      "epoch": 0.6626041666666667,
      "grad_norm": 0.9048590064048767,
      "learning_rate": 7.724502744907354e-05,
      "loss": 3.8173,
      "step": 318050
    },
    {
      "epoch": 0.662625,
      "grad_norm": 0.9620282649993896,
      "learning_rate": 7.723640634218569e-05,
      "loss": 3.8407,
      "step": 318060
    },
    {
      "epoch": 0.6626458333333334,
      "grad_norm": 1.0339837074279785,
      "learning_rate": 7.722778554960762e-05,
      "loss": 3.9183,
      "step": 318070
    },
    {
      "epoch": 0.6626666666666666,
      "grad_norm": 0.776006817817688,
      "learning_rate": 7.721916507137678e-05,
      "loss": 3.8718,
      "step": 318080
    },
    {
      "epoch": 0.6626875,
      "grad_norm": 0.8794940114021301,
      "learning_rate": 7.721054490753041e-05,
      "loss": 3.7039,
      "step": 318090
    },
    {
      "epoch": 0.6627083333333333,
      "grad_norm": 0.9973936080932617,
      "learning_rate": 7.720192505810554e-05,
      "loss": 3.8701,
      "step": 318100
    },
    {
      "epoch": 0.6627291666666667,
      "grad_norm": 0.9068747758865356,
      "learning_rate": 7.719330552313959e-05,
      "loss": 3.822,
      "step": 318110
    },
    {
      "epoch": 0.66275,
      "grad_norm": 0.8574428558349609,
      "learning_rate": 7.718468630266982e-05,
      "loss": 3.7614,
      "step": 318120
    },
    {
      "epoch": 0.6627708333333333,
      "grad_norm": 0.8634888529777527,
      "learning_rate": 7.717606739673325e-05,
      "loss": 3.7731,
      "step": 318130
    },
    {
      "epoch": 0.6627916666666667,
      "grad_norm": 0.8203503489494324,
      "learning_rate": 7.71674488053673e-05,
      "loss": 3.7686,
      "step": 318140
    },
    {
      "epoch": 0.6628125,
      "grad_norm": 0.8878916501998901,
      "learning_rate": 7.715883052860923e-05,
      "loss": 3.7602,
      "step": 318150
    },
    {
      "epoch": 0.6628333333333334,
      "grad_norm": 0.7855451107025146,
      "learning_rate": 7.715021256649603e-05,
      "loss": 3.8153,
      "step": 318160
    },
    {
      "epoch": 0.6628541666666666,
      "grad_norm": 0.9467534422874451,
      "learning_rate": 7.714159491906521e-05,
      "loss": 3.8629,
      "step": 318170
    },
    {
      "epoch": 0.662875,
      "grad_norm": 1.0150644779205322,
      "learning_rate": 7.71329775863538e-05,
      "loss": 3.9392,
      "step": 318180
    },
    {
      "epoch": 0.6628958333333334,
      "grad_norm": 0.8544348478317261,
      "learning_rate": 7.712436056839902e-05,
      "loss": 3.7723,
      "step": 318190
    },
    {
      "epoch": 0.6629166666666667,
      "grad_norm": 0.9100561141967773,
      "learning_rate": 7.711574386523827e-05,
      "loss": 3.7328,
      "step": 318200
    },
    {
      "epoch": 0.6629375,
      "grad_norm": 0.8115116357803345,
      "learning_rate": 7.71071274769086e-05,
      "loss": 3.8145,
      "step": 318210
    },
    {
      "epoch": 0.6629583333333333,
      "grad_norm": 0.9243074655532837,
      "learning_rate": 7.709851140344724e-05,
      "loss": 3.7058,
      "step": 318220
    },
    {
      "epoch": 0.6629791666666667,
      "grad_norm": 0.7359349727630615,
      "learning_rate": 7.708989564489158e-05,
      "loss": 3.8554,
      "step": 318230
    },
    {
      "epoch": 0.663,
      "grad_norm": 0.9669468402862549,
      "learning_rate": 7.708128020127862e-05,
      "loss": 3.7057,
      "step": 318240
    },
    {
      "epoch": 0.6630208333333333,
      "grad_norm": 0.9327684640884399,
      "learning_rate": 7.707266507264563e-05,
      "loss": 3.7011,
      "step": 318250
    },
    {
      "epoch": 0.6630416666666666,
      "grad_norm": 0.8349967002868652,
      "learning_rate": 7.706405025902996e-05,
      "loss": 3.8542,
      "step": 318260
    },
    {
      "epoch": 0.6630625,
      "grad_norm": 0.802594780921936,
      "learning_rate": 7.705543576046867e-05,
      "loss": 3.8416,
      "step": 318270
    },
    {
      "epoch": 0.6630833333333334,
      "grad_norm": 1.0965893268585205,
      "learning_rate": 7.704682157699904e-05,
      "loss": 3.9073,
      "step": 318280
    },
    {
      "epoch": 0.6631041666666667,
      "grad_norm": 0.9002341628074646,
      "learning_rate": 7.703820770865826e-05,
      "loss": 3.8685,
      "step": 318290
    },
    {
      "epoch": 0.663125,
      "grad_norm": 0.9245235919952393,
      "learning_rate": 7.702959415548353e-05,
      "loss": 3.7825,
      "step": 318300
    },
    {
      "epoch": 0.6631458333333333,
      "grad_norm": 0.7764071226119995,
      "learning_rate": 7.702098091751207e-05,
      "loss": 3.7309,
      "step": 318310
    },
    {
      "epoch": 0.6631666666666667,
      "grad_norm": 1.0821582078933716,
      "learning_rate": 7.70123679947811e-05,
      "loss": 3.5895,
      "step": 318320
    },
    {
      "epoch": 0.6631875,
      "grad_norm": 0.8395472764968872,
      "learning_rate": 7.700375538732778e-05,
      "loss": 3.7722,
      "step": 318330
    },
    {
      "epoch": 0.6632083333333333,
      "grad_norm": 0.7358928918838501,
      "learning_rate": 7.699514309518937e-05,
      "loss": 3.5009,
      "step": 318340
    },
    {
      "epoch": 0.6632291666666666,
      "grad_norm": 0.9209504723548889,
      "learning_rate": 7.698653111840304e-05,
      "loss": 3.6579,
      "step": 318350
    },
    {
      "epoch": 0.66325,
      "grad_norm": 0.8942624926567078,
      "learning_rate": 7.6977919457006e-05,
      "loss": 3.8548,
      "step": 318360
    },
    {
      "epoch": 0.6632708333333334,
      "grad_norm": 0.8861015439033508,
      "learning_rate": 7.696930811103543e-05,
      "loss": 3.8038,
      "step": 318370
    },
    {
      "epoch": 0.6632916666666666,
      "grad_norm": 0.9543993473052979,
      "learning_rate": 7.696069708052855e-05,
      "loss": 3.67,
      "step": 318380
    },
    {
      "epoch": 0.6633125,
      "grad_norm": 0.9566236138343811,
      "learning_rate": 7.695208636552254e-05,
      "loss": 4.0464,
      "step": 318390
    },
    {
      "epoch": 0.6633333333333333,
      "grad_norm": 1.0896096229553223,
      "learning_rate": 7.69434759660546e-05,
      "loss": 3.6315,
      "step": 318400
    },
    {
      "epoch": 0.6633541666666667,
      "grad_norm": 0.8397150039672852,
      "learning_rate": 7.693486588216194e-05,
      "loss": 3.6656,
      "step": 318410
    },
    {
      "epoch": 0.663375,
      "grad_norm": 1.0294766426086426,
      "learning_rate": 7.692625611388172e-05,
      "loss": 3.7859,
      "step": 318420
    },
    {
      "epoch": 0.6633958333333333,
      "grad_norm": 0.8321015238761902,
      "learning_rate": 7.691764666125122e-05,
      "loss": 3.7956,
      "step": 318430
    },
    {
      "epoch": 0.6634166666666667,
      "grad_norm": 0.8128083348274231,
      "learning_rate": 7.690903752430745e-05,
      "loss": 3.7303,
      "step": 318440
    },
    {
      "epoch": 0.6634375,
      "grad_norm": 0.8293928503990173,
      "learning_rate": 7.690042870308774e-05,
      "loss": 3.7997,
      "step": 318450
    },
    {
      "epoch": 0.6634583333333334,
      "grad_norm": 0.7734391093254089,
      "learning_rate": 7.689182019762934e-05,
      "loss": 3.5738,
      "step": 318460
    },
    {
      "epoch": 0.6634791666666666,
      "grad_norm": 0.8331369757652283,
      "learning_rate": 7.688321200796918e-05,
      "loss": 3.6356,
      "step": 318470
    },
    {
      "epoch": 0.6635,
      "grad_norm": 0.8520751595497131,
      "learning_rate": 7.687460413414468e-05,
      "loss": 3.8694,
      "step": 318480
    },
    {
      "epoch": 0.6635208333333333,
      "grad_norm": 0.7441823482513428,
      "learning_rate": 7.686599657619302e-05,
      "loss": 3.622,
      "step": 318490
    },
    {
      "epoch": 0.6635416666666667,
      "grad_norm": 0.8974111080169678,
      "learning_rate": 7.685738933415117e-05,
      "loss": 3.7754,
      "step": 318500
    },
    {
      "epoch": 0.6635625,
      "grad_norm": 0.8571175932884216,
      "learning_rate": 7.684878240805651e-05,
      "loss": 3.8264,
      "step": 318510
    },
    {
      "epoch": 0.6635833333333333,
      "grad_norm": 0.9214248657226562,
      "learning_rate": 7.68401757979462e-05,
      "loss": 3.8304,
      "step": 318520
    },
    {
      "epoch": 0.6636041666666667,
      "grad_norm": 0.9088340401649475,
      "learning_rate": 7.683156950385728e-05,
      "loss": 3.6419,
      "step": 318530
    },
    {
      "epoch": 0.663625,
      "grad_norm": 0.8808110356330872,
      "learning_rate": 7.682296352582711e-05,
      "loss": 3.8937,
      "step": 318540
    },
    {
      "epoch": 0.6636458333333334,
      "grad_norm": 0.7773288488388062,
      "learning_rate": 7.681435786389272e-05,
      "loss": 3.835,
      "step": 318550
    },
    {
      "epoch": 0.6636666666666666,
      "grad_norm": 0.9190637469291687,
      "learning_rate": 7.680575251809133e-05,
      "loss": 3.864,
      "step": 318560
    },
    {
      "epoch": 0.6636875,
      "grad_norm": 0.9289706349372864,
      "learning_rate": 7.679714748846014e-05,
      "loss": 3.8054,
      "step": 318570
    },
    {
      "epoch": 0.6637083333333333,
      "grad_norm": 0.8554165363311768,
      "learning_rate": 7.678854277503629e-05,
      "loss": 3.8589,
      "step": 318580
    },
    {
      "epoch": 0.6637291666666667,
      "grad_norm": 1.0026816129684448,
      "learning_rate": 7.677993837785694e-05,
      "loss": 3.811,
      "step": 318590
    },
    {
      "epoch": 0.66375,
      "grad_norm": 0.8052815794944763,
      "learning_rate": 7.677133429695928e-05,
      "loss": 3.7403,
      "step": 318600
    },
    {
      "epoch": 0.6637708333333333,
      "grad_norm": 0.8358234763145447,
      "learning_rate": 7.676273053238047e-05,
      "loss": 3.751,
      "step": 318610
    },
    {
      "epoch": 0.6637916666666667,
      "grad_norm": 0.832210898399353,
      "learning_rate": 7.67541270841577e-05,
      "loss": 3.64,
      "step": 318620
    },
    {
      "epoch": 0.6638125,
      "grad_norm": 1.018402338027954,
      "learning_rate": 7.674552395232806e-05,
      "loss": 3.9263,
      "step": 318630
    },
    {
      "epoch": 0.6638333333333334,
      "grad_norm": 0.8986802101135254,
      "learning_rate": 7.67369211369288e-05,
      "loss": 3.9108,
      "step": 318640
    },
    {
      "epoch": 0.6638541666666666,
      "grad_norm": 0.7688831686973572,
      "learning_rate": 7.672831863799701e-05,
      "loss": 3.6903,
      "step": 318650
    },
    {
      "epoch": 0.663875,
      "grad_norm": 1.0047186613082886,
      "learning_rate": 7.67197164555699e-05,
      "loss": 3.7376,
      "step": 318660
    },
    {
      "epoch": 0.6638958333333334,
      "grad_norm": 0.7583631873130798,
      "learning_rate": 7.671111458968462e-05,
      "loss": 3.8247,
      "step": 318670
    },
    {
      "epoch": 0.6639166666666667,
      "grad_norm": 0.8374257683753967,
      "learning_rate": 7.67025130403783e-05,
      "loss": 3.8503,
      "step": 318680
    },
    {
      "epoch": 0.6639375,
      "grad_norm": 1.0195209980010986,
      "learning_rate": 7.669391180768812e-05,
      "loss": 3.8917,
      "step": 318690
    },
    {
      "epoch": 0.6639583333333333,
      "grad_norm": 0.8679386973381042,
      "learning_rate": 7.66853108916512e-05,
      "loss": 3.9183,
      "step": 318700
    },
    {
      "epoch": 0.6639791666666667,
      "grad_norm": 0.872708797454834,
      "learning_rate": 7.667671029230473e-05,
      "loss": 3.698,
      "step": 318710
    },
    {
      "epoch": 0.664,
      "grad_norm": 0.8757192492485046,
      "learning_rate": 7.666811000968586e-05,
      "loss": 3.696,
      "step": 318720
    },
    {
      "epoch": 0.6640208333333333,
      "grad_norm": 0.847076952457428,
      "learning_rate": 7.665951004383173e-05,
      "loss": 3.7777,
      "step": 318730
    },
    {
      "epoch": 0.6640416666666666,
      "grad_norm": 0.7706891298294067,
      "learning_rate": 7.665091039477948e-05,
      "loss": 3.6424,
      "step": 318740
    },
    {
      "epoch": 0.6640625,
      "grad_norm": 1.0354347229003906,
      "learning_rate": 7.664231106256625e-05,
      "loss": 3.8737,
      "step": 318750
    },
    {
      "epoch": 0.6640833333333334,
      "grad_norm": 0.7594962120056152,
      "learning_rate": 7.663371204722921e-05,
      "loss": 3.7582,
      "step": 318760
    },
    {
      "epoch": 0.6641041666666667,
      "grad_norm": 0.7648463249206543,
      "learning_rate": 7.662511334880549e-05,
      "loss": 3.7312,
      "step": 318770
    },
    {
      "epoch": 0.664125,
      "grad_norm": 0.910737931728363,
      "learning_rate": 7.661651496733223e-05,
      "loss": 3.623,
      "step": 318780
    },
    {
      "epoch": 0.6641458333333333,
      "grad_norm": 0.905921459197998,
      "learning_rate": 7.66079169028466e-05,
      "loss": 3.7876,
      "step": 318790
    },
    {
      "epoch": 0.6641666666666667,
      "grad_norm": 0.9051864743232727,
      "learning_rate": 7.659931915538576e-05,
      "loss": 3.9342,
      "step": 318800
    },
    {
      "epoch": 0.6641875,
      "grad_norm": 0.8078153133392334,
      "learning_rate": 7.65907217249867e-05,
      "loss": 4.0114,
      "step": 318810
    },
    {
      "epoch": 0.6642083333333333,
      "grad_norm": 0.8411827087402344,
      "learning_rate": 7.65821246116867e-05,
      "loss": 3.884,
      "step": 318820
    },
    {
      "epoch": 0.6642291666666666,
      "grad_norm": 0.8528584241867065,
      "learning_rate": 7.657352781552295e-05,
      "loss": 3.8267,
      "step": 318830
    },
    {
      "epoch": 0.66425,
      "grad_norm": 0.8278588652610779,
      "learning_rate": 7.656493133653236e-05,
      "loss": 3.6866,
      "step": 318840
    },
    {
      "epoch": 0.6642708333333334,
      "grad_norm": 0.7698395252227783,
      "learning_rate": 7.655633517475227e-05,
      "loss": 3.8417,
      "step": 318850
    },
    {
      "epoch": 0.6642916666666666,
      "grad_norm": 0.8534837365150452,
      "learning_rate": 7.654773933021978e-05,
      "loss": 3.7648,
      "step": 318860
    },
    {
      "epoch": 0.6643125,
      "grad_norm": 0.8173899054527283,
      "learning_rate": 7.653914380297195e-05,
      "loss": 3.826,
      "step": 318870
    },
    {
      "epoch": 0.6643333333333333,
      "grad_norm": 0.8591607809066772,
      "learning_rate": 7.653054859304584e-05,
      "loss": 3.6906,
      "step": 318880
    },
    {
      "epoch": 0.6643541666666667,
      "grad_norm": 0.974635124206543,
      "learning_rate": 7.652195370047884e-05,
      "loss": 3.8622,
      "step": 318890
    },
    {
      "epoch": 0.664375,
      "grad_norm": 0.8702691197395325,
      "learning_rate": 7.651335912530784e-05,
      "loss": 3.8436,
      "step": 318900
    },
    {
      "epoch": 0.6643958333333333,
      "grad_norm": 0.8769306540489197,
      "learning_rate": 7.650476486756998e-05,
      "loss": 3.6518,
      "step": 318910
    },
    {
      "epoch": 0.6644166666666667,
      "grad_norm": 1.001944899559021,
      "learning_rate": 7.649617092730257e-05,
      "loss": 3.6255,
      "step": 318920
    },
    {
      "epoch": 0.6644375,
      "grad_norm": 0.7791497111320496,
      "learning_rate": 7.648757730454255e-05,
      "loss": 3.8658,
      "step": 318930
    },
    {
      "epoch": 0.6644583333333334,
      "grad_norm": 0.8741869926452637,
      "learning_rate": 7.647898399932707e-05,
      "loss": 3.6879,
      "step": 318940
    },
    {
      "epoch": 0.6644791666666666,
      "grad_norm": 0.9084973931312561,
      "learning_rate": 7.647039101169331e-05,
      "loss": 3.6459,
      "step": 318950
    },
    {
      "epoch": 0.6645,
      "grad_norm": 0.9671688079833984,
      "learning_rate": 7.646179834167834e-05,
      "loss": 3.7749,
      "step": 318960
    },
    {
      "epoch": 0.6645208333333333,
      "grad_norm": 0.767659068107605,
      "learning_rate": 7.645320598931929e-05,
      "loss": 3.6825,
      "step": 318970
    },
    {
      "epoch": 0.6645416666666667,
      "grad_norm": 0.7642385363578796,
      "learning_rate": 7.64446139546533e-05,
      "loss": 3.8661,
      "step": 318980
    },
    {
      "epoch": 0.6645625,
      "grad_norm": 0.8104299902915955,
      "learning_rate": 7.643602223771744e-05,
      "loss": 3.927,
      "step": 318990
    },
    {
      "epoch": 0.6645833333333333,
      "grad_norm": 0.87750643491745,
      "learning_rate": 7.642743083854886e-05,
      "loss": 3.6825,
      "step": 319000
    },
    {
      "epoch": 0.6645833333333333,
      "eval_loss": 4.061716079711914,
      "eval_runtime": 9.4416,
      "eval_samples_per_second": 1.059,
      "eval_steps_per_second": 0.318,
      "step": 319000
    },
    {
      "epoch": 0.6646041666666667,
      "grad_norm": 0.9769930839538574,
      "learning_rate": 7.641883975718465e-05,
      "loss": 3.7544,
      "step": 319010
    },
    {
      "epoch": 0.664625,
      "grad_norm": 0.8346441984176636,
      "learning_rate": 7.64102489936619e-05,
      "loss": 3.6215,
      "step": 319020
    },
    {
      "epoch": 0.6646458333333334,
      "grad_norm": 0.914435863494873,
      "learning_rate": 7.64016585480178e-05,
      "loss": 3.8102,
      "step": 319030
    },
    {
      "epoch": 0.6646666666666666,
      "grad_norm": 1.0985950231552124,
      "learning_rate": 7.639306842028936e-05,
      "loss": 3.8228,
      "step": 319040
    },
    {
      "epoch": 0.6646875,
      "grad_norm": 0.8885372281074524,
      "learning_rate": 7.638447861051374e-05,
      "loss": 3.6447,
      "step": 319050
    },
    {
      "epoch": 0.6647083333333333,
      "grad_norm": 0.8352801203727722,
      "learning_rate": 7.637588911872804e-05,
      "loss": 3.7273,
      "step": 319060
    },
    {
      "epoch": 0.6647291666666667,
      "grad_norm": 0.8428636193275452,
      "learning_rate": 7.636729994496936e-05,
      "loss": 3.8309,
      "step": 319070
    },
    {
      "epoch": 0.66475,
      "grad_norm": 0.8178402185440063,
      "learning_rate": 7.635871108927479e-05,
      "loss": 3.6697,
      "step": 319080
    },
    {
      "epoch": 0.6647708333333333,
      "grad_norm": 0.9742163419723511,
      "learning_rate": 7.635012255168143e-05,
      "loss": 3.9001,
      "step": 319090
    },
    {
      "epoch": 0.6647916666666667,
      "grad_norm": 0.8148069381713867,
      "learning_rate": 7.634153433222641e-05,
      "loss": 3.7744,
      "step": 319100
    },
    {
      "epoch": 0.6648125,
      "grad_norm": 0.8039213418960571,
      "learning_rate": 7.633294643094677e-05,
      "loss": 3.6923,
      "step": 319110
    },
    {
      "epoch": 0.6648333333333334,
      "grad_norm": 0.8476985096931458,
      "learning_rate": 7.632435884787968e-05,
      "loss": 3.5411,
      "step": 319120
    },
    {
      "epoch": 0.6648541666666666,
      "grad_norm": 0.8490122556686401,
      "learning_rate": 7.631577158306219e-05,
      "loss": 3.8831,
      "step": 319130
    },
    {
      "epoch": 0.664875,
      "grad_norm": 0.80463045835495,
      "learning_rate": 7.630718463653139e-05,
      "loss": 3.9164,
      "step": 319140
    },
    {
      "epoch": 0.6648958333333334,
      "grad_norm": 0.9166620373725891,
      "learning_rate": 7.629859800832443e-05,
      "loss": 3.7401,
      "step": 319150
    },
    {
      "epoch": 0.6649166666666667,
      "grad_norm": 0.7839932441711426,
      "learning_rate": 7.629001169847828e-05,
      "loss": 3.682,
      "step": 319160
    },
    {
      "epoch": 0.6649375,
      "grad_norm": 0.7996805310249329,
      "learning_rate": 7.628142570703017e-05,
      "loss": 3.725,
      "step": 319170
    },
    {
      "epoch": 0.6649583333333333,
      "grad_norm": 0.9257821440696716,
      "learning_rate": 7.627284003401708e-05,
      "loss": 3.6023,
      "step": 319180
    },
    {
      "epoch": 0.6649791666666667,
      "grad_norm": 0.791917085647583,
      "learning_rate": 7.626425467947609e-05,
      "loss": 3.7704,
      "step": 319190
    },
    {
      "epoch": 0.665,
      "grad_norm": 0.8986477851867676,
      "learning_rate": 7.625566964344444e-05,
      "loss": 3.6803,
      "step": 319200
    },
    {
      "epoch": 0.6650208333333333,
      "grad_norm": 0.9114746451377869,
      "learning_rate": 7.624708492595905e-05,
      "loss": 3.6478,
      "step": 319210
    },
    {
      "epoch": 0.6650416666666666,
      "grad_norm": 0.7979359030723572,
      "learning_rate": 7.623850052705701e-05,
      "loss": 3.6665,
      "step": 319220
    },
    {
      "epoch": 0.6650625,
      "grad_norm": 0.904062807559967,
      "learning_rate": 7.622991644677556e-05,
      "loss": 3.7883,
      "step": 319230
    },
    {
      "epoch": 0.6650833333333334,
      "grad_norm": 0.7405017018318176,
      "learning_rate": 7.622133268515159e-05,
      "loss": 3.5407,
      "step": 319240
    },
    {
      "epoch": 0.6651041666666667,
      "grad_norm": 0.801140546798706,
      "learning_rate": 7.621274924222224e-05,
      "loss": 3.5753,
      "step": 319250
    },
    {
      "epoch": 0.665125,
      "grad_norm": 0.8084222078323364,
      "learning_rate": 7.620416611802471e-05,
      "loss": 3.7187,
      "step": 319260
    },
    {
      "epoch": 0.6651458333333333,
      "grad_norm": 0.8693166971206665,
      "learning_rate": 7.619558331259591e-05,
      "loss": 3.7993,
      "step": 319270
    },
    {
      "epoch": 0.6651666666666667,
      "grad_norm": 0.8861227631568909,
      "learning_rate": 7.618700082597291e-05,
      "loss": 3.6706,
      "step": 319280
    },
    {
      "epoch": 0.6651875,
      "grad_norm": 0.7888959050178528,
      "learning_rate": 7.617841865819298e-05,
      "loss": 3.6969,
      "step": 319290
    },
    {
      "epoch": 0.6652083333333333,
      "grad_norm": 1.0429134368896484,
      "learning_rate": 7.616983680929298e-05,
      "loss": 3.5869,
      "step": 319300
    },
    {
      "epoch": 0.6652291666666666,
      "grad_norm": 0.8709481954574585,
      "learning_rate": 7.616125527931009e-05,
      "loss": 3.6455,
      "step": 319310
    },
    {
      "epoch": 0.66525,
      "grad_norm": 0.9831148982048035,
      "learning_rate": 7.615267406828133e-05,
      "loss": 3.8063,
      "step": 319320
    },
    {
      "epoch": 0.6652708333333334,
      "grad_norm": 1.0112475156784058,
      "learning_rate": 7.614409317624381e-05,
      "loss": 3.7768,
      "step": 319330
    },
    {
      "epoch": 0.6652916666666666,
      "grad_norm": 0.7926725149154663,
      "learning_rate": 7.613551260323456e-05,
      "loss": 3.7329,
      "step": 319340
    },
    {
      "epoch": 0.6653125,
      "grad_norm": 0.8977535963058472,
      "learning_rate": 7.612693234929065e-05,
      "loss": 3.3881,
      "step": 319350
    },
    {
      "epoch": 0.6653333333333333,
      "grad_norm": 0.7979468703269958,
      "learning_rate": 7.611835241444915e-05,
      "loss": 3.7812,
      "step": 319360
    },
    {
      "epoch": 0.6653541666666667,
      "grad_norm": 1.1550769805908203,
      "learning_rate": 7.610977279874713e-05,
      "loss": 3.6728,
      "step": 319370
    },
    {
      "epoch": 0.665375,
      "grad_norm": 0.9784559011459351,
      "learning_rate": 7.610119350222166e-05,
      "loss": 3.5924,
      "step": 319380
    },
    {
      "epoch": 0.6653958333333333,
      "grad_norm": 1.0407458543777466,
      "learning_rate": 7.609261452490975e-05,
      "loss": 3.8019,
      "step": 319390
    },
    {
      "epoch": 0.6654166666666667,
      "grad_norm": 1.034163236618042,
      "learning_rate": 7.608403586684851e-05,
      "loss": 3.8893,
      "step": 319400
    },
    {
      "epoch": 0.6654375,
      "grad_norm": 0.8713035583496094,
      "learning_rate": 7.607545752807496e-05,
      "loss": 3.6906,
      "step": 319410
    },
    {
      "epoch": 0.6654583333333334,
      "grad_norm": 0.8411168456077576,
      "learning_rate": 7.60668795086262e-05,
      "loss": 3.6182,
      "step": 319420
    },
    {
      "epoch": 0.6654791666666666,
      "grad_norm": 0.8128985166549683,
      "learning_rate": 7.605830180853924e-05,
      "loss": 4.0338,
      "step": 319430
    },
    {
      "epoch": 0.6655,
      "grad_norm": 0.8219438791275024,
      "learning_rate": 7.604972442785114e-05,
      "loss": 3.8171,
      "step": 319440
    },
    {
      "epoch": 0.6655208333333333,
      "grad_norm": 0.7700234651565552,
      "learning_rate": 7.604114736659897e-05,
      "loss": 3.7639,
      "step": 319450
    },
    {
      "epoch": 0.6655416666666667,
      "grad_norm": 0.898142397403717,
      "learning_rate": 7.603257062481984e-05,
      "loss": 3.7202,
      "step": 319460
    },
    {
      "epoch": 0.6655625,
      "grad_norm": 1.0733745098114014,
      "learning_rate": 7.602399420255058e-05,
      "loss": 3.6846,
      "step": 319470
    },
    {
      "epoch": 0.6655833333333333,
      "grad_norm": 0.9048404097557068,
      "learning_rate": 7.601541809982848e-05,
      "loss": 3.7153,
      "step": 319480
    },
    {
      "epoch": 0.6656041666666667,
      "grad_norm": 1.9640471935272217,
      "learning_rate": 7.600684231669052e-05,
      "loss": 3.4614,
      "step": 319490
    },
    {
      "epoch": 0.665625,
      "grad_norm": 0.8712752461433411,
      "learning_rate": 7.599826685317359e-05,
      "loss": 3.7659,
      "step": 319500
    },
    {
      "epoch": 0.6656458333333334,
      "grad_norm": 0.8972277045249939,
      "learning_rate": 7.598969170931494e-05,
      "loss": 3.807,
      "step": 319510
    },
    {
      "epoch": 0.6656666666666666,
      "grad_norm": 0.8553545475006104,
      "learning_rate": 7.598111688515154e-05,
      "loss": 3.6752,
      "step": 319520
    },
    {
      "epoch": 0.6656875,
      "grad_norm": 0.8231286406517029,
      "learning_rate": 7.597254238072036e-05,
      "loss": 3.6342,
      "step": 319530
    },
    {
      "epoch": 0.6657083333333333,
      "grad_norm": 0.9253714680671692,
      "learning_rate": 7.596396819605857e-05,
      "loss": 3.9416,
      "step": 319540
    },
    {
      "epoch": 0.6657291666666667,
      "grad_norm": 0.8520025014877319,
      "learning_rate": 7.595539433120308e-05,
      "loss": 3.7641,
      "step": 319550
    },
    {
      "epoch": 0.66575,
      "grad_norm": 0.8875942826271057,
      "learning_rate": 7.594682078619092e-05,
      "loss": 3.5994,
      "step": 319560
    },
    {
      "epoch": 0.6657708333333333,
      "grad_norm": 0.8965184092521667,
      "learning_rate": 7.593824756105929e-05,
      "loss": 3.7382,
      "step": 319570
    },
    {
      "epoch": 0.6657916666666667,
      "grad_norm": 0.7997374534606934,
      "learning_rate": 7.592967465584508e-05,
      "loss": 3.7404,
      "step": 319580
    },
    {
      "epoch": 0.6658125,
      "grad_norm": 0.7956851124763489,
      "learning_rate": 7.592110207058528e-05,
      "loss": 3.8157,
      "step": 319590
    },
    {
      "epoch": 0.6658333333333334,
      "grad_norm": 0.916199266910553,
      "learning_rate": 7.591252980531712e-05,
      "loss": 3.6542,
      "step": 319600
    },
    {
      "epoch": 0.6658541666666666,
      "grad_norm": 0.8751868605613708,
      "learning_rate": 7.590395786007746e-05,
      "loss": 3.7572,
      "step": 319610
    },
    {
      "epoch": 0.665875,
      "grad_norm": 0.9474404454231262,
      "learning_rate": 7.589538623490329e-05,
      "loss": 3.9763,
      "step": 319620
    },
    {
      "epoch": 0.6658958333333334,
      "grad_norm": 1.2033840417861938,
      "learning_rate": 7.588681492983185e-05,
      "loss": 3.7531,
      "step": 319630
    },
    {
      "epoch": 0.6659166666666667,
      "grad_norm": 0.9846284985542297,
      "learning_rate": 7.587824394489999e-05,
      "loss": 3.6313,
      "step": 319640
    },
    {
      "epoch": 0.6659375,
      "grad_norm": 0.7741900682449341,
      "learning_rate": 7.586967328014469e-05,
      "loss": 3.9011,
      "step": 319650
    },
    {
      "epoch": 0.6659583333333333,
      "grad_norm": 0.8257296681404114,
      "learning_rate": 7.586110293560318e-05,
      "loss": 3.6504,
      "step": 319660
    },
    {
      "epoch": 0.6659791666666667,
      "grad_norm": 0.8568748831748962,
      "learning_rate": 7.58525329113123e-05,
      "loss": 3.8269,
      "step": 319670
    },
    {
      "epoch": 0.666,
      "grad_norm": 0.8593159914016724,
      "learning_rate": 7.584396320730913e-05,
      "loss": 3.6481,
      "step": 319680
    },
    {
      "epoch": 0.6660208333333333,
      "grad_norm": 0.9127078056335449,
      "learning_rate": 7.583539382363071e-05,
      "loss": 3.773,
      "step": 319690
    },
    {
      "epoch": 0.6660416666666666,
      "grad_norm": 0.9864776730537415,
      "learning_rate": 7.5826824760314e-05,
      "loss": 3.7058,
      "step": 319700
    },
    {
      "epoch": 0.6660625,
      "grad_norm": 1.1181740760803223,
      "learning_rate": 7.581825601739607e-05,
      "loss": 3.7485,
      "step": 319710
    },
    {
      "epoch": 0.6660833333333334,
      "grad_norm": 0.9030084609985352,
      "learning_rate": 7.58096875949139e-05,
      "loss": 3.6827,
      "step": 319720
    },
    {
      "epoch": 0.6661041666666667,
      "grad_norm": 0.8155578970909119,
      "learning_rate": 7.580111949290452e-05,
      "loss": 3.5517,
      "step": 319730
    },
    {
      "epoch": 0.666125,
      "grad_norm": 0.9809367656707764,
      "learning_rate": 7.579255171140491e-05,
      "loss": 3.8141,
      "step": 319740
    },
    {
      "epoch": 0.6661458333333333,
      "grad_norm": 1.1110239028930664,
      "learning_rate": 7.578398425045214e-05,
      "loss": 3.5709,
      "step": 319750
    },
    {
      "epoch": 0.6661666666666667,
      "grad_norm": 0.8808749318122864,
      "learning_rate": 7.577541711008315e-05,
      "loss": 3.7394,
      "step": 319760
    },
    {
      "epoch": 0.6661875,
      "grad_norm": 3.6106793880462646,
      "learning_rate": 7.576685029033499e-05,
      "loss": 3.8284,
      "step": 319770
    },
    {
      "epoch": 0.6662083333333333,
      "grad_norm": 0.8523858785629272,
      "learning_rate": 7.575828379124466e-05,
      "loss": 3.6285,
      "step": 319780
    },
    {
      "epoch": 0.6662291666666667,
      "grad_norm": 0.8770409822463989,
      "learning_rate": 7.574971761284914e-05,
      "loss": 3.9175,
      "step": 319790
    },
    {
      "epoch": 0.66625,
      "grad_norm": 0.8306683897972107,
      "learning_rate": 7.574115175518552e-05,
      "loss": 3.7064,
      "step": 319800
    },
    {
      "epoch": 0.6662708333333334,
      "grad_norm": 0.8697738647460938,
      "learning_rate": 7.57325862182906e-05,
      "loss": 3.7385,
      "step": 319810
    },
    {
      "epoch": 0.6662916666666666,
      "grad_norm": 1.0307499170303345,
      "learning_rate": 7.572402100220159e-05,
      "loss": 3.6535,
      "step": 319820
    },
    {
      "epoch": 0.6663125,
      "grad_norm": 0.8370124697685242,
      "learning_rate": 7.571545610695546e-05,
      "loss": 3.7166,
      "step": 319830
    },
    {
      "epoch": 0.6663333333333333,
      "grad_norm": 0.8882393836975098,
      "learning_rate": 7.570689153258904e-05,
      "loss": 3.699,
      "step": 319840
    },
    {
      "epoch": 0.6663541666666667,
      "grad_norm": 0.8952146768569946,
      "learning_rate": 7.569832727913949e-05,
      "loss": 3.6336,
      "step": 319850
    },
    {
      "epoch": 0.666375,
      "grad_norm": 0.936819851398468,
      "learning_rate": 7.568976334664384e-05,
      "loss": 3.7412,
      "step": 319860
    },
    {
      "epoch": 0.6663958333333333,
      "grad_norm": 1.0961575508117676,
      "learning_rate": 7.568119973513885e-05,
      "loss": 3.9259,
      "step": 319870
    },
    {
      "epoch": 0.6664166666666667,
      "grad_norm": 0.7933797836303711,
      "learning_rate": 7.567263644466173e-05,
      "loss": 3.899,
      "step": 319880
    },
    {
      "epoch": 0.6664375,
      "grad_norm": 1.038637399673462,
      "learning_rate": 7.566407347524947e-05,
      "loss": 3.6377,
      "step": 319890
    },
    {
      "epoch": 0.6664583333333334,
      "grad_norm": 0.8197243213653564,
      "learning_rate": 7.565551082693885e-05,
      "loss": 3.6267,
      "step": 319900
    },
    {
      "epoch": 0.6664791666666666,
      "grad_norm": 0.7919917106628418,
      "learning_rate": 7.564694849976705e-05,
      "loss": 3.6595,
      "step": 319910
    },
    {
      "epoch": 0.6665,
      "grad_norm": 1.0110642910003662,
      "learning_rate": 7.563838649377109e-05,
      "loss": 3.55,
      "step": 319920
    },
    {
      "epoch": 0.6665208333333333,
      "grad_norm": 0.793698251247406,
      "learning_rate": 7.562982480898773e-05,
      "loss": 3.6683,
      "step": 319930
    },
    {
      "epoch": 0.6665416666666667,
      "grad_norm": 0.8087596297264099,
      "learning_rate": 7.562126344545421e-05,
      "loss": 3.6543,
      "step": 319940
    },
    {
      "epoch": 0.6665625,
      "grad_norm": 0.9957728981971741,
      "learning_rate": 7.561270240320734e-05,
      "loss": 3.9059,
      "step": 319950
    },
    {
      "epoch": 0.6665833333333333,
      "grad_norm": 0.8904322981834412,
      "learning_rate": 7.560414168228407e-05,
      "loss": 3.6788,
      "step": 319960
    },
    {
      "epoch": 0.6666041666666667,
      "grad_norm": 0.7832931280136108,
      "learning_rate": 7.559558128272158e-05,
      "loss": 3.7899,
      "step": 319970
    },
    {
      "epoch": 0.666625,
      "grad_norm": 0.8362481594085693,
      "learning_rate": 7.558702120455669e-05,
      "loss": 3.8529,
      "step": 319980
    },
    {
      "epoch": 0.6666458333333334,
      "grad_norm": 0.7952736616134644,
      "learning_rate": 7.557846144782635e-05,
      "loss": 3.8671,
      "step": 319990
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.8698785901069641,
      "learning_rate": 7.556990201256771e-05,
      "loss": 3.8881,
      "step": 320000
    },
    {
      "epoch": 0.6666666666666666,
      "eval_loss": 4.069220066070557,
      "eval_runtime": 8.252,
      "eval_samples_per_second": 1.212,
      "eval_steps_per_second": 0.364,
      "step": 320000
    },
    {
      "epoch": 0.6666875,
      "grad_norm": 0.9757423400878906,
      "learning_rate": 7.556134289881758e-05,
      "loss": 3.6644,
      "step": 320010
    },
    {
      "epoch": 0.6667083333333333,
      "grad_norm": 0.8199576735496521,
      "learning_rate": 7.555278410661292e-05,
      "loss": 3.6523,
      "step": 320020
    },
    {
      "epoch": 0.6667291666666667,
      "grad_norm": 0.8301859498023987,
      "learning_rate": 7.554422563599088e-05,
      "loss": 3.7247,
      "step": 320030
    },
    {
      "epoch": 0.66675,
      "grad_norm": 0.9331613779067993,
      "learning_rate": 7.553566748698825e-05,
      "loss": 3.6037,
      "step": 320040
    },
    {
      "epoch": 0.6667708333333333,
      "grad_norm": 0.8456228971481323,
      "learning_rate": 7.552710965964208e-05,
      "loss": 3.7684,
      "step": 320050
    },
    {
      "epoch": 0.6667916666666667,
      "grad_norm": 0.8011669516563416,
      "learning_rate": 7.551855215398928e-05,
      "loss": 3.7005,
      "step": 320060
    },
    {
      "epoch": 0.6668125,
      "grad_norm": 0.9179158806800842,
      "learning_rate": 7.55099949700669e-05,
      "loss": 3.729,
      "step": 320070
    },
    {
      "epoch": 0.6668333333333333,
      "grad_norm": 0.8231731653213501,
      "learning_rate": 7.550143810791183e-05,
      "loss": 3.5479,
      "step": 320080
    },
    {
      "epoch": 0.6668541666666666,
      "grad_norm": 0.970116138458252,
      "learning_rate": 7.549288156756107e-05,
      "loss": 3.7595,
      "step": 320090
    },
    {
      "epoch": 0.666875,
      "grad_norm": 0.8762081265449524,
      "learning_rate": 7.548432534905157e-05,
      "loss": 3.6844,
      "step": 320100
    },
    {
      "epoch": 0.6668958333333334,
      "grad_norm": 0.7917492985725403,
      "learning_rate": 7.547576945242027e-05,
      "loss": 3.6588,
      "step": 320110
    },
    {
      "epoch": 0.6669166666666667,
      "grad_norm": 1.1381837129592896,
      "learning_rate": 7.546721387770416e-05,
      "loss": 3.6445,
      "step": 320120
    },
    {
      "epoch": 0.6669375,
      "grad_norm": 0.8458663821220398,
      "learning_rate": 7.545865862494018e-05,
      "loss": 3.748,
      "step": 320130
    },
    {
      "epoch": 0.6669583333333333,
      "grad_norm": 0.8652430772781372,
      "learning_rate": 7.545010369416529e-05,
      "loss": 3.7239,
      "step": 320140
    },
    {
      "epoch": 0.6669791666666667,
      "grad_norm": 0.9123489856719971,
      "learning_rate": 7.544154908541646e-05,
      "loss": 3.8359,
      "step": 320150
    },
    {
      "epoch": 0.667,
      "grad_norm": 0.8816556930541992,
      "learning_rate": 7.54329947987306e-05,
      "loss": 3.7267,
      "step": 320160
    },
    {
      "epoch": 0.6670208333333333,
      "grad_norm": 0.9698179364204407,
      "learning_rate": 7.542444083414476e-05,
      "loss": 3.8043,
      "step": 320170
    },
    {
      "epoch": 0.6670416666666666,
      "grad_norm": 0.8564957976341248,
      "learning_rate": 7.541588719169569e-05,
      "loss": 3.7569,
      "step": 320180
    },
    {
      "epoch": 0.6670625,
      "grad_norm": 0.9200188517570496,
      "learning_rate": 7.540733387142053e-05,
      "loss": 3.7273,
      "step": 320190
    },
    {
      "epoch": 0.6670833333333334,
      "grad_norm": 0.8077506422996521,
      "learning_rate": 7.539878087335621e-05,
      "loss": 3.7316,
      "step": 320200
    },
    {
      "epoch": 0.6671041666666667,
      "grad_norm": 0.792268693447113,
      "learning_rate": 7.539022819753953e-05,
      "loss": 3.6673,
      "step": 320210
    },
    {
      "epoch": 0.667125,
      "grad_norm": 0.879560112953186,
      "learning_rate": 7.538167584400758e-05,
      "loss": 3.7253,
      "step": 320220
    },
    {
      "epoch": 0.6671458333333333,
      "grad_norm": 0.7936256527900696,
      "learning_rate": 7.537312381279732e-05,
      "loss": 3.8532,
      "step": 320230
    },
    {
      "epoch": 0.6671666666666667,
      "grad_norm": 0.8960935473442078,
      "learning_rate": 7.53645721039455e-05,
      "loss": 3.7651,
      "step": 320240
    },
    {
      "epoch": 0.6671875,
      "grad_norm": 0.9961692690849304,
      "learning_rate": 7.535602071748925e-05,
      "loss": 3.7611,
      "step": 320250
    },
    {
      "epoch": 0.6672083333333333,
      "grad_norm": 0.8523529171943665,
      "learning_rate": 7.534746965346549e-05,
      "loss": 3.7251,
      "step": 320260
    },
    {
      "epoch": 0.6672291666666667,
      "grad_norm": 0.8002539873123169,
      "learning_rate": 7.5338918911911e-05,
      "loss": 3.6159,
      "step": 320270
    },
    {
      "epoch": 0.66725,
      "grad_norm": 1.0340015888214111,
      "learning_rate": 7.533036849286289e-05,
      "loss": 3.634,
      "step": 320280
    },
    {
      "epoch": 0.6672708333333334,
      "grad_norm": 0.7637786865234375,
      "learning_rate": 7.53218183963581e-05,
      "loss": 3.8051,
      "step": 320290
    },
    {
      "epoch": 0.6672916666666666,
      "grad_norm": 0.8718059659004211,
      "learning_rate": 7.531326862243338e-05,
      "loss": 3.6149,
      "step": 320300
    },
    {
      "epoch": 0.6673125,
      "grad_norm": 0.7752103805541992,
      "learning_rate": 7.530471917112587e-05,
      "loss": 3.7275,
      "step": 320310
    },
    {
      "epoch": 0.6673333333333333,
      "grad_norm": 0.9364464282989502,
      "learning_rate": 7.529617004247236e-05,
      "loss": 3.7392,
      "step": 320320
    },
    {
      "epoch": 0.6673541666666667,
      "grad_norm": 0.9557632803916931,
      "learning_rate": 7.528762123650983e-05,
      "loss": 3.5774,
      "step": 320330
    },
    {
      "epoch": 0.667375,
      "grad_norm": 0.8601961731910706,
      "learning_rate": 7.527907275327519e-05,
      "loss": 3.8673,
      "step": 320340
    },
    {
      "epoch": 0.6673958333333333,
      "grad_norm": 0.8462268114089966,
      "learning_rate": 7.52705245928054e-05,
      "loss": 3.8148,
      "step": 320350
    },
    {
      "epoch": 0.6674166666666667,
      "grad_norm": 0.9394473433494568,
      "learning_rate": 7.526197675513734e-05,
      "loss": 3.5798,
      "step": 320360
    },
    {
      "epoch": 0.6674375,
      "grad_norm": 0.9646133780479431,
      "learning_rate": 7.525342924030796e-05,
      "loss": 3.6445,
      "step": 320370
    },
    {
      "epoch": 0.6674583333333334,
      "grad_norm": 0.9052524566650391,
      "learning_rate": 7.52448820483542e-05,
      "loss": 3.8479,
      "step": 320380
    },
    {
      "epoch": 0.6674791666666666,
      "grad_norm": 0.804680347442627,
      "learning_rate": 7.523633517931294e-05,
      "loss": 3.7924,
      "step": 320390
    },
    {
      "epoch": 0.6675,
      "grad_norm": 0.8447138071060181,
      "learning_rate": 7.522778863322112e-05,
      "loss": 3.9519,
      "step": 320400
    },
    {
      "epoch": 0.6675208333333333,
      "grad_norm": 0.8998488783836365,
      "learning_rate": 7.521924241011568e-05,
      "loss": 3.7359,
      "step": 320410
    },
    {
      "epoch": 0.6675416666666667,
      "grad_norm": 0.9522110819816589,
      "learning_rate": 7.521069651003348e-05,
      "loss": 3.6944,
      "step": 320420
    },
    {
      "epoch": 0.6675625,
      "grad_norm": 0.8628783226013184,
      "learning_rate": 7.520215093301148e-05,
      "loss": 3.7086,
      "step": 320430
    },
    {
      "epoch": 0.6675833333333333,
      "grad_norm": 0.8632602095603943,
      "learning_rate": 7.519360567908658e-05,
      "loss": 3.7657,
      "step": 320440
    },
    {
      "epoch": 0.6676041666666667,
      "grad_norm": 0.9519883990287781,
      "learning_rate": 7.51850607482957e-05,
      "loss": 3.7519,
      "step": 320450
    },
    {
      "epoch": 0.667625,
      "grad_norm": 0.8505274653434753,
      "learning_rate": 7.517651614067574e-05,
      "loss": 3.7182,
      "step": 320460
    },
    {
      "epoch": 0.6676458333333334,
      "grad_norm": 0.7794350981712341,
      "learning_rate": 7.516797185626362e-05,
      "loss": 3.5561,
      "step": 320470
    },
    {
      "epoch": 0.6676666666666666,
      "grad_norm": 0.8493738770484924,
      "learning_rate": 7.515942789509623e-05,
      "loss": 3.7343,
      "step": 320480
    },
    {
      "epoch": 0.6676875,
      "grad_norm": 1.0037412643432617,
      "learning_rate": 7.51508842572105e-05,
      "loss": 3.7452,
      "step": 320490
    },
    {
      "epoch": 0.6677083333333333,
      "grad_norm": 0.871001660823822,
      "learning_rate": 7.51423409426433e-05,
      "loss": 3.7148,
      "step": 320500
    },
    {
      "epoch": 0.6677291666666667,
      "grad_norm": 0.9120986461639404,
      "learning_rate": 7.513379795143156e-05,
      "loss": 3.6641,
      "step": 320510
    },
    {
      "epoch": 0.66775,
      "grad_norm": 0.9295375943183899,
      "learning_rate": 7.51252552836122e-05,
      "loss": 3.7103,
      "step": 320520
    },
    {
      "epoch": 0.6677708333333333,
      "grad_norm": 0.8372747898101807,
      "learning_rate": 7.511671293922208e-05,
      "loss": 3.7894,
      "step": 320530
    },
    {
      "epoch": 0.6677916666666667,
      "grad_norm": 0.8808554410934448,
      "learning_rate": 7.510817091829818e-05,
      "loss": 3.624,
      "step": 320540
    },
    {
      "epoch": 0.6678125,
      "grad_norm": 1.0250283479690552,
      "learning_rate": 7.509962922087725e-05,
      "loss": 3.8072,
      "step": 320550
    },
    {
      "epoch": 0.6678333333333333,
      "grad_norm": 0.8097712993621826,
      "learning_rate": 7.50910878469963e-05,
      "loss": 3.6405,
      "step": 320560
    },
    {
      "epoch": 0.6678541666666666,
      "grad_norm": 0.9435388445854187,
      "learning_rate": 7.508254679669226e-05,
      "loss": 3.6735,
      "step": 320570
    },
    {
      "epoch": 0.667875,
      "grad_norm": 1.0154290199279785,
      "learning_rate": 7.507400607000185e-05,
      "loss": 3.8604,
      "step": 320580
    },
    {
      "epoch": 0.6678958333333334,
      "grad_norm": 0.8439853191375732,
      "learning_rate": 7.506546566696214e-05,
      "loss": 3.5376,
      "step": 320590
    },
    {
      "epoch": 0.6679166666666667,
      "grad_norm": 0.8275144100189209,
      "learning_rate": 7.505692558761002e-05,
      "loss": 3.8409,
      "step": 320600
    },
    {
      "epoch": 0.6679375,
      "grad_norm": 0.8313093781471252,
      "learning_rate": 7.50483858319822e-05,
      "loss": 3.7732,
      "step": 320610
    },
    {
      "epoch": 0.6679583333333333,
      "grad_norm": 0.8855526447296143,
      "learning_rate": 7.503984640011572e-05,
      "loss": 3.7444,
      "step": 320620
    },
    {
      "epoch": 0.6679791666666667,
      "grad_norm": 0.8421537280082703,
      "learning_rate": 7.503130729204753e-05,
      "loss": 3.6628,
      "step": 320630
    },
    {
      "epoch": 0.668,
      "grad_norm": 0.9023789763450623,
      "learning_rate": 7.502276850781433e-05,
      "loss": 3.8685,
      "step": 320640
    },
    {
      "epoch": 0.6680208333333333,
      "grad_norm": 0.906971275806427,
      "learning_rate": 7.501423004745303e-05,
      "loss": 3.6812,
      "step": 320650
    },
    {
      "epoch": 0.6680416666666666,
      "grad_norm": 0.8352639675140381,
      "learning_rate": 7.500569191100072e-05,
      "loss": 3.7043,
      "step": 320660
    },
    {
      "epoch": 0.6680625,
      "grad_norm": 1.3343766927719116,
      "learning_rate": 7.499715409849406e-05,
      "loss": 3.5772,
      "step": 320670
    },
    {
      "epoch": 0.6680833333333334,
      "grad_norm": 0.8264610171318054,
      "learning_rate": 7.498861660997e-05,
      "loss": 3.8564,
      "step": 320680
    },
    {
      "epoch": 0.6681041666666667,
      "grad_norm": 0.7808109521865845,
      "learning_rate": 7.498007944546544e-05,
      "loss": 3.646,
      "step": 320690
    },
    {
      "epoch": 0.668125,
      "grad_norm": 0.7952888011932373,
      "learning_rate": 7.497154260501722e-05,
      "loss": 3.8949,
      "step": 320700
    },
    {
      "epoch": 0.6681458333333333,
      "grad_norm": 1.0001294612884521,
      "learning_rate": 7.496300608866226e-05,
      "loss": 3.8219,
      "step": 320710
    },
    {
      "epoch": 0.6681666666666667,
      "grad_norm": 0.848760724067688,
      "learning_rate": 7.495446989643738e-05,
      "loss": 3.7801,
      "step": 320720
    },
    {
      "epoch": 0.6681875,
      "grad_norm": 0.8649280667304993,
      "learning_rate": 7.494593402837952e-05,
      "loss": 3.7939,
      "step": 320730
    },
    {
      "epoch": 0.6682083333333333,
      "grad_norm": 0.786207377910614,
      "learning_rate": 7.49373984845255e-05,
      "loss": 3.749,
      "step": 320740
    },
    {
      "epoch": 0.6682291666666667,
      "grad_norm": 0.8161634802818298,
      "learning_rate": 7.49288632649122e-05,
      "loss": 3.7423,
      "step": 320750
    },
    {
      "epoch": 0.66825,
      "grad_norm": 0.8102514147758484,
      "learning_rate": 7.492032836957652e-05,
      "loss": 3.57,
      "step": 320760
    },
    {
      "epoch": 0.6682708333333334,
      "grad_norm": 0.9577698707580566,
      "learning_rate": 7.491179379855529e-05,
      "loss": 3.715,
      "step": 320770
    },
    {
      "epoch": 0.6682916666666666,
      "grad_norm": 0.9092795848846436,
      "learning_rate": 7.49032595518854e-05,
      "loss": 3.9379,
      "step": 320780
    },
    {
      "epoch": 0.6683125,
      "grad_norm": 0.8266986608505249,
      "learning_rate": 7.489472562960369e-05,
      "loss": 3.8491,
      "step": 320790
    },
    {
      "epoch": 0.6683333333333333,
      "grad_norm": 0.8227645754814148,
      "learning_rate": 7.488619203174703e-05,
      "loss": 3.7525,
      "step": 320800
    },
    {
      "epoch": 0.6683541666666667,
      "grad_norm": 0.8730999827384949,
      "learning_rate": 7.487765875835229e-05,
      "loss": 3.6864,
      "step": 320810
    },
    {
      "epoch": 0.668375,
      "grad_norm": 1.0497231483459473,
      "learning_rate": 7.486912580945634e-05,
      "loss": 3.6607,
      "step": 320820
    },
    {
      "epoch": 0.6683958333333333,
      "grad_norm": 0.8515697121620178,
      "learning_rate": 7.486059318509601e-05,
      "loss": 3.8174,
      "step": 320830
    },
    {
      "epoch": 0.6684166666666667,
      "grad_norm": 0.8437807559967041,
      "learning_rate": 7.48520608853082e-05,
      "loss": 3.6253,
      "step": 320840
    },
    {
      "epoch": 0.6684375,
      "grad_norm": 0.9993830919265747,
      "learning_rate": 7.484352891012972e-05,
      "loss": 3.7071,
      "step": 320850
    },
    {
      "epoch": 0.6684583333333334,
      "grad_norm": 0.7894279956817627,
      "learning_rate": 7.483499725959746e-05,
      "loss": 3.868,
      "step": 320860
    },
    {
      "epoch": 0.6684791666666666,
      "grad_norm": 0.9795292615890503,
      "learning_rate": 7.482646593374825e-05,
      "loss": 3.6486,
      "step": 320870
    },
    {
      "epoch": 0.6685,
      "grad_norm": 0.7662414908409119,
      "learning_rate": 7.481793493261897e-05,
      "loss": 3.6371,
      "step": 320880
    },
    {
      "epoch": 0.6685208333333333,
      "grad_norm": 0.9141795039176941,
      "learning_rate": 7.480940425624643e-05,
      "loss": 3.7108,
      "step": 320890
    },
    {
      "epoch": 0.6685416666666667,
      "grad_norm": 0.8759393692016602,
      "learning_rate": 7.480087390466752e-05,
      "loss": 3.584,
      "step": 320900
    },
    {
      "epoch": 0.6685625,
      "grad_norm": 0.7784698605537415,
      "learning_rate": 7.479234387791906e-05,
      "loss": 3.7255,
      "step": 320910
    },
    {
      "epoch": 0.6685833333333333,
      "grad_norm": 0.8406339883804321,
      "learning_rate": 7.478381417603794e-05,
      "loss": 3.9277,
      "step": 320920
    },
    {
      "epoch": 0.6686041666666667,
      "grad_norm": 0.956493079662323,
      "learning_rate": 7.477528479906088e-05,
      "loss": 3.718,
      "step": 320930
    },
    {
      "epoch": 0.668625,
      "grad_norm": 0.8673475384712219,
      "learning_rate": 7.476675574702493e-05,
      "loss": 3.7086,
      "step": 320940
    },
    {
      "epoch": 0.6686458333333334,
      "grad_norm": 0.8206056356430054,
      "learning_rate": 7.475822701996675e-05,
      "loss": 3.5251,
      "step": 320950
    },
    {
      "epoch": 0.6686666666666666,
      "grad_norm": 1.0041160583496094,
      "learning_rate": 7.47496986179232e-05,
      "loss": 3.7352,
      "step": 320960
    },
    {
      "epoch": 0.6686875,
      "grad_norm": 0.9044587016105652,
      "learning_rate": 7.474117054093127e-05,
      "loss": 3.5436,
      "step": 320970
    },
    {
      "epoch": 0.6687083333333333,
      "grad_norm": 0.8891165256500244,
      "learning_rate": 7.473264278902764e-05,
      "loss": 3.828,
      "step": 320980
    },
    {
      "epoch": 0.6687291666666667,
      "grad_norm": 0.8099774122238159,
      "learning_rate": 7.472411536224914e-05,
      "loss": 3.7128,
      "step": 320990
    },
    {
      "epoch": 0.66875,
      "grad_norm": 0.805568516254425,
      "learning_rate": 7.471558826063278e-05,
      "loss": 3.8735,
      "step": 321000
    },
    {
      "epoch": 0.66875,
      "eval_loss": 4.063877582550049,
      "eval_runtime": 8.3048,
      "eval_samples_per_second": 1.204,
      "eval_steps_per_second": 0.361,
      "step": 321000
    },
    {
      "epoch": 0.6687708333333333,
      "grad_norm": 0.8632335662841797,
      "learning_rate": 7.470706148421522e-05,
      "loss": 3.7292,
      "step": 321010
    },
    {
      "epoch": 0.6687916666666667,
      "grad_norm": 1.1136468648910522,
      "learning_rate": 7.46985350330333e-05,
      "loss": 3.7286,
      "step": 321020
    },
    {
      "epoch": 0.6688125,
      "grad_norm": 0.88960862159729,
      "learning_rate": 7.469000890712401e-05,
      "loss": 3.5278,
      "step": 321030
    },
    {
      "epoch": 0.6688333333333333,
      "grad_norm": 1.056741714477539,
      "learning_rate": 7.468148310652402e-05,
      "loss": 3.55,
      "step": 321040
    },
    {
      "epoch": 0.6688541666666666,
      "grad_norm": 0.8945884108543396,
      "learning_rate": 7.467295763127021e-05,
      "loss": 3.741,
      "step": 321050
    },
    {
      "epoch": 0.668875,
      "grad_norm": 0.7675418257713318,
      "learning_rate": 7.46644324813994e-05,
      "loss": 3.6602,
      "step": 321060
    },
    {
      "epoch": 0.6688958333333334,
      "grad_norm": 0.830341100692749,
      "learning_rate": 7.465590765694843e-05,
      "loss": 3.5352,
      "step": 321070
    },
    {
      "epoch": 0.6689166666666667,
      "grad_norm": 1.0972836017608643,
      "learning_rate": 7.464738315795411e-05,
      "loss": 3.7224,
      "step": 321080
    },
    {
      "epoch": 0.6689375,
      "grad_norm": 0.8716914653778076,
      "learning_rate": 7.463885898445327e-05,
      "loss": 3.6977,
      "step": 321090
    },
    {
      "epoch": 0.6689583333333333,
      "grad_norm": 0.8453162312507629,
      "learning_rate": 7.463033513648273e-05,
      "loss": 3.7751,
      "step": 321100
    },
    {
      "epoch": 0.6689791666666667,
      "grad_norm": 0.7835425734519958,
      "learning_rate": 7.462181161407932e-05,
      "loss": 3.7468,
      "step": 321110
    },
    {
      "epoch": 0.669,
      "grad_norm": 0.8250787258148193,
      "learning_rate": 7.461328841727983e-05,
      "loss": 3.7433,
      "step": 321120
    },
    {
      "epoch": 0.6690208333333333,
      "grad_norm": 0.823017954826355,
      "learning_rate": 7.460476554612109e-05,
      "loss": 3.7009,
      "step": 321130
    },
    {
      "epoch": 0.6690416666666666,
      "grad_norm": 0.8579212427139282,
      "learning_rate": 7.459624300063994e-05,
      "loss": 3.7169,
      "step": 321140
    },
    {
      "epoch": 0.6690625,
      "grad_norm": 0.820168137550354,
      "learning_rate": 7.458772078087316e-05,
      "loss": 3.7065,
      "step": 321150
    },
    {
      "epoch": 0.6690833333333334,
      "grad_norm": 0.9786285161972046,
      "learning_rate": 7.457919888685758e-05,
      "loss": 3.626,
      "step": 321160
    },
    {
      "epoch": 0.6691041666666667,
      "grad_norm": 0.9284895658493042,
      "learning_rate": 7.457067731863e-05,
      "loss": 3.6564,
      "step": 321170
    },
    {
      "epoch": 0.669125,
      "grad_norm": 0.8927420377731323,
      "learning_rate": 7.456215607622724e-05,
      "loss": 3.7295,
      "step": 321180
    },
    {
      "epoch": 0.6691458333333333,
      "grad_norm": 1.073086142539978,
      "learning_rate": 7.45536351596861e-05,
      "loss": 3.6991,
      "step": 321190
    },
    {
      "epoch": 0.6691666666666667,
      "grad_norm": 0.9495829343795776,
      "learning_rate": 7.454511456904342e-05,
      "loss": 3.8171,
      "step": 321200
    },
    {
      "epoch": 0.6691875,
      "grad_norm": 0.9854293465614319,
      "learning_rate": 7.453659430433596e-05,
      "loss": 3.7465,
      "step": 321210
    },
    {
      "epoch": 0.6692083333333333,
      "grad_norm": 0.8511132001876831,
      "learning_rate": 7.452807436560054e-05,
      "loss": 3.8401,
      "step": 321220
    },
    {
      "epoch": 0.6692291666666667,
      "grad_norm": 1.091271996498108,
      "learning_rate": 7.4519554752874e-05,
      "loss": 3.6566,
      "step": 321230
    },
    {
      "epoch": 0.66925,
      "grad_norm": 0.7982379794120789,
      "learning_rate": 7.451103546619303e-05,
      "loss": 3.7393,
      "step": 321240
    },
    {
      "epoch": 0.6692708333333334,
      "grad_norm": 0.779686450958252,
      "learning_rate": 7.450251650559456e-05,
      "loss": 3.7421,
      "step": 321250
    },
    {
      "epoch": 0.6692916666666666,
      "grad_norm": 0.8162222504615784,
      "learning_rate": 7.449399787111538e-05,
      "loss": 3.8631,
      "step": 321260
    },
    {
      "epoch": 0.6693125,
      "grad_norm": 0.9408021569252014,
      "learning_rate": 7.448547956279211e-05,
      "loss": 3.7878,
      "step": 321270
    },
    {
      "epoch": 0.6693333333333333,
      "grad_norm": 0.932008683681488,
      "learning_rate": 7.447696158066176e-05,
      "loss": 3.6741,
      "step": 321280
    },
    {
      "epoch": 0.6693541666666667,
      "grad_norm": 0.8752105236053467,
      "learning_rate": 7.446844392476109e-05,
      "loss": 3.7301,
      "step": 321290
    },
    {
      "epoch": 0.669375,
      "grad_norm": 0.7926539778709412,
      "learning_rate": 7.445992659512672e-05,
      "loss": 3.7449,
      "step": 321300
    },
    {
      "epoch": 0.6693958333333333,
      "grad_norm": 0.8499606847763062,
      "learning_rate": 7.445140959179571e-05,
      "loss": 3.6983,
      "step": 321310
    },
    {
      "epoch": 0.6694166666666667,
      "grad_norm": 0.8398569226264954,
      "learning_rate": 7.444289291480463e-05,
      "loss": 3.8926,
      "step": 321320
    },
    {
      "epoch": 0.6694375,
      "grad_norm": 1.0272623300552368,
      "learning_rate": 7.443437656419028e-05,
      "loss": 3.8766,
      "step": 321330
    },
    {
      "epoch": 0.6694583333333334,
      "grad_norm": 0.8570120334625244,
      "learning_rate": 7.442586053998964e-05,
      "loss": 3.7282,
      "step": 321340
    },
    {
      "epoch": 0.6694791666666666,
      "grad_norm": 0.9369521737098694,
      "learning_rate": 7.441734484223931e-05,
      "loss": 3.5619,
      "step": 321350
    },
    {
      "epoch": 0.6695,
      "grad_norm": 0.9090927243232727,
      "learning_rate": 7.440882947097607e-05,
      "loss": 3.7209,
      "step": 321360
    },
    {
      "epoch": 0.6695208333333333,
      "grad_norm": 1.0955435037612915,
      "learning_rate": 7.440031442623687e-05,
      "loss": 3.7377,
      "step": 321370
    },
    {
      "epoch": 0.6695416666666667,
      "grad_norm": 0.9162473678588867,
      "learning_rate": 7.439179970805836e-05,
      "loss": 3.757,
      "step": 321380
    },
    {
      "epoch": 0.6695625,
      "grad_norm": 1.0622254610061646,
      "learning_rate": 7.438328531647725e-05,
      "loss": 3.7704,
      "step": 321390
    },
    {
      "epoch": 0.6695833333333333,
      "grad_norm": 0.9571876525878906,
      "learning_rate": 7.437477125153057e-05,
      "loss": 3.8168,
      "step": 321400
    },
    {
      "epoch": 0.6696041666666667,
      "grad_norm": 1.1482847929000854,
      "learning_rate": 7.436625751325487e-05,
      "loss": 3.7109,
      "step": 321410
    },
    {
      "epoch": 0.669625,
      "grad_norm": 0.8901063799858093,
      "learning_rate": 7.435774410168694e-05,
      "loss": 3.7705,
      "step": 321420
    },
    {
      "epoch": 0.6696458333333334,
      "grad_norm": 0.889721691608429,
      "learning_rate": 7.434923101686374e-05,
      "loss": 3.6903,
      "step": 321430
    },
    {
      "epoch": 0.6696666666666666,
      "grad_norm": 0.9085549712181091,
      "learning_rate": 7.434071825882184e-05,
      "loss": 3.5206,
      "step": 321440
    },
    {
      "epoch": 0.6696875,
      "grad_norm": 0.754818320274353,
      "learning_rate": 7.43322058275981e-05,
      "loss": 3.6257,
      "step": 321450
    },
    {
      "epoch": 0.6697083333333333,
      "grad_norm": 0.8385404348373413,
      "learning_rate": 7.432369372322928e-05,
      "loss": 3.848,
      "step": 321460
    },
    {
      "epoch": 0.6697291666666667,
      "grad_norm": 0.7281233668327332,
      "learning_rate": 7.431518194575215e-05,
      "loss": 3.9298,
      "step": 321470
    },
    {
      "epoch": 0.66975,
      "grad_norm": 1.0264530181884766,
      "learning_rate": 7.430667049520347e-05,
      "loss": 3.8878,
      "step": 321480
    },
    {
      "epoch": 0.6697708333333333,
      "grad_norm": 0.8208414316177368,
      "learning_rate": 7.429815937162001e-05,
      "loss": 3.6141,
      "step": 321490
    },
    {
      "epoch": 0.6697916666666667,
      "grad_norm": 0.9500870704650879,
      "learning_rate": 7.428964857503854e-05,
      "loss": 3.6783,
      "step": 321500
    },
    {
      "epoch": 0.6698125,
      "grad_norm": 0.7879056930541992,
      "learning_rate": 7.428113810549583e-05,
      "loss": 3.6954,
      "step": 321510
    },
    {
      "epoch": 0.6698333333333333,
      "grad_norm": 0.7972853183746338,
      "learning_rate": 7.427262796302862e-05,
      "loss": 3.8072,
      "step": 321520
    },
    {
      "epoch": 0.6698541666666666,
      "grad_norm": 1.1446752548217773,
      "learning_rate": 7.42641181476737e-05,
      "loss": 3.7707,
      "step": 321530
    },
    {
      "epoch": 0.669875,
      "grad_norm": 0.7918260097503662,
      "learning_rate": 7.425560865946784e-05,
      "loss": 3.7442,
      "step": 321540
    },
    {
      "epoch": 0.6698958333333334,
      "grad_norm": 0.9184099435806274,
      "learning_rate": 7.424709949844767e-05,
      "loss": 3.7589,
      "step": 321550
    },
    {
      "epoch": 0.6699166666666667,
      "grad_norm": 0.8759613037109375,
      "learning_rate": 7.42385906646501e-05,
      "loss": 3.8711,
      "step": 321560
    },
    {
      "epoch": 0.6699375,
      "grad_norm": 1.0132745504379272,
      "learning_rate": 7.42300821581119e-05,
      "loss": 3.7327,
      "step": 321570
    },
    {
      "epoch": 0.6699583333333333,
      "grad_norm": 0.857247531414032,
      "learning_rate": 7.422157397886962e-05,
      "loss": 3.8104,
      "step": 321580
    },
    {
      "epoch": 0.6699791666666667,
      "grad_norm": 0.8685827255249023,
      "learning_rate": 7.42130661269602e-05,
      "loss": 3.7035,
      "step": 321590
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8890369534492493,
      "learning_rate": 7.42045586024204e-05,
      "loss": 3.5992,
      "step": 321600
    },
    {
      "epoch": 0.6700208333333333,
      "grad_norm": 1.5756497383117676,
      "learning_rate": 7.41960514052868e-05,
      "loss": 3.6056,
      "step": 321610
    },
    {
      "epoch": 0.6700416666666666,
      "grad_norm": 0.8912496566772461,
      "learning_rate": 7.418754453559631e-05,
      "loss": 3.7729,
      "step": 321620
    },
    {
      "epoch": 0.6700625,
      "grad_norm": 0.8943042755126953,
      "learning_rate": 7.417903799338567e-05,
      "loss": 3.8476,
      "step": 321630
    },
    {
      "epoch": 0.6700833333333334,
      "grad_norm": 0.8782361149787903,
      "learning_rate": 7.417053177869145e-05,
      "loss": 3.9538,
      "step": 321640
    },
    {
      "epoch": 0.6701041666666666,
      "grad_norm": 0.7807472348213196,
      "learning_rate": 7.416202589155058e-05,
      "loss": 3.7716,
      "step": 321650
    },
    {
      "epoch": 0.670125,
      "grad_norm": 0.9546413421630859,
      "learning_rate": 7.415352033199981e-05,
      "loss": 3.7662,
      "step": 321660
    },
    {
      "epoch": 0.6701458333333333,
      "grad_norm": 0.9009957313537598,
      "learning_rate": 7.414501510007568e-05,
      "loss": 3.7568,
      "step": 321670
    },
    {
      "epoch": 0.6701666666666667,
      "grad_norm": 0.8017663359642029,
      "learning_rate": 7.413651019581517e-05,
      "loss": 3.554,
      "step": 321680
    },
    {
      "epoch": 0.6701875,
      "grad_norm": 0.7872849702835083,
      "learning_rate": 7.412800561925488e-05,
      "loss": 3.7137,
      "step": 321690
    },
    {
      "epoch": 0.6702083333333333,
      "grad_norm": 1.077565312385559,
      "learning_rate": 7.411950137043149e-05,
      "loss": 3.685,
      "step": 321700
    },
    {
      "epoch": 0.6702291666666667,
      "grad_norm": 0.864874541759491,
      "learning_rate": 7.411099744938193e-05,
      "loss": 3.6714,
      "step": 321710
    },
    {
      "epoch": 0.67025,
      "grad_norm": 0.9048098921775818,
      "learning_rate": 7.410249385614276e-05,
      "loss": 3.7063,
      "step": 321720
    },
    {
      "epoch": 0.6702708333333334,
      "grad_norm": 0.8493964672088623,
      "learning_rate": 7.409399059075074e-05,
      "loss": 3.6977,
      "step": 321730
    },
    {
      "epoch": 0.6702916666666666,
      "grad_norm": 1.025813341140747,
      "learning_rate": 7.408548765324274e-05,
      "loss": 3.7214,
      "step": 321740
    },
    {
      "epoch": 0.6703125,
      "grad_norm": 0.8296737670898438,
      "learning_rate": 7.407698504365533e-05,
      "loss": 3.6462,
      "step": 321750
    },
    {
      "epoch": 0.6703333333333333,
      "grad_norm": 1.3064552545547485,
      "learning_rate": 7.406848276202522e-05,
      "loss": 3.7379,
      "step": 321760
    },
    {
      "epoch": 0.6703541666666667,
      "grad_norm": 1.1931239366531372,
      "learning_rate": 7.405998080838934e-05,
      "loss": 3.7333,
      "step": 321770
    },
    {
      "epoch": 0.670375,
      "grad_norm": 0.7689199447631836,
      "learning_rate": 7.405147918278422e-05,
      "loss": 3.8101,
      "step": 321780
    },
    {
      "epoch": 0.6703958333333333,
      "grad_norm": 0.9627195000648499,
      "learning_rate": 7.40429778852466e-05,
      "loss": 3.6517,
      "step": 321790
    },
    {
      "epoch": 0.6704166666666667,
      "grad_norm": 1.2960984706878662,
      "learning_rate": 7.403447691581335e-05,
      "loss": 3.6527,
      "step": 321800
    },
    {
      "epoch": 0.6704375,
      "grad_norm": 0.8003574013710022,
      "learning_rate": 7.402597627452105e-05,
      "loss": 3.7238,
      "step": 321810
    },
    {
      "epoch": 0.6704583333333334,
      "grad_norm": 0.864586353302002,
      "learning_rate": 7.401747596140643e-05,
      "loss": 3.6466,
      "step": 321820
    },
    {
      "epoch": 0.6704791666666666,
      "grad_norm": 0.830777645111084,
      "learning_rate": 7.400897597650626e-05,
      "loss": 3.6753,
      "step": 321830
    },
    {
      "epoch": 0.6705,
      "grad_norm": 0.8780630230903625,
      "learning_rate": 7.400047631985724e-05,
      "loss": 3.914,
      "step": 321840
    },
    {
      "epoch": 0.6705208333333333,
      "grad_norm": 0.9493652582168579,
      "learning_rate": 7.399197699149606e-05,
      "loss": 3.7872,
      "step": 321850
    },
    {
      "epoch": 0.6705416666666667,
      "grad_norm": 0.9569293856620789,
      "learning_rate": 7.398347799145947e-05,
      "loss": 3.7106,
      "step": 321860
    },
    {
      "epoch": 0.6705625,
      "grad_norm": 0.7913562059402466,
      "learning_rate": 7.397497931978417e-05,
      "loss": 3.8209,
      "step": 321870
    },
    {
      "epoch": 0.6705833333333333,
      "grad_norm": 0.8048030734062195,
      "learning_rate": 7.396648097650684e-05,
      "loss": 3.7616,
      "step": 321880
    },
    {
      "epoch": 0.6706041666666667,
      "grad_norm": 0.9814621210098267,
      "learning_rate": 7.395798296166424e-05,
      "loss": 3.6818,
      "step": 321890
    },
    {
      "epoch": 0.670625,
      "grad_norm": 0.8439708948135376,
      "learning_rate": 7.394948527529303e-05,
      "loss": 3.6438,
      "step": 321900
    },
    {
      "epoch": 0.6706458333333334,
      "grad_norm": 0.8712296485900879,
      "learning_rate": 7.394098791742998e-05,
      "loss": 3.5801,
      "step": 321910
    },
    {
      "epoch": 0.6706666666666666,
      "grad_norm": 0.9584318399429321,
      "learning_rate": 7.393249088811172e-05,
      "loss": 3.9275,
      "step": 321920
    },
    {
      "epoch": 0.6706875,
      "grad_norm": 0.962343692779541,
      "learning_rate": 7.392399418737501e-05,
      "loss": 3.8652,
      "step": 321930
    },
    {
      "epoch": 0.6707083333333334,
      "grad_norm": 1.0179156064987183,
      "learning_rate": 7.391549781525659e-05,
      "loss": 3.7653,
      "step": 321940
    },
    {
      "epoch": 0.6707291666666667,
      "grad_norm": 0.9194402098655701,
      "learning_rate": 7.390700177179297e-05,
      "loss": 3.6202,
      "step": 321950
    },
    {
      "epoch": 0.67075,
      "grad_norm": 0.8955734372138977,
      "learning_rate": 7.389850605702104e-05,
      "loss": 3.734,
      "step": 321960
    },
    {
      "epoch": 0.6707708333333333,
      "grad_norm": 0.8554126620292664,
      "learning_rate": 7.389001067097751e-05,
      "loss": 3.8744,
      "step": 321970
    },
    {
      "epoch": 0.6707916666666667,
      "grad_norm": 0.8550801277160645,
      "learning_rate": 7.388151561369889e-05,
      "loss": 3.7054,
      "step": 321980
    },
    {
      "epoch": 0.6708125,
      "grad_norm": 0.8645785450935364,
      "learning_rate": 7.387302088522206e-05,
      "loss": 3.6731,
      "step": 321990
    },
    {
      "epoch": 0.6708333333333333,
      "grad_norm": 1.0408366918563843,
      "learning_rate": 7.38645264855837e-05,
      "loss": 4.0071,
      "step": 322000
    },
    {
      "epoch": 0.6708333333333333,
      "eval_loss": 4.070183753967285,
      "eval_runtime": 9.4855,
      "eval_samples_per_second": 1.054,
      "eval_steps_per_second": 0.316,
      "step": 322000
    },
    {
      "epoch": 0.6708541666666666,
      "grad_norm": 0.9988958835601807,
      "learning_rate": 7.385603241482032e-05,
      "loss": 3.8036,
      "step": 322010
    },
    {
      "epoch": 0.670875,
      "grad_norm": 0.7788317799568176,
      "learning_rate": 7.384753867296882e-05,
      "loss": 3.6549,
      "step": 322020
    },
    {
      "epoch": 0.6708958333333334,
      "grad_norm": 0.8712541460990906,
      "learning_rate": 7.383904526006585e-05,
      "loss": 3.7432,
      "step": 322030
    },
    {
      "epoch": 0.6709166666666667,
      "grad_norm": 0.8114303946495056,
      "learning_rate": 7.383055217614795e-05,
      "loss": 3.7142,
      "step": 322040
    },
    {
      "epoch": 0.6709375,
      "grad_norm": 0.9388935565948486,
      "learning_rate": 7.382205942125202e-05,
      "loss": 3.7628,
      "step": 322050
    },
    {
      "epoch": 0.6709583333333333,
      "grad_norm": 0.8194217085838318,
      "learning_rate": 7.381356699541457e-05,
      "loss": 3.8487,
      "step": 322060
    },
    {
      "epoch": 0.6709791666666667,
      "grad_norm": 0.8870912194252014,
      "learning_rate": 7.380507489867234e-05,
      "loss": 3.7829,
      "step": 322070
    },
    {
      "epoch": 0.671,
      "grad_norm": 0.9821670055389404,
      "learning_rate": 7.379658313106211e-05,
      "loss": 3.5625,
      "step": 322080
    },
    {
      "epoch": 0.6710208333333333,
      "grad_norm": 0.7440601587295532,
      "learning_rate": 7.378809169262042e-05,
      "loss": 3.7435,
      "step": 322090
    },
    {
      "epoch": 0.6710416666666666,
      "grad_norm": 0.8797173500061035,
      "learning_rate": 7.377960058338401e-05,
      "loss": 3.8544,
      "step": 322100
    },
    {
      "epoch": 0.6710625,
      "grad_norm": 0.938079833984375,
      "learning_rate": 7.377110980338956e-05,
      "loss": 3.5674,
      "step": 322110
    },
    {
      "epoch": 0.6710833333333334,
      "grad_norm": 0.924095630645752,
      "learning_rate": 7.376261935267375e-05,
      "loss": 3.7681,
      "step": 322120
    },
    {
      "epoch": 0.6711041666666666,
      "grad_norm": 0.8913800716400146,
      "learning_rate": 7.375412923127324e-05,
      "loss": 3.8277,
      "step": 322130
    },
    {
      "epoch": 0.671125,
      "grad_norm": 0.9655546545982361,
      "learning_rate": 7.374563943922472e-05,
      "loss": 3.6674,
      "step": 322140
    },
    {
      "epoch": 0.6711458333333333,
      "grad_norm": 1.0938972234725952,
      "learning_rate": 7.373714997656483e-05,
      "loss": 3.7234,
      "step": 322150
    },
    {
      "epoch": 0.6711666666666667,
      "grad_norm": 1.1440482139587402,
      "learning_rate": 7.372866084333028e-05,
      "loss": 3.8622,
      "step": 322160
    },
    {
      "epoch": 0.6711875,
      "grad_norm": 0.8830090761184692,
      "learning_rate": 7.372017203955774e-05,
      "loss": 3.6747,
      "step": 322170
    },
    {
      "epoch": 0.6712083333333333,
      "grad_norm": 0.8026015758514404,
      "learning_rate": 7.371168356528383e-05,
      "loss": 3.8459,
      "step": 322180
    },
    {
      "epoch": 0.6712291666666667,
      "grad_norm": 0.8265923261642456,
      "learning_rate": 7.370319542054527e-05,
      "loss": 3.6204,
      "step": 322190
    },
    {
      "epoch": 0.67125,
      "grad_norm": 0.9238632917404175,
      "learning_rate": 7.36947076053787e-05,
      "loss": 3.6158,
      "step": 322200
    },
    {
      "epoch": 0.6712708333333334,
      "grad_norm": 0.7753230333328247,
      "learning_rate": 7.36862201198208e-05,
      "loss": 3.7121,
      "step": 322210
    },
    {
      "epoch": 0.6712916666666666,
      "grad_norm": 0.9118931889533997,
      "learning_rate": 7.367773296390822e-05,
      "loss": 3.6223,
      "step": 322220
    },
    {
      "epoch": 0.6713125,
      "grad_norm": 0.9567878842353821,
      "learning_rate": 7.366924613767762e-05,
      "loss": 3.9036,
      "step": 322230
    },
    {
      "epoch": 0.6713333333333333,
      "grad_norm": 0.7418824434280396,
      "learning_rate": 7.366075964116567e-05,
      "loss": 3.7249,
      "step": 322240
    },
    {
      "epoch": 0.6713541666666667,
      "grad_norm": 0.9007357358932495,
      "learning_rate": 7.365227347440899e-05,
      "loss": 3.7689,
      "step": 322250
    },
    {
      "epoch": 0.671375,
      "grad_norm": 0.7958271503448486,
      "learning_rate": 7.364378763744429e-05,
      "loss": 3.7965,
      "step": 322260
    },
    {
      "epoch": 0.6713958333333333,
      "grad_norm": 1.067402720451355,
      "learning_rate": 7.363530213030822e-05,
      "loss": 3.744,
      "step": 322270
    },
    {
      "epoch": 0.6714166666666667,
      "grad_norm": 0.9064136147499084,
      "learning_rate": 7.362681695303738e-05,
      "loss": 3.7517,
      "step": 322280
    },
    {
      "epoch": 0.6714375,
      "grad_norm": 0.7849864959716797,
      "learning_rate": 7.36183321056685e-05,
      "loss": 3.7564,
      "step": 322290
    },
    {
      "epoch": 0.6714583333333334,
      "grad_norm": 0.9475758671760559,
      "learning_rate": 7.360984758823817e-05,
      "loss": 3.6949,
      "step": 322300
    },
    {
      "epoch": 0.6714791666666666,
      "grad_norm": 0.8833934664726257,
      "learning_rate": 7.360136340078311e-05,
      "loss": 3.675,
      "step": 322310
    },
    {
      "epoch": 0.6715,
      "grad_norm": 0.9338785409927368,
      "learning_rate": 7.359287954333982e-05,
      "loss": 3.7605,
      "step": 322320
    },
    {
      "epoch": 0.6715208333333333,
      "grad_norm": 0.8376250267028809,
      "learning_rate": 7.35843960159451e-05,
      "loss": 3.6333,
      "step": 322330
    },
    {
      "epoch": 0.6715416666666667,
      "grad_norm": 0.8745855689048767,
      "learning_rate": 7.357591281863559e-05,
      "loss": 3.6326,
      "step": 322340
    },
    {
      "epoch": 0.6715625,
      "grad_norm": 0.9008615612983704,
      "learning_rate": 7.35674299514478e-05,
      "loss": 3.9092,
      "step": 322350
    },
    {
      "epoch": 0.6715833333333333,
      "grad_norm": 1.1140812635421753,
      "learning_rate": 7.355894741441849e-05,
      "loss": 3.6956,
      "step": 322360
    },
    {
      "epoch": 0.6716041666666667,
      "grad_norm": 1.036240816116333,
      "learning_rate": 7.355046520758433e-05,
      "loss": 3.873,
      "step": 322370
    },
    {
      "epoch": 0.671625,
      "grad_norm": 0.859869122505188,
      "learning_rate": 7.354198333098179e-05,
      "loss": 3.7831,
      "step": 322380
    },
    {
      "epoch": 0.6716458333333334,
      "grad_norm": 0.8682297468185425,
      "learning_rate": 7.353350178464768e-05,
      "loss": 3.8948,
      "step": 322390
    },
    {
      "epoch": 0.6716666666666666,
      "grad_norm": 0.974597692489624,
      "learning_rate": 7.352502056861861e-05,
      "loss": 3.6806,
      "step": 322400
    },
    {
      "epoch": 0.6716875,
      "grad_norm": 0.8900569677352905,
      "learning_rate": 7.351653968293114e-05,
      "loss": 3.853,
      "step": 322410
    },
    {
      "epoch": 0.6717083333333334,
      "grad_norm": 1.010896921157837,
      "learning_rate": 7.35080591276219e-05,
      "loss": 3.7125,
      "step": 322420
    },
    {
      "epoch": 0.6717291666666667,
      "grad_norm": 0.9336641430854797,
      "learning_rate": 7.349957890272766e-05,
      "loss": 3.7427,
      "step": 322430
    },
    {
      "epoch": 0.67175,
      "grad_norm": 0.828270673751831,
      "learning_rate": 7.34910990082849e-05,
      "loss": 3.8321,
      "step": 322440
    },
    {
      "epoch": 0.6717708333333333,
      "grad_norm": 0.9069473743438721,
      "learning_rate": 7.348261944433031e-05,
      "loss": 3.8312,
      "step": 322450
    },
    {
      "epoch": 0.6717916666666667,
      "grad_norm": 0.7207725048065186,
      "learning_rate": 7.347414021090053e-05,
      "loss": 3.7505,
      "step": 322460
    },
    {
      "epoch": 0.6718125,
      "grad_norm": 0.830868124961853,
      "learning_rate": 7.346566130803217e-05,
      "loss": 3.7469,
      "step": 322470
    },
    {
      "epoch": 0.6718333333333333,
      "grad_norm": 0.8716021776199341,
      "learning_rate": 7.345718273576185e-05,
      "loss": 3.7475,
      "step": 322480
    },
    {
      "epoch": 0.6718541666666666,
      "grad_norm": 0.8370157480239868,
      "learning_rate": 7.344870449412621e-05,
      "loss": 3.9001,
      "step": 322490
    },
    {
      "epoch": 0.671875,
      "grad_norm": 0.9035838842391968,
      "learning_rate": 7.344022658316185e-05,
      "loss": 3.7257,
      "step": 322500
    },
    {
      "epoch": 0.6718958333333334,
      "grad_norm": 1.0486581325531006,
      "learning_rate": 7.343174900290542e-05,
      "loss": 3.6094,
      "step": 322510
    },
    {
      "epoch": 0.6719166666666667,
      "grad_norm": 0.8545377850532532,
      "learning_rate": 7.342327175339353e-05,
      "loss": 3.7621,
      "step": 322520
    },
    {
      "epoch": 0.6719375,
      "grad_norm": 0.7757464051246643,
      "learning_rate": 7.341479483466278e-05,
      "loss": 3.6988,
      "step": 322530
    },
    {
      "epoch": 0.6719583333333333,
      "grad_norm": 0.8393927216529846,
      "learning_rate": 7.340631824674982e-05,
      "loss": 3.7121,
      "step": 322540
    },
    {
      "epoch": 0.6719791666666667,
      "grad_norm": 0.9694725871086121,
      "learning_rate": 7.339784198969124e-05,
      "loss": 3.6953,
      "step": 322550
    },
    {
      "epoch": 0.672,
      "grad_norm": 0.8952176570892334,
      "learning_rate": 7.338936606352366e-05,
      "loss": 3.7589,
      "step": 322560
    },
    {
      "epoch": 0.6720208333333333,
      "grad_norm": 0.8622501492500305,
      "learning_rate": 7.338089046828368e-05,
      "loss": 3.505,
      "step": 322570
    },
    {
      "epoch": 0.6720416666666666,
      "grad_norm": 0.8475331664085388,
      "learning_rate": 7.337241520400795e-05,
      "loss": 3.696,
      "step": 322580
    },
    {
      "epoch": 0.6720625,
      "grad_norm": 1.0054306983947754,
      "learning_rate": 7.336394027073304e-05,
      "loss": 3.5684,
      "step": 322590
    },
    {
      "epoch": 0.6720833333333334,
      "grad_norm": 1.006382942199707,
      "learning_rate": 7.335546566849558e-05,
      "loss": 3.6817,
      "step": 322600
    },
    {
      "epoch": 0.6721041666666666,
      "grad_norm": 0.8221702575683594,
      "learning_rate": 7.334699139733216e-05,
      "loss": 3.7625,
      "step": 322610
    },
    {
      "epoch": 0.672125,
      "grad_norm": 1.2709215879440308,
      "learning_rate": 7.33385174572794e-05,
      "loss": 3.659,
      "step": 322620
    },
    {
      "epoch": 0.6721458333333333,
      "grad_norm": 1.0096105337142944,
      "learning_rate": 7.333004384837391e-05,
      "loss": 3.8368,
      "step": 322630
    },
    {
      "epoch": 0.6721666666666667,
      "grad_norm": 0.7716349959373474,
      "learning_rate": 7.332157057065227e-05,
      "loss": 3.8334,
      "step": 322640
    },
    {
      "epoch": 0.6721875,
      "grad_norm": 0.8768880367279053,
      "learning_rate": 7.331309762415111e-05,
      "loss": 3.8017,
      "step": 322650
    },
    {
      "epoch": 0.6722083333333333,
      "grad_norm": 0.81999272108078,
      "learning_rate": 7.3304625008907e-05,
      "loss": 3.6184,
      "step": 322660
    },
    {
      "epoch": 0.6722291666666667,
      "grad_norm": 0.9107901453971863,
      "learning_rate": 7.329615272495655e-05,
      "loss": 3.7726,
      "step": 322670
    },
    {
      "epoch": 0.67225,
      "grad_norm": 0.8400455117225647,
      "learning_rate": 7.328768077233643e-05,
      "loss": 3.7227,
      "step": 322680
    },
    {
      "epoch": 0.6722708333333334,
      "grad_norm": 0.8984779119491577,
      "learning_rate": 7.327920915108309e-05,
      "loss": 3.505,
      "step": 322690
    },
    {
      "epoch": 0.6722916666666666,
      "grad_norm": 1.1436909437179565,
      "learning_rate": 7.327073786123317e-05,
      "loss": 3.6638,
      "step": 322700
    },
    {
      "epoch": 0.6723125,
      "grad_norm": 0.8898419141769409,
      "learning_rate": 7.326226690282337e-05,
      "loss": 3.6412,
      "step": 322710
    },
    {
      "epoch": 0.6723333333333333,
      "grad_norm": 0.8167310357093811,
      "learning_rate": 7.325379627589017e-05,
      "loss": 3.4001,
      "step": 322720
    },
    {
      "epoch": 0.6723541666666667,
      "grad_norm": 0.7899516820907593,
      "learning_rate": 7.324532598047012e-05,
      "loss": 3.7472,
      "step": 322730
    },
    {
      "epoch": 0.672375,
      "grad_norm": 0.934286892414093,
      "learning_rate": 7.32368560166e-05,
      "loss": 4.0021,
      "step": 322740
    },
    {
      "epoch": 0.6723958333333333,
      "grad_norm": 1.2520173788070679,
      "learning_rate": 7.322838638431622e-05,
      "loss": 3.837,
      "step": 322750
    },
    {
      "epoch": 0.6724166666666667,
      "grad_norm": 0.8391837477684021,
      "learning_rate": 7.321991708365535e-05,
      "loss": 3.8883,
      "step": 322760
    },
    {
      "epoch": 0.6724375,
      "grad_norm": 1.0072863101959229,
      "learning_rate": 7.321144811465418e-05,
      "loss": 3.7074,
      "step": 322770
    },
    {
      "epoch": 0.6724583333333334,
      "grad_norm": 1.094395399093628,
      "learning_rate": 7.32029794773491e-05,
      "loss": 3.8826,
      "step": 322780
    },
    {
      "epoch": 0.6724791666666666,
      "grad_norm": 0.8344623446464539,
      "learning_rate": 7.319451117177669e-05,
      "loss": 3.7672,
      "step": 322790
    },
    {
      "epoch": 0.6725,
      "grad_norm": 1.1331833600997925,
      "learning_rate": 7.31860431979737e-05,
      "loss": 3.8714,
      "step": 322800
    },
    {
      "epoch": 0.6725208333333333,
      "grad_norm": 0.909137487411499,
      "learning_rate": 7.317757555597656e-05,
      "loss": 3.9497,
      "step": 322810
    },
    {
      "epoch": 0.6725416666666667,
      "grad_norm": 0.9431414008140564,
      "learning_rate": 7.316910824582186e-05,
      "loss": 3.7989,
      "step": 322820
    },
    {
      "epoch": 0.6725625,
      "grad_norm": 1.0070759057998657,
      "learning_rate": 7.316064126754621e-05,
      "loss": 3.5129,
      "step": 322830
    },
    {
      "epoch": 0.6725833333333333,
      "grad_norm": 0.7941774725914001,
      "learning_rate": 7.315217462118617e-05,
      "loss": 3.7432,
      "step": 322840
    },
    {
      "epoch": 0.6726041666666667,
      "grad_norm": 0.9370420575141907,
      "learning_rate": 7.314370830677833e-05,
      "loss": 3.8877,
      "step": 322850
    },
    {
      "epoch": 0.672625,
      "grad_norm": 0.7805980443954468,
      "learning_rate": 7.313524232435924e-05,
      "loss": 3.7535,
      "step": 322860
    },
    {
      "epoch": 0.6726458333333334,
      "grad_norm": 0.9774556756019592,
      "learning_rate": 7.312677667396547e-05,
      "loss": 3.8018,
      "step": 322870
    },
    {
      "epoch": 0.6726666666666666,
      "grad_norm": 0.8535741567611694,
      "learning_rate": 7.311831135563362e-05,
      "loss": 3.7321,
      "step": 322880
    },
    {
      "epoch": 0.6726875,
      "grad_norm": 1.0500401258468628,
      "learning_rate": 7.31098463694002e-05,
      "loss": 3.7522,
      "step": 322890
    },
    {
      "epoch": 0.6727083333333334,
      "grad_norm": 0.8542963862419128,
      "learning_rate": 7.310138171530184e-05,
      "loss": 3.7912,
      "step": 322900
    },
    {
      "epoch": 0.6727291666666667,
      "grad_norm": 0.874039888381958,
      "learning_rate": 7.309291739337505e-05,
      "loss": 3.9165,
      "step": 322910
    },
    {
      "epoch": 0.67275,
      "grad_norm": 0.9680388569831848,
      "learning_rate": 7.308445340365644e-05,
      "loss": 3.6819,
      "step": 322920
    },
    {
      "epoch": 0.6727708333333333,
      "grad_norm": 0.8084884881973267,
      "learning_rate": 7.307598974618251e-05,
      "loss": 3.7751,
      "step": 322930
    },
    {
      "epoch": 0.6727916666666667,
      "grad_norm": 0.749784529209137,
      "learning_rate": 7.306752642098989e-05,
      "loss": 3.7656,
      "step": 322940
    },
    {
      "epoch": 0.6728125,
      "grad_norm": 0.7634823322296143,
      "learning_rate": 7.305906342811508e-05,
      "loss": 3.5967,
      "step": 322950
    },
    {
      "epoch": 0.6728333333333333,
      "grad_norm": 0.9151768088340759,
      "learning_rate": 7.305060076759468e-05,
      "loss": 3.7726,
      "step": 322960
    },
    {
      "epoch": 0.6728541666666666,
      "grad_norm": 1.4232701063156128,
      "learning_rate": 7.304213843946521e-05,
      "loss": 3.7424,
      "step": 322970
    },
    {
      "epoch": 0.672875,
      "grad_norm": 0.9285283088684082,
      "learning_rate": 7.303367644376324e-05,
      "loss": 3.8844,
      "step": 322980
    },
    {
      "epoch": 0.6728958333333334,
      "grad_norm": 0.875646710395813,
      "learning_rate": 7.302521478052534e-05,
      "loss": 3.5317,
      "step": 322990
    },
    {
      "epoch": 0.6729166666666667,
      "grad_norm": 0.8422165513038635,
      "learning_rate": 7.301675344978808e-05,
      "loss": 3.9353,
      "step": 323000
    },
    {
      "epoch": 0.6729166666666667,
      "eval_loss": 4.0590386390686035,
      "eval_runtime": 8.4753,
      "eval_samples_per_second": 1.18,
      "eval_steps_per_second": 0.354,
      "step": 323000
    },
    {
      "epoch": 0.6729375,
      "grad_norm": 0.9111608266830444,
      "learning_rate": 7.300829245158788e-05,
      "loss": 3.8034,
      "step": 323010
    },
    {
      "epoch": 0.6729583333333333,
      "grad_norm": 1.040190577507019,
      "learning_rate": 7.299983178596142e-05,
      "loss": 3.8089,
      "step": 323020
    },
    {
      "epoch": 0.6729791666666667,
      "grad_norm": 0.818071722984314,
      "learning_rate": 7.299137145294527e-05,
      "loss": 3.842,
      "step": 323030
    },
    {
      "epoch": 0.673,
      "grad_norm": 0.8766592741012573,
      "learning_rate": 7.29829114525758e-05,
      "loss": 3.8473,
      "step": 323040
    },
    {
      "epoch": 0.6730208333333333,
      "grad_norm": 0.9263689517974854,
      "learning_rate": 7.297445178488978e-05,
      "loss": 3.7942,
      "step": 323050
    },
    {
      "epoch": 0.6730416666666666,
      "grad_norm": 0.8709338307380676,
      "learning_rate": 7.296599244992358e-05,
      "loss": 3.7286,
      "step": 323060
    },
    {
      "epoch": 0.6730625,
      "grad_norm": 0.8866011500358582,
      "learning_rate": 7.295753344771375e-05,
      "loss": 3.7873,
      "step": 323070
    },
    {
      "epoch": 0.6730833333333334,
      "grad_norm": 0.9547433853149414,
      "learning_rate": 7.2949074778297e-05,
      "loss": 3.7615,
      "step": 323080
    },
    {
      "epoch": 0.6731041666666666,
      "grad_norm": 1.070590615272522,
      "learning_rate": 7.294061644170968e-05,
      "loss": 3.6989,
      "step": 323090
    },
    {
      "epoch": 0.673125,
      "grad_norm": 0.8802198767662048,
      "learning_rate": 7.293215843798833e-05,
      "loss": 3.8852,
      "step": 323100
    },
    {
      "epoch": 0.6731458333333333,
      "grad_norm": 0.896253764629364,
      "learning_rate": 7.292370076716968e-05,
      "loss": 3.7155,
      "step": 323110
    },
    {
      "epoch": 0.6731666666666667,
      "grad_norm": 0.9139630794525146,
      "learning_rate": 7.291524342929006e-05,
      "loss": 3.6572,
      "step": 323120
    },
    {
      "epoch": 0.6731875,
      "grad_norm": 1.0480799674987793,
      "learning_rate": 7.290678642438604e-05,
      "loss": 3.8555,
      "step": 323130
    },
    {
      "epoch": 0.6732083333333333,
      "grad_norm": 0.7577115893363953,
      "learning_rate": 7.289832975249429e-05,
      "loss": 3.677,
      "step": 323140
    },
    {
      "epoch": 0.6732291666666667,
      "grad_norm": 1.498957872390747,
      "learning_rate": 7.288987341365118e-05,
      "loss": 3.8954,
      "step": 323150
    },
    {
      "epoch": 0.67325,
      "grad_norm": 0.7990443110466003,
      "learning_rate": 7.288141740789324e-05,
      "loss": 3.6951,
      "step": 323160
    },
    {
      "epoch": 0.6732708333333334,
      "grad_norm": 0.7658005952835083,
      "learning_rate": 7.287296173525716e-05,
      "loss": 3.578,
      "step": 323170
    },
    {
      "epoch": 0.6732916666666666,
      "grad_norm": 0.9720019698143005,
      "learning_rate": 7.28645063957793e-05,
      "loss": 3.7545,
      "step": 323180
    },
    {
      "epoch": 0.6733125,
      "grad_norm": 0.9838550686836243,
      "learning_rate": 7.285605138949625e-05,
      "loss": 3.8917,
      "step": 323190
    },
    {
      "epoch": 0.6733333333333333,
      "grad_norm": 0.8446573615074158,
      "learning_rate": 7.284759671644452e-05,
      "loss": 3.6309,
      "step": 323200
    },
    {
      "epoch": 0.6733541666666667,
      "grad_norm": 0.8643622994422913,
      "learning_rate": 7.283914237666062e-05,
      "loss": 3.7527,
      "step": 323210
    },
    {
      "epoch": 0.673375,
      "grad_norm": 0.8817800283432007,
      "learning_rate": 7.28306883701811e-05,
      "loss": 3.7616,
      "step": 323220
    },
    {
      "epoch": 0.6733958333333333,
      "grad_norm": 0.9545837640762329,
      "learning_rate": 7.282223469704244e-05,
      "loss": 3.846,
      "step": 323230
    },
    {
      "epoch": 0.6734166666666667,
      "grad_norm": 0.8259028196334839,
      "learning_rate": 7.281378135728119e-05,
      "loss": 3.7722,
      "step": 323240
    },
    {
      "epoch": 0.6734375,
      "grad_norm": 0.8619178533554077,
      "learning_rate": 7.280532835093385e-05,
      "loss": 3.8575,
      "step": 323250
    },
    {
      "epoch": 0.6734583333333334,
      "grad_norm": 0.8268463015556335,
      "learning_rate": 7.279687567803694e-05,
      "loss": 3.6384,
      "step": 323260
    },
    {
      "epoch": 0.6734791666666666,
      "grad_norm": 0.9142634272575378,
      "learning_rate": 7.278842333862697e-05,
      "loss": 3.7966,
      "step": 323270
    },
    {
      "epoch": 0.6735,
      "grad_norm": 1.2107950448989868,
      "learning_rate": 7.277997133274043e-05,
      "loss": 3.8504,
      "step": 323280
    },
    {
      "epoch": 0.6735208333333333,
      "grad_norm": 0.8368827104568481,
      "learning_rate": 7.277151966041386e-05,
      "loss": 3.7028,
      "step": 323290
    },
    {
      "epoch": 0.6735416666666667,
      "grad_norm": 0.7757934331893921,
      "learning_rate": 7.276306832168375e-05,
      "loss": 3.7178,
      "step": 323300
    },
    {
      "epoch": 0.6735625,
      "grad_norm": 1.0220171213150024,
      "learning_rate": 7.275461731658668e-05,
      "loss": 3.9426,
      "step": 323310
    },
    {
      "epoch": 0.6735833333333333,
      "grad_norm": 0.882115364074707,
      "learning_rate": 7.274616664515897e-05,
      "loss": 3.7121,
      "step": 323320
    },
    {
      "epoch": 0.6736041666666667,
      "grad_norm": 0.8479503989219666,
      "learning_rate": 7.273771630743731e-05,
      "loss": 3.8266,
      "step": 323330
    },
    {
      "epoch": 0.673625,
      "grad_norm": 0.816149115562439,
      "learning_rate": 7.272926630345817e-05,
      "loss": 3.6992,
      "step": 323340
    },
    {
      "epoch": 0.6736458333333334,
      "grad_norm": 0.9470197558403015,
      "learning_rate": 7.272081663325789e-05,
      "loss": 3.8263,
      "step": 323350
    },
    {
      "epoch": 0.6736666666666666,
      "grad_norm": 0.9348978996276855,
      "learning_rate": 7.271236729687318e-05,
      "loss": 3.7756,
      "step": 323360
    },
    {
      "epoch": 0.6736875,
      "grad_norm": 0.9335436224937439,
      "learning_rate": 7.27039182943405e-05,
      "loss": 3.6751,
      "step": 323370
    },
    {
      "epoch": 0.6737083333333334,
      "grad_norm": 0.8884947896003723,
      "learning_rate": 7.269546962569618e-05,
      "loss": 3.9098,
      "step": 323380
    },
    {
      "epoch": 0.6737291666666667,
      "grad_norm": 0.8242695927619934,
      "learning_rate": 7.268702129097688e-05,
      "loss": 3.7279,
      "step": 323390
    },
    {
      "epoch": 0.67375,
      "grad_norm": 0.8710058331489563,
      "learning_rate": 7.26785732902191e-05,
      "loss": 3.8334,
      "step": 323400
    },
    {
      "epoch": 0.6737708333333333,
      "grad_norm": 0.8336558938026428,
      "learning_rate": 7.267012562345918e-05,
      "loss": 3.7783,
      "step": 323410
    },
    {
      "epoch": 0.6737916666666667,
      "grad_norm": 0.8380652666091919,
      "learning_rate": 7.266167829073375e-05,
      "loss": 3.4725,
      "step": 323420
    },
    {
      "epoch": 0.6738125,
      "grad_norm": 0.8584724068641663,
      "learning_rate": 7.265323129207933e-05,
      "loss": 3.813,
      "step": 323430
    },
    {
      "epoch": 0.6738333333333333,
      "grad_norm": 0.7979906797409058,
      "learning_rate": 7.264478462753221e-05,
      "loss": 3.9718,
      "step": 323440
    },
    {
      "epoch": 0.6738541666666666,
      "grad_norm": 0.9899306893348694,
      "learning_rate": 7.263633829712912e-05,
      "loss": 3.5996,
      "step": 323450
    },
    {
      "epoch": 0.673875,
      "grad_norm": 0.880643904209137,
      "learning_rate": 7.262789230090636e-05,
      "loss": 3.7412,
      "step": 323460
    },
    {
      "epoch": 0.6738958333333334,
      "grad_norm": 0.8286863565444946,
      "learning_rate": 7.261944663890043e-05,
      "loss": 3.7453,
      "step": 323470
    },
    {
      "epoch": 0.6739166666666667,
      "grad_norm": 0.9477398991584778,
      "learning_rate": 7.261100131114797e-05,
      "loss": 3.5933,
      "step": 323480
    },
    {
      "epoch": 0.6739375,
      "grad_norm": 0.89061439037323,
      "learning_rate": 7.260255631768531e-05,
      "loss": 3.8379,
      "step": 323490
    },
    {
      "epoch": 0.6739583333333333,
      "grad_norm": 1.1201410293579102,
      "learning_rate": 7.259411165854889e-05,
      "loss": 3.671,
      "step": 323500
    },
    {
      "epoch": 0.6739791666666667,
      "grad_norm": 0.9332357048988342,
      "learning_rate": 7.25856673337754e-05,
      "loss": 3.802,
      "step": 323510
    },
    {
      "epoch": 0.674,
      "grad_norm": 0.7987315654754639,
      "learning_rate": 7.257722334340111e-05,
      "loss": 3.8504,
      "step": 323520
    },
    {
      "epoch": 0.6740208333333333,
      "grad_norm": 0.9329262971878052,
      "learning_rate": 7.256877968746254e-05,
      "loss": 3.785,
      "step": 323530
    },
    {
      "epoch": 0.6740416666666667,
      "grad_norm": 0.8558319807052612,
      "learning_rate": 7.256033636599629e-05,
      "loss": 3.9818,
      "step": 323540
    },
    {
      "epoch": 0.6740625,
      "grad_norm": 0.9281281232833862,
      "learning_rate": 7.255189337903867e-05,
      "loss": 3.9634,
      "step": 323550
    },
    {
      "epoch": 0.6740833333333334,
      "grad_norm": 0.810672402381897,
      "learning_rate": 7.254345072662623e-05,
      "loss": 3.6832,
      "step": 323560
    },
    {
      "epoch": 0.6741041666666666,
      "grad_norm": 0.9254372715950012,
      "learning_rate": 7.253500840879541e-05,
      "loss": 3.8938,
      "step": 323570
    },
    {
      "epoch": 0.674125,
      "grad_norm": 0.8839420080184937,
      "learning_rate": 7.25265664255827e-05,
      "loss": 3.7519,
      "step": 323580
    },
    {
      "epoch": 0.6741458333333333,
      "grad_norm": 0.9226228594779968,
      "learning_rate": 7.251812477702455e-05,
      "loss": 3.776,
      "step": 323590
    },
    {
      "epoch": 0.6741666666666667,
      "grad_norm": 0.9791156649589539,
      "learning_rate": 7.250968346315743e-05,
      "loss": 3.7706,
      "step": 323600
    },
    {
      "epoch": 0.6741875,
      "grad_norm": 0.825166642665863,
      "learning_rate": 7.250124248401781e-05,
      "loss": 3.7524,
      "step": 323610
    },
    {
      "epoch": 0.6742083333333333,
      "grad_norm": 0.9134928584098816,
      "learning_rate": 7.249280183964215e-05,
      "loss": 3.5541,
      "step": 323620
    },
    {
      "epoch": 0.6742291666666667,
      "grad_norm": 0.8482826352119446,
      "learning_rate": 7.24843615300669e-05,
      "loss": 3.8123,
      "step": 323630
    },
    {
      "epoch": 0.67425,
      "grad_norm": 0.8435196280479431,
      "learning_rate": 7.247592155532852e-05,
      "loss": 3.7164,
      "step": 323640
    },
    {
      "epoch": 0.6742708333333334,
      "grad_norm": 1.0372811555862427,
      "learning_rate": 7.246748191546349e-05,
      "loss": 3.7272,
      "step": 323650
    },
    {
      "epoch": 0.6742916666666666,
      "grad_norm": 0.9070028066635132,
      "learning_rate": 7.245904261050824e-05,
      "loss": 3.5624,
      "step": 323660
    },
    {
      "epoch": 0.6743125,
      "grad_norm": 0.8368251919746399,
      "learning_rate": 7.245060364049923e-05,
      "loss": 3.9041,
      "step": 323670
    },
    {
      "epoch": 0.6743333333333333,
      "grad_norm": 0.9213725924491882,
      "learning_rate": 7.244216500547297e-05,
      "loss": 3.7048,
      "step": 323680
    },
    {
      "epoch": 0.6743541666666667,
      "grad_norm": 0.874220073223114,
      "learning_rate": 7.243372670546574e-05,
      "loss": 3.848,
      "step": 323690
    },
    {
      "epoch": 0.674375,
      "grad_norm": 0.9022372364997864,
      "learning_rate": 7.242528874051418e-05,
      "loss": 3.756,
      "step": 323700
    },
    {
      "epoch": 0.6743958333333333,
      "grad_norm": 0.8107936978340149,
      "learning_rate": 7.241685111065472e-05,
      "loss": 3.7939,
      "step": 323710
    },
    {
      "epoch": 0.6744166666666667,
      "grad_norm": 0.897919774055481,
      "learning_rate": 7.240841381592364e-05,
      "loss": 3.7379,
      "step": 323720
    },
    {
      "epoch": 0.6744375,
      "grad_norm": 0.8219091296195984,
      "learning_rate": 7.239997685635755e-05,
      "loss": 3.8904,
      "step": 323730
    },
    {
      "epoch": 0.6744583333333334,
      "grad_norm": 1.0294830799102783,
      "learning_rate": 7.23915402319929e-05,
      "loss": 3.7573,
      "step": 323740
    },
    {
      "epoch": 0.6744791666666666,
      "grad_norm": 1.039283037185669,
      "learning_rate": 7.238310394286597e-05,
      "loss": 3.6815,
      "step": 323750
    },
    {
      "epoch": 0.6745,
      "grad_norm": 0.829173743724823,
      "learning_rate": 7.237466798901337e-05,
      "loss": 3.79,
      "step": 323760
    },
    {
      "epoch": 0.6745208333333333,
      "grad_norm": 0.8023927807807922,
      "learning_rate": 7.236623237047152e-05,
      "loss": 3.712,
      "step": 323770
    },
    {
      "epoch": 0.6745416666666667,
      "grad_norm": 0.8589334487915039,
      "learning_rate": 7.23577970872767e-05,
      "loss": 3.5159,
      "step": 323780
    },
    {
      "epoch": 0.6745625,
      "grad_norm": 0.8790488243103027,
      "learning_rate": 7.234936213946553e-05,
      "loss": 3.814,
      "step": 323790
    },
    {
      "epoch": 0.6745833333333333,
      "grad_norm": 0.8654115796089172,
      "learning_rate": 7.234092752707445e-05,
      "loss": 3.8315,
      "step": 323800
    },
    {
      "epoch": 0.6746041666666667,
      "grad_norm": 1.1252753734588623,
      "learning_rate": 7.233249325013968e-05,
      "loss": 3.7885,
      "step": 323810
    },
    {
      "epoch": 0.674625,
      "grad_norm": 0.9441798329353333,
      "learning_rate": 7.232405930869793e-05,
      "loss": 3.7865,
      "step": 323820
    },
    {
      "epoch": 0.6746458333333333,
      "grad_norm": 0.8767827153205872,
      "learning_rate": 7.231562570278544e-05,
      "loss": 3.6381,
      "step": 323830
    },
    {
      "epoch": 0.6746666666666666,
      "grad_norm": 0.8661943078041077,
      "learning_rate": 7.230719243243863e-05,
      "loss": 3.7561,
      "step": 323840
    },
    {
      "epoch": 0.6746875,
      "grad_norm": 0.7403721213340759,
      "learning_rate": 7.229875949769411e-05,
      "loss": 3.7792,
      "step": 323850
    },
    {
      "epoch": 0.6747083333333334,
      "grad_norm": 0.832697868347168,
      "learning_rate": 7.229032689858816e-05,
      "loss": 3.8781,
      "step": 323860
    },
    {
      "epoch": 0.6747291666666667,
      "grad_norm": 0.8814191222190857,
      "learning_rate": 7.228189463515721e-05,
      "loss": 3.7934,
      "step": 323870
    },
    {
      "epoch": 0.67475,
      "grad_norm": 0.7615354061126709,
      "learning_rate": 7.227346270743773e-05,
      "loss": 3.8945,
      "step": 323880
    },
    {
      "epoch": 0.6747708333333333,
      "grad_norm": 0.7874472141265869,
      "learning_rate": 7.226503111546612e-05,
      "loss": 3.7749,
      "step": 323890
    },
    {
      "epoch": 0.6747916666666667,
      "grad_norm": 1.0067588090896606,
      "learning_rate": 7.22565998592788e-05,
      "loss": 3.6211,
      "step": 323900
    },
    {
      "epoch": 0.6748125,
      "grad_norm": 0.9982207417488098,
      "learning_rate": 7.224816893891219e-05,
      "loss": 3.6728,
      "step": 323910
    },
    {
      "epoch": 0.6748333333333333,
      "grad_norm": 0.9184581637382507,
      "learning_rate": 7.223973835440272e-05,
      "loss": 3.6592,
      "step": 323920
    },
    {
      "epoch": 0.6748541666666666,
      "grad_norm": 0.8852508664131165,
      "learning_rate": 7.223130810578681e-05,
      "loss": 3.751,
      "step": 323930
    },
    {
      "epoch": 0.674875,
      "grad_norm": 0.9302955865859985,
      "learning_rate": 7.222287819310085e-05,
      "loss": 3.6538,
      "step": 323940
    },
    {
      "epoch": 0.6748958333333334,
      "grad_norm": 0.8513306379318237,
      "learning_rate": 7.221444861638129e-05,
      "loss": 3.7533,
      "step": 323950
    },
    {
      "epoch": 0.6749166666666667,
      "grad_norm": 0.9362550973892212,
      "learning_rate": 7.220601937566452e-05,
      "loss": 3.7951,
      "step": 323960
    },
    {
      "epoch": 0.6749375,
      "grad_norm": 0.8312085866928101,
      "learning_rate": 7.219759047098694e-05,
      "loss": 3.8086,
      "step": 323970
    },
    {
      "epoch": 0.6749583333333333,
      "grad_norm": 0.8464982509613037,
      "learning_rate": 7.218916190238498e-05,
      "loss": 3.5957,
      "step": 323980
    },
    {
      "epoch": 0.6749791666666667,
      "grad_norm": 1.1089329719543457,
      "learning_rate": 7.218073366989502e-05,
      "loss": 3.8116,
      "step": 323990
    },
    {
      "epoch": 0.675,
      "grad_norm": 0.8614753484725952,
      "learning_rate": 7.217230577355352e-05,
      "loss": 3.8194,
      "step": 324000
    },
    {
      "epoch": 0.675,
      "eval_loss": 4.066135406494141,
      "eval_runtime": 9.4233,
      "eval_samples_per_second": 1.061,
      "eval_steps_per_second": 0.318,
      "step": 324000
    },
    {
      "epoch": 0.6750208333333333,
      "grad_norm": 0.963699996471405,
      "learning_rate": 7.216387821339683e-05,
      "loss": 3.7552,
      "step": 324010
    },
    {
      "epoch": 0.6750416666666667,
      "grad_norm": 0.9724166989326477,
      "learning_rate": 7.215545098946138e-05,
      "loss": 3.8624,
      "step": 324020
    },
    {
      "epoch": 0.6750625,
      "grad_norm": 0.8447279930114746,
      "learning_rate": 7.21470241017836e-05,
      "loss": 3.7006,
      "step": 324030
    },
    {
      "epoch": 0.6750833333333334,
      "grad_norm": 0.8102575540542603,
      "learning_rate": 7.213859755039982e-05,
      "loss": 3.7201,
      "step": 324040
    },
    {
      "epoch": 0.6751041666666666,
      "grad_norm": 0.8821465373039246,
      "learning_rate": 7.213017133534655e-05,
      "loss": 3.9212,
      "step": 324050
    },
    {
      "epoch": 0.675125,
      "grad_norm": 1.119881272315979,
      "learning_rate": 7.212174545666e-05,
      "loss": 3.7735,
      "step": 324060
    },
    {
      "epoch": 0.6751458333333333,
      "grad_norm": 0.9154955148696899,
      "learning_rate": 7.211331991437673e-05,
      "loss": 3.9248,
      "step": 324070
    },
    {
      "epoch": 0.6751666666666667,
      "grad_norm": 0.840912401676178,
      "learning_rate": 7.210489470853317e-05,
      "loss": 3.7191,
      "step": 324080
    },
    {
      "epoch": 0.6751875,
      "grad_norm": 0.8202568292617798,
      "learning_rate": 7.209646983916551e-05,
      "loss": 3.7383,
      "step": 324090
    },
    {
      "epoch": 0.6752083333333333,
      "grad_norm": 0.9058464169502258,
      "learning_rate": 7.20880453063103e-05,
      "loss": 3.893,
      "step": 324100
    },
    {
      "epoch": 0.6752291666666667,
      "grad_norm": 0.8985887765884399,
      "learning_rate": 7.207962111000398e-05,
      "loss": 3.551,
      "step": 324110
    },
    {
      "epoch": 0.67525,
      "grad_norm": 1.536700963973999,
      "learning_rate": 7.207119725028273e-05,
      "loss": 3.7366,
      "step": 324120
    },
    {
      "epoch": 0.6752708333333334,
      "grad_norm": 0.8871356248855591,
      "learning_rate": 7.206277372718311e-05,
      "loss": 3.7828,
      "step": 324130
    },
    {
      "epoch": 0.6752916666666666,
      "grad_norm": 1.254038691520691,
      "learning_rate": 7.205435054074153e-05,
      "loss": 3.6616,
      "step": 324140
    },
    {
      "epoch": 0.6753125,
      "grad_norm": 0.8406080603599548,
      "learning_rate": 7.204592769099422e-05,
      "loss": 3.7649,
      "step": 324150
    },
    {
      "epoch": 0.6753333333333333,
      "grad_norm": 0.8323400020599365,
      "learning_rate": 7.203750517797762e-05,
      "loss": 3.8148,
      "step": 324160
    },
    {
      "epoch": 0.6753541666666667,
      "grad_norm": 0.8386810421943665,
      "learning_rate": 7.202908300172824e-05,
      "loss": 3.862,
      "step": 324170
    },
    {
      "epoch": 0.675375,
      "grad_norm": 0.9114828705787659,
      "learning_rate": 7.202066116228229e-05,
      "loss": 3.8787,
      "step": 324180
    },
    {
      "epoch": 0.6753958333333333,
      "grad_norm": 1.165544033050537,
      "learning_rate": 7.201223965967622e-05,
      "loss": 3.8813,
      "step": 324190
    },
    {
      "epoch": 0.6754166666666667,
      "grad_norm": 0.7499703764915466,
      "learning_rate": 7.200381849394642e-05,
      "loss": 3.7821,
      "step": 324200
    },
    {
      "epoch": 0.6754375,
      "grad_norm": 1.0487724542617798,
      "learning_rate": 7.199539766512925e-05,
      "loss": 3.6942,
      "step": 324210
    },
    {
      "epoch": 0.6754583333333334,
      "grad_norm": 0.8673023581504822,
      "learning_rate": 7.198697717326107e-05,
      "loss": 3.8196,
      "step": 324220
    },
    {
      "epoch": 0.6754791666666666,
      "grad_norm": 1.201770544052124,
      "learning_rate": 7.197855701837829e-05,
      "loss": 3.7714,
      "step": 324230
    },
    {
      "epoch": 0.6755,
      "grad_norm": 0.8690617680549622,
      "learning_rate": 7.197013720051724e-05,
      "loss": 3.7217,
      "step": 324240
    },
    {
      "epoch": 0.6755208333333333,
      "grad_norm": 1.0071214437484741,
      "learning_rate": 7.19617177197143e-05,
      "loss": 3.6934,
      "step": 324250
    },
    {
      "epoch": 0.6755416666666667,
      "grad_norm": 1.0245256423950195,
      "learning_rate": 7.195329857600589e-05,
      "loss": 3.757,
      "step": 324260
    },
    {
      "epoch": 0.6755625,
      "grad_norm": 0.8635163307189941,
      "learning_rate": 7.194487976942832e-05,
      "loss": 3.6616,
      "step": 324270
    },
    {
      "epoch": 0.6755833333333333,
      "grad_norm": 0.8877639770507812,
      "learning_rate": 7.193646130001796e-05,
      "loss": 3.5899,
      "step": 324280
    },
    {
      "epoch": 0.6756041666666667,
      "grad_norm": 1.0247609615325928,
      "learning_rate": 7.19280431678112e-05,
      "loss": 3.5673,
      "step": 324290
    },
    {
      "epoch": 0.675625,
      "grad_norm": 0.9565938711166382,
      "learning_rate": 7.191962537284438e-05,
      "loss": 3.8389,
      "step": 324300
    },
    {
      "epoch": 0.6756458333333333,
      "grad_norm": 0.8844351768493652,
      "learning_rate": 7.191120791515388e-05,
      "loss": 3.7828,
      "step": 324310
    },
    {
      "epoch": 0.6756666666666666,
      "grad_norm": 0.9854593276977539,
      "learning_rate": 7.190279079477605e-05,
      "loss": 3.7883,
      "step": 324320
    },
    {
      "epoch": 0.6756875,
      "grad_norm": 0.8715035915374756,
      "learning_rate": 7.189437401174726e-05,
      "loss": 3.7409,
      "step": 324330
    },
    {
      "epoch": 0.6757083333333334,
      "grad_norm": 1.0125013589859009,
      "learning_rate": 7.188595756610385e-05,
      "loss": 3.7824,
      "step": 324340
    },
    {
      "epoch": 0.6757291666666667,
      "grad_norm": 0.9036664962768555,
      "learning_rate": 7.187754145788218e-05,
      "loss": 3.7979,
      "step": 324350
    },
    {
      "epoch": 0.67575,
      "grad_norm": 0.9613034129142761,
      "learning_rate": 7.186912568711862e-05,
      "loss": 3.6368,
      "step": 324360
    },
    {
      "epoch": 0.6757708333333333,
      "grad_norm": 1.0120738744735718,
      "learning_rate": 7.186071025384949e-05,
      "loss": 3.6692,
      "step": 324370
    },
    {
      "epoch": 0.6757916666666667,
      "grad_norm": 0.7881452441215515,
      "learning_rate": 7.185229515811117e-05,
      "loss": 3.7427,
      "step": 324380
    },
    {
      "epoch": 0.6758125,
      "grad_norm": 0.9151486158370972,
      "learning_rate": 7.184388039994001e-05,
      "loss": 3.8089,
      "step": 324390
    },
    {
      "epoch": 0.6758333333333333,
      "grad_norm": 0.8065975308418274,
      "learning_rate": 7.183546597937235e-05,
      "loss": 3.6062,
      "step": 324400
    },
    {
      "epoch": 0.6758541666666666,
      "grad_norm": 0.9346775412559509,
      "learning_rate": 7.182705189644453e-05,
      "loss": 3.6205,
      "step": 324410
    },
    {
      "epoch": 0.675875,
      "grad_norm": 0.9085574746131897,
      "learning_rate": 7.181863815119291e-05,
      "loss": 3.7596,
      "step": 324420
    },
    {
      "epoch": 0.6758958333333334,
      "grad_norm": 0.8552241325378418,
      "learning_rate": 7.181022474365381e-05,
      "loss": 3.8412,
      "step": 324430
    },
    {
      "epoch": 0.6759166666666667,
      "grad_norm": 0.8473426699638367,
      "learning_rate": 7.18018116738636e-05,
      "loss": 3.8331,
      "step": 324440
    },
    {
      "epoch": 0.6759375,
      "grad_norm": 0.9311224818229675,
      "learning_rate": 7.179339894185868e-05,
      "loss": 3.8608,
      "step": 324450
    },
    {
      "epoch": 0.6759583333333333,
      "grad_norm": 0.9125943779945374,
      "learning_rate": 7.178498654767525e-05,
      "loss": 3.6173,
      "step": 324460
    },
    {
      "epoch": 0.6759791666666667,
      "grad_norm": 0.9149460196495056,
      "learning_rate": 7.177657449134966e-05,
      "loss": 3.7318,
      "step": 324470
    },
    {
      "epoch": 0.676,
      "grad_norm": 0.8578259348869324,
      "learning_rate": 7.176816277291843e-05,
      "loss": 3.6503,
      "step": 324480
    },
    {
      "epoch": 0.6760208333333333,
      "grad_norm": 1.051365852355957,
      "learning_rate": 7.175975139241772e-05,
      "loss": 3.7936,
      "step": 324490
    },
    {
      "epoch": 0.6760416666666667,
      "grad_norm": 0.8642112016677856,
      "learning_rate": 7.175134034988384e-05,
      "loss": 3.659,
      "step": 324500
    },
    {
      "epoch": 0.6760625,
      "grad_norm": 0.8450763821601868,
      "learning_rate": 7.174292964535331e-05,
      "loss": 3.7225,
      "step": 324510
    },
    {
      "epoch": 0.6760833333333334,
      "grad_norm": 1.219704508781433,
      "learning_rate": 7.173451927886229e-05,
      "loss": 3.7327,
      "step": 324520
    },
    {
      "epoch": 0.6761041666666666,
      "grad_norm": 0.7419067025184631,
      "learning_rate": 7.172610925044712e-05,
      "loss": 3.8356,
      "step": 324530
    },
    {
      "epoch": 0.676125,
      "grad_norm": 1.2313116788864136,
      "learning_rate": 7.171769956014429e-05,
      "loss": 3.6273,
      "step": 324540
    },
    {
      "epoch": 0.6761458333333333,
      "grad_norm": 0.9029160141944885,
      "learning_rate": 7.170929020798994e-05,
      "loss": 3.7507,
      "step": 324550
    },
    {
      "epoch": 0.6761666666666667,
      "grad_norm": 0.8759341835975647,
      "learning_rate": 7.170088119402047e-05,
      "loss": 3.7004,
      "step": 324560
    },
    {
      "epoch": 0.6761875,
      "grad_norm": 1.0668038129806519,
      "learning_rate": 7.169247251827221e-05,
      "loss": 3.7858,
      "step": 324570
    },
    {
      "epoch": 0.6762083333333333,
      "grad_norm": 1.01200270652771,
      "learning_rate": 7.168406418078147e-05,
      "loss": 3.7667,
      "step": 324580
    },
    {
      "epoch": 0.6762291666666667,
      "grad_norm": 0.8110123872756958,
      "learning_rate": 7.167565618158458e-05,
      "loss": 3.6079,
      "step": 324590
    },
    {
      "epoch": 0.67625,
      "grad_norm": 0.8338785767555237,
      "learning_rate": 7.166724852071784e-05,
      "loss": 3.7557,
      "step": 324600
    },
    {
      "epoch": 0.6762708333333334,
      "grad_norm": 0.9595538377761841,
      "learning_rate": 7.165884119821758e-05,
      "loss": 3.8912,
      "step": 324610
    },
    {
      "epoch": 0.6762916666666666,
      "grad_norm": 0.848918616771698,
      "learning_rate": 7.165043421412012e-05,
      "loss": 3.7632,
      "step": 324620
    },
    {
      "epoch": 0.6763125,
      "grad_norm": 0.9628721475601196,
      "learning_rate": 7.164202756846178e-05,
      "loss": 3.9215,
      "step": 324630
    },
    {
      "epoch": 0.6763333333333333,
      "grad_norm": 0.9469861388206482,
      "learning_rate": 7.163362126127885e-05,
      "loss": 3.7907,
      "step": 324640
    },
    {
      "epoch": 0.6763541666666667,
      "grad_norm": 0.8924213647842407,
      "learning_rate": 7.162521529260767e-05,
      "loss": 3.8342,
      "step": 324650
    },
    {
      "epoch": 0.676375,
      "grad_norm": 1.0674856901168823,
      "learning_rate": 7.161680966248453e-05,
      "loss": 3.7107,
      "step": 324660
    },
    {
      "epoch": 0.6763958333333333,
      "grad_norm": 0.8428145051002502,
      "learning_rate": 7.160840437094575e-05,
      "loss": 3.7744,
      "step": 324670
    },
    {
      "epoch": 0.6764166666666667,
      "grad_norm": 1.0343891382217407,
      "learning_rate": 7.159999941802763e-05,
      "loss": 3.7658,
      "step": 324680
    },
    {
      "epoch": 0.6764375,
      "grad_norm": 0.8868340849876404,
      "learning_rate": 7.159159480376649e-05,
      "loss": 3.9059,
      "step": 324690
    },
    {
      "epoch": 0.6764583333333334,
      "grad_norm": 0.8268179297447205,
      "learning_rate": 7.158319052819861e-05,
      "loss": 3.6623,
      "step": 324700
    },
    {
      "epoch": 0.6764791666666666,
      "grad_norm": 0.8957937359809875,
      "learning_rate": 7.157478659136031e-05,
      "loss": 3.6164,
      "step": 324710
    },
    {
      "epoch": 0.6765,
      "grad_norm": 0.9497842788696289,
      "learning_rate": 7.15663829932879e-05,
      "loss": 3.7125,
      "step": 324720
    },
    {
      "epoch": 0.6765208333333333,
      "grad_norm": 0.8956797122955322,
      "learning_rate": 7.155797973401765e-05,
      "loss": 3.6789,
      "step": 324730
    },
    {
      "epoch": 0.6765416666666667,
      "grad_norm": 0.8869556188583374,
      "learning_rate": 7.154957681358595e-05,
      "loss": 3.7425,
      "step": 324740
    },
    {
      "epoch": 0.6765625,
      "grad_norm": 1.0367763042449951,
      "learning_rate": 7.154117423202891e-05,
      "loss": 3.6534,
      "step": 324750
    },
    {
      "epoch": 0.6765833333333333,
      "grad_norm": 0.9535384774208069,
      "learning_rate": 7.153277198938299e-05,
      "loss": 3.6694,
      "step": 324760
    },
    {
      "epoch": 0.6766041666666667,
      "grad_norm": 0.9388583302497864,
      "learning_rate": 7.15243700856845e-05,
      "loss": 3.6844,
      "step": 324770
    },
    {
      "epoch": 0.676625,
      "grad_norm": 0.9276667237281799,
      "learning_rate": 7.151596852096956e-05,
      "loss": 3.8199,
      "step": 324780
    },
    {
      "epoch": 0.6766458333333333,
      "grad_norm": 0.9634360074996948,
      "learning_rate": 7.15075672952746e-05,
      "loss": 3.7493,
      "step": 324790
    },
    {
      "epoch": 0.6766666666666666,
      "grad_norm": 0.8607985973358154,
      "learning_rate": 7.149916640863596e-05,
      "loss": 3.7742,
      "step": 324800
    },
    {
      "epoch": 0.6766875,
      "grad_norm": 0.7880618572235107,
      "learning_rate": 7.149076586108972e-05,
      "loss": 3.7459,
      "step": 324810
    },
    {
      "epoch": 0.6767083333333334,
      "grad_norm": 1.0143373012542725,
      "learning_rate": 7.148236565267244e-05,
      "loss": 3.8752,
      "step": 324820
    },
    {
      "epoch": 0.6767291666666667,
      "grad_norm": 1.2971278429031372,
      "learning_rate": 7.147396578342017e-05,
      "loss": 3.6944,
      "step": 324830
    },
    {
      "epoch": 0.67675,
      "grad_norm": 0.863333523273468,
      "learning_rate": 7.146556625336925e-05,
      "loss": 3.5243,
      "step": 324840
    },
    {
      "epoch": 0.6767708333333333,
      "grad_norm": 0.8794850707054138,
      "learning_rate": 7.145716706255611e-05,
      "loss": 3.7352,
      "step": 324850
    },
    {
      "epoch": 0.6767916666666667,
      "grad_norm": 0.8510710597038269,
      "learning_rate": 7.144876821101684e-05,
      "loss": 3.7147,
      "step": 324860
    },
    {
      "epoch": 0.6768125,
      "grad_norm": 0.821611762046814,
      "learning_rate": 7.144036969878776e-05,
      "loss": 3.6584,
      "step": 324870
    },
    {
      "epoch": 0.6768333333333333,
      "grad_norm": 0.8462786674499512,
      "learning_rate": 7.143197152590528e-05,
      "loss": 3.8836,
      "step": 324880
    },
    {
      "epoch": 0.6768541666666666,
      "grad_norm": 0.9397562742233276,
      "learning_rate": 7.142357369240555e-05,
      "loss": 3.5666,
      "step": 324890
    },
    {
      "epoch": 0.676875,
      "grad_norm": 0.97421795129776,
      "learning_rate": 7.141517619832482e-05,
      "loss": 3.8123,
      "step": 324900
    },
    {
      "epoch": 0.6768958333333334,
      "grad_norm": 1.1812140941619873,
      "learning_rate": 7.140677904369953e-05,
      "loss": 3.5988,
      "step": 324910
    },
    {
      "epoch": 0.6769166666666667,
      "grad_norm": 0.8228917717933655,
      "learning_rate": 7.13983822285658e-05,
      "loss": 3.8057,
      "step": 324920
    },
    {
      "epoch": 0.6769375,
      "grad_norm": 0.8189412355422974,
      "learning_rate": 7.138998575295988e-05,
      "loss": 3.78,
      "step": 324930
    },
    {
      "epoch": 0.6769583333333333,
      "grad_norm": 0.8905698657035828,
      "learning_rate": 7.138158961691821e-05,
      "loss": 3.8628,
      "step": 324940
    },
    {
      "epoch": 0.6769791666666667,
      "grad_norm": 0.8323560357093811,
      "learning_rate": 7.137319382047692e-05,
      "loss": 3.6713,
      "step": 324950
    },
    {
      "epoch": 0.677,
      "grad_norm": 0.9332358837127686,
      "learning_rate": 7.13647983636723e-05,
      "loss": 3.7403,
      "step": 324960
    },
    {
      "epoch": 0.6770208333333333,
      "grad_norm": 0.8271329998970032,
      "learning_rate": 7.135640324654061e-05,
      "loss": 3.5917,
      "step": 324970
    },
    {
      "epoch": 0.6770416666666667,
      "grad_norm": 0.871380627155304,
      "learning_rate": 7.134800846911814e-05,
      "loss": 3.763,
      "step": 324980
    },
    {
      "epoch": 0.6770625,
      "grad_norm": 0.8648867011070251,
      "learning_rate": 7.133961403144113e-05,
      "loss": 3.542,
      "step": 324990
    },
    {
      "epoch": 0.6770833333333334,
      "grad_norm": 1.045742154121399,
      "learning_rate": 7.133121993354586e-05,
      "loss": 3.8207,
      "step": 325000
    },
    {
      "epoch": 0.6770833333333334,
      "eval_loss": 4.0681376457214355,
      "eval_runtime": 8.853,
      "eval_samples_per_second": 1.13,
      "eval_steps_per_second": 0.339,
      "step": 325000
    },
    {
      "epoch": 0.6771041666666666,
      "grad_norm": 0.9152889251708984,
      "learning_rate": 7.132282617546858e-05,
      "loss": 3.7759,
      "step": 325010
    },
    {
      "epoch": 0.677125,
      "grad_norm": 0.8009529709815979,
      "learning_rate": 7.131443275724557e-05,
      "loss": 3.8018,
      "step": 325020
    },
    {
      "epoch": 0.6771458333333333,
      "grad_norm": 0.8206753730773926,
      "learning_rate": 7.130603967891303e-05,
      "loss": 3.8436,
      "step": 325030
    },
    {
      "epoch": 0.6771666666666667,
      "grad_norm": 0.9253923296928406,
      "learning_rate": 7.129764694050726e-05,
      "loss": 3.6915,
      "step": 325040
    },
    {
      "epoch": 0.6771875,
      "grad_norm": 0.8640240430831909,
      "learning_rate": 7.128925454206458e-05,
      "loss": 3.7315,
      "step": 325050
    },
    {
      "epoch": 0.6772083333333333,
      "grad_norm": 0.8042062520980835,
      "learning_rate": 7.128086248362103e-05,
      "loss": 3.8409,
      "step": 325060
    },
    {
      "epoch": 0.6772291666666667,
      "grad_norm": 0.8431877493858337,
      "learning_rate": 7.127247076521306e-05,
      "loss": 3.698,
      "step": 325070
    },
    {
      "epoch": 0.67725,
      "grad_norm": 0.8823069930076599,
      "learning_rate": 7.12640793868769e-05,
      "loss": 3.7344,
      "step": 325080
    },
    {
      "epoch": 0.6772708333333334,
      "grad_norm": 0.8057894706726074,
      "learning_rate": 7.125568834864865e-05,
      "loss": 3.763,
      "step": 325090
    },
    {
      "epoch": 0.6772916666666666,
      "grad_norm": 0.8289913535118103,
      "learning_rate": 7.12472976505647e-05,
      "loss": 3.7265,
      "step": 325100
    },
    {
      "epoch": 0.6773125,
      "grad_norm": 0.7883719801902771,
      "learning_rate": 7.123890729266133e-05,
      "loss": 3.8173,
      "step": 325110
    },
    {
      "epoch": 0.6773333333333333,
      "grad_norm": 0.8528815507888794,
      "learning_rate": 7.123051727497458e-05,
      "loss": 3.8909,
      "step": 325120
    },
    {
      "epoch": 0.6773541666666667,
      "grad_norm": 0.8767861127853394,
      "learning_rate": 7.122212759754085e-05,
      "loss": 3.6177,
      "step": 325130
    },
    {
      "epoch": 0.677375,
      "grad_norm": 1.0083132982254028,
      "learning_rate": 7.121373826039644e-05,
      "loss": 3.7097,
      "step": 325140
    },
    {
      "epoch": 0.6773958333333333,
      "grad_norm": 0.7672941088676453,
      "learning_rate": 7.120534926357738e-05,
      "loss": 3.8805,
      "step": 325150
    },
    {
      "epoch": 0.6774166666666667,
      "grad_norm": 0.8479369878768921,
      "learning_rate": 7.119696060712005e-05,
      "loss": 3.6299,
      "step": 325160
    },
    {
      "epoch": 0.6774375,
      "grad_norm": 0.8706860542297363,
      "learning_rate": 7.118857229106073e-05,
      "loss": 3.8198,
      "step": 325170
    },
    {
      "epoch": 0.6774583333333334,
      "grad_norm": 0.8802648782730103,
      "learning_rate": 7.118018431543547e-05,
      "loss": 3.5435,
      "step": 325180
    },
    {
      "epoch": 0.6774791666666666,
      "grad_norm": 0.916585385799408,
      "learning_rate": 7.117179668028072e-05,
      "loss": 3.72,
      "step": 325190
    },
    {
      "epoch": 0.6775,
      "grad_norm": 0.8738071322441101,
      "learning_rate": 7.116340938563257e-05,
      "loss": 3.7046,
      "step": 325200
    },
    {
      "epoch": 0.6775208333333333,
      "grad_norm": 0.8751499652862549,
      "learning_rate": 7.115502243152721e-05,
      "loss": 3.6248,
      "step": 325210
    },
    {
      "epoch": 0.6775416666666667,
      "grad_norm": 0.8801614046096802,
      "learning_rate": 7.114663581800106e-05,
      "loss": 3.6762,
      "step": 325220
    },
    {
      "epoch": 0.6775625,
      "grad_norm": 0.8938378095626831,
      "learning_rate": 7.113824954509017e-05,
      "loss": 3.8052,
      "step": 325230
    },
    {
      "epoch": 0.6775833333333333,
      "grad_norm": 0.8238306045532227,
      "learning_rate": 7.112986361283077e-05,
      "loss": 3.708,
      "step": 325240
    },
    {
      "epoch": 0.6776041666666667,
      "grad_norm": 0.8893693089485168,
      "learning_rate": 7.112147802125927e-05,
      "loss": 3.7671,
      "step": 325250
    },
    {
      "epoch": 0.677625,
      "grad_norm": 0.9277127981185913,
      "learning_rate": 7.11130927704117e-05,
      "loss": 3.7498,
      "step": 325260
    },
    {
      "epoch": 0.6776458333333333,
      "grad_norm": 0.8287497758865356,
      "learning_rate": 7.110470786032427e-05,
      "loss": 3.6354,
      "step": 325270
    },
    {
      "epoch": 0.6776666666666666,
      "grad_norm": 0.8212628364562988,
      "learning_rate": 7.109632329103341e-05,
      "loss": 3.8619,
      "step": 325280
    },
    {
      "epoch": 0.6776875,
      "grad_norm": 0.9419729709625244,
      "learning_rate": 7.108793906257512e-05,
      "loss": 3.7397,
      "step": 325290
    },
    {
      "epoch": 0.6777083333333334,
      "grad_norm": 0.7842119336128235,
      "learning_rate": 7.107955517498566e-05,
      "loss": 3.6685,
      "step": 325300
    },
    {
      "epoch": 0.6777291666666667,
      "grad_norm": 1.2163324356079102,
      "learning_rate": 7.107117162830139e-05,
      "loss": 3.7381,
      "step": 325310
    },
    {
      "epoch": 0.67775,
      "grad_norm": 0.8194518089294434,
      "learning_rate": 7.106278842255836e-05,
      "loss": 3.5177,
      "step": 325320
    },
    {
      "epoch": 0.6777708333333333,
      "grad_norm": 0.9777005910873413,
      "learning_rate": 7.105440555779283e-05,
      "loss": 3.8157,
      "step": 325330
    },
    {
      "epoch": 0.6777916666666667,
      "grad_norm": 0.856859564781189,
      "learning_rate": 7.104602303404102e-05,
      "loss": 3.6136,
      "step": 325340
    },
    {
      "epoch": 0.6778125,
      "grad_norm": 0.9292887449264526,
      "learning_rate": 7.103764085133915e-05,
      "loss": 3.7666,
      "step": 325350
    },
    {
      "epoch": 0.6778333333333333,
      "grad_norm": 0.9652135372161865,
      "learning_rate": 7.102925900972343e-05,
      "loss": 3.6173,
      "step": 325360
    },
    {
      "epoch": 0.6778541666666666,
      "grad_norm": 0.8266841173171997,
      "learning_rate": 7.102087750923003e-05,
      "loss": 3.8686,
      "step": 325370
    },
    {
      "epoch": 0.677875,
      "grad_norm": 0.9464303255081177,
      "learning_rate": 7.101249634989518e-05,
      "loss": 3.7519,
      "step": 325380
    },
    {
      "epoch": 0.6778958333333334,
      "grad_norm": 0.7782453894615173,
      "learning_rate": 7.100411553175507e-05,
      "loss": 3.8276,
      "step": 325390
    },
    {
      "epoch": 0.6779166666666666,
      "grad_norm": 1.1471737623214722,
      "learning_rate": 7.099573505484594e-05,
      "loss": 3.6749,
      "step": 325400
    },
    {
      "epoch": 0.6779375,
      "grad_norm": 0.8274919986724854,
      "learning_rate": 7.098735491920395e-05,
      "loss": 3.7103,
      "step": 325410
    },
    {
      "epoch": 0.6779583333333333,
      "grad_norm": 0.8718504309654236,
      "learning_rate": 7.097897512486536e-05,
      "loss": 3.6385,
      "step": 325420
    },
    {
      "epoch": 0.6779791666666667,
      "grad_norm": 0.8579287528991699,
      "learning_rate": 7.097059567186621e-05,
      "loss": 3.803,
      "step": 325430
    },
    {
      "epoch": 0.678,
      "grad_norm": 0.910037636756897,
      "learning_rate": 7.096221656024286e-05,
      "loss": 3.8169,
      "step": 325440
    },
    {
      "epoch": 0.6780208333333333,
      "grad_norm": 0.7597784399986267,
      "learning_rate": 7.09538377900315e-05,
      "loss": 3.6082,
      "step": 325450
    },
    {
      "epoch": 0.6780416666666667,
      "grad_norm": 0.9522972106933594,
      "learning_rate": 7.094545936126816e-05,
      "loss": 3.708,
      "step": 325460
    },
    {
      "epoch": 0.6780625,
      "grad_norm": 0.8287733793258667,
      "learning_rate": 7.093708127398921e-05,
      "loss": 3.6069,
      "step": 325470
    },
    {
      "epoch": 0.6780833333333334,
      "grad_norm": 0.8886386752128601,
      "learning_rate": 7.092870352823084e-05,
      "loss": 3.8576,
      "step": 325480
    },
    {
      "epoch": 0.6781041666666666,
      "grad_norm": 0.9212403297424316,
      "learning_rate": 7.092032612402905e-05,
      "loss": 3.7818,
      "step": 325490
    },
    {
      "epoch": 0.678125,
      "grad_norm": 0.8422963619232178,
      "learning_rate": 7.091194906142019e-05,
      "loss": 3.8712,
      "step": 325500
    },
    {
      "epoch": 0.6781458333333333,
      "grad_norm": 1.036490559577942,
      "learning_rate": 7.090357234044047e-05,
      "loss": 3.7652,
      "step": 325510
    },
    {
      "epoch": 0.6781666666666667,
      "grad_norm": 0.903598964214325,
      "learning_rate": 7.089519596112591e-05,
      "loss": 3.6692,
      "step": 325520
    },
    {
      "epoch": 0.6781875,
      "grad_norm": 0.845393717288971,
      "learning_rate": 7.088681992351282e-05,
      "loss": 3.8892,
      "step": 325530
    },
    {
      "epoch": 0.6782083333333333,
      "grad_norm": 1.063891887664795,
      "learning_rate": 7.087844422763743e-05,
      "loss": 3.6724,
      "step": 325540
    },
    {
      "epoch": 0.6782291666666667,
      "grad_norm": 0.9647783637046814,
      "learning_rate": 7.087006887353572e-05,
      "loss": 3.6439,
      "step": 325550
    },
    {
      "epoch": 0.67825,
      "grad_norm": 0.907095193862915,
      "learning_rate": 7.086169386124412e-05,
      "loss": 3.9396,
      "step": 325560
    },
    {
      "epoch": 0.6782708333333334,
      "grad_norm": 1.1126596927642822,
      "learning_rate": 7.08533191907986e-05,
      "loss": 3.7973,
      "step": 325570
    },
    {
      "epoch": 0.6782916666666666,
      "grad_norm": 1.0245968103408813,
      "learning_rate": 7.084494486223537e-05,
      "loss": 3.738,
      "step": 325580
    },
    {
      "epoch": 0.6783125,
      "grad_norm": 0.9643657803535461,
      "learning_rate": 7.083657087559076e-05,
      "loss": 3.6073,
      "step": 325590
    },
    {
      "epoch": 0.6783333333333333,
      "grad_norm": 0.814526379108429,
      "learning_rate": 7.082819723090077e-05,
      "loss": 3.8488,
      "step": 325600
    },
    {
      "epoch": 0.6783541666666667,
      "grad_norm": 0.9299298524856567,
      "learning_rate": 7.081982392820156e-05,
      "loss": 3.7761,
      "step": 325610
    },
    {
      "epoch": 0.678375,
      "grad_norm": 0.953361988067627,
      "learning_rate": 7.08114509675295e-05,
      "loss": 3.722,
      "step": 325620
    },
    {
      "epoch": 0.6783958333333333,
      "grad_norm": 0.807074248790741,
      "learning_rate": 7.080307834892057e-05,
      "loss": 3.5901,
      "step": 325630
    },
    {
      "epoch": 0.6784166666666667,
      "grad_norm": 0.9901800155639648,
      "learning_rate": 7.079470607241097e-05,
      "loss": 3.7776,
      "step": 325640
    },
    {
      "epoch": 0.6784375,
      "grad_norm": 0.8310815095901489,
      "learning_rate": 7.078633413803691e-05,
      "loss": 3.8804,
      "step": 325650
    },
    {
      "epoch": 0.6784583333333334,
      "grad_norm": 0.889070987701416,
      "learning_rate": 7.077796254583453e-05,
      "loss": 3.6662,
      "step": 325660
    },
    {
      "epoch": 0.6784791666666666,
      "grad_norm": 0.8040516972541809,
      "learning_rate": 7.076959129583998e-05,
      "loss": 3.6933,
      "step": 325670
    },
    {
      "epoch": 0.6785,
      "grad_norm": 0.9569500088691711,
      "learning_rate": 7.076122038808945e-05,
      "loss": 3.5549,
      "step": 325680
    },
    {
      "epoch": 0.6785208333333334,
      "grad_norm": 0.8671571016311646,
      "learning_rate": 7.075284982261907e-05,
      "loss": 3.938,
      "step": 325690
    },
    {
      "epoch": 0.6785416666666667,
      "grad_norm": 1.0967085361480713,
      "learning_rate": 7.074447959946501e-05,
      "loss": 3.7742,
      "step": 325700
    },
    {
      "epoch": 0.6785625,
      "grad_norm": 0.8525036573410034,
      "learning_rate": 7.073610971866344e-05,
      "loss": 3.8395,
      "step": 325710
    },
    {
      "epoch": 0.6785833333333333,
      "grad_norm": 0.9380170106887817,
      "learning_rate": 7.072774018025051e-05,
      "loss": 3.8154,
      "step": 325720
    },
    {
      "epoch": 0.6786041666666667,
      "grad_norm": 0.8871256113052368,
      "learning_rate": 7.071937098426234e-05,
      "loss": 3.7704,
      "step": 325730
    },
    {
      "epoch": 0.678625,
      "grad_norm": 0.8331757187843323,
      "learning_rate": 7.071100213073512e-05,
      "loss": 3.6503,
      "step": 325740
    },
    {
      "epoch": 0.6786458333333333,
      "grad_norm": 0.7948641180992126,
      "learning_rate": 7.070263361970496e-05,
      "loss": 3.8969,
      "step": 325750
    },
    {
      "epoch": 0.6786666666666666,
      "grad_norm": 0.7969322204589844,
      "learning_rate": 7.069426545120808e-05,
      "loss": 3.6966,
      "step": 325760
    },
    {
      "epoch": 0.6786875,
      "grad_norm": 0.7926981449127197,
      "learning_rate": 7.068589762528055e-05,
      "loss": 3.7372,
      "step": 325770
    },
    {
      "epoch": 0.6787083333333334,
      "grad_norm": 0.9159607291221619,
      "learning_rate": 7.067753014195855e-05,
      "loss": 3.866,
      "step": 325780
    },
    {
      "epoch": 0.6787291666666667,
      "grad_norm": 0.8454897403717041,
      "learning_rate": 7.066916300127822e-05,
      "loss": 3.6704,
      "step": 325790
    },
    {
      "epoch": 0.67875,
      "grad_norm": 0.8490555286407471,
      "learning_rate": 7.066079620327572e-05,
      "loss": 3.7946,
      "step": 325800
    },
    {
      "epoch": 0.6787708333333333,
      "grad_norm": 0.7716755867004395,
      "learning_rate": 7.065242974798717e-05,
      "loss": 3.722,
      "step": 325810
    },
    {
      "epoch": 0.6787916666666667,
      "grad_norm": 0.8794340491294861,
      "learning_rate": 7.064406363544875e-05,
      "loss": 3.7669,
      "step": 325820
    },
    {
      "epoch": 0.6788125,
      "grad_norm": 0.7893765568733215,
      "learning_rate": 7.06356978656965e-05,
      "loss": 3.9742,
      "step": 325830
    },
    {
      "epoch": 0.6788333333333333,
      "grad_norm": 0.8138852119445801,
      "learning_rate": 7.062733243876663e-05,
      "loss": 3.6559,
      "step": 325840
    },
    {
      "epoch": 0.6788541666666666,
      "grad_norm": 0.9906257390975952,
      "learning_rate": 7.061896735469535e-05,
      "loss": 3.739,
      "step": 325850
    },
    {
      "epoch": 0.678875,
      "grad_norm": 1.0527842044830322,
      "learning_rate": 7.061060261351858e-05,
      "loss": 3.4611,
      "step": 325860
    },
    {
      "epoch": 0.6788958333333334,
      "grad_norm": 0.8566060066223145,
      "learning_rate": 7.060223821527265e-05,
      "loss": 3.7144,
      "step": 325870
    },
    {
      "epoch": 0.6789166666666666,
      "grad_norm": 0.981677770614624,
      "learning_rate": 7.059387415999368e-05,
      "loss": 3.861,
      "step": 325880
    },
    {
      "epoch": 0.6789375,
      "grad_norm": 0.8301292657852173,
      "learning_rate": 7.058551044771761e-05,
      "loss": 3.7158,
      "step": 325890
    },
    {
      "epoch": 0.6789583333333333,
      "grad_norm": 0.93291175365448,
      "learning_rate": 7.057714707848077e-05,
      "loss": 3.5981,
      "step": 325900
    },
    {
      "epoch": 0.6789791666666667,
      "grad_norm": 0.8936063647270203,
      "learning_rate": 7.056878405231929e-05,
      "loss": 3.6058,
      "step": 325910
    },
    {
      "epoch": 0.679,
      "grad_norm": 0.877191424369812,
      "learning_rate": 7.056042136926915e-05,
      "loss": 3.6853,
      "step": 325920
    },
    {
      "epoch": 0.6790208333333333,
      "grad_norm": 0.8846964836120605,
      "learning_rate": 7.055205902936648e-05,
      "loss": 3.7556,
      "step": 325930
    },
    {
      "epoch": 0.6790416666666667,
      "grad_norm": 0.8549098968505859,
      "learning_rate": 7.054369703264759e-05,
      "loss": 3.6519,
      "step": 325940
    },
    {
      "epoch": 0.6790625,
      "grad_norm": 0.7990723848342896,
      "learning_rate": 7.053533537914842e-05,
      "loss": 3.7505,
      "step": 325950
    },
    {
      "epoch": 0.6790833333333334,
      "grad_norm": 0.9933092594146729,
      "learning_rate": 7.052697406890515e-05,
      "loss": 3.7704,
      "step": 325960
    },
    {
      "epoch": 0.6791041666666666,
      "grad_norm": 1.0453290939331055,
      "learning_rate": 7.051861310195388e-05,
      "loss": 3.8318,
      "step": 325970
    },
    {
      "epoch": 0.679125,
      "grad_norm": 0.8384054899215698,
      "learning_rate": 7.051025247833076e-05,
      "loss": 3.8287,
      "step": 325980
    },
    {
      "epoch": 0.6791458333333333,
      "grad_norm": 1.003736138343811,
      "learning_rate": 7.050189219807189e-05,
      "loss": 3.6106,
      "step": 325990
    },
    {
      "epoch": 0.6791666666666667,
      "grad_norm": 0.9449332356452942,
      "learning_rate": 7.049353226121335e-05,
      "loss": 3.7925,
      "step": 326000
    },
    {
      "epoch": 0.6791666666666667,
      "eval_loss": 4.066615104675293,
      "eval_runtime": 8.888,
      "eval_samples_per_second": 1.125,
      "eval_steps_per_second": 0.338,
      "step": 326000
    },
    {
      "epoch": 0.6791875,
      "grad_norm": 0.8105286955833435,
      "learning_rate": 7.04851726677913e-05,
      "loss": 3.8634,
      "step": 326010
    },
    {
      "epoch": 0.6792083333333333,
      "grad_norm": 0.8101851344108582,
      "learning_rate": 7.047681341784181e-05,
      "loss": 3.7059,
      "step": 326020
    },
    {
      "epoch": 0.6792291666666667,
      "grad_norm": 0.8882104754447937,
      "learning_rate": 7.046845451140103e-05,
      "loss": 3.6076,
      "step": 326030
    },
    {
      "epoch": 0.67925,
      "grad_norm": 0.8627874255180359,
      "learning_rate": 7.046009594850505e-05,
      "loss": 3.6809,
      "step": 326040
    },
    {
      "epoch": 0.6792708333333334,
      "grad_norm": 0.8840752840042114,
      "learning_rate": 7.045173772918996e-05,
      "loss": 3.8171,
      "step": 326050
    },
    {
      "epoch": 0.6792916666666666,
      "grad_norm": 0.8248295783996582,
      "learning_rate": 7.044337985349187e-05,
      "loss": 3.9273,
      "step": 326060
    },
    {
      "epoch": 0.6793125,
      "grad_norm": 0.8854737281799316,
      "learning_rate": 7.043502232144691e-05,
      "loss": 3.8013,
      "step": 326070
    },
    {
      "epoch": 0.6793333333333333,
      "grad_norm": 1.581053376197815,
      "learning_rate": 7.042666513309112e-05,
      "loss": 3.8539,
      "step": 326080
    },
    {
      "epoch": 0.6793541666666667,
      "grad_norm": 0.7904773354530334,
      "learning_rate": 7.041830828846068e-05,
      "loss": 3.6578,
      "step": 326090
    },
    {
      "epoch": 0.679375,
      "grad_norm": 0.9272423386573792,
      "learning_rate": 7.040995178759164e-05,
      "loss": 3.6809,
      "step": 326100
    },
    {
      "epoch": 0.6793958333333333,
      "grad_norm": 0.8377958536148071,
      "learning_rate": 7.040159563052008e-05,
      "loss": 3.7629,
      "step": 326110
    },
    {
      "epoch": 0.6794166666666667,
      "grad_norm": 0.846767008304596,
      "learning_rate": 7.039323981728214e-05,
      "loss": 3.7233,
      "step": 326120
    },
    {
      "epoch": 0.6794375,
      "grad_norm": 0.8938825726509094,
      "learning_rate": 7.038488434791389e-05,
      "loss": 3.6642,
      "step": 326130
    },
    {
      "epoch": 0.6794583333333334,
      "grad_norm": 0.8256604671478271,
      "learning_rate": 7.037652922245142e-05,
      "loss": 3.7053,
      "step": 326140
    },
    {
      "epoch": 0.6794791666666666,
      "grad_norm": 0.8431403040885925,
      "learning_rate": 7.036817444093084e-05,
      "loss": 3.7593,
      "step": 326150
    },
    {
      "epoch": 0.6795,
      "grad_norm": 0.8693898916244507,
      "learning_rate": 7.035982000338821e-05,
      "loss": 3.7064,
      "step": 326160
    },
    {
      "epoch": 0.6795208333333334,
      "grad_norm": 0.9825984239578247,
      "learning_rate": 7.035146590985963e-05,
      "loss": 3.4811,
      "step": 326170
    },
    {
      "epoch": 0.6795416666666667,
      "grad_norm": 0.9631716012954712,
      "learning_rate": 7.034311216038122e-05,
      "loss": 3.6111,
      "step": 326180
    },
    {
      "epoch": 0.6795625,
      "grad_norm": 0.8483023047447205,
      "learning_rate": 7.033475875498906e-05,
      "loss": 3.8855,
      "step": 326190
    },
    {
      "epoch": 0.6795833333333333,
      "grad_norm": 1.0311442613601685,
      "learning_rate": 7.032640569371911e-05,
      "loss": 3.7151,
      "step": 326200
    },
    {
      "epoch": 0.6796041666666667,
      "grad_norm": 0.8273438215255737,
      "learning_rate": 7.031805297660761e-05,
      "loss": 3.7781,
      "step": 326210
    },
    {
      "epoch": 0.679625,
      "grad_norm": 0.8503392934799194,
      "learning_rate": 7.030970060369063e-05,
      "loss": 3.7631,
      "step": 326220
    },
    {
      "epoch": 0.6796458333333333,
      "grad_norm": 1.0105113983154297,
      "learning_rate": 7.030134857500415e-05,
      "loss": 3.7306,
      "step": 326230
    },
    {
      "epoch": 0.6796666666666666,
      "grad_norm": 0.9208908677101135,
      "learning_rate": 7.029299689058423e-05,
      "loss": 3.6356,
      "step": 326240
    },
    {
      "epoch": 0.6796875,
      "grad_norm": 0.8086029291152954,
      "learning_rate": 7.028464555046713e-05,
      "loss": 3.7058,
      "step": 326250
    },
    {
      "epoch": 0.6797083333333334,
      "grad_norm": 0.8788468837738037,
      "learning_rate": 7.027629455468876e-05,
      "loss": 3.6642,
      "step": 326260
    },
    {
      "epoch": 0.6797291666666667,
      "grad_norm": 0.8353039026260376,
      "learning_rate": 7.026794390328517e-05,
      "loss": 3.8267,
      "step": 326270
    },
    {
      "epoch": 0.67975,
      "grad_norm": 0.8991443514823914,
      "learning_rate": 7.025959359629262e-05,
      "loss": 3.7797,
      "step": 326280
    },
    {
      "epoch": 0.6797708333333333,
      "grad_norm": 1.0748666524887085,
      "learning_rate": 7.025124363374702e-05,
      "loss": 3.8468,
      "step": 326290
    },
    {
      "epoch": 0.6797916666666667,
      "grad_norm": 1.2687886953353882,
      "learning_rate": 7.024289401568441e-05,
      "loss": 3.868,
      "step": 326300
    },
    {
      "epoch": 0.6798125,
      "grad_norm": 0.9424221515655518,
      "learning_rate": 7.023454474214104e-05,
      "loss": 3.7308,
      "step": 326310
    },
    {
      "epoch": 0.6798333333333333,
      "grad_norm": 0.9595620632171631,
      "learning_rate": 7.022619581315282e-05,
      "loss": 3.6608,
      "step": 326320
    },
    {
      "epoch": 0.6798541666666666,
      "grad_norm": 0.9449673891067505,
      "learning_rate": 7.021784722875584e-05,
      "loss": 3.8281,
      "step": 326330
    },
    {
      "epoch": 0.679875,
      "grad_norm": 0.8460645079612732,
      "learning_rate": 7.020949898898619e-05,
      "loss": 3.8353,
      "step": 326340
    },
    {
      "epoch": 0.6798958333333334,
      "grad_norm": 0.8126190900802612,
      "learning_rate": 7.020115109387992e-05,
      "loss": 3.716,
      "step": 326350
    },
    {
      "epoch": 0.6799166666666666,
      "grad_norm": 0.8139652013778687,
      "learning_rate": 7.01928035434731e-05,
      "loss": 3.7313,
      "step": 326360
    },
    {
      "epoch": 0.6799375,
      "grad_norm": 0.8467843532562256,
      "learning_rate": 7.018445633780177e-05,
      "loss": 3.7071,
      "step": 326370
    },
    {
      "epoch": 0.6799583333333333,
      "grad_norm": 0.8129255175590515,
      "learning_rate": 7.017610947690198e-05,
      "loss": 3.6043,
      "step": 326380
    },
    {
      "epoch": 0.6799791666666667,
      "grad_norm": 0.9240924119949341,
      "learning_rate": 7.016776296080983e-05,
      "loss": 3.7388,
      "step": 326390
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.047839879989624,
      "learning_rate": 7.015941678956132e-05,
      "loss": 3.697,
      "step": 326400
    },
    {
      "epoch": 0.6800208333333333,
      "grad_norm": 0.8341576457023621,
      "learning_rate": 7.015107096319254e-05,
      "loss": 3.8858,
      "step": 326410
    },
    {
      "epoch": 0.6800416666666667,
      "grad_norm": 0.8190854787826538,
      "learning_rate": 7.014272548173951e-05,
      "loss": 3.797,
      "step": 326420
    },
    {
      "epoch": 0.6800625,
      "grad_norm": 0.8048855066299438,
      "learning_rate": 7.013438034523831e-05,
      "loss": 3.7204,
      "step": 326430
    },
    {
      "epoch": 0.6800833333333334,
      "grad_norm": 0.9991714358329773,
      "learning_rate": 7.012603555372499e-05,
      "loss": 3.6791,
      "step": 326440
    },
    {
      "epoch": 0.6801041666666666,
      "grad_norm": 0.8782879114151001,
      "learning_rate": 7.011769110723555e-05,
      "loss": 3.8387,
      "step": 326450
    },
    {
      "epoch": 0.680125,
      "grad_norm": 0.8195192217826843,
      "learning_rate": 7.010934700580608e-05,
      "loss": 3.5943,
      "step": 326460
    },
    {
      "epoch": 0.6801458333333333,
      "grad_norm": 0.9643171429634094,
      "learning_rate": 7.01010032494726e-05,
      "loss": 3.7753,
      "step": 326470
    },
    {
      "epoch": 0.6801666666666667,
      "grad_norm": 0.8608856797218323,
      "learning_rate": 7.009265983827117e-05,
      "loss": 3.6485,
      "step": 326480
    },
    {
      "epoch": 0.6801875,
      "grad_norm": 0.8600079417228699,
      "learning_rate": 7.008431677223782e-05,
      "loss": 3.6131,
      "step": 326490
    },
    {
      "epoch": 0.6802083333333333,
      "grad_norm": 0.7671256065368652,
      "learning_rate": 7.007597405140858e-05,
      "loss": 3.784,
      "step": 326500
    },
    {
      "epoch": 0.6802291666666667,
      "grad_norm": 0.8741917014122009,
      "learning_rate": 7.006763167581955e-05,
      "loss": 3.621,
      "step": 326510
    },
    {
      "epoch": 0.68025,
      "grad_norm": 0.8242560029029846,
      "learning_rate": 7.005928964550661e-05,
      "loss": 3.8024,
      "step": 326520
    },
    {
      "epoch": 0.6802708333333334,
      "grad_norm": 1.3725619316101074,
      "learning_rate": 7.005094796050595e-05,
      "loss": 3.7321,
      "step": 326530
    },
    {
      "epoch": 0.6802916666666666,
      "grad_norm": 0.8135587573051453,
      "learning_rate": 7.00426066208536e-05,
      "loss": 3.7218,
      "step": 326540
    },
    {
      "epoch": 0.6803125,
      "grad_norm": 0.7965371608734131,
      "learning_rate": 7.003426562658543e-05,
      "loss": 3.6751,
      "step": 326550
    },
    {
      "epoch": 0.6803333333333333,
      "grad_norm": 0.827185332775116,
      "learning_rate": 7.00259249777377e-05,
      "loss": 3.8094,
      "step": 326560
    },
    {
      "epoch": 0.6803541666666667,
      "grad_norm": 0.7618218660354614,
      "learning_rate": 7.001758467434624e-05,
      "loss": 3.7423,
      "step": 326570
    },
    {
      "epoch": 0.680375,
      "grad_norm": 1.0879007577896118,
      "learning_rate": 7.000924471644713e-05,
      "loss": 3.7148,
      "step": 326580
    },
    {
      "epoch": 0.6803958333333333,
      "grad_norm": 0.8497021794319153,
      "learning_rate": 7.000090510407649e-05,
      "loss": 3.7075,
      "step": 326590
    },
    {
      "epoch": 0.6804166666666667,
      "grad_norm": 1.0478657484054565,
      "learning_rate": 6.999256583727027e-05,
      "loss": 3.6343,
      "step": 326600
    },
    {
      "epoch": 0.6804375,
      "grad_norm": 0.8005994558334351,
      "learning_rate": 6.998422691606439e-05,
      "loss": 3.7311,
      "step": 326610
    },
    {
      "epoch": 0.6804583333333334,
      "grad_norm": 0.970744252204895,
      "learning_rate": 6.997588834049512e-05,
      "loss": 3.7067,
      "step": 326620
    },
    {
      "epoch": 0.6804791666666666,
      "grad_norm": 0.8510766625404358,
      "learning_rate": 6.996755011059829e-05,
      "loss": 3.7776,
      "step": 326630
    },
    {
      "epoch": 0.6805,
      "grad_norm": 0.8659652471542358,
      "learning_rate": 6.995921222640989e-05,
      "loss": 3.7111,
      "step": 326640
    },
    {
      "epoch": 0.6805208333333334,
      "grad_norm": 0.824248731136322,
      "learning_rate": 6.995087468796612e-05,
      "loss": 3.6293,
      "step": 326650
    },
    {
      "epoch": 0.6805416666666667,
      "grad_norm": 0.906880795955658,
      "learning_rate": 6.994253749530283e-05,
      "loss": 3.7687,
      "step": 326660
    },
    {
      "epoch": 0.6805625,
      "grad_norm": 0.8182085752487183,
      "learning_rate": 6.993420064845605e-05,
      "loss": 3.7747,
      "step": 326670
    },
    {
      "epoch": 0.6805833333333333,
      "grad_norm": 0.8649535179138184,
      "learning_rate": 6.992586414746193e-05,
      "loss": 3.5847,
      "step": 326680
    },
    {
      "epoch": 0.6806041666666667,
      "grad_norm": 0.8543953895568848,
      "learning_rate": 6.991752799235633e-05,
      "loss": 3.5677,
      "step": 326690
    },
    {
      "epoch": 0.680625,
      "grad_norm": 0.878874659538269,
      "learning_rate": 6.990919218317531e-05,
      "loss": 3.8104,
      "step": 326700
    },
    {
      "epoch": 0.6806458333333333,
      "grad_norm": 0.8351547718048096,
      "learning_rate": 6.990085671995487e-05,
      "loss": 3.7306,
      "step": 326710
    },
    {
      "epoch": 0.6806666666666666,
      "grad_norm": 0.9770047068595886,
      "learning_rate": 6.989252160273103e-05,
      "loss": 3.7269,
      "step": 326720
    },
    {
      "epoch": 0.6806875,
      "grad_norm": 0.8314098715782166,
      "learning_rate": 6.988418683153978e-05,
      "loss": 3.7047,
      "step": 326730
    },
    {
      "epoch": 0.6807083333333334,
      "grad_norm": 1.0211154222488403,
      "learning_rate": 6.987585240641713e-05,
      "loss": 3.6648,
      "step": 326740
    },
    {
      "epoch": 0.6807291666666667,
      "grad_norm": 1.0954744815826416,
      "learning_rate": 6.98675183273991e-05,
      "loss": 3.7167,
      "step": 326750
    },
    {
      "epoch": 0.68075,
      "grad_norm": 0.9949049353599548,
      "learning_rate": 6.985918459452166e-05,
      "loss": 3.6392,
      "step": 326760
    },
    {
      "epoch": 0.6807708333333333,
      "grad_norm": 1.0085597038269043,
      "learning_rate": 6.985085120782081e-05,
      "loss": 3.8027,
      "step": 326770
    },
    {
      "epoch": 0.6807916666666667,
      "grad_norm": 0.9108439087867737,
      "learning_rate": 6.984251816733257e-05,
      "loss": 3.7827,
      "step": 326780
    },
    {
      "epoch": 0.6808125,
      "grad_norm": 0.8652455806732178,
      "learning_rate": 6.983418547309292e-05,
      "loss": 3.7292,
      "step": 326790
    },
    {
      "epoch": 0.6808333333333333,
      "grad_norm": 0.9155521392822266,
      "learning_rate": 6.982585312513787e-05,
      "loss": 3.768,
      "step": 326800
    },
    {
      "epoch": 0.6808541666666666,
      "grad_norm": 0.9081302285194397,
      "learning_rate": 6.981752112350338e-05,
      "loss": 3.6864,
      "step": 326810
    },
    {
      "epoch": 0.680875,
      "grad_norm": 0.8687297701835632,
      "learning_rate": 6.980918946822554e-05,
      "loss": 3.7814,
      "step": 326820
    },
    {
      "epoch": 0.6808958333333334,
      "grad_norm": 1.2032440900802612,
      "learning_rate": 6.980085815934013e-05,
      "loss": 3.7499,
      "step": 326830
    },
    {
      "epoch": 0.6809166666666666,
      "grad_norm": 1.0267770290374756,
      "learning_rate": 6.979252719688332e-05,
      "loss": 3.8332,
      "step": 326840
    },
    {
      "epoch": 0.6809375,
      "grad_norm": 0.9549165368080139,
      "learning_rate": 6.978419658089111e-05,
      "loss": 3.6986,
      "step": 326850
    },
    {
      "epoch": 0.6809583333333333,
      "grad_norm": 0.9668617248535156,
      "learning_rate": 6.97758663113993e-05,
      "loss": 3.7704,
      "step": 326860
    },
    {
      "epoch": 0.6809791666666667,
      "grad_norm": 0.9462957978248596,
      "learning_rate": 6.976753638844405e-05,
      "loss": 3.6854,
      "step": 326870
    },
    {
      "epoch": 0.681,
      "grad_norm": 0.9389122724533081,
      "learning_rate": 6.975920681206134e-05,
      "loss": 3.7122,
      "step": 326880
    },
    {
      "epoch": 0.6810208333333333,
      "grad_norm": 0.9090574979782104,
      "learning_rate": 6.975087758228699e-05,
      "loss": 3.4731,
      "step": 326890
    },
    {
      "epoch": 0.6810416666666667,
      "grad_norm": 0.8709492087364197,
      "learning_rate": 6.974254869915713e-05,
      "loss": 3.6923,
      "step": 326900
    },
    {
      "epoch": 0.6810625,
      "grad_norm": 0.8423485159873962,
      "learning_rate": 6.973422016270776e-05,
      "loss": 3.821,
      "step": 326910
    },
    {
      "epoch": 0.6810833333333334,
      "grad_norm": 0.8387196063995361,
      "learning_rate": 6.972589197297468e-05,
      "loss": 3.6522,
      "step": 326920
    },
    {
      "epoch": 0.6811041666666666,
      "grad_norm": 0.8996772766113281,
      "learning_rate": 6.971756412999406e-05,
      "loss": 3.718,
      "step": 326930
    },
    {
      "epoch": 0.681125,
      "grad_norm": 0.9620543718338013,
      "learning_rate": 6.970923663380174e-05,
      "loss": 3.8426,
      "step": 326940
    },
    {
      "epoch": 0.6811458333333333,
      "grad_norm": 0.9712145328521729,
      "learning_rate": 6.970090948443369e-05,
      "loss": 3.5506,
      "step": 326950
    },
    {
      "epoch": 0.6811666666666667,
      "grad_norm": 0.9282527565956116,
      "learning_rate": 6.969258268192603e-05,
      "loss": 3.7531,
      "step": 326960
    },
    {
      "epoch": 0.6811875,
      "grad_norm": 0.7792437076568604,
      "learning_rate": 6.968425622631457e-05,
      "loss": 3.6572,
      "step": 326970
    },
    {
      "epoch": 0.6812083333333333,
      "grad_norm": 1.1098148822784424,
      "learning_rate": 6.967593011763528e-05,
      "loss": 3.9371,
      "step": 326980
    },
    {
      "epoch": 0.6812291666666667,
      "grad_norm": 0.9499209523200989,
      "learning_rate": 6.966760435592428e-05,
      "loss": 3.7216,
      "step": 326990
    },
    {
      "epoch": 0.68125,
      "grad_norm": 0.8118685483932495,
      "learning_rate": 6.965927894121738e-05,
      "loss": 3.6689,
      "step": 327000
    },
    {
      "epoch": 0.68125,
      "eval_loss": 4.057850360870361,
      "eval_runtime": 9.2357,
      "eval_samples_per_second": 1.083,
      "eval_steps_per_second": 0.325,
      "step": 327000
    },
    {
      "epoch": 0.6812708333333334,
      "grad_norm": 0.8720505833625793,
      "learning_rate": 6.965095387355053e-05,
      "loss": 3.5604,
      "step": 327010
    },
    {
      "epoch": 0.6812916666666666,
      "grad_norm": 0.8383549451828003,
      "learning_rate": 6.964262915295988e-05,
      "loss": 3.9194,
      "step": 327020
    },
    {
      "epoch": 0.6813125,
      "grad_norm": 1.0067492723464966,
      "learning_rate": 6.963430477948121e-05,
      "loss": 3.6972,
      "step": 327030
    },
    {
      "epoch": 0.6813333333333333,
      "grad_norm": 1.0164448022842407,
      "learning_rate": 6.962598075315046e-05,
      "loss": 3.6852,
      "step": 327040
    },
    {
      "epoch": 0.6813541666666667,
      "grad_norm": 0.8999671339988708,
      "learning_rate": 6.961765707400379e-05,
      "loss": 3.7758,
      "step": 327050
    },
    {
      "epoch": 0.681375,
      "grad_norm": 0.7870623469352722,
      "learning_rate": 6.960933374207696e-05,
      "loss": 3.6729,
      "step": 327060
    },
    {
      "epoch": 0.6813958333333333,
      "grad_norm": 1.1453351974487305,
      "learning_rate": 6.960101075740598e-05,
      "loss": 3.9718,
      "step": 327070
    },
    {
      "epoch": 0.6814166666666667,
      "grad_norm": 0.8381977081298828,
      "learning_rate": 6.959268812002681e-05,
      "loss": 3.7712,
      "step": 327080
    },
    {
      "epoch": 0.6814375,
      "grad_norm": 0.7963612079620361,
      "learning_rate": 6.958436582997542e-05,
      "loss": 3.6432,
      "step": 327090
    },
    {
      "epoch": 0.6814583333333334,
      "grad_norm": 0.9100951552391052,
      "learning_rate": 6.957604388728772e-05,
      "loss": 3.5677,
      "step": 327100
    },
    {
      "epoch": 0.6814791666666666,
      "grad_norm": 0.9259763956069946,
      "learning_rate": 6.956772229199968e-05,
      "loss": 3.7169,
      "step": 327110
    },
    {
      "epoch": 0.6815,
      "grad_norm": 0.8457818031311035,
      "learning_rate": 6.955940104414725e-05,
      "loss": 3.7817,
      "step": 327120
    },
    {
      "epoch": 0.6815208333333334,
      "grad_norm": 0.8866239786148071,
      "learning_rate": 6.955108014376636e-05,
      "loss": 3.6829,
      "step": 327130
    },
    {
      "epoch": 0.6815416666666667,
      "grad_norm": 0.939417839050293,
      "learning_rate": 6.954275959089296e-05,
      "loss": 3.6495,
      "step": 327140
    },
    {
      "epoch": 0.6815625,
      "grad_norm": 0.9451116919517517,
      "learning_rate": 6.953443938556298e-05,
      "loss": 3.7736,
      "step": 327150
    },
    {
      "epoch": 0.6815833333333333,
      "grad_norm": 0.7973955869674683,
      "learning_rate": 6.952611952781238e-05,
      "loss": 3.725,
      "step": 327160
    },
    {
      "epoch": 0.6816041666666667,
      "grad_norm": 0.8502989411354065,
      "learning_rate": 6.95178000176771e-05,
      "loss": 3.5588,
      "step": 327170
    },
    {
      "epoch": 0.681625,
      "grad_norm": 0.8328312635421753,
      "learning_rate": 6.950948085519305e-05,
      "loss": 3.6031,
      "step": 327180
    },
    {
      "epoch": 0.6816458333333333,
      "grad_norm": 0.9878777265548706,
      "learning_rate": 6.950116204039626e-05,
      "loss": 3.6934,
      "step": 327190
    },
    {
      "epoch": 0.6816666666666666,
      "grad_norm": 1.0506064891815186,
      "learning_rate": 6.949284357332246e-05,
      "loss": 3.744,
      "step": 327200
    },
    {
      "epoch": 0.6816875,
      "grad_norm": 1.0758370161056519,
      "learning_rate": 6.948452545400777e-05,
      "loss": 3.6698,
      "step": 327210
    },
    {
      "epoch": 0.6817083333333334,
      "grad_norm": 0.872909665107727,
      "learning_rate": 6.947620768248812e-05,
      "loss": 3.659,
      "step": 327220
    },
    {
      "epoch": 0.6817291666666667,
      "grad_norm": 0.8749352097511292,
      "learning_rate": 6.946789025879925e-05,
      "loss": 3.805,
      "step": 327230
    },
    {
      "epoch": 0.68175,
      "grad_norm": 1.0318758487701416,
      "learning_rate": 6.945957318297728e-05,
      "loss": 3.7437,
      "step": 327240
    },
    {
      "epoch": 0.6817708333333333,
      "grad_norm": 0.8307680487632751,
      "learning_rate": 6.945125645505814e-05,
      "loss": 3.6381,
      "step": 327250
    },
    {
      "epoch": 0.6817916666666667,
      "grad_norm": 1.167927622795105,
      "learning_rate": 6.944294007507757e-05,
      "loss": 3.7426,
      "step": 327260
    },
    {
      "epoch": 0.6818125,
      "grad_norm": 1.1645760536193848,
      "learning_rate": 6.943462404307167e-05,
      "loss": 3.6535,
      "step": 327270
    },
    {
      "epoch": 0.6818333333333333,
      "grad_norm": 0.9227858781814575,
      "learning_rate": 6.942630835907636e-05,
      "loss": 3.5525,
      "step": 327280
    },
    {
      "epoch": 0.6818541666666667,
      "grad_norm": 0.82831209897995,
      "learning_rate": 6.941799302312738e-05,
      "loss": 3.7293,
      "step": 327290
    },
    {
      "epoch": 0.681875,
      "grad_norm": 1.2226039171218872,
      "learning_rate": 6.940967803526084e-05,
      "loss": 3.8654,
      "step": 327300
    },
    {
      "epoch": 0.6818958333333334,
      "grad_norm": 0.992487370967865,
      "learning_rate": 6.940136339551265e-05,
      "loss": 3.7076,
      "step": 327310
    },
    {
      "epoch": 0.6819166666666666,
      "grad_norm": 0.845212996006012,
      "learning_rate": 6.939304910391857e-05,
      "loss": 3.6945,
      "step": 327320
    },
    {
      "epoch": 0.6819375,
      "grad_norm": 0.9580228924751282,
      "learning_rate": 6.938473516051468e-05,
      "loss": 3.768,
      "step": 327330
    },
    {
      "epoch": 0.6819583333333333,
      "grad_norm": 1.092620849609375,
      "learning_rate": 6.93764215653368e-05,
      "loss": 3.6084,
      "step": 327340
    },
    {
      "epoch": 0.6819791666666667,
      "grad_norm": 0.8211759328842163,
      "learning_rate": 6.936810831842082e-05,
      "loss": 3.7629,
      "step": 327350
    },
    {
      "epoch": 0.682,
      "grad_norm": 1.095718264579773,
      "learning_rate": 6.935979541980279e-05,
      "loss": 3.6221,
      "step": 327360
    },
    {
      "epoch": 0.6820208333333333,
      "grad_norm": 1.1171109676361084,
      "learning_rate": 6.935148286951847e-05,
      "loss": 3.7337,
      "step": 327370
    },
    {
      "epoch": 0.6820416666666667,
      "grad_norm": 0.8523122072219849,
      "learning_rate": 6.934317066760375e-05,
      "loss": 3.707,
      "step": 327380
    },
    {
      "epoch": 0.6820625,
      "grad_norm": 0.8270972967147827,
      "learning_rate": 6.933485881409473e-05,
      "loss": 3.6607,
      "step": 327390
    },
    {
      "epoch": 0.6820833333333334,
      "grad_norm": 0.9197700619697571,
      "learning_rate": 6.932654730902714e-05,
      "loss": 3.6706,
      "step": 327400
    },
    {
      "epoch": 0.6821041666666666,
      "grad_norm": 0.8814942240715027,
      "learning_rate": 6.931823615243695e-05,
      "loss": 3.6087,
      "step": 327410
    },
    {
      "epoch": 0.682125,
      "grad_norm": 0.8341119289398193,
      "learning_rate": 6.930992534436001e-05,
      "loss": 3.8596,
      "step": 327420
    },
    {
      "epoch": 0.6821458333333333,
      "grad_norm": 0.8578718900680542,
      "learning_rate": 6.930161488483228e-05,
      "loss": 3.6142,
      "step": 327430
    },
    {
      "epoch": 0.6821666666666667,
      "grad_norm": 0.8676620125770569,
      "learning_rate": 6.929330477388961e-05,
      "loss": 3.51,
      "step": 327440
    },
    {
      "epoch": 0.6821875,
      "grad_norm": 0.9760224223136902,
      "learning_rate": 6.928499501156793e-05,
      "loss": 3.8878,
      "step": 327450
    },
    {
      "epoch": 0.6822083333333333,
      "grad_norm": 1.1066142320632935,
      "learning_rate": 6.927668559790311e-05,
      "loss": 3.8202,
      "step": 327460
    },
    {
      "epoch": 0.6822291666666667,
      "grad_norm": 1.083768606185913,
      "learning_rate": 6.926837653293107e-05,
      "loss": 3.761,
      "step": 327470
    },
    {
      "epoch": 0.68225,
      "grad_norm": 0.9651585221290588,
      "learning_rate": 6.926006781668767e-05,
      "loss": 3.8063,
      "step": 327480
    },
    {
      "epoch": 0.6822708333333334,
      "grad_norm": 0.8619134426116943,
      "learning_rate": 6.925175944920883e-05,
      "loss": 3.744,
      "step": 327490
    },
    {
      "epoch": 0.6822916666666666,
      "grad_norm": 1.140899419784546,
      "learning_rate": 6.924345143053044e-05,
      "loss": 3.7914,
      "step": 327500
    },
    {
      "epoch": 0.6823125,
      "grad_norm": 0.9035013914108276,
      "learning_rate": 6.923514376068837e-05,
      "loss": 3.7048,
      "step": 327510
    },
    {
      "epoch": 0.6823333333333333,
      "grad_norm": 0.826872706413269,
      "learning_rate": 6.922683643971849e-05,
      "loss": 3.6361,
      "step": 327520
    },
    {
      "epoch": 0.6823541666666667,
      "grad_norm": 0.8653116226196289,
      "learning_rate": 6.921852946765672e-05,
      "loss": 3.7973,
      "step": 327530
    },
    {
      "epoch": 0.682375,
      "grad_norm": 0.8746518492698669,
      "learning_rate": 6.921022284453892e-05,
      "loss": 3.8049,
      "step": 327540
    },
    {
      "epoch": 0.6823958333333333,
      "grad_norm": 0.9119564294815063,
      "learning_rate": 6.920191657040099e-05,
      "loss": 3.7624,
      "step": 327550
    },
    {
      "epoch": 0.6824166666666667,
      "grad_norm": 0.8704639077186584,
      "learning_rate": 6.919361064527884e-05,
      "loss": 3.718,
      "step": 327560
    },
    {
      "epoch": 0.6824375,
      "grad_norm": 0.81156325340271,
      "learning_rate": 6.91853050692082e-05,
      "loss": 3.8653,
      "step": 327570
    },
    {
      "epoch": 0.6824583333333333,
      "grad_norm": 1.0058517456054688,
      "learning_rate": 6.91769998422251e-05,
      "loss": 3.6864,
      "step": 327580
    },
    {
      "epoch": 0.6824791666666666,
      "grad_norm": 0.7729668617248535,
      "learning_rate": 6.916869496436545e-05,
      "loss": 3.7497,
      "step": 327590
    },
    {
      "epoch": 0.6825,
      "grad_norm": 0.863207995891571,
      "learning_rate": 6.91603904356649e-05,
      "loss": 3.7678,
      "step": 327600
    },
    {
      "epoch": 0.6825208333333334,
      "grad_norm": 0.8250240087509155,
      "learning_rate": 6.915208625615953e-05,
      "loss": 3.6026,
      "step": 327610
    },
    {
      "epoch": 0.6825416666666667,
      "grad_norm": 0.8615415692329407,
      "learning_rate": 6.91437824258852e-05,
      "loss": 3.7861,
      "step": 327620
    },
    {
      "epoch": 0.6825625,
      "grad_norm": 0.8445056080818176,
      "learning_rate": 6.913547894487764e-05,
      "loss": 3.7254,
      "step": 327630
    },
    {
      "epoch": 0.6825833333333333,
      "grad_norm": 1.2793517112731934,
      "learning_rate": 6.912717581317282e-05,
      "loss": 3.8795,
      "step": 327640
    },
    {
      "epoch": 0.6826041666666667,
      "grad_norm": 0.8590086102485657,
      "learning_rate": 6.911887303080668e-05,
      "loss": 3.71,
      "step": 327650
    },
    {
      "epoch": 0.682625,
      "grad_norm": 1.0610255002975464,
      "learning_rate": 6.911057059781485e-05,
      "loss": 3.8237,
      "step": 327660
    },
    {
      "epoch": 0.6826458333333333,
      "grad_norm": 0.8360607028007507,
      "learning_rate": 6.910226851423342e-05,
      "loss": 3.781,
      "step": 327670
    },
    {
      "epoch": 0.6826666666666666,
      "grad_norm": 0.8490220308303833,
      "learning_rate": 6.909396678009821e-05,
      "loss": 3.8293,
      "step": 327680
    },
    {
      "epoch": 0.6826875,
      "grad_norm": 0.9340614080429077,
      "learning_rate": 6.9085665395445e-05,
      "loss": 3.7101,
      "step": 327690
    },
    {
      "epoch": 0.6827083333333334,
      "grad_norm": 0.9843556880950928,
      "learning_rate": 6.907736436030965e-05,
      "loss": 3.828,
      "step": 327700
    },
    {
      "epoch": 0.6827291666666667,
      "grad_norm": 0.910333514213562,
      "learning_rate": 6.906906367472809e-05,
      "loss": 3.767,
      "step": 327710
    },
    {
      "epoch": 0.68275,
      "grad_norm": 1.053892970085144,
      "learning_rate": 6.906076333873611e-05,
      "loss": 3.6227,
      "step": 327720
    },
    {
      "epoch": 0.6827708333333333,
      "grad_norm": 0.8176166415214539,
      "learning_rate": 6.905246335236962e-05,
      "loss": 3.4817,
      "step": 327730
    },
    {
      "epoch": 0.6827916666666667,
      "grad_norm": 0.8531010746955872,
      "learning_rate": 6.904416371566444e-05,
      "loss": 3.7866,
      "step": 327740
    },
    {
      "epoch": 0.6828125,
      "grad_norm": 0.8195685148239136,
      "learning_rate": 6.903586442865643e-05,
      "loss": 3.9803,
      "step": 327750
    },
    {
      "epoch": 0.6828333333333333,
      "grad_norm": 0.7961179614067078,
      "learning_rate": 6.902756549138142e-05,
      "loss": 3.7457,
      "step": 327760
    },
    {
      "epoch": 0.6828541666666667,
      "grad_norm": 0.9485254883766174,
      "learning_rate": 6.90192669038753e-05,
      "loss": 3.7836,
      "step": 327770
    },
    {
      "epoch": 0.682875,
      "grad_norm": 0.9663177132606506,
      "learning_rate": 6.901096866617388e-05,
      "loss": 3.866,
      "step": 327780
    },
    {
      "epoch": 0.6828958333333334,
      "grad_norm": 0.852824330329895,
      "learning_rate": 6.900267077831301e-05,
      "loss": 3.6986,
      "step": 327790
    },
    {
      "epoch": 0.6829166666666666,
      "grad_norm": 0.9655632972717285,
      "learning_rate": 6.899437324032856e-05,
      "loss": 3.5965,
      "step": 327800
    },
    {
      "epoch": 0.6829375,
      "grad_norm": 1.1382766962051392,
      "learning_rate": 6.898607605225634e-05,
      "loss": 3.7522,
      "step": 327810
    },
    {
      "epoch": 0.6829583333333333,
      "grad_norm": 1.1302458047866821,
      "learning_rate": 6.897777921413222e-05,
      "loss": 3.8473,
      "step": 327820
    },
    {
      "epoch": 0.6829791666666667,
      "grad_norm": 0.7969108819961548,
      "learning_rate": 6.896948272599202e-05,
      "loss": 3.6156,
      "step": 327830
    },
    {
      "epoch": 0.683,
      "grad_norm": 0.7490240931510925,
      "learning_rate": 6.896118658787156e-05,
      "loss": 3.8271,
      "step": 327840
    },
    {
      "epoch": 0.6830208333333333,
      "grad_norm": 1.0048595666885376,
      "learning_rate": 6.895289079980671e-05,
      "loss": 3.749,
      "step": 327850
    },
    {
      "epoch": 0.6830416666666667,
      "grad_norm": 0.8297248482704163,
      "learning_rate": 6.894459536183329e-05,
      "loss": 3.6279,
      "step": 327860
    },
    {
      "epoch": 0.6830625,
      "grad_norm": 0.8354476690292358,
      "learning_rate": 6.893630027398713e-05,
      "loss": 3.702,
      "step": 327870
    },
    {
      "epoch": 0.6830833333333334,
      "grad_norm": 1.1367182731628418,
      "learning_rate": 6.892800553630407e-05,
      "loss": 3.6365,
      "step": 327880
    },
    {
      "epoch": 0.6831041666666666,
      "grad_norm": 0.7822582721710205,
      "learning_rate": 6.891971114881994e-05,
      "loss": 3.731,
      "step": 327890
    },
    {
      "epoch": 0.683125,
      "grad_norm": 0.7858384251594543,
      "learning_rate": 6.891141711157055e-05,
      "loss": 3.629,
      "step": 327900
    },
    {
      "epoch": 0.6831458333333333,
      "grad_norm": 1.0617998838424683,
      "learning_rate": 6.890312342459176e-05,
      "loss": 3.755,
      "step": 327910
    },
    {
      "epoch": 0.6831666666666667,
      "grad_norm": 0.8161119818687439,
      "learning_rate": 6.889483008791936e-05,
      "loss": 3.6191,
      "step": 327920
    },
    {
      "epoch": 0.6831875,
      "grad_norm": 0.8759555816650391,
      "learning_rate": 6.888653710158926e-05,
      "loss": 3.7484,
      "step": 327930
    },
    {
      "epoch": 0.6832083333333333,
      "grad_norm": 0.826213002204895,
      "learning_rate": 6.887824446563709e-05,
      "loss": 3.8014,
      "step": 327940
    },
    {
      "epoch": 0.6832291666666667,
      "grad_norm": 0.8796303868293762,
      "learning_rate": 6.886995218009885e-05,
      "loss": 3.6896,
      "step": 327950
    },
    {
      "epoch": 0.68325,
      "grad_norm": 0.8417112827301025,
      "learning_rate": 6.886166024501037e-05,
      "loss": 3.6385,
      "step": 327960
    },
    {
      "epoch": 0.6832708333333334,
      "grad_norm": 0.9679574370384216,
      "learning_rate": 6.885336866040728e-05,
      "loss": 3.8509,
      "step": 327970
    },
    {
      "epoch": 0.6832916666666666,
      "grad_norm": 1.0776705741882324,
      "learning_rate": 6.884507742632557e-05,
      "loss": 3.6733,
      "step": 327980
    },
    {
      "epoch": 0.6833125,
      "grad_norm": 0.8650638461112976,
      "learning_rate": 6.883678654280107e-05,
      "loss": 3.8205,
      "step": 327990
    },
    {
      "epoch": 0.6833333333333333,
      "grad_norm": 0.922230064868927,
      "learning_rate": 6.882849600986946e-05,
      "loss": 3.571,
      "step": 328000
    },
    {
      "epoch": 0.6833333333333333,
      "eval_loss": 4.054516792297363,
      "eval_runtime": 8.9787,
      "eval_samples_per_second": 1.114,
      "eval_steps_per_second": 0.334,
      "step": 328000
    },
    {
      "epoch": 0.6833541666666667,
      "grad_norm": 0.8701971769332886,
      "learning_rate": 6.882020582756656e-05,
      "loss": 3.795,
      "step": 328010
    },
    {
      "epoch": 0.683375,
      "grad_norm": 0.8742573261260986,
      "learning_rate": 6.881191599592836e-05,
      "loss": 3.6483,
      "step": 328020
    },
    {
      "epoch": 0.6833958333333333,
      "grad_norm": 0.8162795305252075,
      "learning_rate": 6.880362651499048e-05,
      "loss": 3.7203,
      "step": 328030
    },
    {
      "epoch": 0.6834166666666667,
      "grad_norm": 1.1005123853683472,
      "learning_rate": 6.879533738478873e-05,
      "loss": 3.669,
      "step": 328040
    },
    {
      "epoch": 0.6834375,
      "grad_norm": 0.8732392191886902,
      "learning_rate": 6.878704860535911e-05,
      "loss": 3.7688,
      "step": 328050
    },
    {
      "epoch": 0.6834583333333333,
      "grad_norm": 1.158245325088501,
      "learning_rate": 6.877876017673724e-05,
      "loss": 3.6487,
      "step": 328060
    },
    {
      "epoch": 0.6834791666666666,
      "grad_norm": 0.8527876138687134,
      "learning_rate": 6.877047209895896e-05,
      "loss": 3.8491,
      "step": 328070
    },
    {
      "epoch": 0.6835,
      "grad_norm": 0.8606280088424683,
      "learning_rate": 6.87621843720601e-05,
      "loss": 3.6142,
      "step": 328080
    },
    {
      "epoch": 0.6835208333333334,
      "grad_norm": 0.878840982913971,
      "learning_rate": 6.875389699607644e-05,
      "loss": 3.5791,
      "step": 328090
    },
    {
      "epoch": 0.6835416666666667,
      "grad_norm": 0.8209590911865234,
      "learning_rate": 6.874560997104379e-05,
      "loss": 3.5081,
      "step": 328100
    },
    {
      "epoch": 0.6835625,
      "grad_norm": 0.9597659707069397,
      "learning_rate": 6.873732329699794e-05,
      "loss": 3.8889,
      "step": 328110
    },
    {
      "epoch": 0.6835833333333333,
      "grad_norm": 0.8081160187721252,
      "learning_rate": 6.872903697397468e-05,
      "loss": 3.6455,
      "step": 328120
    },
    {
      "epoch": 0.6836041666666667,
      "grad_norm": 0.937494158744812,
      "learning_rate": 6.872075100200981e-05,
      "loss": 3.8685,
      "step": 328130
    },
    {
      "epoch": 0.683625,
      "grad_norm": 0.9752591848373413,
      "learning_rate": 6.871246538113915e-05,
      "loss": 3.7323,
      "step": 328140
    },
    {
      "epoch": 0.6836458333333333,
      "grad_norm": 0.7731183767318726,
      "learning_rate": 6.870418011139845e-05,
      "loss": 3.8084,
      "step": 328150
    },
    {
      "epoch": 0.6836666666666666,
      "grad_norm": 0.8533536195755005,
      "learning_rate": 6.86958951928235e-05,
      "loss": 3.667,
      "step": 328160
    },
    {
      "epoch": 0.6836875,
      "grad_norm": 0.8190925717353821,
      "learning_rate": 6.868761062545011e-05,
      "loss": 3.6626,
      "step": 328170
    },
    {
      "epoch": 0.6837083333333334,
      "grad_norm": 0.8583990335464478,
      "learning_rate": 6.867932640931404e-05,
      "loss": 3.5978,
      "step": 328180
    },
    {
      "epoch": 0.6837291666666667,
      "grad_norm": 0.9137772917747498,
      "learning_rate": 6.867104254445111e-05,
      "loss": 3.8041,
      "step": 328190
    },
    {
      "epoch": 0.68375,
      "grad_norm": 1.0889369249343872,
      "learning_rate": 6.86627590308971e-05,
      "loss": 3.6826,
      "step": 328200
    },
    {
      "epoch": 0.6837708333333333,
      "grad_norm": 0.9204679131507874,
      "learning_rate": 6.865447586868774e-05,
      "loss": 3.6474,
      "step": 328210
    },
    {
      "epoch": 0.6837916666666667,
      "grad_norm": 0.8221728801727295,
      "learning_rate": 6.864619305785886e-05,
      "loss": 3.5924,
      "step": 328220
    },
    {
      "epoch": 0.6838125,
      "grad_norm": 0.9012269377708435,
      "learning_rate": 6.863791059844622e-05,
      "loss": 3.7605,
      "step": 328230
    },
    {
      "epoch": 0.6838333333333333,
      "grad_norm": 0.8784286379814148,
      "learning_rate": 6.862962849048562e-05,
      "loss": 3.6716,
      "step": 328240
    },
    {
      "epoch": 0.6838541666666667,
      "grad_norm": 0.8915725946426392,
      "learning_rate": 6.862134673401279e-05,
      "loss": 3.7403,
      "step": 328250
    },
    {
      "epoch": 0.683875,
      "grad_norm": 0.9372204542160034,
      "learning_rate": 6.861306532906354e-05,
      "loss": 3.8573,
      "step": 328260
    },
    {
      "epoch": 0.6838958333333334,
      "grad_norm": 0.8719810843467712,
      "learning_rate": 6.860478427567364e-05,
      "loss": 3.7643,
      "step": 328270
    },
    {
      "epoch": 0.6839166666666666,
      "grad_norm": 0.8585134744644165,
      "learning_rate": 6.85965035738789e-05,
      "loss": 3.7594,
      "step": 328280
    },
    {
      "epoch": 0.6839375,
      "grad_norm": 0.8618544936180115,
      "learning_rate": 6.858822322371493e-05,
      "loss": 3.7249,
      "step": 328290
    },
    {
      "epoch": 0.6839583333333333,
      "grad_norm": 0.8992385864257812,
      "learning_rate": 6.857994322521768e-05,
      "loss": 3.7101,
      "step": 328300
    },
    {
      "epoch": 0.6839791666666667,
      "grad_norm": 0.8487536311149597,
      "learning_rate": 6.857166357842289e-05,
      "loss": 3.605,
      "step": 328310
    },
    {
      "epoch": 0.684,
      "grad_norm": 0.881557285785675,
      "learning_rate": 6.856338428336618e-05,
      "loss": 3.6798,
      "step": 328320
    },
    {
      "epoch": 0.6840208333333333,
      "grad_norm": 3.1016507148742676,
      "learning_rate": 6.855510534008351e-05,
      "loss": 3.6368,
      "step": 328330
    },
    {
      "epoch": 0.6840416666666667,
      "grad_norm": 0.852292537689209,
      "learning_rate": 6.854682674861052e-05,
      "loss": 3.7399,
      "step": 328340
    },
    {
      "epoch": 0.6840625,
      "grad_norm": 1.0045233964920044,
      "learning_rate": 6.85385485089829e-05,
      "loss": 3.7312,
      "step": 328350
    },
    {
      "epoch": 0.6840833333333334,
      "grad_norm": 0.9872949123382568,
      "learning_rate": 6.853027062123667e-05,
      "loss": 3.6321,
      "step": 328360
    },
    {
      "epoch": 0.6841041666666666,
      "grad_norm": 0.9140568971633911,
      "learning_rate": 6.852199308540733e-05,
      "loss": 3.6052,
      "step": 328370
    },
    {
      "epoch": 0.684125,
      "grad_norm": 0.8359187841415405,
      "learning_rate": 6.851371590153067e-05,
      "loss": 3.777,
      "step": 328380
    },
    {
      "epoch": 0.6841458333333333,
      "grad_norm": 0.8588447570800781,
      "learning_rate": 6.850543906964262e-05,
      "loss": 3.7719,
      "step": 328390
    },
    {
      "epoch": 0.6841666666666667,
      "grad_norm": 1.0126678943634033,
      "learning_rate": 6.849716258977876e-05,
      "loss": 3.702,
      "step": 328400
    },
    {
      "epoch": 0.6841875,
      "grad_norm": 0.9256021976470947,
      "learning_rate": 6.848888646197486e-05,
      "loss": 3.748,
      "step": 328410
    },
    {
      "epoch": 0.6842083333333333,
      "grad_norm": 0.8300668001174927,
      "learning_rate": 6.84806106862668e-05,
      "loss": 3.783,
      "step": 328420
    },
    {
      "epoch": 0.6842291666666667,
      "grad_norm": 0.8625698089599609,
      "learning_rate": 6.847233526269019e-05,
      "loss": 3.6949,
      "step": 328430
    },
    {
      "epoch": 0.68425,
      "grad_norm": 0.8690200448036194,
      "learning_rate": 6.84640601912808e-05,
      "loss": 3.7489,
      "step": 328440
    },
    {
      "epoch": 0.6842708333333334,
      "grad_norm": 0.9107975363731384,
      "learning_rate": 6.845578547207442e-05,
      "loss": 3.6169,
      "step": 328450
    },
    {
      "epoch": 0.6842916666666666,
      "grad_norm": 0.9155418872833252,
      "learning_rate": 6.844751110510675e-05,
      "loss": 3.7083,
      "step": 328460
    },
    {
      "epoch": 0.6843125,
      "grad_norm": 0.9118600487709045,
      "learning_rate": 6.843923709041356e-05,
      "loss": 3.7032,
      "step": 328470
    },
    {
      "epoch": 0.6843333333333333,
      "grad_norm": 0.9158397912979126,
      "learning_rate": 6.843096342803057e-05,
      "loss": 3.6915,
      "step": 328480
    },
    {
      "epoch": 0.6843541666666667,
      "grad_norm": 0.8223177194595337,
      "learning_rate": 6.842269011799356e-05,
      "loss": 3.5939,
      "step": 328490
    },
    {
      "epoch": 0.684375,
      "grad_norm": 1.0408154726028442,
      "learning_rate": 6.84144171603382e-05,
      "loss": 3.7187,
      "step": 328500
    },
    {
      "epoch": 0.6843958333333333,
      "grad_norm": 0.8287325501441956,
      "learning_rate": 6.840614455510028e-05,
      "loss": 3.6657,
      "step": 328510
    },
    {
      "epoch": 0.6844166666666667,
      "grad_norm": 1.0183881521224976,
      "learning_rate": 6.839787230231553e-05,
      "loss": 3.6278,
      "step": 328520
    },
    {
      "epoch": 0.6844375,
      "grad_norm": 1.0483620166778564,
      "learning_rate": 6.838960040201967e-05,
      "loss": 3.6564,
      "step": 328530
    },
    {
      "epoch": 0.6844583333333333,
      "grad_norm": 0.8600453734397888,
      "learning_rate": 6.838132885424843e-05,
      "loss": 3.577,
      "step": 328540
    },
    {
      "epoch": 0.6844791666666666,
      "grad_norm": 1.3091702461242676,
      "learning_rate": 6.837305765903753e-05,
      "loss": 3.7749,
      "step": 328550
    },
    {
      "epoch": 0.6845,
      "grad_norm": 0.7957747578620911,
      "learning_rate": 6.836478681642272e-05,
      "loss": 3.7507,
      "step": 328560
    },
    {
      "epoch": 0.6845208333333334,
      "grad_norm": 0.74565190076828,
      "learning_rate": 6.835651632643971e-05,
      "loss": 3.5908,
      "step": 328570
    },
    {
      "epoch": 0.6845416666666667,
      "grad_norm": 0.8287079334259033,
      "learning_rate": 6.834824618912425e-05,
      "loss": 3.5505,
      "step": 328580
    },
    {
      "epoch": 0.6845625,
      "grad_norm": 0.8540170192718506,
      "learning_rate": 6.833997640451208e-05,
      "loss": 3.857,
      "step": 328590
    },
    {
      "epoch": 0.6845833333333333,
      "grad_norm": 0.9056546688079834,
      "learning_rate": 6.83317069726388e-05,
      "loss": 3.6659,
      "step": 328600
    },
    {
      "epoch": 0.6846041666666667,
      "grad_norm": 0.8086942434310913,
      "learning_rate": 6.832343789354027e-05,
      "loss": 3.7497,
      "step": 328610
    },
    {
      "epoch": 0.684625,
      "grad_norm": 0.9006804823875427,
      "learning_rate": 6.83151691672522e-05,
      "loss": 3.5021,
      "step": 328620
    },
    {
      "epoch": 0.6846458333333333,
      "grad_norm": 0.7770595550537109,
      "learning_rate": 6.830690079381017e-05,
      "loss": 3.5299,
      "step": 328630
    },
    {
      "epoch": 0.6846666666666666,
      "grad_norm": 0.9856652617454529,
      "learning_rate": 6.829863277325003e-05,
      "loss": 3.5634,
      "step": 328640
    },
    {
      "epoch": 0.6846875,
      "grad_norm": 0.8878062963485718,
      "learning_rate": 6.829036510560752e-05,
      "loss": 3.5681,
      "step": 328650
    },
    {
      "epoch": 0.6847083333333334,
      "grad_norm": 0.8654535412788391,
      "learning_rate": 6.828209779091818e-05,
      "loss": 3.7676,
      "step": 328660
    },
    {
      "epoch": 0.6847291666666667,
      "grad_norm": 0.9377478957176208,
      "learning_rate": 6.82738308292179e-05,
      "loss": 3.7168,
      "step": 328670
    },
    {
      "epoch": 0.68475,
      "grad_norm": 0.8200854063034058,
      "learning_rate": 6.826556422054236e-05,
      "loss": 3.682,
      "step": 328680
    },
    {
      "epoch": 0.6847708333333333,
      "grad_norm": 0.8893206715583801,
      "learning_rate": 6.825729796492711e-05,
      "loss": 3.6292,
      "step": 328690
    },
    {
      "epoch": 0.6847916666666667,
      "grad_norm": 0.9915691614151001,
      "learning_rate": 6.824903206240811e-05,
      "loss": 3.5788,
      "step": 328700
    },
    {
      "epoch": 0.6848125,
      "grad_norm": 0.8270540237426758,
      "learning_rate": 6.824076651302087e-05,
      "loss": 3.7076,
      "step": 328710
    },
    {
      "epoch": 0.6848333333333333,
      "grad_norm": 0.8782146573066711,
      "learning_rate": 6.82325013168011e-05,
      "loss": 3.6853,
      "step": 328720
    },
    {
      "epoch": 0.6848541666666667,
      "grad_norm": 0.8290627598762512,
      "learning_rate": 6.822423647378468e-05,
      "loss": 3.7308,
      "step": 328730
    },
    {
      "epoch": 0.684875,
      "grad_norm": 0.9814156889915466,
      "learning_rate": 6.821597198400711e-05,
      "loss": 3.6174,
      "step": 328740
    },
    {
      "epoch": 0.6848958333333334,
      "grad_norm": 1.3175829648971558,
      "learning_rate": 6.820770784750413e-05,
      "loss": 3.7632,
      "step": 328750
    },
    {
      "epoch": 0.6849166666666666,
      "grad_norm": 0.8736483454704285,
      "learning_rate": 6.819944406431157e-05,
      "loss": 3.4311,
      "step": 328760
    },
    {
      "epoch": 0.6849375,
      "grad_norm": 0.9634203910827637,
      "learning_rate": 6.8191180634465e-05,
      "loss": 3.8339,
      "step": 328770
    },
    {
      "epoch": 0.6849583333333333,
      "grad_norm": 0.8373751640319824,
      "learning_rate": 6.818291755800008e-05,
      "loss": 3.4908,
      "step": 328780
    },
    {
      "epoch": 0.6849791666666667,
      "grad_norm": 0.8926560282707214,
      "learning_rate": 6.817465483495269e-05,
      "loss": 3.6068,
      "step": 328790
    },
    {
      "epoch": 0.685,
      "grad_norm": 0.8119299411773682,
      "learning_rate": 6.816639246535833e-05,
      "loss": 3.7998,
      "step": 328800
    },
    {
      "epoch": 0.6850208333333333,
      "grad_norm": 0.9791328310966492,
      "learning_rate": 6.815813044925271e-05,
      "loss": 3.5749,
      "step": 328810
    },
    {
      "epoch": 0.6850416666666667,
      "grad_norm": 1.3037842512130737,
      "learning_rate": 6.81498687866717e-05,
      "loss": 3.7696,
      "step": 328820
    },
    {
      "epoch": 0.6850625,
      "grad_norm": 0.8242955207824707,
      "learning_rate": 6.81416074776508e-05,
      "loss": 3.7313,
      "step": 328830
    },
    {
      "epoch": 0.6850833333333334,
      "grad_norm": 0.7699273228645325,
      "learning_rate": 6.813334652222576e-05,
      "loss": 3.6604,
      "step": 328840
    },
    {
      "epoch": 0.6851041666666666,
      "grad_norm": 0.8073497414588928,
      "learning_rate": 6.812508592043222e-05,
      "loss": 3.7209,
      "step": 328850
    },
    {
      "epoch": 0.685125,
      "grad_norm": 0.7890791296958923,
      "learning_rate": 6.811682567230594e-05,
      "loss": 3.7072,
      "step": 328860
    },
    {
      "epoch": 0.6851458333333333,
      "grad_norm": 0.8444787263870239,
      "learning_rate": 6.810856577788253e-05,
      "loss": 3.5972,
      "step": 328870
    },
    {
      "epoch": 0.6851666666666667,
      "grad_norm": 0.7825911045074463,
      "learning_rate": 6.810030623719773e-05,
      "loss": 3.5336,
      "step": 328880
    },
    {
      "epoch": 0.6851875,
      "grad_norm": 0.7507330775260925,
      "learning_rate": 6.809204705028717e-05,
      "loss": 3.6915,
      "step": 328890
    },
    {
      "epoch": 0.6852083333333333,
      "grad_norm": 0.8673085570335388,
      "learning_rate": 6.808378821718657e-05,
      "loss": 3.5212,
      "step": 328900
    },
    {
      "epoch": 0.6852291666666667,
      "grad_norm": 0.844502329826355,
      "learning_rate": 6.807552973793154e-05,
      "loss": 3.6908,
      "step": 328910
    },
    {
      "epoch": 0.68525,
      "grad_norm": 0.7682241797447205,
      "learning_rate": 6.806727161255781e-05,
      "loss": 3.6058,
      "step": 328920
    },
    {
      "epoch": 0.6852708333333334,
      "grad_norm": 1.1387267112731934,
      "learning_rate": 6.805901384110112e-05,
      "loss": 3.741,
      "step": 328930
    },
    {
      "epoch": 0.6852916666666666,
      "grad_norm": 0.8057393431663513,
      "learning_rate": 6.805075642359692e-05,
      "loss": 3.6444,
      "step": 328940
    },
    {
      "epoch": 0.6853125,
      "grad_norm": 0.8802232146263123,
      "learning_rate": 6.804249936008106e-05,
      "loss": 3.6996,
      "step": 328950
    },
    {
      "epoch": 0.6853333333333333,
      "grad_norm": 0.8351264595985413,
      "learning_rate": 6.803424265058923e-05,
      "loss": 3.5695,
      "step": 328960
    },
    {
      "epoch": 0.6853541666666667,
      "grad_norm": 0.8182525634765625,
      "learning_rate": 6.802598629515693e-05,
      "loss": 3.6711,
      "step": 328970
    },
    {
      "epoch": 0.685375,
      "grad_norm": 0.9551929235458374,
      "learning_rate": 6.801773029381995e-05,
      "loss": 3.8261,
      "step": 328980
    },
    {
      "epoch": 0.6853958333333333,
      "grad_norm": 0.8296512365341187,
      "learning_rate": 6.800947464661398e-05,
      "loss": 3.5037,
      "step": 328990
    },
    {
      "epoch": 0.6854166666666667,
      "grad_norm": 0.8671436309814453,
      "learning_rate": 6.800121935357454e-05,
      "loss": 3.7981,
      "step": 329000
    },
    {
      "epoch": 0.6854166666666667,
      "eval_loss": 4.056387901306152,
      "eval_runtime": 9.4978,
      "eval_samples_per_second": 1.053,
      "eval_steps_per_second": 0.316,
      "step": 329000
    },
    {
      "epoch": 0.6854375,
      "grad_norm": 1.2066318988800049,
      "learning_rate": 6.799296441473741e-05,
      "loss": 3.8493,
      "step": 329010
    },
    {
      "epoch": 0.6854583333333333,
      "grad_norm": 0.9268310070037842,
      "learning_rate": 6.798470983013828e-05,
      "loss": 3.5363,
      "step": 329020
    },
    {
      "epoch": 0.6854791666666666,
      "grad_norm": 0.9323016405105591,
      "learning_rate": 6.797645559981262e-05,
      "loss": 3.6258,
      "step": 329030
    },
    {
      "epoch": 0.6855,
      "grad_norm": 0.8374060988426208,
      "learning_rate": 6.796820172379627e-05,
      "loss": 3.6248,
      "step": 329040
    },
    {
      "epoch": 0.6855208333333334,
      "grad_norm": 0.7844457626342773,
      "learning_rate": 6.795994820212487e-05,
      "loss": 3.6804,
      "step": 329050
    },
    {
      "epoch": 0.6855416666666667,
      "grad_norm": 0.8784870505332947,
      "learning_rate": 6.79516950348339e-05,
      "loss": 3.3913,
      "step": 329060
    },
    {
      "epoch": 0.6855625,
      "grad_norm": 0.8826946020126343,
      "learning_rate": 6.794344222195924e-05,
      "loss": 3.7543,
      "step": 329070
    },
    {
      "epoch": 0.6855833333333333,
      "grad_norm": 1.022600531578064,
      "learning_rate": 6.793518976353639e-05,
      "loss": 3.7593,
      "step": 329080
    },
    {
      "epoch": 0.6856041666666667,
      "grad_norm": 0.8405335545539856,
      "learning_rate": 6.792693765960098e-05,
      "loss": 3.7262,
      "step": 329090
    },
    {
      "epoch": 0.685625,
      "grad_norm": 0.8982403874397278,
      "learning_rate": 6.79186859101888e-05,
      "loss": 3.738,
      "step": 329100
    },
    {
      "epoch": 0.6856458333333333,
      "grad_norm": 0.8155382871627808,
      "learning_rate": 6.791043451533539e-05,
      "loss": 3.7909,
      "step": 329110
    },
    {
      "epoch": 0.6856666666666666,
      "grad_norm": 0.9512964487075806,
      "learning_rate": 6.790218347507632e-05,
      "loss": 3.7512,
      "step": 329120
    },
    {
      "epoch": 0.6856875,
      "grad_norm": 0.9634832739830017,
      "learning_rate": 6.789393278944744e-05,
      "loss": 3.6475,
      "step": 329130
    },
    {
      "epoch": 0.6857083333333334,
      "grad_norm": 0.8774278163909912,
      "learning_rate": 6.788568245848423e-05,
      "loss": 3.5093,
      "step": 329140
    },
    {
      "epoch": 0.6857291666666666,
      "grad_norm": 0.9528867602348328,
      "learning_rate": 6.787743248222229e-05,
      "loss": 3.6211,
      "step": 329150
    },
    {
      "epoch": 0.68575,
      "grad_norm": 0.953356146812439,
      "learning_rate": 6.786918286069747e-05,
      "loss": 3.5573,
      "step": 329160
    },
    {
      "epoch": 0.6857708333333333,
      "grad_norm": 0.957142174243927,
      "learning_rate": 6.78609335939452e-05,
      "loss": 3.577,
      "step": 329170
    },
    {
      "epoch": 0.6857916666666667,
      "grad_norm": 0.8572676181793213,
      "learning_rate": 6.785268468200119e-05,
      "loss": 3.5788,
      "step": 329180
    },
    {
      "epoch": 0.6858125,
      "grad_norm": 0.9103145003318787,
      "learning_rate": 6.784443612490107e-05,
      "loss": 3.5211,
      "step": 329190
    },
    {
      "epoch": 0.6858333333333333,
      "grad_norm": 0.9237807393074036,
      "learning_rate": 6.783618792268046e-05,
      "loss": 3.6188,
      "step": 329200
    },
    {
      "epoch": 0.6858541666666667,
      "grad_norm": 0.8077273964881897,
      "learning_rate": 6.782794007537499e-05,
      "loss": 3.5426,
      "step": 329210
    },
    {
      "epoch": 0.685875,
      "grad_norm": 0.8612421154975891,
      "learning_rate": 6.78196925830203e-05,
      "loss": 3.6899,
      "step": 329220
    },
    {
      "epoch": 0.6858958333333334,
      "grad_norm": 0.7718409895896912,
      "learning_rate": 6.781144544565201e-05,
      "loss": 3.3476,
      "step": 329230
    },
    {
      "epoch": 0.6859166666666666,
      "grad_norm": 1.0271270275115967,
      "learning_rate": 6.780319866330572e-05,
      "loss": 3.8374,
      "step": 329240
    },
    {
      "epoch": 0.6859375,
      "grad_norm": 0.9246067404747009,
      "learning_rate": 6.779495223601712e-05,
      "loss": 3.6197,
      "step": 329250
    },
    {
      "epoch": 0.6859583333333333,
      "grad_norm": 0.9339801669120789,
      "learning_rate": 6.778670616382176e-05,
      "loss": 3.6408,
      "step": 329260
    },
    {
      "epoch": 0.6859791666666667,
      "grad_norm": 0.8340930938720703,
      "learning_rate": 6.777846044675528e-05,
      "loss": 3.6894,
      "step": 329270
    },
    {
      "epoch": 0.686,
      "grad_norm": 0.90740966796875,
      "learning_rate": 6.777021508485331e-05,
      "loss": 3.5993,
      "step": 329280
    },
    {
      "epoch": 0.6860208333333333,
      "grad_norm": 1.0355302095413208,
      "learning_rate": 6.776197007815149e-05,
      "loss": 3.4349,
      "step": 329290
    },
    {
      "epoch": 0.6860416666666667,
      "grad_norm": 0.9418500065803528,
      "learning_rate": 6.775372542668538e-05,
      "loss": 3.5517,
      "step": 329300
    },
    {
      "epoch": 0.6860625,
      "grad_norm": 0.8859869837760925,
      "learning_rate": 6.774548113049063e-05,
      "loss": 3.5809,
      "step": 329310
    },
    {
      "epoch": 0.6860833333333334,
      "grad_norm": 0.9167687892913818,
      "learning_rate": 6.773723718960283e-05,
      "loss": 3.6342,
      "step": 329320
    },
    {
      "epoch": 0.6861041666666666,
      "grad_norm": 0.8786484599113464,
      "learning_rate": 6.772899360405766e-05,
      "loss": 3.5094,
      "step": 329330
    },
    {
      "epoch": 0.686125,
      "grad_norm": 0.8071626424789429,
      "learning_rate": 6.772075037389058e-05,
      "loss": 3.5566,
      "step": 329340
    },
    {
      "epoch": 0.6861458333333333,
      "grad_norm": 0.8573010563850403,
      "learning_rate": 6.771250749913734e-05,
      "loss": 3.509,
      "step": 329350
    },
    {
      "epoch": 0.6861666666666667,
      "grad_norm": 0.8535251617431641,
      "learning_rate": 6.770426497983355e-05,
      "loss": 3.6879,
      "step": 329360
    },
    {
      "epoch": 0.6861875,
      "grad_norm": 0.8821299076080322,
      "learning_rate": 6.769602281601463e-05,
      "loss": 3.5741,
      "step": 329370
    },
    {
      "epoch": 0.6862083333333333,
      "grad_norm": 0.8933175802230835,
      "learning_rate": 6.768778100771639e-05,
      "loss": 3.6264,
      "step": 329380
    },
    {
      "epoch": 0.6862291666666667,
      "grad_norm": 0.8540281653404236,
      "learning_rate": 6.767953955497442e-05,
      "loss": 3.5881,
      "step": 329390
    },
    {
      "epoch": 0.68625,
      "grad_norm": 0.8800233006477356,
      "learning_rate": 6.767129845782411e-05,
      "loss": 3.6012,
      "step": 329400
    },
    {
      "epoch": 0.6862708333333334,
      "grad_norm": 0.7751840353012085,
      "learning_rate": 6.766305771630128e-05,
      "loss": 3.6267,
      "step": 329410
    },
    {
      "epoch": 0.6862916666666666,
      "grad_norm": 0.8226191997528076,
      "learning_rate": 6.765481733044151e-05,
      "loss": 3.7488,
      "step": 329420
    },
    {
      "epoch": 0.6863125,
      "grad_norm": 0.828344464302063,
      "learning_rate": 6.764657730028021e-05,
      "loss": 3.5583,
      "step": 329430
    },
    {
      "epoch": 0.6863333333333334,
      "grad_norm": 0.8573701977729797,
      "learning_rate": 6.763833762585321e-05,
      "loss": 3.8201,
      "step": 329440
    },
    {
      "epoch": 0.6863541666666667,
      "grad_norm": 0.9189050793647766,
      "learning_rate": 6.763009830719594e-05,
      "loss": 3.606,
      "step": 329450
    },
    {
      "epoch": 0.686375,
      "grad_norm": 0.8571717143058777,
      "learning_rate": 6.762185934434405e-05,
      "loss": 3.6939,
      "step": 329460
    },
    {
      "epoch": 0.6863958333333333,
      "grad_norm": 0.8603033423423767,
      "learning_rate": 6.76136207373331e-05,
      "loss": 3.6033,
      "step": 329470
    },
    {
      "epoch": 0.6864166666666667,
      "grad_norm": 0.8068691492080688,
      "learning_rate": 6.76053824861987e-05,
      "loss": 3.499,
      "step": 329480
    },
    {
      "epoch": 0.6864375,
      "grad_norm": 0.9381417632102966,
      "learning_rate": 6.759714459097645e-05,
      "loss": 3.691,
      "step": 329490
    },
    {
      "epoch": 0.6864583333333333,
      "grad_norm": 1.308071255683899,
      "learning_rate": 6.758890705170191e-05,
      "loss": 3.7735,
      "step": 329500
    },
    {
      "epoch": 0.6864791666666666,
      "grad_norm": 0.9591250419616699,
      "learning_rate": 6.758066986841067e-05,
      "loss": 3.6349,
      "step": 329510
    },
    {
      "epoch": 0.6865,
      "grad_norm": 0.9247209429740906,
      "learning_rate": 6.757243304113832e-05,
      "loss": 3.5558,
      "step": 329520
    },
    {
      "epoch": 0.6865208333333334,
      "grad_norm": 1.1344528198242188,
      "learning_rate": 6.756419656992044e-05,
      "loss": 3.5267,
      "step": 329530
    },
    {
      "epoch": 0.6865416666666667,
      "grad_norm": 0.9029524922370911,
      "learning_rate": 6.755596045479256e-05,
      "loss": 3.5351,
      "step": 329540
    },
    {
      "epoch": 0.6865625,
      "grad_norm": 1.0330827236175537,
      "learning_rate": 6.754772469579034e-05,
      "loss": 3.5004,
      "step": 329550
    },
    {
      "epoch": 0.6865833333333333,
      "grad_norm": 0.8499964475631714,
      "learning_rate": 6.753948929294929e-05,
      "loss": 3.6431,
      "step": 329560
    },
    {
      "epoch": 0.6866041666666667,
      "grad_norm": 0.7696582078933716,
      "learning_rate": 6.753125424630501e-05,
      "loss": 3.6204,
      "step": 329570
    },
    {
      "epoch": 0.686625,
      "grad_norm": 0.8495512008666992,
      "learning_rate": 6.752301955589308e-05,
      "loss": 3.6249,
      "step": 329580
    },
    {
      "epoch": 0.6866458333333333,
      "grad_norm": 0.8459812998771667,
      "learning_rate": 6.751478522174904e-05,
      "loss": 3.6205,
      "step": 329590
    },
    {
      "epoch": 0.6866666666666666,
      "grad_norm": 0.8089256882667542,
      "learning_rate": 6.750655124390848e-05,
      "loss": 3.6775,
      "step": 329600
    },
    {
      "epoch": 0.6866875,
      "grad_norm": 0.8038054704666138,
      "learning_rate": 6.749831762240698e-05,
      "loss": 3.5712,
      "step": 329610
    },
    {
      "epoch": 0.6867083333333334,
      "grad_norm": 0.8748283982276917,
      "learning_rate": 6.749008435728008e-05,
      "loss": 3.6592,
      "step": 329620
    },
    {
      "epoch": 0.6867291666666666,
      "grad_norm": 0.8617323637008667,
      "learning_rate": 6.748185144856335e-05,
      "loss": 3.557,
      "step": 329630
    },
    {
      "epoch": 0.68675,
      "grad_norm": 1.0422857999801636,
      "learning_rate": 6.747361889629238e-05,
      "loss": 3.6152,
      "step": 329640
    },
    {
      "epoch": 0.6867708333333333,
      "grad_norm": 0.8646759986877441,
      "learning_rate": 6.746538670050269e-05,
      "loss": 3.5979,
      "step": 329650
    },
    {
      "epoch": 0.6867916666666667,
      "grad_norm": 0.9458622932434082,
      "learning_rate": 6.745715486122988e-05,
      "loss": 3.5561,
      "step": 329660
    },
    {
      "epoch": 0.6868125,
      "grad_norm": 0.8978699445724487,
      "learning_rate": 6.744892337850947e-05,
      "loss": 3.504,
      "step": 329670
    },
    {
      "epoch": 0.6868333333333333,
      "grad_norm": 0.9893699288368225,
      "learning_rate": 6.744069225237705e-05,
      "loss": 3.5545,
      "step": 329680
    },
    {
      "epoch": 0.6868541666666667,
      "grad_norm": 1.055666208267212,
      "learning_rate": 6.743246148286814e-05,
      "loss": 3.639,
      "step": 329690
    },
    {
      "epoch": 0.686875,
      "grad_norm": 0.8254887461662292,
      "learning_rate": 6.74242310700184e-05,
      "loss": 3.5116,
      "step": 329700
    },
    {
      "epoch": 0.6868958333333334,
      "grad_norm": 0.9396511316299438,
      "learning_rate": 6.741600101386315e-05,
      "loss": 3.6417,
      "step": 329710
    },
    {
      "epoch": 0.6869166666666666,
      "grad_norm": 0.8859754204750061,
      "learning_rate": 6.740777131443817e-05,
      "loss": 3.6064,
      "step": 329720
    },
    {
      "epoch": 0.6869375,
      "grad_norm": 0.8754801750183105,
      "learning_rate": 6.739954197177896e-05,
      "loss": 3.6304,
      "step": 329730
    },
    {
      "epoch": 0.6869583333333333,
      "grad_norm": 1.0497643947601318,
      "learning_rate": 6.739131298592093e-05,
      "loss": 3.7007,
      "step": 329740
    },
    {
      "epoch": 0.6869791666666667,
      "grad_norm": 0.8424282670021057,
      "learning_rate": 6.738308435689979e-05,
      "loss": 3.5664,
      "step": 329750
    },
    {
      "epoch": 0.687,
      "grad_norm": 0.91716468334198,
      "learning_rate": 6.737485608475107e-05,
      "loss": 3.5458,
      "step": 329760
    },
    {
      "epoch": 0.6870208333333333,
      "grad_norm": 0.8015706539154053,
      "learning_rate": 6.736662816951022e-05,
      "loss": 3.5413,
      "step": 329770
    },
    {
      "epoch": 0.6870416666666667,
      "grad_norm": 0.9651053547859192,
      "learning_rate": 6.735840061121276e-05,
      "loss": 3.5349,
      "step": 329780
    },
    {
      "epoch": 0.6870625,
      "grad_norm": 0.7860054969787598,
      "learning_rate": 6.735017340989442e-05,
      "loss": 3.4234,
      "step": 329790
    },
    {
      "epoch": 0.6870833333333334,
      "grad_norm": 0.8285810947418213,
      "learning_rate": 6.734194656559055e-05,
      "loss": 3.7654,
      "step": 329800
    },
    {
      "epoch": 0.6871041666666666,
      "grad_norm": 0.8686885237693787,
      "learning_rate": 6.733372007833672e-05,
      "loss": 3.6278,
      "step": 329810
    },
    {
      "epoch": 0.687125,
      "grad_norm": 0.7585092186927795,
      "learning_rate": 6.732549394816859e-05,
      "loss": 3.5415,
      "step": 329820
    },
    {
      "epoch": 0.6871458333333333,
      "grad_norm": 0.9411134123802185,
      "learning_rate": 6.731726817512155e-05,
      "loss": 3.6176,
      "step": 329830
    },
    {
      "epoch": 0.6871666666666667,
      "grad_norm": 0.793472945690155,
      "learning_rate": 6.730904275923118e-05,
      "loss": 3.6561,
      "step": 329840
    },
    {
      "epoch": 0.6871875,
      "grad_norm": 1.125622272491455,
      "learning_rate": 6.730081770053301e-05,
      "loss": 3.7335,
      "step": 329850
    },
    {
      "epoch": 0.6872083333333333,
      "grad_norm": 0.8283317685127258,
      "learning_rate": 6.729259299906258e-05,
      "loss": 3.5082,
      "step": 329860
    },
    {
      "epoch": 0.6872291666666667,
      "grad_norm": 0.9103326201438904,
      "learning_rate": 6.728436865485541e-05,
      "loss": 3.5679,
      "step": 329870
    },
    {
      "epoch": 0.68725,
      "grad_norm": 1.0762572288513184,
      "learning_rate": 6.727614466794703e-05,
      "loss": 3.4564,
      "step": 329880
    },
    {
      "epoch": 0.6872708333333334,
      "grad_norm": 0.8203398585319519,
      "learning_rate": 6.726792103837295e-05,
      "loss": 3.751,
      "step": 329890
    },
    {
      "epoch": 0.6872916666666666,
      "grad_norm": 0.9638994336128235,
      "learning_rate": 6.725969776616873e-05,
      "loss": 3.6047,
      "step": 329900
    },
    {
      "epoch": 0.6873125,
      "grad_norm": 0.9758598804473877,
      "learning_rate": 6.725147485136982e-05,
      "loss": 3.5706,
      "step": 329910
    },
    {
      "epoch": 0.6873333333333334,
      "grad_norm": 0.931597888469696,
      "learning_rate": 6.724325229401182e-05,
      "loss": 3.5934,
      "step": 329920
    },
    {
      "epoch": 0.6873541666666667,
      "grad_norm": 0.9462222456932068,
      "learning_rate": 6.723503009413021e-05,
      "loss": 3.6127,
      "step": 329930
    },
    {
      "epoch": 0.687375,
      "grad_norm": 0.8867285847663879,
      "learning_rate": 6.722680825176049e-05,
      "loss": 3.5014,
      "step": 329940
    },
    {
      "epoch": 0.6873958333333333,
      "grad_norm": 0.8795202374458313,
      "learning_rate": 6.721858676693821e-05,
      "loss": 3.4707,
      "step": 329950
    },
    {
      "epoch": 0.6874166666666667,
      "grad_norm": 0.9370901584625244,
      "learning_rate": 6.721036563969886e-05,
      "loss": 3.7094,
      "step": 329960
    },
    {
      "epoch": 0.6874375,
      "grad_norm": 0.8433359265327454,
      "learning_rate": 6.720214487007797e-05,
      "loss": 3.5752,
      "step": 329970
    },
    {
      "epoch": 0.6874583333333333,
      "grad_norm": 1.0845568180084229,
      "learning_rate": 6.719392445811102e-05,
      "loss": 3.4394,
      "step": 329980
    },
    {
      "epoch": 0.6874791666666666,
      "grad_norm": 0.9447530508041382,
      "learning_rate": 6.718570440383355e-05,
      "loss": 3.5465,
      "step": 329990
    },
    {
      "epoch": 0.6875,
      "grad_norm": 0.7740036845207214,
      "learning_rate": 6.717748470728106e-05,
      "loss": 3.5618,
      "step": 330000
    },
    {
      "epoch": 0.6875,
      "eval_loss": 4.05516242980957,
      "eval_runtime": 9.1169,
      "eval_samples_per_second": 1.097,
      "eval_steps_per_second": 0.329,
      "step": 330000
    },
    {
      "epoch": 0.6875208333333334,
      "grad_norm": 0.8180568814277649,
      "learning_rate": 6.716926536848907e-05,
      "loss": 3.4571,
      "step": 330010
    },
    {
      "epoch": 0.6875416666666667,
      "grad_norm": 0.9291862845420837,
      "learning_rate": 6.716104638749304e-05,
      "loss": 3.6608,
      "step": 330020
    },
    {
      "epoch": 0.6875625,
      "grad_norm": 0.8398610949516296,
      "learning_rate": 6.71528277643285e-05,
      "loss": 3.5754,
      "step": 330030
    },
    {
      "epoch": 0.6875833333333333,
      "grad_norm": 0.7358159422874451,
      "learning_rate": 6.714460949903096e-05,
      "loss": 3.621,
      "step": 330040
    },
    {
      "epoch": 0.6876041666666667,
      "grad_norm": 0.9543526768684387,
      "learning_rate": 6.713639159163599e-05,
      "loss": 3.6779,
      "step": 330050
    },
    {
      "epoch": 0.687625,
      "grad_norm": 0.8683884143829346,
      "learning_rate": 6.712817404217886e-05,
      "loss": 3.4096,
      "step": 330060
    },
    {
      "epoch": 0.6876458333333333,
      "grad_norm": 1.0387605428695679,
      "learning_rate": 6.711995685069535e-05,
      "loss": 3.6016,
      "step": 330070
    },
    {
      "epoch": 0.6876666666666666,
      "grad_norm": 0.8710000514984131,
      "learning_rate": 6.711174001722076e-05,
      "loss": 3.6961,
      "step": 330080
    },
    {
      "epoch": 0.6876875,
      "grad_norm": 0.8281270861625671,
      "learning_rate": 6.710352354179057e-05,
      "loss": 3.5217,
      "step": 330090
    },
    {
      "epoch": 0.6877083333333334,
      "grad_norm": 0.9681352972984314,
      "learning_rate": 6.709530742444047e-05,
      "loss": 3.6864,
      "step": 330100
    },
    {
      "epoch": 0.6877291666666666,
      "grad_norm": 0.8384122252464294,
      "learning_rate": 6.708709166520577e-05,
      "loss": 3.4271,
      "step": 330110
    },
    {
      "epoch": 0.68775,
      "grad_norm": 0.8291473388671875,
      "learning_rate": 6.707887626412197e-05,
      "loss": 3.6099,
      "step": 330120
    },
    {
      "epoch": 0.6877708333333333,
      "grad_norm": 0.9831687808036804,
      "learning_rate": 6.707066122122469e-05,
      "loss": 3.6969,
      "step": 330130
    },
    {
      "epoch": 0.6877916666666667,
      "grad_norm": 1.0975970029830933,
      "learning_rate": 6.706244653654929e-05,
      "loss": 3.7045,
      "step": 330140
    },
    {
      "epoch": 0.6878125,
      "grad_norm": 0.8894140124320984,
      "learning_rate": 6.705423221013124e-05,
      "loss": 3.5514,
      "step": 330150
    },
    {
      "epoch": 0.6878333333333333,
      "grad_norm": 1.1805843114852905,
      "learning_rate": 6.704601824200617e-05,
      "loss": 3.7073,
      "step": 330160
    },
    {
      "epoch": 0.6878541666666667,
      "grad_norm": 0.8874486088752747,
      "learning_rate": 6.703780463220941e-05,
      "loss": 3.6247,
      "step": 330170
    },
    {
      "epoch": 0.687875,
      "grad_norm": 0.8121509552001953,
      "learning_rate": 6.702959138077645e-05,
      "loss": 3.5316,
      "step": 330180
    },
    {
      "epoch": 0.6878958333333334,
      "grad_norm": 0.9345415234565735,
      "learning_rate": 6.702137848774293e-05,
      "loss": 3.65,
      "step": 330190
    },
    {
      "epoch": 0.6879166666666666,
      "grad_norm": 0.8595021367073059,
      "learning_rate": 6.701316595314413e-05,
      "loss": 3.4851,
      "step": 330200
    },
    {
      "epoch": 0.6879375,
      "grad_norm": 0.8525336384773254,
      "learning_rate": 6.700495377701562e-05,
      "loss": 3.5565,
      "step": 330210
    },
    {
      "epoch": 0.6879583333333333,
      "grad_norm": 0.9119871258735657,
      "learning_rate": 6.699674195939286e-05,
      "loss": 3.5088,
      "step": 330220
    },
    {
      "epoch": 0.6879791666666667,
      "grad_norm": 1.0695165395736694,
      "learning_rate": 6.698853050031133e-05,
      "loss": 3.5283,
      "step": 330230
    },
    {
      "epoch": 0.688,
      "grad_norm": 0.8883445262908936,
      "learning_rate": 6.698031939980646e-05,
      "loss": 3.4744,
      "step": 330240
    },
    {
      "epoch": 0.6880208333333333,
      "grad_norm": 0.7888427972793579,
      "learning_rate": 6.697210865791377e-05,
      "loss": 3.5537,
      "step": 330250
    },
    {
      "epoch": 0.6880416666666667,
      "grad_norm": 0.8729102611541748,
      "learning_rate": 6.696389827466872e-05,
      "loss": 3.4773,
      "step": 330260
    },
    {
      "epoch": 0.6880625,
      "grad_norm": 0.8167642951011658,
      "learning_rate": 6.695568825010674e-05,
      "loss": 3.645,
      "step": 330270
    },
    {
      "epoch": 0.6880833333333334,
      "grad_norm": 0.9112592935562134,
      "learning_rate": 6.694747858426332e-05,
      "loss": 3.5726,
      "step": 330280
    },
    {
      "epoch": 0.6881041666666666,
      "grad_norm": 0.9063647985458374,
      "learning_rate": 6.693926927717391e-05,
      "loss": 3.6277,
      "step": 330290
    },
    {
      "epoch": 0.688125,
      "grad_norm": 0.8397535085678101,
      "learning_rate": 6.693106032887399e-05,
      "loss": 3.5479,
      "step": 330300
    },
    {
      "epoch": 0.6881458333333333,
      "grad_norm": 0.8687403202056885,
      "learning_rate": 6.6922851739399e-05,
      "loss": 3.5858,
      "step": 330310
    },
    {
      "epoch": 0.6881666666666667,
      "grad_norm": 0.8423941135406494,
      "learning_rate": 6.69146435087844e-05,
      "loss": 3.5368,
      "step": 330320
    },
    {
      "epoch": 0.6881875,
      "grad_norm": 0.9201264977455139,
      "learning_rate": 6.690643563706569e-05,
      "loss": 3.6273,
      "step": 330330
    },
    {
      "epoch": 0.6882083333333333,
      "grad_norm": 0.8388239145278931,
      "learning_rate": 6.689822812427824e-05,
      "loss": 3.6178,
      "step": 330340
    },
    {
      "epoch": 0.6882291666666667,
      "grad_norm": 0.7927412390708923,
      "learning_rate": 6.689002097045758e-05,
      "loss": 3.591,
      "step": 330350
    },
    {
      "epoch": 0.68825,
      "grad_norm": 0.7965302467346191,
      "learning_rate": 6.688181417563917e-05,
      "loss": 3.4804,
      "step": 330360
    },
    {
      "epoch": 0.6882708333333334,
      "grad_norm": 0.9960237741470337,
      "learning_rate": 6.687360773985834e-05,
      "loss": 3.6473,
      "step": 330370
    },
    {
      "epoch": 0.6882916666666666,
      "grad_norm": 0.8803551197052002,
      "learning_rate": 6.686540166315065e-05,
      "loss": 3.5986,
      "step": 330380
    },
    {
      "epoch": 0.6883125,
      "grad_norm": 0.8236458897590637,
      "learning_rate": 6.685719594555157e-05,
      "loss": 3.5844,
      "step": 330390
    },
    {
      "epoch": 0.6883333333333334,
      "grad_norm": 0.8297545313835144,
      "learning_rate": 6.68489905870964e-05,
      "loss": 3.5224,
      "step": 330400
    },
    {
      "epoch": 0.6883541666666667,
      "grad_norm": 0.8129746317863464,
      "learning_rate": 6.684078558782072e-05,
      "loss": 3.4985,
      "step": 330410
    },
    {
      "epoch": 0.688375,
      "grad_norm": 0.8172784447669983,
      "learning_rate": 6.683258094775999e-05,
      "loss": 3.4567,
      "step": 330420
    },
    {
      "epoch": 0.6883958333333333,
      "grad_norm": 0.9339224100112915,
      "learning_rate": 6.682437666694948e-05,
      "loss": 3.6012,
      "step": 330430
    },
    {
      "epoch": 0.6884166666666667,
      "grad_norm": 0.9180665612220764,
      "learning_rate": 6.681617274542485e-05,
      "loss": 3.7474,
      "step": 330440
    },
    {
      "epoch": 0.6884375,
      "grad_norm": 0.8478793501853943,
      "learning_rate": 6.680796918322137e-05,
      "loss": 3.552,
      "step": 330450
    },
    {
      "epoch": 0.6884583333333333,
      "grad_norm": 0.7481929063796997,
      "learning_rate": 6.679976598037449e-05,
      "loss": 3.5219,
      "step": 330460
    },
    {
      "epoch": 0.6884791666666666,
      "grad_norm": 0.8073274493217468,
      "learning_rate": 6.679156313691979e-05,
      "loss": 3.5151,
      "step": 330470
    },
    {
      "epoch": 0.6885,
      "grad_norm": 0.79290372133255,
      "learning_rate": 6.678336065289253e-05,
      "loss": 3.5177,
      "step": 330480
    },
    {
      "epoch": 0.6885208333333334,
      "grad_norm": 0.8529226183891296,
      "learning_rate": 6.677515852832818e-05,
      "loss": 3.5453,
      "step": 330490
    },
    {
      "epoch": 0.6885416666666667,
      "grad_norm": 0.8572583198547363,
      "learning_rate": 6.67669567632623e-05,
      "loss": 3.5517,
      "step": 330500
    },
    {
      "epoch": 0.6885625,
      "grad_norm": 0.7684920430183411,
      "learning_rate": 6.675875535773017e-05,
      "loss": 3.4906,
      "step": 330510
    },
    {
      "epoch": 0.6885833333333333,
      "grad_norm": 0.9486785531044006,
      "learning_rate": 6.675055431176722e-05,
      "loss": 3.7737,
      "step": 330520
    },
    {
      "epoch": 0.6886041666666667,
      "grad_norm": 0.8496120572090149,
      "learning_rate": 6.674235362540902e-05,
      "loss": 3.5408,
      "step": 330530
    },
    {
      "epoch": 0.688625,
      "grad_norm": 0.8808932900428772,
      "learning_rate": 6.673415329869085e-05,
      "loss": 3.678,
      "step": 330540
    },
    {
      "epoch": 0.6886458333333333,
      "grad_norm": 0.928317129611969,
      "learning_rate": 6.672595333164813e-05,
      "loss": 3.4814,
      "step": 330550
    },
    {
      "epoch": 0.6886666666666666,
      "grad_norm": 0.7756022214889526,
      "learning_rate": 6.671775372431643e-05,
      "loss": 3.5068,
      "step": 330560
    },
    {
      "epoch": 0.6886875,
      "grad_norm": 1.0974998474121094,
      "learning_rate": 6.670955447673101e-05,
      "loss": 3.5158,
      "step": 330570
    },
    {
      "epoch": 0.6887083333333334,
      "grad_norm": 0.9137076735496521,
      "learning_rate": 6.670135558892735e-05,
      "loss": 3.6862,
      "step": 330580
    },
    {
      "epoch": 0.6887291666666666,
      "grad_norm": 0.8903607130050659,
      "learning_rate": 6.669315706094087e-05,
      "loss": 3.498,
      "step": 330590
    },
    {
      "epoch": 0.68875,
      "grad_norm": 0.82953280210495,
      "learning_rate": 6.668495889280695e-05,
      "loss": 3.6681,
      "step": 330600
    },
    {
      "epoch": 0.6887708333333333,
      "grad_norm": 0.992276132106781,
      "learning_rate": 6.667676108456105e-05,
      "loss": 3.51,
      "step": 330610
    },
    {
      "epoch": 0.6887916666666667,
      "grad_norm": 0.7997393012046814,
      "learning_rate": 6.666856363623856e-05,
      "loss": 3.6156,
      "step": 330620
    },
    {
      "epoch": 0.6888125,
      "grad_norm": 1.0102875232696533,
      "learning_rate": 6.66603665478749e-05,
      "loss": 3.6006,
      "step": 330630
    },
    {
      "epoch": 0.6888333333333333,
      "grad_norm": 0.8710698485374451,
      "learning_rate": 6.665216981950545e-05,
      "loss": 3.7042,
      "step": 330640
    },
    {
      "epoch": 0.6888541666666667,
      "grad_norm": 0.8103197813034058,
      "learning_rate": 6.664397345116564e-05,
      "loss": 3.5079,
      "step": 330650
    },
    {
      "epoch": 0.688875,
      "grad_norm": 0.908935010433197,
      "learning_rate": 6.663577744289088e-05,
      "loss": 3.4732,
      "step": 330660
    },
    {
      "epoch": 0.6888958333333334,
      "grad_norm": 0.9064331650733948,
      "learning_rate": 6.662758179471657e-05,
      "loss": 3.4787,
      "step": 330670
    },
    {
      "epoch": 0.6889166666666666,
      "grad_norm": 0.9926112294197083,
      "learning_rate": 6.661938650667807e-05,
      "loss": 3.6211,
      "step": 330680
    },
    {
      "epoch": 0.6889375,
      "grad_norm": 0.8944600820541382,
      "learning_rate": 6.661119157881084e-05,
      "loss": 3.5632,
      "step": 330690
    },
    {
      "epoch": 0.6889583333333333,
      "grad_norm": 0.8805161118507385,
      "learning_rate": 6.660299701115033e-05,
      "loss": 3.5626,
      "step": 330700
    },
    {
      "epoch": 0.6889791666666667,
      "grad_norm": 0.9008499383926392,
      "learning_rate": 6.659480280373173e-05,
      "loss": 3.6742,
      "step": 330710
    },
    {
      "epoch": 0.689,
      "grad_norm": 0.8002173900604248,
      "learning_rate": 6.658660895659061e-05,
      "loss": 3.5564,
      "step": 330720
    },
    {
      "epoch": 0.6890208333333333,
      "grad_norm": 0.9006617069244385,
      "learning_rate": 6.657841546976239e-05,
      "loss": 3.6183,
      "step": 330730
    },
    {
      "epoch": 0.6890416666666667,
      "grad_norm": 0.9830066561698914,
      "learning_rate": 6.657022234328228e-05,
      "loss": 3.498,
      "step": 330740
    },
    {
      "epoch": 0.6890625,
      "grad_norm": 0.8735292553901672,
      "learning_rate": 6.656202957718584e-05,
      "loss": 3.5463,
      "step": 330750
    },
    {
      "epoch": 0.6890833333333334,
      "grad_norm": 0.8748071193695068,
      "learning_rate": 6.655383717150847e-05,
      "loss": 3.6035,
      "step": 330760
    },
    {
      "epoch": 0.6891041666666666,
      "grad_norm": 0.9694421291351318,
      "learning_rate": 6.654564512628538e-05,
      "loss": 3.5498,
      "step": 330770
    },
    {
      "epoch": 0.689125,
      "grad_norm": 0.8322310447692871,
      "learning_rate": 6.653745344155212e-05,
      "loss": 3.4819,
      "step": 330780
    },
    {
      "epoch": 0.6891458333333333,
      "grad_norm": 0.8602240681648254,
      "learning_rate": 6.652926211734408e-05,
      "loss": 3.6051,
      "step": 330790
    },
    {
      "epoch": 0.6891666666666667,
      "grad_norm": 0.8813828825950623,
      "learning_rate": 6.652107115369648e-05,
      "loss": 3.4338,
      "step": 330800
    },
    {
      "epoch": 0.6891875,
      "grad_norm": 0.9009100198745728,
      "learning_rate": 6.651288055064485e-05,
      "loss": 3.6435,
      "step": 330810
    },
    {
      "epoch": 0.6892083333333333,
      "grad_norm": 0.8063185811042786,
      "learning_rate": 6.65046903082246e-05,
      "loss": 3.4434,
      "step": 330820
    },
    {
      "epoch": 0.6892291666666667,
      "grad_norm": 0.8520873188972473,
      "learning_rate": 6.649650042647093e-05,
      "loss": 3.5246,
      "step": 330830
    },
    {
      "epoch": 0.68925,
      "grad_norm": 0.9656556248664856,
      "learning_rate": 6.648831090541944e-05,
      "loss": 3.5414,
      "step": 330840
    },
    {
      "epoch": 0.6892708333333334,
      "grad_norm": 0.8982736468315125,
      "learning_rate": 6.648012174510533e-05,
      "loss": 3.5212,
      "step": 330850
    },
    {
      "epoch": 0.6892916666666666,
      "grad_norm": 0.8945330381393433,
      "learning_rate": 6.647193294556398e-05,
      "loss": 3.3967,
      "step": 330860
    },
    {
      "epoch": 0.6893125,
      "grad_norm": 0.835458517074585,
      "learning_rate": 6.646374450683092e-05,
      "loss": 3.5751,
      "step": 330870
    },
    {
      "epoch": 0.6893333333333334,
      "grad_norm": 0.8479794263839722,
      "learning_rate": 6.645555642894136e-05,
      "loss": 3.5692,
      "step": 330880
    },
    {
      "epoch": 0.6893541666666667,
      "grad_norm": 0.9291641116142273,
      "learning_rate": 6.64473687119307e-05,
      "loss": 3.5694,
      "step": 330890
    },
    {
      "epoch": 0.689375,
      "grad_norm": 0.9552976489067078,
      "learning_rate": 6.643918135583441e-05,
      "loss": 3.5513,
      "step": 330900
    },
    {
      "epoch": 0.6893958333333333,
      "grad_norm": 0.89373779296875,
      "learning_rate": 6.643099436068773e-05,
      "loss": 3.4287,
      "step": 330910
    },
    {
      "epoch": 0.6894166666666667,
      "grad_norm": 0.8655853867530823,
      "learning_rate": 6.642280772652608e-05,
      "loss": 3.4064,
      "step": 330920
    },
    {
      "epoch": 0.6894375,
      "grad_norm": 0.8510829210281372,
      "learning_rate": 6.641462145338484e-05,
      "loss": 3.436,
      "step": 330930
    },
    {
      "epoch": 0.6894583333333333,
      "grad_norm": 1.1662442684173584,
      "learning_rate": 6.640643554129933e-05,
      "loss": 3.5474,
      "step": 330940
    },
    {
      "epoch": 0.6894791666666666,
      "grad_norm": 0.8556786775588989,
      "learning_rate": 6.639824999030493e-05,
      "loss": 3.481,
      "step": 330950
    },
    {
      "epoch": 0.6895,
      "grad_norm": 0.8397319912910461,
      "learning_rate": 6.6390064800437e-05,
      "loss": 3.4106,
      "step": 330960
    },
    {
      "epoch": 0.6895208333333334,
      "grad_norm": 0.845287561416626,
      "learning_rate": 6.63818799717309e-05,
      "loss": 3.626,
      "step": 330970
    },
    {
      "epoch": 0.6895416666666667,
      "grad_norm": 0.8894999027252197,
      "learning_rate": 6.637369550422197e-05,
      "loss": 3.5158,
      "step": 330980
    },
    {
      "epoch": 0.6895625,
      "grad_norm": 0.934172511100769,
      "learning_rate": 6.636551139794559e-05,
      "loss": 3.4672,
      "step": 330990
    },
    {
      "epoch": 0.6895833333333333,
      "grad_norm": 0.8730033040046692,
      "learning_rate": 6.635732765293708e-05,
      "loss": 3.6315,
      "step": 331000
    },
    {
      "epoch": 0.6895833333333333,
      "eval_loss": 4.050871849060059,
      "eval_runtime": 9.0972,
      "eval_samples_per_second": 1.099,
      "eval_steps_per_second": 0.33,
      "step": 331000
    },
    {
      "epoch": 0.6896041666666667,
      "grad_norm": 0.8263993859291077,
      "learning_rate": 6.634914426923181e-05,
      "loss": 3.5542,
      "step": 331010
    },
    {
      "epoch": 0.689625,
      "grad_norm": 0.8303893804550171,
      "learning_rate": 6.634096124686514e-05,
      "loss": 3.5174,
      "step": 331020
    },
    {
      "epoch": 0.6896458333333333,
      "grad_norm": 0.9106924533843994,
      "learning_rate": 6.633277858587238e-05,
      "loss": 3.6071,
      "step": 331030
    },
    {
      "epoch": 0.6896666666666667,
      "grad_norm": 0.9322648048400879,
      "learning_rate": 6.632459628628891e-05,
      "loss": 3.465,
      "step": 331040
    },
    {
      "epoch": 0.6896875,
      "grad_norm": 0.7909537553787231,
      "learning_rate": 6.631641434815006e-05,
      "loss": 3.5352,
      "step": 331050
    },
    {
      "epoch": 0.6897083333333334,
      "grad_norm": 0.8544754981994629,
      "learning_rate": 6.630823277149119e-05,
      "loss": 3.4554,
      "step": 331060
    },
    {
      "epoch": 0.6897291666666666,
      "grad_norm": 1.0444931983947754,
      "learning_rate": 6.630005155634766e-05,
      "loss": 3.6617,
      "step": 331070
    },
    {
      "epoch": 0.68975,
      "grad_norm": 0.8645009994506836,
      "learning_rate": 6.629187070275467e-05,
      "loss": 3.5261,
      "step": 331080
    },
    {
      "epoch": 0.6897708333333333,
      "grad_norm": 0.9049068689346313,
      "learning_rate": 6.628369021074773e-05,
      "loss": 3.5414,
      "step": 331090
    },
    {
      "epoch": 0.6897916666666667,
      "grad_norm": 0.993094265460968,
      "learning_rate": 6.627551008036217e-05,
      "loss": 3.3921,
      "step": 331100
    },
    {
      "epoch": 0.6898125,
      "grad_norm": 0.9057145714759827,
      "learning_rate": 6.626733031163314e-05,
      "loss": 3.4103,
      "step": 331110
    },
    {
      "epoch": 0.6898333333333333,
      "grad_norm": 0.7764108777046204,
      "learning_rate": 6.625915090459617e-05,
      "loss": 3.5039,
      "step": 331120
    },
    {
      "epoch": 0.6898541666666667,
      "grad_norm": 1.076775312423706,
      "learning_rate": 6.625097185928657e-05,
      "loss": 3.6351,
      "step": 331130
    },
    {
      "epoch": 0.689875,
      "grad_norm": 0.8857632875442505,
      "learning_rate": 6.62427931757395e-05,
      "loss": 3.4441,
      "step": 331140
    },
    {
      "epoch": 0.6898958333333334,
      "grad_norm": 0.8818655610084534,
      "learning_rate": 6.623461485399048e-05,
      "loss": 3.5379,
      "step": 331150
    },
    {
      "epoch": 0.6899166666666666,
      "grad_norm": 0.8715665340423584,
      "learning_rate": 6.622643689407482e-05,
      "loss": 3.6523,
      "step": 331160
    },
    {
      "epoch": 0.6899375,
      "grad_norm": 0.861400306224823,
      "learning_rate": 6.621825929602768e-05,
      "loss": 3.4294,
      "step": 331170
    },
    {
      "epoch": 0.6899583333333333,
      "grad_norm": 0.8102356195449829,
      "learning_rate": 6.621008205988455e-05,
      "loss": 3.5766,
      "step": 331180
    },
    {
      "epoch": 0.6899791666666667,
      "grad_norm": 0.8636971712112427,
      "learning_rate": 6.620190518568076e-05,
      "loss": 3.5658,
      "step": 331190
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.7870179414749146,
      "learning_rate": 6.619372867345145e-05,
      "loss": 3.3947,
      "step": 331200
    },
    {
      "epoch": 0.6900208333333333,
      "grad_norm": 0.8436712622642517,
      "learning_rate": 6.618555252323218e-05,
      "loss": 3.4873,
      "step": 331210
    },
    {
      "epoch": 0.6900416666666667,
      "grad_norm": 0.8146132826805115,
      "learning_rate": 6.617737673505808e-05,
      "loss": 3.4139,
      "step": 331220
    },
    {
      "epoch": 0.6900625,
      "grad_norm": 0.7742776870727539,
      "learning_rate": 6.616920130896454e-05,
      "loss": 3.3115,
      "step": 331230
    },
    {
      "epoch": 0.6900833333333334,
      "grad_norm": 1.1932157278060913,
      "learning_rate": 6.616102624498688e-05,
      "loss": 3.4412,
      "step": 331240
    },
    {
      "epoch": 0.6901041666666666,
      "grad_norm": 0.9084445834159851,
      "learning_rate": 6.615285154316038e-05,
      "loss": 3.4284,
      "step": 331250
    },
    {
      "epoch": 0.690125,
      "grad_norm": 0.9088457822799683,
      "learning_rate": 6.614467720352039e-05,
      "loss": 3.6309,
      "step": 331260
    },
    {
      "epoch": 0.6901458333333333,
      "grad_norm": 0.8968507647514343,
      "learning_rate": 6.613650322610218e-05,
      "loss": 3.6161,
      "step": 331270
    },
    {
      "epoch": 0.6901666666666667,
      "grad_norm": 0.9762698411941528,
      "learning_rate": 6.61283296109411e-05,
      "loss": 3.5944,
      "step": 331280
    },
    {
      "epoch": 0.6901875,
      "grad_norm": 0.9532700181007385,
      "learning_rate": 6.612015635807244e-05,
      "loss": 3.3839,
      "step": 331290
    },
    {
      "epoch": 0.6902083333333333,
      "grad_norm": 0.917207658290863,
      "learning_rate": 6.61119834675315e-05,
      "loss": 3.5986,
      "step": 331300
    },
    {
      "epoch": 0.6902291666666667,
      "grad_norm": 0.8244725465774536,
      "learning_rate": 6.610381093935358e-05,
      "loss": 3.6164,
      "step": 331310
    },
    {
      "epoch": 0.69025,
      "grad_norm": 0.9228307604789734,
      "learning_rate": 6.609563877357398e-05,
      "loss": 3.5542,
      "step": 331320
    },
    {
      "epoch": 0.6902708333333333,
      "grad_norm": 0.9854580163955688,
      "learning_rate": 6.608746697022802e-05,
      "loss": 3.5692,
      "step": 331330
    },
    {
      "epoch": 0.6902916666666666,
      "grad_norm": 0.8114285469055176,
      "learning_rate": 6.607929552935098e-05,
      "loss": 3.6067,
      "step": 331340
    },
    {
      "epoch": 0.6903125,
      "grad_norm": 0.7894555330276489,
      "learning_rate": 6.607112445097818e-05,
      "loss": 3.575,
      "step": 331350
    },
    {
      "epoch": 0.6903333333333334,
      "grad_norm": 0.8051067590713501,
      "learning_rate": 6.606295373514489e-05,
      "loss": 3.5888,
      "step": 331360
    },
    {
      "epoch": 0.6903541666666667,
      "grad_norm": 0.8214513659477234,
      "learning_rate": 6.605478338188642e-05,
      "loss": 3.4287,
      "step": 331370
    },
    {
      "epoch": 0.690375,
      "grad_norm": 0.8207142949104309,
      "learning_rate": 6.604661339123805e-05,
      "loss": 3.5304,
      "step": 331380
    },
    {
      "epoch": 0.6903958333333333,
      "grad_norm": 0.7983520030975342,
      "learning_rate": 6.603844376323508e-05,
      "loss": 3.4742,
      "step": 331390
    },
    {
      "epoch": 0.6904166666666667,
      "grad_norm": 0.86833655834198,
      "learning_rate": 6.603027449791282e-05,
      "loss": 3.552,
      "step": 331400
    },
    {
      "epoch": 0.6904375,
      "grad_norm": 0.8805747032165527,
      "learning_rate": 6.602210559530652e-05,
      "loss": 3.5307,
      "step": 331410
    },
    {
      "epoch": 0.6904583333333333,
      "grad_norm": 1.0602277517318726,
      "learning_rate": 6.601393705545147e-05,
      "loss": 3.66,
      "step": 331420
    },
    {
      "epoch": 0.6904791666666666,
      "grad_norm": 0.7894762754440308,
      "learning_rate": 6.600576887838297e-05,
      "loss": 3.5069,
      "step": 331430
    },
    {
      "epoch": 0.6905,
      "grad_norm": 0.8223397731781006,
      "learning_rate": 6.599760106413638e-05,
      "loss": 3.5544,
      "step": 331440
    },
    {
      "epoch": 0.6905208333333334,
      "grad_norm": 1.1394994258880615,
      "learning_rate": 6.598943361274678e-05,
      "loss": 3.5273,
      "step": 331450
    },
    {
      "epoch": 0.6905416666666667,
      "grad_norm": 0.8245151042938232,
      "learning_rate": 6.598126652424963e-05,
      "loss": 3.5604,
      "step": 331460
    },
    {
      "epoch": 0.6905625,
      "grad_norm": 0.8638249039649963,
      "learning_rate": 6.59730997986802e-05,
      "loss": 3.6075,
      "step": 331470
    },
    {
      "epoch": 0.6905833333333333,
      "grad_norm": 0.7929739952087402,
      "learning_rate": 6.596493343607361e-05,
      "loss": 3.3987,
      "step": 331480
    },
    {
      "epoch": 0.6906041666666667,
      "grad_norm": 0.8046138882637024,
      "learning_rate": 6.59567674364653e-05,
      "loss": 3.4992,
      "step": 331490
    },
    {
      "epoch": 0.690625,
      "grad_norm": 0.8661283850669861,
      "learning_rate": 6.594860179989055e-05,
      "loss": 3.6329,
      "step": 331500
    },
    {
      "epoch": 0.6906458333333333,
      "grad_norm": 0.7815470099449158,
      "learning_rate": 6.594043652638452e-05,
      "loss": 3.4696,
      "step": 331510
    },
    {
      "epoch": 0.6906666666666667,
      "grad_norm": 0.8762638568878174,
      "learning_rate": 6.593227161598246e-05,
      "loss": 3.5756,
      "step": 331520
    },
    {
      "epoch": 0.6906875,
      "grad_norm": 0.8206126093864441,
      "learning_rate": 6.592410706871983e-05,
      "loss": 3.5566,
      "step": 331530
    },
    {
      "epoch": 0.6907083333333334,
      "grad_norm": 0.9147545695304871,
      "learning_rate": 6.591594288463172e-05,
      "loss": 3.6026,
      "step": 331540
    },
    {
      "epoch": 0.6907291666666666,
      "grad_norm": 0.8657350540161133,
      "learning_rate": 6.59077790637534e-05,
      "loss": 3.5763,
      "step": 331550
    },
    {
      "epoch": 0.69075,
      "grad_norm": 0.8005515336990356,
      "learning_rate": 6.589961560612029e-05,
      "loss": 3.6413,
      "step": 331560
    },
    {
      "epoch": 0.6907708333333333,
      "grad_norm": 1.0906755924224854,
      "learning_rate": 6.589145251176751e-05,
      "loss": 3.6432,
      "step": 331570
    },
    {
      "epoch": 0.6907916666666667,
      "grad_norm": 0.8813565969467163,
      "learning_rate": 6.588328978073034e-05,
      "loss": 3.4303,
      "step": 331580
    },
    {
      "epoch": 0.6908125,
      "grad_norm": 0.9132956266403198,
      "learning_rate": 6.587512741304409e-05,
      "loss": 3.5258,
      "step": 331590
    },
    {
      "epoch": 0.6908333333333333,
      "grad_norm": 0.9187504053115845,
      "learning_rate": 6.586696540874399e-05,
      "loss": 3.5771,
      "step": 331600
    },
    {
      "epoch": 0.6908541666666667,
      "grad_norm": 0.8709924221038818,
      "learning_rate": 6.585880376786529e-05,
      "loss": 3.5232,
      "step": 331610
    },
    {
      "epoch": 0.690875,
      "grad_norm": 0.857111930847168,
      "learning_rate": 6.585064249044323e-05,
      "loss": 3.5317,
      "step": 331620
    },
    {
      "epoch": 0.6908958333333334,
      "grad_norm": 0.9177489280700684,
      "learning_rate": 6.584248157651312e-05,
      "loss": 3.543,
      "step": 331630
    },
    {
      "epoch": 0.6909166666666666,
      "grad_norm": 0.9757430553436279,
      "learning_rate": 6.583432102611016e-05,
      "loss": 3.6296,
      "step": 331640
    },
    {
      "epoch": 0.6909375,
      "grad_norm": 0.9627054333686829,
      "learning_rate": 6.582616083926961e-05,
      "loss": 3.3576,
      "step": 331650
    },
    {
      "epoch": 0.6909583333333333,
      "grad_norm": 0.9294929504394531,
      "learning_rate": 6.581800101602674e-05,
      "loss": 3.4257,
      "step": 331660
    },
    {
      "epoch": 0.6909791666666667,
      "grad_norm": 0.8981860876083374,
      "learning_rate": 6.580984155641679e-05,
      "loss": 3.4692,
      "step": 331670
    },
    {
      "epoch": 0.691,
      "grad_norm": 1.0067262649536133,
      "learning_rate": 6.580168246047498e-05,
      "loss": 3.6537,
      "step": 331680
    },
    {
      "epoch": 0.6910208333333333,
      "grad_norm": 0.8670781254768372,
      "learning_rate": 6.579352372823659e-05,
      "loss": 3.529,
      "step": 331690
    },
    {
      "epoch": 0.6910416666666667,
      "grad_norm": 0.8483554124832153,
      "learning_rate": 6.578536535973684e-05,
      "loss": 3.4942,
      "step": 331700
    },
    {
      "epoch": 0.6910625,
      "grad_norm": 0.7471607327461243,
      "learning_rate": 6.577720735501099e-05,
      "loss": 3.4883,
      "step": 331710
    },
    {
      "epoch": 0.6910833333333334,
      "grad_norm": 0.8563439846038818,
      "learning_rate": 6.576904971409425e-05,
      "loss": 3.5504,
      "step": 331720
    },
    {
      "epoch": 0.6911041666666666,
      "grad_norm": 0.8686040043830872,
      "learning_rate": 6.576089243702187e-05,
      "loss": 3.6209,
      "step": 331730
    },
    {
      "epoch": 0.691125,
      "grad_norm": 0.8710832595825195,
      "learning_rate": 6.57527355238291e-05,
      "loss": 3.6279,
      "step": 331740
    },
    {
      "epoch": 0.6911458333333333,
      "grad_norm": 0.8410035371780396,
      "learning_rate": 6.574457897455118e-05,
      "loss": 3.424,
      "step": 331750
    },
    {
      "epoch": 0.6911666666666667,
      "grad_norm": 0.8442428112030029,
      "learning_rate": 6.57364227892233e-05,
      "loss": 3.4974,
      "step": 331760
    },
    {
      "epoch": 0.6911875,
      "grad_norm": 0.8152248859405518,
      "learning_rate": 6.572826696788074e-05,
      "loss": 3.6121,
      "step": 331770
    },
    {
      "epoch": 0.6912083333333333,
      "grad_norm": 0.9752678275108337,
      "learning_rate": 6.572011151055871e-05,
      "loss": 3.5718,
      "step": 331780
    },
    {
      "epoch": 0.6912291666666667,
      "grad_norm": 0.7631401419639587,
      "learning_rate": 6.571195641729242e-05,
      "loss": 3.5914,
      "step": 331790
    },
    {
      "epoch": 0.69125,
      "grad_norm": 0.9225059747695923,
      "learning_rate": 6.570380168811713e-05,
      "loss": 3.3506,
      "step": 331800
    },
    {
      "epoch": 0.6912708333333333,
      "grad_norm": 0.8032167553901672,
      "learning_rate": 6.569564732306805e-05,
      "loss": 3.4197,
      "step": 331810
    },
    {
      "epoch": 0.6912916666666666,
      "grad_norm": 0.9577752947807312,
      "learning_rate": 6.568749332218044e-05,
      "loss": 3.4598,
      "step": 331820
    },
    {
      "epoch": 0.6913125,
      "grad_norm": 0.8622345328330994,
      "learning_rate": 6.56793396854894e-05,
      "loss": 3.4999,
      "step": 331830
    },
    {
      "epoch": 0.6913333333333334,
      "grad_norm": 0.8772762417793274,
      "learning_rate": 6.567118641303035e-05,
      "loss": 3.4347,
      "step": 331840
    },
    {
      "epoch": 0.6913541666666667,
      "grad_norm": 0.8971856832504272,
      "learning_rate": 6.566303350483832e-05,
      "loss": 3.4478,
      "step": 331850
    },
    {
      "epoch": 0.691375,
      "grad_norm": 0.9928580522537231,
      "learning_rate": 6.565488096094854e-05,
      "loss": 3.5965,
      "step": 331860
    },
    {
      "epoch": 0.6913958333333333,
      "grad_norm": 0.8734801411628723,
      "learning_rate": 6.564672878139641e-05,
      "loss": 3.4775,
      "step": 331870
    },
    {
      "epoch": 0.6914166666666667,
      "grad_norm": 0.8928573131561279,
      "learning_rate": 6.563857696621696e-05,
      "loss": 3.5057,
      "step": 331880
    },
    {
      "epoch": 0.6914375,
      "grad_norm": 0.9817230105400085,
      "learning_rate": 6.563042551544542e-05,
      "loss": 3.4837,
      "step": 331890
    },
    {
      "epoch": 0.6914583333333333,
      "grad_norm": 0.8231130242347717,
      "learning_rate": 6.562227442911717e-05,
      "loss": 3.5741,
      "step": 331900
    },
    {
      "epoch": 0.6914791666666666,
      "grad_norm": 0.8864744901657104,
      "learning_rate": 6.561412370726722e-05,
      "loss": 3.4719,
      "step": 331910
    },
    {
      "epoch": 0.6915,
      "grad_norm": 0.8596264123916626,
      "learning_rate": 6.56059733499308e-05,
      "loss": 3.6282,
      "step": 331920
    },
    {
      "epoch": 0.6915208333333334,
      "grad_norm": 0.8161880970001221,
      "learning_rate": 6.559782335714329e-05,
      "loss": 3.5363,
      "step": 331930
    },
    {
      "epoch": 0.6915416666666667,
      "grad_norm": 0.9872736930847168,
      "learning_rate": 6.558967372893971e-05,
      "loss": 3.2592,
      "step": 331940
    },
    {
      "epoch": 0.6915625,
      "grad_norm": 0.7422572374343872,
      "learning_rate": 6.558152446535534e-05,
      "loss": 3.531,
      "step": 331950
    },
    {
      "epoch": 0.6915833333333333,
      "grad_norm": 0.9228840470314026,
      "learning_rate": 6.557337556642535e-05,
      "loss": 3.66,
      "step": 331960
    },
    {
      "epoch": 0.6916041666666667,
      "grad_norm": 0.808179497718811,
      "learning_rate": 6.556522703218498e-05,
      "loss": 3.6737,
      "step": 331970
    },
    {
      "epoch": 0.691625,
      "grad_norm": 0.8431280255317688,
      "learning_rate": 6.555707886266937e-05,
      "loss": 3.6207,
      "step": 331980
    },
    {
      "epoch": 0.6916458333333333,
      "grad_norm": 0.8540460467338562,
      "learning_rate": 6.55489310579138e-05,
      "loss": 3.4846,
      "step": 331990
    },
    {
      "epoch": 0.6916666666666667,
      "grad_norm": 0.9381179213523865,
      "learning_rate": 6.55407836179534e-05,
      "loss": 3.6225,
      "step": 332000
    },
    {
      "epoch": 0.6916666666666667,
      "eval_loss": 4.04900598526001,
      "eval_runtime": 8.7602,
      "eval_samples_per_second": 1.142,
      "eval_steps_per_second": 0.342,
      "step": 332000
    },
    {
      "epoch": 0.6916875,
      "grad_norm": 0.9347529411315918,
      "learning_rate": 6.553263654282337e-05,
      "loss": 3.4365,
      "step": 332010
    },
    {
      "epoch": 0.6917083333333334,
      "grad_norm": 1.37373685836792,
      "learning_rate": 6.552448983255893e-05,
      "loss": 3.3869,
      "step": 332020
    },
    {
      "epoch": 0.6917291666666666,
      "grad_norm": 0.8679590821266174,
      "learning_rate": 6.551634348719527e-05,
      "loss": 3.5149,
      "step": 332030
    },
    {
      "epoch": 0.69175,
      "grad_norm": 0.8100436925888062,
      "learning_rate": 6.550819750676753e-05,
      "loss": 3.5877,
      "step": 332040
    },
    {
      "epoch": 0.6917708333333333,
      "grad_norm": 0.8782076239585876,
      "learning_rate": 6.550005189131097e-05,
      "loss": 3.7063,
      "step": 332050
    },
    {
      "epoch": 0.6917916666666667,
      "grad_norm": 0.8260287642478943,
      "learning_rate": 6.549190664086072e-05,
      "loss": 3.5075,
      "step": 332060
    },
    {
      "epoch": 0.6918125,
      "grad_norm": 0.8606520295143127,
      "learning_rate": 6.548376175545198e-05,
      "loss": 3.5923,
      "step": 332070
    },
    {
      "epoch": 0.6918333333333333,
      "grad_norm": 0.8375152349472046,
      "learning_rate": 6.547561723511994e-05,
      "loss": 3.5728,
      "step": 332080
    },
    {
      "epoch": 0.6918541666666667,
      "grad_norm": 0.7639434337615967,
      "learning_rate": 6.546747307989977e-05,
      "loss": 3.6704,
      "step": 332090
    },
    {
      "epoch": 0.691875,
      "grad_norm": 0.7915569543838501,
      "learning_rate": 6.545932928982673e-05,
      "loss": 3.5167,
      "step": 332100
    },
    {
      "epoch": 0.6918958333333334,
      "grad_norm": 0.8195470571517944,
      "learning_rate": 6.54511858649358e-05,
      "loss": 3.424,
      "step": 332110
    },
    {
      "epoch": 0.6919166666666666,
      "grad_norm": 1.0765800476074219,
      "learning_rate": 6.544304280526234e-05,
      "loss": 3.4197,
      "step": 332120
    },
    {
      "epoch": 0.6919375,
      "grad_norm": 0.9341999888420105,
      "learning_rate": 6.54349001108415e-05,
      "loss": 3.5188,
      "step": 332130
    },
    {
      "epoch": 0.6919583333333333,
      "grad_norm": 0.8822714686393738,
      "learning_rate": 6.542675778170833e-05,
      "loss": 3.4459,
      "step": 332140
    },
    {
      "epoch": 0.6919791666666667,
      "grad_norm": 0.8786024451255798,
      "learning_rate": 6.541861581789814e-05,
      "loss": 3.4408,
      "step": 332150
    },
    {
      "epoch": 0.692,
      "grad_norm": 0.9438511729240417,
      "learning_rate": 6.541047421944611e-05,
      "loss": 3.5788,
      "step": 332160
    },
    {
      "epoch": 0.6920208333333333,
      "grad_norm": 1.0140366554260254,
      "learning_rate": 6.540233298638722e-05,
      "loss": 3.5402,
      "step": 332170
    },
    {
      "epoch": 0.6920416666666667,
      "grad_norm": 0.9437850117683411,
      "learning_rate": 6.539419211875685e-05,
      "loss": 3.404,
      "step": 332180
    },
    {
      "epoch": 0.6920625,
      "grad_norm": 0.7889764308929443,
      "learning_rate": 6.538605161659011e-05,
      "loss": 3.4829,
      "step": 332190
    },
    {
      "epoch": 0.6920833333333334,
      "grad_norm": 0.9788538813591003,
      "learning_rate": 6.537791147992204e-05,
      "loss": 3.6821,
      "step": 332200
    },
    {
      "epoch": 0.6921041666666666,
      "grad_norm": 0.8629315495491028,
      "learning_rate": 6.536977170878801e-05,
      "loss": 3.5576,
      "step": 332210
    },
    {
      "epoch": 0.692125,
      "grad_norm": 0.8566433787345886,
      "learning_rate": 6.536163230322299e-05,
      "loss": 3.5319,
      "step": 332220
    },
    {
      "epoch": 0.6921458333333333,
      "grad_norm": 0.9230974316596985,
      "learning_rate": 6.535349326326218e-05,
      "loss": 3.5815,
      "step": 332230
    },
    {
      "epoch": 0.6921666666666667,
      "grad_norm": 0.7885795831680298,
      "learning_rate": 6.534535458894087e-05,
      "loss": 3.5246,
      "step": 332240
    },
    {
      "epoch": 0.6921875,
      "grad_norm": 0.9576679468154907,
      "learning_rate": 6.533721628029408e-05,
      "loss": 3.4083,
      "step": 332250
    },
    {
      "epoch": 0.6922083333333333,
      "grad_norm": 1.0000852346420288,
      "learning_rate": 6.532907833735694e-05,
      "loss": 3.4603,
      "step": 332260
    },
    {
      "epoch": 0.6922291666666667,
      "grad_norm": 0.8171436190605164,
      "learning_rate": 6.532094076016477e-05,
      "loss": 3.3901,
      "step": 332270
    },
    {
      "epoch": 0.69225,
      "grad_norm": 0.952725350856781,
      "learning_rate": 6.531280354875258e-05,
      "loss": 3.5059,
      "step": 332280
    },
    {
      "epoch": 0.6922708333333333,
      "grad_norm": 1.1939975023269653,
      "learning_rate": 6.530466670315549e-05,
      "loss": 3.4949,
      "step": 332290
    },
    {
      "epoch": 0.6922916666666666,
      "grad_norm": 0.7880852818489075,
      "learning_rate": 6.529653022340883e-05,
      "loss": 3.5918,
      "step": 332300
    },
    {
      "epoch": 0.6923125,
      "grad_norm": 0.8279404044151306,
      "learning_rate": 6.528839410954757e-05,
      "loss": 3.4125,
      "step": 332310
    },
    {
      "epoch": 0.6923333333333334,
      "grad_norm": 0.8219444155693054,
      "learning_rate": 6.528025836160687e-05,
      "loss": 3.6414,
      "step": 332320
    },
    {
      "epoch": 0.6923541666666667,
      "grad_norm": 0.8272220492362976,
      "learning_rate": 6.527212297962202e-05,
      "loss": 3.5258,
      "step": 332330
    },
    {
      "epoch": 0.692375,
      "grad_norm": 0.8045470714569092,
      "learning_rate": 6.526398796362801e-05,
      "loss": 3.4871,
      "step": 332340
    },
    {
      "epoch": 0.6923958333333333,
      "grad_norm": 1.1149662733078003,
      "learning_rate": 6.525585331366003e-05,
      "loss": 3.4636,
      "step": 332350
    },
    {
      "epoch": 0.6924166666666667,
      "grad_norm": 0.8392923474311829,
      "learning_rate": 6.524771902975323e-05,
      "loss": 3.4304,
      "step": 332360
    },
    {
      "epoch": 0.6924375,
      "grad_norm": 0.8379571437835693,
      "learning_rate": 6.523958511194273e-05,
      "loss": 3.4588,
      "step": 332370
    },
    {
      "epoch": 0.6924583333333333,
      "grad_norm": 1.0128837823867798,
      "learning_rate": 6.523145156026365e-05,
      "loss": 3.4631,
      "step": 332380
    },
    {
      "epoch": 0.6924791666666666,
      "grad_norm": 0.8911243677139282,
      "learning_rate": 6.522331837475119e-05,
      "loss": 3.5051,
      "step": 332390
    },
    {
      "epoch": 0.6925,
      "grad_norm": 0.8617340922355652,
      "learning_rate": 6.52151855554404e-05,
      "loss": 3.4925,
      "step": 332400
    },
    {
      "epoch": 0.6925208333333334,
      "grad_norm": 0.8094447255134583,
      "learning_rate": 6.520705310236646e-05,
      "loss": 3.5339,
      "step": 332410
    },
    {
      "epoch": 0.6925416666666667,
      "grad_norm": 0.9278262853622437,
      "learning_rate": 6.51989210155645e-05,
      "loss": 3.6355,
      "step": 332420
    },
    {
      "epoch": 0.6925625,
      "grad_norm": 0.875281810760498,
      "learning_rate": 6.519078929506962e-05,
      "loss": 3.4539,
      "step": 332430
    },
    {
      "epoch": 0.6925833333333333,
      "grad_norm": 0.9066184163093567,
      "learning_rate": 6.518265794091703e-05,
      "loss": 3.6188,
      "step": 332440
    },
    {
      "epoch": 0.6926041666666667,
      "grad_norm": 0.8844407200813293,
      "learning_rate": 6.517452695314164e-05,
      "loss": 3.5673,
      "step": 332450
    },
    {
      "epoch": 0.692625,
      "grad_norm": 0.909159779548645,
      "learning_rate": 6.51663963317788e-05,
      "loss": 3.3235,
      "step": 332460
    },
    {
      "epoch": 0.6926458333333333,
      "grad_norm": 0.8365722894668579,
      "learning_rate": 6.51582660768636e-05,
      "loss": 3.3929,
      "step": 332470
    },
    {
      "epoch": 0.6926666666666667,
      "grad_norm": 0.8285566568374634,
      "learning_rate": 6.5150136188431e-05,
      "loss": 3.458,
      "step": 332480
    },
    {
      "epoch": 0.6926875,
      "grad_norm": 0.9277819991111755,
      "learning_rate": 6.514200666651628e-05,
      "loss": 3.563,
      "step": 332490
    },
    {
      "epoch": 0.6927083333333334,
      "grad_norm": 0.8561506271362305,
      "learning_rate": 6.513387751115456e-05,
      "loss": 3.4939,
      "step": 332500
    },
    {
      "epoch": 0.6927291666666666,
      "grad_norm": 0.8047600984573364,
      "learning_rate": 6.512574872238078e-05,
      "loss": 3.3822,
      "step": 332510
    },
    {
      "epoch": 0.69275,
      "grad_norm": 0.8211299180984497,
      "learning_rate": 6.511762030023023e-05,
      "loss": 3.4743,
      "step": 332520
    },
    {
      "epoch": 0.6927708333333333,
      "grad_norm": 0.7644560933113098,
      "learning_rate": 6.5109492244738e-05,
      "loss": 3.3924,
      "step": 332530
    },
    {
      "epoch": 0.6927916666666667,
      "grad_norm": 0.8374873399734497,
      "learning_rate": 6.510136455593906e-05,
      "loss": 3.5545,
      "step": 332540
    },
    {
      "epoch": 0.6928125,
      "grad_norm": 0.9009896516799927,
      "learning_rate": 6.50932372338687e-05,
      "loss": 3.3571,
      "step": 332550
    },
    {
      "epoch": 0.6928333333333333,
      "grad_norm": 0.8269400000572205,
      "learning_rate": 6.508511027856198e-05,
      "loss": 3.3269,
      "step": 332560
    },
    {
      "epoch": 0.6928541666666667,
      "grad_norm": 0.8287210464477539,
      "learning_rate": 6.507698369005386e-05,
      "loss": 3.5653,
      "step": 332570
    },
    {
      "epoch": 0.692875,
      "grad_norm": 0.8555505275726318,
      "learning_rate": 6.506885746837966e-05,
      "loss": 3.3452,
      "step": 332580
    },
    {
      "epoch": 0.6928958333333334,
      "grad_norm": 0.8397495746612549,
      "learning_rate": 6.506073161357433e-05,
      "loss": 3.6166,
      "step": 332590
    },
    {
      "epoch": 0.6929166666666666,
      "grad_norm": 1.2208653688430786,
      "learning_rate": 6.505260612567297e-05,
      "loss": 3.4148,
      "step": 332600
    },
    {
      "epoch": 0.6929375,
      "grad_norm": 0.8031156063079834,
      "learning_rate": 6.504448100471083e-05,
      "loss": 3.409,
      "step": 332610
    },
    {
      "epoch": 0.6929583333333333,
      "grad_norm": 0.9867550134658813,
      "learning_rate": 6.503635625072286e-05,
      "loss": 3.4838,
      "step": 332620
    },
    {
      "epoch": 0.6929791666666667,
      "grad_norm": 0.9056119918823242,
      "learning_rate": 6.502823186374413e-05,
      "loss": 3.4629,
      "step": 332630
    },
    {
      "epoch": 0.693,
      "grad_norm": 0.8307209014892578,
      "learning_rate": 6.502010784380992e-05,
      "loss": 3.4523,
      "step": 332640
    },
    {
      "epoch": 0.6930208333333333,
      "grad_norm": 0.9281145334243774,
      "learning_rate": 6.501198419095515e-05,
      "loss": 3.5956,
      "step": 332650
    },
    {
      "epoch": 0.6930416666666667,
      "grad_norm": 0.774169921875,
      "learning_rate": 6.500386090521492e-05,
      "loss": 3.448,
      "step": 332660
    },
    {
      "epoch": 0.6930625,
      "grad_norm": 0.8577046394348145,
      "learning_rate": 6.499573798662446e-05,
      "loss": 3.4387,
      "step": 332670
    },
    {
      "epoch": 0.6930833333333334,
      "grad_norm": 0.8870449066162109,
      "learning_rate": 6.498761543521873e-05,
      "loss": 3.493,
      "step": 332680
    },
    {
      "epoch": 0.6931041666666666,
      "grad_norm": 0.9412314891815186,
      "learning_rate": 6.497949325103285e-05,
      "loss": 3.33,
      "step": 332690
    },
    {
      "epoch": 0.693125,
      "grad_norm": 0.8855206370353699,
      "learning_rate": 6.497137143410189e-05,
      "loss": 3.4756,
      "step": 332700
    },
    {
      "epoch": 0.6931458333333333,
      "grad_norm": 0.7603859901428223,
      "learning_rate": 6.496324998446096e-05,
      "loss": 3.4249,
      "step": 332710
    },
    {
      "epoch": 0.6931666666666667,
      "grad_norm": 0.8290284872055054,
      "learning_rate": 6.495512890214512e-05,
      "loss": 3.4207,
      "step": 332720
    },
    {
      "epoch": 0.6931875,
      "grad_norm": 0.8567985892295837,
      "learning_rate": 6.494700818718948e-05,
      "loss": 3.4255,
      "step": 332730
    },
    {
      "epoch": 0.6932083333333333,
      "grad_norm": 0.9157549738883972,
      "learning_rate": 6.493888783962907e-05,
      "loss": 3.4017,
      "step": 332740
    },
    {
      "epoch": 0.6932291666666667,
      "grad_norm": 0.8384357690811157,
      "learning_rate": 6.493076785949902e-05,
      "loss": 3.5316,
      "step": 332750
    },
    {
      "epoch": 0.69325,
      "grad_norm": 0.8056813478469849,
      "learning_rate": 6.492264824683436e-05,
      "loss": 3.4675,
      "step": 332760
    },
    {
      "epoch": 0.6932708333333333,
      "grad_norm": 0.815646231174469,
      "learning_rate": 6.49145290016702e-05,
      "loss": 3.5204,
      "step": 332770
    },
    {
      "epoch": 0.6932916666666666,
      "grad_norm": 0.9613065123558044,
      "learning_rate": 6.490641012404158e-05,
      "loss": 3.5772,
      "step": 332780
    },
    {
      "epoch": 0.6933125,
      "grad_norm": 0.8891733884811401,
      "learning_rate": 6.48982916139836e-05,
      "loss": 3.5601,
      "step": 332790
    },
    {
      "epoch": 0.6933333333333334,
      "grad_norm": 0.8719040155410767,
      "learning_rate": 6.489017347153131e-05,
      "loss": 3.5041,
      "step": 332800
    },
    {
      "epoch": 0.6933541666666667,
      "grad_norm": 0.8140872716903687,
      "learning_rate": 6.48820556967198e-05,
      "loss": 3.5836,
      "step": 332810
    },
    {
      "epoch": 0.693375,
      "grad_norm": 0.9432218670845032,
      "learning_rate": 6.487393828958409e-05,
      "loss": 3.5045,
      "step": 332820
    },
    {
      "epoch": 0.6933958333333333,
      "grad_norm": 1.0614370107650757,
      "learning_rate": 6.486582125015928e-05,
      "loss": 3.4393,
      "step": 332830
    },
    {
      "epoch": 0.6934166666666667,
      "grad_norm": 0.8952524662017822,
      "learning_rate": 6.485770457848049e-05,
      "loss": 3.4573,
      "step": 332840
    },
    {
      "epoch": 0.6934375,
      "grad_norm": 0.9275538921356201,
      "learning_rate": 6.484958827458259e-05,
      "loss": 3.4657,
      "step": 332850
    },
    {
      "epoch": 0.6934583333333333,
      "grad_norm": 0.7854806780815125,
      "learning_rate": 6.484147233850082e-05,
      "loss": 3.5359,
      "step": 332860
    },
    {
      "epoch": 0.6934791666666666,
      "grad_norm": 0.8913317322731018,
      "learning_rate": 6.483335677027025e-05,
      "loss": 3.5293,
      "step": 332870
    },
    {
      "epoch": 0.6935,
      "grad_norm": 1.0301238298416138,
      "learning_rate": 6.482524156992573e-05,
      "loss": 3.4838,
      "step": 332880
    },
    {
      "epoch": 0.6935208333333334,
      "grad_norm": 0.9694690108299255,
      "learning_rate": 6.481712673750252e-05,
      "loss": 3.641,
      "step": 332890
    },
    {
      "epoch": 0.6935416666666666,
      "grad_norm": 0.8695281147956848,
      "learning_rate": 6.480901227303566e-05,
      "loss": 3.5145,
      "step": 332900
    },
    {
      "epoch": 0.6935625,
      "grad_norm": 0.8477915525436401,
      "learning_rate": 6.480089817656004e-05,
      "loss": 3.4456,
      "step": 332910
    },
    {
      "epoch": 0.6935833333333333,
      "grad_norm": 0.9239391088485718,
      "learning_rate": 6.479278444811088e-05,
      "loss": 3.3577,
      "step": 332920
    },
    {
      "epoch": 0.6936041666666667,
      "grad_norm": 0.9051273465156555,
      "learning_rate": 6.47846710877232e-05,
      "loss": 3.4162,
      "step": 332930
    },
    {
      "epoch": 0.693625,
      "grad_norm": 0.9238936901092529,
      "learning_rate": 6.47765580954319e-05,
      "loss": 3.4759,
      "step": 332940
    },
    {
      "epoch": 0.6936458333333333,
      "grad_norm": 1.0423846244812012,
      "learning_rate": 6.476844547127228e-05,
      "loss": 3.4447,
      "step": 332950
    },
    {
      "epoch": 0.6936666666666667,
      "grad_norm": 0.878141462802887,
      "learning_rate": 6.476033321527916e-05,
      "loss": 3.3848,
      "step": 332960
    },
    {
      "epoch": 0.6936875,
      "grad_norm": 0.8086362481117249,
      "learning_rate": 6.47522213274876e-05,
      "loss": 3.3841,
      "step": 332970
    },
    {
      "epoch": 0.6937083333333334,
      "grad_norm": 1.0122830867767334,
      "learning_rate": 6.474410980793281e-05,
      "loss": 3.6291,
      "step": 332980
    },
    {
      "epoch": 0.6937291666666666,
      "grad_norm": 0.8832005262374878,
      "learning_rate": 6.473599865664967e-05,
      "loss": 3.526,
      "step": 332990
    },
    {
      "epoch": 0.69375,
      "grad_norm": 0.834251880645752,
      "learning_rate": 6.472788787367326e-05,
      "loss": 3.391,
      "step": 333000
    },
    {
      "epoch": 0.69375,
      "eval_loss": 4.056188106536865,
      "eval_runtime": 8.6623,
      "eval_samples_per_second": 1.154,
      "eval_steps_per_second": 0.346,
      "step": 333000
    },
    {
      "epoch": 0.6937708333333333,
      "grad_norm": 0.9795541763305664,
      "learning_rate": 6.471977745903864e-05,
      "loss": 3.4983,
      "step": 333010
    },
    {
      "epoch": 0.6937916666666667,
      "grad_norm": 0.761260986328125,
      "learning_rate": 6.471166741278079e-05,
      "loss": 3.5027,
      "step": 333020
    },
    {
      "epoch": 0.6938125,
      "grad_norm": 0.8570383787155151,
      "learning_rate": 6.470355773493481e-05,
      "loss": 3.2856,
      "step": 333030
    },
    {
      "epoch": 0.6938333333333333,
      "grad_norm": 0.9335214495658875,
      "learning_rate": 6.469544842553568e-05,
      "loss": 3.6323,
      "step": 333040
    },
    {
      "epoch": 0.6938541666666667,
      "grad_norm": 0.8503315448760986,
      "learning_rate": 6.468733948461846e-05,
      "loss": 3.4761,
      "step": 333050
    },
    {
      "epoch": 0.693875,
      "grad_norm": 0.9837668538093567,
      "learning_rate": 6.467923091221816e-05,
      "loss": 3.5257,
      "step": 333060
    },
    {
      "epoch": 0.6938958333333334,
      "grad_norm": 0.8113100528717041,
      "learning_rate": 6.467112270836981e-05,
      "loss": 3.4812,
      "step": 333070
    },
    {
      "epoch": 0.6939166666666666,
      "grad_norm": 0.7487756013870239,
      "learning_rate": 6.466301487310842e-05,
      "loss": 3.6291,
      "step": 333080
    },
    {
      "epoch": 0.6939375,
      "grad_norm": 0.9644851684570312,
      "learning_rate": 6.465490740646904e-05,
      "loss": 3.3782,
      "step": 333090
    },
    {
      "epoch": 0.6939583333333333,
      "grad_norm": 0.7963982820510864,
      "learning_rate": 6.464680030848667e-05,
      "loss": 3.5424,
      "step": 333100
    },
    {
      "epoch": 0.6939791666666667,
      "grad_norm": 0.9129177927970886,
      "learning_rate": 6.463869357919635e-05,
      "loss": 3.5968,
      "step": 333110
    },
    {
      "epoch": 0.694,
      "grad_norm": 0.8407015800476074,
      "learning_rate": 6.463058721863308e-05,
      "loss": 3.3741,
      "step": 333120
    },
    {
      "epoch": 0.6940208333333333,
      "grad_norm": 1.072391152381897,
      "learning_rate": 6.462248122683188e-05,
      "loss": 3.5831,
      "step": 333130
    },
    {
      "epoch": 0.6940416666666667,
      "grad_norm": 1.0105247497558594,
      "learning_rate": 6.461437560382777e-05,
      "loss": 3.4831,
      "step": 333140
    },
    {
      "epoch": 0.6940625,
      "grad_norm": 1.0154069662094116,
      "learning_rate": 6.460627034965576e-05,
      "loss": 3.5823,
      "step": 333150
    },
    {
      "epoch": 0.6940833333333334,
      "grad_norm": 0.9993757605552673,
      "learning_rate": 6.459816546435085e-05,
      "loss": 3.4288,
      "step": 333160
    },
    {
      "epoch": 0.6941041666666666,
      "grad_norm": 0.9527586698532104,
      "learning_rate": 6.459006094794808e-05,
      "loss": 3.4915,
      "step": 333170
    },
    {
      "epoch": 0.694125,
      "grad_norm": 0.9040848016738892,
      "learning_rate": 6.458195680048243e-05,
      "loss": 3.6131,
      "step": 333180
    },
    {
      "epoch": 0.6941458333333334,
      "grad_norm": 1.0105628967285156,
      "learning_rate": 6.457385302198891e-05,
      "loss": 3.5006,
      "step": 333190
    },
    {
      "epoch": 0.6941666666666667,
      "grad_norm": 0.8483197093009949,
      "learning_rate": 6.456574961250253e-05,
      "loss": 3.4341,
      "step": 333200
    },
    {
      "epoch": 0.6941875,
      "grad_norm": 0.940201997756958,
      "learning_rate": 6.455764657205836e-05,
      "loss": 3.3887,
      "step": 333210
    },
    {
      "epoch": 0.6942083333333333,
      "grad_norm": 0.8100143671035767,
      "learning_rate": 6.45495439006912e-05,
      "loss": 3.4275,
      "step": 333220
    },
    {
      "epoch": 0.6942291666666667,
      "grad_norm": 0.876581072807312,
      "learning_rate": 6.454144159843628e-05,
      "loss": 3.5548,
      "step": 333230
    },
    {
      "epoch": 0.69425,
      "grad_norm": 0.9611058831214905,
      "learning_rate": 6.453333966532854e-05,
      "loss": 3.4896,
      "step": 333240
    },
    {
      "epoch": 0.6942708333333333,
      "grad_norm": 0.7842043042182922,
      "learning_rate": 6.452523810140282e-05,
      "loss": 3.4035,
      "step": 333250
    },
    {
      "epoch": 0.6942916666666666,
      "grad_norm": 0.8387014269828796,
      "learning_rate": 6.451713690669433e-05,
      "loss": 3.6051,
      "step": 333260
    },
    {
      "epoch": 0.6943125,
      "grad_norm": 0.8013663291931152,
      "learning_rate": 6.450903608123799e-05,
      "loss": 3.5137,
      "step": 333270
    },
    {
      "epoch": 0.6943333333333334,
      "grad_norm": 0.9468005895614624,
      "learning_rate": 6.450093562506874e-05,
      "loss": 3.5559,
      "step": 333280
    },
    {
      "epoch": 0.6943541666666667,
      "grad_norm": 0.8659868240356445,
      "learning_rate": 6.449283553822154e-05,
      "loss": 3.4983,
      "step": 333290
    },
    {
      "epoch": 0.694375,
      "grad_norm": 0.8317983746528625,
      "learning_rate": 6.448473582073156e-05,
      "loss": 3.555,
      "step": 333300
    },
    {
      "epoch": 0.6943958333333333,
      "grad_norm": 1.0530390739440918,
      "learning_rate": 6.447663647263363e-05,
      "loss": 3.373,
      "step": 333310
    },
    {
      "epoch": 0.6944166666666667,
      "grad_norm": 0.7952343821525574,
      "learning_rate": 6.44685374939627e-05,
      "loss": 3.5194,
      "step": 333320
    },
    {
      "epoch": 0.6944375,
      "grad_norm": 0.8578433990478516,
      "learning_rate": 6.446043888475394e-05,
      "loss": 3.585,
      "step": 333330
    },
    {
      "epoch": 0.6944583333333333,
      "grad_norm": 0.7787216901779175,
      "learning_rate": 6.445234064504219e-05,
      "loss": 3.532,
      "step": 333340
    },
    {
      "epoch": 0.6944791666666666,
      "grad_norm": 0.8738263249397278,
      "learning_rate": 6.444424277486246e-05,
      "loss": 3.4689,
      "step": 333350
    },
    {
      "epoch": 0.6945,
      "grad_norm": 0.9252138137817383,
      "learning_rate": 6.443614527424973e-05,
      "loss": 3.5879,
      "step": 333360
    },
    {
      "epoch": 0.6945208333333334,
      "grad_norm": 0.8620352149009705,
      "learning_rate": 6.442804814323899e-05,
      "loss": 3.3911,
      "step": 333370
    },
    {
      "epoch": 0.6945416666666666,
      "grad_norm": 0.9577766060829163,
      "learning_rate": 6.441995138186521e-05,
      "loss": 3.5089,
      "step": 333380
    },
    {
      "epoch": 0.6945625,
      "grad_norm": 0.859210729598999,
      "learning_rate": 6.441185499016338e-05,
      "loss": 3.363,
      "step": 333390
    },
    {
      "epoch": 0.6945833333333333,
      "grad_norm": 0.7567249536514282,
      "learning_rate": 6.440375896816842e-05,
      "loss": 3.4678,
      "step": 333400
    },
    {
      "epoch": 0.6946041666666667,
      "grad_norm": 0.7513912916183472,
      "learning_rate": 6.439566331591537e-05,
      "loss": 3.5443,
      "step": 333410
    },
    {
      "epoch": 0.694625,
      "grad_norm": 0.8497603535652161,
      "learning_rate": 6.438756803343917e-05,
      "loss": 3.5377,
      "step": 333420
    },
    {
      "epoch": 0.6946458333333333,
      "grad_norm": 0.9190911054611206,
      "learning_rate": 6.437947312077476e-05,
      "loss": 3.4369,
      "step": 333430
    },
    {
      "epoch": 0.6946666666666667,
      "grad_norm": 0.8475178480148315,
      "learning_rate": 6.437137857795717e-05,
      "loss": 3.4511,
      "step": 333440
    },
    {
      "epoch": 0.6946875,
      "grad_norm": 0.8649795055389404,
      "learning_rate": 6.436328440502131e-05,
      "loss": 3.4489,
      "step": 333450
    },
    {
      "epoch": 0.6947083333333334,
      "grad_norm": 1.006813406944275,
      "learning_rate": 6.435519060200216e-05,
      "loss": 3.4027,
      "step": 333460
    },
    {
      "epoch": 0.6947291666666666,
      "grad_norm": 0.9418221712112427,
      "learning_rate": 6.43470971689347e-05,
      "loss": 3.3512,
      "step": 333470
    },
    {
      "epoch": 0.69475,
      "grad_norm": 0.7868784666061401,
      "learning_rate": 6.433900410585388e-05,
      "loss": 3.4765,
      "step": 333480
    },
    {
      "epoch": 0.6947708333333333,
      "grad_norm": 0.8827216625213623,
      "learning_rate": 6.433091141279464e-05,
      "loss": 3.5381,
      "step": 333490
    },
    {
      "epoch": 0.6947916666666667,
      "grad_norm": 0.9851320385932922,
      "learning_rate": 6.432281908979196e-05,
      "loss": 3.5354,
      "step": 333500
    },
    {
      "epoch": 0.6948125,
      "grad_norm": 0.9222613573074341,
      "learning_rate": 6.431472713688079e-05,
      "loss": 3.4805,
      "step": 333510
    },
    {
      "epoch": 0.6948333333333333,
      "grad_norm": 0.8549253344535828,
      "learning_rate": 6.430663555409608e-05,
      "loss": 3.4021,
      "step": 333520
    },
    {
      "epoch": 0.6948541666666667,
      "grad_norm": 0.765728235244751,
      "learning_rate": 6.429854434147279e-05,
      "loss": 3.4289,
      "step": 333530
    },
    {
      "epoch": 0.694875,
      "grad_norm": 0.7683544158935547,
      "learning_rate": 6.429045349904586e-05,
      "loss": 3.6115,
      "step": 333540
    },
    {
      "epoch": 0.6948958333333334,
      "grad_norm": 0.8301935195922852,
      "learning_rate": 6.428236302685023e-05,
      "loss": 3.4926,
      "step": 333550
    },
    {
      "epoch": 0.6949166666666666,
      "grad_norm": 0.9879939556121826,
      "learning_rate": 6.427427292492088e-05,
      "loss": 3.45,
      "step": 333560
    },
    {
      "epoch": 0.6949375,
      "grad_norm": 0.8492512702941895,
      "learning_rate": 6.426618319329274e-05,
      "loss": 3.3963,
      "step": 333570
    },
    {
      "epoch": 0.6949583333333333,
      "grad_norm": 0.8046655654907227,
      "learning_rate": 6.42580938320008e-05,
      "loss": 3.3766,
      "step": 333580
    },
    {
      "epoch": 0.6949791666666667,
      "grad_norm": 0.9388291835784912,
      "learning_rate": 6.42500048410799e-05,
      "loss": 3.4188,
      "step": 333590
    },
    {
      "epoch": 0.695,
      "grad_norm": 0.7835512757301331,
      "learning_rate": 6.424191622056499e-05,
      "loss": 3.4917,
      "step": 333600
    },
    {
      "epoch": 0.6950208333333333,
      "grad_norm": 0.8981894850730896,
      "learning_rate": 6.423382797049117e-05,
      "loss": 3.4392,
      "step": 333610
    },
    {
      "epoch": 0.6950416666666667,
      "grad_norm": 0.8773606419563293,
      "learning_rate": 6.422574009089321e-05,
      "loss": 3.5025,
      "step": 333620
    },
    {
      "epoch": 0.6950625,
      "grad_norm": 0.8874156475067139,
      "learning_rate": 6.421765258180603e-05,
      "loss": 3.5735,
      "step": 333630
    },
    {
      "epoch": 0.6950833333333334,
      "grad_norm": 0.8325121402740479,
      "learning_rate": 6.420956544326476e-05,
      "loss": 3.4985,
      "step": 333640
    },
    {
      "epoch": 0.6951041666666666,
      "grad_norm": 0.7842110991477966,
      "learning_rate": 6.420147867530414e-05,
      "loss": 3.4351,
      "step": 333650
    },
    {
      "epoch": 0.695125,
      "grad_norm": 0.8741390109062195,
      "learning_rate": 6.419339227795913e-05,
      "loss": 3.3896,
      "step": 333660
    },
    {
      "epoch": 0.6951458333333334,
      "grad_norm": 0.8999106287956238,
      "learning_rate": 6.41853062512648e-05,
      "loss": 3.5919,
      "step": 333670
    },
    {
      "epoch": 0.6951666666666667,
      "grad_norm": 0.9061487317085266,
      "learning_rate": 6.417722059525593e-05,
      "loss": 3.5948,
      "step": 333680
    },
    {
      "epoch": 0.6951875,
      "grad_norm": 0.8647288680076599,
      "learning_rate": 6.416913530996743e-05,
      "loss": 3.5314,
      "step": 333690
    },
    {
      "epoch": 0.6952083333333333,
      "grad_norm": 0.8355697393417358,
      "learning_rate": 6.41610503954344e-05,
      "loss": 3.595,
      "step": 333700
    },
    {
      "epoch": 0.6952291666666667,
      "grad_norm": 0.8035681843757629,
      "learning_rate": 6.415296585169163e-05,
      "loss": 3.5582,
      "step": 333710
    },
    {
      "epoch": 0.69525,
      "grad_norm": 0.9745911955833435,
      "learning_rate": 6.414488167877404e-05,
      "loss": 3.5383,
      "step": 333720
    },
    {
      "epoch": 0.6952708333333333,
      "grad_norm": 0.9337524771690369,
      "learning_rate": 6.413679787671658e-05,
      "loss": 3.5437,
      "step": 333730
    },
    {
      "epoch": 0.6952916666666666,
      "grad_norm": 0.9484795928001404,
      "learning_rate": 6.412871444555418e-05,
      "loss": 3.5874,
      "step": 333740
    },
    {
      "epoch": 0.6953125,
      "grad_norm": 0.8400876522064209,
      "learning_rate": 6.412063138532174e-05,
      "loss": 3.5516,
      "step": 333750
    },
    {
      "epoch": 0.6953333333333334,
      "grad_norm": 0.8527778387069702,
      "learning_rate": 6.411254869605417e-05,
      "loss": 3.5425,
      "step": 333760
    },
    {
      "epoch": 0.6953541666666667,
      "grad_norm": 0.8558814525604248,
      "learning_rate": 6.41044663777864e-05,
      "loss": 3.4512,
      "step": 333770
    },
    {
      "epoch": 0.695375,
      "grad_norm": 0.8270267248153687,
      "learning_rate": 6.409638443055333e-05,
      "loss": 3.3599,
      "step": 333780
    },
    {
      "epoch": 0.6953958333333333,
      "grad_norm": 0.8325045108795166,
      "learning_rate": 6.408830285438987e-05,
      "loss": 3.3592,
      "step": 333790
    },
    {
      "epoch": 0.6954166666666667,
      "grad_norm": 0.8143476247787476,
      "learning_rate": 6.408022164933094e-05,
      "loss": 3.5307,
      "step": 333800
    },
    {
      "epoch": 0.6954375,
      "grad_norm": 0.8501771092414856,
      "learning_rate": 6.407214081541145e-05,
      "loss": 3.4374,
      "step": 333810
    },
    {
      "epoch": 0.6954583333333333,
      "grad_norm": 0.8633105158805847,
      "learning_rate": 6.40640603526663e-05,
      "loss": 3.669,
      "step": 333820
    },
    {
      "epoch": 0.6954791666666666,
      "grad_norm": 1.0631824731826782,
      "learning_rate": 6.405598026113039e-05,
      "loss": 3.4268,
      "step": 333830
    },
    {
      "epoch": 0.6955,
      "grad_norm": 0.8724296689033508,
      "learning_rate": 6.404790054083861e-05,
      "loss": 3.3512,
      "step": 333840
    },
    {
      "epoch": 0.6955208333333334,
      "grad_norm": 0.8770983219146729,
      "learning_rate": 6.40398211918259e-05,
      "loss": 3.5969,
      "step": 333850
    },
    {
      "epoch": 0.6955416666666666,
      "grad_norm": 0.8178055286407471,
      "learning_rate": 6.403174221412714e-05,
      "loss": 3.3998,
      "step": 333860
    },
    {
      "epoch": 0.6955625,
      "grad_norm": 1.0157662630081177,
      "learning_rate": 6.402366360777726e-05,
      "loss": 3.5269,
      "step": 333870
    },
    {
      "epoch": 0.6955833333333333,
      "grad_norm": 0.8378278017044067,
      "learning_rate": 6.401558537281102e-05,
      "loss": 3.4116,
      "step": 333880
    },
    {
      "epoch": 0.6956041666666667,
      "grad_norm": 0.8321770429611206,
      "learning_rate": 6.400750750926347e-05,
      "loss": 3.4121,
      "step": 333890
    },
    {
      "epoch": 0.695625,
      "grad_norm": 0.7912702560424805,
      "learning_rate": 6.39994300171695e-05,
      "loss": 3.4045,
      "step": 333900
    },
    {
      "epoch": 0.6956458333333333,
      "grad_norm": 0.8336420059204102,
      "learning_rate": 6.399135289656385e-05,
      "loss": 3.3799,
      "step": 333910
    },
    {
      "epoch": 0.6956666666666667,
      "grad_norm": 1.1579005718231201,
      "learning_rate": 6.398327614748158e-05,
      "loss": 3.5014,
      "step": 333920
    },
    {
      "epoch": 0.6956875,
      "grad_norm": 1.0257521867752075,
      "learning_rate": 6.397519976995753e-05,
      "loss": 3.5221,
      "step": 333930
    },
    {
      "epoch": 0.6957083333333334,
      "grad_norm": 0.7517980933189392,
      "learning_rate": 6.396712376402649e-05,
      "loss": 3.4334,
      "step": 333940
    },
    {
      "epoch": 0.6957291666666666,
      "grad_norm": 0.8941589593887329,
      "learning_rate": 6.395904812972352e-05,
      "loss": 3.4789,
      "step": 333950
    },
    {
      "epoch": 0.69575,
      "grad_norm": 0.800095796585083,
      "learning_rate": 6.395097286708334e-05,
      "loss": 3.3476,
      "step": 333960
    },
    {
      "epoch": 0.6957708333333333,
      "grad_norm": 0.8347579836845398,
      "learning_rate": 6.394289797614084e-05,
      "loss": 3.4079,
      "step": 333970
    },
    {
      "epoch": 0.6957916666666667,
      "grad_norm": 0.9273998141288757,
      "learning_rate": 6.393482345693106e-05,
      "loss": 3.5848,
      "step": 333980
    },
    {
      "epoch": 0.6958125,
      "grad_norm": 0.91072016954422,
      "learning_rate": 6.392674930948875e-05,
      "loss": 3.4138,
      "step": 333990
    },
    {
      "epoch": 0.6958333333333333,
      "grad_norm": 0.8586496114730835,
      "learning_rate": 6.391867553384874e-05,
      "loss": 3.3154,
      "step": 334000
    },
    {
      "epoch": 0.6958333333333333,
      "eval_loss": 4.05673360824585,
      "eval_runtime": 9.1376,
      "eval_samples_per_second": 1.094,
      "eval_steps_per_second": 0.328,
      "step": 334000
    },
    {
      "epoch": 0.6958541666666667,
      "grad_norm": 0.9742476344108582,
      "learning_rate": 6.391060213004609e-05,
      "loss": 3.605,
      "step": 334010
    },
    {
      "epoch": 0.695875,
      "grad_norm": 0.8752130270004272,
      "learning_rate": 6.39025290981155e-05,
      "loss": 3.2675,
      "step": 334020
    },
    {
      "epoch": 0.6958958333333334,
      "grad_norm": 0.9845178723335266,
      "learning_rate": 6.389445643809187e-05,
      "loss": 3.5516,
      "step": 334030
    },
    {
      "epoch": 0.6959166666666666,
      "grad_norm": 0.9222691655158997,
      "learning_rate": 6.38863841500102e-05,
      "loss": 3.4532,
      "step": 334040
    },
    {
      "epoch": 0.6959375,
      "grad_norm": 0.8507354855537415,
      "learning_rate": 6.387831223390521e-05,
      "loss": 3.5751,
      "step": 334050
    },
    {
      "epoch": 0.6959583333333333,
      "grad_norm": 0.8456286191940308,
      "learning_rate": 6.387024068981177e-05,
      "loss": 3.3211,
      "step": 334060
    },
    {
      "epoch": 0.6959791666666667,
      "grad_norm": 0.841856062412262,
      "learning_rate": 6.386216951776489e-05,
      "loss": 3.5175,
      "step": 334070
    },
    {
      "epoch": 0.696,
      "grad_norm": 0.821605384349823,
      "learning_rate": 6.385409871779932e-05,
      "loss": 3.5988,
      "step": 334080
    },
    {
      "epoch": 0.6960208333333333,
      "grad_norm": 0.9560790657997131,
      "learning_rate": 6.384602828994993e-05,
      "loss": 3.4526,
      "step": 334090
    },
    {
      "epoch": 0.6960416666666667,
      "grad_norm": 1.01203453540802,
      "learning_rate": 6.383795823425158e-05,
      "loss": 3.5168,
      "step": 334100
    },
    {
      "epoch": 0.6960625,
      "grad_norm": 0.9931195378303528,
      "learning_rate": 6.382988855073916e-05,
      "loss": 3.6023,
      "step": 334110
    },
    {
      "epoch": 0.6960833333333334,
      "grad_norm": 0.8674546480178833,
      "learning_rate": 6.382181923944752e-05,
      "loss": 3.5748,
      "step": 334120
    },
    {
      "epoch": 0.6961041666666666,
      "grad_norm": 0.8697928190231323,
      "learning_rate": 6.38137503004115e-05,
      "loss": 3.48,
      "step": 334130
    },
    {
      "epoch": 0.696125,
      "grad_norm": 0.8001111745834351,
      "learning_rate": 6.380568173366597e-05,
      "loss": 3.4014,
      "step": 334140
    },
    {
      "epoch": 0.6961458333333334,
      "grad_norm": 0.8358011841773987,
      "learning_rate": 6.379761353924576e-05,
      "loss": 3.4717,
      "step": 334150
    },
    {
      "epoch": 0.6961666666666667,
      "grad_norm": 0.8611765503883362,
      "learning_rate": 6.378954571718575e-05,
      "loss": 3.6137,
      "step": 334160
    },
    {
      "epoch": 0.6961875,
      "grad_norm": 0.8376562595367432,
      "learning_rate": 6.378147826752078e-05,
      "loss": 3.3354,
      "step": 334170
    },
    {
      "epoch": 0.6962083333333333,
      "grad_norm": 0.9195540547370911,
      "learning_rate": 6.377341119028569e-05,
      "loss": 3.3302,
      "step": 334180
    },
    {
      "epoch": 0.6962291666666667,
      "grad_norm": 0.7583932280540466,
      "learning_rate": 6.376534448551535e-05,
      "loss": 3.5359,
      "step": 334190
    },
    {
      "epoch": 0.69625,
      "grad_norm": 1.0263662338256836,
      "learning_rate": 6.375727815324457e-05,
      "loss": 3.4912,
      "step": 334200
    },
    {
      "epoch": 0.6962708333333333,
      "grad_norm": 0.8007851839065552,
      "learning_rate": 6.374921219350826e-05,
      "loss": 3.3824,
      "step": 334210
    },
    {
      "epoch": 0.6962916666666666,
      "grad_norm": 0.8540634512901306,
      "learning_rate": 6.374114660634112e-05,
      "loss": 3.4365,
      "step": 334220
    },
    {
      "epoch": 0.6963125,
      "grad_norm": 0.941447377204895,
      "learning_rate": 6.373308139177812e-05,
      "loss": 3.5742,
      "step": 334230
    },
    {
      "epoch": 0.6963333333333334,
      "grad_norm": 0.9854093790054321,
      "learning_rate": 6.372501654985414e-05,
      "loss": 3.4808,
      "step": 334240
    },
    {
      "epoch": 0.6963541666666667,
      "grad_norm": 0.9086600542068481,
      "learning_rate": 6.371695208060382e-05,
      "loss": 3.555,
      "step": 334250
    },
    {
      "epoch": 0.696375,
      "grad_norm": 0.8577666282653809,
      "learning_rate": 6.370888798406216e-05,
      "loss": 3.421,
      "step": 334260
    },
    {
      "epoch": 0.6963958333333333,
      "grad_norm": 2.0200939178466797,
      "learning_rate": 6.3700824260264e-05,
      "loss": 3.3759,
      "step": 334270
    },
    {
      "epoch": 0.6964166666666667,
      "grad_norm": 0.8284566402435303,
      "learning_rate": 6.369276090924402e-05,
      "loss": 3.4199,
      "step": 334280
    },
    {
      "epoch": 0.6964375,
      "grad_norm": 0.8629953861236572,
      "learning_rate": 6.36846979310372e-05,
      "loss": 3.4162,
      "step": 334290
    },
    {
      "epoch": 0.6964583333333333,
      "grad_norm": 0.7903560996055603,
      "learning_rate": 6.367663532567838e-05,
      "loss": 3.4778,
      "step": 334300
    },
    {
      "epoch": 0.6964791666666666,
      "grad_norm": 0.9284656643867493,
      "learning_rate": 6.366857309320222e-05,
      "loss": 3.4999,
      "step": 334310
    },
    {
      "epoch": 0.6965,
      "grad_norm": 0.8167059421539307,
      "learning_rate": 6.36605112336437e-05,
      "loss": 3.385,
      "step": 334320
    },
    {
      "epoch": 0.6965208333333334,
      "grad_norm": 0.9398456811904907,
      "learning_rate": 6.365244974703766e-05,
      "loss": 3.5142,
      "step": 334330
    },
    {
      "epoch": 0.6965416666666666,
      "grad_norm": 1.1011037826538086,
      "learning_rate": 6.364438863341872e-05,
      "loss": 3.4699,
      "step": 334340
    },
    {
      "epoch": 0.6965625,
      "grad_norm": 0.8803823590278625,
      "learning_rate": 6.363632789282197e-05,
      "loss": 3.5986,
      "step": 334350
    },
    {
      "epoch": 0.6965833333333333,
      "grad_norm": 0.8485438227653503,
      "learning_rate": 6.362826752528205e-05,
      "loss": 3.3183,
      "step": 334360
    },
    {
      "epoch": 0.6966041666666667,
      "grad_norm": 0.8825323581695557,
      "learning_rate": 6.362020753083375e-05,
      "loss": 3.429,
      "step": 334370
    },
    {
      "epoch": 0.696625,
      "grad_norm": 0.9545240998268127,
      "learning_rate": 6.361214790951209e-05,
      "loss": 3.3542,
      "step": 334380
    },
    {
      "epoch": 0.6966458333333333,
      "grad_norm": 0.8240167498588562,
      "learning_rate": 6.360408866135171e-05,
      "loss": 3.3144,
      "step": 334390
    },
    {
      "epoch": 0.6966666666666667,
      "grad_norm": 1.339735746383667,
      "learning_rate": 6.359602978638738e-05,
      "loss": 3.421,
      "step": 334400
    },
    {
      "epoch": 0.6966875,
      "grad_norm": 0.7710349559783936,
      "learning_rate": 6.358797128465413e-05,
      "loss": 3.3688,
      "step": 334410
    },
    {
      "epoch": 0.6967083333333334,
      "grad_norm": 1.0464924573898315,
      "learning_rate": 6.35799131561866e-05,
      "loss": 3.4179,
      "step": 334420
    },
    {
      "epoch": 0.6967291666666666,
      "grad_norm": 0.7780897617340088,
      "learning_rate": 6.357185540101957e-05,
      "loss": 3.4666,
      "step": 334430
    },
    {
      "epoch": 0.69675,
      "grad_norm": 0.8204464316368103,
      "learning_rate": 6.3563798019188e-05,
      "loss": 3.6189,
      "step": 334440
    },
    {
      "epoch": 0.6967708333333333,
      "grad_norm": 0.7872799038887024,
      "learning_rate": 6.355574101072659e-05,
      "loss": 3.4945,
      "step": 334450
    },
    {
      "epoch": 0.6967916666666667,
      "grad_norm": 0.8351442813873291,
      "learning_rate": 6.354768437567014e-05,
      "loss": 3.3584,
      "step": 334460
    },
    {
      "epoch": 0.6968125,
      "grad_norm": 0.9560872316360474,
      "learning_rate": 6.353962811405349e-05,
      "loss": 3.5057,
      "step": 334470
    },
    {
      "epoch": 0.6968333333333333,
      "grad_norm": 0.8249995112419128,
      "learning_rate": 6.35315722259114e-05,
      "loss": 3.3556,
      "step": 334480
    },
    {
      "epoch": 0.6968541666666667,
      "grad_norm": 0.8769094347953796,
      "learning_rate": 6.352351671127871e-05,
      "loss": 3.5035,
      "step": 334490
    },
    {
      "epoch": 0.696875,
      "grad_norm": 0.9010746479034424,
      "learning_rate": 6.35154615701902e-05,
      "loss": 3.4161,
      "step": 334500
    },
    {
      "epoch": 0.6968958333333334,
      "grad_norm": 0.8565823435783386,
      "learning_rate": 6.350740680268065e-05,
      "loss": 3.4271,
      "step": 334510
    },
    {
      "epoch": 0.6969166666666666,
      "grad_norm": 0.7988654375076294,
      "learning_rate": 6.349935240878488e-05,
      "loss": 3.4537,
      "step": 334520
    },
    {
      "epoch": 0.6969375,
      "grad_norm": 0.8024328351020813,
      "learning_rate": 6.349129838853767e-05,
      "loss": 3.2967,
      "step": 334530
    },
    {
      "epoch": 0.6969583333333333,
      "grad_norm": 0.7714657783508301,
      "learning_rate": 6.348324474197379e-05,
      "loss": 3.3801,
      "step": 334540
    },
    {
      "epoch": 0.6969791666666667,
      "grad_norm": 0.8578513264656067,
      "learning_rate": 6.347519146912805e-05,
      "loss": 3.4273,
      "step": 334550
    },
    {
      "epoch": 0.697,
      "grad_norm": 0.8220441937446594,
      "learning_rate": 6.346713857003524e-05,
      "loss": 3.4951,
      "step": 334560
    },
    {
      "epoch": 0.6970208333333333,
      "grad_norm": 0.8565355539321899,
      "learning_rate": 6.345908604473013e-05,
      "loss": 3.4193,
      "step": 334570
    },
    {
      "epoch": 0.6970416666666667,
      "grad_norm": 1.0631248950958252,
      "learning_rate": 6.345103389324758e-05,
      "loss": 3.5409,
      "step": 334580
    },
    {
      "epoch": 0.6970625,
      "grad_norm": 0.8353956937789917,
      "learning_rate": 6.34429821156222e-05,
      "loss": 3.5333,
      "step": 334590
    },
    {
      "epoch": 0.6970833333333334,
      "grad_norm": 0.8570998311042786,
      "learning_rate": 6.343493071188892e-05,
      "loss": 3.3344,
      "step": 334600
    },
    {
      "epoch": 0.6971041666666666,
      "grad_norm": 0.7956355810165405,
      "learning_rate": 6.342687968208253e-05,
      "loss": 3.3707,
      "step": 334610
    },
    {
      "epoch": 0.697125,
      "grad_norm": 1.0187703371047974,
      "learning_rate": 6.341882902623765e-05,
      "loss": 3.4324,
      "step": 334620
    },
    {
      "epoch": 0.6971458333333334,
      "grad_norm": 0.9083971977233887,
      "learning_rate": 6.341077874438921e-05,
      "loss": 3.4479,
      "step": 334630
    },
    {
      "epoch": 0.6971666666666667,
      "grad_norm": 1.1781469583511353,
      "learning_rate": 6.340272883657199e-05,
      "loss": 3.4069,
      "step": 334640
    },
    {
      "epoch": 0.6971875,
      "grad_norm": 0.8758754730224609,
      "learning_rate": 6.339467930282057e-05,
      "loss": 3.5665,
      "step": 334650
    },
    {
      "epoch": 0.6972083333333333,
      "grad_norm": 1.1085524559020996,
      "learning_rate": 6.338663014316994e-05,
      "loss": 3.4888,
      "step": 334660
    },
    {
      "epoch": 0.6972291666666667,
      "grad_norm": 0.9378694295883179,
      "learning_rate": 6.337858135765484e-05,
      "loss": 3.4226,
      "step": 334670
    },
    {
      "epoch": 0.69725,
      "grad_norm": 0.9257143139839172,
      "learning_rate": 6.337053294630984e-05,
      "loss": 3.4471,
      "step": 334680
    },
    {
      "epoch": 0.6972708333333333,
      "grad_norm": 1.2405441999435425,
      "learning_rate": 6.336248490916993e-05,
      "loss": 3.5957,
      "step": 334690
    },
    {
      "epoch": 0.6972916666666666,
      "grad_norm": 0.8922010660171509,
      "learning_rate": 6.335443724626983e-05,
      "loss": 3.4103,
      "step": 334700
    },
    {
      "epoch": 0.6973125,
      "grad_norm": 0.7717202305793762,
      "learning_rate": 6.334638995764416e-05,
      "loss": 3.3637,
      "step": 334710
    },
    {
      "epoch": 0.6973333333333334,
      "grad_norm": 0.7606797218322754,
      "learning_rate": 6.33383430433279e-05,
      "loss": 3.39,
      "step": 334720
    },
    {
      "epoch": 0.6973541666666667,
      "grad_norm": 0.8466870188713074,
      "learning_rate": 6.333029650335563e-05,
      "loss": 3.4125,
      "step": 334730
    },
    {
      "epoch": 0.697375,
      "grad_norm": 0.8443254232406616,
      "learning_rate": 6.332225033776213e-05,
      "loss": 3.442,
      "step": 334740
    },
    {
      "epoch": 0.6973958333333333,
      "grad_norm": 1.1197115182876587,
      "learning_rate": 6.331420454658229e-05,
      "loss": 3.5912,
      "step": 334750
    },
    {
      "epoch": 0.6974166666666667,
      "grad_norm": 0.8651899695396423,
      "learning_rate": 6.330615912985074e-05,
      "loss": 3.5358,
      "step": 334760
    },
    {
      "epoch": 0.6974375,
      "grad_norm": 0.927351713180542,
      "learning_rate": 6.329811408760226e-05,
      "loss": 3.3806,
      "step": 334770
    },
    {
      "epoch": 0.6974583333333333,
      "grad_norm": 0.9278323650360107,
      "learning_rate": 6.32900694198716e-05,
      "loss": 3.5577,
      "step": 334780
    },
    {
      "epoch": 0.6974791666666667,
      "grad_norm": 1.005474328994751,
      "learning_rate": 6.328202512669353e-05,
      "loss": 3.4219,
      "step": 334790
    },
    {
      "epoch": 0.6975,
      "grad_norm": 0.9524933695793152,
      "learning_rate": 6.327398120810278e-05,
      "loss": 3.4231,
      "step": 334800
    },
    {
      "epoch": 0.6975208333333334,
      "grad_norm": 0.8994466662406921,
      "learning_rate": 6.326593766413411e-05,
      "loss": 3.6304,
      "step": 334810
    },
    {
      "epoch": 0.6975416666666666,
      "grad_norm": 0.7870916724205017,
      "learning_rate": 6.325789449482224e-05,
      "loss": 3.5157,
      "step": 334820
    },
    {
      "epoch": 0.6975625,
      "grad_norm": 0.9455856680870056,
      "learning_rate": 6.324985170020195e-05,
      "loss": 3.4302,
      "step": 334830
    },
    {
      "epoch": 0.6975833333333333,
      "grad_norm": 0.8789302706718445,
      "learning_rate": 6.324180928030794e-05,
      "loss": 3.4827,
      "step": 334840
    },
    {
      "epoch": 0.6976041666666667,
      "grad_norm": 0.866185188293457,
      "learning_rate": 6.3233767235175e-05,
      "loss": 3.4683,
      "step": 334850
    },
    {
      "epoch": 0.697625,
      "grad_norm": 0.799068033695221,
      "learning_rate": 6.322572556483782e-05,
      "loss": 3.4036,
      "step": 334860
    },
    {
      "epoch": 0.6976458333333333,
      "grad_norm": 0.9419662952423096,
      "learning_rate": 6.321768426933117e-05,
      "loss": 3.4924,
      "step": 334870
    },
    {
      "epoch": 0.6976666666666667,
      "grad_norm": 0.8616139888763428,
      "learning_rate": 6.320964334868978e-05,
      "loss": 3.485,
      "step": 334880
    },
    {
      "epoch": 0.6976875,
      "grad_norm": 0.8901854753494263,
      "learning_rate": 6.320160280294837e-05,
      "loss": 3.4976,
      "step": 334890
    },
    {
      "epoch": 0.6977083333333334,
      "grad_norm": 0.8076139688491821,
      "learning_rate": 6.319356263214166e-05,
      "loss": 3.5103,
      "step": 334900
    },
    {
      "epoch": 0.6977291666666666,
      "grad_norm": 1.0939379930496216,
      "learning_rate": 6.318552283630441e-05,
      "loss": 3.3449,
      "step": 334910
    },
    {
      "epoch": 0.69775,
      "grad_norm": 0.9264494180679321,
      "learning_rate": 6.317748341547134e-05,
      "loss": 3.3886,
      "step": 334920
    },
    {
      "epoch": 0.6977708333333333,
      "grad_norm": 0.8856561779975891,
      "learning_rate": 6.316944436967718e-05,
      "loss": 3.5034,
      "step": 334930
    },
    {
      "epoch": 0.6977916666666667,
      "grad_norm": 0.8291609883308411,
      "learning_rate": 6.316140569895665e-05,
      "loss": 3.4548,
      "step": 334940
    },
    {
      "epoch": 0.6978125,
      "grad_norm": 0.8837366104125977,
      "learning_rate": 6.315336740334452e-05,
      "loss": 3.3661,
      "step": 334950
    },
    {
      "epoch": 0.6978333333333333,
      "grad_norm": 0.9317930340766907,
      "learning_rate": 6.314532948287537e-05,
      "loss": 3.5454,
      "step": 334960
    },
    {
      "epoch": 0.6978541666666667,
      "grad_norm": 0.8101788759231567,
      "learning_rate": 6.313729193758405e-05,
      "loss": 3.3625,
      "step": 334970
    },
    {
      "epoch": 0.697875,
      "grad_norm": 0.9155588746070862,
      "learning_rate": 6.312925476750532e-05,
      "loss": 3.5337,
      "step": 334980
    },
    {
      "epoch": 0.6978958333333334,
      "grad_norm": 0.8707346320152283,
      "learning_rate": 6.312121797267372e-05,
      "loss": 3.5578,
      "step": 334990
    },
    {
      "epoch": 0.6979166666666666,
      "grad_norm": 0.7920873761177063,
      "learning_rate": 6.311318155312411e-05,
      "loss": 3.4765,
      "step": 335000
    },
    {
      "epoch": 0.6979166666666666,
      "eval_loss": 4.054221153259277,
      "eval_runtime": 9.1685,
      "eval_samples_per_second": 1.091,
      "eval_steps_per_second": 0.327,
      "step": 335000
    },
    {
      "epoch": 0.6979375,
      "grad_norm": 0.8580812811851501,
      "learning_rate": 6.310514550889123e-05,
      "loss": 3.5625,
      "step": 335010
    },
    {
      "epoch": 0.6979583333333333,
      "grad_norm": 0.84763503074646,
      "learning_rate": 6.30971098400096e-05,
      "loss": 3.4388,
      "step": 335020
    },
    {
      "epoch": 0.6979791666666667,
      "grad_norm": 0.9399362206459045,
      "learning_rate": 6.308907454651414e-05,
      "loss": 3.4874,
      "step": 335030
    },
    {
      "epoch": 0.698,
      "grad_norm": 0.936379611492157,
      "learning_rate": 6.30810396284395e-05,
      "loss": 3.4764,
      "step": 335040
    },
    {
      "epoch": 0.6980208333333333,
      "grad_norm": 0.8291037082672119,
      "learning_rate": 6.307300508582031e-05,
      "loss": 3.5042,
      "step": 335050
    },
    {
      "epoch": 0.6980416666666667,
      "grad_norm": 0.8600232005119324,
      "learning_rate": 6.306497091869129e-05,
      "loss": 3.3818,
      "step": 335060
    },
    {
      "epoch": 0.6980625,
      "grad_norm": 0.9384109973907471,
      "learning_rate": 6.305693712708728e-05,
      "loss": 3.4608,
      "step": 335070
    },
    {
      "epoch": 0.6980833333333333,
      "grad_norm": 0.8227931261062622,
      "learning_rate": 6.304890371104284e-05,
      "loss": 3.5001,
      "step": 335080
    },
    {
      "epoch": 0.6981041666666666,
      "grad_norm": 0.893763542175293,
      "learning_rate": 6.304087067059273e-05,
      "loss": 3.3591,
      "step": 335090
    },
    {
      "epoch": 0.698125,
      "grad_norm": 0.9049655795097351,
      "learning_rate": 6.303283800577163e-05,
      "loss": 3.3353,
      "step": 335100
    },
    {
      "epoch": 0.6981458333333334,
      "grad_norm": 1.0477330684661865,
      "learning_rate": 6.302480571661423e-05,
      "loss": 3.2845,
      "step": 335110
    },
    {
      "epoch": 0.6981666666666667,
      "grad_norm": 0.8141335844993591,
      "learning_rate": 6.301677380315527e-05,
      "loss": 3.4054,
      "step": 335120
    },
    {
      "epoch": 0.6981875,
      "grad_norm": 0.7839260101318359,
      "learning_rate": 6.300874226542941e-05,
      "loss": 3.3572,
      "step": 335130
    },
    {
      "epoch": 0.6982083333333333,
      "grad_norm": 0.7915927767753601,
      "learning_rate": 6.300071110347134e-05,
      "loss": 3.3329,
      "step": 335140
    },
    {
      "epoch": 0.6982291666666667,
      "grad_norm": 0.9276919364929199,
      "learning_rate": 6.299268031731577e-05,
      "loss": 3.4502,
      "step": 335150
    },
    {
      "epoch": 0.69825,
      "grad_norm": 0.8214908242225647,
      "learning_rate": 6.298464990699736e-05,
      "loss": 3.6039,
      "step": 335160
    },
    {
      "epoch": 0.6982708333333333,
      "grad_norm": 0.7825819253921509,
      "learning_rate": 6.297661987255083e-05,
      "loss": 3.4453,
      "step": 335170
    },
    {
      "epoch": 0.6982916666666666,
      "grad_norm": 1.1640459299087524,
      "learning_rate": 6.296859021401087e-05,
      "loss": 3.4201,
      "step": 335180
    },
    {
      "epoch": 0.6983125,
      "grad_norm": 0.8813963532447815,
      "learning_rate": 6.296056093141214e-05,
      "loss": 3.5093,
      "step": 335190
    },
    {
      "epoch": 0.6983333333333334,
      "grad_norm": 0.8631175756454468,
      "learning_rate": 6.295253202478933e-05,
      "loss": 3.4701,
      "step": 335200
    },
    {
      "epoch": 0.6983541666666667,
      "grad_norm": 0.9062638282775879,
      "learning_rate": 6.294450349417714e-05,
      "loss": 3.3461,
      "step": 335210
    },
    {
      "epoch": 0.698375,
      "grad_norm": 0.8887348771095276,
      "learning_rate": 6.293647533961022e-05,
      "loss": 3.4343,
      "step": 335220
    },
    {
      "epoch": 0.6983958333333333,
      "grad_norm": 0.7595586776733398,
      "learning_rate": 6.292844756112327e-05,
      "loss": 3.3745,
      "step": 335230
    },
    {
      "epoch": 0.6984166666666667,
      "grad_norm": 0.7948799729347229,
      "learning_rate": 6.292042015875097e-05,
      "loss": 3.47,
      "step": 335240
    },
    {
      "epoch": 0.6984375,
      "grad_norm": 0.9035485982894897,
      "learning_rate": 6.291239313252797e-05,
      "loss": 3.5044,
      "step": 335250
    },
    {
      "epoch": 0.6984583333333333,
      "grad_norm": 0.9835978746414185,
      "learning_rate": 6.290436648248897e-05,
      "loss": 3.4651,
      "step": 335260
    },
    {
      "epoch": 0.6984791666666667,
      "grad_norm": 1.1403244733810425,
      "learning_rate": 6.289634020866864e-05,
      "loss": 3.4491,
      "step": 335270
    },
    {
      "epoch": 0.6985,
      "grad_norm": 0.7769750952720642,
      "learning_rate": 6.288831431110163e-05,
      "loss": 3.3929,
      "step": 335280
    },
    {
      "epoch": 0.6985208333333334,
      "grad_norm": 0.8372232913970947,
      "learning_rate": 6.288028878982262e-05,
      "loss": 3.4452,
      "step": 335290
    },
    {
      "epoch": 0.6985416666666666,
      "grad_norm": 0.7703366875648499,
      "learning_rate": 6.287226364486628e-05,
      "loss": 3.409,
      "step": 335300
    },
    {
      "epoch": 0.6985625,
      "grad_norm": 0.8376606702804565,
      "learning_rate": 6.286423887626729e-05,
      "loss": 3.309,
      "step": 335310
    },
    {
      "epoch": 0.6985833333333333,
      "grad_norm": 0.7977182269096375,
      "learning_rate": 6.285621448406034e-05,
      "loss": 3.4156,
      "step": 335320
    },
    {
      "epoch": 0.6986041666666667,
      "grad_norm": 0.8647717237472534,
      "learning_rate": 6.284819046827993e-05,
      "loss": 3.3137,
      "step": 335330
    },
    {
      "epoch": 0.698625,
      "grad_norm": 0.8342705368995667,
      "learning_rate": 6.28401668289609e-05,
      "loss": 3.4358,
      "step": 335340
    },
    {
      "epoch": 0.6986458333333333,
      "grad_norm": 0.8282232880592346,
      "learning_rate": 6.283214356613791e-05,
      "loss": 3.3991,
      "step": 335350
    },
    {
      "epoch": 0.6986666666666667,
      "grad_norm": 0.9476296305656433,
      "learning_rate": 6.282412067984549e-05,
      "loss": 3.538,
      "step": 335360
    },
    {
      "epoch": 0.6986875,
      "grad_norm": 0.9923256635665894,
      "learning_rate": 6.281609817011833e-05,
      "loss": 3.5523,
      "step": 335370
    },
    {
      "epoch": 0.6987083333333334,
      "grad_norm": 1.1372065544128418,
      "learning_rate": 6.280807603699121e-05,
      "loss": 3.4067,
      "step": 335380
    },
    {
      "epoch": 0.6987291666666666,
      "grad_norm": 1.157968282699585,
      "learning_rate": 6.280005428049863e-05,
      "loss": 3.4302,
      "step": 335390
    },
    {
      "epoch": 0.69875,
      "grad_norm": 0.8419666290283203,
      "learning_rate": 6.279203290067526e-05,
      "loss": 3.3286,
      "step": 335400
    },
    {
      "epoch": 0.6987708333333333,
      "grad_norm": 0.9709628820419312,
      "learning_rate": 6.278401189755587e-05,
      "loss": 3.2147,
      "step": 335410
    },
    {
      "epoch": 0.6987916666666667,
      "grad_norm": 0.8870879411697388,
      "learning_rate": 6.2775991271175e-05,
      "loss": 3.5417,
      "step": 335420
    },
    {
      "epoch": 0.6988125,
      "grad_norm": 0.9273593425750732,
      "learning_rate": 6.276797102156726e-05,
      "loss": 3.4612,
      "step": 335430
    },
    {
      "epoch": 0.6988333333333333,
      "grad_norm": 0.9171112179756165,
      "learning_rate": 6.275995114876745e-05,
      "loss": 3.4485,
      "step": 335440
    },
    {
      "epoch": 0.6988541666666667,
      "grad_norm": 0.9122097492218018,
      "learning_rate": 6.275193165281008e-05,
      "loss": 3.4966,
      "step": 335450
    },
    {
      "epoch": 0.698875,
      "grad_norm": 0.8579575419425964,
      "learning_rate": 6.274391253372983e-05,
      "loss": 3.4635,
      "step": 335460
    },
    {
      "epoch": 0.6988958333333334,
      "grad_norm": 0.855815052986145,
      "learning_rate": 6.273589379156134e-05,
      "loss": 3.3597,
      "step": 335470
    },
    {
      "epoch": 0.6989166666666666,
      "grad_norm": 1.0562750101089478,
      "learning_rate": 6.272787542633925e-05,
      "loss": 3.426,
      "step": 335480
    },
    {
      "epoch": 0.6989375,
      "grad_norm": 0.8912294507026672,
      "learning_rate": 6.271985743809818e-05,
      "loss": 3.4342,
      "step": 335490
    },
    {
      "epoch": 0.6989583333333333,
      "grad_norm": 0.9319794774055481,
      "learning_rate": 6.271183982687279e-05,
      "loss": 3.3594,
      "step": 335500
    },
    {
      "epoch": 0.6989791666666667,
      "grad_norm": 0.8684799671173096,
      "learning_rate": 6.270382259269769e-05,
      "loss": 3.4363,
      "step": 335510
    },
    {
      "epoch": 0.699,
      "grad_norm": 0.8998709321022034,
      "learning_rate": 6.269580573560752e-05,
      "loss": 3.3507,
      "step": 335520
    },
    {
      "epoch": 0.6990208333333333,
      "grad_norm": 0.9033677577972412,
      "learning_rate": 6.268778925563692e-05,
      "loss": 3.499,
      "step": 335530
    },
    {
      "epoch": 0.6990416666666667,
      "grad_norm": 0.8824630975723267,
      "learning_rate": 6.267977315282051e-05,
      "loss": 3.4546,
      "step": 335540
    },
    {
      "epoch": 0.6990625,
      "grad_norm": 0.8961940407752991,
      "learning_rate": 6.267175742719293e-05,
      "loss": 3.5462,
      "step": 335550
    },
    {
      "epoch": 0.6990833333333333,
      "grad_norm": 0.7546148300170898,
      "learning_rate": 6.266374207878878e-05,
      "loss": 3.4067,
      "step": 335560
    },
    {
      "epoch": 0.6991041666666666,
      "grad_norm": 0.8862921595573425,
      "learning_rate": 6.265572710764268e-05,
      "loss": 3.4995,
      "step": 335570
    },
    {
      "epoch": 0.699125,
      "grad_norm": 0.8285742998123169,
      "learning_rate": 6.264771251378927e-05,
      "loss": 3.2653,
      "step": 335580
    },
    {
      "epoch": 0.6991458333333334,
      "grad_norm": 0.8471869826316833,
      "learning_rate": 6.263969829726317e-05,
      "loss": 3.58,
      "step": 335590
    },
    {
      "epoch": 0.6991666666666667,
      "grad_norm": 0.7605047225952148,
      "learning_rate": 6.2631684458099e-05,
      "loss": 3.503,
      "step": 335600
    },
    {
      "epoch": 0.6991875,
      "grad_norm": 0.8669975996017456,
      "learning_rate": 6.262367099633137e-05,
      "loss": 3.3712,
      "step": 335610
    },
    {
      "epoch": 0.6992083333333333,
      "grad_norm": 0.8893002867698669,
      "learning_rate": 6.26156579119949e-05,
      "loss": 3.4799,
      "step": 335620
    },
    {
      "epoch": 0.6992291666666667,
      "grad_norm": 0.7869681715965271,
      "learning_rate": 6.260764520512418e-05,
      "loss": 3.4888,
      "step": 335630
    },
    {
      "epoch": 0.69925,
      "grad_norm": 0.880924642086029,
      "learning_rate": 6.259963287575391e-05,
      "loss": 3.2913,
      "step": 335640
    },
    {
      "epoch": 0.6992708333333333,
      "grad_norm": 0.8488840460777283,
      "learning_rate": 6.259162092391852e-05,
      "loss": 3.4978,
      "step": 335650
    },
    {
      "epoch": 0.6992916666666666,
      "grad_norm": 1.2712215185165405,
      "learning_rate": 6.258360934965277e-05,
      "loss": 3.545,
      "step": 335660
    },
    {
      "epoch": 0.6993125,
      "grad_norm": 0.897445559501648,
      "learning_rate": 6.25755981529913e-05,
      "loss": 3.5026,
      "step": 335670
    },
    {
      "epoch": 0.6993333333333334,
      "grad_norm": 0.8333706855773926,
      "learning_rate": 6.256758733396853e-05,
      "loss": 3.3943,
      "step": 335680
    },
    {
      "epoch": 0.6993541666666667,
      "grad_norm": 0.788487434387207,
      "learning_rate": 6.25595768926192e-05,
      "loss": 3.4068,
      "step": 335690
    },
    {
      "epoch": 0.699375,
      "grad_norm": 0.774113655090332,
      "learning_rate": 6.255156682897798e-05,
      "loss": 3.4414,
      "step": 335700
    },
    {
      "epoch": 0.6993958333333333,
      "grad_norm": 0.873349666595459,
      "learning_rate": 6.254355714307924e-05,
      "loss": 3.6324,
      "step": 335710
    },
    {
      "epoch": 0.6994166666666667,
      "grad_norm": 0.9432411789894104,
      "learning_rate": 6.253554783495783e-05,
      "loss": 3.359,
      "step": 335720
    },
    {
      "epoch": 0.6994375,
      "grad_norm": 0.8015851974487305,
      "learning_rate": 6.25275389046482e-05,
      "loss": 3.4078,
      "step": 335730
    },
    {
      "epoch": 0.6994583333333333,
      "grad_norm": 0.9276381134986877,
      "learning_rate": 6.25195303521849e-05,
      "loss": 3.3211,
      "step": 335740
    },
    {
      "epoch": 0.6994791666666667,
      "grad_norm": 0.7893801331520081,
      "learning_rate": 6.251152217760272e-05,
      "loss": 3.5356,
      "step": 335750
    },
    {
      "epoch": 0.6995,
      "grad_norm": 0.8140976428985596,
      "learning_rate": 6.250351438093607e-05,
      "loss": 3.2776,
      "step": 335760
    },
    {
      "epoch": 0.6995208333333334,
      "grad_norm": 0.8522443175315857,
      "learning_rate": 6.249550696221956e-05,
      "loss": 3.545,
      "step": 335770
    },
    {
      "epoch": 0.6995416666666666,
      "grad_norm": 0.7973926663398743,
      "learning_rate": 6.248749992148793e-05,
      "loss": 3.5454,
      "step": 335780
    },
    {
      "epoch": 0.6995625,
      "grad_norm": 0.8496174216270447,
      "learning_rate": 6.247949325877559e-05,
      "loss": 3.3333,
      "step": 335790
    },
    {
      "epoch": 0.6995833333333333,
      "grad_norm": 0.8597936630249023,
      "learning_rate": 6.247148697411716e-05,
      "loss": 3.4077,
      "step": 335800
    },
    {
      "epoch": 0.6996041666666667,
      "grad_norm": 0.8485037684440613,
      "learning_rate": 6.246348106754737e-05,
      "loss": 3.4535,
      "step": 335810
    },
    {
      "epoch": 0.699625,
      "grad_norm": 0.8121079802513123,
      "learning_rate": 6.245547553910062e-05,
      "loss": 3.4278,
      "step": 335820
    },
    {
      "epoch": 0.6996458333333333,
      "grad_norm": 1.0386736392974854,
      "learning_rate": 6.244747038881153e-05,
      "loss": 3.3589,
      "step": 335830
    },
    {
      "epoch": 0.6996666666666667,
      "grad_norm": 0.8858559131622314,
      "learning_rate": 6.243946561671482e-05,
      "loss": 3.4518,
      "step": 335840
    },
    {
      "epoch": 0.6996875,
      "grad_norm": 0.8819316625595093,
      "learning_rate": 6.243146122284491e-05,
      "loss": 3.47,
      "step": 335850
    },
    {
      "epoch": 0.6997083333333334,
      "grad_norm": 0.9075502157211304,
      "learning_rate": 6.242345720723641e-05,
      "loss": 3.3425,
      "step": 335860
    },
    {
      "epoch": 0.6997291666666666,
      "grad_norm": 0.822390079498291,
      "learning_rate": 6.24154535699239e-05,
      "loss": 3.3521,
      "step": 335870
    },
    {
      "epoch": 0.69975,
      "grad_norm": 0.8118730187416077,
      "learning_rate": 6.240745031094198e-05,
      "loss": 3.5375,
      "step": 335880
    },
    {
      "epoch": 0.6997708333333333,
      "grad_norm": 0.8803977370262146,
      "learning_rate": 6.23994474303252e-05,
      "loss": 3.3828,
      "step": 335890
    },
    {
      "epoch": 0.6997916666666667,
      "grad_norm": 0.8293871879577637,
      "learning_rate": 6.239144492810813e-05,
      "loss": 3.365,
      "step": 335900
    },
    {
      "epoch": 0.6998125,
      "grad_norm": 0.7560973763465881,
      "learning_rate": 6.238344280432534e-05,
      "loss": 3.3988,
      "step": 335910
    },
    {
      "epoch": 0.6998333333333333,
      "grad_norm": 0.8250269889831543,
      "learning_rate": 6.23754410590114e-05,
      "loss": 3.4313,
      "step": 335920
    },
    {
      "epoch": 0.6998541666666667,
      "grad_norm": 0.9096886515617371,
      "learning_rate": 6.236743969220087e-05,
      "loss": 3.4361,
      "step": 335930
    },
    {
      "epoch": 0.699875,
      "grad_norm": 0.727250337600708,
      "learning_rate": 6.23594387039283e-05,
      "loss": 3.367,
      "step": 335940
    },
    {
      "epoch": 0.6998958333333334,
      "grad_norm": 0.9313908815383911,
      "learning_rate": 6.235143809422833e-05,
      "loss": 3.3764,
      "step": 335950
    },
    {
      "epoch": 0.6999166666666666,
      "grad_norm": 0.8329179286956787,
      "learning_rate": 6.234343786313534e-05,
      "loss": 3.3756,
      "step": 335960
    },
    {
      "epoch": 0.6999375,
      "grad_norm": 0.8807471990585327,
      "learning_rate": 6.233543801068406e-05,
      "loss": 3.5838,
      "step": 335970
    },
    {
      "epoch": 0.6999583333333333,
      "grad_norm": 0.8855182528495789,
      "learning_rate": 6.232743853690904e-05,
      "loss": 3.4866,
      "step": 335980
    },
    {
      "epoch": 0.6999791666666667,
      "grad_norm": 0.8118071556091309,
      "learning_rate": 6.231943944184469e-05,
      "loss": 3.4002,
      "step": 335990
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8292864561080933,
      "learning_rate": 6.231144072552569e-05,
      "loss": 3.6147,
      "step": 336000
    },
    {
      "epoch": 0.7,
      "eval_loss": 4.043169021606445,
      "eval_runtime": 9.1557,
      "eval_samples_per_second": 1.092,
      "eval_steps_per_second": 0.328,
      "step": 336000
    },
    {
      "epoch": 0.7000208333333333,
      "grad_norm": 1.0341991186141968,
      "learning_rate": 6.230344238798663e-05,
      "loss": 3.4,
      "step": 336010
    },
    {
      "epoch": 0.7000416666666667,
      "grad_norm": 0.7853132486343384,
      "learning_rate": 6.229544442926185e-05,
      "loss": 3.5353,
      "step": 336020
    },
    {
      "epoch": 0.7000625,
      "grad_norm": 0.8043732643127441,
      "learning_rate": 6.22874468493861e-05,
      "loss": 3.3908,
      "step": 336030
    },
    {
      "epoch": 0.7000833333333333,
      "grad_norm": 0.8100771903991699,
      "learning_rate": 6.227944964839392e-05,
      "loss": 3.3517,
      "step": 336040
    },
    {
      "epoch": 0.7001041666666666,
      "grad_norm": 0.8578395843505859,
      "learning_rate": 6.227145282631968e-05,
      "loss": 3.5299,
      "step": 336050
    },
    {
      "epoch": 0.700125,
      "grad_norm": 0.830642819404602,
      "learning_rate": 6.22634563831981e-05,
      "loss": 3.5475,
      "step": 336060
    },
    {
      "epoch": 0.7001458333333334,
      "grad_norm": 0.8334818482398987,
      "learning_rate": 6.225546031906372e-05,
      "loss": 3.3619,
      "step": 336070
    },
    {
      "epoch": 0.7001666666666667,
      "grad_norm": 0.8781718015670776,
      "learning_rate": 6.224746463395089e-05,
      "loss": 3.4059,
      "step": 336080
    },
    {
      "epoch": 0.7001875,
      "grad_norm": 0.8287163972854614,
      "learning_rate": 6.22394693278944e-05,
      "loss": 3.4474,
      "step": 336090
    },
    {
      "epoch": 0.7002083333333333,
      "grad_norm": 0.9048703908920288,
      "learning_rate": 6.223147440092861e-05,
      "loss": 3.2909,
      "step": 336100
    },
    {
      "epoch": 0.7002291666666667,
      "grad_norm": 1.0687029361724854,
      "learning_rate": 6.222347985308805e-05,
      "loss": 3.3927,
      "step": 336110
    },
    {
      "epoch": 0.70025,
      "grad_norm": 1.0158942937850952,
      "learning_rate": 6.221548568440743e-05,
      "loss": 3.4411,
      "step": 336120
    },
    {
      "epoch": 0.7002708333333333,
      "grad_norm": 0.8420572280883789,
      "learning_rate": 6.22074918949211e-05,
      "loss": 3.3698,
      "step": 336130
    },
    {
      "epoch": 0.7002916666666666,
      "grad_norm": 0.9103939533233643,
      "learning_rate": 6.219949848466361e-05,
      "loss": 3.4896,
      "step": 336140
    },
    {
      "epoch": 0.7003125,
      "grad_norm": 0.7564074397087097,
      "learning_rate": 6.219150545366963e-05,
      "loss": 3.5077,
      "step": 336150
    },
    {
      "epoch": 0.7003333333333334,
      "grad_norm": 1.0831481218338013,
      "learning_rate": 6.218351280197354e-05,
      "loss": 3.3253,
      "step": 336160
    },
    {
      "epoch": 0.7003541666666667,
      "grad_norm": 0.8982315063476562,
      "learning_rate": 6.217552052960987e-05,
      "loss": 3.3362,
      "step": 336170
    },
    {
      "epoch": 0.700375,
      "grad_norm": 0.9542486667633057,
      "learning_rate": 6.216752863661329e-05,
      "loss": 3.2874,
      "step": 336180
    },
    {
      "epoch": 0.7003958333333333,
      "grad_norm": 0.8007906079292297,
      "learning_rate": 6.215953712301817e-05,
      "loss": 3.3668,
      "step": 336190
    },
    {
      "epoch": 0.7004166666666667,
      "grad_norm": 0.9476571679115295,
      "learning_rate": 6.2151545988859e-05,
      "loss": 3.4661,
      "step": 336200
    },
    {
      "epoch": 0.7004375,
      "grad_norm": 0.8618577122688293,
      "learning_rate": 6.214355523417052e-05,
      "loss": 3.3881,
      "step": 336210
    },
    {
      "epoch": 0.7004583333333333,
      "grad_norm": 0.833328902721405,
      "learning_rate": 6.213556485898703e-05,
      "loss": 3.3369,
      "step": 336220
    },
    {
      "epoch": 0.7004791666666667,
      "grad_norm": 0.8652961254119873,
      "learning_rate": 6.212757486334314e-05,
      "loss": 3.5014,
      "step": 336230
    },
    {
      "epoch": 0.7005,
      "grad_norm": 0.7710416316986084,
      "learning_rate": 6.211958524727331e-05,
      "loss": 3.4213,
      "step": 336240
    },
    {
      "epoch": 0.7005208333333334,
      "grad_norm": 0.8231105804443359,
      "learning_rate": 6.211159601081213e-05,
      "loss": 3.465,
      "step": 336250
    },
    {
      "epoch": 0.7005416666666666,
      "grad_norm": 0.7952341437339783,
      "learning_rate": 6.210360715399403e-05,
      "loss": 3.4704,
      "step": 336260
    },
    {
      "epoch": 0.7005625,
      "grad_norm": 0.8305434584617615,
      "learning_rate": 6.209561867685358e-05,
      "loss": 3.3506,
      "step": 336270
    },
    {
      "epoch": 0.7005833333333333,
      "grad_norm": 0.7704887986183167,
      "learning_rate": 6.208763057942525e-05,
      "loss": 3.2612,
      "step": 336280
    },
    {
      "epoch": 0.7006041666666667,
      "grad_norm": 0.9239358901977539,
      "learning_rate": 6.207964286174356e-05,
      "loss": 3.4111,
      "step": 336290
    },
    {
      "epoch": 0.700625,
      "grad_norm": 0.7370665073394775,
      "learning_rate": 6.207165552384302e-05,
      "loss": 3.4581,
      "step": 336300
    },
    {
      "epoch": 0.7006458333333333,
      "grad_norm": 0.815651535987854,
      "learning_rate": 6.206366856575811e-05,
      "loss": 3.351,
      "step": 336310
    },
    {
      "epoch": 0.7006666666666667,
      "grad_norm": 0.8431142568588257,
      "learning_rate": 6.205568198752341e-05,
      "loss": 3.4069,
      "step": 336320
    },
    {
      "epoch": 0.7006875,
      "grad_norm": 0.8635610938072205,
      "learning_rate": 6.204769578917322e-05,
      "loss": 3.5439,
      "step": 336330
    },
    {
      "epoch": 0.7007083333333334,
      "grad_norm": 0.9104963541030884,
      "learning_rate": 6.203970997074226e-05,
      "loss": 3.4697,
      "step": 336340
    },
    {
      "epoch": 0.7007291666666666,
      "grad_norm": 0.874984622001648,
      "learning_rate": 6.203172453226497e-05,
      "loss": 3.4495,
      "step": 336350
    },
    {
      "epoch": 0.70075,
      "grad_norm": 0.8395953178405762,
      "learning_rate": 6.202373947377571e-05,
      "loss": 3.3498,
      "step": 336360
    },
    {
      "epoch": 0.7007708333333333,
      "grad_norm": 0.9811719059944153,
      "learning_rate": 6.201575479530911e-05,
      "loss": 3.5527,
      "step": 336370
    },
    {
      "epoch": 0.7007916666666667,
      "grad_norm": 0.7489098906517029,
      "learning_rate": 6.200777049689969e-05,
      "loss": 3.3202,
      "step": 336380
    },
    {
      "epoch": 0.7008125,
      "grad_norm": 0.7865656018257141,
      "learning_rate": 6.199978657858177e-05,
      "loss": 3.3768,
      "step": 336390
    },
    {
      "epoch": 0.7008333333333333,
      "grad_norm": 0.8552578687667847,
      "learning_rate": 6.199180304038999e-05,
      "loss": 3.4684,
      "step": 336400
    },
    {
      "epoch": 0.7008541666666667,
      "grad_norm": 0.9378835558891296,
      "learning_rate": 6.198381988235882e-05,
      "loss": 3.4845,
      "step": 336410
    },
    {
      "epoch": 0.700875,
      "grad_norm": 0.8995340466499329,
      "learning_rate": 6.197583710452261e-05,
      "loss": 3.3993,
      "step": 336420
    },
    {
      "epoch": 0.7008958333333334,
      "grad_norm": 0.8842014074325562,
      "learning_rate": 6.1967854706916e-05,
      "loss": 3.2995,
      "step": 336430
    },
    {
      "epoch": 0.7009166666666666,
      "grad_norm": 0.787110447883606,
      "learning_rate": 6.195987268957349e-05,
      "loss": 3.3248,
      "step": 336440
    },
    {
      "epoch": 0.7009375,
      "grad_norm": 0.8795852065086365,
      "learning_rate": 6.195189105252933e-05,
      "loss": 3.4189,
      "step": 336450
    },
    {
      "epoch": 0.7009583333333333,
      "grad_norm": 0.8426984548568726,
      "learning_rate": 6.194390979581829e-05,
      "loss": 3.3092,
      "step": 336460
    },
    {
      "epoch": 0.7009791666666667,
      "grad_norm": 1.0450173616409302,
      "learning_rate": 6.193592891947462e-05,
      "loss": 3.3994,
      "step": 336470
    },
    {
      "epoch": 0.701,
      "grad_norm": 0.8739796280860901,
      "learning_rate": 6.192794842353284e-05,
      "loss": 3.4324,
      "step": 336480
    },
    {
      "epoch": 0.7010208333333333,
      "grad_norm": 0.9393700361251831,
      "learning_rate": 6.191996830802758e-05,
      "loss": 3.4331,
      "step": 336490
    },
    {
      "epoch": 0.7010416666666667,
      "grad_norm": 0.8780139684677124,
      "learning_rate": 6.191198857299313e-05,
      "loss": 3.4497,
      "step": 336500
    },
    {
      "epoch": 0.7010625,
      "grad_norm": 0.9969951510429382,
      "learning_rate": 6.190400921846397e-05,
      "loss": 3.3869,
      "step": 336510
    },
    {
      "epoch": 0.7010833333333333,
      "grad_norm": 0.9780070185661316,
      "learning_rate": 6.189603024447472e-05,
      "loss": 3.4458,
      "step": 336520
    },
    {
      "epoch": 0.7011041666666666,
      "grad_norm": 0.8703039288520813,
      "learning_rate": 6.188805165105969e-05,
      "loss": 3.4497,
      "step": 336530
    },
    {
      "epoch": 0.701125,
      "grad_norm": 0.7802647352218628,
      "learning_rate": 6.188007343825341e-05,
      "loss": 3.4603,
      "step": 336540
    },
    {
      "epoch": 0.7011458333333334,
      "grad_norm": 0.8984462022781372,
      "learning_rate": 6.187209560609034e-05,
      "loss": 3.3234,
      "step": 336550
    },
    {
      "epoch": 0.7011666666666667,
      "grad_norm": 0.7879499197006226,
      "learning_rate": 6.18641181546049e-05,
      "loss": 3.4045,
      "step": 336560
    },
    {
      "epoch": 0.7011875,
      "grad_norm": 0.9541921019554138,
      "learning_rate": 6.185614108383161e-05,
      "loss": 3.3313,
      "step": 336570
    },
    {
      "epoch": 0.7012083333333333,
      "grad_norm": 0.935442328453064,
      "learning_rate": 6.18481643938049e-05,
      "loss": 3.5103,
      "step": 336580
    },
    {
      "epoch": 0.7012291666666667,
      "grad_norm": 0.8783600926399231,
      "learning_rate": 6.184018808455922e-05,
      "loss": 3.4576,
      "step": 336590
    },
    {
      "epoch": 0.70125,
      "grad_norm": 0.8466845154762268,
      "learning_rate": 6.183221215612904e-05,
      "loss": 3.4968,
      "step": 336600
    },
    {
      "epoch": 0.7012708333333333,
      "grad_norm": 0.8063791394233704,
      "learning_rate": 6.182423660854879e-05,
      "loss": 3.3732,
      "step": 336610
    },
    {
      "epoch": 0.7012916666666666,
      "grad_norm": 0.8643918633460999,
      "learning_rate": 6.181626144185295e-05,
      "loss": 3.464,
      "step": 336620
    },
    {
      "epoch": 0.7013125,
      "grad_norm": 0.8953567743301392,
      "learning_rate": 6.180828665607594e-05,
      "loss": 3.3968,
      "step": 336630
    },
    {
      "epoch": 0.7013333333333334,
      "grad_norm": 0.9832956790924072,
      "learning_rate": 6.180031225125224e-05,
      "loss": 3.4922,
      "step": 336640
    },
    {
      "epoch": 0.7013541666666666,
      "grad_norm": 0.950170636177063,
      "learning_rate": 6.179233822741627e-05,
      "loss": 3.3729,
      "step": 336650
    },
    {
      "epoch": 0.701375,
      "grad_norm": 0.9544911980628967,
      "learning_rate": 6.178436458460249e-05,
      "loss": 3.5082,
      "step": 336660
    },
    {
      "epoch": 0.7013958333333333,
      "grad_norm": 0.905017614364624,
      "learning_rate": 6.177639132284532e-05,
      "loss": 3.5117,
      "step": 336670
    },
    {
      "epoch": 0.7014166666666667,
      "grad_norm": 0.8663175702095032,
      "learning_rate": 6.176841844217923e-05,
      "loss": 3.5603,
      "step": 336680
    },
    {
      "epoch": 0.7014375,
      "grad_norm": 1.0679749250411987,
      "learning_rate": 6.176044594263866e-05,
      "loss": 3.3509,
      "step": 336690
    },
    {
      "epoch": 0.7014583333333333,
      "grad_norm": 0.8526968955993652,
      "learning_rate": 6.175247382425802e-05,
      "loss": 3.1663,
      "step": 336700
    },
    {
      "epoch": 0.7014791666666667,
      "grad_norm": 0.9265155792236328,
      "learning_rate": 6.174450208707174e-05,
      "loss": 3.5011,
      "step": 336710
    },
    {
      "epoch": 0.7015,
      "grad_norm": 0.9421378970146179,
      "learning_rate": 6.173653073111436e-05,
      "loss": 3.1856,
      "step": 336720
    },
    {
      "epoch": 0.7015208333333334,
      "grad_norm": 0.8087676763534546,
      "learning_rate": 6.172855975642013e-05,
      "loss": 3.4641,
      "step": 336730
    },
    {
      "epoch": 0.7015416666666666,
      "grad_norm": 0.8822676539421082,
      "learning_rate": 6.172058916302362e-05,
      "loss": 3.3686,
      "step": 336740
    },
    {
      "epoch": 0.7015625,
      "grad_norm": 0.7955728769302368,
      "learning_rate": 6.171261895095927e-05,
      "loss": 3.4143,
      "step": 336750
    },
    {
      "epoch": 0.7015833333333333,
      "grad_norm": 0.777764081954956,
      "learning_rate": 6.170464912026138e-05,
      "loss": 3.5265,
      "step": 336760
    },
    {
      "epoch": 0.7016041666666667,
      "grad_norm": 1.0326614379882812,
      "learning_rate": 6.169667967096448e-05,
      "loss": 3.4409,
      "step": 336770
    },
    {
      "epoch": 0.701625,
      "grad_norm": 0.9254371523857117,
      "learning_rate": 6.168871060310304e-05,
      "loss": 3.61,
      "step": 336780
    },
    {
      "epoch": 0.7016458333333333,
      "grad_norm": 0.9223648905754089,
      "learning_rate": 6.16807419167113e-05,
      "loss": 3.3427,
      "step": 336790
    },
    {
      "epoch": 0.7016666666666667,
      "grad_norm": 0.7881130576133728,
      "learning_rate": 6.167277361182387e-05,
      "loss": 3.3505,
      "step": 336800
    },
    {
      "epoch": 0.7016875,
      "grad_norm": 0.9205471873283386,
      "learning_rate": 6.166480568847511e-05,
      "loss": 3.3501,
      "step": 336810
    },
    {
      "epoch": 0.7017083333333334,
      "grad_norm": 0.8312616944313049,
      "learning_rate": 6.16568381466994e-05,
      "loss": 3.514,
      "step": 336820
    },
    {
      "epoch": 0.7017291666666666,
      "grad_norm": 0.8522221446037292,
      "learning_rate": 6.164887098653117e-05,
      "loss": 3.4954,
      "step": 336830
    },
    {
      "epoch": 0.70175,
      "grad_norm": 0.8596375584602356,
      "learning_rate": 6.164090420800486e-05,
      "loss": 3.4253,
      "step": 336840
    },
    {
      "epoch": 0.7017708333333333,
      "grad_norm": 0.8664805293083191,
      "learning_rate": 6.163293781115485e-05,
      "loss": 3.3486,
      "step": 336850
    },
    {
      "epoch": 0.7017916666666667,
      "grad_norm": 0.9238511919975281,
      "learning_rate": 6.162497179601557e-05,
      "loss": 3.3772,
      "step": 336860
    },
    {
      "epoch": 0.7018125,
      "grad_norm": 0.766671895980835,
      "learning_rate": 6.161700616262143e-05,
      "loss": 3.3738,
      "step": 336870
    },
    {
      "epoch": 0.7018333333333333,
      "grad_norm": 0.9019306302070618,
      "learning_rate": 6.160904091100684e-05,
      "loss": 3.281,
      "step": 336880
    },
    {
      "epoch": 0.7018541666666667,
      "grad_norm": 0.7668589353561401,
      "learning_rate": 6.160107604120623e-05,
      "loss": 3.5104,
      "step": 336890
    },
    {
      "epoch": 0.701875,
      "grad_norm": 0.9227194786071777,
      "learning_rate": 6.159311155325396e-05,
      "loss": 3.4166,
      "step": 336900
    },
    {
      "epoch": 0.7018958333333334,
      "grad_norm": 0.9139479398727417,
      "learning_rate": 6.158514744718445e-05,
      "loss": 3.5131,
      "step": 336910
    },
    {
      "epoch": 0.7019166666666666,
      "grad_norm": 0.8041682243347168,
      "learning_rate": 6.157718372303212e-05,
      "loss": 3.5213,
      "step": 336920
    },
    {
      "epoch": 0.7019375,
      "grad_norm": 0.7690770030021667,
      "learning_rate": 6.156922038083135e-05,
      "loss": 3.4299,
      "step": 336930
    },
    {
      "epoch": 0.7019583333333334,
      "grad_norm": 0.8557215332984924,
      "learning_rate": 6.156125742061654e-05,
      "loss": 3.6459,
      "step": 336940
    },
    {
      "epoch": 0.7019791666666667,
      "grad_norm": 0.8481165766716003,
      "learning_rate": 6.15532948424221e-05,
      "loss": 3.3596,
      "step": 336950
    },
    {
      "epoch": 0.702,
      "grad_norm": 0.8369458317756653,
      "learning_rate": 6.154533264628241e-05,
      "loss": 3.4327,
      "step": 336960
    },
    {
      "epoch": 0.7020208333333333,
      "grad_norm": 0.8046407699584961,
      "learning_rate": 6.153737083223187e-05,
      "loss": 3.3728,
      "step": 336970
    },
    {
      "epoch": 0.7020416666666667,
      "grad_norm": 0.9162811040878296,
      "learning_rate": 6.152940940030488e-05,
      "loss": 3.4951,
      "step": 336980
    },
    {
      "epoch": 0.7020625,
      "grad_norm": 0.8259616494178772,
      "learning_rate": 6.152144835053581e-05,
      "loss": 3.3472,
      "step": 336990
    },
    {
      "epoch": 0.7020833333333333,
      "grad_norm": 0.9039137363433838,
      "learning_rate": 6.151348768295907e-05,
      "loss": 3.3405,
      "step": 337000
    },
    {
      "epoch": 0.7020833333333333,
      "eval_loss": 4.04611349105835,
      "eval_runtime": 9.5462,
      "eval_samples_per_second": 1.048,
      "eval_steps_per_second": 0.314,
      "step": 337000
    },
    {
      "epoch": 0.7021041666666666,
      "grad_norm": 0.801658570766449,
      "learning_rate": 6.150552739760904e-05,
      "loss": 3.3576,
      "step": 337010
    },
    {
      "epoch": 0.702125,
      "grad_norm": 0.8929521441459656,
      "learning_rate": 6.149756749452008e-05,
      "loss": 3.2957,
      "step": 337020
    },
    {
      "epoch": 0.7021458333333334,
      "grad_norm": 1.1359829902648926,
      "learning_rate": 6.148960797372663e-05,
      "loss": 3.5608,
      "step": 337030
    },
    {
      "epoch": 0.7021666666666667,
      "grad_norm": 1.0080068111419678,
      "learning_rate": 6.148164883526303e-05,
      "loss": 3.219,
      "step": 337040
    },
    {
      "epoch": 0.7021875,
      "grad_norm": 0.8683255314826965,
      "learning_rate": 6.147369007916365e-05,
      "loss": 3.2915,
      "step": 337050
    },
    {
      "epoch": 0.7022083333333333,
      "grad_norm": 0.9151332378387451,
      "learning_rate": 6.146573170546291e-05,
      "loss": 3.3605,
      "step": 337060
    },
    {
      "epoch": 0.7022291666666667,
      "grad_norm": 0.9567795991897583,
      "learning_rate": 6.145777371419515e-05,
      "loss": 3.4286,
      "step": 337070
    },
    {
      "epoch": 0.70225,
      "grad_norm": 0.8714735507965088,
      "learning_rate": 6.144981610539476e-05,
      "loss": 3.3501,
      "step": 337080
    },
    {
      "epoch": 0.7022708333333333,
      "grad_norm": 0.8887104392051697,
      "learning_rate": 6.144185887909618e-05,
      "loss": 3.4689,
      "step": 337090
    },
    {
      "epoch": 0.7022916666666666,
      "grad_norm": 0.8769173622131348,
      "learning_rate": 6.14339020353336e-05,
      "loss": 3.4804,
      "step": 337100
    },
    {
      "epoch": 0.7023125,
      "grad_norm": 0.7637137770652771,
      "learning_rate": 6.142594557414156e-05,
      "loss": 3.4201,
      "step": 337110
    },
    {
      "epoch": 0.7023333333333334,
      "grad_norm": 0.8076593279838562,
      "learning_rate": 6.141798949555443e-05,
      "loss": 3.4365,
      "step": 337120
    },
    {
      "epoch": 0.7023541666666666,
      "grad_norm": 0.9652318954467773,
      "learning_rate": 6.141003379960647e-05,
      "loss": 3.3986,
      "step": 337130
    },
    {
      "epoch": 0.702375,
      "grad_norm": 0.9341186881065369,
      "learning_rate": 6.140207848633204e-05,
      "loss": 3.4231,
      "step": 337140
    },
    {
      "epoch": 0.7023958333333333,
      "grad_norm": 0.9404241442680359,
      "learning_rate": 6.139412355576568e-05,
      "loss": 3.5602,
      "step": 337150
    },
    {
      "epoch": 0.7024166666666667,
      "grad_norm": 1.048476219177246,
      "learning_rate": 6.138616900794156e-05,
      "loss": 3.3626,
      "step": 337160
    },
    {
      "epoch": 0.7024375,
      "grad_norm": 0.9192112684249878,
      "learning_rate": 6.137821484289408e-05,
      "loss": 3.4238,
      "step": 337170
    },
    {
      "epoch": 0.7024583333333333,
      "grad_norm": 0.9471391439437866,
      "learning_rate": 6.137026106065773e-05,
      "loss": 3.5394,
      "step": 337180
    },
    {
      "epoch": 0.7024791666666667,
      "grad_norm": 0.8601819276809692,
      "learning_rate": 6.136230766126673e-05,
      "loss": 3.3632,
      "step": 337190
    },
    {
      "epoch": 0.7025,
      "grad_norm": 0.8329705595970154,
      "learning_rate": 6.13543546447554e-05,
      "loss": 3.4125,
      "step": 337200
    },
    {
      "epoch": 0.7025208333333334,
      "grad_norm": 0.8322098255157471,
      "learning_rate": 6.134640201115828e-05,
      "loss": 3.4767,
      "step": 337210
    },
    {
      "epoch": 0.7025416666666666,
      "grad_norm": 0.9625559449195862,
      "learning_rate": 6.133844976050957e-05,
      "loss": 3.5579,
      "step": 337220
    },
    {
      "epoch": 0.7025625,
      "grad_norm": 0.846386730670929,
      "learning_rate": 6.133049789284365e-05,
      "loss": 3.3741,
      "step": 337230
    },
    {
      "epoch": 0.7025833333333333,
      "grad_norm": 0.8228123188018799,
      "learning_rate": 6.13225464081949e-05,
      "loss": 3.4575,
      "step": 337240
    },
    {
      "epoch": 0.7026041666666667,
      "grad_norm": 0.925818145275116,
      "learning_rate": 6.131459530659763e-05,
      "loss": 3.3922,
      "step": 337250
    },
    {
      "epoch": 0.702625,
      "grad_norm": 0.9185795187950134,
      "learning_rate": 6.130664458808622e-05,
      "loss": 3.4582,
      "step": 337260
    },
    {
      "epoch": 0.7026458333333333,
      "grad_norm": 0.8139193058013916,
      "learning_rate": 6.129869425269499e-05,
      "loss": 3.3242,
      "step": 337270
    },
    {
      "epoch": 0.7026666666666667,
      "grad_norm": 0.8046221733093262,
      "learning_rate": 6.12907443004583e-05,
      "loss": 3.3254,
      "step": 337280
    },
    {
      "epoch": 0.7026875,
      "grad_norm": 0.790805995464325,
      "learning_rate": 6.128279473141046e-05,
      "loss": 3.4412,
      "step": 337290
    },
    {
      "epoch": 0.7027083333333334,
      "grad_norm": 0.8507046103477478,
      "learning_rate": 6.127484554558583e-05,
      "loss": 3.392,
      "step": 337300
    },
    {
      "epoch": 0.7027291666666666,
      "grad_norm": 1.2983556985855103,
      "learning_rate": 6.126689674301877e-05,
      "loss": 3.4174,
      "step": 337310
    },
    {
      "epoch": 0.70275,
      "grad_norm": 1.1298799514770508,
      "learning_rate": 6.125894832374358e-05,
      "loss": 3.3992,
      "step": 337320
    },
    {
      "epoch": 0.7027708333333333,
      "grad_norm": 1.0727264881134033,
      "learning_rate": 6.125100028779461e-05,
      "loss": 3.4166,
      "step": 337330
    },
    {
      "epoch": 0.7027916666666667,
      "grad_norm": 0.8368445634841919,
      "learning_rate": 6.12430526352062e-05,
      "loss": 3.3558,
      "step": 337340
    },
    {
      "epoch": 0.7028125,
      "grad_norm": 0.8809891939163208,
      "learning_rate": 6.123510536601265e-05,
      "loss": 3.3537,
      "step": 337350
    },
    {
      "epoch": 0.7028333333333333,
      "grad_norm": 0.8720763921737671,
      "learning_rate": 6.122715848024832e-05,
      "loss": 3.3767,
      "step": 337360
    },
    {
      "epoch": 0.7028541666666667,
      "grad_norm": 0.9720531702041626,
      "learning_rate": 6.121921197794752e-05,
      "loss": 3.5322,
      "step": 337370
    },
    {
      "epoch": 0.702875,
      "grad_norm": 0.9059600234031677,
      "learning_rate": 6.121126585914459e-05,
      "loss": 3.4694,
      "step": 337380
    },
    {
      "epoch": 0.7028958333333334,
      "grad_norm": 0.9104387760162354,
      "learning_rate": 6.120332012387385e-05,
      "loss": 3.4778,
      "step": 337390
    },
    {
      "epoch": 0.7029166666666666,
      "grad_norm": 0.7944222092628479,
      "learning_rate": 6.11953747721696e-05,
      "loss": 3.3724,
      "step": 337400
    },
    {
      "epoch": 0.7029375,
      "grad_norm": 0.9075934290885925,
      "learning_rate": 6.118742980406625e-05,
      "loss": 3.4027,
      "step": 337410
    },
    {
      "epoch": 0.7029583333333334,
      "grad_norm": 0.8088833093643188,
      "learning_rate": 6.117948521959793e-05,
      "loss": 3.4142,
      "step": 337420
    },
    {
      "epoch": 0.7029791666666667,
      "grad_norm": 0.8146805167198181,
      "learning_rate": 6.117154101879914e-05,
      "loss": 3.3956,
      "step": 337430
    },
    {
      "epoch": 0.703,
      "grad_norm": 0.8852449059486389,
      "learning_rate": 6.116359720170418e-05,
      "loss": 3.3367,
      "step": 337440
    },
    {
      "epoch": 0.7030208333333333,
      "grad_norm": 0.8975421190261841,
      "learning_rate": 6.115565376834722e-05,
      "loss": 3.4504,
      "step": 337450
    },
    {
      "epoch": 0.7030416666666667,
      "grad_norm": 0.8505793213844299,
      "learning_rate": 6.114771071876276e-05,
      "loss": 3.4365,
      "step": 337460
    },
    {
      "epoch": 0.7030625,
      "grad_norm": 1.0364539623260498,
      "learning_rate": 6.113976805298498e-05,
      "loss": 3.3709,
      "step": 337470
    },
    {
      "epoch": 0.7030833333333333,
      "grad_norm": 0.883935809135437,
      "learning_rate": 6.113182577104817e-05,
      "loss": 3.3705,
      "step": 337480
    },
    {
      "epoch": 0.7031041666666666,
      "grad_norm": 0.9227240681648254,
      "learning_rate": 6.11238838729868e-05,
      "loss": 3.4595,
      "step": 337490
    },
    {
      "epoch": 0.703125,
      "grad_norm": 0.8375596404075623,
      "learning_rate": 6.111594235883502e-05,
      "loss": 3.3809,
      "step": 337500
    },
    {
      "epoch": 0.7031458333333334,
      "grad_norm": 0.8318562507629395,
      "learning_rate": 6.110800122862713e-05,
      "loss": 3.3453,
      "step": 337510
    },
    {
      "epoch": 0.7031666666666667,
      "grad_norm": 0.8598636388778687,
      "learning_rate": 6.11000604823976e-05,
      "loss": 3.3951,
      "step": 337520
    },
    {
      "epoch": 0.7031875,
      "grad_norm": 0.8498886227607727,
      "learning_rate": 6.109212012018056e-05,
      "loss": 3.2733,
      "step": 337530
    },
    {
      "epoch": 0.7032083333333333,
      "grad_norm": 0.8764301538467407,
      "learning_rate": 6.108418014201033e-05,
      "loss": 3.3971,
      "step": 337540
    },
    {
      "epoch": 0.7032291666666667,
      "grad_norm": 0.8680329322814941,
      "learning_rate": 6.107624054792134e-05,
      "loss": 3.3226,
      "step": 337550
    },
    {
      "epoch": 0.70325,
      "grad_norm": 0.7877299785614014,
      "learning_rate": 6.106830133794775e-05,
      "loss": 3.4101,
      "step": 337560
    },
    {
      "epoch": 0.7032708333333333,
      "grad_norm": 0.9403985738754272,
      "learning_rate": 6.106036251212384e-05,
      "loss": 3.3403,
      "step": 337570
    },
    {
      "epoch": 0.7032916666666666,
      "grad_norm": 0.7773742079734802,
      "learning_rate": 6.105242407048406e-05,
      "loss": 3.4482,
      "step": 337580
    },
    {
      "epoch": 0.7033125,
      "grad_norm": 0.8514671325683594,
      "learning_rate": 6.104448601306254e-05,
      "loss": 3.5091,
      "step": 337590
    },
    {
      "epoch": 0.7033333333333334,
      "grad_norm": 0.8261500597000122,
      "learning_rate": 6.103654833989364e-05,
      "loss": 3.5421,
      "step": 337600
    },
    {
      "epoch": 0.7033541666666666,
      "grad_norm": 0.8519726991653442,
      "learning_rate": 6.102861105101163e-05,
      "loss": 3.238,
      "step": 337610
    },
    {
      "epoch": 0.703375,
      "grad_norm": 0.8827646374702454,
      "learning_rate": 6.1020674146450816e-05,
      "loss": 3.4589,
      "step": 337620
    },
    {
      "epoch": 0.7033958333333333,
      "grad_norm": 0.7743136882781982,
      "learning_rate": 6.101273762624545e-05,
      "loss": 3.4843,
      "step": 337630
    },
    {
      "epoch": 0.7034166666666667,
      "grad_norm": 0.9331318736076355,
      "learning_rate": 6.100480149042985e-05,
      "loss": 3.3253,
      "step": 337640
    },
    {
      "epoch": 0.7034375,
      "grad_norm": 0.9119009375572205,
      "learning_rate": 6.099686573903827e-05,
      "loss": 3.4381,
      "step": 337650
    },
    {
      "epoch": 0.7034583333333333,
      "grad_norm": 1.0354031324386597,
      "learning_rate": 6.098893037210501e-05,
      "loss": 3.4176,
      "step": 337660
    },
    {
      "epoch": 0.7034791666666667,
      "grad_norm": 0.8507471084594727,
      "learning_rate": 6.098099538966433e-05,
      "loss": 3.4596,
      "step": 337670
    },
    {
      "epoch": 0.7035,
      "grad_norm": 0.9369120597839355,
      "learning_rate": 6.097306079175053e-05,
      "loss": 3.416,
      "step": 337680
    },
    {
      "epoch": 0.7035208333333334,
      "grad_norm": 0.8115701675415039,
      "learning_rate": 6.096512657839785e-05,
      "loss": 3.5362,
      "step": 337690
    },
    {
      "epoch": 0.7035416666666666,
      "grad_norm": 1.0087162256240845,
      "learning_rate": 6.095719274964059e-05,
      "loss": 3.4176,
      "step": 337700
    },
    {
      "epoch": 0.7035625,
      "grad_norm": 0.9277892112731934,
      "learning_rate": 6.0949259305513e-05,
      "loss": 3.32,
      "step": 337710
    },
    {
      "epoch": 0.7035833333333333,
      "grad_norm": 0.9530556201934814,
      "learning_rate": 6.094132624604943e-05,
      "loss": 3.3943,
      "step": 337720
    },
    {
      "epoch": 0.7036041666666667,
      "grad_norm": 0.8384072780609131,
      "learning_rate": 6.093339357128396e-05,
      "loss": 3.3748,
      "step": 337730
    },
    {
      "epoch": 0.703625,
      "grad_norm": 0.8546915650367737,
      "learning_rate": 6.092546128125104e-05,
      "loss": 3.4201,
      "step": 337740
    },
    {
      "epoch": 0.7036458333333333,
      "grad_norm": 0.9550372958183289,
      "learning_rate": 6.091752937598491e-05,
      "loss": 3.3728,
      "step": 337750
    },
    {
      "epoch": 0.7036666666666667,
      "grad_norm": 0.9133212566375732,
      "learning_rate": 6.09095978555197e-05,
      "loss": 3.3291,
      "step": 337760
    },
    {
      "epoch": 0.7036875,
      "grad_norm": 0.7997219562530518,
      "learning_rate": 6.0901666719889806e-05,
      "loss": 3.3035,
      "step": 337770
    },
    {
      "epoch": 0.7037083333333334,
      "grad_norm": 0.9385230541229248,
      "learning_rate": 6.089373596912949e-05,
      "loss": 3.4781,
      "step": 337780
    },
    {
      "epoch": 0.7037291666666666,
      "grad_norm": 0.9232032895088196,
      "learning_rate": 6.0885805603272856e-05,
      "loss": 3.361,
      "step": 337790
    },
    {
      "epoch": 0.70375,
      "grad_norm": 0.8529306054115295,
      "learning_rate": 6.087787562235434e-05,
      "loss": 3.3045,
      "step": 337800
    },
    {
      "epoch": 0.7037708333333333,
      "grad_norm": 0.8226495385169983,
      "learning_rate": 6.0869946026408174e-05,
      "loss": 3.3324,
      "step": 337810
    },
    {
      "epoch": 0.7037916666666667,
      "grad_norm": 0.9489414095878601,
      "learning_rate": 6.086201681546843e-05,
      "loss": 3.3915,
      "step": 337820
    },
    {
      "epoch": 0.7038125,
      "grad_norm": 0.8579476475715637,
      "learning_rate": 6.085408798956963e-05,
      "loss": 3.4969,
      "step": 337830
    },
    {
      "epoch": 0.7038333333333333,
      "grad_norm": 1.1780004501342773,
      "learning_rate": 6.084615954874581e-05,
      "loss": 3.4266,
      "step": 337840
    },
    {
      "epoch": 0.7038541666666667,
      "grad_norm": 0.8963763117790222,
      "learning_rate": 6.0838231493031256e-05,
      "loss": 3.46,
      "step": 337850
    },
    {
      "epoch": 0.703875,
      "grad_norm": 0.9224894642829895,
      "learning_rate": 6.083030382246033e-05,
      "loss": 3.4306,
      "step": 337860
    },
    {
      "epoch": 0.7038958333333334,
      "grad_norm": 0.8249269723892212,
      "learning_rate": 6.0822376537067166e-05,
      "loss": 3.5251,
      "step": 337870
    },
    {
      "epoch": 0.7039166666666666,
      "grad_norm": 0.9104120135307312,
      "learning_rate": 6.0814449636885956e-05,
      "loss": 3.3361,
      "step": 337880
    },
    {
      "epoch": 0.7039375,
      "grad_norm": 0.8376216292381287,
      "learning_rate": 6.080652312195116e-05,
      "loss": 3.3172,
      "step": 337890
    },
    {
      "epoch": 0.7039583333333334,
      "grad_norm": 0.8912324905395508,
      "learning_rate": 6.0798596992296814e-05,
      "loss": 3.4705,
      "step": 337900
    },
    {
      "epoch": 0.7039791666666667,
      "grad_norm": 1.097140908241272,
      "learning_rate": 6.0790671247957147e-05,
      "loss": 3.4937,
      "step": 337910
    },
    {
      "epoch": 0.704,
      "grad_norm": 0.97318035364151,
      "learning_rate": 6.07827458889666e-05,
      "loss": 3.2374,
      "step": 337920
    },
    {
      "epoch": 0.7040208333333333,
      "grad_norm": 0.8700897693634033,
      "learning_rate": 6.077482091535921e-05,
      "loss": 3.2737,
      "step": 337930
    },
    {
      "epoch": 0.7040416666666667,
      "grad_norm": 0.8405507802963257,
      "learning_rate": 6.0766896327169225e-05,
      "loss": 3.4086,
      "step": 337940
    },
    {
      "epoch": 0.7040625,
      "grad_norm": 0.9046884179115295,
      "learning_rate": 6.075897212443104e-05,
      "loss": 3.3795,
      "step": 337950
    },
    {
      "epoch": 0.7040833333333333,
      "grad_norm": 0.8906933665275574,
      "learning_rate": 6.0751048307178714e-05,
      "loss": 3.3488,
      "step": 337960
    },
    {
      "epoch": 0.7041041666666666,
      "grad_norm": 0.9201701879501343,
      "learning_rate": 6.0743124875446536e-05,
      "loss": 3.5139,
      "step": 337970
    },
    {
      "epoch": 0.704125,
      "grad_norm": 0.7888302803039551,
      "learning_rate": 6.073520182926871e-05,
      "loss": 3.4696,
      "step": 337980
    },
    {
      "epoch": 0.7041458333333334,
      "grad_norm": 0.8678559064865112,
      "learning_rate": 6.07272791686795e-05,
      "loss": 3.3122,
      "step": 337990
    },
    {
      "epoch": 0.7041666666666667,
      "grad_norm": 0.861531674861908,
      "learning_rate": 6.071935689371311e-05,
      "loss": 3.4943,
      "step": 338000
    },
    {
      "epoch": 0.7041666666666667,
      "eval_loss": 4.050854682922363,
      "eval_runtime": 9.4204,
      "eval_samples_per_second": 1.062,
      "eval_steps_per_second": 0.318,
      "step": 338000
    },
    {
      "epoch": 0.7041875,
      "grad_norm": 0.9243832230567932,
      "learning_rate": 6.071143500440374e-05,
      "loss": 3.4175,
      "step": 338010
    },
    {
      "epoch": 0.7042083333333333,
      "grad_norm": 0.8956965804100037,
      "learning_rate": 6.070351350078565e-05,
      "loss": 3.2299,
      "step": 338020
    },
    {
      "epoch": 0.7042291666666667,
      "grad_norm": 0.8288076519966125,
      "learning_rate": 6.069559238289301e-05,
      "loss": 3.4508,
      "step": 338030
    },
    {
      "epoch": 0.70425,
      "grad_norm": 0.7618603110313416,
      "learning_rate": 6.068767165076008e-05,
      "loss": 3.2999,
      "step": 338040
    },
    {
      "epoch": 0.7042708333333333,
      "grad_norm": 0.8693609237670898,
      "learning_rate": 6.067975130442104e-05,
      "loss": 3.3424,
      "step": 338050
    },
    {
      "epoch": 0.7042916666666666,
      "grad_norm": 0.8599706292152405,
      "learning_rate": 6.0671831343910144e-05,
      "loss": 3.462,
      "step": 338060
    },
    {
      "epoch": 0.7043125,
      "grad_norm": 0.908454418182373,
      "learning_rate": 6.066391176926155e-05,
      "loss": 3.3219,
      "step": 338070
    },
    {
      "epoch": 0.7043333333333334,
      "grad_norm": 0.845747709274292,
      "learning_rate": 6.065599258050951e-05,
      "loss": 3.4571,
      "step": 338080
    },
    {
      "epoch": 0.7043541666666666,
      "grad_norm": 0.8522903323173523,
      "learning_rate": 6.064807377768827e-05,
      "loss": 3.4023,
      "step": 338090
    },
    {
      "epoch": 0.704375,
      "grad_norm": 0.8145956993103027,
      "learning_rate": 6.0640155360831874e-05,
      "loss": 3.4745,
      "step": 338100
    },
    {
      "epoch": 0.7043958333333333,
      "grad_norm": 0.793731689453125,
      "learning_rate": 6.0632237329974695e-05,
      "loss": 3.2926,
      "step": 338110
    },
    {
      "epoch": 0.7044166666666667,
      "grad_norm": 0.8475216627120972,
      "learning_rate": 6.0624319685150924e-05,
      "loss": 3.4183,
      "step": 338120
    },
    {
      "epoch": 0.7044375,
      "grad_norm": 0.9414180517196655,
      "learning_rate": 6.0616402426394614e-05,
      "loss": 3.4031,
      "step": 338130
    },
    {
      "epoch": 0.7044583333333333,
      "grad_norm": 0.9533307552337646,
      "learning_rate": 6.060848555374012e-05,
      "loss": 3.399,
      "step": 338140
    },
    {
      "epoch": 0.7044791666666667,
      "grad_norm": 0.9031992554664612,
      "learning_rate": 6.0600569067221625e-05,
      "loss": 3.4051,
      "step": 338150
    },
    {
      "epoch": 0.7045,
      "grad_norm": 0.7997483611106873,
      "learning_rate": 6.059265296687318e-05,
      "loss": 3.3683,
      "step": 338160
    },
    {
      "epoch": 0.7045208333333334,
      "grad_norm": 0.9088500738143921,
      "learning_rate": 6.058473725272916e-05,
      "loss": 3.3737,
      "step": 338170
    },
    {
      "epoch": 0.7045416666666666,
      "grad_norm": 0.8540570735931396,
      "learning_rate": 6.057682192482371e-05,
      "loss": 3.3209,
      "step": 338180
    },
    {
      "epoch": 0.7045625,
      "grad_norm": 0.943794310092926,
      "learning_rate": 6.056890698319089e-05,
      "loss": 3.3831,
      "step": 338190
    },
    {
      "epoch": 0.7045833333333333,
      "grad_norm": 0.8504459261894226,
      "learning_rate": 6.0560992427865056e-05,
      "loss": 3.4014,
      "step": 338200
    },
    {
      "epoch": 0.7046041666666667,
      "grad_norm": 0.8199834227561951,
      "learning_rate": 6.055307825888038e-05,
      "loss": 3.3487,
      "step": 338210
    },
    {
      "epoch": 0.704625,
      "grad_norm": 0.9075500965118408,
      "learning_rate": 6.054516447627089e-05,
      "loss": 3.2792,
      "step": 338220
    },
    {
      "epoch": 0.7046458333333333,
      "grad_norm": 0.8384016752243042,
      "learning_rate": 6.0537251080071e-05,
      "loss": 3.3686,
      "step": 338230
    },
    {
      "epoch": 0.7046666666666667,
      "grad_norm": 0.7426826357841492,
      "learning_rate": 6.0529338070314706e-05,
      "loss": 3.3315,
      "step": 338240
    },
    {
      "epoch": 0.7046875,
      "grad_norm": 0.846333384513855,
      "learning_rate": 6.0521425447036215e-05,
      "loss": 3.339,
      "step": 338250
    },
    {
      "epoch": 0.7047083333333334,
      "grad_norm": 0.9078963398933411,
      "learning_rate": 6.051351321026984e-05,
      "loss": 3.3659,
      "step": 338260
    },
    {
      "epoch": 0.7047291666666666,
      "grad_norm": 0.8379830718040466,
      "learning_rate": 6.050560136004963e-05,
      "loss": 3.4071,
      "step": 338270
    },
    {
      "epoch": 0.70475,
      "grad_norm": 0.8653291463851929,
      "learning_rate": 6.049768989640979e-05,
      "loss": 3.4324,
      "step": 338280
    },
    {
      "epoch": 0.7047708333333333,
      "grad_norm": 0.9517594575881958,
      "learning_rate": 6.04897788193845e-05,
      "loss": 3.2991,
      "step": 338290
    },
    {
      "epoch": 0.7047916666666667,
      "grad_norm": 0.8343923687934875,
      "learning_rate": 6.048186812900795e-05,
      "loss": 3.3805,
      "step": 338300
    },
    {
      "epoch": 0.7048125,
      "grad_norm": 0.8813301920890808,
      "learning_rate": 6.047395782531428e-05,
      "loss": 3.3566,
      "step": 338310
    },
    {
      "epoch": 0.7048333333333333,
      "grad_norm": 0.803288459777832,
      "learning_rate": 6.046604790833767e-05,
      "loss": 3.3414,
      "step": 338320
    },
    {
      "epoch": 0.7048541666666667,
      "grad_norm": 0.8568316698074341,
      "learning_rate": 6.04581383781123e-05,
      "loss": 3.318,
      "step": 338330
    },
    {
      "epoch": 0.704875,
      "grad_norm": 0.8572742342948914,
      "learning_rate": 6.045022923467234e-05,
      "loss": 3.4062,
      "step": 338340
    },
    {
      "epoch": 0.7048958333333334,
      "grad_norm": 0.8393456935882568,
      "learning_rate": 6.044232047805193e-05,
      "loss": 3.4568,
      "step": 338350
    },
    {
      "epoch": 0.7049166666666666,
      "grad_norm": 0.8216845393180847,
      "learning_rate": 6.043441210828526e-05,
      "loss": 3.4709,
      "step": 338360
    },
    {
      "epoch": 0.7049375,
      "grad_norm": 0.8937256932258606,
      "learning_rate": 6.042650412540646e-05,
      "loss": 3.3041,
      "step": 338370
    },
    {
      "epoch": 0.7049583333333334,
      "grad_norm": 0.8913822174072266,
      "learning_rate": 6.041859652944971e-05,
      "loss": 3.2579,
      "step": 338380
    },
    {
      "epoch": 0.7049791666666667,
      "grad_norm": 0.9170922636985779,
      "learning_rate": 6.041068932044918e-05,
      "loss": 3.381,
      "step": 338390
    },
    {
      "epoch": 0.705,
      "grad_norm": 0.951175332069397,
      "learning_rate": 6.040278249843899e-05,
      "loss": 3.3474,
      "step": 338400
    },
    {
      "epoch": 0.7050208333333333,
      "grad_norm": 0.8222941160202026,
      "learning_rate": 6.039487606345331e-05,
      "loss": 3.3409,
      "step": 338410
    },
    {
      "epoch": 0.7050416666666667,
      "grad_norm": 0.9856260418891907,
      "learning_rate": 6.038697001552631e-05,
      "loss": 3.4029,
      "step": 338420
    },
    {
      "epoch": 0.7050625,
      "grad_norm": 0.9003691077232361,
      "learning_rate": 6.037906435469214e-05,
      "loss": 3.3141,
      "step": 338430
    },
    {
      "epoch": 0.7050833333333333,
      "grad_norm": 0.8306916356086731,
      "learning_rate": 6.037115908098493e-05,
      "loss": 3.2156,
      "step": 338440
    },
    {
      "epoch": 0.7051041666666666,
      "grad_norm": 0.9323473572731018,
      "learning_rate": 6.0363254194438825e-05,
      "loss": 3.2985,
      "step": 338450
    },
    {
      "epoch": 0.705125,
      "grad_norm": 0.9199239611625671,
      "learning_rate": 6.0355349695088046e-05,
      "loss": 3.356,
      "step": 338460
    },
    {
      "epoch": 0.7051458333333334,
      "grad_norm": 0.9742636680603027,
      "learning_rate": 6.0347445582966564e-05,
      "loss": 3.3659,
      "step": 338470
    },
    {
      "epoch": 0.7051666666666667,
      "grad_norm": 0.9171127676963806,
      "learning_rate": 6.033954185810867e-05,
      "loss": 3.5127,
      "step": 338480
    },
    {
      "epoch": 0.7051875,
      "grad_norm": 0.8193149566650391,
      "learning_rate": 6.033163852054854e-05,
      "loss": 3.5366,
      "step": 338490
    },
    {
      "epoch": 0.7052083333333333,
      "grad_norm": 0.904579222202301,
      "learning_rate": 6.0323735570320106e-05,
      "loss": 3.3803,
      "step": 338500
    },
    {
      "epoch": 0.7052291666666667,
      "grad_norm": 0.9098594784736633,
      "learning_rate": 6.031583300745771e-05,
      "loss": 3.3917,
      "step": 338510
    },
    {
      "epoch": 0.70525,
      "grad_norm": 0.8760013580322266,
      "learning_rate": 6.030793083199546e-05,
      "loss": 3.4574,
      "step": 338520
    },
    {
      "epoch": 0.7052708333333333,
      "grad_norm": 0.834967851638794,
      "learning_rate": 6.030002904396735e-05,
      "loss": 3.3034,
      "step": 338530
    },
    {
      "epoch": 0.7052916666666667,
      "grad_norm": 1.030895709991455,
      "learning_rate": 6.0292127643407655e-05,
      "loss": 3.4983,
      "step": 338540
    },
    {
      "epoch": 0.7053125,
      "grad_norm": 0.9239803552627563,
      "learning_rate": 6.0284226630350514e-05,
      "loss": 3.3411,
      "step": 338550
    },
    {
      "epoch": 0.7053333333333334,
      "grad_norm": 0.8594924211502075,
      "learning_rate": 6.027632600482989e-05,
      "loss": 3.4451,
      "step": 338560
    },
    {
      "epoch": 0.7053541666666666,
      "grad_norm": 0.9266601800918579,
      "learning_rate": 6.026842576688009e-05,
      "loss": 3.3217,
      "step": 338570
    },
    {
      "epoch": 0.705375,
      "grad_norm": 0.8231685757637024,
      "learning_rate": 6.0260525916535225e-05,
      "loss": 3.3366,
      "step": 338580
    },
    {
      "epoch": 0.7053958333333333,
      "grad_norm": 0.858320415019989,
      "learning_rate": 6.0252626453829293e-05,
      "loss": 3.5318,
      "step": 338590
    },
    {
      "epoch": 0.7054166666666667,
      "grad_norm": 0.8724032640457153,
      "learning_rate": 6.024472737879651e-05,
      "loss": 3.4804,
      "step": 338600
    },
    {
      "epoch": 0.7054375,
      "grad_norm": 0.9379303455352783,
      "learning_rate": 6.023682869147097e-05,
      "loss": 3.4388,
      "step": 338610
    },
    {
      "epoch": 0.7054583333333333,
      "grad_norm": 1.0202654600143433,
      "learning_rate": 6.022893039188679e-05,
      "loss": 3.3658,
      "step": 338620
    },
    {
      "epoch": 0.7054791666666667,
      "grad_norm": 0.871196448802948,
      "learning_rate": 6.022103248007811e-05,
      "loss": 3.3721,
      "step": 338630
    },
    {
      "epoch": 0.7055,
      "grad_norm": 0.8383857011795044,
      "learning_rate": 6.021313495607904e-05,
      "loss": 3.3495,
      "step": 338640
    },
    {
      "epoch": 0.7055208333333334,
      "grad_norm": 0.8634051084518433,
      "learning_rate": 6.020523781992366e-05,
      "loss": 3.3432,
      "step": 338650
    },
    {
      "epoch": 0.7055416666666666,
      "grad_norm": 1.181190848350525,
      "learning_rate": 6.019734107164613e-05,
      "loss": 3.3416,
      "step": 338660
    },
    {
      "epoch": 0.7055625,
      "grad_norm": 0.8476355075836182,
      "learning_rate": 6.018944471128054e-05,
      "loss": 3.3393,
      "step": 338670
    },
    {
      "epoch": 0.7055833333333333,
      "grad_norm": 0.895358681678772,
      "learning_rate": 6.0181548738861e-05,
      "loss": 3.4468,
      "step": 338680
    },
    {
      "epoch": 0.7056041666666667,
      "grad_norm": 0.7964476346969604,
      "learning_rate": 6.0173653154421615e-05,
      "loss": 3.4565,
      "step": 338690
    },
    {
      "epoch": 0.705625,
      "grad_norm": 0.8813261389732361,
      "learning_rate": 6.016575795799648e-05,
      "loss": 3.446,
      "step": 338700
    },
    {
      "epoch": 0.7056458333333333,
      "grad_norm": 0.7935768365859985,
      "learning_rate": 6.0157863149619725e-05,
      "loss": 3.3893,
      "step": 338710
    },
    {
      "epoch": 0.7056666666666667,
      "grad_norm": 0.8826884031295776,
      "learning_rate": 6.014996872932543e-05,
      "loss": 3.3901,
      "step": 338720
    },
    {
      "epoch": 0.7056875,
      "grad_norm": 0.8719770908355713,
      "learning_rate": 6.014207469714771e-05,
      "loss": 3.4869,
      "step": 338730
    },
    {
      "epoch": 0.7057083333333334,
      "grad_norm": 0.9002987742424011,
      "learning_rate": 6.0134181053120654e-05,
      "loss": 3.3657,
      "step": 338740
    },
    {
      "epoch": 0.7057291666666666,
      "grad_norm": 0.8683737516403198,
      "learning_rate": 6.0126287797278386e-05,
      "loss": 3.3469,
      "step": 338750
    },
    {
      "epoch": 0.70575,
      "grad_norm": 0.9225031733512878,
      "learning_rate": 6.0118394929654954e-05,
      "loss": 3.4866,
      "step": 338760
    },
    {
      "epoch": 0.7057708333333333,
      "grad_norm": 0.9278920888900757,
      "learning_rate": 6.0110502450284496e-05,
      "loss": 3.6159,
      "step": 338770
    },
    {
      "epoch": 0.7057916666666667,
      "grad_norm": 0.9127662181854248,
      "learning_rate": 6.010261035920108e-05,
      "loss": 3.4499,
      "step": 338780
    },
    {
      "epoch": 0.7058125,
      "grad_norm": 1.0247050523757935,
      "learning_rate": 6.009471865643879e-05,
      "loss": 3.3479,
      "step": 338790
    },
    {
      "epoch": 0.7058333333333333,
      "grad_norm": 0.9368102550506592,
      "learning_rate": 6.0086827342031744e-05,
      "loss": 3.4007,
      "step": 338800
    },
    {
      "epoch": 0.7058541666666667,
      "grad_norm": 1.1678240299224854,
      "learning_rate": 6.007893641601402e-05,
      "loss": 3.3414,
      "step": 338810
    },
    {
      "epoch": 0.705875,
      "grad_norm": 0.9503335356712341,
      "learning_rate": 6.0071045878419676e-05,
      "loss": 3.1945,
      "step": 338820
    },
    {
      "epoch": 0.7058958333333333,
      "grad_norm": 0.9144895672798157,
      "learning_rate": 6.0063155729282894e-05,
      "loss": 3.4564,
      "step": 338830
    },
    {
      "epoch": 0.7059166666666666,
      "grad_norm": 0.726930558681488,
      "learning_rate": 6.0055265968637556e-05,
      "loss": 3.3125,
      "step": 338840
    },
    {
      "epoch": 0.7059375,
      "grad_norm": 0.8315483331680298,
      "learning_rate": 6.004737659651792e-05,
      "loss": 3.3522,
      "step": 338850
    },
    {
      "epoch": 0.7059583333333334,
      "grad_norm": 0.8205288648605347,
      "learning_rate": 6.003948761295808e-05,
      "loss": 3.3734,
      "step": 338860
    },
    {
      "epoch": 0.7059791666666667,
      "grad_norm": 0.8993824124336243,
      "learning_rate": 6.0031599017991976e-05,
      "loss": 3.36,
      "step": 338870
    },
    {
      "epoch": 0.706,
      "grad_norm": 0.7961106300354004,
      "learning_rate": 6.00237108116537e-05,
      "loss": 3.3148,
      "step": 338880
    },
    {
      "epoch": 0.7060208333333333,
      "grad_norm": 0.8737328052520752,
      "learning_rate": 6.00158229939775e-05,
      "loss": 3.3179,
      "step": 338890
    },
    {
      "epoch": 0.7060416666666667,
      "grad_norm": 0.889119565486908,
      "learning_rate": 6.000793556499727e-05,
      "loss": 3.3711,
      "step": 338900
    },
    {
      "epoch": 0.7060625,
      "grad_norm": 0.9771138429641724,
      "learning_rate": 6.000004852474707e-05,
      "loss": 3.3216,
      "step": 338910
    },
    {
      "epoch": 0.7060833333333333,
      "grad_norm": 0.8567636013031006,
      "learning_rate": 5.9992161873261144e-05,
      "loss": 3.4051,
      "step": 338920
    },
    {
      "epoch": 0.7061041666666666,
      "grad_norm": 0.937809944152832,
      "learning_rate": 5.9984275610573406e-05,
      "loss": 3.4565,
      "step": 338930
    },
    {
      "epoch": 0.706125,
      "grad_norm": 0.9070652723312378,
      "learning_rate": 5.9976389736717904e-05,
      "loss": 3.3644,
      "step": 338940
    },
    {
      "epoch": 0.7061458333333334,
      "grad_norm": 0.8875941634178162,
      "learning_rate": 5.996850425172888e-05,
      "loss": 3.3365,
      "step": 338950
    },
    {
      "epoch": 0.7061666666666667,
      "grad_norm": 0.7707005739212036,
      "learning_rate": 5.9960619155640226e-05,
      "loss": 3.3641,
      "step": 338960
    },
    {
      "epoch": 0.7061875,
      "grad_norm": 0.8775948882102966,
      "learning_rate": 5.995273444848606e-05,
      "loss": 3.4181,
      "step": 338970
    },
    {
      "epoch": 0.7062083333333333,
      "grad_norm": 1.1204348802566528,
      "learning_rate": 5.994485013030044e-05,
      "loss": 3.3602,
      "step": 338980
    },
    {
      "epoch": 0.7062291666666667,
      "grad_norm": 0.9362009763717651,
      "learning_rate": 5.993696620111741e-05,
      "loss": 3.4531,
      "step": 338990
    },
    {
      "epoch": 0.70625,
      "grad_norm": 0.898235559463501,
      "learning_rate": 5.992908266097103e-05,
      "loss": 3.4187,
      "step": 339000
    },
    {
      "epoch": 0.70625,
      "eval_loss": 4.049920082092285,
      "eval_runtime": 8.7293,
      "eval_samples_per_second": 1.146,
      "eval_steps_per_second": 0.344,
      "step": 339000
    },
    {
      "epoch": 0.7062708333333333,
      "grad_norm": 0.8847542405128479,
      "learning_rate": 5.9921199509895385e-05,
      "loss": 3.45,
      "step": 339010
    },
    {
      "epoch": 0.7062916666666667,
      "grad_norm": 0.8281949162483215,
      "learning_rate": 5.991331674792449e-05,
      "loss": 3.1731,
      "step": 339020
    },
    {
      "epoch": 0.7063125,
      "grad_norm": 0.8975710868835449,
      "learning_rate": 5.9905434375092403e-05,
      "loss": 3.3517,
      "step": 339030
    },
    {
      "epoch": 0.7063333333333334,
      "grad_norm": 0.8685798645019531,
      "learning_rate": 5.9897552391433186e-05,
      "loss": 3.4452,
      "step": 339040
    },
    {
      "epoch": 0.7063541666666666,
      "grad_norm": 0.7835320234298706,
      "learning_rate": 5.9889670796980864e-05,
      "loss": 3.4966,
      "step": 339050
    },
    {
      "epoch": 0.706375,
      "grad_norm": 0.8474695086479187,
      "learning_rate": 5.9881789591769516e-05,
      "loss": 3.2538,
      "step": 339060
    },
    {
      "epoch": 0.7063958333333333,
      "grad_norm": 0.8461726903915405,
      "learning_rate": 5.987390877583315e-05,
      "loss": 3.4854,
      "step": 339070
    },
    {
      "epoch": 0.7064166666666667,
      "grad_norm": 1.427543044090271,
      "learning_rate": 5.9866028349205835e-05,
      "loss": 3.4361,
      "step": 339080
    },
    {
      "epoch": 0.7064375,
      "grad_norm": 0.8587713241577148,
      "learning_rate": 5.98581483119216e-05,
      "loss": 3.428,
      "step": 339090
    },
    {
      "epoch": 0.7064583333333333,
      "grad_norm": 0.8276692628860474,
      "learning_rate": 5.985026866401447e-05,
      "loss": 3.3605,
      "step": 339100
    },
    {
      "epoch": 0.7064791666666667,
      "grad_norm": 0.8979912996292114,
      "learning_rate": 5.984238940551849e-05,
      "loss": 3.3024,
      "step": 339110
    },
    {
      "epoch": 0.7065,
      "grad_norm": 0.8296206593513489,
      "learning_rate": 5.9834510536467726e-05,
      "loss": 3.3649,
      "step": 339120
    },
    {
      "epoch": 0.7065208333333334,
      "grad_norm": 0.8127347230911255,
      "learning_rate": 5.982663205689618e-05,
      "loss": 3.4565,
      "step": 339130
    },
    {
      "epoch": 0.7065416666666666,
      "grad_norm": 0.8671718239784241,
      "learning_rate": 5.9818753966837886e-05,
      "loss": 3.2016,
      "step": 339140
    },
    {
      "epoch": 0.7065625,
      "grad_norm": 0.7959746718406677,
      "learning_rate": 5.9810876266326865e-05,
      "loss": 3.3867,
      "step": 339150
    },
    {
      "epoch": 0.7065833333333333,
      "grad_norm": 0.8059556484222412,
      "learning_rate": 5.9802998955397183e-05,
      "loss": 3.3665,
      "step": 339160
    },
    {
      "epoch": 0.7066041666666667,
      "grad_norm": 0.8230097889900208,
      "learning_rate": 5.979512203408282e-05,
      "loss": 3.4331,
      "step": 339170
    },
    {
      "epoch": 0.706625,
      "grad_norm": 0.7867658734321594,
      "learning_rate": 5.9787245502417896e-05,
      "loss": 3.4324,
      "step": 339180
    },
    {
      "epoch": 0.7066458333333333,
      "grad_norm": 0.9533216953277588,
      "learning_rate": 5.977936936043625e-05,
      "loss": 3.4043,
      "step": 339190
    },
    {
      "epoch": 0.7066666666666667,
      "grad_norm": 0.8333850502967834,
      "learning_rate": 5.9771493608172064e-05,
      "loss": 3.3354,
      "step": 339200
    },
    {
      "epoch": 0.7066875,
      "grad_norm": 0.869991660118103,
      "learning_rate": 5.9763618245659376e-05,
      "loss": 3.4,
      "step": 339210
    },
    {
      "epoch": 0.7067083333333334,
      "grad_norm": 0.860059916973114,
      "learning_rate": 5.9755743272932026e-05,
      "loss": 3.347,
      "step": 339220
    },
    {
      "epoch": 0.7067291666666666,
      "grad_norm": 0.8040398359298706,
      "learning_rate": 5.9747868690024254e-05,
      "loss": 3.385,
      "step": 339230
    },
    {
      "epoch": 0.70675,
      "grad_norm": 0.9597663879394531,
      "learning_rate": 5.9739994496969915e-05,
      "loss": 3.3279,
      "step": 339240
    },
    {
      "epoch": 0.7067708333333333,
      "grad_norm": 0.9125545024871826,
      "learning_rate": 5.973212069380301e-05,
      "loss": 3.2215,
      "step": 339250
    },
    {
      "epoch": 0.7067916666666667,
      "grad_norm": 0.821891188621521,
      "learning_rate": 5.972424728055772e-05,
      "loss": 3.3733,
      "step": 339260
    },
    {
      "epoch": 0.7068125,
      "grad_norm": 0.909906804561615,
      "learning_rate": 5.97163742572679e-05,
      "loss": 3.4374,
      "step": 339270
    },
    {
      "epoch": 0.7068333333333333,
      "grad_norm": 0.8870898485183716,
      "learning_rate": 5.970850162396755e-05,
      "loss": 3.3359,
      "step": 339280
    },
    {
      "epoch": 0.7068541666666667,
      "grad_norm": 0.8772039413452148,
      "learning_rate": 5.970062938069083e-05,
      "loss": 3.3813,
      "step": 339290
    },
    {
      "epoch": 0.706875,
      "grad_norm": 0.8874799609184265,
      "learning_rate": 5.9692757527471615e-05,
      "loss": 3.2728,
      "step": 339300
    },
    {
      "epoch": 0.7068958333333333,
      "grad_norm": 0.8590719699859619,
      "learning_rate": 5.968488606434387e-05,
      "loss": 3.4666,
      "step": 339310
    },
    {
      "epoch": 0.7069166666666666,
      "grad_norm": 0.9777628183364868,
      "learning_rate": 5.9677014991341784e-05,
      "loss": 3.4037,
      "step": 339320
    },
    {
      "epoch": 0.7069375,
      "grad_norm": 0.8241621255874634,
      "learning_rate": 5.966914430849918e-05,
      "loss": 3.3562,
      "step": 339330
    },
    {
      "epoch": 0.7069583333333334,
      "grad_norm": 0.9541004300117493,
      "learning_rate": 5.966127401585012e-05,
      "loss": 3.4376,
      "step": 339340
    },
    {
      "epoch": 0.7069791666666667,
      "grad_norm": 0.9194647669792175,
      "learning_rate": 5.965340411342861e-05,
      "loss": 3.3377,
      "step": 339350
    },
    {
      "epoch": 0.707,
      "grad_norm": 0.8737126588821411,
      "learning_rate": 5.9645534601268624e-05,
      "loss": 3.3261,
      "step": 339360
    },
    {
      "epoch": 0.7070208333333333,
      "grad_norm": 0.7949270606040955,
      "learning_rate": 5.9637665479404166e-05,
      "loss": 3.2869,
      "step": 339370
    },
    {
      "epoch": 0.7070416666666667,
      "grad_norm": 0.815144419670105,
      "learning_rate": 5.962979674786921e-05,
      "loss": 3.334,
      "step": 339380
    },
    {
      "epoch": 0.7070625,
      "grad_norm": 0.8737381100654602,
      "learning_rate": 5.962192840669778e-05,
      "loss": 3.4303,
      "step": 339390
    },
    {
      "epoch": 0.7070833333333333,
      "grad_norm": 0.8107333183288574,
      "learning_rate": 5.961406045592383e-05,
      "loss": 3.4115,
      "step": 339400
    },
    {
      "epoch": 0.7071041666666666,
      "grad_norm": 0.8432108163833618,
      "learning_rate": 5.9606192895581376e-05,
      "loss": 3.4152,
      "step": 339410
    },
    {
      "epoch": 0.707125,
      "grad_norm": 0.8856691718101501,
      "learning_rate": 5.9598325725704385e-05,
      "loss": 3.3183,
      "step": 339420
    },
    {
      "epoch": 0.7071458333333334,
      "grad_norm": 0.9069876670837402,
      "learning_rate": 5.9590458946326835e-05,
      "loss": 3.4362,
      "step": 339430
    },
    {
      "epoch": 0.7071666666666667,
      "grad_norm": 0.9956687688827515,
      "learning_rate": 5.958259255748272e-05,
      "loss": 3.3766,
      "step": 339440
    },
    {
      "epoch": 0.7071875,
      "grad_norm": 0.848716676235199,
      "learning_rate": 5.9574726559206024e-05,
      "loss": 3.33,
      "step": 339450
    },
    {
      "epoch": 0.7072083333333333,
      "grad_norm": 0.8348633646965027,
      "learning_rate": 5.956686095153077e-05,
      "loss": 3.4151,
      "step": 339460
    },
    {
      "epoch": 0.7072291666666667,
      "grad_norm": 0.8075253367424011,
      "learning_rate": 5.955899573449076e-05,
      "loss": 3.308,
      "step": 339470
    },
    {
      "epoch": 0.70725,
      "grad_norm": 0.8811551928520203,
      "learning_rate": 5.9551130908120145e-05,
      "loss": 3.3747,
      "step": 339480
    },
    {
      "epoch": 0.7072708333333333,
      "grad_norm": 0.8317793607711792,
      "learning_rate": 5.9543266472452904e-05,
      "loss": 3.4264,
      "step": 339490
    },
    {
      "epoch": 0.7072916666666667,
      "grad_norm": 0.833948016166687,
      "learning_rate": 5.9535402427522836e-05,
      "loss": 3.4026,
      "step": 339500
    },
    {
      "epoch": 0.7073125,
      "grad_norm": 0.9009998440742493,
      "learning_rate": 5.952753877336407e-05,
      "loss": 3.4823,
      "step": 339510
    },
    {
      "epoch": 0.7073333333333334,
      "grad_norm": 0.9760084748268127,
      "learning_rate": 5.951967551001059e-05,
      "loss": 3.3839,
      "step": 339520
    },
    {
      "epoch": 0.7073541666666666,
      "grad_norm": 0.8554180860519409,
      "learning_rate": 5.951181263749619e-05,
      "loss": 3.3431,
      "step": 339530
    },
    {
      "epoch": 0.707375,
      "grad_norm": 0.9536828994750977,
      "learning_rate": 5.9503950155854985e-05,
      "loss": 3.3737,
      "step": 339540
    },
    {
      "epoch": 0.7073958333333333,
      "grad_norm": 0.8786172866821289,
      "learning_rate": 5.949608806512096e-05,
      "loss": 3.39,
      "step": 339550
    },
    {
      "epoch": 0.7074166666666667,
      "grad_norm": 0.8715790510177612,
      "learning_rate": 5.948822636532789e-05,
      "loss": 3.3445,
      "step": 339560
    },
    {
      "epoch": 0.7074375,
      "grad_norm": 0.889277458190918,
      "learning_rate": 5.948036505650991e-05,
      "loss": 3.5299,
      "step": 339570
    },
    {
      "epoch": 0.7074583333333333,
      "grad_norm": 0.9083865284919739,
      "learning_rate": 5.947250413870097e-05,
      "loss": 3.3976,
      "step": 339580
    },
    {
      "epoch": 0.7074791666666667,
      "grad_norm": 1.0309189558029175,
      "learning_rate": 5.94646436119349e-05,
      "loss": 3.3464,
      "step": 339590
    },
    {
      "epoch": 0.7075,
      "grad_norm": 0.8926966190338135,
      "learning_rate": 5.945678347624581e-05,
      "loss": 3.3894,
      "step": 339600
    },
    {
      "epoch": 0.7075208333333334,
      "grad_norm": 0.8570526242256165,
      "learning_rate": 5.9448923731667536e-05,
      "loss": 3.4098,
      "step": 339610
    },
    {
      "epoch": 0.7075416666666666,
      "grad_norm": 0.9039905071258545,
      "learning_rate": 5.944106437823401e-05,
      "loss": 3.3929,
      "step": 339620
    },
    {
      "epoch": 0.7075625,
      "grad_norm": 0.935509979724884,
      "learning_rate": 5.943320541597936e-05,
      "loss": 3.3993,
      "step": 339630
    },
    {
      "epoch": 0.7075833333333333,
      "grad_norm": 0.7832105159759521,
      "learning_rate": 5.942534684493735e-05,
      "loss": 3.2719,
      "step": 339640
    },
    {
      "epoch": 0.7076041666666667,
      "grad_norm": 0.8399382829666138,
      "learning_rate": 5.9417488665141945e-05,
      "loss": 3.3111,
      "step": 339650
    },
    {
      "epoch": 0.707625,
      "grad_norm": 0.8733937740325928,
      "learning_rate": 5.940963087662723e-05,
      "loss": 3.3372,
      "step": 339660
    },
    {
      "epoch": 0.7076458333333333,
      "grad_norm": 0.8652839064598083,
      "learning_rate": 5.9401773479426995e-05,
      "loss": 3.2868,
      "step": 339670
    },
    {
      "epoch": 0.7076666666666667,
      "grad_norm": 0.9227579832077026,
      "learning_rate": 5.93939164735752e-05,
      "loss": 3.2852,
      "step": 339680
    },
    {
      "epoch": 0.7076875,
      "grad_norm": 0.815894365310669,
      "learning_rate": 5.938605985910591e-05,
      "loss": 3.5216,
      "step": 339690
    },
    {
      "epoch": 0.7077083333333334,
      "grad_norm": 0.8636585474014282,
      "learning_rate": 5.9378203636052925e-05,
      "loss": 3.2994,
      "step": 339700
    },
    {
      "epoch": 0.7077291666666666,
      "grad_norm": 0.8613489270210266,
      "learning_rate": 5.9370347804450194e-05,
      "loss": 3.2874,
      "step": 339710
    },
    {
      "epoch": 0.70775,
      "grad_norm": 0.8793544769287109,
      "learning_rate": 5.936249236433177e-05,
      "loss": 3.4195,
      "step": 339720
    },
    {
      "epoch": 0.7077708333333333,
      "grad_norm": 0.8166046738624573,
      "learning_rate": 5.9354637315731454e-05,
      "loss": 3.3177,
      "step": 339730
    },
    {
      "epoch": 0.7077916666666667,
      "grad_norm": 0.9035545587539673,
      "learning_rate": 5.934678265868324e-05,
      "loss": 3.4474,
      "step": 339740
    },
    {
      "epoch": 0.7078125,
      "grad_norm": 0.7968119382858276,
      "learning_rate": 5.9338928393221024e-05,
      "loss": 3.4626,
      "step": 339750
    },
    {
      "epoch": 0.7078333333333333,
      "grad_norm": 0.798682451248169,
      "learning_rate": 5.9331074519378764e-05,
      "loss": 3.3104,
      "step": 339760
    },
    {
      "epoch": 0.7078541666666667,
      "grad_norm": 0.9040618538856506,
      "learning_rate": 5.932322103719036e-05,
      "loss": 3.4065,
      "step": 339770
    },
    {
      "epoch": 0.707875,
      "grad_norm": 0.923438549041748,
      "learning_rate": 5.9315367946689756e-05,
      "loss": 3.4968,
      "step": 339780
    },
    {
      "epoch": 0.7078958333333333,
      "grad_norm": 0.979012668132782,
      "learning_rate": 5.930751524791087e-05,
      "loss": 3.381,
      "step": 339790
    },
    {
      "epoch": 0.7079166666666666,
      "grad_norm": 0.8637819290161133,
      "learning_rate": 5.929966294088762e-05,
      "loss": 3.3242,
      "step": 339800
    },
    {
      "epoch": 0.7079375,
      "grad_norm": 0.8300042748451233,
      "learning_rate": 5.929181102565392e-05,
      "loss": 3.3951,
      "step": 339810
    },
    {
      "epoch": 0.7079583333333334,
      "grad_norm": 0.8328511714935303,
      "learning_rate": 5.928395950224369e-05,
      "loss": 3.262,
      "step": 339820
    },
    {
      "epoch": 0.7079791666666667,
      "grad_norm": 0.7993038296699524,
      "learning_rate": 5.9276108370690907e-05,
      "loss": 3.1884,
      "step": 339830
    },
    {
      "epoch": 0.708,
      "grad_norm": 0.8693861961364746,
      "learning_rate": 5.926825763102931e-05,
      "loss": 3.3851,
      "step": 339840
    },
    {
      "epoch": 0.7080208333333333,
      "grad_norm": 0.8710640072822571,
      "learning_rate": 5.9260407283292987e-05,
      "loss": 3.3704,
      "step": 339850
    },
    {
      "epoch": 0.7080416666666667,
      "grad_norm": 0.8086121678352356,
      "learning_rate": 5.925255732751583e-05,
      "loss": 3.2225,
      "step": 339860
    },
    {
      "epoch": 0.7080625,
      "grad_norm": 0.9024658203125,
      "learning_rate": 5.924470776373161e-05,
      "loss": 3.3118,
      "step": 339870
    },
    {
      "epoch": 0.7080833333333333,
      "grad_norm": 0.9479312896728516,
      "learning_rate": 5.9236858591974387e-05,
      "loss": 3.4967,
      "step": 339880
    },
    {
      "epoch": 0.7081041666666666,
      "grad_norm": 0.8064150810241699,
      "learning_rate": 5.922900981227805e-05,
      "loss": 3.4109,
      "step": 339890
    },
    {
      "epoch": 0.708125,
      "grad_norm": 0.8067702054977417,
      "learning_rate": 5.922116142467635e-05,
      "loss": 3.2462,
      "step": 339900
    },
    {
      "epoch": 0.7081458333333334,
      "grad_norm": 0.9036204814910889,
      "learning_rate": 5.9213313429203365e-05,
      "loss": 3.3216,
      "step": 339910
    },
    {
      "epoch": 0.7081666666666667,
      "grad_norm": 0.8894376754760742,
      "learning_rate": 5.9205465825892975e-05,
      "loss": 3.4221,
      "step": 339920
    },
    {
      "epoch": 0.7081875,
      "grad_norm": 0.8595169186592102,
      "learning_rate": 5.919761861477894e-05,
      "loss": 3.3221,
      "step": 339930
    },
    {
      "epoch": 0.7082083333333333,
      "grad_norm": 0.8269213438034058,
      "learning_rate": 5.918977179589529e-05,
      "loss": 3.3875,
      "step": 339940
    },
    {
      "epoch": 0.7082291666666667,
      "grad_norm": 0.8688158392906189,
      "learning_rate": 5.918192536927593e-05,
      "loss": 3.4274,
      "step": 339950
    },
    {
      "epoch": 0.70825,
      "grad_norm": 0.9297103881835938,
      "learning_rate": 5.917407933495461e-05,
      "loss": 3.2557,
      "step": 339960
    },
    {
      "epoch": 0.7082708333333333,
      "grad_norm": 0.8472685813903809,
      "learning_rate": 5.9166233692965426e-05,
      "loss": 3.3979,
      "step": 339970
    },
    {
      "epoch": 0.7082916666666667,
      "grad_norm": 0.8991625905036926,
      "learning_rate": 5.9158388443342086e-05,
      "loss": 3.4195,
      "step": 339980
    },
    {
      "epoch": 0.7083125,
      "grad_norm": 0.8606999516487122,
      "learning_rate": 5.915054358611851e-05,
      "loss": 3.4108,
      "step": 339990
    },
    {
      "epoch": 0.7083333333333334,
      "grad_norm": 0.7930686473846436,
      "learning_rate": 5.914269912132874e-05,
      "loss": 3.3465,
      "step": 340000
    },
    {
      "epoch": 0.7083333333333334,
      "eval_loss": 4.04978084564209,
      "eval_runtime": 8.6745,
      "eval_samples_per_second": 1.153,
      "eval_steps_per_second": 0.346,
      "step": 340000
    },
    {
      "epoch": 0.7083541666666666,
      "grad_norm": 0.8750863671302795,
      "learning_rate": 5.9134855049006466e-05,
      "loss": 3.2286,
      "step": 340010
    },
    {
      "epoch": 0.708375,
      "grad_norm": 0.9667219519615173,
      "learning_rate": 5.912701136918562e-05,
      "loss": 3.4136,
      "step": 340020
    },
    {
      "epoch": 0.7083958333333333,
      "grad_norm": 0.8930857181549072,
      "learning_rate": 5.911916808190022e-05,
      "loss": 3.3553,
      "step": 340030
    },
    {
      "epoch": 0.7084166666666667,
      "grad_norm": 0.8404668569564819,
      "learning_rate": 5.911132518718398e-05,
      "loss": 3.3496,
      "step": 340040
    },
    {
      "epoch": 0.7084375,
      "grad_norm": 0.8714073300361633,
      "learning_rate": 5.910348268507085e-05,
      "loss": 3.5242,
      "step": 340050
    },
    {
      "epoch": 0.7084583333333333,
      "grad_norm": 0.8409020304679871,
      "learning_rate": 5.909564057559468e-05,
      "loss": 3.3325,
      "step": 340060
    },
    {
      "epoch": 0.7084791666666667,
      "grad_norm": 0.8306242227554321,
      "learning_rate": 5.9087798858789366e-05,
      "loss": 3.3986,
      "step": 340070
    },
    {
      "epoch": 0.7085,
      "grad_norm": 0.9672286510467529,
      "learning_rate": 5.907995753468878e-05,
      "loss": 3.3572,
      "step": 340080
    },
    {
      "epoch": 0.7085208333333334,
      "grad_norm": 0.9011068344116211,
      "learning_rate": 5.907211660332679e-05,
      "loss": 3.4039,
      "step": 340090
    },
    {
      "epoch": 0.7085416666666666,
      "grad_norm": 0.9053728580474854,
      "learning_rate": 5.906427606473726e-05,
      "loss": 3.318,
      "step": 340100
    },
    {
      "epoch": 0.7085625,
      "grad_norm": 0.8364453315734863,
      "learning_rate": 5.905643591895406e-05,
      "loss": 3.5473,
      "step": 340110
    },
    {
      "epoch": 0.7085833333333333,
      "grad_norm": 0.8312424421310425,
      "learning_rate": 5.904859616601106e-05,
      "loss": 3.2887,
      "step": 340120
    },
    {
      "epoch": 0.7086041666666667,
      "grad_norm": 0.7863523364067078,
      "learning_rate": 5.904075680594214e-05,
      "loss": 3.3017,
      "step": 340130
    },
    {
      "epoch": 0.708625,
      "grad_norm": 0.8364839553833008,
      "learning_rate": 5.903291783878113e-05,
      "loss": 3.3362,
      "step": 340140
    },
    {
      "epoch": 0.7086458333333333,
      "grad_norm": 0.8038243055343628,
      "learning_rate": 5.9025079264561906e-05,
      "loss": 3.3287,
      "step": 340150
    },
    {
      "epoch": 0.7086666666666667,
      "grad_norm": 0.874977707862854,
      "learning_rate": 5.901724108331833e-05,
      "loss": 3.4131,
      "step": 340160
    },
    {
      "epoch": 0.7086875,
      "grad_norm": 0.9362190365791321,
      "learning_rate": 5.900940329508426e-05,
      "loss": 3.4724,
      "step": 340170
    },
    {
      "epoch": 0.7087083333333334,
      "grad_norm": 0.8729395270347595,
      "learning_rate": 5.900156589989356e-05,
      "loss": 3.4352,
      "step": 340180
    },
    {
      "epoch": 0.7087291666666666,
      "grad_norm": 0.9918355345726013,
      "learning_rate": 5.899372889778006e-05,
      "loss": 3.3098,
      "step": 340190
    },
    {
      "epoch": 0.70875,
      "grad_norm": 0.8934375643730164,
      "learning_rate": 5.898589228877764e-05,
      "loss": 3.3888,
      "step": 340200
    },
    {
      "epoch": 0.7087708333333333,
      "grad_norm": 0.8086340427398682,
      "learning_rate": 5.8978056072920135e-05,
      "loss": 3.3237,
      "step": 340210
    },
    {
      "epoch": 0.7087916666666667,
      "grad_norm": 0.7703076004981995,
      "learning_rate": 5.8970220250241405e-05,
      "loss": 3.4405,
      "step": 340220
    },
    {
      "epoch": 0.7088125,
      "grad_norm": 0.8235657215118408,
      "learning_rate": 5.896238482077534e-05,
      "loss": 3.3548,
      "step": 340230
    },
    {
      "epoch": 0.7088333333333333,
      "grad_norm": 1.015584945678711,
      "learning_rate": 5.895454978455562e-05,
      "loss": 3.3704,
      "step": 340240
    },
    {
      "epoch": 0.7088541666666667,
      "grad_norm": 0.8823567032814026,
      "learning_rate": 5.894671514161628e-05,
      "loss": 3.3593,
      "step": 340250
    },
    {
      "epoch": 0.708875,
      "grad_norm": 0.849604070186615,
      "learning_rate": 5.8938880891991136e-05,
      "loss": 3.4435,
      "step": 340260
    },
    {
      "epoch": 0.7088958333333333,
      "grad_norm": 0.794547975063324,
      "learning_rate": 5.893104703571386e-05,
      "loss": 3.4216,
      "step": 340270
    },
    {
      "epoch": 0.7089166666666666,
      "grad_norm": 0.7652407288551331,
      "learning_rate": 5.8923213572818486e-05,
      "loss": 3.4403,
      "step": 340280
    },
    {
      "epoch": 0.7089375,
      "grad_norm": 0.8467196822166443,
      "learning_rate": 5.891538050333882e-05,
      "loss": 3.4167,
      "step": 340290
    },
    {
      "epoch": 0.7089583333333334,
      "grad_norm": 0.8158938884735107,
      "learning_rate": 5.8907547827308565e-05,
      "loss": 3.6066,
      "step": 340300
    },
    {
      "epoch": 0.7089791666666667,
      "grad_norm": 0.9226822257041931,
      "learning_rate": 5.889971554476169e-05,
      "loss": 3.4141,
      "step": 340310
    },
    {
      "epoch": 0.709,
      "grad_norm": 0.9196388721466064,
      "learning_rate": 5.889188365573203e-05,
      "loss": 3.4109,
      "step": 340320
    },
    {
      "epoch": 0.7090208333333333,
      "grad_norm": 0.9211615920066833,
      "learning_rate": 5.888405216025328e-05,
      "loss": 3.4024,
      "step": 340330
    },
    {
      "epoch": 0.7090416666666667,
      "grad_norm": 0.8015685677528381,
      "learning_rate": 5.8876221058359447e-05,
      "loss": 3.4659,
      "step": 340340
    },
    {
      "epoch": 0.7090625,
      "grad_norm": 0.8768309354782104,
      "learning_rate": 5.886839035008423e-05,
      "loss": 3.3352,
      "step": 340350
    },
    {
      "epoch": 0.7090833333333333,
      "grad_norm": 0.8113852143287659,
      "learning_rate": 5.886056003546148e-05,
      "loss": 3.2487,
      "step": 340360
    },
    {
      "epoch": 0.7091041666666666,
      "grad_norm": 1.017541766166687,
      "learning_rate": 5.885273011452504e-05,
      "loss": 3.392,
      "step": 340370
    },
    {
      "epoch": 0.709125,
      "grad_norm": 0.9341973662376404,
      "learning_rate": 5.884490058730875e-05,
      "loss": 3.2756,
      "step": 340380
    },
    {
      "epoch": 0.7091458333333334,
      "grad_norm": 0.9097672700881958,
      "learning_rate": 5.883707145384638e-05,
      "loss": 3.4402,
      "step": 340390
    },
    {
      "epoch": 0.7091666666666666,
      "grad_norm": 0.8674021363258362,
      "learning_rate": 5.882924271417178e-05,
      "loss": 3.3786,
      "step": 340400
    },
    {
      "epoch": 0.7091875,
      "grad_norm": 0.8611627221107483,
      "learning_rate": 5.8821414368318776e-05,
      "loss": 3.4316,
      "step": 340410
    },
    {
      "epoch": 0.7092083333333333,
      "grad_norm": 0.8239923715591431,
      "learning_rate": 5.881358641632117e-05,
      "loss": 3.3914,
      "step": 340420
    },
    {
      "epoch": 0.7092291666666667,
      "grad_norm": 0.8121366500854492,
      "learning_rate": 5.880575885821276e-05,
      "loss": 3.202,
      "step": 340430
    },
    {
      "epoch": 0.70925,
      "grad_norm": 1.011251449584961,
      "learning_rate": 5.879793169402739e-05,
      "loss": 3.4579,
      "step": 340440
    },
    {
      "epoch": 0.7092708333333333,
      "grad_norm": 0.9487495422363281,
      "learning_rate": 5.879010492379885e-05,
      "loss": 3.4161,
      "step": 340450
    },
    {
      "epoch": 0.7092916666666667,
      "grad_norm": 0.8963544964790344,
      "learning_rate": 5.8782278547560947e-05,
      "loss": 3.2731,
      "step": 340460
    },
    {
      "epoch": 0.7093125,
      "grad_norm": 0.985734224319458,
      "learning_rate": 5.8774452565347505e-05,
      "loss": 3.2612,
      "step": 340470
    },
    {
      "epoch": 0.7093333333333334,
      "grad_norm": 0.8594396114349365,
      "learning_rate": 5.8766626977192304e-05,
      "loss": 3.4126,
      "step": 340480
    },
    {
      "epoch": 0.7093541666666666,
      "grad_norm": 0.9326693415641785,
      "learning_rate": 5.875880178312918e-05,
      "loss": 3.4638,
      "step": 340490
    },
    {
      "epoch": 0.709375,
      "grad_norm": 0.8352999687194824,
      "learning_rate": 5.8750976983191916e-05,
      "loss": 3.302,
      "step": 340500
    },
    {
      "epoch": 0.7093958333333333,
      "grad_norm": 0.8301183581352234,
      "learning_rate": 5.8743152577414295e-05,
      "loss": 3.3383,
      "step": 340510
    },
    {
      "epoch": 0.7094166666666667,
      "grad_norm": 0.853013813495636,
      "learning_rate": 5.873532856583015e-05,
      "loss": 3.1795,
      "step": 340520
    },
    {
      "epoch": 0.7094375,
      "grad_norm": 0.8239157795906067,
      "learning_rate": 5.8727504948473255e-05,
      "loss": 3.3378,
      "step": 340530
    },
    {
      "epoch": 0.7094583333333333,
      "grad_norm": 0.9082593321800232,
      "learning_rate": 5.87196817253774e-05,
      "loss": 3.4356,
      "step": 340540
    },
    {
      "epoch": 0.7094791666666667,
      "grad_norm": 0.8729808330535889,
      "learning_rate": 5.8711858896576393e-05,
      "loss": 3.493,
      "step": 340550
    },
    {
      "epoch": 0.7095,
      "grad_norm": 0.9351986646652222,
      "learning_rate": 5.870403646210404e-05,
      "loss": 3.2884,
      "step": 340560
    },
    {
      "epoch": 0.7095208333333334,
      "grad_norm": 0.8098917007446289,
      "learning_rate": 5.869621442199409e-05,
      "loss": 3.2649,
      "step": 340570
    },
    {
      "epoch": 0.7095416666666666,
      "grad_norm": 0.8594835996627808,
      "learning_rate": 5.868839277628036e-05,
      "loss": 3.3205,
      "step": 340580
    },
    {
      "epoch": 0.7095625,
      "grad_norm": 1.0236726999282837,
      "learning_rate": 5.868057152499662e-05,
      "loss": 3.2529,
      "step": 340590
    },
    {
      "epoch": 0.7095833333333333,
      "grad_norm": 0.94048011302948,
      "learning_rate": 5.8672750668176745e-05,
      "loss": 3.3243,
      "step": 340600
    },
    {
      "epoch": 0.7096041666666667,
      "grad_norm": 0.8585600852966309,
      "learning_rate": 5.86649302058543e-05,
      "loss": 3.2678,
      "step": 340610
    },
    {
      "epoch": 0.709625,
      "grad_norm": 0.847409188747406,
      "learning_rate": 5.865711013806328e-05,
      "loss": 3.4643,
      "step": 340620
    },
    {
      "epoch": 0.7096458333333333,
      "grad_norm": 0.94149249792099,
      "learning_rate": 5.8649290464837425e-05,
      "loss": 3.363,
      "step": 340630
    },
    {
      "epoch": 0.7096666666666667,
      "grad_norm": 0.9115339517593384,
      "learning_rate": 5.8641471186210434e-05,
      "loss": 3.3884,
      "step": 340640
    },
    {
      "epoch": 0.7096875,
      "grad_norm": 0.8678321242332458,
      "learning_rate": 5.863365230221606e-05,
      "loss": 3.4927,
      "step": 340650
    },
    {
      "epoch": 0.7097083333333334,
      "grad_norm": 0.846558690071106,
      "learning_rate": 5.862583381288827e-05,
      "loss": 3.3462,
      "step": 340660
    },
    {
      "epoch": 0.7097291666666666,
      "grad_norm": 1.015372633934021,
      "learning_rate": 5.861801571826063e-05,
      "loss": 3.2512,
      "step": 340670
    },
    {
      "epoch": 0.70975,
      "grad_norm": 0.9235221147537231,
      "learning_rate": 5.861019801836695e-05,
      "loss": 3.3119,
      "step": 340680
    },
    {
      "epoch": 0.7097708333333334,
      "grad_norm": 0.8725039958953857,
      "learning_rate": 5.860238071324115e-05,
      "loss": 3.3461,
      "step": 340690
    },
    {
      "epoch": 0.7097916666666667,
      "grad_norm": 0.9449498653411865,
      "learning_rate": 5.859456380291683e-05,
      "loss": 3.4158,
      "step": 340700
    },
    {
      "epoch": 0.7098125,
      "grad_norm": 1.0527379512786865,
      "learning_rate": 5.8586747287427764e-05,
      "loss": 3.4981,
      "step": 340710
    },
    {
      "epoch": 0.7098333333333333,
      "grad_norm": 0.9275594353675842,
      "learning_rate": 5.8578931166807866e-05,
      "loss": 3.1367,
      "step": 340720
    },
    {
      "epoch": 0.7098541666666667,
      "grad_norm": 0.7827463150024414,
      "learning_rate": 5.857111544109075e-05,
      "loss": 3.3551,
      "step": 340730
    },
    {
      "epoch": 0.709875,
      "grad_norm": 0.8717444539070129,
      "learning_rate": 5.856330011031023e-05,
      "loss": 3.4181,
      "step": 340740
    },
    {
      "epoch": 0.7098958333333333,
      "grad_norm": 0.8433891534805298,
      "learning_rate": 5.855548517450005e-05,
      "loss": 3.4161,
      "step": 340750
    },
    {
      "epoch": 0.7099166666666666,
      "grad_norm": 0.9329050779342651,
      "learning_rate": 5.8547670633693984e-05,
      "loss": 3.3271,
      "step": 340760
    },
    {
      "epoch": 0.7099375,
      "grad_norm": 0.7985622882843018,
      "learning_rate": 5.8539856487925785e-05,
      "loss": 3.4305,
      "step": 340770
    },
    {
      "epoch": 0.7099583333333334,
      "grad_norm": 0.8501120209693909,
      "learning_rate": 5.8532042737229196e-05,
      "loss": 3.2667,
      "step": 340780
    },
    {
      "epoch": 0.7099791666666667,
      "grad_norm": 0.8005174398422241,
      "learning_rate": 5.852422938163797e-05,
      "loss": 3.4142,
      "step": 340790
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.8047569990158081,
      "learning_rate": 5.8516416421185884e-05,
      "loss": 3.3733,
      "step": 340800
    },
    {
      "epoch": 0.7100208333333333,
      "grad_norm": 0.8264987468719482,
      "learning_rate": 5.850860385590666e-05,
      "loss": 3.3836,
      "step": 340810
    },
    {
      "epoch": 0.7100416666666667,
      "grad_norm": 0.8721144199371338,
      "learning_rate": 5.8500791685834056e-05,
      "loss": 3.4047,
      "step": 340820
    },
    {
      "epoch": 0.7100625,
      "grad_norm": 0.869935929775238,
      "learning_rate": 5.8492979911001804e-05,
      "loss": 3.5139,
      "step": 340830
    },
    {
      "epoch": 0.7100833333333333,
      "grad_norm": 0.7927100658416748,
      "learning_rate": 5.848516853144365e-05,
      "loss": 3.3855,
      "step": 340840
    },
    {
      "epoch": 0.7101041666666666,
      "grad_norm": 0.84504634141922,
      "learning_rate": 5.8477357547193366e-05,
      "loss": 3.4049,
      "step": 340850
    },
    {
      "epoch": 0.710125,
      "grad_norm": 0.7872732877731323,
      "learning_rate": 5.846954695828466e-05,
      "loss": 3.3004,
      "step": 340860
    },
    {
      "epoch": 0.7101458333333334,
      "grad_norm": 0.8511335253715515,
      "learning_rate": 5.846173676475127e-05,
      "loss": 3.3958,
      "step": 340870
    },
    {
      "epoch": 0.7101666666666666,
      "grad_norm": 0.8248862624168396,
      "learning_rate": 5.845392696662696e-05,
      "loss": 3.4451,
      "step": 340880
    },
    {
      "epoch": 0.7101875,
      "grad_norm": 0.7710299491882324,
      "learning_rate": 5.844611756394544e-05,
      "loss": 3.5189,
      "step": 340890
    },
    {
      "epoch": 0.7102083333333333,
      "grad_norm": 0.9896509051322937,
      "learning_rate": 5.8438308556740466e-05,
      "loss": 3.3763,
      "step": 340900
    },
    {
      "epoch": 0.7102291666666667,
      "grad_norm": 0.875756025314331,
      "learning_rate": 5.843049994504573e-05,
      "loss": 3.4009,
      "step": 340910
    },
    {
      "epoch": 0.71025,
      "grad_norm": 0.9535810351371765,
      "learning_rate": 5.842269172889501e-05,
      "loss": 3.3973,
      "step": 340920
    },
    {
      "epoch": 0.7102708333333333,
      "grad_norm": 0.8712384700775146,
      "learning_rate": 5.841488390832202e-05,
      "loss": 3.3948,
      "step": 340930
    },
    {
      "epoch": 0.7102916666666667,
      "grad_norm": 0.8677707314491272,
      "learning_rate": 5.840707648336046e-05,
      "loss": 3.3253,
      "step": 340940
    },
    {
      "epoch": 0.7103125,
      "grad_norm": 0.7847352027893066,
      "learning_rate": 5.839926945404413e-05,
      "loss": 3.3717,
      "step": 340950
    },
    {
      "epoch": 0.7103333333333334,
      "grad_norm": 0.8674128651618958,
      "learning_rate": 5.8391462820406596e-05,
      "loss": 3.4578,
      "step": 340960
    },
    {
      "epoch": 0.7103541666666666,
      "grad_norm": 0.9460985660552979,
      "learning_rate": 5.83836565824818e-05,
      "loss": 3.2442,
      "step": 340970
    },
    {
      "epoch": 0.710375,
      "grad_norm": 0.7739902138710022,
      "learning_rate": 5.837585074030327e-05,
      "loss": 3.4634,
      "step": 340980
    },
    {
      "epoch": 0.7103958333333333,
      "grad_norm": 0.8532705903053284,
      "learning_rate": 5.8368045293904756e-05,
      "loss": 3.4142,
      "step": 340990
    },
    {
      "epoch": 0.7104166666666667,
      "grad_norm": 0.8106660842895508,
      "learning_rate": 5.8360240243320114e-05,
      "loss": 3.4459,
      "step": 341000
    },
    {
      "epoch": 0.7104166666666667,
      "eval_loss": 4.048803806304932,
      "eval_runtime": 8.5991,
      "eval_samples_per_second": 1.163,
      "eval_steps_per_second": 0.349,
      "step": 341000
    },
    {
      "epoch": 0.7104375,
      "grad_norm": 0.8864739537239075,
      "learning_rate": 5.835243558858291e-05,
      "loss": 3.3246,
      "step": 341010
    },
    {
      "epoch": 0.7104583333333333,
      "grad_norm": 0.8590405583381653,
      "learning_rate": 5.8344631329726855e-05,
      "loss": 3.2299,
      "step": 341020
    },
    {
      "epoch": 0.7104791666666667,
      "grad_norm": 0.9575439095497131,
      "learning_rate": 5.833682746678583e-05,
      "loss": 3.3143,
      "step": 341030
    },
    {
      "epoch": 0.7105,
      "grad_norm": 0.9229803681373596,
      "learning_rate": 5.832902399979336e-05,
      "loss": 3.4342,
      "step": 341040
    },
    {
      "epoch": 0.7105208333333334,
      "grad_norm": 0.8227255344390869,
      "learning_rate": 5.8321220928783175e-05,
      "loss": 3.297,
      "step": 341050
    },
    {
      "epoch": 0.7105416666666666,
      "grad_norm": 0.8180865049362183,
      "learning_rate": 5.831341825378914e-05,
      "loss": 3.2674,
      "step": 341060
    },
    {
      "epoch": 0.7105625,
      "grad_norm": 0.8886284232139587,
      "learning_rate": 5.8305615974844785e-05,
      "loss": 3.3401,
      "step": 341070
    },
    {
      "epoch": 0.7105833333333333,
      "grad_norm": 0.8232462406158447,
      "learning_rate": 5.829781409198381e-05,
      "loss": 3.3612,
      "step": 341080
    },
    {
      "epoch": 0.7106041666666667,
      "grad_norm": 0.8792492151260376,
      "learning_rate": 5.8290012605240086e-05,
      "loss": 3.5135,
      "step": 341090
    },
    {
      "epoch": 0.710625,
      "grad_norm": 0.8872495293617249,
      "learning_rate": 5.828221151464716e-05,
      "loss": 3.3822,
      "step": 341100
    },
    {
      "epoch": 0.7106458333333333,
      "grad_norm": 0.8745009899139404,
      "learning_rate": 5.8274410820238794e-05,
      "loss": 3.2953,
      "step": 341110
    },
    {
      "epoch": 0.7106666666666667,
      "grad_norm": 0.885846734046936,
      "learning_rate": 5.826661052204865e-05,
      "loss": 3.3641,
      "step": 341120
    },
    {
      "epoch": 0.7106875,
      "grad_norm": 0.7835530042648315,
      "learning_rate": 5.825881062011043e-05,
      "loss": 3.3275,
      "step": 341130
    },
    {
      "epoch": 0.7107083333333334,
      "grad_norm": 0.8317423462867737,
      "learning_rate": 5.825101111445785e-05,
      "loss": 3.3841,
      "step": 341140
    },
    {
      "epoch": 0.7107291666666666,
      "grad_norm": 0.8908682465553284,
      "learning_rate": 5.824321200512457e-05,
      "loss": 3.4268,
      "step": 341150
    },
    {
      "epoch": 0.71075,
      "grad_norm": 0.8943554162979126,
      "learning_rate": 5.82354132921443e-05,
      "loss": 3.4151,
      "step": 341160
    },
    {
      "epoch": 0.7107708333333334,
      "grad_norm": 0.9465391635894775,
      "learning_rate": 5.8227614975550725e-05,
      "loss": 3.4255,
      "step": 341170
    },
    {
      "epoch": 0.7107916666666667,
      "grad_norm": 0.8842710852622986,
      "learning_rate": 5.8219817055377524e-05,
      "loss": 3.4826,
      "step": 341180
    },
    {
      "epoch": 0.7108125,
      "grad_norm": 0.8279262185096741,
      "learning_rate": 5.82120195316584e-05,
      "loss": 3.2923,
      "step": 341190
    },
    {
      "epoch": 0.7108333333333333,
      "grad_norm": 0.7909789085388184,
      "learning_rate": 5.8204222404426995e-05,
      "loss": 3.3829,
      "step": 341200
    },
    {
      "epoch": 0.7108541666666667,
      "grad_norm": 0.8689894676208496,
      "learning_rate": 5.819642567371703e-05,
      "loss": 3.3502,
      "step": 341210
    },
    {
      "epoch": 0.710875,
      "grad_norm": 0.8173418045043945,
      "learning_rate": 5.8188629339562166e-05,
      "loss": 3.3542,
      "step": 341220
    },
    {
      "epoch": 0.7108958333333333,
      "grad_norm": 0.9304617643356323,
      "learning_rate": 5.818083340199613e-05,
      "loss": 3.4215,
      "step": 341230
    },
    {
      "epoch": 0.7109166666666666,
      "grad_norm": 0.9300820827484131,
      "learning_rate": 5.817303786105245e-05,
      "loss": 3.3623,
      "step": 341240
    },
    {
      "epoch": 0.7109375,
      "grad_norm": 0.873770534992218,
      "learning_rate": 5.8165242716764936e-05,
      "loss": 3.3928,
      "step": 341250
    },
    {
      "epoch": 0.7109583333333334,
      "grad_norm": 0.8736826181411743,
      "learning_rate": 5.8157447969167294e-05,
      "loss": 3.3444,
      "step": 341260
    },
    {
      "epoch": 0.7109791666666667,
      "grad_norm": 0.8064607381820679,
      "learning_rate": 5.8149653618293e-05,
      "loss": 3.3782,
      "step": 341270
    },
    {
      "epoch": 0.711,
      "grad_norm": 0.7989372611045837,
      "learning_rate": 5.81418596641759e-05,
      "loss": 3.368,
      "step": 341280
    },
    {
      "epoch": 0.7110208333333333,
      "grad_norm": 0.8824687600135803,
      "learning_rate": 5.813406610684967e-05,
      "loss": 3.4642,
      "step": 341290
    },
    {
      "epoch": 0.7110416666666667,
      "grad_norm": 0.8234065771102905,
      "learning_rate": 5.81262729463478e-05,
      "loss": 3.3581,
      "step": 341300
    },
    {
      "epoch": 0.7110625,
      "grad_norm": 0.9238232374191284,
      "learning_rate": 5.811848018270413e-05,
      "loss": 3.3909,
      "step": 341310
    },
    {
      "epoch": 0.7110833333333333,
      "grad_norm": 0.9200659394264221,
      "learning_rate": 5.8110687815952303e-05,
      "loss": 3.3831,
      "step": 341320
    },
    {
      "epoch": 0.7111041666666666,
      "grad_norm": 0.8027563691139221,
      "learning_rate": 5.810289584612582e-05,
      "loss": 3.4634,
      "step": 341330
    },
    {
      "epoch": 0.711125,
      "grad_norm": 0.9353141784667969,
      "learning_rate": 5.809510427325855e-05,
      "loss": 3.4111,
      "step": 341340
    },
    {
      "epoch": 0.7111458333333334,
      "grad_norm": 0.8418646454811096,
      "learning_rate": 5.8087313097384006e-05,
      "loss": 3.2212,
      "step": 341350
    },
    {
      "epoch": 0.7111666666666666,
      "grad_norm": 0.8379383683204651,
      "learning_rate": 5.8079522318535846e-05,
      "loss": 3.365,
      "step": 341360
    },
    {
      "epoch": 0.7111875,
      "grad_norm": 0.9044052362442017,
      "learning_rate": 5.8071731936747865e-05,
      "loss": 3.3664,
      "step": 341370
    },
    {
      "epoch": 0.7112083333333333,
      "grad_norm": 0.844394326210022,
      "learning_rate": 5.806394195205356e-05,
      "loss": 3.363,
      "step": 341380
    },
    {
      "epoch": 0.7112291666666667,
      "grad_norm": 0.8345342874526978,
      "learning_rate": 5.805615236448658e-05,
      "loss": 3.2709,
      "step": 341390
    },
    {
      "epoch": 0.71125,
      "grad_norm": 0.8214896321296692,
      "learning_rate": 5.8048363174080724e-05,
      "loss": 3.2886,
      "step": 341400
    },
    {
      "epoch": 0.7112708333333333,
      "grad_norm": 0.8006800413131714,
      "learning_rate": 5.80405743808695e-05,
      "loss": 3.4712,
      "step": 341410
    },
    {
      "epoch": 0.7112916666666667,
      "grad_norm": 0.8226938247680664,
      "learning_rate": 5.803278598488654e-05,
      "loss": 3.2824,
      "step": 341420
    },
    {
      "epoch": 0.7113125,
      "grad_norm": 0.7990697622299194,
      "learning_rate": 5.802499798616565e-05,
      "loss": 3.5126,
      "step": 341430
    },
    {
      "epoch": 0.7113333333333334,
      "grad_norm": 0.8500626087188721,
      "learning_rate": 5.8017210384740306e-05,
      "loss": 3.2915,
      "step": 341440
    },
    {
      "epoch": 0.7113541666666666,
      "grad_norm": 0.8433298468589783,
      "learning_rate": 5.800942318064415e-05,
      "loss": 3.3397,
      "step": 341450
    },
    {
      "epoch": 0.711375,
      "grad_norm": 0.8699778318405151,
      "learning_rate": 5.8001636373910994e-05,
      "loss": 3.3918,
      "step": 341460
    },
    {
      "epoch": 0.7113958333333333,
      "grad_norm": 0.9816909432411194,
      "learning_rate": 5.799384996457428e-05,
      "loss": 3.3538,
      "step": 341470
    },
    {
      "epoch": 0.7114166666666667,
      "grad_norm": 0.8363016247749329,
      "learning_rate": 5.798606395266772e-05,
      "loss": 3.4406,
      "step": 341480
    },
    {
      "epoch": 0.7114375,
      "grad_norm": 0.8883139491081238,
      "learning_rate": 5.7978278338224945e-05,
      "loss": 3.4583,
      "step": 341490
    },
    {
      "epoch": 0.7114583333333333,
      "grad_norm": 0.7862737774848938,
      "learning_rate": 5.7970493121279584e-05,
      "loss": 3.497,
      "step": 341500
    },
    {
      "epoch": 0.7114791666666667,
      "grad_norm": 1.0029350519180298,
      "learning_rate": 5.7962708301865265e-05,
      "loss": 3.4341,
      "step": 341510
    },
    {
      "epoch": 0.7115,
      "grad_norm": 0.9119973182678223,
      "learning_rate": 5.7954923880015623e-05,
      "loss": 3.3806,
      "step": 341520
    },
    {
      "epoch": 0.7115208333333334,
      "grad_norm": 0.9488774538040161,
      "learning_rate": 5.794713985576426e-05,
      "loss": 3.3975,
      "step": 341530
    },
    {
      "epoch": 0.7115416666666666,
      "grad_norm": 0.7861440181732178,
      "learning_rate": 5.793935622914482e-05,
      "loss": 3.3353,
      "step": 341540
    },
    {
      "epoch": 0.7115625,
      "grad_norm": 0.9312458038330078,
      "learning_rate": 5.793157300019093e-05,
      "loss": 3.4617,
      "step": 341550
    },
    {
      "epoch": 0.7115833333333333,
      "grad_norm": 0.8727342486381531,
      "learning_rate": 5.79237901689362e-05,
      "loss": 3.2718,
      "step": 341560
    },
    {
      "epoch": 0.7116041666666667,
      "grad_norm": 0.8211922645568848,
      "learning_rate": 5.7916007735414244e-05,
      "loss": 3.4579,
      "step": 341570
    },
    {
      "epoch": 0.711625,
      "grad_norm": 0.8402955532073975,
      "learning_rate": 5.790822569965868e-05,
      "loss": 3.5244,
      "step": 341580
    },
    {
      "epoch": 0.7116458333333333,
      "grad_norm": 0.8377593755722046,
      "learning_rate": 5.790044406170314e-05,
      "loss": 3.3884,
      "step": 341590
    },
    {
      "epoch": 0.7116666666666667,
      "grad_norm": 0.877857506275177,
      "learning_rate": 5.789266282158128e-05,
      "loss": 3.2999,
      "step": 341600
    },
    {
      "epoch": 0.7116875,
      "grad_norm": 1.1676563024520874,
      "learning_rate": 5.7884881979326544e-05,
      "loss": 3.3848,
      "step": 341610
    },
    {
      "epoch": 0.7117083333333334,
      "grad_norm": 0.865533709526062,
      "learning_rate": 5.7877101534972706e-05,
      "loss": 3.3506,
      "step": 341620
    },
    {
      "epoch": 0.7117291666666666,
      "grad_norm": 1.1444603204727173,
      "learning_rate": 5.786932148855339e-05,
      "loss": 3.3748,
      "step": 341630
    },
    {
      "epoch": 0.71175,
      "grad_norm": 0.8604064583778381,
      "learning_rate": 5.786154184010203e-05,
      "loss": 3.4247,
      "step": 341640
    },
    {
      "epoch": 0.7117708333333334,
      "grad_norm": 0.8713744282722473,
      "learning_rate": 5.785376258965238e-05,
      "loss": 3.4191,
      "step": 341650
    },
    {
      "epoch": 0.7117916666666667,
      "grad_norm": 0.9396759271621704,
      "learning_rate": 5.784598373723806e-05,
      "loss": 3.1937,
      "step": 341660
    },
    {
      "epoch": 0.7118125,
      "grad_norm": 0.8920599818229675,
      "learning_rate": 5.783820528289251e-05,
      "loss": 3.4204,
      "step": 341670
    },
    {
      "epoch": 0.7118333333333333,
      "grad_norm": 0.8190484046936035,
      "learning_rate": 5.783042722664948e-05,
      "loss": 3.4941,
      "step": 341680
    },
    {
      "epoch": 0.7118541666666667,
      "grad_norm": 0.7998542189598083,
      "learning_rate": 5.782264956854257e-05,
      "loss": 3.3316,
      "step": 341690
    },
    {
      "epoch": 0.711875,
      "grad_norm": 0.8399240970611572,
      "learning_rate": 5.781487230860523e-05,
      "loss": 3.3466,
      "step": 341700
    },
    {
      "epoch": 0.7118958333333333,
      "grad_norm": 0.8721927404403687,
      "learning_rate": 5.780709544687121e-05,
      "loss": 3.3939,
      "step": 341710
    },
    {
      "epoch": 0.7119166666666666,
      "grad_norm": 0.9858435392379761,
      "learning_rate": 5.77993189833741e-05,
      "loss": 3.3431,
      "step": 341720
    },
    {
      "epoch": 0.7119375,
      "grad_norm": 0.8190308213233948,
      "learning_rate": 5.779154291814732e-05,
      "loss": 3.4936,
      "step": 341730
    },
    {
      "epoch": 0.7119583333333334,
      "grad_norm": 0.884823203086853,
      "learning_rate": 5.7783767251224684e-05,
      "loss": 3.3297,
      "step": 341740
    },
    {
      "epoch": 0.7119791666666667,
      "grad_norm": 0.8598514795303345,
      "learning_rate": 5.777599198263962e-05,
      "loss": 3.275,
      "step": 341750
    },
    {
      "epoch": 0.712,
      "grad_norm": 0.8465259075164795,
      "learning_rate": 5.776821711242572e-05,
      "loss": 3.2868,
      "step": 341760
    },
    {
      "epoch": 0.7120208333333333,
      "grad_norm": 0.8494758605957031,
      "learning_rate": 5.776044264061671e-05,
      "loss": 3.3799,
      "step": 341770
    },
    {
      "epoch": 0.7120416666666667,
      "grad_norm": 1.0141398906707764,
      "learning_rate": 5.7752668567246024e-05,
      "loss": 3.4039,
      "step": 341780
    },
    {
      "epoch": 0.7120625,
      "grad_norm": 0.8030567765235901,
      "learning_rate": 5.774489489234725e-05,
      "loss": 3.3383,
      "step": 341790
    },
    {
      "epoch": 0.7120833333333333,
      "grad_norm": 0.822992742061615,
      "learning_rate": 5.77371216159541e-05,
      "loss": 3.2182,
      "step": 341800
    },
    {
      "epoch": 0.7121041666666666,
      "grad_norm": 0.9268354177474976,
      "learning_rate": 5.772934873810004e-05,
      "loss": 3.408,
      "step": 341810
    },
    {
      "epoch": 0.712125,
      "grad_norm": 0.932357132434845,
      "learning_rate": 5.772157625881865e-05,
      "loss": 3.4005,
      "step": 341820
    },
    {
      "epoch": 0.7121458333333334,
      "grad_norm": 0.8619518280029297,
      "learning_rate": 5.771380417814353e-05,
      "loss": 3.2906,
      "step": 341830
    },
    {
      "epoch": 0.7121666666666666,
      "grad_norm": 0.8632457852363586,
      "learning_rate": 5.770603249610825e-05,
      "loss": 3.2628,
      "step": 341840
    },
    {
      "epoch": 0.7121875,
      "grad_norm": 0.9589348435401917,
      "learning_rate": 5.7698261212746375e-05,
      "loss": 3.2866,
      "step": 341850
    },
    {
      "epoch": 0.7122083333333333,
      "grad_norm": 1.0868853330612183,
      "learning_rate": 5.769049032809147e-05,
      "loss": 3.3399,
      "step": 341860
    },
    {
      "epoch": 0.7122291666666667,
      "grad_norm": 0.8787867426872253,
      "learning_rate": 5.768271984217712e-05,
      "loss": 3.3247,
      "step": 341870
    },
    {
      "epoch": 0.71225,
      "grad_norm": 0.8259124159812927,
      "learning_rate": 5.767494975503686e-05,
      "loss": 3.2959,
      "step": 341880
    },
    {
      "epoch": 0.7122708333333333,
      "grad_norm": 0.838232696056366,
      "learning_rate": 5.76671800667043e-05,
      "loss": 3.4103,
      "step": 341890
    },
    {
      "epoch": 0.7122916666666667,
      "grad_norm": 0.9324759840965271,
      "learning_rate": 5.765941077721294e-05,
      "loss": 3.5396,
      "step": 341900
    },
    {
      "epoch": 0.7123125,
      "grad_norm": 0.9109774231910706,
      "learning_rate": 5.765164188659641e-05,
      "loss": 3.3764,
      "step": 341910
    },
    {
      "epoch": 0.7123333333333334,
      "grad_norm": 0.8852335214614868,
      "learning_rate": 5.764387339488821e-05,
      "loss": 3.3692,
      "step": 341920
    },
    {
      "epoch": 0.7123541666666666,
      "grad_norm": 0.8237936496734619,
      "learning_rate": 5.763610530212192e-05,
      "loss": 3.3542,
      "step": 341930
    },
    {
      "epoch": 0.712375,
      "grad_norm": 0.8673921823501587,
      "learning_rate": 5.762833760833111e-05,
      "loss": 3.4716,
      "step": 341940
    },
    {
      "epoch": 0.7123958333333333,
      "grad_norm": 0.8109008073806763,
      "learning_rate": 5.7620570313549317e-05,
      "loss": 3.3612,
      "step": 341950
    },
    {
      "epoch": 0.7124166666666667,
      "grad_norm": 0.8565598726272583,
      "learning_rate": 5.7612803417810074e-05,
      "loss": 3.2385,
      "step": 341960
    },
    {
      "epoch": 0.7124375,
      "grad_norm": 0.8069034814834595,
      "learning_rate": 5.7605036921147016e-05,
      "loss": 3.3183,
      "step": 341970
    },
    {
      "epoch": 0.7124583333333333,
      "grad_norm": 0.8952655792236328,
      "learning_rate": 5.759727082359353e-05,
      "loss": 3.4656,
      "step": 341980
    },
    {
      "epoch": 0.7124791666666667,
      "grad_norm": 0.8462041616439819,
      "learning_rate": 5.7589505125183286e-05,
      "loss": 3.2235,
      "step": 341990
    },
    {
      "epoch": 0.7125,
      "grad_norm": 0.8240015506744385,
      "learning_rate": 5.7581739825949875e-05,
      "loss": 3.2883,
      "step": 342000
    },
    {
      "epoch": 0.7125,
      "eval_loss": 4.0545430183410645,
      "eval_runtime": 8.3016,
      "eval_samples_per_second": 1.205,
      "eval_steps_per_second": 0.361,
      "step": 342000
    },
    {
      "epoch": 0.7125208333333334,
      "grad_norm": 0.8290627598762512,
      "learning_rate": 5.757397492592666e-05,
      "loss": 3.4903,
      "step": 342010
    },
    {
      "epoch": 0.7125416666666666,
      "grad_norm": 0.7592387795448303,
      "learning_rate": 5.756621042514733e-05,
      "loss": 3.3074,
      "step": 342020
    },
    {
      "epoch": 0.7125625,
      "grad_norm": 0.9281304478645325,
      "learning_rate": 5.755844632364545e-05,
      "loss": 3.3445,
      "step": 342030
    },
    {
      "epoch": 0.7125833333333333,
      "grad_norm": 0.8679407835006714,
      "learning_rate": 5.755068262145437e-05,
      "loss": 3.2652,
      "step": 342040
    },
    {
      "epoch": 0.7126041666666667,
      "grad_norm": 0.8058038949966431,
      "learning_rate": 5.7542919318607804e-05,
      "loss": 3.4055,
      "step": 342050
    },
    {
      "epoch": 0.712625,
      "grad_norm": 0.8215416073799133,
      "learning_rate": 5.7535156415139295e-05,
      "loss": 3.3887,
      "step": 342060
    },
    {
      "epoch": 0.7126458333333333,
      "grad_norm": 0.8785640001296997,
      "learning_rate": 5.7527393911082186e-05,
      "loss": 3.319,
      "step": 342070
    },
    {
      "epoch": 0.7126666666666667,
      "grad_norm": 0.9588997960090637,
      "learning_rate": 5.751963180647021e-05,
      "loss": 3.2784,
      "step": 342080
    },
    {
      "epoch": 0.7126875,
      "grad_norm": 0.9194694757461548,
      "learning_rate": 5.7511870101336845e-05,
      "loss": 3.5036,
      "step": 342090
    },
    {
      "epoch": 0.7127083333333334,
      "grad_norm": 0.983478307723999,
      "learning_rate": 5.75041087957155e-05,
      "loss": 3.4033,
      "step": 342100
    },
    {
      "epoch": 0.7127291666666666,
      "grad_norm": 0.8061415553092957,
      "learning_rate": 5.749634788963989e-05,
      "loss": 3.3293,
      "step": 342110
    },
    {
      "epoch": 0.71275,
      "grad_norm": 0.8241722583770752,
      "learning_rate": 5.74885873831434e-05,
      "loss": 3.3531,
      "step": 342120
    },
    {
      "epoch": 0.7127708333333334,
      "grad_norm": 0.8940688967704773,
      "learning_rate": 5.7480827276259587e-05,
      "loss": 3.4248,
      "step": 342130
    },
    {
      "epoch": 0.7127916666666667,
      "grad_norm": 0.853510320186615,
      "learning_rate": 5.7473067569021975e-05,
      "loss": 3.4061,
      "step": 342140
    },
    {
      "epoch": 0.7128125,
      "grad_norm": 0.811813473701477,
      "learning_rate": 5.7465308261464084e-05,
      "loss": 3.406,
      "step": 342150
    },
    {
      "epoch": 0.7128333333333333,
      "grad_norm": 0.8433150053024292,
      "learning_rate": 5.7457549353619454e-05,
      "loss": 3.1911,
      "step": 342160
    },
    {
      "epoch": 0.7128541666666667,
      "grad_norm": 1.0005208253860474,
      "learning_rate": 5.744979084552156e-05,
      "loss": 3.308,
      "step": 342170
    },
    {
      "epoch": 0.712875,
      "grad_norm": 0.9903510808944702,
      "learning_rate": 5.744203273720394e-05,
      "loss": 3.298,
      "step": 342180
    },
    {
      "epoch": 0.7128958333333333,
      "grad_norm": 0.8557565212249756,
      "learning_rate": 5.7434275028700104e-05,
      "loss": 3.3421,
      "step": 342190
    },
    {
      "epoch": 0.7129166666666666,
      "grad_norm": 0.8100274801254272,
      "learning_rate": 5.7426517720043555e-05,
      "loss": 3.3172,
      "step": 342200
    },
    {
      "epoch": 0.7129375,
      "grad_norm": 0.8111117482185364,
      "learning_rate": 5.7418760811267825e-05,
      "loss": 3.4405,
      "step": 342210
    },
    {
      "epoch": 0.7129583333333334,
      "grad_norm": 0.8388631939888,
      "learning_rate": 5.741100430240637e-05,
      "loss": 3.351,
      "step": 342220
    },
    {
      "epoch": 0.7129791666666667,
      "grad_norm": 0.8072525262832642,
      "learning_rate": 5.740324819349275e-05,
      "loss": 3.3183,
      "step": 342230
    },
    {
      "epoch": 0.713,
      "grad_norm": 0.8839507699012756,
      "learning_rate": 5.739549248456043e-05,
      "loss": 3.4672,
      "step": 342240
    },
    {
      "epoch": 0.7130208333333333,
      "grad_norm": 0.86394202709198,
      "learning_rate": 5.738773717564295e-05,
      "loss": 3.3362,
      "step": 342250
    },
    {
      "epoch": 0.7130416666666667,
      "grad_norm": 0.7770852446556091,
      "learning_rate": 5.7379982266773766e-05,
      "loss": 3.4231,
      "step": 342260
    },
    {
      "epoch": 0.7130625,
      "grad_norm": 0.8298850655555725,
      "learning_rate": 5.7372227757986406e-05,
      "loss": 3.4001,
      "step": 342270
    },
    {
      "epoch": 0.7130833333333333,
      "grad_norm": 0.890007734298706,
      "learning_rate": 5.736447364931437e-05,
      "loss": 3.458,
      "step": 342280
    },
    {
      "epoch": 0.7131041666666667,
      "grad_norm": 0.8622162342071533,
      "learning_rate": 5.735671994079111e-05,
      "loss": 3.2352,
      "step": 342290
    },
    {
      "epoch": 0.713125,
      "grad_norm": 0.8106573224067688,
      "learning_rate": 5.734896663245018e-05,
      "loss": 3.3438,
      "step": 342300
    },
    {
      "epoch": 0.7131458333333334,
      "grad_norm": 0.8717151284217834,
      "learning_rate": 5.734121372432502e-05,
      "loss": 3.2711,
      "step": 342310
    },
    {
      "epoch": 0.7131666666666666,
      "grad_norm": 0.8433350920677185,
      "learning_rate": 5.733346121644914e-05,
      "loss": 3.3425,
      "step": 342320
    },
    {
      "epoch": 0.7131875,
      "grad_norm": 0.8175186514854431,
      "learning_rate": 5.732570910885604e-05,
      "loss": 3.3396,
      "step": 342330
    },
    {
      "epoch": 0.7132083333333333,
      "grad_norm": 0.8828167915344238,
      "learning_rate": 5.731795740157924e-05,
      "loss": 3.3228,
      "step": 342340
    },
    {
      "epoch": 0.7132291666666667,
      "grad_norm": 0.9251059293746948,
      "learning_rate": 5.731020609465207e-05,
      "loss": 3.4394,
      "step": 342350
    },
    {
      "epoch": 0.71325,
      "grad_norm": 0.7538524866104126,
      "learning_rate": 5.730245518810818e-05,
      "loss": 3.3391,
      "step": 342360
    },
    {
      "epoch": 0.7132708333333333,
      "grad_norm": 0.9194232225418091,
      "learning_rate": 5.729470468198104e-05,
      "loss": 3.4043,
      "step": 342370
    },
    {
      "epoch": 0.7132916666666667,
      "grad_norm": 0.9817252159118652,
      "learning_rate": 5.7286954576303975e-05,
      "loss": 3.3554,
      "step": 342380
    },
    {
      "epoch": 0.7133125,
      "grad_norm": 0.9375051259994507,
      "learning_rate": 5.727920487111062e-05,
      "loss": 3.361,
      "step": 342390
    },
    {
      "epoch": 0.7133333333333334,
      "grad_norm": 0.7667180895805359,
      "learning_rate": 5.727145556643445e-05,
      "loss": 3.3966,
      "step": 342400
    },
    {
      "epoch": 0.7133541666666666,
      "grad_norm": 1.0126862525939941,
      "learning_rate": 5.726370666230884e-05,
      "loss": 3.4731,
      "step": 342410
    },
    {
      "epoch": 0.713375,
      "grad_norm": 0.8570282459259033,
      "learning_rate": 5.7255958158767246e-05,
      "loss": 3.53,
      "step": 342420
    },
    {
      "epoch": 0.7133958333333333,
      "grad_norm": 0.8591926097869873,
      "learning_rate": 5.724821005584332e-05,
      "loss": 3.5122,
      "step": 342430
    },
    {
      "epoch": 0.7134166666666667,
      "grad_norm": 0.8088701367378235,
      "learning_rate": 5.724046235357035e-05,
      "loss": 3.4787,
      "step": 342440
    },
    {
      "epoch": 0.7134375,
      "grad_norm": 0.8261740207672119,
      "learning_rate": 5.723271505198183e-05,
      "loss": 3.4148,
      "step": 342450
    },
    {
      "epoch": 0.7134583333333333,
      "grad_norm": 0.8190968036651611,
      "learning_rate": 5.722496815111134e-05,
      "loss": 3.3595,
      "step": 342460
    },
    {
      "epoch": 0.7134791666666667,
      "grad_norm": 0.9467907547950745,
      "learning_rate": 5.721722165099223e-05,
      "loss": 3.378,
      "step": 342470
    },
    {
      "epoch": 0.7135,
      "grad_norm": 0.8646169304847717,
      "learning_rate": 5.7209475551658e-05,
      "loss": 3.2912,
      "step": 342480
    },
    {
      "epoch": 0.7135208333333334,
      "grad_norm": 0.8123560547828674,
      "learning_rate": 5.7201729853142106e-05,
      "loss": 3.2404,
      "step": 342490
    },
    {
      "epoch": 0.7135416666666666,
      "grad_norm": 0.8029577136039734,
      "learning_rate": 5.719398455547799e-05,
      "loss": 3.4458,
      "step": 342500
    },
    {
      "epoch": 0.7135625,
      "grad_norm": 0.8371446132659912,
      "learning_rate": 5.7186239658699134e-05,
      "loss": 3.3167,
      "step": 342510
    },
    {
      "epoch": 0.7135833333333333,
      "grad_norm": 0.9885501265525818,
      "learning_rate": 5.7178495162838995e-05,
      "loss": 3.38,
      "step": 342520
    },
    {
      "epoch": 0.7136041666666667,
      "grad_norm": 0.8696287274360657,
      "learning_rate": 5.717075106793101e-05,
      "loss": 3.3009,
      "step": 342530
    },
    {
      "epoch": 0.713625,
      "grad_norm": 0.8894890546798706,
      "learning_rate": 5.716300737400862e-05,
      "loss": 3.2266,
      "step": 342540
    },
    {
      "epoch": 0.7136458333333333,
      "grad_norm": 0.9437219500541687,
      "learning_rate": 5.7155264081105315e-05,
      "loss": 3.207,
      "step": 342550
    },
    {
      "epoch": 0.7136666666666667,
      "grad_norm": 0.8082907199859619,
      "learning_rate": 5.7147521189254495e-05,
      "loss": 3.4446,
      "step": 342560
    },
    {
      "epoch": 0.7136875,
      "grad_norm": 0.8499249219894409,
      "learning_rate": 5.7139778698489644e-05,
      "loss": 3.5879,
      "step": 342570
    },
    {
      "epoch": 0.7137083333333333,
      "grad_norm": 0.8438739776611328,
      "learning_rate": 5.71320366088442e-05,
      "loss": 3.3969,
      "step": 342580
    },
    {
      "epoch": 0.7137291666666666,
      "grad_norm": 0.881713330745697,
      "learning_rate": 5.7124294920351585e-05,
      "loss": 3.4369,
      "step": 342590
    },
    {
      "epoch": 0.71375,
      "grad_norm": 0.8158193230628967,
      "learning_rate": 5.7116553633045265e-05,
      "loss": 3.3859,
      "step": 342600
    },
    {
      "epoch": 0.7137708333333334,
      "grad_norm": 0.777306854724884,
      "learning_rate": 5.710881274695865e-05,
      "loss": 3.2894,
      "step": 342610
    },
    {
      "epoch": 0.7137916666666667,
      "grad_norm": 0.8834236264228821,
      "learning_rate": 5.7101072262125206e-05,
      "loss": 3.2339,
      "step": 342620
    },
    {
      "epoch": 0.7138125,
      "grad_norm": 0.8876067996025085,
      "learning_rate": 5.709333217857835e-05,
      "loss": 3.4125,
      "step": 342630
    },
    {
      "epoch": 0.7138333333333333,
      "grad_norm": 1.1492364406585693,
      "learning_rate": 5.7085592496351535e-05,
      "loss": 3.3343,
      "step": 342640
    },
    {
      "epoch": 0.7138541666666667,
      "grad_norm": 0.9837920665740967,
      "learning_rate": 5.7077853215478185e-05,
      "loss": 3.2539,
      "step": 342650
    },
    {
      "epoch": 0.713875,
      "grad_norm": 0.9283381700515747,
      "learning_rate": 5.707011433599171e-05,
      "loss": 3.3865,
      "step": 342660
    },
    {
      "epoch": 0.7138958333333333,
      "grad_norm": 0.8082093000411987,
      "learning_rate": 5.706237585792557e-05,
      "loss": 3.3087,
      "step": 342670
    },
    {
      "epoch": 0.7139166666666666,
      "grad_norm": 0.877753496170044,
      "learning_rate": 5.705463778131318e-05,
      "loss": 3.4371,
      "step": 342680
    },
    {
      "epoch": 0.7139375,
      "grad_norm": 0.9275910258293152,
      "learning_rate": 5.7046900106187965e-05,
      "loss": 3.3584,
      "step": 342690
    },
    {
      "epoch": 0.7139583333333334,
      "grad_norm": 0.9412108659744263,
      "learning_rate": 5.7039162832583335e-05,
      "loss": 3.3934,
      "step": 342700
    },
    {
      "epoch": 0.7139791666666667,
      "grad_norm": 0.7890097498893738,
      "learning_rate": 5.7031425960532746e-05,
      "loss": 3.3324,
      "step": 342710
    },
    {
      "epoch": 0.714,
      "grad_norm": 0.7998282313346863,
      "learning_rate": 5.702368949006963e-05,
      "loss": 3.4581,
      "step": 342720
    },
    {
      "epoch": 0.7140208333333333,
      "grad_norm": 0.9384878873825073,
      "learning_rate": 5.701595342122728e-05,
      "loss": 3.2662,
      "step": 342730
    },
    {
      "epoch": 0.7140416666666667,
      "grad_norm": 0.8188467025756836,
      "learning_rate": 5.7008217754039315e-05,
      "loss": 3.4374,
      "step": 342740
    },
    {
      "epoch": 0.7140625,
      "grad_norm": 0.9989588856697083,
      "learning_rate": 5.7000482488538966e-05,
      "loss": 3.3759,
      "step": 342750
    },
    {
      "epoch": 0.7140833333333333,
      "grad_norm": 1.0126953125,
      "learning_rate": 5.6992747624759693e-05,
      "loss": 3.4042,
      "step": 342760
    },
    {
      "epoch": 0.7141041666666667,
      "grad_norm": 1.0682357549667358,
      "learning_rate": 5.698501316273503e-05,
      "loss": 3.3617,
      "step": 342770
    },
    {
      "epoch": 0.714125,
      "grad_norm": 0.8406029939651489,
      "learning_rate": 5.697727910249824e-05,
      "loss": 3.5701,
      "step": 342780
    },
    {
      "epoch": 0.7141458333333334,
      "grad_norm": 0.9161840677261353,
      "learning_rate": 5.6969545444082725e-05,
      "loss": 3.2894,
      "step": 342790
    },
    {
      "epoch": 0.7141666666666666,
      "grad_norm": 0.8044927716255188,
      "learning_rate": 5.696181218752206e-05,
      "loss": 3.3275,
      "step": 342800
    },
    {
      "epoch": 0.7141875,
      "grad_norm": 0.865792453289032,
      "learning_rate": 5.6954079332849484e-05,
      "loss": 3.3871,
      "step": 342810
    },
    {
      "epoch": 0.7142083333333333,
      "grad_norm": 1.0542539358139038,
      "learning_rate": 5.69463468800984e-05,
      "loss": 3.4466,
      "step": 342820
    },
    {
      "epoch": 0.7142291666666667,
      "grad_norm": 0.8254717588424683,
      "learning_rate": 5.6938614829302375e-05,
      "loss": 3.4362,
      "step": 342830
    },
    {
      "epoch": 0.71425,
      "grad_norm": 0.8253808617591858,
      "learning_rate": 5.693088318049466e-05,
      "loss": 3.3955,
      "step": 342840
    },
    {
      "epoch": 0.7142708333333333,
      "grad_norm": 0.8272944688796997,
      "learning_rate": 5.6923151933708673e-05,
      "loss": 3.3526,
      "step": 342850
    },
    {
      "epoch": 0.7142916666666667,
      "grad_norm": 0.7684831619262695,
      "learning_rate": 5.691542108897783e-05,
      "loss": 3.325,
      "step": 342860
    },
    {
      "epoch": 0.7143125,
      "grad_norm": 0.850712776184082,
      "learning_rate": 5.690769064633551e-05,
      "loss": 3.4615,
      "step": 342870
    },
    {
      "epoch": 0.7143333333333334,
      "grad_norm": 0.8680696487426758,
      "learning_rate": 5.689996060581514e-05,
      "loss": 3.4238,
      "step": 342880
    },
    {
      "epoch": 0.7143541666666666,
      "grad_norm": 0.8649075627326965,
      "learning_rate": 5.689223096745007e-05,
      "loss": 3.4382,
      "step": 342890
    },
    {
      "epoch": 0.714375,
      "grad_norm": 0.8099174499511719,
      "learning_rate": 5.6884501731273715e-05,
      "loss": 3.2816,
      "step": 342900
    },
    {
      "epoch": 0.7143958333333333,
      "grad_norm": 0.7912790179252625,
      "learning_rate": 5.6876772897319464e-05,
      "loss": 3.3224,
      "step": 342910
    },
    {
      "epoch": 0.7144166666666667,
      "grad_norm": 0.9767524003982544,
      "learning_rate": 5.6869044465620687e-05,
      "loss": 3.2842,
      "step": 342920
    },
    {
      "epoch": 0.7144375,
      "grad_norm": 0.953538715839386,
      "learning_rate": 5.686131643621077e-05,
      "loss": 3.3757,
      "step": 342930
    },
    {
      "epoch": 0.7144583333333333,
      "grad_norm": 0.9425082206726074,
      "learning_rate": 5.685358880912309e-05,
      "loss": 3.34,
      "step": 342940
    },
    {
      "epoch": 0.7144791666666667,
      "grad_norm": 0.875659167766571,
      "learning_rate": 5.684586158439106e-05,
      "loss": 3.2755,
      "step": 342950
    },
    {
      "epoch": 0.7145,
      "grad_norm": 0.911859393119812,
      "learning_rate": 5.683813476204802e-05,
      "loss": 3.3558,
      "step": 342960
    },
    {
      "epoch": 0.7145208333333334,
      "grad_norm": 0.8368301391601562,
      "learning_rate": 5.683040834212736e-05,
      "loss": 3.3465,
      "step": 342970
    },
    {
      "epoch": 0.7145416666666666,
      "grad_norm": 0.8216652274131775,
      "learning_rate": 5.682268232466247e-05,
      "loss": 3.3044,
      "step": 342980
    },
    {
      "epoch": 0.7145625,
      "grad_norm": 0.862074613571167,
      "learning_rate": 5.68149567096867e-05,
      "loss": 3.2771,
      "step": 342990
    },
    {
      "epoch": 0.7145833333333333,
      "grad_norm": 0.7865851521492004,
      "learning_rate": 5.680723149723348e-05,
      "loss": 3.4472,
      "step": 343000
    },
    {
      "epoch": 0.7145833333333333,
      "eval_loss": 4.054931163787842,
      "eval_runtime": 8.71,
      "eval_samples_per_second": 1.148,
      "eval_steps_per_second": 0.344,
      "step": 343000
    },
    {
      "epoch": 0.7146041666666667,
      "grad_norm": 0.9189475774765015,
      "learning_rate": 5.679950668733603e-05,
      "loss": 3.4024,
      "step": 343010
    },
    {
      "epoch": 0.714625,
      "grad_norm": 0.8070204257965088,
      "learning_rate": 5.6791782280027884e-05,
      "loss": 3.3349,
      "step": 343020
    },
    {
      "epoch": 0.7146458333333333,
      "grad_norm": 0.886305570602417,
      "learning_rate": 5.678405827534238e-05,
      "loss": 3.343,
      "step": 343030
    },
    {
      "epoch": 0.7146666666666667,
      "grad_norm": 0.8685424327850342,
      "learning_rate": 5.677633467331276e-05,
      "loss": 3.4089,
      "step": 343040
    },
    {
      "epoch": 0.7146875,
      "grad_norm": 1.026363492012024,
      "learning_rate": 5.676861147397251e-05,
      "loss": 3.4276,
      "step": 343050
    },
    {
      "epoch": 0.7147083333333333,
      "grad_norm": 0.8326963782310486,
      "learning_rate": 5.676088867735501e-05,
      "loss": 3.3103,
      "step": 343060
    },
    {
      "epoch": 0.7147291666666666,
      "grad_norm": 0.8066030144691467,
      "learning_rate": 5.675316628349347e-05,
      "loss": 3.401,
      "step": 343070
    },
    {
      "epoch": 0.71475,
      "grad_norm": 0.8667899966239929,
      "learning_rate": 5.6745444292421375e-05,
      "loss": 3.3081,
      "step": 343080
    },
    {
      "epoch": 0.7147708333333334,
      "grad_norm": 0.7776596546173096,
      "learning_rate": 5.673772270417213e-05,
      "loss": 3.2821,
      "step": 343090
    },
    {
      "epoch": 0.7147916666666667,
      "grad_norm": 0.9429674744606018,
      "learning_rate": 5.673000151877888e-05,
      "loss": 3.3147,
      "step": 343100
    },
    {
      "epoch": 0.7148125,
      "grad_norm": 0.7837468385696411,
      "learning_rate": 5.672228073627521e-05,
      "loss": 3.5141,
      "step": 343110
    },
    {
      "epoch": 0.7148333333333333,
      "grad_norm": 0.9414688944816589,
      "learning_rate": 5.6714560356694313e-05,
      "loss": 3.409,
      "step": 343120
    },
    {
      "epoch": 0.7148541666666667,
      "grad_norm": 0.8641147613525391,
      "learning_rate": 5.670684038006955e-05,
      "loss": 3.3392,
      "step": 343130
    },
    {
      "epoch": 0.714875,
      "grad_norm": 0.9057180285453796,
      "learning_rate": 5.6699120806434396e-05,
      "loss": 3.4416,
      "step": 343140
    },
    {
      "epoch": 0.7148958333333333,
      "grad_norm": 0.9000857472419739,
      "learning_rate": 5.669140163582207e-05,
      "loss": 3.4044,
      "step": 343150
    },
    {
      "epoch": 0.7149166666666666,
      "grad_norm": 0.8729007840156555,
      "learning_rate": 5.66836828682659e-05,
      "loss": 3.3703,
      "step": 343160
    },
    {
      "epoch": 0.7149375,
      "grad_norm": 0.803357720375061,
      "learning_rate": 5.6675964503799394e-05,
      "loss": 3.2641,
      "step": 343170
    },
    {
      "epoch": 0.7149583333333334,
      "grad_norm": 0.9333935976028442,
      "learning_rate": 5.666824654245572e-05,
      "loss": 3.3435,
      "step": 343180
    },
    {
      "epoch": 0.7149791666666667,
      "grad_norm": 0.8221997618675232,
      "learning_rate": 5.666052898426822e-05,
      "loss": 3.338,
      "step": 343190
    },
    {
      "epoch": 0.715,
      "grad_norm": 0.872151255607605,
      "learning_rate": 5.6652811829270406e-05,
      "loss": 3.3627,
      "step": 343200
    },
    {
      "epoch": 0.7150208333333333,
      "grad_norm": 0.8202307820320129,
      "learning_rate": 5.664509507749543e-05,
      "loss": 3.4138,
      "step": 343210
    },
    {
      "epoch": 0.7150416666666667,
      "grad_norm": 0.9327517151832581,
      "learning_rate": 5.663737872897665e-05,
      "loss": 3.3537,
      "step": 343220
    },
    {
      "epoch": 0.7150625,
      "grad_norm": 0.8318113088607788,
      "learning_rate": 5.662966278374753e-05,
      "loss": 3.2867,
      "step": 343230
    },
    {
      "epoch": 0.7150833333333333,
      "grad_norm": 0.8319082856178284,
      "learning_rate": 5.662194724184126e-05,
      "loss": 3.3825,
      "step": 343240
    },
    {
      "epoch": 0.7151041666666667,
      "grad_norm": 0.8901339769363403,
      "learning_rate": 5.661423210329122e-05,
      "loss": 3.3016,
      "step": 343250
    },
    {
      "epoch": 0.715125,
      "grad_norm": 0.9559760093688965,
      "learning_rate": 5.660651736813073e-05,
      "loss": 3.3213,
      "step": 343260
    },
    {
      "epoch": 0.7151458333333334,
      "grad_norm": 0.9023802876472473,
      "learning_rate": 5.659880303639313e-05,
      "loss": 3.2945,
      "step": 343270
    },
    {
      "epoch": 0.7151666666666666,
      "grad_norm": 0.777280867099762,
      "learning_rate": 5.659108910811172e-05,
      "loss": 3.2892,
      "step": 343280
    },
    {
      "epoch": 0.7151875,
      "grad_norm": 0.8332160711288452,
      "learning_rate": 5.6583375583319826e-05,
      "loss": 3.3192,
      "step": 343290
    },
    {
      "epoch": 0.7152083333333333,
      "grad_norm": 0.920712947845459,
      "learning_rate": 5.657566246205078e-05,
      "loss": 3.4854,
      "step": 343300
    },
    {
      "epoch": 0.7152291666666667,
      "grad_norm": 0.7273101806640625,
      "learning_rate": 5.65679497443379e-05,
      "loss": 3.3351,
      "step": 343310
    },
    {
      "epoch": 0.71525,
      "grad_norm": 0.9196829795837402,
      "learning_rate": 5.656023743021448e-05,
      "loss": 3.3251,
      "step": 343320
    },
    {
      "epoch": 0.7152708333333333,
      "grad_norm": 0.8824101686477661,
      "learning_rate": 5.6552525519713856e-05,
      "loss": 3.4514,
      "step": 343330
    },
    {
      "epoch": 0.7152916666666667,
      "grad_norm": 0.8488284945487976,
      "learning_rate": 5.6544814012869384e-05,
      "loss": 3.3628,
      "step": 343340
    },
    {
      "epoch": 0.7153125,
      "grad_norm": 0.9034338593482971,
      "learning_rate": 5.653710290971421e-05,
      "loss": 3.3874,
      "step": 343350
    },
    {
      "epoch": 0.7153333333333334,
      "grad_norm": 0.7821395993232727,
      "learning_rate": 5.652939221028181e-05,
      "loss": 3.3437,
      "step": 343360
    },
    {
      "epoch": 0.7153541666666666,
      "grad_norm": 0.7758419513702393,
      "learning_rate": 5.65216819146055e-05,
      "loss": 3.4686,
      "step": 343370
    },
    {
      "epoch": 0.715375,
      "grad_norm": 0.9286409020423889,
      "learning_rate": 5.651397202271842e-05,
      "loss": 3.3202,
      "step": 343380
    },
    {
      "epoch": 0.7153958333333333,
      "grad_norm": 0.8963773846626282,
      "learning_rate": 5.650626253465401e-05,
      "loss": 3.3689,
      "step": 343390
    },
    {
      "epoch": 0.7154166666666667,
      "grad_norm": 0.9308356642723083,
      "learning_rate": 5.649855345044561e-05,
      "loss": 3.4737,
      "step": 343400
    },
    {
      "epoch": 0.7154375,
      "grad_norm": 0.8051018118858337,
      "learning_rate": 5.649084477012634e-05,
      "loss": 3.3457,
      "step": 343410
    },
    {
      "epoch": 0.7154583333333333,
      "grad_norm": 0.8999205231666565,
      "learning_rate": 5.648313649372964e-05,
      "loss": 3.4359,
      "step": 343420
    },
    {
      "epoch": 0.7154791666666667,
      "grad_norm": 0.9579705595970154,
      "learning_rate": 5.647542862128885e-05,
      "loss": 3.3202,
      "step": 343430
    },
    {
      "epoch": 0.7155,
      "grad_norm": 0.8831128478050232,
      "learning_rate": 5.646772115283708e-05,
      "loss": 3.3233,
      "step": 343440
    },
    {
      "epoch": 0.7155208333333334,
      "grad_norm": 0.9517248868942261,
      "learning_rate": 5.646001408840778e-05,
      "loss": 3.4774,
      "step": 343450
    },
    {
      "epoch": 0.7155416666666666,
      "grad_norm": 0.9628651738166809,
      "learning_rate": 5.645230742803425e-05,
      "loss": 3.3511,
      "step": 343460
    },
    {
      "epoch": 0.7155625,
      "grad_norm": 0.8539474606513977,
      "learning_rate": 5.644460117174961e-05,
      "loss": 3.4286,
      "step": 343470
    },
    {
      "epoch": 0.7155833333333333,
      "grad_norm": 0.9264106154441833,
      "learning_rate": 5.643689531958737e-05,
      "loss": 3.3026,
      "step": 343480
    },
    {
      "epoch": 0.7156041666666667,
      "grad_norm": 0.7913176417350769,
      "learning_rate": 5.642918987158066e-05,
      "loss": 3.3461,
      "step": 343490
    },
    {
      "epoch": 0.715625,
      "grad_norm": 0.79000324010849,
      "learning_rate": 5.6421484827762756e-05,
      "loss": 3.3329,
      "step": 343500
    },
    {
      "epoch": 0.7156458333333333,
      "grad_norm": 0.8395019769668579,
      "learning_rate": 5.64137801881671e-05,
      "loss": 3.2691,
      "step": 343510
    },
    {
      "epoch": 0.7156666666666667,
      "grad_norm": 0.8711751103401184,
      "learning_rate": 5.6406075952826814e-05,
      "loss": 3.4585,
      "step": 343520
    },
    {
      "epoch": 0.7156875,
      "grad_norm": 0.8975386023521423,
      "learning_rate": 5.639837212177518e-05,
      "loss": 3.3039,
      "step": 343530
    },
    {
      "epoch": 0.7157083333333333,
      "grad_norm": 0.8832166194915771,
      "learning_rate": 5.639066869504563e-05,
      "loss": 3.5092,
      "step": 343540
    },
    {
      "epoch": 0.7157291666666666,
      "grad_norm": 0.8520027995109558,
      "learning_rate": 5.6382965672671306e-05,
      "loss": 3.2347,
      "step": 343550
    },
    {
      "epoch": 0.71575,
      "grad_norm": 0.8890941739082336,
      "learning_rate": 5.637526305468545e-05,
      "loss": 3.4247,
      "step": 343560
    },
    {
      "epoch": 0.7157708333333334,
      "grad_norm": 0.8101649284362793,
      "learning_rate": 5.636756084112149e-05,
      "loss": 3.4238,
      "step": 343570
    },
    {
      "epoch": 0.7157916666666667,
      "grad_norm": 1.1308265924453735,
      "learning_rate": 5.6359859032012563e-05,
      "loss": 3.3339,
      "step": 343580
    },
    {
      "epoch": 0.7158125,
      "grad_norm": 0.922676682472229,
      "learning_rate": 5.6352157627391986e-05,
      "loss": 3.3718,
      "step": 343590
    },
    {
      "epoch": 0.7158333333333333,
      "grad_norm": 0.9399923086166382,
      "learning_rate": 5.634445662729302e-05,
      "loss": 3.3195,
      "step": 343600
    },
    {
      "epoch": 0.7158541666666667,
      "grad_norm": 0.8633688688278198,
      "learning_rate": 5.6336756031748915e-05,
      "loss": 3.3263,
      "step": 343610
    },
    {
      "epoch": 0.715875,
      "grad_norm": 0.8077359795570374,
      "learning_rate": 5.632905584079297e-05,
      "loss": 3.5132,
      "step": 343620
    },
    {
      "epoch": 0.7158958333333333,
      "grad_norm": 0.8436828255653381,
      "learning_rate": 5.632135605445841e-05,
      "loss": 3.2903,
      "step": 343630
    },
    {
      "epoch": 0.7159166666666666,
      "grad_norm": 0.8677257895469666,
      "learning_rate": 5.631365667277851e-05,
      "loss": 3.4899,
      "step": 343640
    },
    {
      "epoch": 0.7159375,
      "grad_norm": 0.9163804054260254,
      "learning_rate": 5.630595769578655e-05,
      "loss": 3.4508,
      "step": 343650
    },
    {
      "epoch": 0.7159583333333334,
      "grad_norm": 0.8684730529785156,
      "learning_rate": 5.629825912351574e-05,
      "loss": 3.365,
      "step": 343660
    },
    {
      "epoch": 0.7159791666666667,
      "grad_norm": 0.8472342491149902,
      "learning_rate": 5.6290560955999375e-05,
      "loss": 3.3978,
      "step": 343670
    },
    {
      "epoch": 0.716,
      "grad_norm": 0.8690646290779114,
      "learning_rate": 5.62828631932707e-05,
      "loss": 3.42,
      "step": 343680
    },
    {
      "epoch": 0.7160208333333333,
      "grad_norm": 0.9214435815811157,
      "learning_rate": 5.627516583536295e-05,
      "loss": 3.4645,
      "step": 343690
    },
    {
      "epoch": 0.7160416666666667,
      "grad_norm": 0.8681052923202515,
      "learning_rate": 5.6267468882309385e-05,
      "loss": 3.5172,
      "step": 343700
    },
    {
      "epoch": 0.7160625,
      "grad_norm": 0.8229972720146179,
      "learning_rate": 5.625977233414331e-05,
      "loss": 3.3121,
      "step": 343710
    },
    {
      "epoch": 0.7160833333333333,
      "grad_norm": 0.8980410099029541,
      "learning_rate": 5.62520761908978e-05,
      "loss": 3.4237,
      "step": 343720
    },
    {
      "epoch": 0.7161041666666667,
      "grad_norm": 0.9272345304489136,
      "learning_rate": 5.6244380452606274e-05,
      "loss": 3.2159,
      "step": 343730
    },
    {
      "epoch": 0.716125,
      "grad_norm": 0.8646131753921509,
      "learning_rate": 5.6236685119301964e-05,
      "loss": 3.3364,
      "step": 343740
    },
    {
      "epoch": 0.7161458333333334,
      "grad_norm": 0.9792281985282898,
      "learning_rate": 5.622899019101795e-05,
      "loss": 3.3715,
      "step": 343750
    },
    {
      "epoch": 0.7161666666666666,
      "grad_norm": 0.8669207096099854,
      "learning_rate": 5.622129566778764e-05,
      "loss": 3.3432,
      "step": 343760
    },
    {
      "epoch": 0.7161875,
      "grad_norm": 0.9105474352836609,
      "learning_rate": 5.621360154964426e-05,
      "loss": 3.4558,
      "step": 343770
    },
    {
      "epoch": 0.7162083333333333,
      "grad_norm": 0.8604752421379089,
      "learning_rate": 5.6205907836620896e-05,
      "loss": 3.3433,
      "step": 343780
    },
    {
      "epoch": 0.7162291666666667,
      "grad_norm": 0.8174558877944946,
      "learning_rate": 5.619821452875094e-05,
      "loss": 3.3586,
      "step": 343790
    },
    {
      "epoch": 0.71625,
      "grad_norm": 0.8516749739646912,
      "learning_rate": 5.6190521626067606e-05,
      "loss": 3.433,
      "step": 343800
    },
    {
      "epoch": 0.7162708333333333,
      "grad_norm": 0.8749194741249084,
      "learning_rate": 5.618282912860401e-05,
      "loss": 3.3132,
      "step": 343810
    },
    {
      "epoch": 0.7162916666666667,
      "grad_norm": 1.0010401010513306,
      "learning_rate": 5.617513703639349e-05,
      "loss": 3.5509,
      "step": 343820
    },
    {
      "epoch": 0.7163125,
      "grad_norm": 0.804446816444397,
      "learning_rate": 5.6167445349469284e-05,
      "loss": 3.3842,
      "step": 343830
    },
    {
      "epoch": 0.7163333333333334,
      "grad_norm": 0.8059095144271851,
      "learning_rate": 5.615975406786448e-05,
      "loss": 3.3332,
      "step": 343840
    },
    {
      "epoch": 0.7163541666666666,
      "grad_norm": 0.8409253358840942,
      "learning_rate": 5.615206319161249e-05,
      "loss": 3.4841,
      "step": 343850
    },
    {
      "epoch": 0.716375,
      "grad_norm": 0.7877311706542969,
      "learning_rate": 5.61443727207464e-05,
      "loss": 3.3882,
      "step": 343860
    },
    {
      "epoch": 0.7163958333333333,
      "grad_norm": 0.9110432267189026,
      "learning_rate": 5.61366826552994e-05,
      "loss": 3.4645,
      "step": 343870
    },
    {
      "epoch": 0.7164166666666667,
      "grad_norm": 0.9084734320640564,
      "learning_rate": 5.6128992995304895e-05,
      "loss": 3.2868,
      "step": 343880
    },
    {
      "epoch": 0.7164375,
      "grad_norm": 0.8551530241966248,
      "learning_rate": 5.612130374079593e-05,
      "loss": 3.3829,
      "step": 343890
    },
    {
      "epoch": 0.7164583333333333,
      "grad_norm": 0.866308867931366,
      "learning_rate": 5.611361489180577e-05,
      "loss": 3.3187,
      "step": 343900
    },
    {
      "epoch": 0.7164791666666667,
      "grad_norm": 0.8792035579681396,
      "learning_rate": 5.610592644836763e-05,
      "loss": 3.3821,
      "step": 343910
    },
    {
      "epoch": 0.7165,
      "grad_norm": 0.9178869724273682,
      "learning_rate": 5.609823841051471e-05,
      "loss": 3.4455,
      "step": 343920
    },
    {
      "epoch": 0.7165208333333334,
      "grad_norm": 0.8811566829681396,
      "learning_rate": 5.609055077828025e-05,
      "loss": 3.3362,
      "step": 343930
    },
    {
      "epoch": 0.7165416666666666,
      "grad_norm": 0.9150158166885376,
      "learning_rate": 5.6082863551697445e-05,
      "loss": 3.3163,
      "step": 343940
    },
    {
      "epoch": 0.7165625,
      "grad_norm": 0.8905922174453735,
      "learning_rate": 5.607517673079948e-05,
      "loss": 3.322,
      "step": 343950
    },
    {
      "epoch": 0.7165833333333333,
      "grad_norm": 0.9404036998748779,
      "learning_rate": 5.6067490315619564e-05,
      "loss": 3.4106,
      "step": 343960
    },
    {
      "epoch": 0.7166041666666667,
      "grad_norm": 0.9069373607635498,
      "learning_rate": 5.6059804306190924e-05,
      "loss": 3.4511,
      "step": 343970
    },
    {
      "epoch": 0.716625,
      "grad_norm": 1.0305908918380737,
      "learning_rate": 5.605211870254674e-05,
      "loss": 3.3894,
      "step": 343980
    },
    {
      "epoch": 0.7166458333333333,
      "grad_norm": 0.9101173877716064,
      "learning_rate": 5.604443350472021e-05,
      "loss": 3.3282,
      "step": 343990
    },
    {
      "epoch": 0.7166666666666667,
      "grad_norm": 0.9163081049919128,
      "learning_rate": 5.6036748712744564e-05,
      "loss": 3.3612,
      "step": 344000
    },
    {
      "epoch": 0.7166666666666667,
      "eval_loss": 4.0524115562438965,
      "eval_runtime": 9.1805,
      "eval_samples_per_second": 1.089,
      "eval_steps_per_second": 0.327,
      "step": 344000
    },
    {
      "epoch": 0.7166875,
      "grad_norm": 0.8302041292190552,
      "learning_rate": 5.602906432665295e-05,
      "loss": 3.3748,
      "step": 344010
    },
    {
      "epoch": 0.7167083333333333,
      "grad_norm": 0.8651086688041687,
      "learning_rate": 5.6021380346478574e-05,
      "loss": 3.3265,
      "step": 344020
    },
    {
      "epoch": 0.7167291666666666,
      "grad_norm": 0.8604989051818848,
      "learning_rate": 5.6013696772254654e-05,
      "loss": 3.3711,
      "step": 344030
    },
    {
      "epoch": 0.71675,
      "grad_norm": 0.7980023622512817,
      "learning_rate": 5.6006013604014344e-05,
      "loss": 3.3675,
      "step": 344040
    },
    {
      "epoch": 0.7167708333333334,
      "grad_norm": 0.8568651080131531,
      "learning_rate": 5.5998330841790854e-05,
      "loss": 3.3315,
      "step": 344050
    },
    {
      "epoch": 0.7167916666666667,
      "grad_norm": 0.8274689316749573,
      "learning_rate": 5.5990648485617375e-05,
      "loss": 3.4363,
      "step": 344060
    },
    {
      "epoch": 0.7168125,
      "grad_norm": 0.8976969122886658,
      "learning_rate": 5.5982966535527083e-05,
      "loss": 3.373,
      "step": 344070
    },
    {
      "epoch": 0.7168333333333333,
      "grad_norm": 0.9495023488998413,
      "learning_rate": 5.597528499155315e-05,
      "loss": 3.3828,
      "step": 344080
    },
    {
      "epoch": 0.7168541666666667,
      "grad_norm": 0.9494850635528564,
      "learning_rate": 5.5967603853728774e-05,
      "loss": 3.4242,
      "step": 344090
    },
    {
      "epoch": 0.716875,
      "grad_norm": 0.9452711343765259,
      "learning_rate": 5.5959923122087144e-05,
      "loss": 3.4249,
      "step": 344100
    },
    {
      "epoch": 0.7168958333333333,
      "grad_norm": 0.9279148578643799,
      "learning_rate": 5.595224279666145e-05,
      "loss": 3.4496,
      "step": 344110
    },
    {
      "epoch": 0.7169166666666666,
      "grad_norm": 0.8538926839828491,
      "learning_rate": 5.5944562877484746e-05,
      "loss": 3.3446,
      "step": 344120
    },
    {
      "epoch": 0.7169375,
      "grad_norm": 0.8571922183036804,
      "learning_rate": 5.593688336459036e-05,
      "loss": 3.3567,
      "step": 344130
    },
    {
      "epoch": 0.7169583333333334,
      "grad_norm": 0.8809995055198669,
      "learning_rate": 5.5929204258011444e-05,
      "loss": 3.3259,
      "step": 344140
    },
    {
      "epoch": 0.7169791666666666,
      "grad_norm": 0.8614335060119629,
      "learning_rate": 5.592152555778103e-05,
      "loss": 3.2413,
      "step": 344150
    },
    {
      "epoch": 0.717,
      "grad_norm": 0.7803701162338257,
      "learning_rate": 5.5913847263932446e-05,
      "loss": 3.3107,
      "step": 344160
    },
    {
      "epoch": 0.7170208333333333,
      "grad_norm": 1.0174838304519653,
      "learning_rate": 5.590616937649885e-05,
      "loss": 3.3853,
      "step": 344170
    },
    {
      "epoch": 0.7170416666666667,
      "grad_norm": 0.8541123867034912,
      "learning_rate": 5.5898491895513294e-05,
      "loss": 3.4039,
      "step": 344180
    },
    {
      "epoch": 0.7170625,
      "grad_norm": 0.8654019832611084,
      "learning_rate": 5.5890814821008966e-05,
      "loss": 3.3399,
      "step": 344190
    },
    {
      "epoch": 0.7170833333333333,
      "grad_norm": 0.8534491658210754,
      "learning_rate": 5.588313815301916e-05,
      "loss": 3.3753,
      "step": 344200
    },
    {
      "epoch": 0.7171041666666667,
      "grad_norm": 0.8695932030677795,
      "learning_rate": 5.58754618915769e-05,
      "loss": 3.3217,
      "step": 344210
    },
    {
      "epoch": 0.717125,
      "grad_norm": 0.9022101163864136,
      "learning_rate": 5.586778603671534e-05,
      "loss": 3.1934,
      "step": 344220
    },
    {
      "epoch": 0.7171458333333334,
      "grad_norm": 0.9105859994888306,
      "learning_rate": 5.586011058846777e-05,
      "loss": 3.3391,
      "step": 344230
    },
    {
      "epoch": 0.7171666666666666,
      "grad_norm": 0.854485809803009,
      "learning_rate": 5.585243554686722e-05,
      "loss": 3.4378,
      "step": 344240
    },
    {
      "epoch": 0.7171875,
      "grad_norm": 0.9065307378768921,
      "learning_rate": 5.5844760911946884e-05,
      "loss": 3.414,
      "step": 344250
    },
    {
      "epoch": 0.7172083333333333,
      "grad_norm": 0.7963029146194458,
      "learning_rate": 5.5837086683739906e-05,
      "loss": 3.3597,
      "step": 344260
    },
    {
      "epoch": 0.7172291666666667,
      "grad_norm": 0.8327087163925171,
      "learning_rate": 5.582941286227945e-05,
      "loss": 3.4098,
      "step": 344270
    },
    {
      "epoch": 0.71725,
      "grad_norm": 1.0927107334136963,
      "learning_rate": 5.582173944759865e-05,
      "loss": 3.4506,
      "step": 344280
    },
    {
      "epoch": 0.7172708333333333,
      "grad_norm": 0.8541271090507507,
      "learning_rate": 5.5814066439730655e-05,
      "loss": 3.3695,
      "step": 344290
    },
    {
      "epoch": 0.7172916666666667,
      "grad_norm": 0.8435385823249817,
      "learning_rate": 5.5806393838708615e-05,
      "loss": 3.2994,
      "step": 344300
    },
    {
      "epoch": 0.7173125,
      "grad_norm": 0.9003380537033081,
      "learning_rate": 5.5798721644565655e-05,
      "loss": 3.4477,
      "step": 344310
    },
    {
      "epoch": 0.7173333333333334,
      "grad_norm": 0.8541412353515625,
      "learning_rate": 5.5791049857334944e-05,
      "loss": 3.3878,
      "step": 344320
    },
    {
      "epoch": 0.7173541666666666,
      "grad_norm": 0.8734578490257263,
      "learning_rate": 5.57833784770496e-05,
      "loss": 3.3462,
      "step": 344330
    },
    {
      "epoch": 0.717375,
      "grad_norm": 0.9282953143119812,
      "learning_rate": 5.5775707503742773e-05,
      "loss": 3.3771,
      "step": 344340
    },
    {
      "epoch": 0.7173958333333333,
      "grad_norm": 0.8778302669525146,
      "learning_rate": 5.57680369374476e-05,
      "loss": 3.4334,
      "step": 344350
    },
    {
      "epoch": 0.7174166666666667,
      "grad_norm": 0.8861161470413208,
      "learning_rate": 5.57603667781972e-05,
      "loss": 3.4978,
      "step": 344360
    },
    {
      "epoch": 0.7174375,
      "grad_norm": 0.788224995136261,
      "learning_rate": 5.575269702602471e-05,
      "loss": 3.3136,
      "step": 344370
    },
    {
      "epoch": 0.7174583333333333,
      "grad_norm": 0.8417772054672241,
      "learning_rate": 5.574502768096327e-05,
      "loss": 3.4438,
      "step": 344380
    },
    {
      "epoch": 0.7174791666666667,
      "grad_norm": 0.7914133071899414,
      "learning_rate": 5.5737358743046e-05,
      "loss": 3.296,
      "step": 344390
    },
    {
      "epoch": 0.7175,
      "grad_norm": 0.8968319296836853,
      "learning_rate": 5.572969021230602e-05,
      "loss": 3.4235,
      "step": 344400
    },
    {
      "epoch": 0.7175208333333334,
      "grad_norm": 0.8072742819786072,
      "learning_rate": 5.572202208877647e-05,
      "loss": 3.288,
      "step": 344410
    },
    {
      "epoch": 0.7175416666666666,
      "grad_norm": 0.8293262720108032,
      "learning_rate": 5.571435437249047e-05,
      "loss": 3.3614,
      "step": 344420
    },
    {
      "epoch": 0.7175625,
      "grad_norm": 0.8092705011367798,
      "learning_rate": 5.570668706348114e-05,
      "loss": 3.3044,
      "step": 344430
    },
    {
      "epoch": 0.7175833333333334,
      "grad_norm": 0.9185535907745361,
      "learning_rate": 5.56990201617816e-05,
      "loss": 3.2885,
      "step": 344440
    },
    {
      "epoch": 0.7176041666666667,
      "grad_norm": 0.7908003926277161,
      "learning_rate": 5.569135366742494e-05,
      "loss": 3.3491,
      "step": 344450
    },
    {
      "epoch": 0.717625,
      "grad_norm": 0.9787651896476746,
      "learning_rate": 5.568368758044437e-05,
      "loss": 3.3804,
      "step": 344460
    },
    {
      "epoch": 0.7176458333333333,
      "grad_norm": 0.8197974562644958,
      "learning_rate": 5.5676021900872846e-05,
      "loss": 3.3525,
      "step": 344470
    },
    {
      "epoch": 0.7176666666666667,
      "grad_norm": 0.891156017780304,
      "learning_rate": 5.566835662874366e-05,
      "loss": 3.34,
      "step": 344480
    },
    {
      "epoch": 0.7176875,
      "grad_norm": 0.9494142532348633,
      "learning_rate": 5.566069176408979e-05,
      "loss": 3.3491,
      "step": 344490
    },
    {
      "epoch": 0.7177083333333333,
      "grad_norm": 0.8417656421661377,
      "learning_rate": 5.5653027306944335e-05,
      "loss": 3.3133,
      "step": 344500
    },
    {
      "epoch": 0.7177291666666666,
      "grad_norm": 0.8917497396469116,
      "learning_rate": 5.5645363257340556e-05,
      "loss": 3.3804,
      "step": 344510
    },
    {
      "epoch": 0.71775,
      "grad_norm": 0.7848836779594421,
      "learning_rate": 5.563769961531141e-05,
      "loss": 3.3303,
      "step": 344520
    },
    {
      "epoch": 0.7177708333333334,
      "grad_norm": 1.2692012786865234,
      "learning_rate": 5.5630036380890014e-05,
      "loss": 3.4964,
      "step": 344530
    },
    {
      "epoch": 0.7177916666666667,
      "grad_norm": 0.9906529784202576,
      "learning_rate": 5.562237355410959e-05,
      "loss": 3.3006,
      "step": 344540
    },
    {
      "epoch": 0.7178125,
      "grad_norm": 0.9324873685836792,
      "learning_rate": 5.561471113500311e-05,
      "loss": 3.4207,
      "step": 344550
    },
    {
      "epoch": 0.7178333333333333,
      "grad_norm": 0.820625901222229,
      "learning_rate": 5.560704912360366e-05,
      "loss": 3.4174,
      "step": 344560
    },
    {
      "epoch": 0.7178541666666667,
      "grad_norm": 0.8725799918174744,
      "learning_rate": 5.559938751994451e-05,
      "loss": 3.3747,
      "step": 344570
    },
    {
      "epoch": 0.717875,
      "grad_norm": 0.8011568188667297,
      "learning_rate": 5.5591726324058586e-05,
      "loss": 3.3813,
      "step": 344580
    },
    {
      "epoch": 0.7178958333333333,
      "grad_norm": 0.8082501292228699,
      "learning_rate": 5.558406553597897e-05,
      "loss": 3.4234,
      "step": 344590
    },
    {
      "epoch": 0.7179166666666666,
      "grad_norm": 0.806326687335968,
      "learning_rate": 5.557640515573893e-05,
      "loss": 3.5044,
      "step": 344600
    },
    {
      "epoch": 0.7179375,
      "grad_norm": 0.8644063472747803,
      "learning_rate": 5.5568745183371397e-05,
      "loss": 3.3992,
      "step": 344610
    },
    {
      "epoch": 0.7179583333333334,
      "grad_norm": 0.9077336192131042,
      "learning_rate": 5.55610856189095e-05,
      "loss": 3.2797,
      "step": 344620
    },
    {
      "epoch": 0.7179791666666666,
      "grad_norm": 0.9038477540016174,
      "learning_rate": 5.555342646238635e-05,
      "loss": 3.4047,
      "step": 344630
    },
    {
      "epoch": 0.718,
      "grad_norm": 0.9248466491699219,
      "learning_rate": 5.554576771383499e-05,
      "loss": 3.3828,
      "step": 344640
    },
    {
      "epoch": 0.7180208333333333,
      "grad_norm": 0.8558882474899292,
      "learning_rate": 5.553810937328854e-05,
      "loss": 3.4417,
      "step": 344650
    },
    {
      "epoch": 0.7180416666666667,
      "grad_norm": 0.8249723315238953,
      "learning_rate": 5.553045144078005e-05,
      "loss": 3.3195,
      "step": 344660
    },
    {
      "epoch": 0.7180625,
      "grad_norm": 0.7821163535118103,
      "learning_rate": 5.552279391634262e-05,
      "loss": 3.3273,
      "step": 344670
    },
    {
      "epoch": 0.7180833333333333,
      "grad_norm": 0.8140642642974854,
      "learning_rate": 5.551513680000933e-05,
      "loss": 3.4333,
      "step": 344680
    },
    {
      "epoch": 0.7181041666666667,
      "grad_norm": 0.9842376708984375,
      "learning_rate": 5.5507480091813264e-05,
      "loss": 3.389,
      "step": 344690
    },
    {
      "epoch": 0.718125,
      "grad_norm": 0.9827399253845215,
      "learning_rate": 5.5499823791787456e-05,
      "loss": 3.2845,
      "step": 344700
    },
    {
      "epoch": 0.7181458333333334,
      "grad_norm": 0.8389420509338379,
      "learning_rate": 5.5492167899965026e-05,
      "loss": 3.4254,
      "step": 344710
    },
    {
      "epoch": 0.7181666666666666,
      "grad_norm": 0.8954104781150818,
      "learning_rate": 5.5484512416379e-05,
      "loss": 3.2832,
      "step": 344720
    },
    {
      "epoch": 0.7181875,
      "grad_norm": 0.9116294384002686,
      "learning_rate": 5.547685734106248e-05,
      "loss": 3.366,
      "step": 344730
    },
    {
      "epoch": 0.7182083333333333,
      "grad_norm": 0.889890193939209,
      "learning_rate": 5.546920267404852e-05,
      "loss": 3.437,
      "step": 344740
    },
    {
      "epoch": 0.7182291666666667,
      "grad_norm": 1.0593830347061157,
      "learning_rate": 5.546154841537019e-05,
      "loss": 3.3121,
      "step": 344750
    },
    {
      "epoch": 0.71825,
      "grad_norm": 1.142557144165039,
      "learning_rate": 5.545389456506055e-05,
      "loss": 3.293,
      "step": 344760
    },
    {
      "epoch": 0.7182708333333333,
      "grad_norm": 0.8341268301010132,
      "learning_rate": 5.54462411231527e-05,
      "loss": 3.4493,
      "step": 344770
    },
    {
      "epoch": 0.7182916666666667,
      "grad_norm": 0.8090923428535461,
      "learning_rate": 5.5438588089679575e-05,
      "loss": 3.366,
      "step": 344780
    },
    {
      "epoch": 0.7183125,
      "grad_norm": 0.8825757503509521,
      "learning_rate": 5.543093546467436e-05,
      "loss": 3.2989,
      "step": 344790
    },
    {
      "epoch": 0.7183333333333334,
      "grad_norm": 0.8734990358352661,
      "learning_rate": 5.5423283248170125e-05,
      "loss": 3.3454,
      "step": 344800
    },
    {
      "epoch": 0.7183541666666666,
      "grad_norm": 1.102806568145752,
      "learning_rate": 5.541563144019977e-05,
      "loss": 3.377,
      "step": 344810
    },
    {
      "epoch": 0.718375,
      "grad_norm": 0.8194957971572876,
      "learning_rate": 5.54079800407965e-05,
      "loss": 3.3981,
      "step": 344820
    },
    {
      "epoch": 0.7183958333333333,
      "grad_norm": 0.8807860612869263,
      "learning_rate": 5.540032904999336e-05,
      "loss": 3.3663,
      "step": 344830
    },
    {
      "epoch": 0.7184166666666667,
      "grad_norm": 0.8423794507980347,
      "learning_rate": 5.539267846782326e-05,
      "loss": 3.4902,
      "step": 344840
    },
    {
      "epoch": 0.7184375,
      "grad_norm": 0.8615941405296326,
      "learning_rate": 5.538502829431943e-05,
      "loss": 3.3899,
      "step": 344850
    },
    {
      "epoch": 0.7184583333333333,
      "grad_norm": 0.8805879950523376,
      "learning_rate": 5.537737852951479e-05,
      "loss": 3.3429,
      "step": 344860
    },
    {
      "epoch": 0.7184791666666667,
      "grad_norm": 0.7736476063728333,
      "learning_rate": 5.536972917344236e-05,
      "loss": 3.3457,
      "step": 344870
    },
    {
      "epoch": 0.7185,
      "grad_norm": 0.8293395042419434,
      "learning_rate": 5.536208022613534e-05,
      "loss": 3.4543,
      "step": 344880
    },
    {
      "epoch": 0.7185208333333334,
      "grad_norm": 0.8470288515090942,
      "learning_rate": 5.535443168762663e-05,
      "loss": 3.4342,
      "step": 344890
    },
    {
      "epoch": 0.7185416666666666,
      "grad_norm": 0.8515629172325134,
      "learning_rate": 5.534678355794926e-05,
      "loss": 3.2968,
      "step": 344900
    },
    {
      "epoch": 0.7185625,
      "grad_norm": 0.8429993987083435,
      "learning_rate": 5.533913583713643e-05,
      "loss": 3.3309,
      "step": 344910
    },
    {
      "epoch": 0.7185833333333334,
      "grad_norm": 0.9451162219047546,
      "learning_rate": 5.5331488525221e-05,
      "loss": 3.3753,
      "step": 344920
    },
    {
      "epoch": 0.7186041666666667,
      "grad_norm": 0.9310512542724609,
      "learning_rate": 5.532384162223602e-05,
      "loss": 3.4387,
      "step": 344930
    },
    {
      "epoch": 0.718625,
      "grad_norm": 0.8888879418373108,
      "learning_rate": 5.5316195128214676e-05,
      "loss": 3.3197,
      "step": 344940
    },
    {
      "epoch": 0.7186458333333333,
      "grad_norm": 0.9739906191825867,
      "learning_rate": 5.530854904318983e-05,
      "loss": 3.4841,
      "step": 344950
    },
    {
      "epoch": 0.7186666666666667,
      "grad_norm": 0.825104296207428,
      "learning_rate": 5.5300903367194515e-05,
      "loss": 3.3813,
      "step": 344960
    },
    {
      "epoch": 0.7186875,
      "grad_norm": 0.8951096534729004,
      "learning_rate": 5.5293258100261934e-05,
      "loss": 3.3564,
      "step": 344970
    },
    {
      "epoch": 0.7187083333333333,
      "grad_norm": 1.4458301067352295,
      "learning_rate": 5.528561324242492e-05,
      "loss": 3.3793,
      "step": 344980
    },
    {
      "epoch": 0.7187291666666666,
      "grad_norm": 0.7655125260353088,
      "learning_rate": 5.527796879371658e-05,
      "loss": 3.3915,
      "step": 344990
    },
    {
      "epoch": 0.71875,
      "grad_norm": 0.8385254144668579,
      "learning_rate": 5.5270324754169924e-05,
      "loss": 3.5244,
      "step": 345000
    },
    {
      "epoch": 0.71875,
      "eval_loss": 4.050093650817871,
      "eval_runtime": 8.4209,
      "eval_samples_per_second": 1.188,
      "eval_steps_per_second": 0.356,
      "step": 345000
    },
    {
      "epoch": 0.7187708333333334,
      "grad_norm": 0.8387689590454102,
      "learning_rate": 5.5262681123817945e-05,
      "loss": 3.405,
      "step": 345010
    },
    {
      "epoch": 0.7187916666666667,
      "grad_norm": 0.9362984299659729,
      "learning_rate": 5.5255037902693705e-05,
      "loss": 3.4077,
      "step": 345020
    },
    {
      "epoch": 0.7188125,
      "grad_norm": 0.9678754806518555,
      "learning_rate": 5.5247395090830205e-05,
      "loss": 3.4498,
      "step": 345030
    },
    {
      "epoch": 0.7188333333333333,
      "grad_norm": 0.8635563850402832,
      "learning_rate": 5.523975268826044e-05,
      "loss": 3.3582,
      "step": 345040
    },
    {
      "epoch": 0.7188541666666667,
      "grad_norm": 0.8635903000831604,
      "learning_rate": 5.5232110695017425e-05,
      "loss": 3.3564,
      "step": 345050
    },
    {
      "epoch": 0.718875,
      "grad_norm": 0.9229092597961426,
      "learning_rate": 5.522446911113419e-05,
      "loss": 3.3778,
      "step": 345060
    },
    {
      "epoch": 0.7188958333333333,
      "grad_norm": 0.865464985370636,
      "learning_rate": 5.5216827936643744e-05,
      "loss": 3.3941,
      "step": 345070
    },
    {
      "epoch": 0.7189166666666666,
      "grad_norm": 0.8688865900039673,
      "learning_rate": 5.520918717157907e-05,
      "loss": 3.2851,
      "step": 345080
    },
    {
      "epoch": 0.7189375,
      "grad_norm": 0.9922422170639038,
      "learning_rate": 5.520154681597319e-05,
      "loss": 3.2345,
      "step": 345090
    },
    {
      "epoch": 0.7189583333333334,
      "grad_norm": 0.8658859729766846,
      "learning_rate": 5.5193906869859106e-05,
      "loss": 3.3724,
      "step": 345100
    },
    {
      "epoch": 0.7189791666666666,
      "grad_norm": 0.8295157551765442,
      "learning_rate": 5.518626733326987e-05,
      "loss": 3.3959,
      "step": 345110
    },
    {
      "epoch": 0.719,
      "grad_norm": 0.9498769044876099,
      "learning_rate": 5.517862820623833e-05,
      "loss": 3.4155,
      "step": 345120
    },
    {
      "epoch": 0.7190208333333333,
      "grad_norm": 0.913149356842041,
      "learning_rate": 5.5170989488797615e-05,
      "loss": 3.4307,
      "step": 345130
    },
    {
      "epoch": 0.7190416666666667,
      "grad_norm": 0.8953140377998352,
      "learning_rate": 5.5163351180980767e-05,
      "loss": 3.4054,
      "step": 345140
    },
    {
      "epoch": 0.7190625,
      "grad_norm": 0.807051420211792,
      "learning_rate": 5.5155713282820574e-05,
      "loss": 3.4731,
      "step": 345150
    },
    {
      "epoch": 0.7190833333333333,
      "grad_norm": 0.870962381362915,
      "learning_rate": 5.5148075794350235e-05,
      "loss": 3.3438,
      "step": 345160
    },
    {
      "epoch": 0.7191041666666667,
      "grad_norm": 1.070330023765564,
      "learning_rate": 5.5140438715602696e-05,
      "loss": 3.3461,
      "step": 345170
    },
    {
      "epoch": 0.719125,
      "grad_norm": 0.896462619304657,
      "learning_rate": 5.513280204661083e-05,
      "loss": 3.3867,
      "step": 345180
    },
    {
      "epoch": 0.7191458333333334,
      "grad_norm": 0.9249841570854187,
      "learning_rate": 5.512516578740774e-05,
      "loss": 3.3279,
      "step": 345190
    },
    {
      "epoch": 0.7191666666666666,
      "grad_norm": 0.7874716520309448,
      "learning_rate": 5.5117529938026425e-05,
      "loss": 3.345,
      "step": 345200
    },
    {
      "epoch": 0.7191875,
      "grad_norm": 0.8112329244613647,
      "learning_rate": 5.5109894498499736e-05,
      "loss": 3.3265,
      "step": 345210
    },
    {
      "epoch": 0.7192083333333333,
      "grad_norm": 0.7700164914131165,
      "learning_rate": 5.510225946886085e-05,
      "loss": 3.4163,
      "step": 345220
    },
    {
      "epoch": 0.7192291666666667,
      "grad_norm": 0.796123206615448,
      "learning_rate": 5.509462484914258e-05,
      "loss": 3.3574,
      "step": 345230
    },
    {
      "epoch": 0.71925,
      "grad_norm": 1.01774263381958,
      "learning_rate": 5.508699063937791e-05,
      "loss": 3.4913,
      "step": 345240
    },
    {
      "epoch": 0.7192708333333333,
      "grad_norm": 0.9121407270431519,
      "learning_rate": 5.507935683959999e-05,
      "loss": 3.3199,
      "step": 345250
    },
    {
      "epoch": 0.7192916666666667,
      "grad_norm": 0.8367679119110107,
      "learning_rate": 5.5071723449841613e-05,
      "loss": 3.4206,
      "step": 345260
    },
    {
      "epoch": 0.7193125,
      "grad_norm": 0.8570107817649841,
      "learning_rate": 5.506409047013575e-05,
      "loss": 3.2179,
      "step": 345270
    },
    {
      "epoch": 0.7193333333333334,
      "grad_norm": 0.8170201778411865,
      "learning_rate": 5.505645790051557e-05,
      "loss": 3.422,
      "step": 345280
    },
    {
      "epoch": 0.7193541666666666,
      "grad_norm": 0.8573642373085022,
      "learning_rate": 5.504882574101385e-05,
      "loss": 3.2648,
      "step": 345290
    },
    {
      "epoch": 0.719375,
      "grad_norm": 0.8359489440917969,
      "learning_rate": 5.504119399166355e-05,
      "loss": 3.256,
      "step": 345300
    },
    {
      "epoch": 0.7193958333333333,
      "grad_norm": 0.912597119808197,
      "learning_rate": 5.503356265249783e-05,
      "loss": 3.3223,
      "step": 345310
    },
    {
      "epoch": 0.7194166666666667,
      "grad_norm": 0.8493704795837402,
      "learning_rate": 5.502593172354946e-05,
      "loss": 3.185,
      "step": 345320
    },
    {
      "epoch": 0.7194375,
      "grad_norm": 1.008649468421936,
      "learning_rate": 5.5018301204851426e-05,
      "loss": 3.3574,
      "step": 345330
    },
    {
      "epoch": 0.7194583333333333,
      "grad_norm": 1.276904582977295,
      "learning_rate": 5.5010671096436835e-05,
      "loss": 3.3034,
      "step": 345340
    },
    {
      "epoch": 0.7194791666666667,
      "grad_norm": 0.8260326385498047,
      "learning_rate": 5.500304139833851e-05,
      "loss": 3.3727,
      "step": 345350
    },
    {
      "epoch": 0.7195,
      "grad_norm": 0.9455877542495728,
      "learning_rate": 5.499541211058942e-05,
      "loss": 3.3666,
      "step": 345360
    },
    {
      "epoch": 0.7195208333333334,
      "grad_norm": 0.804862380027771,
      "learning_rate": 5.498778323322256e-05,
      "loss": 3.3184,
      "step": 345370
    },
    {
      "epoch": 0.7195416666666666,
      "grad_norm": 0.8130627870559692,
      "learning_rate": 5.498015476627087e-05,
      "loss": 3.2544,
      "step": 345380
    },
    {
      "epoch": 0.7195625,
      "grad_norm": 0.9705748558044434,
      "learning_rate": 5.497252670976728e-05,
      "loss": 3.3889,
      "step": 345390
    },
    {
      "epoch": 0.7195833333333334,
      "grad_norm": 1.033301830291748,
      "learning_rate": 5.496489906374478e-05,
      "loss": 3.5106,
      "step": 345400
    },
    {
      "epoch": 0.7196041666666667,
      "grad_norm": 0.8357672095298767,
      "learning_rate": 5.495727182823629e-05,
      "loss": 3.2866,
      "step": 345410
    },
    {
      "epoch": 0.719625,
      "grad_norm": 0.9596349596977234,
      "learning_rate": 5.4949645003274775e-05,
      "loss": 3.4295,
      "step": 345420
    },
    {
      "epoch": 0.7196458333333333,
      "grad_norm": 0.9149644374847412,
      "learning_rate": 5.494201858889316e-05,
      "loss": 3.3237,
      "step": 345430
    },
    {
      "epoch": 0.7196666666666667,
      "grad_norm": 1.0455137491226196,
      "learning_rate": 5.4934392585124395e-05,
      "loss": 3.3262,
      "step": 345440
    },
    {
      "epoch": 0.7196875,
      "grad_norm": 0.7887529730796814,
      "learning_rate": 5.492676699200143e-05,
      "loss": 3.2637,
      "step": 345450
    },
    {
      "epoch": 0.7197083333333333,
      "grad_norm": 0.8812624216079712,
      "learning_rate": 5.49191418095572e-05,
      "loss": 3.4484,
      "step": 345460
    },
    {
      "epoch": 0.7197291666666666,
      "grad_norm": 0.8639649152755737,
      "learning_rate": 5.491151703782464e-05,
      "loss": 3.4138,
      "step": 345470
    },
    {
      "epoch": 0.71975,
      "grad_norm": 0.8358777165412903,
      "learning_rate": 5.4903892676836746e-05,
      "loss": 3.3277,
      "step": 345480
    },
    {
      "epoch": 0.7197708333333334,
      "grad_norm": 0.9587962031364441,
      "learning_rate": 5.489626872662628e-05,
      "loss": 3.3368,
      "step": 345490
    },
    {
      "epoch": 0.7197916666666667,
      "grad_norm": 0.8584779500961304,
      "learning_rate": 5.4888645187226345e-05,
      "loss": 3.2421,
      "step": 345500
    },
    {
      "epoch": 0.7198125,
      "grad_norm": 0.9249735474586487,
      "learning_rate": 5.488102205866988e-05,
      "loss": 3.398,
      "step": 345510
    },
    {
      "epoch": 0.7198333333333333,
      "grad_norm": 0.7815433740615845,
      "learning_rate": 5.4873399340989626e-05,
      "loss": 3.3779,
      "step": 345520
    },
    {
      "epoch": 0.7198541666666667,
      "grad_norm": 1.032839059829712,
      "learning_rate": 5.4865777034218684e-05,
      "loss": 3.4047,
      "step": 345530
    },
    {
      "epoch": 0.719875,
      "grad_norm": 1.0460115671157837,
      "learning_rate": 5.4858155138389984e-05,
      "loss": 3.4179,
      "step": 345540
    },
    {
      "epoch": 0.7198958333333333,
      "grad_norm": 0.8474079966545105,
      "learning_rate": 5.48505336535363e-05,
      "loss": 3.3996,
      "step": 345550
    },
    {
      "epoch": 0.7199166666666666,
      "grad_norm": 0.9403271675109863,
      "learning_rate": 5.4842912579690697e-05,
      "loss": 3.3587,
      "step": 345560
    },
    {
      "epoch": 0.7199375,
      "grad_norm": 0.9739319682121277,
      "learning_rate": 5.4835291916886096e-05,
      "loss": 3.466,
      "step": 345570
    },
    {
      "epoch": 0.7199583333333334,
      "grad_norm": 0.8753948211669922,
      "learning_rate": 5.482767166515526e-05,
      "loss": 3.3381,
      "step": 345580
    },
    {
      "epoch": 0.7199791666666666,
      "grad_norm": 0.8231242299079895,
      "learning_rate": 5.482005182453125e-05,
      "loss": 3.2806,
      "step": 345590
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1906603574752808,
      "learning_rate": 5.481243239504702e-05,
      "loss": 3.327,
      "step": 345600
    },
    {
      "epoch": 0.7200208333333333,
      "grad_norm": 0.7441788911819458,
      "learning_rate": 5.480481337673528e-05,
      "loss": 3.3604,
      "step": 345610
    },
    {
      "epoch": 0.7200416666666667,
      "grad_norm": 0.8290355205535889,
      "learning_rate": 5.4797194769629174e-05,
      "loss": 3.2411,
      "step": 345620
    },
    {
      "epoch": 0.7200625,
      "grad_norm": 0.8048156499862671,
      "learning_rate": 5.478957657376145e-05,
      "loss": 3.3512,
      "step": 345630
    },
    {
      "epoch": 0.7200833333333333,
      "grad_norm": 0.9290453195571899,
      "learning_rate": 5.4781958789165076e-05,
      "loss": 3.3612,
      "step": 345640
    },
    {
      "epoch": 0.7201041666666667,
      "grad_norm": 0.8198287487030029,
      "learning_rate": 5.4774341415872944e-05,
      "loss": 3.3129,
      "step": 345650
    },
    {
      "epoch": 0.720125,
      "grad_norm": 0.8798916339874268,
      "learning_rate": 5.4766724453917954e-05,
      "loss": 3.3919,
      "step": 345660
    },
    {
      "epoch": 0.7201458333333334,
      "grad_norm": 0.8643601536750793,
      "learning_rate": 5.475910790333304e-05,
      "loss": 3.371,
      "step": 345670
    },
    {
      "epoch": 0.7201666666666666,
      "grad_norm": 0.8675286173820496,
      "learning_rate": 5.4751491764151066e-05,
      "loss": 3.3321,
      "step": 345680
    },
    {
      "epoch": 0.7201875,
      "grad_norm": 0.8551657199859619,
      "learning_rate": 5.474387603640495e-05,
      "loss": 3.3378,
      "step": 345690
    },
    {
      "epoch": 0.7202083333333333,
      "grad_norm": 0.7954477667808533,
      "learning_rate": 5.4736260720127575e-05,
      "loss": 3.339,
      "step": 345700
    },
    {
      "epoch": 0.7202291666666667,
      "grad_norm": 0.897577702999115,
      "learning_rate": 5.472864581535186e-05,
      "loss": 3.4606,
      "step": 345710
    },
    {
      "epoch": 0.72025,
      "grad_norm": 0.9694421887397766,
      "learning_rate": 5.472103132211068e-05,
      "loss": 3.3997,
      "step": 345720
    },
    {
      "epoch": 0.7202708333333333,
      "grad_norm": 0.870021641254425,
      "learning_rate": 5.471341724043692e-05,
      "loss": 3.3106,
      "step": 345730
    },
    {
      "epoch": 0.7202916666666667,
      "grad_norm": 0.9167628288269043,
      "learning_rate": 5.47058035703635e-05,
      "loss": 3.5168,
      "step": 345740
    },
    {
      "epoch": 0.7203125,
      "grad_norm": 0.8219276070594788,
      "learning_rate": 5.4698190311923275e-05,
      "loss": 3.3379,
      "step": 345750
    },
    {
      "epoch": 0.7203333333333334,
      "grad_norm": 0.9061993956565857,
      "learning_rate": 5.469057746514915e-05,
      "loss": 3.383,
      "step": 345760
    },
    {
      "epoch": 0.7203541666666666,
      "grad_norm": 0.8774753212928772,
      "learning_rate": 5.4682965030074e-05,
      "loss": 3.4364,
      "step": 345770
    },
    {
      "epoch": 0.720375,
      "grad_norm": 0.9044415354728699,
      "learning_rate": 5.467535300673071e-05,
      "loss": 3.4453,
      "step": 345780
    },
    {
      "epoch": 0.7203958333333333,
      "grad_norm": 0.8762834072113037,
      "learning_rate": 5.466774139515217e-05,
      "loss": 3.4133,
      "step": 345790
    },
    {
      "epoch": 0.7204166666666667,
      "grad_norm": 0.8788326382637024,
      "learning_rate": 5.466013019537126e-05,
      "loss": 3.2418,
      "step": 345800
    },
    {
      "epoch": 0.7204375,
      "grad_norm": 0.9397316575050354,
      "learning_rate": 5.4652519407420826e-05,
      "loss": 3.4664,
      "step": 345810
    },
    {
      "epoch": 0.7204583333333333,
      "grad_norm": 0.9733396172523499,
      "learning_rate": 5.464490903133379e-05,
      "loss": 3.4432,
      "step": 345820
    },
    {
      "epoch": 0.7204791666666667,
      "grad_norm": 0.9244375228881836,
      "learning_rate": 5.4637299067142984e-05,
      "loss": 3.4371,
      "step": 345830
    },
    {
      "epoch": 0.7205,
      "grad_norm": 0.8928272724151611,
      "learning_rate": 5.462968951488131e-05,
      "loss": 3.3124,
      "step": 345840
    },
    {
      "epoch": 0.7205208333333334,
      "grad_norm": 0.868109405040741,
      "learning_rate": 5.462208037458168e-05,
      "loss": 3.4047,
      "step": 345850
    },
    {
      "epoch": 0.7205416666666666,
      "grad_norm": 0.7518886923789978,
      "learning_rate": 5.4614471646276785e-05,
      "loss": 3.2914,
      "step": 345860
    },
    {
      "epoch": 0.7205625,
      "grad_norm": 0.8743667602539062,
      "learning_rate": 5.460686332999969e-05,
      "loss": 3.3632,
      "step": 345870
    },
    {
      "epoch": 0.7205833333333334,
      "grad_norm": 0.8265827894210815,
      "learning_rate": 5.459925542578324e-05,
      "loss": 3.3658,
      "step": 345880
    },
    {
      "epoch": 0.7206041666666667,
      "grad_norm": 0.8697435855865479,
      "learning_rate": 5.459164793366013e-05,
      "loss": 3.3192,
      "step": 345890
    },
    {
      "epoch": 0.720625,
      "grad_norm": 1.1005748510360718,
      "learning_rate": 5.458404085366339e-05,
      "loss": 3.3758,
      "step": 345900
    },
    {
      "epoch": 0.7206458333333333,
      "grad_norm": 0.9749168157577515,
      "learning_rate": 5.457643418582588e-05,
      "loss": 3.221,
      "step": 345910
    },
    {
      "epoch": 0.7206666666666667,
      "grad_norm": 0.9754800200462341,
      "learning_rate": 5.4568827930180296e-05,
      "loss": 3.4301,
      "step": 345920
    },
    {
      "epoch": 0.7206875,
      "grad_norm": 0.8238495588302612,
      "learning_rate": 5.4561222086759656e-05,
      "loss": 3.361,
      "step": 345930
    },
    {
      "epoch": 0.7207083333333333,
      "grad_norm": 0.8163520097732544,
      "learning_rate": 5.45536166555968e-05,
      "loss": 3.3591,
      "step": 345940
    },
    {
      "epoch": 0.7207291666666666,
      "grad_norm": 0.79111647605896,
      "learning_rate": 5.4546011636724505e-05,
      "loss": 3.3865,
      "step": 345950
    },
    {
      "epoch": 0.72075,
      "grad_norm": 0.9016414880752563,
      "learning_rate": 5.45384070301756e-05,
      "loss": 3.422,
      "step": 345960
    },
    {
      "epoch": 0.7207708333333334,
      "grad_norm": 0.9103176593780518,
      "learning_rate": 5.453080283598309e-05,
      "loss": 3.3177,
      "step": 345970
    },
    {
      "epoch": 0.7207916666666667,
      "grad_norm": 1.0229065418243408,
      "learning_rate": 5.452319905417968e-05,
      "loss": 3.4672,
      "step": 345980
    },
    {
      "epoch": 0.7208125,
      "grad_norm": 0.8338057994842529,
      "learning_rate": 5.451559568479824e-05,
      "loss": 3.4285,
      "step": 345990
    },
    {
      "epoch": 0.7208333333333333,
      "grad_norm": 0.8406908512115479,
      "learning_rate": 5.450799272787164e-05,
      "loss": 3.265,
      "step": 346000
    },
    {
      "epoch": 0.7208333333333333,
      "eval_loss": 4.04955530166626,
      "eval_runtime": 7.8145,
      "eval_samples_per_second": 1.28,
      "eval_steps_per_second": 0.384,
      "step": 346000
    },
    {
      "epoch": 0.7208541666666667,
      "grad_norm": 0.8215561509132385,
      "learning_rate": 5.450039018343272e-05,
      "loss": 3.3835,
      "step": 346010
    },
    {
      "epoch": 0.720875,
      "grad_norm": 0.8216229677200317,
      "learning_rate": 5.4492788051514296e-05,
      "loss": 3.411,
      "step": 346020
    },
    {
      "epoch": 0.7208958333333333,
      "grad_norm": 0.8715544939041138,
      "learning_rate": 5.448518633214925e-05,
      "loss": 3.2324,
      "step": 346030
    },
    {
      "epoch": 0.7209166666666667,
      "grad_norm": 0.8679516315460205,
      "learning_rate": 5.4477585025370365e-05,
      "loss": 3.3926,
      "step": 346040
    },
    {
      "epoch": 0.7209375,
      "grad_norm": 0.8392178416252136,
      "learning_rate": 5.446998413121051e-05,
      "loss": 3.3369,
      "step": 346050
    },
    {
      "epoch": 0.7209583333333334,
      "grad_norm": 0.8950006365776062,
      "learning_rate": 5.446238364970251e-05,
      "loss": 3.4392,
      "step": 346060
    },
    {
      "epoch": 0.7209791666666666,
      "grad_norm": 0.8571111559867859,
      "learning_rate": 5.44547835808792e-05,
      "loss": 3.3435,
      "step": 346070
    },
    {
      "epoch": 0.721,
      "grad_norm": 1.0140464305877686,
      "learning_rate": 5.444718392477342e-05,
      "loss": 3.3543,
      "step": 346080
    },
    {
      "epoch": 0.7210208333333333,
      "grad_norm": 0.8828667402267456,
      "learning_rate": 5.443958468141797e-05,
      "loss": 3.3397,
      "step": 346090
    },
    {
      "epoch": 0.7210416666666667,
      "grad_norm": 0.8544265627861023,
      "learning_rate": 5.4431985850845675e-05,
      "loss": 3.3915,
      "step": 346100
    },
    {
      "epoch": 0.7210625,
      "grad_norm": 0.9416860342025757,
      "learning_rate": 5.442438743308938e-05,
      "loss": 3.3231,
      "step": 346110
    },
    {
      "epoch": 0.7210833333333333,
      "grad_norm": 0.7904893159866333,
      "learning_rate": 5.441678942818191e-05,
      "loss": 3.4104,
      "step": 346120
    },
    {
      "epoch": 0.7211041666666667,
      "grad_norm": 0.8993861675262451,
      "learning_rate": 5.440919183615607e-05,
      "loss": 3.3587,
      "step": 346130
    },
    {
      "epoch": 0.721125,
      "grad_norm": 1.0367199182510376,
      "learning_rate": 5.440159465704468e-05,
      "loss": 3.3737,
      "step": 346140
    },
    {
      "epoch": 0.7211458333333334,
      "grad_norm": 0.8809542059898376,
      "learning_rate": 5.439399789088056e-05,
      "loss": 3.2781,
      "step": 346150
    },
    {
      "epoch": 0.7211666666666666,
      "grad_norm": 0.9488134384155273,
      "learning_rate": 5.4386401537696536e-05,
      "loss": 3.3183,
      "step": 346160
    },
    {
      "epoch": 0.7211875,
      "grad_norm": 1.0033127069473267,
      "learning_rate": 5.437880559752541e-05,
      "loss": 3.4203,
      "step": 346170
    },
    {
      "epoch": 0.7212083333333333,
      "grad_norm": 1.0347599983215332,
      "learning_rate": 5.4371210070399984e-05,
      "loss": 3.3346,
      "step": 346180
    },
    {
      "epoch": 0.7212291666666667,
      "grad_norm": 0.8848008513450623,
      "learning_rate": 5.436361495635308e-05,
      "loss": 3.383,
      "step": 346190
    },
    {
      "epoch": 0.72125,
      "grad_norm": 0.9093597531318665,
      "learning_rate": 5.435602025541751e-05,
      "loss": 3.2994,
      "step": 346200
    },
    {
      "epoch": 0.7212708333333333,
      "grad_norm": 0.8457611203193665,
      "learning_rate": 5.434842596762606e-05,
      "loss": 3.2276,
      "step": 346210
    },
    {
      "epoch": 0.7212916666666667,
      "grad_norm": 0.8371953964233398,
      "learning_rate": 5.434083209301162e-05,
      "loss": 3.3679,
      "step": 346220
    },
    {
      "epoch": 0.7213125,
      "grad_norm": 0.9337185621261597,
      "learning_rate": 5.433323863160687e-05,
      "loss": 3.4647,
      "step": 346230
    },
    {
      "epoch": 0.7213333333333334,
      "grad_norm": 0.8989189863204956,
      "learning_rate": 5.432564558344459e-05,
      "loss": 3.3027,
      "step": 346240
    },
    {
      "epoch": 0.7213541666666666,
      "grad_norm": 0.7968645691871643,
      "learning_rate": 5.431805294855777e-05,
      "loss": 3.3042,
      "step": 346250
    },
    {
      "epoch": 0.721375,
      "grad_norm": 0.8306183815002441,
      "learning_rate": 5.431046072697903e-05,
      "loss": 3.3194,
      "step": 346260
    },
    {
      "epoch": 0.7213958333333333,
      "grad_norm": 0.8265982270240784,
      "learning_rate": 5.430286891874117e-05,
      "loss": 3.4,
      "step": 346270
    },
    {
      "epoch": 0.7214166666666667,
      "grad_norm": 0.8723880052566528,
      "learning_rate": 5.429527752387714e-05,
      "loss": 3.4947,
      "step": 346280
    },
    {
      "epoch": 0.7214375,
      "grad_norm": 0.8499417901039124,
      "learning_rate": 5.428768654241957e-05,
      "loss": 3.366,
      "step": 346290
    },
    {
      "epoch": 0.7214583333333333,
      "grad_norm": 0.8320093750953674,
      "learning_rate": 5.428009597440127e-05,
      "loss": 3.3023,
      "step": 346300
    },
    {
      "epoch": 0.7214791666666667,
      "grad_norm": 0.880601167678833,
      "learning_rate": 5.427250581985516e-05,
      "loss": 3.3565,
      "step": 346310
    },
    {
      "epoch": 0.7215,
      "grad_norm": 0.8155620694160461,
      "learning_rate": 5.4264916078813895e-05,
      "loss": 3.4563,
      "step": 346320
    },
    {
      "epoch": 0.7215208333333333,
      "grad_norm": 0.9277728199958801,
      "learning_rate": 5.425732675131024e-05,
      "loss": 3.3433,
      "step": 346330
    },
    {
      "epoch": 0.7215416666666666,
      "grad_norm": 0.8558498024940491,
      "learning_rate": 5.424973783737712e-05,
      "loss": 3.4714,
      "step": 346340
    },
    {
      "epoch": 0.7215625,
      "grad_norm": 1.116761565208435,
      "learning_rate": 5.424214933704721e-05,
      "loss": 3.3389,
      "step": 346350
    },
    {
      "epoch": 0.7215833333333334,
      "grad_norm": 0.9462854266166687,
      "learning_rate": 5.4234561250353304e-05,
      "loss": 3.3769,
      "step": 346360
    },
    {
      "epoch": 0.7216041666666667,
      "grad_norm": 0.7707170844078064,
      "learning_rate": 5.4226973577328184e-05,
      "loss": 3.4473,
      "step": 346370
    },
    {
      "epoch": 0.721625,
      "grad_norm": 0.880337655544281,
      "learning_rate": 5.4219386318004615e-05,
      "loss": 3.4401,
      "step": 346380
    },
    {
      "epoch": 0.7216458333333333,
      "grad_norm": 0.8385334014892578,
      "learning_rate": 5.421179947241539e-05,
      "loss": 3.3268,
      "step": 346390
    },
    {
      "epoch": 0.7216666666666667,
      "grad_norm": 0.9649721384048462,
      "learning_rate": 5.420421304059328e-05,
      "loss": 3.3108,
      "step": 346400
    },
    {
      "epoch": 0.7216875,
      "grad_norm": 0.8682369589805603,
      "learning_rate": 5.419662702257106e-05,
      "loss": 3.3502,
      "step": 346410
    },
    {
      "epoch": 0.7217083333333333,
      "grad_norm": 0.8596145510673523,
      "learning_rate": 5.418904141838147e-05,
      "loss": 3.3721,
      "step": 346420
    },
    {
      "epoch": 0.7217291666666666,
      "grad_norm": 0.8590535521507263,
      "learning_rate": 5.4181456228057315e-05,
      "loss": 3.4558,
      "step": 346430
    },
    {
      "epoch": 0.72175,
      "grad_norm": 0.8116974830627441,
      "learning_rate": 5.4173871451631334e-05,
      "loss": 3.473,
      "step": 346440
    },
    {
      "epoch": 0.7217708333333334,
      "grad_norm": 0.8347369432449341,
      "learning_rate": 5.4166287089136294e-05,
      "loss": 3.3205,
      "step": 346450
    },
    {
      "epoch": 0.7217916666666667,
      "grad_norm": 0.8590762615203857,
      "learning_rate": 5.415870314060497e-05,
      "loss": 3.3023,
      "step": 346460
    },
    {
      "epoch": 0.7218125,
      "grad_norm": 0.8757706880569458,
      "learning_rate": 5.4151119606070115e-05,
      "loss": 3.3552,
      "step": 346470
    },
    {
      "epoch": 0.7218333333333333,
      "grad_norm": 1.0038665533065796,
      "learning_rate": 5.414353648556447e-05,
      "loss": 3.3098,
      "step": 346480
    },
    {
      "epoch": 0.7218541666666667,
      "grad_norm": 0.8698595762252808,
      "learning_rate": 5.413595377912081e-05,
      "loss": 3.3831,
      "step": 346490
    },
    {
      "epoch": 0.721875,
      "grad_norm": 0.9610668420791626,
      "learning_rate": 5.412837148677187e-05,
      "loss": 3.3507,
      "step": 346500
    },
    {
      "epoch": 0.7218958333333333,
      "grad_norm": 0.9402567744255066,
      "learning_rate": 5.412078960855044e-05,
      "loss": 3.3183,
      "step": 346510
    },
    {
      "epoch": 0.7219166666666667,
      "grad_norm": 0.8543940186500549,
      "learning_rate": 5.411320814448924e-05,
      "loss": 3.2969,
      "step": 346520
    },
    {
      "epoch": 0.7219375,
      "grad_norm": 1.0050690174102783,
      "learning_rate": 5.410562709462103e-05,
      "loss": 3.4152,
      "step": 346530
    },
    {
      "epoch": 0.7219583333333334,
      "grad_norm": 0.8631932735443115,
      "learning_rate": 5.40980464589786e-05,
      "loss": 3.2907,
      "step": 346540
    },
    {
      "epoch": 0.7219791666666666,
      "grad_norm": 0.8645787239074707,
      "learning_rate": 5.409046623759453e-05,
      "loss": 3.19,
      "step": 346550
    },
    {
      "epoch": 0.722,
      "grad_norm": 0.8156781792640686,
      "learning_rate": 5.408288643050176e-05,
      "loss": 3.3152,
      "step": 346560
    },
    {
      "epoch": 0.7220208333333333,
      "grad_norm": 0.9030699729919434,
      "learning_rate": 5.407530703773299e-05,
      "loss": 3.3981,
      "step": 346570
    },
    {
      "epoch": 0.7220416666666667,
      "grad_norm": 0.8965603709220886,
      "learning_rate": 5.406772805932083e-05,
      "loss": 3.3599,
      "step": 346580
    },
    {
      "epoch": 0.7220625,
      "grad_norm": 0.8022502064704895,
      "learning_rate": 5.406014949529816e-05,
      "loss": 3.2225,
      "step": 346590
    },
    {
      "epoch": 0.7220833333333333,
      "grad_norm": 0.9186091423034668,
      "learning_rate": 5.405257134569772e-05,
      "loss": 3.379,
      "step": 346600
    },
    {
      "epoch": 0.7221041666666667,
      "grad_norm": 0.8794822692871094,
      "learning_rate": 5.4044993610552085e-05,
      "loss": 3.3417,
      "step": 346610
    },
    {
      "epoch": 0.722125,
      "grad_norm": 1.0558394193649292,
      "learning_rate": 5.403741628989419e-05,
      "loss": 3.3721,
      "step": 346620
    },
    {
      "epoch": 0.7221458333333334,
      "grad_norm": 1.0604312419891357,
      "learning_rate": 5.4029839383756634e-05,
      "loss": 3.3042,
      "step": 346630
    },
    {
      "epoch": 0.7221666666666666,
      "grad_norm": 0.9455180764198303,
      "learning_rate": 5.4022262892172135e-05,
      "loss": 3.2822,
      "step": 346640
    },
    {
      "epoch": 0.7221875,
      "grad_norm": 0.9179469347000122,
      "learning_rate": 5.401468681517357e-05,
      "loss": 3.5469,
      "step": 346650
    },
    {
      "epoch": 0.7222083333333333,
      "grad_norm": 0.9016013741493225,
      "learning_rate": 5.4007111152793505e-05,
      "loss": 3.391,
      "step": 346660
    },
    {
      "epoch": 0.7222291666666667,
      "grad_norm": 0.8518137335777283,
      "learning_rate": 5.399953590506469e-05,
      "loss": 3.31,
      "step": 346670
    },
    {
      "epoch": 0.72225,
      "grad_norm": 0.870050847530365,
      "learning_rate": 5.3991961072019966e-05,
      "loss": 3.4544,
      "step": 346680
    },
    {
      "epoch": 0.7222708333333333,
      "grad_norm": 0.855238139629364,
      "learning_rate": 5.398438665369194e-05,
      "loss": 3.3043,
      "step": 346690
    },
    {
      "epoch": 0.7222916666666667,
      "grad_norm": 0.8505920767784119,
      "learning_rate": 5.397681265011327e-05,
      "loss": 3.3555,
      "step": 346700
    },
    {
      "epoch": 0.7223125,
      "grad_norm": 0.8656688928604126,
      "learning_rate": 5.396923906131688e-05,
      "loss": 3.2866,
      "step": 346710
    },
    {
      "epoch": 0.7223333333333334,
      "grad_norm": 0.835178017616272,
      "learning_rate": 5.3961665887335323e-05,
      "loss": 3.314,
      "step": 346720
    },
    {
      "epoch": 0.7223541666666666,
      "grad_norm": 0.849777340888977,
      "learning_rate": 5.395409312820136e-05,
      "loss": 3.3011,
      "step": 346730
    },
    {
      "epoch": 0.722375,
      "grad_norm": 0.88741135597229,
      "learning_rate": 5.394652078394767e-05,
      "loss": 3.3809,
      "step": 346740
    },
    {
      "epoch": 0.7223958333333333,
      "grad_norm": 0.7928861975669861,
      "learning_rate": 5.3938948854607005e-05,
      "loss": 3.3103,
      "step": 346750
    },
    {
      "epoch": 0.7224166666666667,
      "grad_norm": 0.9289013147354126,
      "learning_rate": 5.3931377340212064e-05,
      "loss": 3.299,
      "step": 346760
    },
    {
      "epoch": 0.7224375,
      "grad_norm": 0.9612773656845093,
      "learning_rate": 5.3923806240795546e-05,
      "loss": 3.3199,
      "step": 346770
    },
    {
      "epoch": 0.7224583333333333,
      "grad_norm": 0.7996500730514526,
      "learning_rate": 5.391623555639014e-05,
      "loss": 3.286,
      "step": 346780
    },
    {
      "epoch": 0.7224791666666667,
      "grad_norm": 0.7937791347503662,
      "learning_rate": 5.390866528702857e-05,
      "loss": 3.4216,
      "step": 346790
    },
    {
      "epoch": 0.7225,
      "grad_norm": 0.8485383987426758,
      "learning_rate": 5.390109543274353e-05,
      "loss": 3.2772,
      "step": 346800
    },
    {
      "epoch": 0.7225208333333333,
      "grad_norm": 0.9412088990211487,
      "learning_rate": 5.3893525993567726e-05,
      "loss": 3.3629,
      "step": 346810
    },
    {
      "epoch": 0.7225416666666666,
      "grad_norm": 0.9057097434997559,
      "learning_rate": 5.388595696953385e-05,
      "loss": 3.4063,
      "step": 346820
    },
    {
      "epoch": 0.7225625,
      "grad_norm": 0.8885260820388794,
      "learning_rate": 5.3878388360674594e-05,
      "loss": 3.3443,
      "step": 346830
    },
    {
      "epoch": 0.7225833333333334,
      "grad_norm": 0.8827833533287048,
      "learning_rate": 5.387082016702264e-05,
      "loss": 3.3424,
      "step": 346840
    },
    {
      "epoch": 0.7226041666666667,
      "grad_norm": 0.8551973104476929,
      "learning_rate": 5.386325238861075e-05,
      "loss": 3.3751,
      "step": 346850
    },
    {
      "epoch": 0.722625,
      "grad_norm": 0.8322070837020874,
      "learning_rate": 5.385568502547146e-05,
      "loss": 3.469,
      "step": 346860
    },
    {
      "epoch": 0.7226458333333333,
      "grad_norm": 0.8951347470283508,
      "learning_rate": 5.3848118077637596e-05,
      "loss": 3.3719,
      "step": 346870
    },
    {
      "epoch": 0.7226666666666667,
      "grad_norm": 0.7751522660255432,
      "learning_rate": 5.384055154514187e-05,
      "loss": 3.3527,
      "step": 346880
    },
    {
      "epoch": 0.7226875,
      "grad_norm": 0.998136579990387,
      "learning_rate": 5.383298542801678e-05,
      "loss": 3.3618,
      "step": 346890
    },
    {
      "epoch": 0.7227083333333333,
      "grad_norm": 0.9031977653503418,
      "learning_rate": 5.3825419726295184e-05,
      "loss": 3.3922,
      "step": 346900
    },
    {
      "epoch": 0.7227291666666666,
      "grad_norm": 0.8949264287948608,
      "learning_rate": 5.3817854440009756e-05,
      "loss": 3.4048,
      "step": 346910
    },
    {
      "epoch": 0.72275,
      "grad_norm": 0.7671494483947754,
      "learning_rate": 5.381028956919302e-05,
      "loss": 3.2945,
      "step": 346920
    },
    {
      "epoch": 0.7227708333333334,
      "grad_norm": 0.8949851393699646,
      "learning_rate": 5.380272511387782e-05,
      "loss": 3.3889,
      "step": 346930
    },
    {
      "epoch": 0.7227916666666667,
      "grad_norm": 0.9891991019248962,
      "learning_rate": 5.379516107409681e-05,
      "loss": 3.2951,
      "step": 346940
    },
    {
      "epoch": 0.7228125,
      "grad_norm": 0.9529236555099487,
      "learning_rate": 5.378759744988253e-05,
      "loss": 3.3384,
      "step": 346950
    },
    {
      "epoch": 0.7228333333333333,
      "grad_norm": 0.8998268842697144,
      "learning_rate": 5.378003424126779e-05,
      "loss": 3.4871,
      "step": 346960
    },
    {
      "epoch": 0.7228541666666667,
      "grad_norm": 0.8644766807556152,
      "learning_rate": 5.377247144828528e-05,
      "loss": 3.4639,
      "step": 346970
    },
    {
      "epoch": 0.722875,
      "grad_norm": 0.7725913524627686,
      "learning_rate": 5.3764909070967485e-05,
      "loss": 3.2875,
      "step": 346980
    },
    {
      "epoch": 0.7228958333333333,
      "grad_norm": 0.8836274743080139,
      "learning_rate": 5.37573471093473e-05,
      "loss": 3.4339,
      "step": 346990
    },
    {
      "epoch": 0.7229166666666667,
      "grad_norm": 0.8327780365943909,
      "learning_rate": 5.374978556345723e-05,
      "loss": 3.3411,
      "step": 347000
    },
    {
      "epoch": 0.7229166666666667,
      "eval_loss": 4.0579423904418945,
      "eval_runtime": 8.1726,
      "eval_samples_per_second": 1.224,
      "eval_steps_per_second": 0.367,
      "step": 347000
    },
    {
      "epoch": 0.7229375,
      "grad_norm": 0.8220929503440857,
      "learning_rate": 5.374222443332994e-05,
      "loss": 3.3391,
      "step": 347010
    },
    {
      "epoch": 0.7229583333333334,
      "grad_norm": 0.8819559812545776,
      "learning_rate": 5.373466371899823e-05,
      "loss": 3.2377,
      "step": 347020
    },
    {
      "epoch": 0.7229791666666666,
      "grad_norm": 0.8389721512794495,
      "learning_rate": 5.3727103420494623e-05,
      "loss": 3.4643,
      "step": 347030
    },
    {
      "epoch": 0.723,
      "grad_norm": 0.9315820336341858,
      "learning_rate": 5.371954353785176e-05,
      "loss": 3.4183,
      "step": 347040
    },
    {
      "epoch": 0.7230208333333333,
      "grad_norm": 0.9710623025894165,
      "learning_rate": 5.3711984071102486e-05,
      "loss": 3.4375,
      "step": 347050
    },
    {
      "epoch": 0.7230416666666667,
      "grad_norm": 0.8972803354263306,
      "learning_rate": 5.370442502027926e-05,
      "loss": 3.4097,
      "step": 347060
    },
    {
      "epoch": 0.7230625,
      "grad_norm": 0.8696351051330566,
      "learning_rate": 5.369686638541474e-05,
      "loss": 3.1872,
      "step": 347070
    },
    {
      "epoch": 0.7230833333333333,
      "grad_norm": 0.8653303384780884,
      "learning_rate": 5.368930816654176e-05,
      "loss": 3.287,
      "step": 347080
    },
    {
      "epoch": 0.7231041666666667,
      "grad_norm": 0.8754422664642334,
      "learning_rate": 5.368175036369278e-05,
      "loss": 3.3645,
      "step": 347090
    },
    {
      "epoch": 0.723125,
      "grad_norm": 1.0012482404708862,
      "learning_rate": 5.367419297690048e-05,
      "loss": 3.3028,
      "step": 347100
    },
    {
      "epoch": 0.7231458333333334,
      "grad_norm": 0.8247775435447693,
      "learning_rate": 5.366663600619763e-05,
      "loss": 3.277,
      "step": 347110
    },
    {
      "epoch": 0.7231666666666666,
      "grad_norm": 0.8632303476333618,
      "learning_rate": 5.365907945161673e-05,
      "loss": 3.4882,
      "step": 347120
    },
    {
      "epoch": 0.7231875,
      "grad_norm": 0.8528491258621216,
      "learning_rate": 5.365152331319047e-05,
      "loss": 3.3273,
      "step": 347130
    },
    {
      "epoch": 0.7232083333333333,
      "grad_norm": 0.8150192499160767,
      "learning_rate": 5.364396759095148e-05,
      "loss": 3.1825,
      "step": 347140
    },
    {
      "epoch": 0.7232291666666667,
      "grad_norm": 0.9005682468414307,
      "learning_rate": 5.363641228493244e-05,
      "loss": 3.3028,
      "step": 347150
    },
    {
      "epoch": 0.72325,
      "grad_norm": 0.8068391680717468,
      "learning_rate": 5.3628857395165935e-05,
      "loss": 3.3818,
      "step": 347160
    },
    {
      "epoch": 0.7232708333333333,
      "grad_norm": 0.8393207788467407,
      "learning_rate": 5.362130292168461e-05,
      "loss": 3.3568,
      "step": 347170
    },
    {
      "epoch": 0.7232916666666667,
      "grad_norm": 0.8511502146720886,
      "learning_rate": 5.361374886452113e-05,
      "loss": 3.3101,
      "step": 347180
    },
    {
      "epoch": 0.7233125,
      "grad_norm": 0.9030187129974365,
      "learning_rate": 5.360619522370809e-05,
      "loss": 3.393,
      "step": 347190
    },
    {
      "epoch": 0.7233333333333334,
      "grad_norm": 0.8507549166679382,
      "learning_rate": 5.359864199927813e-05,
      "loss": 3.3588,
      "step": 347200
    },
    {
      "epoch": 0.7233541666666666,
      "grad_norm": 0.8154948353767395,
      "learning_rate": 5.359108919126389e-05,
      "loss": 3.2906,
      "step": 347210
    },
    {
      "epoch": 0.723375,
      "grad_norm": 0.8106330037117004,
      "learning_rate": 5.358353679969802e-05,
      "loss": 3.3298,
      "step": 347220
    },
    {
      "epoch": 0.7233958333333333,
      "grad_norm": 0.9493377208709717,
      "learning_rate": 5.3575984824613015e-05,
      "loss": 3.455,
      "step": 347230
    },
    {
      "epoch": 0.7234166666666667,
      "grad_norm": 1.0518617630004883,
      "learning_rate": 5.356843326604164e-05,
      "loss": 3.3066,
      "step": 347240
    },
    {
      "epoch": 0.7234375,
      "grad_norm": 0.7670724391937256,
      "learning_rate": 5.356088212401651e-05,
      "loss": 3.2592,
      "step": 347250
    },
    {
      "epoch": 0.7234583333333333,
      "grad_norm": 0.9083729386329651,
      "learning_rate": 5.355333139857008e-05,
      "loss": 3.492,
      "step": 347260
    },
    {
      "epoch": 0.7234791666666667,
      "grad_norm": 0.8930088877677917,
      "learning_rate": 5.354578108973515e-05,
      "loss": 3.3397,
      "step": 347270
    },
    {
      "epoch": 0.7235,
      "grad_norm": 0.7775200009346008,
      "learning_rate": 5.3538231197544326e-05,
      "loss": 3.3164,
      "step": 347280
    },
    {
      "epoch": 0.7235208333333333,
      "grad_norm": 0.849808394908905,
      "learning_rate": 5.353068172203004e-05,
      "loss": 3.3508,
      "step": 347290
    },
    {
      "epoch": 0.7235416666666666,
      "grad_norm": 0.9271842241287231,
      "learning_rate": 5.352313266322509e-05,
      "loss": 3.3231,
      "step": 347300
    },
    {
      "epoch": 0.7235625,
      "grad_norm": 0.8898645639419556,
      "learning_rate": 5.3515584021162064e-05,
      "loss": 3.4848,
      "step": 347310
    },
    {
      "epoch": 0.7235833333333334,
      "grad_norm": 0.9302849769592285,
      "learning_rate": 5.350803579587342e-05,
      "loss": 3.465,
      "step": 347320
    },
    {
      "epoch": 0.7236041666666667,
      "grad_norm": 0.8777613043785095,
      "learning_rate": 5.350048798739191e-05,
      "loss": 3.3279,
      "step": 347330
    },
    {
      "epoch": 0.723625,
      "grad_norm": 0.8626521825790405,
      "learning_rate": 5.349294059575015e-05,
      "loss": 3.477,
      "step": 347340
    },
    {
      "epoch": 0.7236458333333333,
      "grad_norm": 0.9053722023963928,
      "learning_rate": 5.348539362098059e-05,
      "loss": 3.2554,
      "step": 347350
    },
    {
      "epoch": 0.7236666666666667,
      "grad_norm": 0.9369463324546814,
      "learning_rate": 5.347784706311603e-05,
      "loss": 3.3265,
      "step": 347360
    },
    {
      "epoch": 0.7236875,
      "grad_norm": 0.9716206789016724,
      "learning_rate": 5.34703009221889e-05,
      "loss": 3.2587,
      "step": 347370
    },
    {
      "epoch": 0.7237083333333333,
      "grad_norm": 0.8948331475257874,
      "learning_rate": 5.3462755198231835e-05,
      "loss": 3.3748,
      "step": 347380
    },
    {
      "epoch": 0.7237291666666666,
      "grad_norm": 0.9200432300567627,
      "learning_rate": 5.345520989127753e-05,
      "loss": 3.2729,
      "step": 347390
    },
    {
      "epoch": 0.72375,
      "grad_norm": 0.760565459728241,
      "learning_rate": 5.344766500135846e-05,
      "loss": 3.2921,
      "step": 347400
    },
    {
      "epoch": 0.7237708333333334,
      "grad_norm": 0.9005976319313049,
      "learning_rate": 5.344012052850728e-05,
      "loss": 3.3501,
      "step": 347410
    },
    {
      "epoch": 0.7237916666666667,
      "grad_norm": 0.853990912437439,
      "learning_rate": 5.3432576472756533e-05,
      "loss": 3.4693,
      "step": 347420
    },
    {
      "epoch": 0.7238125,
      "grad_norm": 0.916441023349762,
      "learning_rate": 5.342503283413885e-05,
      "loss": 3.3007,
      "step": 347430
    },
    {
      "epoch": 0.7238333333333333,
      "grad_norm": 0.8877248764038086,
      "learning_rate": 5.341748961268678e-05,
      "loss": 3.3399,
      "step": 347440
    },
    {
      "epoch": 0.7238541666666667,
      "grad_norm": 0.973733127117157,
      "learning_rate": 5.340994680843294e-05,
      "loss": 3.3041,
      "step": 347450
    },
    {
      "epoch": 0.723875,
      "grad_norm": 0.8197965621948242,
      "learning_rate": 5.340240442140988e-05,
      "loss": 3.3156,
      "step": 347460
    },
    {
      "epoch": 0.7238958333333333,
      "grad_norm": 0.9896652698516846,
      "learning_rate": 5.3394862451650214e-05,
      "loss": 3.3641,
      "step": 347470
    },
    {
      "epoch": 0.7239166666666667,
      "grad_norm": 0.7831739187240601,
      "learning_rate": 5.33873208991865e-05,
      "loss": 3.3329,
      "step": 347480
    },
    {
      "epoch": 0.7239375,
      "grad_norm": 0.8591645359992981,
      "learning_rate": 5.33797797640513e-05,
      "loss": 3.4086,
      "step": 347490
    },
    {
      "epoch": 0.7239583333333334,
      "grad_norm": 0.8312830924987793,
      "learning_rate": 5.337223904627723e-05,
      "loss": 3.3417,
      "step": 347500
    },
    {
      "epoch": 0.7239791666666666,
      "grad_norm": 0.8451471924781799,
      "learning_rate": 5.3364698745896836e-05,
      "loss": 3.3308,
      "step": 347510
    },
    {
      "epoch": 0.724,
      "grad_norm": 0.9190403819084167,
      "learning_rate": 5.3357158862942675e-05,
      "loss": 3.3719,
      "step": 347520
    },
    {
      "epoch": 0.7240208333333333,
      "grad_norm": 0.7885556817054749,
      "learning_rate": 5.3349619397447354e-05,
      "loss": 3.3981,
      "step": 347530
    },
    {
      "epoch": 0.7240416666666667,
      "grad_norm": 0.9158686995506287,
      "learning_rate": 5.334208034944341e-05,
      "loss": 3.4179,
      "step": 347540
    },
    {
      "epoch": 0.7240625,
      "grad_norm": 0.8882516622543335,
      "learning_rate": 5.333454171896342e-05,
      "loss": 3.3848,
      "step": 347550
    },
    {
      "epoch": 0.7240833333333333,
      "grad_norm": 0.8976856470108032,
      "learning_rate": 5.332700350603994e-05,
      "loss": 3.4084,
      "step": 347560
    },
    {
      "epoch": 0.7241041666666667,
      "grad_norm": 0.8404519557952881,
      "learning_rate": 5.3319465710705564e-05,
      "loss": 3.3586,
      "step": 347570
    },
    {
      "epoch": 0.724125,
      "grad_norm": 0.8437658548355103,
      "learning_rate": 5.3311928332992806e-05,
      "loss": 3.4999,
      "step": 347580
    },
    {
      "epoch": 0.7241458333333334,
      "grad_norm": 0.8873719573020935,
      "learning_rate": 5.330439137293424e-05,
      "loss": 3.4128,
      "step": 347590
    },
    {
      "epoch": 0.7241666666666666,
      "grad_norm": 0.953779399394989,
      "learning_rate": 5.329685483056245e-05,
      "loss": 3.3899,
      "step": 347600
    },
    {
      "epoch": 0.7241875,
      "grad_norm": 0.8301334381103516,
      "learning_rate": 5.328931870590995e-05,
      "loss": 3.3343,
      "step": 347610
    },
    {
      "epoch": 0.7242083333333333,
      "grad_norm": 0.9060633778572083,
      "learning_rate": 5.3281782999009373e-05,
      "loss": 3.2373,
      "step": 347620
    },
    {
      "epoch": 0.7242291666666667,
      "grad_norm": 0.8178774118423462,
      "learning_rate": 5.3274247709893096e-05,
      "loss": 3.3879,
      "step": 347630
    },
    {
      "epoch": 0.72425,
      "grad_norm": 0.8297857046127319,
      "learning_rate": 5.326671283859385e-05,
      "loss": 3.2902,
      "step": 347640
    },
    {
      "epoch": 0.7242708333333333,
      "grad_norm": 0.9551684856414795,
      "learning_rate": 5.325917838514416e-05,
      "loss": 3.3762,
      "step": 347650
    },
    {
      "epoch": 0.7242916666666667,
      "grad_norm": 0.8738503456115723,
      "learning_rate": 5.325164434957643e-05,
      "loss": 3.3457,
      "step": 347660
    },
    {
      "epoch": 0.7243125,
      "grad_norm": 0.9513573050498962,
      "learning_rate": 5.324411073192333e-05,
      "loss": 3.469,
      "step": 347670
    },
    {
      "epoch": 0.7243333333333334,
      "grad_norm": 0.9284201264381409,
      "learning_rate": 5.3236577532217453e-05,
      "loss": 3.2877,
      "step": 347680
    },
    {
      "epoch": 0.7243541666666666,
      "grad_norm": 0.9005120992660522,
      "learning_rate": 5.3229044750491136e-05,
      "loss": 3.4044,
      "step": 347690
    },
    {
      "epoch": 0.724375,
      "grad_norm": 0.9355408549308777,
      "learning_rate": 5.322151238677711e-05,
      "loss": 3.2651,
      "step": 347700
    },
    {
      "epoch": 0.7243958333333333,
      "grad_norm": 0.8637996315956116,
      "learning_rate": 5.3213980441107885e-05,
      "loss": 3.2958,
      "step": 347710
    },
    {
      "epoch": 0.7244166666666667,
      "grad_norm": 0.7872287631034851,
      "learning_rate": 5.3206448913515896e-05,
      "loss": 3.3462,
      "step": 347720
    },
    {
      "epoch": 0.7244375,
      "grad_norm": 0.95721036195755,
      "learning_rate": 5.319891780403374e-05,
      "loss": 3.3092,
      "step": 347730
    },
    {
      "epoch": 0.7244583333333333,
      "grad_norm": 0.8617746829986572,
      "learning_rate": 5.319138711269394e-05,
      "loss": 3.3187,
      "step": 347740
    },
    {
      "epoch": 0.7244791666666667,
      "grad_norm": 0.824359655380249,
      "learning_rate": 5.318385683952903e-05,
      "loss": 3.3437,
      "step": 347750
    },
    {
      "epoch": 0.7245,
      "grad_norm": 0.877633810043335,
      "learning_rate": 5.317632698457154e-05,
      "loss": 3.3933,
      "step": 347760
    },
    {
      "epoch": 0.7245208333333333,
      "grad_norm": 0.9528607130050659,
      "learning_rate": 5.316879754785398e-05,
      "loss": 3.4245,
      "step": 347770
    },
    {
      "epoch": 0.7245416666666666,
      "grad_norm": 0.8399698734283447,
      "learning_rate": 5.31612685294089e-05,
      "loss": 3.4072,
      "step": 347780
    },
    {
      "epoch": 0.7245625,
      "grad_norm": 0.7625449895858765,
      "learning_rate": 5.3153739929268814e-05,
      "loss": 3.4801,
      "step": 347790
    },
    {
      "epoch": 0.7245833333333334,
      "grad_norm": 0.8848550319671631,
      "learning_rate": 5.314621174746622e-05,
      "loss": 3.2993,
      "step": 347800
    },
    {
      "epoch": 0.7246041666666667,
      "grad_norm": 0.8064501285552979,
      "learning_rate": 5.3138683984033655e-05,
      "loss": 3.1896,
      "step": 347810
    },
    {
      "epoch": 0.724625,
      "grad_norm": 0.8005065321922302,
      "learning_rate": 5.3131156639003644e-05,
      "loss": 3.4027,
      "step": 347820
    },
    {
      "epoch": 0.7246458333333333,
      "grad_norm": 0.8235436677932739,
      "learning_rate": 5.3123629712408695e-05,
      "loss": 3.3023,
      "step": 347830
    },
    {
      "epoch": 0.7246666666666667,
      "grad_norm": 0.8341498374938965,
      "learning_rate": 5.31161032042813e-05,
      "loss": 3.204,
      "step": 347840
    },
    {
      "epoch": 0.7246875,
      "grad_norm": 0.7712278962135315,
      "learning_rate": 5.310857711465401e-05,
      "loss": 3.3328,
      "step": 347850
    },
    {
      "epoch": 0.7247083333333333,
      "grad_norm": 0.8993481397628784,
      "learning_rate": 5.310105144355931e-05,
      "loss": 3.3395,
      "step": 347860
    },
    {
      "epoch": 0.7247291666666666,
      "grad_norm": 0.8764176964759827,
      "learning_rate": 5.3093526191029715e-05,
      "loss": 3.2797,
      "step": 347870
    },
    {
      "epoch": 0.72475,
      "grad_norm": 1.0506430864334106,
      "learning_rate": 5.3086001357097716e-05,
      "loss": 3.3141,
      "step": 347880
    },
    {
      "epoch": 0.7247708333333334,
      "grad_norm": 0.8006551265716553,
      "learning_rate": 5.307847694179584e-05,
      "loss": 3.3108,
      "step": 347890
    },
    {
      "epoch": 0.7247916666666666,
      "grad_norm": 0.85920250415802,
      "learning_rate": 5.307095294515658e-05,
      "loss": 3.282,
      "step": 347900
    },
    {
      "epoch": 0.7248125,
      "grad_norm": 0.895404577255249,
      "learning_rate": 5.3063429367212435e-05,
      "loss": 3.3837,
      "step": 347910
    },
    {
      "epoch": 0.7248333333333333,
      "grad_norm": 0.8333960771560669,
      "learning_rate": 5.305590620799589e-05,
      "loss": 3.5076,
      "step": 347920
    },
    {
      "epoch": 0.7248541666666667,
      "grad_norm": 0.8628982305526733,
      "learning_rate": 5.304838346753947e-05,
      "loss": 3.2998,
      "step": 347930
    },
    {
      "epoch": 0.724875,
      "grad_norm": 0.9432074427604675,
      "learning_rate": 5.304086114587566e-05,
      "loss": 3.2816,
      "step": 347940
    },
    {
      "epoch": 0.7248958333333333,
      "grad_norm": 0.788815975189209,
      "learning_rate": 5.303333924303695e-05,
      "loss": 3.2387,
      "step": 347950
    },
    {
      "epoch": 0.7249166666666667,
      "grad_norm": 1.0209141969680786,
      "learning_rate": 5.302581775905584e-05,
      "loss": 3.4006,
      "step": 347960
    },
    {
      "epoch": 0.7249375,
      "grad_norm": 0.9350032210350037,
      "learning_rate": 5.30182966939648e-05,
      "loss": 3.3293,
      "step": 347970
    },
    {
      "epoch": 0.7249583333333334,
      "grad_norm": 0.8969166874885559,
      "learning_rate": 5.3010776047796326e-05,
      "loss": 3.323,
      "step": 347980
    },
    {
      "epoch": 0.7249791666666666,
      "grad_norm": 0.879036545753479,
      "learning_rate": 5.300325582058297e-05,
      "loss": 3.4331,
      "step": 347990
    },
    {
      "epoch": 0.725,
      "grad_norm": 0.8656217455863953,
      "learning_rate": 5.2995736012357096e-05,
      "loss": 3.3817,
      "step": 348000
    },
    {
      "epoch": 0.725,
      "eval_loss": 4.059229850769043,
      "eval_runtime": 8.2828,
      "eval_samples_per_second": 1.207,
      "eval_steps_per_second": 0.362,
      "step": 348000
    },
    {
      "epoch": 0.7250208333333333,
      "grad_norm": 0.9849115014076233,
      "learning_rate": 5.298821662315121e-05,
      "loss": 3.2882,
      "step": 348010
    },
    {
      "epoch": 0.7250416666666667,
      "grad_norm": 0.926819384098053,
      "learning_rate": 5.298069765299791e-05,
      "loss": 3.3253,
      "step": 348020
    },
    {
      "epoch": 0.7250625,
      "grad_norm": 0.8097251057624817,
      "learning_rate": 5.2973179101929545e-05,
      "loss": 3.3152,
      "step": 348030
    },
    {
      "epoch": 0.7250833333333333,
      "grad_norm": 0.8255942463874817,
      "learning_rate": 5.2965660969978605e-05,
      "loss": 3.2848,
      "step": 348040
    },
    {
      "epoch": 0.7251041666666667,
      "grad_norm": 0.9244681000709534,
      "learning_rate": 5.2958143257177697e-05,
      "loss": 3.3925,
      "step": 348050
    },
    {
      "epoch": 0.725125,
      "grad_norm": 0.8024906516075134,
      "learning_rate": 5.2950625963559144e-05,
      "loss": 3.3945,
      "step": 348060
    },
    {
      "epoch": 0.7251458333333334,
      "grad_norm": 0.9200863242149353,
      "learning_rate": 5.2943109089155425e-05,
      "loss": 3.325,
      "step": 348070
    },
    {
      "epoch": 0.7251666666666666,
      "grad_norm": 1.0068869590759277,
      "learning_rate": 5.293559263399915e-05,
      "loss": 3.3136,
      "step": 348080
    },
    {
      "epoch": 0.7251875,
      "grad_norm": 0.8345947265625,
      "learning_rate": 5.2928076598122646e-05,
      "loss": 3.3123,
      "step": 348090
    },
    {
      "epoch": 0.7252083333333333,
      "grad_norm": 0.8137567639350891,
      "learning_rate": 5.292056098155839e-05,
      "loss": 3.398,
      "step": 348100
    },
    {
      "epoch": 0.7252291666666667,
      "grad_norm": 0.800957977771759,
      "learning_rate": 5.291304578433895e-05,
      "loss": 3.321,
      "step": 348110
    },
    {
      "epoch": 0.72525,
      "grad_norm": 0.8816745281219482,
      "learning_rate": 5.2905531006496704e-05,
      "loss": 3.3337,
      "step": 348120
    },
    {
      "epoch": 0.7252708333333333,
      "grad_norm": 0.8334362506866455,
      "learning_rate": 5.2898016648064126e-05,
      "loss": 3.3911,
      "step": 348130
    },
    {
      "epoch": 0.7252916666666667,
      "grad_norm": 0.997948944568634,
      "learning_rate": 5.2890502709073686e-05,
      "loss": 3.2911,
      "step": 348140
    },
    {
      "epoch": 0.7253125,
      "grad_norm": 1.0904282331466675,
      "learning_rate": 5.288298918955781e-05,
      "loss": 3.3321,
      "step": 348150
    },
    {
      "epoch": 0.7253333333333334,
      "grad_norm": 0.9710626006126404,
      "learning_rate": 5.2875476089549e-05,
      "loss": 3.4204,
      "step": 348160
    },
    {
      "epoch": 0.7253541666666666,
      "grad_norm": 0.8322898149490356,
      "learning_rate": 5.286796340907969e-05,
      "loss": 3.2721,
      "step": 348170
    },
    {
      "epoch": 0.725375,
      "grad_norm": 0.8568241000175476,
      "learning_rate": 5.286045114818233e-05,
      "loss": 3.4104,
      "step": 348180
    },
    {
      "epoch": 0.7253958333333334,
      "grad_norm": 0.8249550461769104,
      "learning_rate": 5.285293930688937e-05,
      "loss": 3.2345,
      "step": 348190
    },
    {
      "epoch": 0.7254166666666667,
      "grad_norm": 0.9073574542999268,
      "learning_rate": 5.284542788523325e-05,
      "loss": 3.3181,
      "step": 348200
    },
    {
      "epoch": 0.7254375,
      "grad_norm": 0.8673190474510193,
      "learning_rate": 5.2837916883246426e-05,
      "loss": 3.1947,
      "step": 348210
    },
    {
      "epoch": 0.7254583333333333,
      "grad_norm": 0.884663462638855,
      "learning_rate": 5.283040630096135e-05,
      "loss": 3.3452,
      "step": 348220
    },
    {
      "epoch": 0.7254791666666667,
      "grad_norm": 0.9234792590141296,
      "learning_rate": 5.282289613841045e-05,
      "loss": 3.3217,
      "step": 348230
    },
    {
      "epoch": 0.7255,
      "grad_norm": 0.7771759629249573,
      "learning_rate": 5.281538639562617e-05,
      "loss": 3.4136,
      "step": 348240
    },
    {
      "epoch": 0.7255208333333333,
      "grad_norm": 0.8473572731018066,
      "learning_rate": 5.2807877072640966e-05,
      "loss": 3.388,
      "step": 348250
    },
    {
      "epoch": 0.7255416666666666,
      "grad_norm": 0.9353041052818298,
      "learning_rate": 5.280036816948726e-05,
      "loss": 3.3424,
      "step": 348260
    },
    {
      "epoch": 0.7255625,
      "grad_norm": 0.9281495809555054,
      "learning_rate": 5.279285968619747e-05,
      "loss": 3.3231,
      "step": 348270
    },
    {
      "epoch": 0.7255833333333334,
      "grad_norm": 0.8089997172355652,
      "learning_rate": 5.2785351622804065e-05,
      "loss": 3.2478,
      "step": 348280
    },
    {
      "epoch": 0.7256041666666667,
      "grad_norm": 0.8557088971138,
      "learning_rate": 5.277784397933946e-05,
      "loss": 3.4366,
      "step": 348290
    },
    {
      "epoch": 0.725625,
      "grad_norm": 0.9835906028747559,
      "learning_rate": 5.277033675583608e-05,
      "loss": 3.298,
      "step": 348300
    },
    {
      "epoch": 0.7256458333333333,
      "grad_norm": 0.8966686129570007,
      "learning_rate": 5.276282995232641e-05,
      "loss": 3.3364,
      "step": 348310
    },
    {
      "epoch": 0.7256666666666667,
      "grad_norm": 0.9061317443847656,
      "learning_rate": 5.275532356884273e-05,
      "loss": 3.3051,
      "step": 348320
    },
    {
      "epoch": 0.7256875,
      "grad_norm": 0.8341613411903381,
      "learning_rate": 5.2747817605417615e-05,
      "loss": 3.3732,
      "step": 348330
    },
    {
      "epoch": 0.7257083333333333,
      "grad_norm": 0.8391097187995911,
      "learning_rate": 5.274031206208347e-05,
      "loss": 3.3122,
      "step": 348340
    },
    {
      "epoch": 0.7257291666666666,
      "grad_norm": 0.7975189089775085,
      "learning_rate": 5.2732806938872583e-05,
      "loss": 3.2631,
      "step": 348350
    },
    {
      "epoch": 0.72575,
      "grad_norm": 0.8727062940597534,
      "learning_rate": 5.272530223581757e-05,
      "loss": 3.3643,
      "step": 348360
    },
    {
      "epoch": 0.7257708333333334,
      "grad_norm": 0.9453836679458618,
      "learning_rate": 5.2717797952950694e-05,
      "loss": 3.2994,
      "step": 348370
    },
    {
      "epoch": 0.7257916666666666,
      "grad_norm": 0.8633972406387329,
      "learning_rate": 5.271029409030438e-05,
      "loss": 3.4356,
      "step": 348380
    },
    {
      "epoch": 0.7258125,
      "grad_norm": 0.904358983039856,
      "learning_rate": 5.2702790647911194e-05,
      "loss": 3.2731,
      "step": 348390
    },
    {
      "epoch": 0.7258333333333333,
      "grad_norm": 0.9093313217163086,
      "learning_rate": 5.269528762580338e-05,
      "loss": 3.5133,
      "step": 348400
    },
    {
      "epoch": 0.7258541666666667,
      "grad_norm": 0.8199203610420227,
      "learning_rate": 5.268778502401334e-05,
      "loss": 3.3271,
      "step": 348410
    },
    {
      "epoch": 0.725875,
      "grad_norm": 1.1120102405548096,
      "learning_rate": 5.2680282842573666e-05,
      "loss": 3.3601,
      "step": 348420
    },
    {
      "epoch": 0.7258958333333333,
      "grad_norm": 0.7846000790596008,
      "learning_rate": 5.2672781081516604e-05,
      "loss": 3.3601,
      "step": 348430
    },
    {
      "epoch": 0.7259166666666667,
      "grad_norm": 1.008331537246704,
      "learning_rate": 5.266527974087455e-05,
      "loss": 3.299,
      "step": 348440
    },
    {
      "epoch": 0.7259375,
      "grad_norm": 0.9859510660171509,
      "learning_rate": 5.2657778820680054e-05,
      "loss": 3.2859,
      "step": 348450
    },
    {
      "epoch": 0.7259583333333334,
      "grad_norm": 0.8671037554740906,
      "learning_rate": 5.265027832096538e-05,
      "loss": 3.302,
      "step": 348460
    },
    {
      "epoch": 0.7259791666666666,
      "grad_norm": 0.8432917594909668,
      "learning_rate": 5.2642778241762905e-05,
      "loss": 3.3537,
      "step": 348470
    },
    {
      "epoch": 0.726,
      "grad_norm": 0.8175461888313293,
      "learning_rate": 5.263527858310521e-05,
      "loss": 3.3441,
      "step": 348480
    },
    {
      "epoch": 0.7260208333333333,
      "grad_norm": 0.8573887944221497,
      "learning_rate": 5.2627779345024526e-05,
      "loss": 3.3259,
      "step": 348490
    },
    {
      "epoch": 0.7260416666666667,
      "grad_norm": 0.8892558217048645,
      "learning_rate": 5.262028052755327e-05,
      "loss": 3.4258,
      "step": 348500
    },
    {
      "epoch": 0.7260625,
      "grad_norm": 0.8898947834968567,
      "learning_rate": 5.2612782130723865e-05,
      "loss": 3.4681,
      "step": 348510
    },
    {
      "epoch": 0.7260833333333333,
      "grad_norm": 0.8540233373641968,
      "learning_rate": 5.2605284154568706e-05,
      "loss": 3.2551,
      "step": 348520
    },
    {
      "epoch": 0.7261041666666667,
      "grad_norm": 0.8747034072875977,
      "learning_rate": 5.2597786599120154e-05,
      "loss": 3.3661,
      "step": 348530
    },
    {
      "epoch": 0.726125,
      "grad_norm": 0.8838533759117126,
      "learning_rate": 5.259028946441061e-05,
      "loss": 3.3108,
      "step": 348540
    },
    {
      "epoch": 0.7261458333333334,
      "grad_norm": 0.8903629779815674,
      "learning_rate": 5.2582792750472464e-05,
      "loss": 3.3406,
      "step": 348550
    },
    {
      "epoch": 0.7261666666666666,
      "grad_norm": 0.8921434879302979,
      "learning_rate": 5.257529645733808e-05,
      "loss": 3.3241,
      "step": 348560
    },
    {
      "epoch": 0.7261875,
      "grad_norm": 0.8496214151382446,
      "learning_rate": 5.256780058503986e-05,
      "loss": 3.4411,
      "step": 348570
    },
    {
      "epoch": 0.7262083333333333,
      "grad_norm": 0.9471336603164673,
      "learning_rate": 5.2560305133610183e-05,
      "loss": 3.4168,
      "step": 348580
    },
    {
      "epoch": 0.7262291666666667,
      "grad_norm": 0.9114658832550049,
      "learning_rate": 5.255281010308142e-05,
      "loss": 3.2928,
      "step": 348590
    },
    {
      "epoch": 0.72625,
      "grad_norm": 0.8396844863891602,
      "learning_rate": 5.254531549348592e-05,
      "loss": 3.3803,
      "step": 348600
    },
    {
      "epoch": 0.7262708333333333,
      "grad_norm": 0.7738218307495117,
      "learning_rate": 5.253782130485611e-05,
      "loss": 3.2831,
      "step": 348610
    },
    {
      "epoch": 0.7262916666666667,
      "grad_norm": 0.8398952484130859,
      "learning_rate": 5.2530327537224367e-05,
      "loss": 3.3438,
      "step": 348620
    },
    {
      "epoch": 0.7263125,
      "grad_norm": 1.0609976053237915,
      "learning_rate": 5.252283419062293e-05,
      "loss": 3.4669,
      "step": 348630
    },
    {
      "epoch": 0.7263333333333334,
      "grad_norm": 0.8771647214889526,
      "learning_rate": 5.2515341265084315e-05,
      "loss": 3.4477,
      "step": 348640
    },
    {
      "epoch": 0.7263541666666666,
      "grad_norm": 0.8709496259689331,
      "learning_rate": 5.250784876064091e-05,
      "loss": 3.285,
      "step": 348650
    },
    {
      "epoch": 0.726375,
      "grad_norm": 0.880523145198822,
      "learning_rate": 5.2500356677324885e-05,
      "loss": 3.3578,
      "step": 348660
    },
    {
      "epoch": 0.7263958333333334,
      "grad_norm": 0.8484615087509155,
      "learning_rate": 5.2492865015168786e-05,
      "loss": 3.3145,
      "step": 348670
    },
    {
      "epoch": 0.7264166666666667,
      "grad_norm": 1.1403636932373047,
      "learning_rate": 5.248537377420495e-05,
      "loss": 3.4491,
      "step": 348680
    },
    {
      "epoch": 0.7264375,
      "grad_norm": 0.8094274997711182,
      "learning_rate": 5.247788295446562e-05,
      "loss": 3.3678,
      "step": 348690
    },
    {
      "epoch": 0.7264583333333333,
      "grad_norm": 0.806861937046051,
      "learning_rate": 5.247039255598327e-05,
      "loss": 3.2421,
      "step": 348700
    },
    {
      "epoch": 0.7264791666666667,
      "grad_norm": 0.8412041664123535,
      "learning_rate": 5.2462902578790265e-05,
      "loss": 3.4046,
      "step": 348710
    },
    {
      "epoch": 0.7265,
      "grad_norm": 0.7755445241928101,
      "learning_rate": 5.245541302291883e-05,
      "loss": 3.4298,
      "step": 348720
    },
    {
      "epoch": 0.7265208333333333,
      "grad_norm": 0.8847894668579102,
      "learning_rate": 5.244792388840148e-05,
      "loss": 3.1664,
      "step": 348730
    },
    {
      "epoch": 0.7265416666666666,
      "grad_norm": 0.8904815912246704,
      "learning_rate": 5.244043517527045e-05,
      "loss": 3.381,
      "step": 348740
    },
    {
      "epoch": 0.7265625,
      "grad_norm": 0.893759548664093,
      "learning_rate": 5.2432946883558075e-05,
      "loss": 3.38,
      "step": 348750
    },
    {
      "epoch": 0.7265833333333334,
      "grad_norm": 0.8346090912818909,
      "learning_rate": 5.242545901329684e-05,
      "loss": 3.3302,
      "step": 348760
    },
    {
      "epoch": 0.7266041666666667,
      "grad_norm": 0.9963942170143127,
      "learning_rate": 5.241797156451895e-05,
      "loss": 3.2436,
      "step": 348770
    },
    {
      "epoch": 0.726625,
      "grad_norm": 0.8770099878311157,
      "learning_rate": 5.2410484537256754e-05,
      "loss": 3.345,
      "step": 348780
    },
    {
      "epoch": 0.7266458333333333,
      "grad_norm": 0.908380925655365,
      "learning_rate": 5.240299793154274e-05,
      "loss": 3.2516,
      "step": 348790
    },
    {
      "epoch": 0.7266666666666667,
      "grad_norm": 0.8626312017440796,
      "learning_rate": 5.2395511747409086e-05,
      "loss": 3.4109,
      "step": 348800
    },
    {
      "epoch": 0.7266875,
      "grad_norm": 0.9072597026824951,
      "learning_rate": 5.238802598488813e-05,
      "loss": 3.3517,
      "step": 348810
    },
    {
      "epoch": 0.7267083333333333,
      "grad_norm": 0.9011943340301514,
      "learning_rate": 5.2380540644012364e-05,
      "loss": 3.3516,
      "step": 348820
    },
    {
      "epoch": 0.7267291666666666,
      "grad_norm": 0.9148290157318115,
      "learning_rate": 5.2373055724813986e-05,
      "loss": 3.343,
      "step": 348830
    },
    {
      "epoch": 0.72675,
      "grad_norm": 1.0254360437393188,
      "learning_rate": 5.23655712273253e-05,
      "loss": 3.3674,
      "step": 348840
    },
    {
      "epoch": 0.7267708333333334,
      "grad_norm": 0.8990445733070374,
      "learning_rate": 5.2358087151578816e-05,
      "loss": 3.3311,
      "step": 348850
    },
    {
      "epoch": 0.7267916666666666,
      "grad_norm": 0.8098483681678772,
      "learning_rate": 5.235060349760668e-05,
      "loss": 3.3265,
      "step": 348860
    },
    {
      "epoch": 0.7268125,
      "grad_norm": 0.8783378005027771,
      "learning_rate": 5.23431202654413e-05,
      "loss": 3.4227,
      "step": 348870
    },
    {
      "epoch": 0.7268333333333333,
      "grad_norm": 0.8846747875213623,
      "learning_rate": 5.233563745511497e-05,
      "loss": 3.3199,
      "step": 348880
    },
    {
      "epoch": 0.7268541666666667,
      "grad_norm": 0.9044092893600464,
      "learning_rate": 5.2328155066660045e-05,
      "loss": 3.3504,
      "step": 348890
    },
    {
      "epoch": 0.726875,
      "grad_norm": 1.0935275554656982,
      "learning_rate": 5.232067310010881e-05,
      "loss": 3.4179,
      "step": 348900
    },
    {
      "epoch": 0.7268958333333333,
      "grad_norm": 0.9216798543930054,
      "learning_rate": 5.2313191555493613e-05,
      "loss": 3.4344,
      "step": 348910
    },
    {
      "epoch": 0.7269166666666667,
      "grad_norm": 0.8712072968482971,
      "learning_rate": 5.230571043284676e-05,
      "loss": 3.2477,
      "step": 348920
    },
    {
      "epoch": 0.7269375,
      "grad_norm": 0.8508261442184448,
      "learning_rate": 5.229822973220056e-05,
      "loss": 3.2104,
      "step": 348930
    },
    {
      "epoch": 0.7269583333333334,
      "grad_norm": 0.9174808263778687,
      "learning_rate": 5.2290749453587354e-05,
      "loss": 3.3737,
      "step": 348940
    },
    {
      "epoch": 0.7269791666666666,
      "grad_norm": 0.885269284248352,
      "learning_rate": 5.228326959703941e-05,
      "loss": 3.3394,
      "step": 348950
    },
    {
      "epoch": 0.727,
      "grad_norm": 0.86341392993927,
      "learning_rate": 5.2275790162589077e-05,
      "loss": 3.3312,
      "step": 348960
    },
    {
      "epoch": 0.7270208333333333,
      "grad_norm": 0.8874052166938782,
      "learning_rate": 5.226831115026865e-05,
      "loss": 3.3012,
      "step": 348970
    },
    {
      "epoch": 0.7270416666666667,
      "grad_norm": 0.9600237607955933,
      "learning_rate": 5.226083256011044e-05,
      "loss": 3.3284,
      "step": 348980
    },
    {
      "epoch": 0.7270625,
      "grad_norm": 0.8932320475578308,
      "learning_rate": 5.225335439214678e-05,
      "loss": 3.4539,
      "step": 348990
    },
    {
      "epoch": 0.7270833333333333,
      "grad_norm": 0.8476974368095398,
      "learning_rate": 5.2245876646409834e-05,
      "loss": 3.2819,
      "step": 349000
    },
    {
      "epoch": 0.7270833333333333,
      "eval_loss": 4.05999231338501,
      "eval_runtime": 8.0632,
      "eval_samples_per_second": 1.24,
      "eval_steps_per_second": 0.372,
      "step": 349000
    },
    {
      "epoch": 0.7271041666666667,
      "grad_norm": 0.9753690958023071,
      "learning_rate": 5.223839932293208e-05,
      "loss": 3.4183,
      "step": 349010
    },
    {
      "epoch": 0.727125,
      "grad_norm": 0.8844395875930786,
      "learning_rate": 5.223092242174578e-05,
      "loss": 3.3593,
      "step": 349020
    },
    {
      "epoch": 0.7271458333333334,
      "grad_norm": 0.9056270122528076,
      "learning_rate": 5.2223445942883096e-05,
      "loss": 3.3133,
      "step": 349030
    },
    {
      "epoch": 0.7271666666666666,
      "grad_norm": 0.9014768600463867,
      "learning_rate": 5.221596988637647e-05,
      "loss": 3.2624,
      "step": 349040
    },
    {
      "epoch": 0.7271875,
      "grad_norm": 0.933500349521637,
      "learning_rate": 5.22084942522582e-05,
      "loss": 3.3568,
      "step": 349050
    },
    {
      "epoch": 0.7272083333333333,
      "grad_norm": 0.8516920208930969,
      "learning_rate": 5.2201019040560426e-05,
      "loss": 3.5043,
      "step": 349060
    },
    {
      "epoch": 0.7272291666666667,
      "grad_norm": 0.8361418843269348,
      "learning_rate": 5.219354425131559e-05,
      "loss": 3.3961,
      "step": 349070
    },
    {
      "epoch": 0.72725,
      "grad_norm": 0.8258348703384399,
      "learning_rate": 5.218606988455599e-05,
      "loss": 3.4245,
      "step": 349080
    },
    {
      "epoch": 0.7272708333333333,
      "grad_norm": 0.897051215171814,
      "learning_rate": 5.217859594031375e-05,
      "loss": 3.3713,
      "step": 349090
    },
    {
      "epoch": 0.7272916666666667,
      "grad_norm": 0.8476361036300659,
      "learning_rate": 5.217112241862127e-05,
      "loss": 3.3094,
      "step": 349100
    },
    {
      "epoch": 0.7273125,
      "grad_norm": 0.8891348242759705,
      "learning_rate": 5.216364931951091e-05,
      "loss": 3.4228,
      "step": 349110
    },
    {
      "epoch": 0.7273333333333334,
      "grad_norm": 0.9546629190444946,
      "learning_rate": 5.2156176643014736e-05,
      "loss": 3.4433,
      "step": 349120
    },
    {
      "epoch": 0.7273541666666666,
      "grad_norm": 0.919967770576477,
      "learning_rate": 5.2148704389165264e-05,
      "loss": 3.2996,
      "step": 349130
    },
    {
      "epoch": 0.727375,
      "grad_norm": 0.8142814040184021,
      "learning_rate": 5.2141232557994584e-05,
      "loss": 3.3204,
      "step": 349140
    },
    {
      "epoch": 0.7273958333333334,
      "grad_norm": 0.7882229685783386,
      "learning_rate": 5.213376114953502e-05,
      "loss": 3.4242,
      "step": 349150
    },
    {
      "epoch": 0.7274166666666667,
      "grad_norm": 0.9036622643470764,
      "learning_rate": 5.2126290163818945e-05,
      "loss": 3.4351,
      "step": 349160
    },
    {
      "epoch": 0.7274375,
      "grad_norm": 0.8734990358352661,
      "learning_rate": 5.211881960087852e-05,
      "loss": 3.4649,
      "step": 349170
    },
    {
      "epoch": 0.7274583333333333,
      "grad_norm": 0.8204209208488464,
      "learning_rate": 5.211134946074605e-05,
      "loss": 3.3706,
      "step": 349180
    },
    {
      "epoch": 0.7274791666666667,
      "grad_norm": 0.7959909439086914,
      "learning_rate": 5.2103879743453805e-05,
      "loss": 3.3315,
      "step": 349190
    },
    {
      "epoch": 0.7275,
      "grad_norm": 0.8812459111213684,
      "learning_rate": 5.209641044903404e-05,
      "loss": 3.3767,
      "step": 349200
    },
    {
      "epoch": 0.7275208333333333,
      "grad_norm": 0.9418978095054626,
      "learning_rate": 5.2088941577519045e-05,
      "loss": 3.2729,
      "step": 349210
    },
    {
      "epoch": 0.7275416666666666,
      "grad_norm": 0.8598924279212952,
      "learning_rate": 5.208147312894105e-05,
      "loss": 3.4536,
      "step": 349220
    },
    {
      "epoch": 0.7275625,
      "grad_norm": 0.8981575965881348,
      "learning_rate": 5.207400510333234e-05,
      "loss": 3.2488,
      "step": 349230
    },
    {
      "epoch": 0.7275833333333334,
      "grad_norm": 0.9784704446792603,
      "learning_rate": 5.206653750072516e-05,
      "loss": 3.2892,
      "step": 349240
    },
    {
      "epoch": 0.7276041666666667,
      "grad_norm": 0.9270613193511963,
      "learning_rate": 5.2059070321151785e-05,
      "loss": 3.3238,
      "step": 349250
    },
    {
      "epoch": 0.727625,
      "grad_norm": 0.8504661321640015,
      "learning_rate": 5.2051603564644444e-05,
      "loss": 3.3733,
      "step": 349260
    },
    {
      "epoch": 0.7276458333333333,
      "grad_norm": 0.8596761226654053,
      "learning_rate": 5.204413723123543e-05,
      "loss": 3.3731,
      "step": 349270
    },
    {
      "epoch": 0.7276666666666667,
      "grad_norm": 0.7738180160522461,
      "learning_rate": 5.203667132095694e-05,
      "loss": 3.3998,
      "step": 349280
    },
    {
      "epoch": 0.7276875,
      "grad_norm": 0.7829082608222961,
      "learning_rate": 5.202920583384128e-05,
      "loss": 3.1775,
      "step": 349290
    },
    {
      "epoch": 0.7277083333333333,
      "grad_norm": 0.8324077725410461,
      "learning_rate": 5.202174076992064e-05,
      "loss": 3.2917,
      "step": 349300
    },
    {
      "epoch": 0.7277291666666666,
      "grad_norm": 0.8928261399269104,
      "learning_rate": 5.201427612922732e-05,
      "loss": 3.3356,
      "step": 349310
    },
    {
      "epoch": 0.72775,
      "grad_norm": 0.8038707971572876,
      "learning_rate": 5.200681191179353e-05,
      "loss": 3.3418,
      "step": 349320
    },
    {
      "epoch": 0.7277708333333334,
      "grad_norm": 0.8115723133087158,
      "learning_rate": 5.199934811765153e-05,
      "loss": 3.4898,
      "step": 349330
    },
    {
      "epoch": 0.7277916666666666,
      "grad_norm": 0.9291499257087708,
      "learning_rate": 5.199188474683355e-05,
      "loss": 3.4956,
      "step": 349340
    },
    {
      "epoch": 0.7278125,
      "grad_norm": 0.799685537815094,
      "learning_rate": 5.198442179937184e-05,
      "loss": 3.2425,
      "step": 349350
    },
    {
      "epoch": 0.7278333333333333,
      "grad_norm": 0.9397127628326416,
      "learning_rate": 5.1976959275298686e-05,
      "loss": 3.4113,
      "step": 349360
    },
    {
      "epoch": 0.7278541666666667,
      "grad_norm": 0.8087834119796753,
      "learning_rate": 5.196949717464616e-05,
      "loss": 3.3523,
      "step": 349370
    },
    {
      "epoch": 0.727875,
      "grad_norm": 0.7963017821311951,
      "learning_rate": 5.1962035497446645e-05,
      "loss": 3.4163,
      "step": 349380
    },
    {
      "epoch": 0.7278958333333333,
      "grad_norm": 0.8355441689491272,
      "learning_rate": 5.19545742437324e-05,
      "loss": 3.3343,
      "step": 349390
    },
    {
      "epoch": 0.7279166666666667,
      "grad_norm": 0.9302513003349304,
      "learning_rate": 5.1947113413535476e-05,
      "loss": 3.3296,
      "step": 349400
    },
    {
      "epoch": 0.7279375,
      "grad_norm": 0.8074161410331726,
      "learning_rate": 5.193965300688826e-05,
      "loss": 3.4192,
      "step": 349410
    },
    {
      "epoch": 0.7279583333333334,
      "grad_norm": 0.8168880939483643,
      "learning_rate": 5.1932193023822976e-05,
      "loss": 3.2646,
      "step": 349420
    },
    {
      "epoch": 0.7279791666666666,
      "grad_norm": 0.9765868782997131,
      "learning_rate": 5.19247334643717e-05,
      "loss": 3.4237,
      "step": 349430
    },
    {
      "epoch": 0.728,
      "grad_norm": 0.826041579246521,
      "learning_rate": 5.19172743285668e-05,
      "loss": 3.3556,
      "step": 349440
    },
    {
      "epoch": 0.7280208333333333,
      "grad_norm": 0.8667506575584412,
      "learning_rate": 5.19098156164405e-05,
      "loss": 3.2695,
      "step": 349450
    },
    {
      "epoch": 0.7280416666666667,
      "grad_norm": 0.9014266729354858,
      "learning_rate": 5.190235732802489e-05,
      "loss": 3.2819,
      "step": 349460
    },
    {
      "epoch": 0.7280625,
      "grad_norm": 0.8655493855476379,
      "learning_rate": 5.1894899463352305e-05,
      "loss": 3.3457,
      "step": 349470
    },
    {
      "epoch": 0.7280833333333333,
      "grad_norm": 0.8610028028488159,
      "learning_rate": 5.188744202245496e-05,
      "loss": 3.3919,
      "step": 349480
    },
    {
      "epoch": 0.7281041666666667,
      "grad_norm": 0.8825468420982361,
      "learning_rate": 5.1879985005364995e-05,
      "loss": 3.3181,
      "step": 349490
    },
    {
      "epoch": 0.728125,
      "grad_norm": 0.844211995601654,
      "learning_rate": 5.1872528412114636e-05,
      "loss": 3.3134,
      "step": 349500
    },
    {
      "epoch": 0.7281458333333334,
      "grad_norm": 0.9226852059364319,
      "learning_rate": 5.186507224273614e-05,
      "loss": 3.2267,
      "step": 349510
    },
    {
      "epoch": 0.7281666666666666,
      "grad_norm": 0.8595467209815979,
      "learning_rate": 5.185761649726167e-05,
      "loss": 3.3497,
      "step": 349520
    },
    {
      "epoch": 0.7281875,
      "grad_norm": 0.8960852026939392,
      "learning_rate": 5.185016117572345e-05,
      "loss": 3.2799,
      "step": 349530
    },
    {
      "epoch": 0.7282083333333333,
      "grad_norm": 0.8476612567901611,
      "learning_rate": 5.184270627815369e-05,
      "loss": 3.3772,
      "step": 349540
    },
    {
      "epoch": 0.7282291666666667,
      "grad_norm": 0.8329104781150818,
      "learning_rate": 5.183525180458458e-05,
      "loss": 3.2441,
      "step": 349550
    },
    {
      "epoch": 0.72825,
      "grad_norm": 0.8415442705154419,
      "learning_rate": 5.182779775504833e-05,
      "loss": 3.2953,
      "step": 349560
    },
    {
      "epoch": 0.7282708333333333,
      "grad_norm": 0.9103150963783264,
      "learning_rate": 5.182034412957714e-05,
      "loss": 3.27,
      "step": 349570
    },
    {
      "epoch": 0.7282916666666667,
      "grad_norm": 0.9272812008857727,
      "learning_rate": 5.181289092820319e-05,
      "loss": 3.3012,
      "step": 349580
    },
    {
      "epoch": 0.7283125,
      "grad_norm": 0.9173043370246887,
      "learning_rate": 5.180543815095868e-05,
      "loss": 3.3042,
      "step": 349590
    },
    {
      "epoch": 0.7283333333333334,
      "grad_norm": 0.9553614258766174,
      "learning_rate": 5.179798579787583e-05,
      "loss": 3.2256,
      "step": 349600
    },
    {
      "epoch": 0.7283541666666666,
      "grad_norm": 0.8793299794197083,
      "learning_rate": 5.17905338689868e-05,
      "loss": 3.321,
      "step": 349610
    },
    {
      "epoch": 0.728375,
      "grad_norm": 0.8676835894584656,
      "learning_rate": 5.1783082364323785e-05,
      "loss": 3.3553,
      "step": 349620
    },
    {
      "epoch": 0.7283958333333334,
      "grad_norm": 0.7563928365707397,
      "learning_rate": 5.177563128391898e-05,
      "loss": 3.2646,
      "step": 349630
    },
    {
      "epoch": 0.7284166666666667,
      "grad_norm": 0.8895622491836548,
      "learning_rate": 5.176818062780457e-05,
      "loss": 3.2767,
      "step": 349640
    },
    {
      "epoch": 0.7284375,
      "grad_norm": 0.9504257440567017,
      "learning_rate": 5.176073039601275e-05,
      "loss": 3.4173,
      "step": 349650
    },
    {
      "epoch": 0.7284583333333333,
      "grad_norm": 0.8476966619491577,
      "learning_rate": 5.1753280588575666e-05,
      "loss": 3.3433,
      "step": 349660
    },
    {
      "epoch": 0.7284791666666667,
      "grad_norm": 0.8457857370376587,
      "learning_rate": 5.174583120552553e-05,
      "loss": 3.4796,
      "step": 349670
    },
    {
      "epoch": 0.7285,
      "grad_norm": 0.8357465267181396,
      "learning_rate": 5.1738382246894515e-05,
      "loss": 3.2734,
      "step": 349680
    },
    {
      "epoch": 0.7285208333333333,
      "grad_norm": 0.8901816010475159,
      "learning_rate": 5.173093371271479e-05,
      "loss": 3.3352,
      "step": 349690
    },
    {
      "epoch": 0.7285416666666666,
      "grad_norm": 0.9109139442443848,
      "learning_rate": 5.172348560301853e-05,
      "loss": 3.3554,
      "step": 349700
    },
    {
      "epoch": 0.7285625,
      "grad_norm": 0.8205517530441284,
      "learning_rate": 5.171603791783792e-05,
      "loss": 3.3132,
      "step": 349710
    },
    {
      "epoch": 0.7285833333333334,
      "grad_norm": 0.9565469026565552,
      "learning_rate": 5.170859065720511e-05,
      "loss": 3.4355,
      "step": 349720
    },
    {
      "epoch": 0.7286041666666667,
      "grad_norm": 0.9014683961868286,
      "learning_rate": 5.170114382115234e-05,
      "loss": 3.3663,
      "step": 349730
    },
    {
      "epoch": 0.728625,
      "grad_norm": 0.9545607566833496,
      "learning_rate": 5.1693697409711634e-05,
      "loss": 3.4263,
      "step": 349740
    },
    {
      "epoch": 0.7286458333333333,
      "grad_norm": 0.9213047027587891,
      "learning_rate": 5.1686251422915276e-05,
      "loss": 3.3863,
      "step": 349750
    },
    {
      "epoch": 0.7286666666666667,
      "grad_norm": 1.0069435834884644,
      "learning_rate": 5.167880586079545e-05,
      "loss": 3.3967,
      "step": 349760
    },
    {
      "epoch": 0.7286875,
      "grad_norm": 0.8653878569602966,
      "learning_rate": 5.16713607233842e-05,
      "loss": 3.3586,
      "step": 349770
    },
    {
      "epoch": 0.7287083333333333,
      "grad_norm": 0.8799521327018738,
      "learning_rate": 5.1663916010713715e-05,
      "loss": 3.4898,
      "step": 349780
    },
    {
      "epoch": 0.7287291666666667,
      "grad_norm": 0.8752198219299316,
      "learning_rate": 5.16564717228163e-05,
      "loss": 3.4287,
      "step": 349790
    },
    {
      "epoch": 0.72875,
      "grad_norm": 0.8309580683708191,
      "learning_rate": 5.164902785972394e-05,
      "loss": 3.3529,
      "step": 349800
    },
    {
      "epoch": 0.7287708333333334,
      "grad_norm": 0.8229317665100098,
      "learning_rate": 5.1641584421468795e-05,
      "loss": 3.3252,
      "step": 349810
    },
    {
      "epoch": 0.7287916666666666,
      "grad_norm": 0.8038368821144104,
      "learning_rate": 5.1634141408083174e-05,
      "loss": 3.3723,
      "step": 349820
    },
    {
      "epoch": 0.7288125,
      "grad_norm": 0.870901346206665,
      "learning_rate": 5.162669881959908e-05,
      "loss": 3.4744,
      "step": 349830
    },
    {
      "epoch": 0.7288333333333333,
      "grad_norm": 1.1234203577041626,
      "learning_rate": 5.161925665604865e-05,
      "loss": 3.4211,
      "step": 349840
    },
    {
      "epoch": 0.7288541666666667,
      "grad_norm": 0.8416410684585571,
      "learning_rate": 5.161181491746419e-05,
      "loss": 3.2802,
      "step": 349850
    },
    {
      "epoch": 0.728875,
      "grad_norm": 0.8499669432640076,
      "learning_rate": 5.16043736038777e-05,
      "loss": 3.1827,
      "step": 349860
    },
    {
      "epoch": 0.7288958333333333,
      "grad_norm": 0.792783260345459,
      "learning_rate": 5.159693271532138e-05,
      "loss": 3.278,
      "step": 349870
    },
    {
      "epoch": 0.7289166666666667,
      "grad_norm": 0.8464820384979248,
      "learning_rate": 5.1589492251827336e-05,
      "loss": 3.2394,
      "step": 349880
    },
    {
      "epoch": 0.7289375,
      "grad_norm": 0.9105563163757324,
      "learning_rate": 5.1582052213427756e-05,
      "loss": 3.278,
      "step": 349890
    },
    {
      "epoch": 0.7289583333333334,
      "grad_norm": 0.8678061962127686,
      "learning_rate": 5.1574612600154744e-05,
      "loss": 3.3147,
      "step": 349900
    },
    {
      "epoch": 0.7289791666666666,
      "grad_norm": 0.8635217547416687,
      "learning_rate": 5.1567173412040434e-05,
      "loss": 3.3738,
      "step": 349910
    },
    {
      "epoch": 0.729,
      "grad_norm": 0.8936841487884521,
      "learning_rate": 5.155973464911698e-05,
      "loss": 3.3736,
      "step": 349920
    },
    {
      "epoch": 0.7290208333333333,
      "grad_norm": 0.8666679859161377,
      "learning_rate": 5.1552296311416515e-05,
      "loss": 3.3544,
      "step": 349930
    },
    {
      "epoch": 0.7290416666666667,
      "grad_norm": 0.7852052450180054,
      "learning_rate": 5.154485839897116e-05,
      "loss": 3.4107,
      "step": 349940
    },
    {
      "epoch": 0.7290625,
      "grad_norm": 0.8524837493896484,
      "learning_rate": 5.153742091181303e-05,
      "loss": 3.4304,
      "step": 349950
    },
    {
      "epoch": 0.7290833333333333,
      "grad_norm": 0.8677465915679932,
      "learning_rate": 5.152998384997428e-05,
      "loss": 3.291,
      "step": 349960
    },
    {
      "epoch": 0.7291041666666667,
      "grad_norm": 0.7756201028823853,
      "learning_rate": 5.152254721348702e-05,
      "loss": 3.3395,
      "step": 349970
    },
    {
      "epoch": 0.729125,
      "grad_norm": 0.9269201755523682,
      "learning_rate": 5.151511100238339e-05,
      "loss": 3.4386,
      "step": 349980
    },
    {
      "epoch": 0.7291458333333334,
      "grad_norm": 1.0067459344863892,
      "learning_rate": 5.150767521669549e-05,
      "loss": 3.2465,
      "step": 349990
    },
    {
      "epoch": 0.7291666666666666,
      "grad_norm": 0.8938798308372498,
      "learning_rate": 5.1500239856455435e-05,
      "loss": 3.427,
      "step": 350000
    },
    {
      "epoch": 0.7291666666666666,
      "eval_loss": 4.057549953460693,
      "eval_runtime": 7.82,
      "eval_samples_per_second": 1.279,
      "eval_steps_per_second": 0.384,
      "step": 350000
    },
    {
      "epoch": 0.7291875,
      "grad_norm": 0.809349000453949,
      "learning_rate": 5.1492804921695365e-05,
      "loss": 3.2466,
      "step": 350010
    },
    {
      "epoch": 0.7292083333333333,
      "grad_norm": 1.0112806558609009,
      "learning_rate": 5.1485370412447384e-05,
      "loss": 3.3389,
      "step": 350020
    },
    {
      "epoch": 0.7292291666666667,
      "grad_norm": 0.7833684682846069,
      "learning_rate": 5.1477936328743606e-05,
      "loss": 3.3379,
      "step": 350030
    },
    {
      "epoch": 0.72925,
      "grad_norm": 0.9032958745956421,
      "learning_rate": 5.147050267061614e-05,
      "loss": 3.367,
      "step": 350040
    },
    {
      "epoch": 0.7292708333333333,
      "grad_norm": 0.8348972201347351,
      "learning_rate": 5.1463069438097116e-05,
      "loss": 3.3208,
      "step": 350050
    },
    {
      "epoch": 0.7292916666666667,
      "grad_norm": 1.038000464439392,
      "learning_rate": 5.1455636631218616e-05,
      "loss": 3.468,
      "step": 350060
    },
    {
      "epoch": 0.7293125,
      "grad_norm": 0.852695882320404,
      "learning_rate": 5.144820425001276e-05,
      "loss": 3.215,
      "step": 350070
    },
    {
      "epoch": 0.7293333333333333,
      "grad_norm": 0.8523775935173035,
      "learning_rate": 5.14407722945117e-05,
      "loss": 3.2754,
      "step": 350080
    },
    {
      "epoch": 0.7293541666666666,
      "grad_norm": 0.9147455096244812,
      "learning_rate": 5.14333407647474e-05,
      "loss": 3.2622,
      "step": 350090
    },
    {
      "epoch": 0.729375,
      "grad_norm": 0.9080846309661865,
      "learning_rate": 5.14259096607521e-05,
      "loss": 3.4207,
      "step": 350100
    },
    {
      "epoch": 0.7293958333333334,
      "grad_norm": 0.928103506565094,
      "learning_rate": 5.1418478982557896e-05,
      "loss": 3.2253,
      "step": 350110
    },
    {
      "epoch": 0.7294166666666667,
      "grad_norm": 1.195002794265747,
      "learning_rate": 5.1411048730196764e-05,
      "loss": 3.3528,
      "step": 350120
    },
    {
      "epoch": 0.7294375,
      "grad_norm": 0.8263043165206909,
      "learning_rate": 5.1403618903700955e-05,
      "loss": 3.2978,
      "step": 350130
    },
    {
      "epoch": 0.7294583333333333,
      "grad_norm": 0.9565799832344055,
      "learning_rate": 5.139618950310243e-05,
      "loss": 3.3437,
      "step": 350140
    },
    {
      "epoch": 0.7294791666666667,
      "grad_norm": 0.9994020462036133,
      "learning_rate": 5.13887605284333e-05,
      "loss": 3.4044,
      "step": 350150
    },
    {
      "epoch": 0.7295,
      "grad_norm": 0.9266809821128845,
      "learning_rate": 5.1381331979725795e-05,
      "loss": 3.281,
      "step": 350160
    },
    {
      "epoch": 0.7295208333333333,
      "grad_norm": 0.8274319767951965,
      "learning_rate": 5.137390385701184e-05,
      "loss": 3.3618,
      "step": 350170
    },
    {
      "epoch": 0.7295416666666666,
      "grad_norm": 0.9668665528297424,
      "learning_rate": 5.136647616032353e-05,
      "loss": 3.3379,
      "step": 350180
    },
    {
      "epoch": 0.7295625,
      "grad_norm": 0.8663278222084045,
      "learning_rate": 5.13590488896931e-05,
      "loss": 3.3673,
      "step": 350190
    },
    {
      "epoch": 0.7295833333333334,
      "grad_norm": 0.9342204928398132,
      "learning_rate": 5.13516220451525e-05,
      "loss": 3.3151,
      "step": 350200
    },
    {
      "epoch": 0.7296041666666667,
      "grad_norm": 0.9360529184341431,
      "learning_rate": 5.1344195626733794e-05,
      "loss": 3.2887,
      "step": 350210
    },
    {
      "epoch": 0.729625,
      "grad_norm": 0.9109759330749512,
      "learning_rate": 5.13367696344692e-05,
      "loss": 3.4514,
      "step": 350220
    },
    {
      "epoch": 0.7296458333333333,
      "grad_norm": 0.8795964121818542,
      "learning_rate": 5.132934406839066e-05,
      "loss": 3.4142,
      "step": 350230
    },
    {
      "epoch": 0.7296666666666667,
      "grad_norm": 0.8397359848022461,
      "learning_rate": 5.13219189285303e-05,
      "loss": 3.2746,
      "step": 350240
    },
    {
      "epoch": 0.7296875,
      "grad_norm": 0.8465688228607178,
      "learning_rate": 5.1314494214920185e-05,
      "loss": 3.4123,
      "step": 350250
    },
    {
      "epoch": 0.7297083333333333,
      "grad_norm": 0.8760583996772766,
      "learning_rate": 5.1307069927592385e-05,
      "loss": 3.3375,
      "step": 350260
    },
    {
      "epoch": 0.7297291666666667,
      "grad_norm": 0.8753089904785156,
      "learning_rate": 5.1299646066578984e-05,
      "loss": 3.4323,
      "step": 350270
    },
    {
      "epoch": 0.72975,
      "grad_norm": 1.0664926767349243,
      "learning_rate": 5.129222263191206e-05,
      "loss": 3.3519,
      "step": 350280
    },
    {
      "epoch": 0.7297708333333334,
      "grad_norm": 0.8669577836990356,
      "learning_rate": 5.128479962362365e-05,
      "loss": 3.5042,
      "step": 350290
    },
    {
      "epoch": 0.7297916666666666,
      "grad_norm": 0.8908076286315918,
      "learning_rate": 5.127737704174583e-05,
      "loss": 3.4595,
      "step": 350300
    },
    {
      "epoch": 0.7298125,
      "grad_norm": 0.8430699706077576,
      "learning_rate": 5.126995488631066e-05,
      "loss": 3.3393,
      "step": 350310
    },
    {
      "epoch": 0.7298333333333333,
      "grad_norm": 0.8400487899780273,
      "learning_rate": 5.126253315735021e-05,
      "loss": 3.2432,
      "step": 350320
    },
    {
      "epoch": 0.7298541666666667,
      "grad_norm": 0.9444673657417297,
      "learning_rate": 5.1255111854896544e-05,
      "loss": 3.2632,
      "step": 350330
    },
    {
      "epoch": 0.729875,
      "grad_norm": 0.8676089644432068,
      "learning_rate": 5.124769097898169e-05,
      "loss": 3.4304,
      "step": 350340
    },
    {
      "epoch": 0.7298958333333333,
      "grad_norm": 0.9690319299697876,
      "learning_rate": 5.124027052963774e-05,
      "loss": 3.3073,
      "step": 350350
    },
    {
      "epoch": 0.7299166666666667,
      "grad_norm": 0.9740700721740723,
      "learning_rate": 5.123285050689677e-05,
      "loss": 3.3373,
      "step": 350360
    },
    {
      "epoch": 0.7299375,
      "grad_norm": 0.883673369884491,
      "learning_rate": 5.12254309107907e-05,
      "loss": 3.2564,
      "step": 350370
    },
    {
      "epoch": 0.7299583333333334,
      "grad_norm": 0.8522685170173645,
      "learning_rate": 5.121801174135171e-05,
      "loss": 3.4062,
      "step": 350380
    },
    {
      "epoch": 0.7299791666666666,
      "grad_norm": 0.9777973294258118,
      "learning_rate": 5.1210592998611864e-05,
      "loss": 3.3167,
      "step": 350390
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8113967180252075,
      "learning_rate": 5.1203174682603056e-05,
      "loss": 3.3386,
      "step": 350400
    },
    {
      "epoch": 0.7300208333333333,
      "grad_norm": 0.7682709693908691,
      "learning_rate": 5.119575679335747e-05,
      "loss": 3.3384,
      "step": 350410
    },
    {
      "epoch": 0.7300416666666667,
      "grad_norm": 1.1343188285827637,
      "learning_rate": 5.118833933090715e-05,
      "loss": 3.6367,
      "step": 350420
    },
    {
      "epoch": 0.7300625,
      "grad_norm": 0.7746726870536804,
      "learning_rate": 5.1180922295283997e-05,
      "loss": 3.276,
      "step": 350430
    },
    {
      "epoch": 0.7300833333333333,
      "grad_norm": 0.8089902997016907,
      "learning_rate": 5.11735056865202e-05,
      "loss": 3.306,
      "step": 350440
    },
    {
      "epoch": 0.7301041666666667,
      "grad_norm": 0.8474281430244446,
      "learning_rate": 5.116608950464779e-05,
      "loss": 3.3305,
      "step": 350450
    },
    {
      "epoch": 0.730125,
      "grad_norm": 1.145131230354309,
      "learning_rate": 5.1158673749698644e-05,
      "loss": 3.4745,
      "step": 350460
    },
    {
      "epoch": 0.7301458333333334,
      "grad_norm": 0.9163979291915894,
      "learning_rate": 5.115125842170495e-05,
      "loss": 3.2695,
      "step": 350470
    },
    {
      "epoch": 0.7301666666666666,
      "grad_norm": 0.8609937429428101,
      "learning_rate": 5.114384352069875e-05,
      "loss": 3.2757,
      "step": 350480
    },
    {
      "epoch": 0.7301875,
      "grad_norm": 0.8631933927536011,
      "learning_rate": 5.113642904671192e-05,
      "loss": 3.4318,
      "step": 350490
    },
    {
      "epoch": 0.7302083333333333,
      "grad_norm": 1.0458866357803345,
      "learning_rate": 5.1129014999776674e-05,
      "loss": 3.4883,
      "step": 350500
    },
    {
      "epoch": 0.7302291666666667,
      "grad_norm": 0.8429075479507446,
      "learning_rate": 5.112160137992491e-05,
      "loss": 3.2967,
      "step": 350510
    },
    {
      "epoch": 0.73025,
      "grad_norm": 0.8722240328788757,
      "learning_rate": 5.1114188187188637e-05,
      "loss": 3.3912,
      "step": 350520
    },
    {
      "epoch": 0.7302708333333333,
      "grad_norm": 1.2219816446304321,
      "learning_rate": 5.110677542160002e-05,
      "loss": 3.3617,
      "step": 350530
    },
    {
      "epoch": 0.7302916666666667,
      "grad_norm": 0.8238660097122192,
      "learning_rate": 5.1099363083190934e-05,
      "loss": 3.2613,
      "step": 350540
    },
    {
      "epoch": 0.7303125,
      "grad_norm": 0.8033913969993591,
      "learning_rate": 5.1091951171993425e-05,
      "loss": 3.2892,
      "step": 350550
    },
    {
      "epoch": 0.7303333333333333,
      "grad_norm": 0.8068510293960571,
      "learning_rate": 5.1084539688039613e-05,
      "loss": 3.3022,
      "step": 350560
    },
    {
      "epoch": 0.7303541666666666,
      "grad_norm": 0.833003044128418,
      "learning_rate": 5.1077128631361394e-05,
      "loss": 3.3524,
      "step": 350570
    },
    {
      "epoch": 0.730375,
      "grad_norm": 0.8516399264335632,
      "learning_rate": 5.106971800199077e-05,
      "loss": 3.3815,
      "step": 350580
    },
    {
      "epoch": 0.7303958333333334,
      "grad_norm": 0.863504946231842,
      "learning_rate": 5.106230779995992e-05,
      "loss": 3.42,
      "step": 350590
    },
    {
      "epoch": 0.7304166666666667,
      "grad_norm": 0.7701151967048645,
      "learning_rate": 5.105489802530067e-05,
      "loss": 3.5205,
      "step": 350600
    },
    {
      "epoch": 0.7304375,
      "grad_norm": 0.8075665831565857,
      "learning_rate": 5.104748867804506e-05,
      "loss": 3.4677,
      "step": 350610
    },
    {
      "epoch": 0.7304583333333333,
      "grad_norm": 0.8440192937850952,
      "learning_rate": 5.1040079758225224e-05,
      "loss": 3.3429,
      "step": 350620
    },
    {
      "epoch": 0.7304791666666667,
      "grad_norm": 0.8092618584632874,
      "learning_rate": 5.103267126587302e-05,
      "loss": 3.2684,
      "step": 350630
    },
    {
      "epoch": 0.7305,
      "grad_norm": 0.8543037176132202,
      "learning_rate": 5.10252632010205e-05,
      "loss": 3.3939,
      "step": 350640
    },
    {
      "epoch": 0.7305208333333333,
      "grad_norm": 1.0235724449157715,
      "learning_rate": 5.101785556369967e-05,
      "loss": 3.3604,
      "step": 350650
    },
    {
      "epoch": 0.7305416666666666,
      "grad_norm": 0.831843912601471,
      "learning_rate": 5.101044835394253e-05,
      "loss": 3.374,
      "step": 350660
    },
    {
      "epoch": 0.7305625,
      "grad_norm": 1.1617414951324463,
      "learning_rate": 5.1003041571781065e-05,
      "loss": 3.3999,
      "step": 350670
    },
    {
      "epoch": 0.7305833333333334,
      "grad_norm": 0.8633254170417786,
      "learning_rate": 5.0995635217247274e-05,
      "loss": 3.3808,
      "step": 350680
    },
    {
      "epoch": 0.7306041666666667,
      "grad_norm": 0.8235366344451904,
      "learning_rate": 5.0988229290373154e-05,
      "loss": 3.4013,
      "step": 350690
    },
    {
      "epoch": 0.730625,
      "grad_norm": 1.0261197090148926,
      "learning_rate": 5.098082379119069e-05,
      "loss": 3.2124,
      "step": 350700
    },
    {
      "epoch": 0.7306458333333333,
      "grad_norm": 0.8317813873291016,
      "learning_rate": 5.097341871973187e-05,
      "loss": 3.2781,
      "step": 350710
    },
    {
      "epoch": 0.7306666666666667,
      "grad_norm": 0.7953423261642456,
      "learning_rate": 5.096601407602868e-05,
      "loss": 3.3512,
      "step": 350720
    },
    {
      "epoch": 0.7306875,
      "grad_norm": 0.9483463764190674,
      "learning_rate": 5.095860986011316e-05,
      "loss": 3.2749,
      "step": 350730
    },
    {
      "epoch": 0.7307083333333333,
      "grad_norm": 0.9311857223510742,
      "learning_rate": 5.095120607201715e-05,
      "loss": 3.3903,
      "step": 350740
    },
    {
      "epoch": 0.7307291666666667,
      "grad_norm": 0.8255216479301453,
      "learning_rate": 5.094380271177277e-05,
      "loss": 3.4133,
      "step": 350750
    },
    {
      "epoch": 0.73075,
      "grad_norm": 0.9190681576728821,
      "learning_rate": 5.0936399779411996e-05,
      "loss": 3.3513,
      "step": 350760
    },
    {
      "epoch": 0.7307708333333334,
      "grad_norm": 0.8946805000305176,
      "learning_rate": 5.092899727496668e-05,
      "loss": 3.3854,
      "step": 350770
    },
    {
      "epoch": 0.7307916666666666,
      "grad_norm": 0.9098345637321472,
      "learning_rate": 5.092159519846892e-05,
      "loss": 3.3853,
      "step": 350780
    },
    {
      "epoch": 0.7308125,
      "grad_norm": 0.829701840877533,
      "learning_rate": 5.091419354995069e-05,
      "loss": 3.4177,
      "step": 350790
    },
    {
      "epoch": 0.7308333333333333,
      "grad_norm": 0.8867572546005249,
      "learning_rate": 5.090679232944383e-05,
      "loss": 3.474,
      "step": 350800
    },
    {
      "epoch": 0.7308541666666667,
      "grad_norm": 0.9513819217681885,
      "learning_rate": 5.0899391536980465e-05,
      "loss": 3.3318,
      "step": 350810
    },
    {
      "epoch": 0.730875,
      "grad_norm": 0.9235987067222595,
      "learning_rate": 5.089199117259255e-05,
      "loss": 3.3375,
      "step": 350820
    },
    {
      "epoch": 0.7308958333333333,
      "grad_norm": 0.8243548274040222,
      "learning_rate": 5.088459123631189e-05,
      "loss": 3.3802,
      "step": 350830
    },
    {
      "epoch": 0.7309166666666667,
      "grad_norm": 0.7938344478607178,
      "learning_rate": 5.0877191728170626e-05,
      "loss": 3.3065,
      "step": 350840
    },
    {
      "epoch": 0.7309375,
      "grad_norm": 0.8654330968856812,
      "learning_rate": 5.0869792648200694e-05,
      "loss": 3.3774,
      "step": 350850
    },
    {
      "epoch": 0.7309583333333334,
      "grad_norm": 1.1538559198379517,
      "learning_rate": 5.086239399643393e-05,
      "loss": 3.3314,
      "step": 350860
    },
    {
      "epoch": 0.7309791666666666,
      "grad_norm": 0.7869096398353577,
      "learning_rate": 5.085499577290249e-05,
      "loss": 3.2724,
      "step": 350870
    },
    {
      "epoch": 0.731,
      "grad_norm": 0.8836463689804077,
      "learning_rate": 5.084759797763816e-05,
      "loss": 3.4715,
      "step": 350880
    },
    {
      "epoch": 0.7310208333333333,
      "grad_norm": 0.8194458484649658,
      "learning_rate": 5.084020061067292e-05,
      "loss": 3.4034,
      "step": 350890
    },
    {
      "epoch": 0.7310416666666667,
      "grad_norm": 1.0187522172927856,
      "learning_rate": 5.083280367203884e-05,
      "loss": 3.3788,
      "step": 350900
    },
    {
      "epoch": 0.7310625,
      "grad_norm": 0.9969215989112854,
      "learning_rate": 5.0825407161767764e-05,
      "loss": 3.356,
      "step": 350910
    },
    {
      "epoch": 0.7310833333333333,
      "grad_norm": 0.8146916031837463,
      "learning_rate": 5.0818011079891616e-05,
      "loss": 3.3171,
      "step": 350920
    },
    {
      "epoch": 0.7311041666666667,
      "grad_norm": 0.8778096437454224,
      "learning_rate": 5.081061542644252e-05,
      "loss": 3.4036,
      "step": 350930
    },
    {
      "epoch": 0.731125,
      "grad_norm": 1.0025436878204346,
      "learning_rate": 5.080322020145224e-05,
      "loss": 3.354,
      "step": 350940
    },
    {
      "epoch": 0.7311458333333334,
      "grad_norm": 0.8381600975990295,
      "learning_rate": 5.0795825404952785e-05,
      "loss": 3.3774,
      "step": 350950
    },
    {
      "epoch": 0.7311666666666666,
      "grad_norm": 1.0450479984283447,
      "learning_rate": 5.078843103697609e-05,
      "loss": 3.5175,
      "step": 350960
    },
    {
      "epoch": 0.7311875,
      "grad_norm": 0.8540720343589783,
      "learning_rate": 5.07810370975541e-05,
      "loss": 3.281,
      "step": 350970
    },
    {
      "epoch": 0.7312083333333333,
      "grad_norm": 0.871637761592865,
      "learning_rate": 5.077364358671877e-05,
      "loss": 3.3991,
      "step": 350980
    },
    {
      "epoch": 0.7312291666666667,
      "grad_norm": 0.902984619140625,
      "learning_rate": 5.076625050450202e-05,
      "loss": 3.431,
      "step": 350990
    },
    {
      "epoch": 0.73125,
      "grad_norm": 0.8552390933036804,
      "learning_rate": 5.075885785093577e-05,
      "loss": 3.3368,
      "step": 351000
    },
    {
      "epoch": 0.73125,
      "eval_loss": 4.060102939605713,
      "eval_runtime": 8.4067,
      "eval_samples_per_second": 1.19,
      "eval_steps_per_second": 0.357,
      "step": 351000
    },
    {
      "epoch": 0.7312708333333333,
      "grad_norm": 0.8883107900619507,
      "learning_rate": 5.075146562605199e-05,
      "loss": 3.3252,
      "step": 351010
    },
    {
      "epoch": 0.7312916666666667,
      "grad_norm": 0.9902758598327637,
      "learning_rate": 5.0744073829882604e-05,
      "loss": 3.4191,
      "step": 351020
    },
    {
      "epoch": 0.7313125,
      "grad_norm": 0.8755090236663818,
      "learning_rate": 5.073668246245951e-05,
      "loss": 3.3995,
      "step": 351030
    },
    {
      "epoch": 0.7313333333333333,
      "grad_norm": 0.8461557626724243,
      "learning_rate": 5.0729291523814666e-05,
      "loss": 3.4573,
      "step": 351040
    },
    {
      "epoch": 0.7313541666666666,
      "grad_norm": 0.8413413763046265,
      "learning_rate": 5.072190101397999e-05,
      "loss": 3.3633,
      "step": 351050
    },
    {
      "epoch": 0.731375,
      "grad_norm": 0.8806096315383911,
      "learning_rate": 5.07145109329874e-05,
      "loss": 3.2852,
      "step": 351060
    },
    {
      "epoch": 0.7313958333333334,
      "grad_norm": 0.927905261516571,
      "learning_rate": 5.070712128086882e-05,
      "loss": 3.4019,
      "step": 351070
    },
    {
      "epoch": 0.7314166666666667,
      "grad_norm": 0.8840486407279968,
      "learning_rate": 5.069973205765618e-05,
      "loss": 3.386,
      "step": 351080
    },
    {
      "epoch": 0.7314375,
      "grad_norm": 1.016048789024353,
      "learning_rate": 5.069234326338139e-05,
      "loss": 3.4003,
      "step": 351090
    },
    {
      "epoch": 0.7314583333333333,
      "grad_norm": 0.9391862750053406,
      "learning_rate": 5.0684954898076414e-05,
      "loss": 3.3133,
      "step": 351100
    },
    {
      "epoch": 0.7314791666666667,
      "grad_norm": 0.8380822539329529,
      "learning_rate": 5.067756696177302e-05,
      "loss": 3.3433,
      "step": 351110
    },
    {
      "epoch": 0.7315,
      "grad_norm": 0.9033558368682861,
      "learning_rate": 5.067017945450329e-05,
      "loss": 3.2013,
      "step": 351120
    },
    {
      "epoch": 0.7315208333333333,
      "grad_norm": 0.9555636644363403,
      "learning_rate": 5.06627923762991e-05,
      "loss": 3.3563,
      "step": 351130
    },
    {
      "epoch": 0.7315416666666666,
      "grad_norm": 0.9290896058082581,
      "learning_rate": 5.065540572719222e-05,
      "loss": 3.3444,
      "step": 351140
    },
    {
      "epoch": 0.7315625,
      "grad_norm": 0.7735401391983032,
      "learning_rate": 5.0648019507214725e-05,
      "loss": 3.3432,
      "step": 351150
    },
    {
      "epoch": 0.7315833333333334,
      "grad_norm": 0.7625257968902588,
      "learning_rate": 5.0640633716398506e-05,
      "loss": 3.3641,
      "step": 351160
    },
    {
      "epoch": 0.7316041666666667,
      "grad_norm": 0.939805269241333,
      "learning_rate": 5.063324835477533e-05,
      "loss": 3.308,
      "step": 351170
    },
    {
      "epoch": 0.731625,
      "grad_norm": 0.8479474782943726,
      "learning_rate": 5.0625863422377226e-05,
      "loss": 3.4085,
      "step": 351180
    },
    {
      "epoch": 0.7316458333333333,
      "grad_norm": 0.8458094596862793,
      "learning_rate": 5.061847891923612e-05,
      "loss": 3.4788,
      "step": 351190
    },
    {
      "epoch": 0.7316666666666667,
      "grad_norm": 0.8905211091041565,
      "learning_rate": 5.061109484538374e-05,
      "loss": 3.3495,
      "step": 351200
    },
    {
      "epoch": 0.7316875,
      "grad_norm": 0.8382318019866943,
      "learning_rate": 5.0603711200852133e-05,
      "loss": 3.4069,
      "step": 351210
    },
    {
      "epoch": 0.7317083333333333,
      "grad_norm": 0.9902772903442383,
      "learning_rate": 5.0596327985673216e-05,
      "loss": 3.3856,
      "step": 351220
    },
    {
      "epoch": 0.7317291666666667,
      "grad_norm": 0.8461917042732239,
      "learning_rate": 5.058894519987876e-05,
      "loss": 3.3092,
      "step": 351230
    },
    {
      "epoch": 0.73175,
      "grad_norm": 0.8292866349220276,
      "learning_rate": 5.05815628435007e-05,
      "loss": 3.4131,
      "step": 351240
    },
    {
      "epoch": 0.7317708333333334,
      "grad_norm": 0.8324007987976074,
      "learning_rate": 5.057418091657094e-05,
      "loss": 3.2869,
      "step": 351250
    },
    {
      "epoch": 0.7317916666666666,
      "grad_norm": 0.7820045948028564,
      "learning_rate": 5.0566799419121364e-05,
      "loss": 3.2945,
      "step": 351260
    },
    {
      "epoch": 0.7318125,
      "grad_norm": 0.8525136709213257,
      "learning_rate": 5.055941835118386e-05,
      "loss": 3.4081,
      "step": 351270
    },
    {
      "epoch": 0.7318333333333333,
      "grad_norm": 0.7787035703659058,
      "learning_rate": 5.0552037712790295e-05,
      "loss": 3.2692,
      "step": 351280
    },
    {
      "epoch": 0.7318541666666667,
      "grad_norm": 0.9432619214057922,
      "learning_rate": 5.054465750397258e-05,
      "loss": 3.277,
      "step": 351290
    },
    {
      "epoch": 0.731875,
      "grad_norm": 0.8439691662788391,
      "learning_rate": 5.0537277724762574e-05,
      "loss": 3.2968,
      "step": 351300
    },
    {
      "epoch": 0.7318958333333333,
      "grad_norm": 0.7869662642478943,
      "learning_rate": 5.052989837519216e-05,
      "loss": 3.2923,
      "step": 351310
    },
    {
      "epoch": 0.7319166666666667,
      "grad_norm": 0.8428504467010498,
      "learning_rate": 5.05225194552932e-05,
      "loss": 3.3291,
      "step": 351320
    },
    {
      "epoch": 0.7319375,
      "grad_norm": 0.938342809677124,
      "learning_rate": 5.0515140965097586e-05,
      "loss": 3.3906,
      "step": 351330
    },
    {
      "epoch": 0.7319583333333334,
      "grad_norm": 0.833722710609436,
      "learning_rate": 5.050776290463719e-05,
      "loss": 3.281,
      "step": 351340
    },
    {
      "epoch": 0.7319791666666666,
      "grad_norm": 0.7958104610443115,
      "learning_rate": 5.050038527394386e-05,
      "loss": 3.3753,
      "step": 351350
    },
    {
      "epoch": 0.732,
      "grad_norm": 0.9178614020347595,
      "learning_rate": 5.04930080730495e-05,
      "loss": 3.318,
      "step": 351360
    },
    {
      "epoch": 0.7320208333333333,
      "grad_norm": 1.0175580978393555,
      "learning_rate": 5.048563130198595e-05,
      "loss": 3.4671,
      "step": 351370
    },
    {
      "epoch": 0.7320416666666667,
      "grad_norm": 1.1222569942474365,
      "learning_rate": 5.047825496078507e-05,
      "loss": 3.2937,
      "step": 351380
    },
    {
      "epoch": 0.7320625,
      "grad_norm": 0.8972511291503906,
      "learning_rate": 5.047087904947876e-05,
      "loss": 3.3817,
      "step": 351390
    },
    {
      "epoch": 0.7320833333333333,
      "grad_norm": 0.8466602563858032,
      "learning_rate": 5.046350356809884e-05,
      "loss": 3.2957,
      "step": 351400
    },
    {
      "epoch": 0.7321041666666667,
      "grad_norm": 0.8788402080535889,
      "learning_rate": 5.045612851667719e-05,
      "loss": 3.3766,
      "step": 351410
    },
    {
      "epoch": 0.732125,
      "grad_norm": 0.8246737122535706,
      "learning_rate": 5.044875389524565e-05,
      "loss": 3.3902,
      "step": 351420
    },
    {
      "epoch": 0.7321458333333334,
      "grad_norm": 1.0316604375839233,
      "learning_rate": 5.04413797038361e-05,
      "loss": 3.2642,
      "step": 351430
    },
    {
      "epoch": 0.7321666666666666,
      "grad_norm": 0.9788298606872559,
      "learning_rate": 5.0434005942480386e-05,
      "loss": 3.2427,
      "step": 351440
    },
    {
      "epoch": 0.7321875,
      "grad_norm": 0.9504044055938721,
      "learning_rate": 5.0426632611210345e-05,
      "loss": 3.191,
      "step": 351450
    },
    {
      "epoch": 0.7322083333333333,
      "grad_norm": 0.7914897203445435,
      "learning_rate": 5.041925971005784e-05,
      "loss": 3.2705,
      "step": 351460
    },
    {
      "epoch": 0.7322291666666667,
      "grad_norm": 0.9242326617240906,
      "learning_rate": 5.041188723905472e-05,
      "loss": 3.3437,
      "step": 351470
    },
    {
      "epoch": 0.73225,
      "grad_norm": 0.9546758532524109,
      "learning_rate": 5.0404515198232845e-05,
      "loss": 3.297,
      "step": 351480
    },
    {
      "epoch": 0.7322708333333333,
      "grad_norm": 0.8239215612411499,
      "learning_rate": 5.0397143587624015e-05,
      "loss": 3.46,
      "step": 351490
    },
    {
      "epoch": 0.7322916666666667,
      "grad_norm": 0.8421151638031006,
      "learning_rate": 5.0389772407260156e-05,
      "loss": 3.3656,
      "step": 351500
    },
    {
      "epoch": 0.7323125,
      "grad_norm": 0.8033626675605774,
      "learning_rate": 5.038240165717294e-05,
      "loss": 3.2717,
      "step": 351510
    },
    {
      "epoch": 0.7323333333333333,
      "grad_norm": 0.9092258214950562,
      "learning_rate": 5.037503133739439e-05,
      "loss": 3.3194,
      "step": 351520
    },
    {
      "epoch": 0.7323541666666666,
      "grad_norm": 0.9229484796524048,
      "learning_rate": 5.036766144795632e-05,
      "loss": 3.3122,
      "step": 351530
    },
    {
      "epoch": 0.732375,
      "grad_norm": 0.8514748215675354,
      "learning_rate": 5.036029198889044e-05,
      "loss": 3.2966,
      "step": 351540
    },
    {
      "epoch": 0.7323958333333334,
      "grad_norm": 0.7948839068412781,
      "learning_rate": 5.035292296022864e-05,
      "loss": 3.2628,
      "step": 351550
    },
    {
      "epoch": 0.7324166666666667,
      "grad_norm": 0.8136045336723328,
      "learning_rate": 5.034555436200285e-05,
      "loss": 3.3682,
      "step": 351560
    },
    {
      "epoch": 0.7324375,
      "grad_norm": 0.8235704898834229,
      "learning_rate": 5.0338186194244774e-05,
      "loss": 3.3131,
      "step": 351570
    },
    {
      "epoch": 0.7324583333333333,
      "grad_norm": 0.8887548446655273,
      "learning_rate": 5.0330818456986234e-05,
      "loss": 3.2795,
      "step": 351580
    },
    {
      "epoch": 0.7324791666666667,
      "grad_norm": 0.9146407246589661,
      "learning_rate": 5.0323451150259206e-05,
      "loss": 3.3531,
      "step": 351590
    },
    {
      "epoch": 0.7325,
      "grad_norm": 0.8736153841018677,
      "learning_rate": 5.0316084274095356e-05,
      "loss": 3.4104,
      "step": 351600
    },
    {
      "epoch": 0.7325208333333333,
      "grad_norm": 0.8137678503990173,
      "learning_rate": 5.0308717828526526e-05,
      "loss": 3.3106,
      "step": 351610
    },
    {
      "epoch": 0.7325416666666666,
      "grad_norm": 0.9459852576255798,
      "learning_rate": 5.030135181358467e-05,
      "loss": 3.3223,
      "step": 351620
    },
    {
      "epoch": 0.7325625,
      "grad_norm": 0.847995936870575,
      "learning_rate": 5.0293986229301466e-05,
      "loss": 3.2615,
      "step": 351630
    },
    {
      "epoch": 0.7325833333333334,
      "grad_norm": 0.8814835548400879,
      "learning_rate": 5.028662107570877e-05,
      "loss": 3.3818,
      "step": 351640
    },
    {
      "epoch": 0.7326041666666666,
      "grad_norm": 0.8673769235610962,
      "learning_rate": 5.02792563528384e-05,
      "loss": 3.3006,
      "step": 351650
    },
    {
      "epoch": 0.732625,
      "grad_norm": 0.9657028317451477,
      "learning_rate": 5.0271892060722166e-05,
      "loss": 3.4334,
      "step": 351660
    },
    {
      "epoch": 0.7326458333333333,
      "grad_norm": 1.099840521812439,
      "learning_rate": 5.0264528199391904e-05,
      "loss": 3.2848,
      "step": 351670
    },
    {
      "epoch": 0.7326666666666667,
      "grad_norm": 0.9550917148590088,
      "learning_rate": 5.025716476887939e-05,
      "loss": 3.4018,
      "step": 351680
    },
    {
      "epoch": 0.7326875,
      "grad_norm": 0.9862186312675476,
      "learning_rate": 5.0249801769216434e-05,
      "loss": 3.385,
      "step": 351690
    },
    {
      "epoch": 0.7327083333333333,
      "grad_norm": 0.8106081485748291,
      "learning_rate": 5.024243920043486e-05,
      "loss": 3.3966,
      "step": 351700
    },
    {
      "epoch": 0.7327291666666667,
      "grad_norm": 0.9366353154182434,
      "learning_rate": 5.023507706256647e-05,
      "loss": 3.3043,
      "step": 351710
    },
    {
      "epoch": 0.73275,
      "grad_norm": 0.8573017716407776,
      "learning_rate": 5.022771535564305e-05,
      "loss": 3.3946,
      "step": 351720
    },
    {
      "epoch": 0.7327708333333334,
      "grad_norm": 0.8100284934043884,
      "learning_rate": 5.022035407969639e-05,
      "loss": 3.3959,
      "step": 351730
    },
    {
      "epoch": 0.7327916666666666,
      "grad_norm": 0.9041223526000977,
      "learning_rate": 5.021299323475833e-05,
      "loss": 3.3306,
      "step": 351740
    },
    {
      "epoch": 0.7328125,
      "grad_norm": 0.868431031703949,
      "learning_rate": 5.0205632820860625e-05,
      "loss": 3.3463,
      "step": 351750
    },
    {
      "epoch": 0.7328333333333333,
      "grad_norm": 0.9123258590698242,
      "learning_rate": 5.01982728380351e-05,
      "loss": 3.3823,
      "step": 351760
    },
    {
      "epoch": 0.7328541666666667,
      "grad_norm": 0.7997106909751892,
      "learning_rate": 5.0190913286313504e-05,
      "loss": 3.3506,
      "step": 351770
    },
    {
      "epoch": 0.732875,
      "grad_norm": 0.885023832321167,
      "learning_rate": 5.018355416572769e-05,
      "loss": 3.3432,
      "step": 351780
    },
    {
      "epoch": 0.7328958333333333,
      "grad_norm": 0.8901515603065491,
      "learning_rate": 5.01761954763094e-05,
      "loss": 3.444,
      "step": 351790
    },
    {
      "epoch": 0.7329166666666667,
      "grad_norm": 0.8838030099868774,
      "learning_rate": 5.0168837218090426e-05,
      "loss": 3.3204,
      "step": 351800
    },
    {
      "epoch": 0.7329375,
      "grad_norm": 0.890830397605896,
      "learning_rate": 5.0161479391102556e-05,
      "loss": 3.4354,
      "step": 351810
    },
    {
      "epoch": 0.7329583333333334,
      "grad_norm": 0.9836466908454895,
      "learning_rate": 5.015412199537763e-05,
      "loss": 3.3348,
      "step": 351820
    },
    {
      "epoch": 0.7329791666666666,
      "grad_norm": 1.0015608072280884,
      "learning_rate": 5.014676503094727e-05,
      "loss": 3.2931,
      "step": 351830
    },
    {
      "epoch": 0.733,
      "grad_norm": 0.9785722494125366,
      "learning_rate": 5.0139408497843417e-05,
      "loss": 3.3494,
      "step": 351840
    },
    {
      "epoch": 0.7330208333333333,
      "grad_norm": 0.943454921245575,
      "learning_rate": 5.0132052396097844e-05,
      "loss": 3.4669,
      "step": 351850
    },
    {
      "epoch": 0.7330416666666667,
      "grad_norm": 0.831399142742157,
      "learning_rate": 5.012469672574218e-05,
      "loss": 3.3699,
      "step": 351860
    },
    {
      "epoch": 0.7330625,
      "grad_norm": 0.8791494369506836,
      "learning_rate": 5.011734148680838e-05,
      "loss": 3.3503,
      "step": 351870
    },
    {
      "epoch": 0.7330833333333333,
      "grad_norm": 0.863471508026123,
      "learning_rate": 5.010998667932809e-05,
      "loss": 3.4144,
      "step": 351880
    },
    {
      "epoch": 0.7331041666666667,
      "grad_norm": 0.8674681186676025,
      "learning_rate": 5.010263230333306e-05,
      "loss": 3.3961,
      "step": 351890
    },
    {
      "epoch": 0.733125,
      "grad_norm": 0.8244343400001526,
      "learning_rate": 5.0095278358855206e-05,
      "loss": 3.3145,
      "step": 351900
    },
    {
      "epoch": 0.7331458333333334,
      "grad_norm": 0.9208579659461975,
      "learning_rate": 5.008792484592618e-05,
      "loss": 3.3407,
      "step": 351910
    },
    {
      "epoch": 0.7331666666666666,
      "grad_norm": 0.897652804851532,
      "learning_rate": 5.0080571764577695e-05,
      "loss": 3.3867,
      "step": 351920
    },
    {
      "epoch": 0.7331875,
      "grad_norm": 0.8219853639602661,
      "learning_rate": 5.00732191148417e-05,
      "loss": 3.4672,
      "step": 351930
    },
    {
      "epoch": 0.7332083333333334,
      "grad_norm": 0.8538984656333923,
      "learning_rate": 5.0065866896749795e-05,
      "loss": 3.1738,
      "step": 351940
    },
    {
      "epoch": 0.7332291666666667,
      "grad_norm": 0.8880313038825989,
      "learning_rate": 5.005851511033375e-05,
      "loss": 3.4045,
      "step": 351950
    },
    {
      "epoch": 0.73325,
      "grad_norm": 0.8445025086402893,
      "learning_rate": 5.0051163755625446e-05,
      "loss": 3.3246,
      "step": 351960
    },
    {
      "epoch": 0.7332708333333333,
      "grad_norm": 0.9082215428352356,
      "learning_rate": 5.00438128326565e-05,
      "loss": 3.1864,
      "step": 351970
    },
    {
      "epoch": 0.7332916666666667,
      "grad_norm": 0.9151792526245117,
      "learning_rate": 5.003646234145867e-05,
      "loss": 3.3562,
      "step": 351980
    },
    {
      "epoch": 0.7333125,
      "grad_norm": 0.8154062032699585,
      "learning_rate": 5.0029112282063873e-05,
      "loss": 3.1917,
      "step": 351990
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 0.8504480719566345,
      "learning_rate": 5.002176265450367e-05,
      "loss": 3.3201,
      "step": 352000
    },
    {
      "epoch": 0.7333333333333333,
      "eval_loss": 4.051485538482666,
      "eval_runtime": 8.4677,
      "eval_samples_per_second": 1.181,
      "eval_steps_per_second": 0.354,
      "step": 352000
    },
    {
      "epoch": 0.7333541666666666,
      "grad_norm": 0.9027701616287231,
      "learning_rate": 5.001441345880988e-05,
      "loss": 3.3341,
      "step": 352010
    },
    {
      "epoch": 0.733375,
      "grad_norm": 0.9102888107299805,
      "learning_rate": 5.000706469501424e-05,
      "loss": 3.4534,
      "step": 352020
    },
    {
      "epoch": 0.7333958333333334,
      "grad_norm": 0.8509072065353394,
      "learning_rate": 4.999971636314851e-05,
      "loss": 3.3546,
      "step": 352030
    },
    {
      "epoch": 0.7334166666666667,
      "grad_norm": 0.8569396734237671,
      "learning_rate": 4.999236846324443e-05,
      "loss": 3.4112,
      "step": 352040
    },
    {
      "epoch": 0.7334375,
      "grad_norm": 0.9375588893890381,
      "learning_rate": 4.9985020995333723e-05,
      "loss": 3.3801,
      "step": 352050
    },
    {
      "epoch": 0.7334583333333333,
      "grad_norm": 0.8335273861885071,
      "learning_rate": 4.997767395944813e-05,
      "loss": 3.1939,
      "step": 352060
    },
    {
      "epoch": 0.7334791666666667,
      "grad_norm": 0.8595662713050842,
      "learning_rate": 4.9970327355619416e-05,
      "loss": 3.2662,
      "step": 352070
    },
    {
      "epoch": 0.7335,
      "grad_norm": 0.9061270952224731,
      "learning_rate": 4.996298118387928e-05,
      "loss": 3.3412,
      "step": 352080
    },
    {
      "epoch": 0.7335208333333333,
      "grad_norm": 0.8696084022521973,
      "learning_rate": 4.9955635444259466e-05,
      "loss": 3.4199,
      "step": 352090
    },
    {
      "epoch": 0.7335416666666666,
      "grad_norm": 0.7924374938011169,
      "learning_rate": 4.9948290136791705e-05,
      "loss": 3.311,
      "step": 352100
    },
    {
      "epoch": 0.7335625,
      "grad_norm": 0.9040845036506653,
      "learning_rate": 4.9940945261507726e-05,
      "loss": 3.3202,
      "step": 352110
    },
    {
      "epoch": 0.7335833333333334,
      "grad_norm": 0.8603615164756775,
      "learning_rate": 4.993360081843926e-05,
      "loss": 3.335,
      "step": 352120
    },
    {
      "epoch": 0.7336041666666666,
      "grad_norm": 0.9437428712844849,
      "learning_rate": 4.992625680761809e-05,
      "loss": 3.2797,
      "step": 352130
    },
    {
      "epoch": 0.733625,
      "grad_norm": 0.7716181874275208,
      "learning_rate": 4.991891322907576e-05,
      "loss": 3.2912,
      "step": 352140
    },
    {
      "epoch": 0.7336458333333333,
      "grad_norm": 0.881934404373169,
      "learning_rate": 4.991157008284417e-05,
      "loss": 3.3706,
      "step": 352150
    },
    {
      "epoch": 0.7336666666666667,
      "grad_norm": 0.8748852014541626,
      "learning_rate": 4.990422736895503e-05,
      "loss": 3.4925,
      "step": 352160
    },
    {
      "epoch": 0.7336875,
      "grad_norm": 0.8908119201660156,
      "learning_rate": 4.989688508743991e-05,
      "loss": 3.351,
      "step": 352170
    },
    {
      "epoch": 0.7337083333333333,
      "grad_norm": 0.8164719343185425,
      "learning_rate": 4.988954323833066e-05,
      "loss": 3.366,
      "step": 352180
    },
    {
      "epoch": 0.7337291666666667,
      "grad_norm": 0.8288529515266418,
      "learning_rate": 4.988220182165903e-05,
      "loss": 3.4175,
      "step": 352190
    },
    {
      "epoch": 0.73375,
      "grad_norm": 0.8193487524986267,
      "learning_rate": 4.9874860837456545e-05,
      "loss": 3.2741,
      "step": 352200
    },
    {
      "epoch": 0.7337708333333334,
      "grad_norm": 0.9387741088867188,
      "learning_rate": 4.9867520285755074e-05,
      "loss": 3.3069,
      "step": 352210
    },
    {
      "epoch": 0.7337916666666666,
      "grad_norm": 0.851062536239624,
      "learning_rate": 4.9860180166586335e-05,
      "loss": 3.3175,
      "step": 352220
    },
    {
      "epoch": 0.7338125,
      "grad_norm": 0.9248214364051819,
      "learning_rate": 4.985284047998187e-05,
      "loss": 3.2973,
      "step": 352230
    },
    {
      "epoch": 0.7338333333333333,
      "grad_norm": 0.9147239923477173,
      "learning_rate": 4.984550122597361e-05,
      "loss": 3.2632,
      "step": 352240
    },
    {
      "epoch": 0.7338541666666667,
      "grad_norm": 0.9781981110572815,
      "learning_rate": 4.983816240459308e-05,
      "loss": 3.3352,
      "step": 352250
    },
    {
      "epoch": 0.733875,
      "grad_norm": 0.8764231204986572,
      "learning_rate": 4.983082401587199e-05,
      "loss": 3.3404,
      "step": 352260
    },
    {
      "epoch": 0.7338958333333333,
      "grad_norm": 0.9251776337623596,
      "learning_rate": 4.98234860598422e-05,
      "loss": 3.2738,
      "step": 352270
    },
    {
      "epoch": 0.7339166666666667,
      "grad_norm": 0.909886360168457,
      "learning_rate": 4.981614853653525e-05,
      "loss": 3.3927,
      "step": 352280
    },
    {
      "epoch": 0.7339375,
      "grad_norm": 1.1106277704238892,
      "learning_rate": 4.9808811445982816e-05,
      "loss": 3.3787,
      "step": 352290
    },
    {
      "epoch": 0.7339583333333334,
      "grad_norm": 0.9205049276351929,
      "learning_rate": 4.980147478821677e-05,
      "loss": 3.1906,
      "step": 352300
    },
    {
      "epoch": 0.7339791666666666,
      "grad_norm": 0.9321134686470032,
      "learning_rate": 4.9794138563268645e-05,
      "loss": 3.3412,
      "step": 352310
    },
    {
      "epoch": 0.734,
      "grad_norm": 0.8964065909385681,
      "learning_rate": 4.978680277117012e-05,
      "loss": 3.2152,
      "step": 352320
    },
    {
      "epoch": 0.7340208333333333,
      "grad_norm": 0.951172411441803,
      "learning_rate": 4.977946741195305e-05,
      "loss": 3.3446,
      "step": 352330
    },
    {
      "epoch": 0.7340416666666667,
      "grad_norm": 0.9390479326248169,
      "learning_rate": 4.977213248564894e-05,
      "loss": 3.3289,
      "step": 352340
    },
    {
      "epoch": 0.7340625,
      "grad_norm": 0.9332822561264038,
      "learning_rate": 4.97647979922895e-05,
      "loss": 3.3704,
      "step": 352350
    },
    {
      "epoch": 0.7340833333333333,
      "grad_norm": 1.0554815530776978,
      "learning_rate": 4.975746393190657e-05,
      "loss": 3.2382,
      "step": 352360
    },
    {
      "epoch": 0.7341041666666667,
      "grad_norm": 1.0498124361038208,
      "learning_rate": 4.975013030453166e-05,
      "loss": 3.3364,
      "step": 352370
    },
    {
      "epoch": 0.734125,
      "grad_norm": 0.8823686838150024,
      "learning_rate": 4.9742797110196506e-05,
      "loss": 3.3135,
      "step": 352380
    },
    {
      "epoch": 0.7341458333333334,
      "grad_norm": 0.8212072849273682,
      "learning_rate": 4.973546434893278e-05,
      "loss": 3.2044,
      "step": 352390
    },
    {
      "epoch": 0.7341666666666666,
      "grad_norm": 0.9675488471984863,
      "learning_rate": 4.9728132020772165e-05,
      "loss": 3.1268,
      "step": 352400
    },
    {
      "epoch": 0.7341875,
      "grad_norm": 0.7837244272232056,
      "learning_rate": 4.9720800125746344e-05,
      "loss": 3.4015,
      "step": 352410
    },
    {
      "epoch": 0.7342083333333334,
      "grad_norm": 0.8037276268005371,
      "learning_rate": 4.971346866388695e-05,
      "loss": 3.2853,
      "step": 352420
    },
    {
      "epoch": 0.7342291666666667,
      "grad_norm": 0.9332286715507507,
      "learning_rate": 4.9706137635225674e-05,
      "loss": 3.313,
      "step": 352430
    },
    {
      "epoch": 0.73425,
      "grad_norm": 0.9133490920066833,
      "learning_rate": 4.9698807039794196e-05,
      "loss": 3.3914,
      "step": 352440
    },
    {
      "epoch": 0.7342708333333333,
      "grad_norm": 0.8786571621894836,
      "learning_rate": 4.969147687762416e-05,
      "loss": 3.2974,
      "step": 352450
    },
    {
      "epoch": 0.7342916666666667,
      "grad_norm": 0.8962689638137817,
      "learning_rate": 4.968414714874727e-05,
      "loss": 3.3487,
      "step": 352460
    },
    {
      "epoch": 0.7343125,
      "grad_norm": 0.828102707862854,
      "learning_rate": 4.967681785319513e-05,
      "loss": 3.3922,
      "step": 352470
    },
    {
      "epoch": 0.7343333333333333,
      "grad_norm": 0.8939943909645081,
      "learning_rate": 4.966948899099942e-05,
      "loss": 3.4182,
      "step": 352480
    },
    {
      "epoch": 0.7343541666666666,
      "grad_norm": 0.8727275133132935,
      "learning_rate": 4.966216056219181e-05,
      "loss": 3.2554,
      "step": 352490
    },
    {
      "epoch": 0.734375,
      "grad_norm": 0.923730194568634,
      "learning_rate": 4.9654832566804e-05,
      "loss": 3.448,
      "step": 352500
    },
    {
      "epoch": 0.7343958333333334,
      "grad_norm": 0.8141372203826904,
      "learning_rate": 4.964750500486751e-05,
      "loss": 3.2648,
      "step": 352510
    },
    {
      "epoch": 0.7344166666666667,
      "grad_norm": 0.925104558467865,
      "learning_rate": 4.9640177876414104e-05,
      "loss": 3.2902,
      "step": 352520
    },
    {
      "epoch": 0.7344375,
      "grad_norm": 0.9404959678649902,
      "learning_rate": 4.963285118147546e-05,
      "loss": 3.3188,
      "step": 352530
    },
    {
      "epoch": 0.7344583333333333,
      "grad_norm": 0.8238385319709778,
      "learning_rate": 4.9625524920083075e-05,
      "loss": 3.4203,
      "step": 352540
    },
    {
      "epoch": 0.7344791666666667,
      "grad_norm": 0.7794411778450012,
      "learning_rate": 4.961819909226875e-05,
      "loss": 3.3425,
      "step": 352550
    },
    {
      "epoch": 0.7345,
      "grad_norm": 1.2688525915145874,
      "learning_rate": 4.9610873698064107e-05,
      "loss": 3.3992,
      "step": 352560
    },
    {
      "epoch": 0.7345208333333333,
      "grad_norm": 0.8348391652107239,
      "learning_rate": 4.9603548737500655e-05,
      "loss": 3.3936,
      "step": 352570
    },
    {
      "epoch": 0.7345416666666666,
      "grad_norm": 0.8323062062263489,
      "learning_rate": 4.959622421061018e-05,
      "loss": 3.3345,
      "step": 352580
    },
    {
      "epoch": 0.7345625,
      "grad_norm": 0.8312770128250122,
      "learning_rate": 4.958890011742433e-05,
      "loss": 3.2508,
      "step": 352590
    },
    {
      "epoch": 0.7345833333333334,
      "grad_norm": 0.8663334250450134,
      "learning_rate": 4.9581576457974595e-05,
      "loss": 3.3071,
      "step": 352600
    },
    {
      "epoch": 0.7346041666666666,
      "grad_norm": 0.9956167340278625,
      "learning_rate": 4.957425323229279e-05,
      "loss": 3.2356,
      "step": 352610
    },
    {
      "epoch": 0.734625,
      "grad_norm": 0.899290919303894,
      "learning_rate": 4.956693044041041e-05,
      "loss": 3.3932,
      "step": 352620
    },
    {
      "epoch": 0.7346458333333333,
      "grad_norm": 0.8762792944908142,
      "learning_rate": 4.9559608082359095e-05,
      "loss": 3.2527,
      "step": 352630
    },
    {
      "epoch": 0.7346666666666667,
      "grad_norm": 0.9263776540756226,
      "learning_rate": 4.955228615817061e-05,
      "loss": 3.3229,
      "step": 352640
    },
    {
      "epoch": 0.7346875,
      "grad_norm": 0.8472484946250916,
      "learning_rate": 4.954496466787642e-05,
      "loss": 3.3462,
      "step": 352650
    },
    {
      "epoch": 0.7347083333333333,
      "grad_norm": 0.9734867811203003,
      "learning_rate": 4.953764361150819e-05,
      "loss": 3.4062,
      "step": 352660
    },
    {
      "epoch": 0.7347291666666667,
      "grad_norm": 0.882976233959198,
      "learning_rate": 4.953032298909767e-05,
      "loss": 3.3331,
      "step": 352670
    },
    {
      "epoch": 0.73475,
      "grad_norm": 0.8821601867675781,
      "learning_rate": 4.952300280067635e-05,
      "loss": 3.3129,
      "step": 352680
    },
    {
      "epoch": 0.7347708333333334,
      "grad_norm": 0.7841085195541382,
      "learning_rate": 4.951568304627581e-05,
      "loss": 3.264,
      "step": 352690
    },
    {
      "epoch": 0.7347916666666666,
      "grad_norm": 0.9296303391456604,
      "learning_rate": 4.950836372592787e-05,
      "loss": 3.4309,
      "step": 352700
    },
    {
      "epoch": 0.7348125,
      "grad_norm": 0.7834700345993042,
      "learning_rate": 4.9501044839663963e-05,
      "loss": 3.3571,
      "step": 352710
    },
    {
      "epoch": 0.7348333333333333,
      "grad_norm": 0.8964560031890869,
      "learning_rate": 4.9493726387515745e-05,
      "loss": 3.2803,
      "step": 352720
    },
    {
      "epoch": 0.7348541666666667,
      "grad_norm": 0.8144782185554504,
      "learning_rate": 4.948640836951487e-05,
      "loss": 3.2525,
      "step": 352730
    },
    {
      "epoch": 0.734875,
      "grad_norm": 0.8064018487930298,
      "learning_rate": 4.947909078569291e-05,
      "loss": 3.3471,
      "step": 352740
    },
    {
      "epoch": 0.7348958333333333,
      "grad_norm": 0.8221911191940308,
      "learning_rate": 4.9471773636081495e-05,
      "loss": 3.3013,
      "step": 352750
    },
    {
      "epoch": 0.7349166666666667,
      "grad_norm": 0.9642040729522705,
      "learning_rate": 4.946445692071222e-05,
      "loss": 3.2156,
      "step": 352760
    },
    {
      "epoch": 0.7349375,
      "grad_norm": 0.8744935393333435,
      "learning_rate": 4.94571406396167e-05,
      "loss": 3.3452,
      "step": 352770
    },
    {
      "epoch": 0.7349583333333334,
      "grad_norm": 0.9028991460800171,
      "learning_rate": 4.944982479282654e-05,
      "loss": 3.3414,
      "step": 352780
    },
    {
      "epoch": 0.7349791666666666,
      "grad_norm": 1.0347819328308105,
      "learning_rate": 4.944250938037332e-05,
      "loss": 3.4004,
      "step": 352790
    },
    {
      "epoch": 0.735,
      "grad_norm": 1.0185049772262573,
      "learning_rate": 4.9435194402288684e-05,
      "loss": 3.3316,
      "step": 352800
    },
    {
      "epoch": 0.7350208333333333,
      "grad_norm": 0.8785547614097595,
      "learning_rate": 4.942787985860419e-05,
      "loss": 3.2883,
      "step": 352810
    },
    {
      "epoch": 0.7350416666666667,
      "grad_norm": 0.8968058824539185,
      "learning_rate": 4.942056574935143e-05,
      "loss": 3.3961,
      "step": 352820
    },
    {
      "epoch": 0.7350625,
      "grad_norm": 0.9311590790748596,
      "learning_rate": 4.9413252074562025e-05,
      "loss": 3.2712,
      "step": 352830
    },
    {
      "epoch": 0.7350833333333333,
      "grad_norm": 1.0012705326080322,
      "learning_rate": 4.940593883426756e-05,
      "loss": 3.5049,
      "step": 352840
    },
    {
      "epoch": 0.7351041666666667,
      "grad_norm": 0.9307386875152588,
      "learning_rate": 4.939862602849961e-05,
      "loss": 3.4126,
      "step": 352850
    },
    {
      "epoch": 0.735125,
      "grad_norm": 0.8616914749145508,
      "learning_rate": 4.9391313657289786e-05,
      "loss": 3.3967,
      "step": 352860
    },
    {
      "epoch": 0.7351458333333334,
      "grad_norm": 0.8494675159454346,
      "learning_rate": 4.93840017206697e-05,
      "loss": 3.3429,
      "step": 352870
    },
    {
      "epoch": 0.7351666666666666,
      "grad_norm": 0.8793569207191467,
      "learning_rate": 4.937669021867081e-05,
      "loss": 3.4136,
      "step": 352880
    },
    {
      "epoch": 0.7351875,
      "grad_norm": 0.8694068193435669,
      "learning_rate": 4.936937915132485e-05,
      "loss": 3.4287,
      "step": 352890
    },
    {
      "epoch": 0.7352083333333334,
      "grad_norm": 0.8934614658355713,
      "learning_rate": 4.936206851866338e-05,
      "loss": 3.2639,
      "step": 352900
    },
    {
      "epoch": 0.7352291666666667,
      "grad_norm": 0.8494741320610046,
      "learning_rate": 4.9354758320717833e-05,
      "loss": 3.3159,
      "step": 352910
    },
    {
      "epoch": 0.73525,
      "grad_norm": 0.8254153728485107,
      "learning_rate": 4.9347448557519945e-05,
      "loss": 3.3125,
      "step": 352920
    },
    {
      "epoch": 0.7352708333333333,
      "grad_norm": 0.9828868508338928,
      "learning_rate": 4.934013922910129e-05,
      "loss": 3.2481,
      "step": 352930
    },
    {
      "epoch": 0.7352916666666667,
      "grad_norm": 0.9571001529693604,
      "learning_rate": 4.933283033549328e-05,
      "loss": 3.2505,
      "step": 352940
    },
    {
      "epoch": 0.7353125,
      "grad_norm": 0.8434526324272156,
      "learning_rate": 4.932552187672766e-05,
      "loss": 3.3286,
      "step": 352950
    },
    {
      "epoch": 0.7353333333333333,
      "grad_norm": 0.8868885040283203,
      "learning_rate": 4.9318213852835984e-05,
      "loss": 3.4021,
      "step": 352960
    },
    {
      "epoch": 0.7353541666666666,
      "grad_norm": 0.8916506171226501,
      "learning_rate": 4.931090626384968e-05,
      "loss": 3.3749,
      "step": 352970
    },
    {
      "epoch": 0.735375,
      "grad_norm": 0.8871994018554688,
      "learning_rate": 4.930359910980044e-05,
      "loss": 3.3289,
      "step": 352980
    },
    {
      "epoch": 0.7353958333333334,
      "grad_norm": 0.8844107389450073,
      "learning_rate": 4.929629239071984e-05,
      "loss": 3.3037,
      "step": 352990
    },
    {
      "epoch": 0.7354166666666667,
      "grad_norm": 0.8339681625366211,
      "learning_rate": 4.9288986106639344e-05,
      "loss": 3.2364,
      "step": 353000
    },
    {
      "epoch": 0.7354166666666667,
      "eval_loss": 4.052774906158447,
      "eval_runtime": 7.8874,
      "eval_samples_per_second": 1.268,
      "eval_steps_per_second": 0.38,
      "step": 353000
    },
    {
      "epoch": 0.7354375,
      "grad_norm": 0.8385059237480164,
      "learning_rate": 4.928168025759058e-05,
      "loss": 3.1532,
      "step": 353010
    },
    {
      "epoch": 0.7354583333333333,
      "grad_norm": 1.068397879600525,
      "learning_rate": 4.927437484360508e-05,
      "loss": 3.3956,
      "step": 353020
    },
    {
      "epoch": 0.7354791666666667,
      "grad_norm": 0.9606102108955383,
      "learning_rate": 4.926706986471441e-05,
      "loss": 3.4417,
      "step": 353030
    },
    {
      "epoch": 0.7355,
      "grad_norm": 0.7750126123428345,
      "learning_rate": 4.925976532095014e-05,
      "loss": 3.4414,
      "step": 353040
    },
    {
      "epoch": 0.7355208333333333,
      "grad_norm": 0.8413766026496887,
      "learning_rate": 4.92524612123438e-05,
      "loss": 3.3294,
      "step": 353050
    },
    {
      "epoch": 0.7355416666666666,
      "grad_norm": 0.9167109727859497,
      "learning_rate": 4.924515753892694e-05,
      "loss": 3.2718,
      "step": 353060
    },
    {
      "epoch": 0.7355625,
      "grad_norm": 0.8851429224014282,
      "learning_rate": 4.923785430073112e-05,
      "loss": 3.4449,
      "step": 353070
    },
    {
      "epoch": 0.7355833333333334,
      "grad_norm": 0.8775057792663574,
      "learning_rate": 4.923055149778789e-05,
      "loss": 3.3658,
      "step": 353080
    },
    {
      "epoch": 0.7356041666666666,
      "grad_norm": 0.8216249942779541,
      "learning_rate": 4.9223249130128785e-05,
      "loss": 3.2016,
      "step": 353090
    },
    {
      "epoch": 0.735625,
      "grad_norm": 0.8927029967308044,
      "learning_rate": 4.921594719778536e-05,
      "loss": 3.2735,
      "step": 353100
    },
    {
      "epoch": 0.7356458333333333,
      "grad_norm": 0.9104276299476624,
      "learning_rate": 4.920864570078914e-05,
      "loss": 3.3625,
      "step": 353110
    },
    {
      "epoch": 0.7356666666666667,
      "grad_norm": 0.7860561013221741,
      "learning_rate": 4.920134463917168e-05,
      "loss": 3.294,
      "step": 353120
    },
    {
      "epoch": 0.7356875,
      "grad_norm": 0.9592313766479492,
      "learning_rate": 4.919404401296452e-05,
      "loss": 3.2996,
      "step": 353130
    },
    {
      "epoch": 0.7357083333333333,
      "grad_norm": 0.8015192151069641,
      "learning_rate": 4.918674382219918e-05,
      "loss": 3.2988,
      "step": 353140
    },
    {
      "epoch": 0.7357291666666667,
      "grad_norm": 0.8522143959999084,
      "learning_rate": 4.917944406690721e-05,
      "loss": 3.4814,
      "step": 353150
    },
    {
      "epoch": 0.73575,
      "grad_norm": 0.8810051083564758,
      "learning_rate": 4.917214474712013e-05,
      "loss": 3.4871,
      "step": 353160
    },
    {
      "epoch": 0.7357708333333334,
      "grad_norm": 0.8382923603057861,
      "learning_rate": 4.9164845862869465e-05,
      "loss": 3.2606,
      "step": 353170
    },
    {
      "epoch": 0.7357916666666666,
      "grad_norm": 1.020786166191101,
      "learning_rate": 4.915754741418677e-05,
      "loss": 3.4277,
      "step": 353180
    },
    {
      "epoch": 0.7358125,
      "grad_norm": 0.8371835350990295,
      "learning_rate": 4.915024940110353e-05,
      "loss": 3.2801,
      "step": 353190
    },
    {
      "epoch": 0.7358333333333333,
      "grad_norm": 0.9319226741790771,
      "learning_rate": 4.914295182365132e-05,
      "loss": 3.2595,
      "step": 353200
    },
    {
      "epoch": 0.7358541666666667,
      "grad_norm": 0.9024076461791992,
      "learning_rate": 4.9135654681861616e-05,
      "loss": 3.3535,
      "step": 353210
    },
    {
      "epoch": 0.735875,
      "grad_norm": 0.8092175126075745,
      "learning_rate": 4.912835797576596e-05,
      "loss": 3.4218,
      "step": 353220
    },
    {
      "epoch": 0.7358958333333333,
      "grad_norm": 0.803196370601654,
      "learning_rate": 4.912106170539588e-05,
      "loss": 3.2469,
      "step": 353230
    },
    {
      "epoch": 0.7359166666666667,
      "grad_norm": 0.8110940456390381,
      "learning_rate": 4.9113765870782926e-05,
      "loss": 3.3294,
      "step": 353240
    },
    {
      "epoch": 0.7359375,
      "grad_norm": 0.8224848508834839,
      "learning_rate": 4.9106470471958484e-05,
      "loss": 3.5033,
      "step": 353250
    },
    {
      "epoch": 0.7359583333333334,
      "grad_norm": 0.9223325252532959,
      "learning_rate": 4.90991755089542e-05,
      "loss": 3.3651,
      "step": 353260
    },
    {
      "epoch": 0.7359791666666666,
      "grad_norm": 0.8144386410713196,
      "learning_rate": 4.909188098180157e-05,
      "loss": 3.3188,
      "step": 353270
    },
    {
      "epoch": 0.736,
      "grad_norm": 0.793122410774231,
      "learning_rate": 4.908458689053199e-05,
      "loss": 3.3681,
      "step": 353280
    },
    {
      "epoch": 0.7360208333333333,
      "grad_norm": 0.847595751285553,
      "learning_rate": 4.907729323517709e-05,
      "loss": 3.2642,
      "step": 353290
    },
    {
      "epoch": 0.7360416666666667,
      "grad_norm": 0.8795762062072754,
      "learning_rate": 4.907000001576839e-05,
      "loss": 3.3454,
      "step": 353300
    },
    {
      "epoch": 0.7360625,
      "grad_norm": 0.8105413317680359,
      "learning_rate": 4.906270723233728e-05,
      "loss": 3.2952,
      "step": 353310
    },
    {
      "epoch": 0.7360833333333333,
      "grad_norm": 0.864579975605011,
      "learning_rate": 4.905541488491528e-05,
      "loss": 3.3339,
      "step": 353320
    },
    {
      "epoch": 0.7361041666666667,
      "grad_norm": 0.8147045373916626,
      "learning_rate": 4.9048122973534034e-05,
      "loss": 3.4649,
      "step": 353330
    },
    {
      "epoch": 0.736125,
      "grad_norm": 0.8541741371154785,
      "learning_rate": 4.9040831498224866e-05,
      "loss": 3.3377,
      "step": 353340
    },
    {
      "epoch": 0.7361458333333334,
      "grad_norm": 0.8760813474655151,
      "learning_rate": 4.903354045901932e-05,
      "loss": 3.3699,
      "step": 353350
    },
    {
      "epoch": 0.7361666666666666,
      "grad_norm": 1.0490403175354004,
      "learning_rate": 4.9026249855948995e-05,
      "loss": 3.3172,
      "step": 353360
    },
    {
      "epoch": 0.7361875,
      "grad_norm": 0.9602923393249512,
      "learning_rate": 4.9018959689045264e-05,
      "loss": 3.3863,
      "step": 353370
    },
    {
      "epoch": 0.7362083333333334,
      "grad_norm": 0.8507473468780518,
      "learning_rate": 4.9011669958339655e-05,
      "loss": 3.3476,
      "step": 353380
    },
    {
      "epoch": 0.7362291666666667,
      "grad_norm": 0.8655822277069092,
      "learning_rate": 4.900438066386365e-05,
      "loss": 3.3264,
      "step": 353390
    },
    {
      "epoch": 0.73625,
      "grad_norm": 0.8335170745849609,
      "learning_rate": 4.899709180564876e-05,
      "loss": 3.2967,
      "step": 353400
    },
    {
      "epoch": 0.7362708333333333,
      "grad_norm": 0.9372779130935669,
      "learning_rate": 4.8989803383726435e-05,
      "loss": 3.3051,
      "step": 353410
    },
    {
      "epoch": 0.7362916666666667,
      "grad_norm": 1.2130557298660278,
      "learning_rate": 4.898251539812819e-05,
      "loss": 3.3748,
      "step": 353420
    },
    {
      "epoch": 0.7363125,
      "grad_norm": 0.8550951480865479,
      "learning_rate": 4.897522784888549e-05,
      "loss": 3.451,
      "step": 353430
    },
    {
      "epoch": 0.7363333333333333,
      "grad_norm": 0.8403213024139404,
      "learning_rate": 4.896794073602981e-05,
      "loss": 3.2855,
      "step": 353440
    },
    {
      "epoch": 0.7363541666666666,
      "grad_norm": 0.8249019980430603,
      "learning_rate": 4.896065405959264e-05,
      "loss": 3.2207,
      "step": 353450
    },
    {
      "epoch": 0.736375,
      "grad_norm": 0.991345226764679,
      "learning_rate": 4.8953367819605445e-05,
      "loss": 3.3416,
      "step": 353460
    },
    {
      "epoch": 0.7363958333333334,
      "grad_norm": 0.7781293988227844,
      "learning_rate": 4.894608201609972e-05,
      "loss": 3.2333,
      "step": 353470
    },
    {
      "epoch": 0.7364166666666667,
      "grad_norm": 0.8264026045799255,
      "learning_rate": 4.89387966491069e-05,
      "loss": 3.3924,
      "step": 353480
    },
    {
      "epoch": 0.7364375,
      "grad_norm": 0.8821133375167847,
      "learning_rate": 4.893151171865849e-05,
      "loss": 3.4167,
      "step": 353490
    },
    {
      "epoch": 0.7364583333333333,
      "grad_norm": 0.8368463516235352,
      "learning_rate": 4.892422722478593e-05,
      "loss": 3.3536,
      "step": 353500
    },
    {
      "epoch": 0.7364791666666667,
      "grad_norm": 1.0156852006912231,
      "learning_rate": 4.891694316752071e-05,
      "loss": 3.4569,
      "step": 353510
    },
    {
      "epoch": 0.7365,
      "grad_norm": 0.8372260332107544,
      "learning_rate": 4.890965954689428e-05,
      "loss": 3.4621,
      "step": 353520
    },
    {
      "epoch": 0.7365208333333333,
      "grad_norm": 0.8549745678901672,
      "learning_rate": 4.8902376362938116e-05,
      "loss": 3.3839,
      "step": 353530
    },
    {
      "epoch": 0.7365416666666667,
      "grad_norm": 0.8264120221138,
      "learning_rate": 4.8895093615683665e-05,
      "loss": 3.383,
      "step": 353540
    },
    {
      "epoch": 0.7365625,
      "grad_norm": 0.7978242039680481,
      "learning_rate": 4.888781130516239e-05,
      "loss": 3.3442,
      "step": 353550
    },
    {
      "epoch": 0.7365833333333334,
      "grad_norm": 0.9117926955223083,
      "learning_rate": 4.888052943140574e-05,
      "loss": 3.3251,
      "step": 353560
    },
    {
      "epoch": 0.7366041666666666,
      "grad_norm": 0.7954502701759338,
      "learning_rate": 4.8873247994445174e-05,
      "loss": 3.3555,
      "step": 353570
    },
    {
      "epoch": 0.736625,
      "grad_norm": 0.8037130236625671,
      "learning_rate": 4.8865966994312166e-05,
      "loss": 3.336,
      "step": 353580
    },
    {
      "epoch": 0.7366458333333333,
      "grad_norm": 0.8413178324699402,
      "learning_rate": 4.8858686431038176e-05,
      "loss": 3.224,
      "step": 353590
    },
    {
      "epoch": 0.7366666666666667,
      "grad_norm": 1.067511796951294,
      "learning_rate": 4.885140630465454e-05,
      "loss": 3.3547,
      "step": 353600
    },
    {
      "epoch": 0.7366875,
      "grad_norm": 0.9790468215942383,
      "learning_rate": 4.884412661519289e-05,
      "loss": 3.3098,
      "step": 353610
    },
    {
      "epoch": 0.7367083333333333,
      "grad_norm": 0.8170262575149536,
      "learning_rate": 4.883684736268452e-05,
      "loss": 3.3553,
      "step": 353620
    },
    {
      "epoch": 0.7367291666666667,
      "grad_norm": 0.8615971207618713,
      "learning_rate": 4.882956854716089e-05,
      "loss": 3.4636,
      "step": 353630
    },
    {
      "epoch": 0.73675,
      "grad_norm": 0.937813937664032,
      "learning_rate": 4.8822290168653565e-05,
      "loss": 3.3232,
      "step": 353640
    },
    {
      "epoch": 0.7367708333333334,
      "grad_norm": 0.9339405298233032,
      "learning_rate": 4.881501222719384e-05,
      "loss": 3.3736,
      "step": 353650
    },
    {
      "epoch": 0.7367916666666666,
      "grad_norm": 0.9082845449447632,
      "learning_rate": 4.880773472281317e-05,
      "loss": 3.4105,
      "step": 353660
    },
    {
      "epoch": 0.7368125,
      "grad_norm": 0.7970541715621948,
      "learning_rate": 4.880045765554313e-05,
      "loss": 3.177,
      "step": 353670
    },
    {
      "epoch": 0.7368333333333333,
      "grad_norm": 0.8473537564277649,
      "learning_rate": 4.8793181025415014e-05,
      "loss": 3.3822,
      "step": 353680
    },
    {
      "epoch": 0.7368541666666667,
      "grad_norm": 0.8356954455375671,
      "learning_rate": 4.878590483246023e-05,
      "loss": 3.4332,
      "step": 353690
    },
    {
      "epoch": 0.736875,
      "grad_norm": 0.8722155690193176,
      "learning_rate": 4.877862907671038e-05,
      "loss": 3.2533,
      "step": 353700
    },
    {
      "epoch": 0.7368958333333333,
      "grad_norm": 0.9306901097297668,
      "learning_rate": 4.8771353758196745e-05,
      "loss": 3.3489,
      "step": 353710
    },
    {
      "epoch": 0.7369166666666667,
      "grad_norm": 0.8114280104637146,
      "learning_rate": 4.8764078876950736e-05,
      "loss": 3.3659,
      "step": 353720
    },
    {
      "epoch": 0.7369375,
      "grad_norm": 0.828400731086731,
      "learning_rate": 4.875680443300392e-05,
      "loss": 3.2737,
      "step": 353730
    },
    {
      "epoch": 0.7369583333333334,
      "grad_norm": 0.9111452102661133,
      "learning_rate": 4.874953042638761e-05,
      "loss": 3.3324,
      "step": 353740
    },
    {
      "epoch": 0.7369791666666666,
      "grad_norm": 0.8471229672431946,
      "learning_rate": 4.8742256857133235e-05,
      "loss": 3.3704,
      "step": 353750
    },
    {
      "epoch": 0.737,
      "grad_norm": 0.8473489284515381,
      "learning_rate": 4.8734983725272226e-05,
      "loss": 3.3904,
      "step": 353760
    },
    {
      "epoch": 0.7370208333333333,
      "grad_norm": 0.895751416683197,
      "learning_rate": 4.872771103083601e-05,
      "loss": 3.4135,
      "step": 353770
    },
    {
      "epoch": 0.7370416666666667,
      "grad_norm": 0.819334089756012,
      "learning_rate": 4.872043877385601e-05,
      "loss": 3.3059,
      "step": 353780
    },
    {
      "epoch": 0.7370625,
      "grad_norm": 0.7843818664550781,
      "learning_rate": 4.8713166954363596e-05,
      "loss": 3.3206,
      "step": 353790
    },
    {
      "epoch": 0.7370833333333333,
      "grad_norm": 0.8691908121109009,
      "learning_rate": 4.870589557239022e-05,
      "loss": 3.2373,
      "step": 353800
    },
    {
      "epoch": 0.7371041666666667,
      "grad_norm": 0.7889845967292786,
      "learning_rate": 4.86986246279673e-05,
      "loss": 3.3221,
      "step": 353810
    },
    {
      "epoch": 0.737125,
      "grad_norm": 0.9765952825546265,
      "learning_rate": 4.8691354121126206e-05,
      "loss": 3.3529,
      "step": 353820
    },
    {
      "epoch": 0.7371458333333333,
      "grad_norm": 0.9365142583847046,
      "learning_rate": 4.8684084051898366e-05,
      "loss": 3.3696,
      "step": 353830
    },
    {
      "epoch": 0.7371666666666666,
      "grad_norm": 0.9017645716667175,
      "learning_rate": 4.8676814420315176e-05,
      "loss": 3.4689,
      "step": 353840
    },
    {
      "epoch": 0.7371875,
      "grad_norm": 0.8252511620521545,
      "learning_rate": 4.8669545226408046e-05,
      "loss": 3.5503,
      "step": 353850
    },
    {
      "epoch": 0.7372083333333334,
      "grad_norm": 0.903535008430481,
      "learning_rate": 4.8662276470208356e-05,
      "loss": 3.3144,
      "step": 353860
    },
    {
      "epoch": 0.7372291666666667,
      "grad_norm": 0.8972253203392029,
      "learning_rate": 4.865500815174754e-05,
      "loss": 3.2441,
      "step": 353870
    },
    {
      "epoch": 0.73725,
      "grad_norm": 0.8654571771621704,
      "learning_rate": 4.864774027105697e-05,
      "loss": 3.3302,
      "step": 353880
    },
    {
      "epoch": 0.7372708333333333,
      "grad_norm": 0.797274649143219,
      "learning_rate": 4.864047282816804e-05,
      "loss": 3.3533,
      "step": 353890
    },
    {
      "epoch": 0.7372916666666667,
      "grad_norm": 0.8752591013908386,
      "learning_rate": 4.8633205823112196e-05,
      "loss": 3.47,
      "step": 353900
    },
    {
      "epoch": 0.7373125,
      "grad_norm": 0.8890669345855713,
      "learning_rate": 4.8625939255920676e-05,
      "loss": 3.3564,
      "step": 353910
    },
    {
      "epoch": 0.7373333333333333,
      "grad_norm": 0.9169177412986755,
      "learning_rate": 4.861867312662501e-05,
      "loss": 3.3811,
      "step": 353920
    },
    {
      "epoch": 0.7373541666666666,
      "grad_norm": 0.921697199344635,
      "learning_rate": 4.8611407435256614e-05,
      "loss": 3.3119,
      "step": 353930
    },
    {
      "epoch": 0.737375,
      "grad_norm": 0.8714795708656311,
      "learning_rate": 4.860414218184671e-05,
      "loss": 3.353,
      "step": 353940
    },
    {
      "epoch": 0.7373958333333334,
      "grad_norm": 0.8571644425392151,
      "learning_rate": 4.8596877366426805e-05,
      "loss": 3.2761,
      "step": 353950
    },
    {
      "epoch": 0.7374166666666667,
      "grad_norm": 0.9010847210884094,
      "learning_rate": 4.858961298902832e-05,
      "loss": 3.4002,
      "step": 353960
    },
    {
      "epoch": 0.7374375,
      "grad_norm": 0.7834868431091309,
      "learning_rate": 4.8582349049682465e-05,
      "loss": 3.398,
      "step": 353970
    },
    {
      "epoch": 0.7374583333333333,
      "grad_norm": 0.8448626399040222,
      "learning_rate": 4.857508554842077e-05,
      "loss": 3.3208,
      "step": 353980
    },
    {
      "epoch": 0.7374791666666667,
      "grad_norm": 0.8134125471115112,
      "learning_rate": 4.8567822485274594e-05,
      "loss": 3.2017,
      "step": 353990
    },
    {
      "epoch": 0.7375,
      "grad_norm": 1.0179469585418701,
      "learning_rate": 4.856055986027518e-05,
      "loss": 3.3919,
      "step": 354000
    },
    {
      "epoch": 0.7375,
      "eval_loss": 4.0590972900390625,
      "eval_runtime": 8.3113,
      "eval_samples_per_second": 1.203,
      "eval_steps_per_second": 0.361,
      "step": 354000
    },
    {
      "epoch": 0.7375208333333333,
      "grad_norm": 1.4136863946914673,
      "learning_rate": 4.85532976734541e-05,
      "loss": 3.3941,
      "step": 354010
    },
    {
      "epoch": 0.7375416666666667,
      "grad_norm": 0.8227642774581909,
      "learning_rate": 4.854603592484257e-05,
      "loss": 3.2237,
      "step": 354020
    },
    {
      "epoch": 0.7375625,
      "grad_norm": 0.8328443169593811,
      "learning_rate": 4.8538774614471967e-05,
      "loss": 3.3538,
      "step": 354030
    },
    {
      "epoch": 0.7375833333333334,
      "grad_norm": 0.8428345322608948,
      "learning_rate": 4.8531513742373777e-05,
      "loss": 3.3566,
      "step": 354040
    },
    {
      "epoch": 0.7376041666666666,
      "grad_norm": 0.8879202008247375,
      "learning_rate": 4.8524253308579236e-05,
      "loss": 3.2634,
      "step": 354050
    },
    {
      "epoch": 0.737625,
      "grad_norm": 0.9077619910240173,
      "learning_rate": 4.851699331311971e-05,
      "loss": 3.4408,
      "step": 354060
    },
    {
      "epoch": 0.7376458333333333,
      "grad_norm": 0.8905972838401794,
      "learning_rate": 4.8509733756026695e-05,
      "loss": 3.3222,
      "step": 354070
    },
    {
      "epoch": 0.7376666666666667,
      "grad_norm": 1.000693440437317,
      "learning_rate": 4.8502474637331416e-05,
      "loss": 3.3622,
      "step": 354080
    },
    {
      "epoch": 0.7376875,
      "grad_norm": 0.9403614401817322,
      "learning_rate": 4.849521595706523e-05,
      "loss": 3.3289,
      "step": 354090
    },
    {
      "epoch": 0.7377083333333333,
      "grad_norm": 0.9164808988571167,
      "learning_rate": 4.8487957715259615e-05,
      "loss": 3.2832,
      "step": 354100
    },
    {
      "epoch": 0.7377291666666667,
      "grad_norm": 1.033077597618103,
      "learning_rate": 4.84806999119458e-05,
      "loss": 3.2411,
      "step": 354110
    },
    {
      "epoch": 0.73775,
      "grad_norm": 0.8164491057395935,
      "learning_rate": 4.847344254715518e-05,
      "loss": 3.3242,
      "step": 354120
    },
    {
      "epoch": 0.7377708333333334,
      "grad_norm": 1.2979929447174072,
      "learning_rate": 4.8466185620919094e-05,
      "loss": 3.3355,
      "step": 354130
    },
    {
      "epoch": 0.7377916666666666,
      "grad_norm": 0.8889582753181458,
      "learning_rate": 4.8458929133268895e-05,
      "loss": 3.3931,
      "step": 354140
    },
    {
      "epoch": 0.7378125,
      "grad_norm": 0.8104246854782104,
      "learning_rate": 4.8451673084235944e-05,
      "loss": 3.3585,
      "step": 354150
    },
    {
      "epoch": 0.7378333333333333,
      "grad_norm": 0.8374403715133667,
      "learning_rate": 4.8444417473851555e-05,
      "loss": 3.3576,
      "step": 354160
    },
    {
      "epoch": 0.7378541666666667,
      "grad_norm": 0.9103894233703613,
      "learning_rate": 4.8437162302147075e-05,
      "loss": 3.2746,
      "step": 354170
    },
    {
      "epoch": 0.737875,
      "grad_norm": 0.8587956428527832,
      "learning_rate": 4.842990756915388e-05,
      "loss": 3.3843,
      "step": 354180
    },
    {
      "epoch": 0.7378958333333333,
      "grad_norm": 0.9782253503799438,
      "learning_rate": 4.842265327490326e-05,
      "loss": 3.3806,
      "step": 354190
    },
    {
      "epoch": 0.7379166666666667,
      "grad_norm": 0.9404085278511047,
      "learning_rate": 4.841539941942657e-05,
      "loss": 3.2796,
      "step": 354200
    },
    {
      "epoch": 0.7379375,
      "grad_norm": 0.9208115339279175,
      "learning_rate": 4.840814600275515e-05,
      "loss": 3.3216,
      "step": 354210
    },
    {
      "epoch": 0.7379583333333334,
      "grad_norm": 0.8300666809082031,
      "learning_rate": 4.840089302492034e-05,
      "loss": 3.4249,
      "step": 354220
    },
    {
      "epoch": 0.7379791666666666,
      "grad_norm": 0.8504589796066284,
      "learning_rate": 4.839364048595344e-05,
      "loss": 3.4136,
      "step": 354230
    },
    {
      "epoch": 0.738,
      "grad_norm": 0.8490949273109436,
      "learning_rate": 4.838638838588584e-05,
      "loss": 3.2668,
      "step": 354240
    },
    {
      "epoch": 0.7380208333333333,
      "grad_norm": 0.8833360075950623,
      "learning_rate": 4.837913672474873e-05,
      "loss": 3.2935,
      "step": 354250
    },
    {
      "epoch": 0.7380416666666667,
      "grad_norm": 0.8512216210365295,
      "learning_rate": 4.837188550257357e-05,
      "loss": 3.2758,
      "step": 354260
    },
    {
      "epoch": 0.7380625,
      "grad_norm": 0.983830451965332,
      "learning_rate": 4.83646347193917e-05,
      "loss": 3.2614,
      "step": 354270
    },
    {
      "epoch": 0.7380833333333333,
      "grad_norm": 0.8870562314987183,
      "learning_rate": 4.835738437523427e-05,
      "loss": 3.3012,
      "step": 354280
    },
    {
      "epoch": 0.7381041666666667,
      "grad_norm": 0.8287542462348938,
      "learning_rate": 4.8350134470132745e-05,
      "loss": 3.3012,
      "step": 354290
    },
    {
      "epoch": 0.738125,
      "grad_norm": 0.8888847827911377,
      "learning_rate": 4.834288500411847e-05,
      "loss": 3.3248,
      "step": 354300
    },
    {
      "epoch": 0.7381458333333333,
      "grad_norm": 0.7750607132911682,
      "learning_rate": 4.833563597722259e-05,
      "loss": 3.3168,
      "step": 354310
    },
    {
      "epoch": 0.7381666666666666,
      "grad_norm": 0.880073070526123,
      "learning_rate": 4.832838738947657e-05,
      "loss": 3.2938,
      "step": 354320
    },
    {
      "epoch": 0.7381875,
      "grad_norm": 0.9377278685569763,
      "learning_rate": 4.832113924091171e-05,
      "loss": 3.4409,
      "step": 354330
    },
    {
      "epoch": 0.7382083333333334,
      "grad_norm": 0.9214468598365784,
      "learning_rate": 4.83138915315592e-05,
      "loss": 3.4276,
      "step": 354340
    },
    {
      "epoch": 0.7382291666666667,
      "grad_norm": 0.8402653336524963,
      "learning_rate": 4.8306644261450464e-05,
      "loss": 3.3125,
      "step": 354350
    },
    {
      "epoch": 0.73825,
      "grad_norm": 0.9890543222427368,
      "learning_rate": 4.829939743061683e-05,
      "loss": 3.3184,
      "step": 354360
    },
    {
      "epoch": 0.7382708333333333,
      "grad_norm": 0.9272046089172363,
      "learning_rate": 4.8292151039089436e-05,
      "loss": 3.3911,
      "step": 354370
    },
    {
      "epoch": 0.7382916666666667,
      "grad_norm": 0.8654325604438782,
      "learning_rate": 4.8284905086899796e-05,
      "loss": 3.2953,
      "step": 354380
    },
    {
      "epoch": 0.7383125,
      "grad_norm": 0.8267546892166138,
      "learning_rate": 4.827765957407906e-05,
      "loss": 3.3469,
      "step": 354390
    },
    {
      "epoch": 0.7383333333333333,
      "grad_norm": 0.8839513659477234,
      "learning_rate": 4.8270414500658525e-05,
      "loss": 3.2814,
      "step": 354400
    },
    {
      "epoch": 0.7383541666666666,
      "grad_norm": 0.8994362354278564,
      "learning_rate": 4.826316986666961e-05,
      "loss": 3.3079,
      "step": 354410
    },
    {
      "epoch": 0.738375,
      "grad_norm": 0.9162414073944092,
      "learning_rate": 4.8255925672143495e-05,
      "loss": 3.4302,
      "step": 354420
    },
    {
      "epoch": 0.7383958333333334,
      "grad_norm": 0.8265485763549805,
      "learning_rate": 4.824868191711146e-05,
      "loss": 3.4093,
      "step": 354430
    },
    {
      "epoch": 0.7384166666666667,
      "grad_norm": 0.7898918390274048,
      "learning_rate": 4.824143860160494e-05,
      "loss": 3.3547,
      "step": 354440
    },
    {
      "epoch": 0.7384375,
      "grad_norm": 0.808530330657959,
      "learning_rate": 4.8234195725655057e-05,
      "loss": 3.2167,
      "step": 354450
    },
    {
      "epoch": 0.7384583333333333,
      "grad_norm": 0.8327198028564453,
      "learning_rate": 4.822695328929314e-05,
      "loss": 3.5231,
      "step": 354460
    },
    {
      "epoch": 0.7384791666666667,
      "grad_norm": 0.8441198468208313,
      "learning_rate": 4.82197112925506e-05,
      "loss": 3.4371,
      "step": 354470
    },
    {
      "epoch": 0.7385,
      "grad_norm": 0.859892725944519,
      "learning_rate": 4.821246973545856e-05,
      "loss": 3.3659,
      "step": 354480
    },
    {
      "epoch": 0.7385208333333333,
      "grad_norm": 0.7437867522239685,
      "learning_rate": 4.820522861804836e-05,
      "loss": 3.3432,
      "step": 354490
    },
    {
      "epoch": 0.7385416666666667,
      "grad_norm": 0.8586171269416809,
      "learning_rate": 4.819798794035129e-05,
      "loss": 3.3835,
      "step": 354500
    },
    {
      "epoch": 0.7385625,
      "grad_norm": 0.9757393598556519,
      "learning_rate": 4.819074770239861e-05,
      "loss": 3.4607,
      "step": 354510
    },
    {
      "epoch": 0.7385833333333334,
      "grad_norm": 0.8171220421791077,
      "learning_rate": 4.81835079042216e-05,
      "loss": 3.2919,
      "step": 354520
    },
    {
      "epoch": 0.7386041666666666,
      "grad_norm": 0.837207019329071,
      "learning_rate": 4.817626854585153e-05,
      "loss": 3.3427,
      "step": 354530
    },
    {
      "epoch": 0.738625,
      "grad_norm": 0.8475931286811829,
      "learning_rate": 4.816902962731968e-05,
      "loss": 3.4464,
      "step": 354540
    },
    {
      "epoch": 0.7386458333333333,
      "grad_norm": 0.7987917065620422,
      "learning_rate": 4.816179114865732e-05,
      "loss": 3.3871,
      "step": 354550
    },
    {
      "epoch": 0.7386666666666667,
      "grad_norm": 0.9542360901832581,
      "learning_rate": 4.81545531098957e-05,
      "loss": 3.3971,
      "step": 354560
    },
    {
      "epoch": 0.7386875,
      "grad_norm": 0.8919028043746948,
      "learning_rate": 4.814731551106611e-05,
      "loss": 3.355,
      "step": 354570
    },
    {
      "epoch": 0.7387083333333333,
      "grad_norm": 0.9701807498931885,
      "learning_rate": 4.81400783521998e-05,
      "loss": 3.4554,
      "step": 354580
    },
    {
      "epoch": 0.7387291666666667,
      "grad_norm": 0.8314587473869324,
      "learning_rate": 4.813284163332802e-05,
      "loss": 3.3142,
      "step": 354590
    },
    {
      "epoch": 0.73875,
      "grad_norm": 0.7977918982505798,
      "learning_rate": 4.812560535448205e-05,
      "loss": 3.2375,
      "step": 354600
    },
    {
      "epoch": 0.7387708333333334,
      "grad_norm": 0.8365592956542969,
      "learning_rate": 4.8118369515693186e-05,
      "loss": 3.4364,
      "step": 354610
    },
    {
      "epoch": 0.7387916666666666,
      "grad_norm": 0.9096731543540955,
      "learning_rate": 4.8111134116992544e-05,
      "loss": 3.3028,
      "step": 354620
    },
    {
      "epoch": 0.7388125,
      "grad_norm": 0.8074629306793213,
      "learning_rate": 4.810389915841152e-05,
      "loss": 3.3011,
      "step": 354630
    },
    {
      "epoch": 0.7388333333333333,
      "grad_norm": 0.7921308279037476,
      "learning_rate": 4.809666463998137e-05,
      "loss": 3.3334,
      "step": 354640
    },
    {
      "epoch": 0.7388541666666667,
      "grad_norm": 0.7937895059585571,
      "learning_rate": 4.808943056173319e-05,
      "loss": 3.2276,
      "step": 354650
    },
    {
      "epoch": 0.738875,
      "grad_norm": 0.876508355140686,
      "learning_rate": 4.808219692369839e-05,
      "loss": 3.414,
      "step": 354660
    },
    {
      "epoch": 0.7388958333333333,
      "grad_norm": 0.9192996025085449,
      "learning_rate": 4.80749637259082e-05,
      "loss": 3.2833,
      "step": 354670
    },
    {
      "epoch": 0.7389166666666667,
      "grad_norm": 0.86318039894104,
      "learning_rate": 4.806773096839372e-05,
      "loss": 3.3649,
      "step": 354680
    },
    {
      "epoch": 0.7389375,
      "grad_norm": 0.9675254225730896,
      "learning_rate": 4.806049865118634e-05,
      "loss": 3.354,
      "step": 354690
    },
    {
      "epoch": 0.7389583333333334,
      "grad_norm": 0.8250320553779602,
      "learning_rate": 4.805326677431732e-05,
      "loss": 3.3832,
      "step": 354700
    },
    {
      "epoch": 0.7389791666666666,
      "grad_norm": 0.8929820656776428,
      "learning_rate": 4.804603533781773e-05,
      "loss": 3.3694,
      "step": 354710
    },
    {
      "epoch": 0.739,
      "grad_norm": 0.8304154872894287,
      "learning_rate": 4.803880434171895e-05,
      "loss": 3.2111,
      "step": 354720
    },
    {
      "epoch": 0.7390208333333333,
      "grad_norm": 0.8171684741973877,
      "learning_rate": 4.803157378605223e-05,
      "loss": 3.386,
      "step": 354730
    },
    {
      "epoch": 0.7390416666666667,
      "grad_norm": 0.8265945911407471,
      "learning_rate": 4.8024343670848656e-05,
      "loss": 3.2995,
      "step": 354740
    },
    {
      "epoch": 0.7390625,
      "grad_norm": 0.7786777019500732,
      "learning_rate": 4.801711399613965e-05,
      "loss": 3.298,
      "step": 354750
    },
    {
      "epoch": 0.7390833333333333,
      "grad_norm": 0.891716718673706,
      "learning_rate": 4.80098847619563e-05,
      "loss": 3.4317,
      "step": 354760
    },
    {
      "epoch": 0.7391041666666667,
      "grad_norm": 1.0378316640853882,
      "learning_rate": 4.800265596832986e-05,
      "loss": 3.2103,
      "step": 354770
    },
    {
      "epoch": 0.739125,
      "grad_norm": 0.905288815498352,
      "learning_rate": 4.799542761529158e-05,
      "loss": 3.3872,
      "step": 354780
    },
    {
      "epoch": 0.7391458333333333,
      "grad_norm": 0.795403242111206,
      "learning_rate": 4.798819970287268e-05,
      "loss": 3.4039,
      "step": 354790
    },
    {
      "epoch": 0.7391666666666666,
      "grad_norm": 0.8653262257575989,
      "learning_rate": 4.798097223110438e-05,
      "loss": 3.3635,
      "step": 354800
    },
    {
      "epoch": 0.7391875,
      "grad_norm": 0.8360491991043091,
      "learning_rate": 4.797374520001791e-05,
      "loss": 3.2655,
      "step": 354810
    },
    {
      "epoch": 0.7392083333333334,
      "grad_norm": 0.8380239009857178,
      "learning_rate": 4.796651860964446e-05,
      "loss": 3.3897,
      "step": 354820
    },
    {
      "epoch": 0.7392291666666667,
      "grad_norm": 0.9883676767349243,
      "learning_rate": 4.795929246001526e-05,
      "loss": 3.3836,
      "step": 354830
    },
    {
      "epoch": 0.73925,
      "grad_norm": 0.8686802983283997,
      "learning_rate": 4.795206675116152e-05,
      "loss": 3.3823,
      "step": 354840
    },
    {
      "epoch": 0.7392708333333333,
      "grad_norm": 0.8432945609092712,
      "learning_rate": 4.794484148311448e-05,
      "loss": 3.327,
      "step": 354850
    },
    {
      "epoch": 0.7392916666666667,
      "grad_norm": 0.9393404126167297,
      "learning_rate": 4.793761665590531e-05,
      "loss": 3.3476,
      "step": 354860
    },
    {
      "epoch": 0.7393125,
      "grad_norm": 0.9161763787269592,
      "learning_rate": 4.793039226956524e-05,
      "loss": 3.2156,
      "step": 354870
    },
    {
      "epoch": 0.7393333333333333,
      "grad_norm": 0.8777385950088501,
      "learning_rate": 4.792316832412549e-05,
      "loss": 3.4263,
      "step": 354880
    },
    {
      "epoch": 0.7393541666666666,
      "grad_norm": 0.8498316407203674,
      "learning_rate": 4.791594481961722e-05,
      "loss": 3.3464,
      "step": 354890
    },
    {
      "epoch": 0.739375,
      "grad_norm": 0.8578816056251526,
      "learning_rate": 4.790872175607168e-05,
      "loss": 3.2137,
      "step": 354900
    },
    {
      "epoch": 0.7393958333333334,
      "grad_norm": 0.8310593366622925,
      "learning_rate": 4.790149913352005e-05,
      "loss": 3.5586,
      "step": 354910
    },
    {
      "epoch": 0.7394166666666667,
      "grad_norm": 0.8859828114509583,
      "learning_rate": 4.789427695199353e-05,
      "loss": 3.328,
      "step": 354920
    },
    {
      "epoch": 0.7394375,
      "grad_norm": 0.8587554097175598,
      "learning_rate": 4.788705521152332e-05,
      "loss": 3.2886,
      "step": 354930
    },
    {
      "epoch": 0.7394583333333333,
      "grad_norm": 0.8589113354682922,
      "learning_rate": 4.78798339121406e-05,
      "loss": 3.3495,
      "step": 354940
    },
    {
      "epoch": 0.7394791666666667,
      "grad_norm": 0.8428859710693359,
      "learning_rate": 4.787261305387658e-05,
      "loss": 3.3597,
      "step": 354950
    },
    {
      "epoch": 0.7395,
      "grad_norm": 0.8286799788475037,
      "learning_rate": 4.7865392636762455e-05,
      "loss": 3.3156,
      "step": 354960
    },
    {
      "epoch": 0.7395208333333333,
      "grad_norm": 0.8673704862594604,
      "learning_rate": 4.785817266082941e-05,
      "loss": 3.3709,
      "step": 354970
    },
    {
      "epoch": 0.7395416666666667,
      "grad_norm": 0.8252449631690979,
      "learning_rate": 4.785095312610861e-05,
      "loss": 3.2162,
      "step": 354980
    },
    {
      "epoch": 0.7395625,
      "grad_norm": 0.8369855880737305,
      "learning_rate": 4.784373403263127e-05,
      "loss": 3.3855,
      "step": 354990
    },
    {
      "epoch": 0.7395833333333334,
      "grad_norm": 0.8399533033370972,
      "learning_rate": 4.783651538042856e-05,
      "loss": 3.4735,
      "step": 355000
    },
    {
      "epoch": 0.7395833333333334,
      "eval_loss": 4.052600860595703,
      "eval_runtime": 7.854,
      "eval_samples_per_second": 1.273,
      "eval_steps_per_second": 0.382,
      "step": 355000
    },
    {
      "epoch": 0.7396041666666666,
      "grad_norm": 0.8413614630699158,
      "learning_rate": 4.782929716953172e-05,
      "loss": 3.345,
      "step": 355010
    },
    {
      "epoch": 0.739625,
      "grad_norm": 0.9237101674079895,
      "learning_rate": 4.782207939997177e-05,
      "loss": 3.4185,
      "step": 355020
    },
    {
      "epoch": 0.7396458333333333,
      "grad_norm": 0.8550405502319336,
      "learning_rate": 4.781486207178003e-05,
      "loss": 3.303,
      "step": 355030
    },
    {
      "epoch": 0.7396666666666667,
      "grad_norm": 0.8838717937469482,
      "learning_rate": 4.780764518498771e-05,
      "loss": 3.2623,
      "step": 355040
    },
    {
      "epoch": 0.7396875,
      "grad_norm": 0.8839377164840698,
      "learning_rate": 4.7800428739625796e-05,
      "loss": 3.3329,
      "step": 355050
    },
    {
      "epoch": 0.7397083333333333,
      "grad_norm": 0.9268122315406799,
      "learning_rate": 4.7793212735725636e-05,
      "loss": 3.3367,
      "step": 355060
    },
    {
      "epoch": 0.7397291666666667,
      "grad_norm": 0.8898590207099915,
      "learning_rate": 4.7785997173318396e-05,
      "loss": 3.4292,
      "step": 355070
    },
    {
      "epoch": 0.73975,
      "grad_norm": 0.7949613332748413,
      "learning_rate": 4.777878205243513e-05,
      "loss": 3.3641,
      "step": 355080
    },
    {
      "epoch": 0.7397708333333334,
      "grad_norm": 0.7927501797676086,
      "learning_rate": 4.777156737310702e-05,
      "loss": 3.4114,
      "step": 355090
    },
    {
      "epoch": 0.7397916666666666,
      "grad_norm": 1.0106737613677979,
      "learning_rate": 4.7764353135365356e-05,
      "loss": 3.3538,
      "step": 355100
    },
    {
      "epoch": 0.7398125,
      "grad_norm": 0.8396235108375549,
      "learning_rate": 4.775713933924117e-05,
      "loss": 3.209,
      "step": 355110
    },
    {
      "epoch": 0.7398333333333333,
      "grad_norm": 0.9069552421569824,
      "learning_rate": 4.774992598476569e-05,
      "loss": 3.2567,
      "step": 355120
    },
    {
      "epoch": 0.7398541666666667,
      "grad_norm": 0.8999153971672058,
      "learning_rate": 4.7742713071970053e-05,
      "loss": 3.2336,
      "step": 355130
    },
    {
      "epoch": 0.739875,
      "grad_norm": 0.8730993270874023,
      "learning_rate": 4.7735500600885414e-05,
      "loss": 3.3393,
      "step": 355140
    },
    {
      "epoch": 0.7398958333333333,
      "grad_norm": 0.9112933874130249,
      "learning_rate": 4.772828857154293e-05,
      "loss": 3.2641,
      "step": 355150
    },
    {
      "epoch": 0.7399166666666667,
      "grad_norm": 0.8484940528869629,
      "learning_rate": 4.7721076983973774e-05,
      "loss": 3.3229,
      "step": 355160
    },
    {
      "epoch": 0.7399375,
      "grad_norm": 0.955915629863739,
      "learning_rate": 4.771386583820907e-05,
      "loss": 3.5006,
      "step": 355170
    },
    {
      "epoch": 0.7399583333333334,
      "grad_norm": 0.806459367275238,
      "learning_rate": 4.770665513427997e-05,
      "loss": 3.3977,
      "step": 355180
    },
    {
      "epoch": 0.7399791666666666,
      "grad_norm": 0.8105129599571228,
      "learning_rate": 4.769944487221763e-05,
      "loss": 3.3194,
      "step": 355190
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9128597974777222,
      "learning_rate": 4.769223505205321e-05,
      "loss": 3.3855,
      "step": 355200
    },
    {
      "epoch": 0.7400208333333333,
      "grad_norm": 0.8863040208816528,
      "learning_rate": 4.768502567381783e-05,
      "loss": 3.4215,
      "step": 355210
    },
    {
      "epoch": 0.7400416666666667,
      "grad_norm": 1.080345630645752,
      "learning_rate": 4.767781673754263e-05,
      "loss": 3.348,
      "step": 355220
    },
    {
      "epoch": 0.7400625,
      "grad_norm": 0.8316885828971863,
      "learning_rate": 4.767060824325877e-05,
      "loss": 3.3557,
      "step": 355230
    },
    {
      "epoch": 0.7400833333333333,
      "grad_norm": 0.9024443030357361,
      "learning_rate": 4.7663400190997386e-05,
      "loss": 3.2947,
      "step": 355240
    },
    {
      "epoch": 0.7401041666666667,
      "grad_norm": 1.0021198987960815,
      "learning_rate": 4.76561925807896e-05,
      "loss": 3.3924,
      "step": 355250
    },
    {
      "epoch": 0.740125,
      "grad_norm": 0.8336943984031677,
      "learning_rate": 4.764898541266655e-05,
      "loss": 3.3595,
      "step": 355260
    },
    {
      "epoch": 0.7401458333333333,
      "grad_norm": 0.8435989618301392,
      "learning_rate": 4.7641778686659356e-05,
      "loss": 3.42,
      "step": 355270
    },
    {
      "epoch": 0.7401666666666666,
      "grad_norm": 0.7873212695121765,
      "learning_rate": 4.763457240279918e-05,
      "loss": 3.2359,
      "step": 355280
    },
    {
      "epoch": 0.7401875,
      "grad_norm": 0.9821277856826782,
      "learning_rate": 4.762736656111712e-05,
      "loss": 3.3502,
      "step": 355290
    },
    {
      "epoch": 0.7402083333333334,
      "grad_norm": 0.889622688293457,
      "learning_rate": 4.762016116164433e-05,
      "loss": 3.2937,
      "step": 355300
    },
    {
      "epoch": 0.7402291666666667,
      "grad_norm": 0.8747782707214355,
      "learning_rate": 4.761295620441189e-05,
      "loss": 3.5553,
      "step": 355310
    },
    {
      "epoch": 0.74025,
      "grad_norm": 0.8295665383338928,
      "learning_rate": 4.760575168945098e-05,
      "loss": 3.315,
      "step": 355320
    },
    {
      "epoch": 0.7402708333333333,
      "grad_norm": 0.7695918083190918,
      "learning_rate": 4.759854761679268e-05,
      "loss": 3.4043,
      "step": 355330
    },
    {
      "epoch": 0.7402916666666667,
      "grad_norm": 0.9797868132591248,
      "learning_rate": 4.7591343986468134e-05,
      "loss": 3.3054,
      "step": 355340
    },
    {
      "epoch": 0.7403125,
      "grad_norm": 0.8479134440422058,
      "learning_rate": 4.758414079850843e-05,
      "loss": 3.2797,
      "step": 355350
    },
    {
      "epoch": 0.7403333333333333,
      "grad_norm": 0.8001131415367126,
      "learning_rate": 4.757693805294475e-05,
      "loss": 3.2839,
      "step": 355360
    },
    {
      "epoch": 0.7403541666666666,
      "grad_norm": 0.8750808835029602,
      "learning_rate": 4.7569735749808055e-05,
      "loss": 3.3936,
      "step": 355370
    },
    {
      "epoch": 0.740375,
      "grad_norm": 0.798974335193634,
      "learning_rate": 4.756253388912967e-05,
      "loss": 3.1937,
      "step": 355380
    },
    {
      "epoch": 0.7403958333333334,
      "grad_norm": 0.8398696780204773,
      "learning_rate": 4.755533247094053e-05,
      "loss": 3.3164,
      "step": 355390
    },
    {
      "epoch": 0.7404166666666666,
      "grad_norm": 0.9370123744010925,
      "learning_rate": 4.754813149527176e-05,
      "loss": 3.5215,
      "step": 355400
    },
    {
      "epoch": 0.7404375,
      "grad_norm": 0.8333325386047363,
      "learning_rate": 4.7540930962154604e-05,
      "loss": 3.447,
      "step": 355410
    },
    {
      "epoch": 0.7404583333333333,
      "grad_norm": 0.8894849419593811,
      "learning_rate": 4.753373087162002e-05,
      "loss": 3.3672,
      "step": 355420
    },
    {
      "epoch": 0.7404791666666667,
      "grad_norm": 0.884032130241394,
      "learning_rate": 4.752653122369911e-05,
      "loss": 3.3536,
      "step": 355430
    },
    {
      "epoch": 0.7405,
      "grad_norm": 0.8208999037742615,
      "learning_rate": 4.751933201842312e-05,
      "loss": 3.3121,
      "step": 355440
    },
    {
      "epoch": 0.7405208333333333,
      "grad_norm": 0.844874918460846,
      "learning_rate": 4.751213325582302e-05,
      "loss": 3.2957,
      "step": 355450
    },
    {
      "epoch": 0.7405416666666667,
      "grad_norm": 0.9095569252967834,
      "learning_rate": 4.750493493592986e-05,
      "loss": 3.2862,
      "step": 355460
    },
    {
      "epoch": 0.7405625,
      "grad_norm": 0.8744122982025146,
      "learning_rate": 4.7497737058774924e-05,
      "loss": 3.3916,
      "step": 355470
    },
    {
      "epoch": 0.7405833333333334,
      "grad_norm": 0.7561653256416321,
      "learning_rate": 4.749053962438913e-05,
      "loss": 3.367,
      "step": 355480
    },
    {
      "epoch": 0.7406041666666666,
      "grad_norm": 0.8369932770729065,
      "learning_rate": 4.748334263280359e-05,
      "loss": 3.5301,
      "step": 355490
    },
    {
      "epoch": 0.740625,
      "grad_norm": 0.8869753479957581,
      "learning_rate": 4.7476146084049545e-05,
      "loss": 3.5168,
      "step": 355500
    },
    {
      "epoch": 0.7406458333333333,
      "grad_norm": 0.8220548629760742,
      "learning_rate": 4.7468949978157886e-05,
      "loss": 3.409,
      "step": 355510
    },
    {
      "epoch": 0.7406666666666667,
      "grad_norm": 0.8744892477989197,
      "learning_rate": 4.7461754315159805e-05,
      "loss": 3.4392,
      "step": 355520
    },
    {
      "epoch": 0.7406875,
      "grad_norm": 0.8515322804450989,
      "learning_rate": 4.745455909508634e-05,
      "loss": 3.3052,
      "step": 355530
    },
    {
      "epoch": 0.7407083333333333,
      "grad_norm": 0.8333085179328918,
      "learning_rate": 4.744736431796859e-05,
      "loss": 3.3804,
      "step": 355540
    },
    {
      "epoch": 0.7407291666666667,
      "grad_norm": 0.8446913361549377,
      "learning_rate": 4.744016998383764e-05,
      "loss": 3.3313,
      "step": 355550
    },
    {
      "epoch": 0.74075,
      "grad_norm": 0.8283066153526306,
      "learning_rate": 4.743297609272456e-05,
      "loss": 3.3142,
      "step": 355560
    },
    {
      "epoch": 0.7407708333333334,
      "grad_norm": 0.8697630167007446,
      "learning_rate": 4.742578264466043e-05,
      "loss": 3.2825,
      "step": 355570
    },
    {
      "epoch": 0.7407916666666666,
      "grad_norm": 0.850517749786377,
      "learning_rate": 4.741858963967631e-05,
      "loss": 3.3863,
      "step": 355580
    },
    {
      "epoch": 0.7408125,
      "grad_norm": 0.8608739376068115,
      "learning_rate": 4.741139707780328e-05,
      "loss": 3.5035,
      "step": 355590
    },
    {
      "epoch": 0.7408333333333333,
      "grad_norm": 0.9286619424819946,
      "learning_rate": 4.7404204959072394e-05,
      "loss": 3.4033,
      "step": 355600
    },
    {
      "epoch": 0.7408541666666667,
      "grad_norm": 0.9259095191955566,
      "learning_rate": 4.739701328351476e-05,
      "loss": 3.4391,
      "step": 355610
    },
    {
      "epoch": 0.740875,
      "grad_norm": 0.944654107093811,
      "learning_rate": 4.738982205116139e-05,
      "loss": 3.4014,
      "step": 355620
    },
    {
      "epoch": 0.7408958333333333,
      "grad_norm": 0.827816367149353,
      "learning_rate": 4.738263126204339e-05,
      "loss": 3.3819,
      "step": 355630
    },
    {
      "epoch": 0.7409166666666667,
      "grad_norm": 0.8675593137741089,
      "learning_rate": 4.7375440916191795e-05,
      "loss": 3.2369,
      "step": 355640
    },
    {
      "epoch": 0.7409375,
      "grad_norm": 0.882457435131073,
      "learning_rate": 4.736825101363767e-05,
      "loss": 3.1724,
      "step": 355650
    },
    {
      "epoch": 0.7409583333333334,
      "grad_norm": 0.8368213176727295,
      "learning_rate": 4.736106155441208e-05,
      "loss": 3.3081,
      "step": 355660
    },
    {
      "epoch": 0.7409791666666666,
      "grad_norm": 0.9338173866271973,
      "learning_rate": 4.735387253854613e-05,
      "loss": 3.4225,
      "step": 355670
    },
    {
      "epoch": 0.741,
      "grad_norm": 0.9026762247085571,
      "learning_rate": 4.7346683966070714e-05,
      "loss": 3.3328,
      "step": 355680
    },
    {
      "epoch": 0.7410208333333334,
      "grad_norm": 0.965112566947937,
      "learning_rate": 4.733949583701705e-05,
      "loss": 3.5177,
      "step": 355690
    },
    {
      "epoch": 0.7410416666666667,
      "grad_norm": 0.8954733610153198,
      "learning_rate": 4.7332308151416175e-05,
      "loss": 3.4299,
      "step": 355700
    },
    {
      "epoch": 0.7410625,
      "grad_norm": 0.8134496212005615,
      "learning_rate": 4.732512090929898e-05,
      "loss": 3.3005,
      "step": 355710
    },
    {
      "epoch": 0.7410833333333333,
      "grad_norm": 1.1483736038208008,
      "learning_rate": 4.7317934110696685e-05,
      "loss": 3.4365,
      "step": 355720
    },
    {
      "epoch": 0.7411041666666667,
      "grad_norm": 0.8816996216773987,
      "learning_rate": 4.7310747755640324e-05,
      "loss": 3.2379,
      "step": 355730
    },
    {
      "epoch": 0.741125,
      "grad_norm": 0.8998235464096069,
      "learning_rate": 4.7303561844160766e-05,
      "loss": 3.2785,
      "step": 355740
    },
    {
      "epoch": 0.7411458333333333,
      "grad_norm": 0.8497397303581238,
      "learning_rate": 4.7296376376289275e-05,
      "loss": 3.2557,
      "step": 355750
    },
    {
      "epoch": 0.7411666666666666,
      "grad_norm": 0.7980379462242126,
      "learning_rate": 4.7289191352056746e-05,
      "loss": 3.3285,
      "step": 355760
    },
    {
      "epoch": 0.7411875,
      "grad_norm": 1.004301905632019,
      "learning_rate": 4.72820067714942e-05,
      "loss": 3.3705,
      "step": 355770
    },
    {
      "epoch": 0.7412083333333334,
      "grad_norm": 0.8704593777656555,
      "learning_rate": 4.7274822634632826e-05,
      "loss": 3.2649,
      "step": 355780
    },
    {
      "epoch": 0.7412291666666667,
      "grad_norm": 0.908155620098114,
      "learning_rate": 4.7267638941503506e-05,
      "loss": 3.15,
      "step": 355790
    },
    {
      "epoch": 0.74125,
      "grad_norm": 0.8237171769142151,
      "learning_rate": 4.7260455692137275e-05,
      "loss": 3.3358,
      "step": 355800
    },
    {
      "epoch": 0.7412708333333333,
      "grad_norm": 0.837127149105072,
      "learning_rate": 4.7253272886565304e-05,
      "loss": 3.3307,
      "step": 355810
    },
    {
      "epoch": 0.7412916666666667,
      "grad_norm": 0.9029456973075867,
      "learning_rate": 4.724609052481847e-05,
      "loss": 3.3148,
      "step": 355820
    },
    {
      "epoch": 0.7413125,
      "grad_norm": 0.80296391248703,
      "learning_rate": 4.7238908606927805e-05,
      "loss": 3.357,
      "step": 355830
    },
    {
      "epoch": 0.7413333333333333,
      "grad_norm": 0.8985981941223145,
      "learning_rate": 4.7231727132924485e-05,
      "loss": 3.3454,
      "step": 355840
    },
    {
      "epoch": 0.7413541666666666,
      "grad_norm": 1.1142436265945435,
      "learning_rate": 4.722454610283937e-05,
      "loss": 3.2771,
      "step": 355850
    },
    {
      "epoch": 0.741375,
      "grad_norm": 0.9672718644142151,
      "learning_rate": 4.721736551670349e-05,
      "loss": 3.4315,
      "step": 355860
    },
    {
      "epoch": 0.7413958333333334,
      "grad_norm": 0.9179107546806335,
      "learning_rate": 4.7210185374548004e-05,
      "loss": 3.501,
      "step": 355870
    },
    {
      "epoch": 0.7414166666666666,
      "grad_norm": 0.8420453071594238,
      "learning_rate": 4.720300567640378e-05,
      "loss": 3.2913,
      "step": 355880
    },
    {
      "epoch": 0.7414375,
      "grad_norm": 0.8894776701927185,
      "learning_rate": 4.719582642230189e-05,
      "loss": 3.2746,
      "step": 355890
    },
    {
      "epoch": 0.7414583333333333,
      "grad_norm": 1.0883171558380127,
      "learning_rate": 4.718864761227332e-05,
      "loss": 3.4328,
      "step": 355900
    },
    {
      "epoch": 0.7414791666666667,
      "grad_norm": 0.8505115509033203,
      "learning_rate": 4.7181469246349095e-05,
      "loss": 3.3547,
      "step": 355910
    },
    {
      "epoch": 0.7415,
      "grad_norm": 0.8239178657531738,
      "learning_rate": 4.7174291324560246e-05,
      "loss": 3.3737,
      "step": 355920
    },
    {
      "epoch": 0.7415208333333333,
      "grad_norm": 0.8350822329521179,
      "learning_rate": 4.716711384693774e-05,
      "loss": 3.2934,
      "step": 355930
    },
    {
      "epoch": 0.7415416666666667,
      "grad_norm": 0.8885728120803833,
      "learning_rate": 4.715993681351261e-05,
      "loss": 3.3763,
      "step": 355940
    },
    {
      "epoch": 0.7415625,
      "grad_norm": 0.8200485110282898,
      "learning_rate": 4.715276022431583e-05,
      "loss": 3.32,
      "step": 355950
    },
    {
      "epoch": 0.7415833333333334,
      "grad_norm": 0.9053322076797485,
      "learning_rate": 4.7145584079378426e-05,
      "loss": 3.4239,
      "step": 355960
    },
    {
      "epoch": 0.7416041666666666,
      "grad_norm": 1.0138423442840576,
      "learning_rate": 4.7138408378731386e-05,
      "loss": 3.3955,
      "step": 355970
    },
    {
      "epoch": 0.741625,
      "grad_norm": 0.8900416493415833,
      "learning_rate": 4.7131233122405704e-05,
      "loss": 3.4878,
      "step": 355980
    },
    {
      "epoch": 0.7416458333333333,
      "grad_norm": 0.8795211911201477,
      "learning_rate": 4.7124058310432374e-05,
      "loss": 3.4375,
      "step": 355990
    },
    {
      "epoch": 0.7416666666666667,
      "grad_norm": 0.9176255464553833,
      "learning_rate": 4.71168839428424e-05,
      "loss": 3.4194,
      "step": 356000
    },
    {
      "epoch": 0.7416666666666667,
      "eval_loss": 4.053038597106934,
      "eval_runtime": 8.4252,
      "eval_samples_per_second": 1.187,
      "eval_steps_per_second": 0.356,
      "step": 356000
    },
    {
      "epoch": 0.7416875,
      "grad_norm": 0.871216893196106,
      "learning_rate": 4.7109710019666805e-05,
      "loss": 3.4387,
      "step": 356010
    },
    {
      "epoch": 0.7417083333333333,
      "grad_norm": 0.9319280385971069,
      "learning_rate": 4.710253654093645e-05,
      "loss": 3.4028,
      "step": 356020
    },
    {
      "epoch": 0.7417291666666667,
      "grad_norm": 0.9593121409416199,
      "learning_rate": 4.7095363506682446e-05,
      "loss": 3.2577,
      "step": 356030
    },
    {
      "epoch": 0.74175,
      "grad_norm": 0.9821664690971375,
      "learning_rate": 4.7088190916935785e-05,
      "loss": 3.4337,
      "step": 356040
    },
    {
      "epoch": 0.7417708333333334,
      "grad_norm": 0.8582513928413391,
      "learning_rate": 4.708101877172732e-05,
      "loss": 3.3772,
      "step": 356050
    },
    {
      "epoch": 0.7417916666666666,
      "grad_norm": 1.0038607120513916,
      "learning_rate": 4.707384707108815e-05,
      "loss": 3.3664,
      "step": 356060
    },
    {
      "epoch": 0.7418125,
      "grad_norm": 1.0558099746704102,
      "learning_rate": 4.7066675815049274e-05,
      "loss": 3.3588,
      "step": 356070
    },
    {
      "epoch": 0.7418333333333333,
      "grad_norm": 0.8949690461158752,
      "learning_rate": 4.705950500364152e-05,
      "loss": 3.3349,
      "step": 356080
    },
    {
      "epoch": 0.7418541666666667,
      "grad_norm": 0.816085934638977,
      "learning_rate": 4.7052334636896e-05,
      "loss": 3.3258,
      "step": 356090
    },
    {
      "epoch": 0.741875,
      "grad_norm": 0.8197622895240784,
      "learning_rate": 4.704516471484371e-05,
      "loss": 3.3797,
      "step": 356100
    },
    {
      "epoch": 0.7418958333333333,
      "grad_norm": 0.8093639016151428,
      "learning_rate": 4.7037995237515444e-05,
      "loss": 3.317,
      "step": 356110
    },
    {
      "epoch": 0.7419166666666667,
      "grad_norm": 1.0950525999069214,
      "learning_rate": 4.7030826204942374e-05,
      "loss": 3.3197,
      "step": 356120
    },
    {
      "epoch": 0.7419375,
      "grad_norm": 0.8607267141342163,
      "learning_rate": 4.702365761715533e-05,
      "loss": 3.2753,
      "step": 356130
    },
    {
      "epoch": 0.7419583333333334,
      "grad_norm": 0.9548753499984741,
      "learning_rate": 4.701648947418529e-05,
      "loss": 3.3587,
      "step": 356140
    },
    {
      "epoch": 0.7419791666666666,
      "grad_norm": 1.0177764892578125,
      "learning_rate": 4.700932177606334e-05,
      "loss": 3.2752,
      "step": 356150
    },
    {
      "epoch": 0.742,
      "grad_norm": 0.8869059681892395,
      "learning_rate": 4.70021545228203e-05,
      "loss": 3.3503,
      "step": 356160
    },
    {
      "epoch": 0.7420208333333334,
      "grad_norm": 0.8164946436882019,
      "learning_rate": 4.699498771448714e-05,
      "loss": 3.4325,
      "step": 356170
    },
    {
      "epoch": 0.7420416666666667,
      "grad_norm": 0.8713184595108032,
      "learning_rate": 4.698782135109497e-05,
      "loss": 3.2984,
      "step": 356180
    },
    {
      "epoch": 0.7420625,
      "grad_norm": 0.8413681983947754,
      "learning_rate": 4.6980655432674566e-05,
      "loss": 3.284,
      "step": 356190
    },
    {
      "epoch": 0.7420833333333333,
      "grad_norm": 0.9015183448791504,
      "learning_rate": 4.697348995925692e-05,
      "loss": 3.2841,
      "step": 356200
    },
    {
      "epoch": 0.7421041666666667,
      "grad_norm": 0.8188160061836243,
      "learning_rate": 4.69663249308731e-05,
      "loss": 3.2883,
      "step": 356210
    },
    {
      "epoch": 0.742125,
      "grad_norm": 0.8775842785835266,
      "learning_rate": 4.695916034755395e-05,
      "loss": 3.3627,
      "step": 356220
    },
    {
      "epoch": 0.7421458333333333,
      "grad_norm": 0.9556737542152405,
      "learning_rate": 4.695199620933037e-05,
      "loss": 3.3347,
      "step": 356230
    },
    {
      "epoch": 0.7421666666666666,
      "grad_norm": 0.8965023159980774,
      "learning_rate": 4.6944832516233485e-05,
      "loss": 3.5274,
      "step": 356240
    },
    {
      "epoch": 0.7421875,
      "grad_norm": 1.0317500829696655,
      "learning_rate": 4.693766926829407e-05,
      "loss": 3.3442,
      "step": 356250
    },
    {
      "epoch": 0.7422083333333334,
      "grad_norm": 0.9553120732307434,
      "learning_rate": 4.693050646554313e-05,
      "loss": 3.4371,
      "step": 356260
    },
    {
      "epoch": 0.7422291666666667,
      "grad_norm": 0.8771201968193054,
      "learning_rate": 4.6923344108011614e-05,
      "loss": 3.5227,
      "step": 356270
    },
    {
      "epoch": 0.74225,
      "grad_norm": 0.8159745335578918,
      "learning_rate": 4.691618219573045e-05,
      "loss": 3.338,
      "step": 356280
    },
    {
      "epoch": 0.7422708333333333,
      "grad_norm": 0.9331132173538208,
      "learning_rate": 4.690902072873057e-05,
      "loss": 3.3244,
      "step": 356290
    },
    {
      "epoch": 0.7422916666666667,
      "grad_norm": 0.8857569694519043,
      "learning_rate": 4.6901859707042925e-05,
      "loss": 3.3772,
      "step": 356300
    },
    {
      "epoch": 0.7423125,
      "grad_norm": 0.9509847164154053,
      "learning_rate": 4.689469913069842e-05,
      "loss": 3.4935,
      "step": 356310
    },
    {
      "epoch": 0.7423333333333333,
      "grad_norm": 0.9122759103775024,
      "learning_rate": 4.688753899972801e-05,
      "loss": 3.4393,
      "step": 356320
    },
    {
      "epoch": 0.7423541666666666,
      "grad_norm": 0.7945728302001953,
      "learning_rate": 4.6880379314162625e-05,
      "loss": 3.4069,
      "step": 356330
    },
    {
      "epoch": 0.742375,
      "grad_norm": 0.8583271503448486,
      "learning_rate": 4.687322007403318e-05,
      "loss": 3.3467,
      "step": 356340
    },
    {
      "epoch": 0.7423958333333334,
      "grad_norm": 1.0905815362930298,
      "learning_rate": 4.68660612793706e-05,
      "loss": 3.4396,
      "step": 356350
    },
    {
      "epoch": 0.7424166666666666,
      "grad_norm": 0.8922556638717651,
      "learning_rate": 4.685890293020581e-05,
      "loss": 3.2759,
      "step": 356360
    },
    {
      "epoch": 0.7424375,
      "grad_norm": 0.875579833984375,
      "learning_rate": 4.685174502656972e-05,
      "loss": 3.3378,
      "step": 356370
    },
    {
      "epoch": 0.7424583333333333,
      "grad_norm": 0.8559379577636719,
      "learning_rate": 4.684458756849334e-05,
      "loss": 3.2252,
      "step": 356380
    },
    {
      "epoch": 0.7424791666666667,
      "grad_norm": 0.8009938597679138,
      "learning_rate": 4.683743055600739e-05,
      "loss": 3.3314,
      "step": 356390
    },
    {
      "epoch": 0.7425,
      "grad_norm": 0.8400387763977051,
      "learning_rate": 4.6830273989142976e-05,
      "loss": 3.4902,
      "step": 356400
    },
    {
      "epoch": 0.7425208333333333,
      "grad_norm": 1.0049582719802856,
      "learning_rate": 4.6823117867930973e-05,
      "loss": 3.3137,
      "step": 356410
    },
    {
      "epoch": 0.7425416666666667,
      "grad_norm": 0.831975519657135,
      "learning_rate": 4.6815962192402175e-05,
      "loss": 3.4413,
      "step": 356420
    },
    {
      "epoch": 0.7425625,
      "grad_norm": 0.9089323282241821,
      "learning_rate": 4.680880696258762e-05,
      "loss": 3.3954,
      "step": 356430
    },
    {
      "epoch": 0.7425833333333334,
      "grad_norm": 0.8463680744171143,
      "learning_rate": 4.6801652178518216e-05,
      "loss": 3.2732,
      "step": 356440
    },
    {
      "epoch": 0.7426041666666666,
      "grad_norm": 1.0279771089553833,
      "learning_rate": 4.679449784022474e-05,
      "loss": 3.3369,
      "step": 356450
    },
    {
      "epoch": 0.742625,
      "grad_norm": 0.7906116247177124,
      "learning_rate": 4.678734394773823e-05,
      "loss": 3.207,
      "step": 356460
    },
    {
      "epoch": 0.7426458333333333,
      "grad_norm": 0.9631770849227905,
      "learning_rate": 4.6780190501089576e-05,
      "loss": 3.304,
      "step": 356470
    },
    {
      "epoch": 0.7426666666666667,
      "grad_norm": 0.8302785754203796,
      "learning_rate": 4.6773037500309553e-05,
      "loss": 3.4445,
      "step": 356480
    },
    {
      "epoch": 0.7426875,
      "grad_norm": 0.8478958010673523,
      "learning_rate": 4.6765884945429196e-05,
      "loss": 3.5309,
      "step": 356490
    },
    {
      "epoch": 0.7427083333333333,
      "grad_norm": 0.9235681295394897,
      "learning_rate": 4.6758732836479395e-05,
      "loss": 3.2959,
      "step": 356500
    },
    {
      "epoch": 0.7427291666666667,
      "grad_norm": 0.9741917252540588,
      "learning_rate": 4.67515811734909e-05,
      "loss": 3.4634,
      "step": 356510
    },
    {
      "epoch": 0.74275,
      "grad_norm": 0.8576274514198303,
      "learning_rate": 4.674442995649481e-05,
      "loss": 3.408,
      "step": 356520
    },
    {
      "epoch": 0.7427708333333334,
      "grad_norm": 0.9334903955459595,
      "learning_rate": 4.673727918552187e-05,
      "loss": 3.3304,
      "step": 356530
    },
    {
      "epoch": 0.7427916666666666,
      "grad_norm": 0.822615921497345,
      "learning_rate": 4.6730128860603016e-05,
      "loss": 3.3274,
      "step": 356540
    },
    {
      "epoch": 0.7428125,
      "grad_norm": 0.8701240420341492,
      "learning_rate": 4.672297898176911e-05,
      "loss": 3.3798,
      "step": 356550
    },
    {
      "epoch": 0.7428333333333333,
      "grad_norm": 0.9458991289138794,
      "learning_rate": 4.671582954905106e-05,
      "loss": 3.3499,
      "step": 356560
    },
    {
      "epoch": 0.7428541666666667,
      "grad_norm": 1.0722483396530151,
      "learning_rate": 4.670868056247976e-05,
      "loss": 3.2288,
      "step": 356570
    },
    {
      "epoch": 0.742875,
      "grad_norm": 0.9072839021682739,
      "learning_rate": 4.670153202208606e-05,
      "loss": 3.3275,
      "step": 356580
    },
    {
      "epoch": 0.7428958333333333,
      "grad_norm": 0.7816327810287476,
      "learning_rate": 4.669438392790085e-05,
      "loss": 3.4323,
      "step": 356590
    },
    {
      "epoch": 0.7429166666666667,
      "grad_norm": 0.8284441828727722,
      "learning_rate": 4.6687236279955015e-05,
      "loss": 3.2977,
      "step": 356600
    },
    {
      "epoch": 0.7429375,
      "grad_norm": 1.0217987298965454,
      "learning_rate": 4.668008907827942e-05,
      "loss": 3.3627,
      "step": 356610
    },
    {
      "epoch": 0.7429583333333334,
      "grad_norm": 0.7828913927078247,
      "learning_rate": 4.667294232290496e-05,
      "loss": 3.3452,
      "step": 356620
    },
    {
      "epoch": 0.7429791666666666,
      "grad_norm": 0.8394050598144531,
      "learning_rate": 4.666579601386246e-05,
      "loss": 3.3273,
      "step": 356630
    },
    {
      "epoch": 0.743,
      "grad_norm": 0.8143336176872253,
      "learning_rate": 4.665865015118285e-05,
      "loss": 3.4434,
      "step": 356640
    },
    {
      "epoch": 0.7430208333333334,
      "grad_norm": 0.882980465888977,
      "learning_rate": 4.6651504734896935e-05,
      "loss": 3.2946,
      "step": 356650
    },
    {
      "epoch": 0.7430416666666667,
      "grad_norm": 0.8610004186630249,
      "learning_rate": 4.664435976503564e-05,
      "loss": 3.3567,
      "step": 356660
    },
    {
      "epoch": 0.7430625,
      "grad_norm": 0.9190449118614197,
      "learning_rate": 4.663721524162979e-05,
      "loss": 3.3841,
      "step": 356670
    },
    {
      "epoch": 0.7430833333333333,
      "grad_norm": 0.9590214490890503,
      "learning_rate": 4.6630071164710246e-05,
      "loss": 3.2843,
      "step": 356680
    },
    {
      "epoch": 0.7431041666666667,
      "grad_norm": 0.8075523376464844,
      "learning_rate": 4.66229275343079e-05,
      "loss": 3.4401,
      "step": 356690
    },
    {
      "epoch": 0.743125,
      "grad_norm": 0.8677464127540588,
      "learning_rate": 4.6615784350453564e-05,
      "loss": 3.4811,
      "step": 356700
    },
    {
      "epoch": 0.7431458333333333,
      "grad_norm": 0.968492329120636,
      "learning_rate": 4.660864161317813e-05,
      "loss": 3.3264,
      "step": 356710
    },
    {
      "epoch": 0.7431666666666666,
      "grad_norm": 0.8717251420021057,
      "learning_rate": 4.660149932251244e-05,
      "loss": 3.4362,
      "step": 356720
    },
    {
      "epoch": 0.7431875,
      "grad_norm": 0.8667297959327698,
      "learning_rate": 4.659435747848733e-05,
      "loss": 3.315,
      "step": 356730
    },
    {
      "epoch": 0.7432083333333334,
      "grad_norm": 0.8926621079444885,
      "learning_rate": 4.658721608113368e-05,
      "loss": 3.3856,
      "step": 356740
    },
    {
      "epoch": 0.7432291666666667,
      "grad_norm": 0.9623202085494995,
      "learning_rate": 4.6580075130482366e-05,
      "loss": 3.3478,
      "step": 356750
    },
    {
      "epoch": 0.74325,
      "grad_norm": 0.9146101474761963,
      "learning_rate": 4.6572934626564104e-05,
      "loss": 3.3617,
      "step": 356760
    },
    {
      "epoch": 0.7432708333333333,
      "grad_norm": 0.8497764468193054,
      "learning_rate": 4.6565794569409866e-05,
      "loss": 3.2771,
      "step": 356770
    },
    {
      "epoch": 0.7432916666666667,
      "grad_norm": 0.8521647453308105,
      "learning_rate": 4.655865495905049e-05,
      "loss": 3.3217,
      "step": 356780
    },
    {
      "epoch": 0.7433125,
      "grad_norm": 0.9330820441246033,
      "learning_rate": 4.6551515795516706e-05,
      "loss": 3.4242,
      "step": 356790
    },
    {
      "epoch": 0.7433333333333333,
      "grad_norm": 0.866782546043396,
      "learning_rate": 4.6544377078839446e-05,
      "loss": 3.403,
      "step": 356800
    },
    {
      "epoch": 0.7433541666666666,
      "grad_norm": 0.9863927960395813,
      "learning_rate": 4.65372388090496e-05,
      "loss": 3.4276,
      "step": 356810
    },
    {
      "epoch": 0.743375,
      "grad_norm": 0.9215866923332214,
      "learning_rate": 4.653010098617782e-05,
      "loss": 3.2576,
      "step": 356820
    },
    {
      "epoch": 0.7433958333333334,
      "grad_norm": 0.85322105884552,
      "learning_rate": 4.6522963610255106e-05,
      "loss": 3.3041,
      "step": 356830
    },
    {
      "epoch": 0.7434166666666666,
      "grad_norm": 0.809733510017395,
      "learning_rate": 4.6515826681312276e-05,
      "loss": 3.2672,
      "step": 356840
    },
    {
      "epoch": 0.7434375,
      "grad_norm": 0.7868756055831909,
      "learning_rate": 4.650869019938005e-05,
      "loss": 3.2809,
      "step": 356850
    },
    {
      "epoch": 0.7434583333333333,
      "grad_norm": 0.8689376711845398,
      "learning_rate": 4.6501554164489275e-05,
      "loss": 3.3047,
      "step": 356860
    },
    {
      "epoch": 0.7434791666666667,
      "grad_norm": 0.834348201751709,
      "learning_rate": 4.649441857667092e-05,
      "loss": 3.202,
      "step": 356870
    },
    {
      "epoch": 0.7435,
      "grad_norm": 0.8942153453826904,
      "learning_rate": 4.648728343595566e-05,
      "loss": 3.4649,
      "step": 356880
    },
    {
      "epoch": 0.7435208333333333,
      "grad_norm": 0.8908594846725464,
      "learning_rate": 4.6480148742374356e-05,
      "loss": 3.2643,
      "step": 356890
    },
    {
      "epoch": 0.7435416666666667,
      "grad_norm": 0.9451869130134583,
      "learning_rate": 4.647301449595785e-05,
      "loss": 3.4516,
      "step": 356900
    },
    {
      "epoch": 0.7435625,
      "grad_norm": 0.8289507031440735,
      "learning_rate": 4.646588069673693e-05,
      "loss": 3.2905,
      "step": 356910
    },
    {
      "epoch": 0.7435833333333334,
      "grad_norm": 0.8817269802093506,
      "learning_rate": 4.645874734474242e-05,
      "loss": 3.3405,
      "step": 356920
    },
    {
      "epoch": 0.7436041666666666,
      "grad_norm": 0.9260721802711487,
      "learning_rate": 4.645161444000514e-05,
      "loss": 3.3023,
      "step": 356930
    },
    {
      "epoch": 0.743625,
      "grad_norm": 0.9092300534248352,
      "learning_rate": 4.64444819825559e-05,
      "loss": 3.3265,
      "step": 356940
    },
    {
      "epoch": 0.7436458333333333,
      "grad_norm": 0.8450982570648193,
      "learning_rate": 4.64373499724255e-05,
      "loss": 3.2678,
      "step": 356950
    },
    {
      "epoch": 0.7436666666666667,
      "grad_norm": 0.7870054841041565,
      "learning_rate": 4.643021840964477e-05,
      "loss": 3.3289,
      "step": 356960
    },
    {
      "epoch": 0.7436875,
      "grad_norm": 0.8524977564811707,
      "learning_rate": 4.6423087294244484e-05,
      "loss": 3.4477,
      "step": 356970
    },
    {
      "epoch": 0.7437083333333333,
      "grad_norm": 0.913669228553772,
      "learning_rate": 4.6415956626255474e-05,
      "loss": 3.3836,
      "step": 356980
    },
    {
      "epoch": 0.7437291666666667,
      "grad_norm": 0.8092784285545349,
      "learning_rate": 4.6408826405708534e-05,
      "loss": 3.3477,
      "step": 356990
    },
    {
      "epoch": 0.74375,
      "grad_norm": 0.8126685619354248,
      "learning_rate": 4.640169663263445e-05,
      "loss": 3.4013,
      "step": 357000
    },
    {
      "epoch": 0.74375,
      "eval_loss": 4.055697441101074,
      "eval_runtime": 8.8031,
      "eval_samples_per_second": 1.136,
      "eval_steps_per_second": 0.341,
      "step": 357000
    },
    {
      "epoch": 0.7437708333333334,
      "grad_norm": 0.9116853475570679,
      "learning_rate": 4.6394567307064034e-05,
      "loss": 3.2517,
      "step": 357010
    },
    {
      "epoch": 0.7437916666666666,
      "grad_norm": 0.920673131942749,
      "learning_rate": 4.6387438429028076e-05,
      "loss": 3.2795,
      "step": 357020
    },
    {
      "epoch": 0.7438125,
      "grad_norm": 0.8489385843276978,
      "learning_rate": 4.6380309998557355e-05,
      "loss": 3.142,
      "step": 357030
    },
    {
      "epoch": 0.7438333333333333,
      "grad_norm": 0.8860808610916138,
      "learning_rate": 4.6373182015682696e-05,
      "loss": 3.3332,
      "step": 357040
    },
    {
      "epoch": 0.7438541666666667,
      "grad_norm": 0.8354393839836121,
      "learning_rate": 4.636605448043489e-05,
      "loss": 3.3143,
      "step": 357050
    },
    {
      "epoch": 0.743875,
      "grad_norm": 0.8767760396003723,
      "learning_rate": 4.6358927392844673e-05,
      "loss": 3.48,
      "step": 357060
    },
    {
      "epoch": 0.7438958333333333,
      "grad_norm": 0.8123281598091125,
      "learning_rate": 4.635180075294288e-05,
      "loss": 3.3055,
      "step": 357070
    },
    {
      "epoch": 0.7439166666666667,
      "grad_norm": 0.9011996388435364,
      "learning_rate": 4.63446745607603e-05,
      "loss": 3.2666,
      "step": 357080
    },
    {
      "epoch": 0.7439375,
      "grad_norm": 0.8877569437026978,
      "learning_rate": 4.633754881632767e-05,
      "loss": 3.3768,
      "step": 357090
    },
    {
      "epoch": 0.7439583333333334,
      "grad_norm": 0.840413510799408,
      "learning_rate": 4.63304235196758e-05,
      "loss": 3.3758,
      "step": 357100
    },
    {
      "epoch": 0.7439791666666666,
      "grad_norm": 0.9630252718925476,
      "learning_rate": 4.6323298670835476e-05,
      "loss": 3.3548,
      "step": 357110
    },
    {
      "epoch": 0.744,
      "grad_norm": 0.8952881097793579,
      "learning_rate": 4.631617426983751e-05,
      "loss": 3.4247,
      "step": 357120
    },
    {
      "epoch": 0.7440208333333334,
      "grad_norm": 0.7897502779960632,
      "learning_rate": 4.630905031671258e-05,
      "loss": 3.456,
      "step": 357130
    },
    {
      "epoch": 0.7440416666666667,
      "grad_norm": 0.9531266093254089,
      "learning_rate": 4.6301926811491454e-05,
      "loss": 3.4441,
      "step": 357140
    },
    {
      "epoch": 0.7440625,
      "grad_norm": 0.8443730473518372,
      "learning_rate": 4.629480375420506e-05,
      "loss": 3.4006,
      "step": 357150
    },
    {
      "epoch": 0.7440833333333333,
      "grad_norm": 0.8320003151893616,
      "learning_rate": 4.628768114488402e-05,
      "loss": 3.3951,
      "step": 357160
    },
    {
      "epoch": 0.7441041666666667,
      "grad_norm": 0.86452716588974,
      "learning_rate": 4.6280558983559084e-05,
      "loss": 3.2262,
      "step": 357170
    },
    {
      "epoch": 0.744125,
      "grad_norm": 1.077938199043274,
      "learning_rate": 4.627343727026118e-05,
      "loss": 3.3159,
      "step": 357180
    },
    {
      "epoch": 0.7441458333333333,
      "grad_norm": 0.8590153455734253,
      "learning_rate": 4.626631600502094e-05,
      "loss": 3.4134,
      "step": 357190
    },
    {
      "epoch": 0.7441666666666666,
      "grad_norm": 0.8917959332466125,
      "learning_rate": 4.6259195187869074e-05,
      "loss": 3.5776,
      "step": 357200
    },
    {
      "epoch": 0.7441875,
      "grad_norm": 0.9071102142333984,
      "learning_rate": 4.6252074818836534e-05,
      "loss": 3.3949,
      "step": 357210
    },
    {
      "epoch": 0.7442083333333334,
      "grad_norm": 0.8659717440605164,
      "learning_rate": 4.6244954897953915e-05,
      "loss": 3.3641,
      "step": 357220
    },
    {
      "epoch": 0.7442291666666667,
      "grad_norm": 0.8643897175788879,
      "learning_rate": 4.623783542525197e-05,
      "loss": 3.3994,
      "step": 357230
    },
    {
      "epoch": 0.74425,
      "grad_norm": 0.9135861396789551,
      "learning_rate": 4.623071640076161e-05,
      "loss": 3.3478,
      "step": 357240
    },
    {
      "epoch": 0.7442708333333333,
      "grad_norm": 0.9812136292457581,
      "learning_rate": 4.622359782451343e-05,
      "loss": 3.3736,
      "step": 357250
    },
    {
      "epoch": 0.7442916666666667,
      "grad_norm": 0.8569735288619995,
      "learning_rate": 4.6216479696538235e-05,
      "loss": 3.2453,
      "step": 357260
    },
    {
      "epoch": 0.7443125,
      "grad_norm": 0.8512068390846252,
      "learning_rate": 4.6209362016866745e-05,
      "loss": 3.422,
      "step": 357270
    },
    {
      "epoch": 0.7443333333333333,
      "grad_norm": 0.9175807237625122,
      "learning_rate": 4.6202244785529746e-05,
      "loss": 3.3105,
      "step": 357280
    },
    {
      "epoch": 0.7443541666666667,
      "grad_norm": 0.9461132287979126,
      "learning_rate": 4.6195128002557976e-05,
      "loss": 3.2563,
      "step": 357290
    },
    {
      "epoch": 0.744375,
      "grad_norm": 0.834112823009491,
      "learning_rate": 4.618801166798214e-05,
      "loss": 3.3507,
      "step": 357300
    },
    {
      "epoch": 0.7443958333333334,
      "grad_norm": 0.8864487409591675,
      "learning_rate": 4.6180895781833016e-05,
      "loss": 3.3254,
      "step": 357310
    },
    {
      "epoch": 0.7444166666666666,
      "grad_norm": 0.9068818092346191,
      "learning_rate": 4.6173780344141315e-05,
      "loss": 3.3,
      "step": 357320
    },
    {
      "epoch": 0.7444375,
      "grad_norm": 0.8644272685050964,
      "learning_rate": 4.616666535493779e-05,
      "loss": 3.4349,
      "step": 357330
    },
    {
      "epoch": 0.7444583333333333,
      "grad_norm": 0.9196032881736755,
      "learning_rate": 4.615955081425318e-05,
      "loss": 3.432,
      "step": 357340
    },
    {
      "epoch": 0.7444791666666667,
      "grad_norm": 0.8368602395057678,
      "learning_rate": 4.6152436722118194e-05,
      "loss": 3.2836,
      "step": 357350
    },
    {
      "epoch": 0.7445,
      "grad_norm": 0.903199315071106,
      "learning_rate": 4.6145323078563576e-05,
      "loss": 3.3581,
      "step": 357360
    },
    {
      "epoch": 0.7445208333333333,
      "grad_norm": 0.946995735168457,
      "learning_rate": 4.6138209883620064e-05,
      "loss": 3.2418,
      "step": 357370
    },
    {
      "epoch": 0.7445416666666667,
      "grad_norm": 0.8456692695617676,
      "learning_rate": 4.6131097137318374e-05,
      "loss": 3.2959,
      "step": 357380
    },
    {
      "epoch": 0.7445625,
      "grad_norm": 0.8585171103477478,
      "learning_rate": 4.612398483968923e-05,
      "loss": 3.2585,
      "step": 357390
    },
    {
      "epoch": 0.7445833333333334,
      "grad_norm": 0.8625833988189697,
      "learning_rate": 4.611687299076335e-05,
      "loss": 3.3505,
      "step": 357400
    },
    {
      "epoch": 0.7446041666666666,
      "grad_norm": 0.932846188545227,
      "learning_rate": 4.61097615905715e-05,
      "loss": 3.3461,
      "step": 357410
    },
    {
      "epoch": 0.744625,
      "grad_norm": 0.8441429734230042,
      "learning_rate": 4.6102650639144274e-05,
      "loss": 3.224,
      "step": 357420
    },
    {
      "epoch": 0.7446458333333333,
      "grad_norm": 0.8972185850143433,
      "learning_rate": 4.6095540136512514e-05,
      "loss": 3.344,
      "step": 357430
    },
    {
      "epoch": 0.7446666666666667,
      "grad_norm": 0.7900961637496948,
      "learning_rate": 4.608843008270693e-05,
      "loss": 3.3624,
      "step": 357440
    },
    {
      "epoch": 0.7446875,
      "grad_norm": 0.9010620713233948,
      "learning_rate": 4.608132047775812e-05,
      "loss": 3.2748,
      "step": 357450
    },
    {
      "epoch": 0.7447083333333333,
      "grad_norm": 0.9065337181091309,
      "learning_rate": 4.607421132169692e-05,
      "loss": 3.3518,
      "step": 357460
    },
    {
      "epoch": 0.7447291666666667,
      "grad_norm": 0.9073063135147095,
      "learning_rate": 4.606710261455402e-05,
      "loss": 3.3541,
      "step": 357470
    },
    {
      "epoch": 0.74475,
      "grad_norm": 0.9038334488868713,
      "learning_rate": 4.6059994356360015e-05,
      "loss": 3.4542,
      "step": 357480
    },
    {
      "epoch": 0.7447708333333334,
      "grad_norm": 0.9260914325714111,
      "learning_rate": 4.6052886547145746e-05,
      "loss": 3.4178,
      "step": 357490
    },
    {
      "epoch": 0.7447916666666666,
      "grad_norm": 0.9353485107421875,
      "learning_rate": 4.604577918694189e-05,
      "loss": 3.2964,
      "step": 357500
    },
    {
      "epoch": 0.7448125,
      "grad_norm": 0.9405255317687988,
      "learning_rate": 4.603867227577904e-05,
      "loss": 3.4559,
      "step": 357510
    },
    {
      "epoch": 0.7448333333333333,
      "grad_norm": 1.028280258178711,
      "learning_rate": 4.6031565813688065e-05,
      "loss": 3.3228,
      "step": 357520
    },
    {
      "epoch": 0.7448541666666667,
      "grad_norm": 0.835948646068573,
      "learning_rate": 4.6024459800699514e-05,
      "loss": 3.3704,
      "step": 357530
    },
    {
      "epoch": 0.744875,
      "grad_norm": 0.7949497103691101,
      "learning_rate": 4.601735423684411e-05,
      "loss": 3.4532,
      "step": 357540
    },
    {
      "epoch": 0.7448958333333333,
      "grad_norm": 0.817765474319458,
      "learning_rate": 4.6010249122152664e-05,
      "loss": 3.3131,
      "step": 357550
    },
    {
      "epoch": 0.7449166666666667,
      "grad_norm": 1.0309655666351318,
      "learning_rate": 4.600314445665573e-05,
      "loss": 3.409,
      "step": 357560
    },
    {
      "epoch": 0.7449375,
      "grad_norm": 0.9751832485198975,
      "learning_rate": 4.599604024038401e-05,
      "loss": 3.3575,
      "step": 357570
    },
    {
      "epoch": 0.7449583333333333,
      "grad_norm": 0.9275476336479187,
      "learning_rate": 4.5988936473368314e-05,
      "loss": 3.3322,
      "step": 357580
    },
    {
      "epoch": 0.7449791666666666,
      "grad_norm": 0.8522799015045166,
      "learning_rate": 4.59818331556392e-05,
      "loss": 3.3736,
      "step": 357590
    },
    {
      "epoch": 0.745,
      "grad_norm": 0.8243679404258728,
      "learning_rate": 4.597473028722735e-05,
      "loss": 3.402,
      "step": 357600
    },
    {
      "epoch": 0.7450208333333334,
      "grad_norm": 0.897500216960907,
      "learning_rate": 4.596762786816357e-05,
      "loss": 3.3799,
      "step": 357610
    },
    {
      "epoch": 0.7450416666666667,
      "grad_norm": 0.9673731923103333,
      "learning_rate": 4.596052589847841e-05,
      "loss": 3.3226,
      "step": 357620
    },
    {
      "epoch": 0.7450625,
      "grad_norm": 0.8923869729042053,
      "learning_rate": 4.5953424378202615e-05,
      "loss": 3.2692,
      "step": 357630
    },
    {
      "epoch": 0.7450833333333333,
      "grad_norm": 0.8400911092758179,
      "learning_rate": 4.594632330736682e-05,
      "loss": 3.3253,
      "step": 357640
    },
    {
      "epoch": 0.7451041666666667,
      "grad_norm": 0.7915557026863098,
      "learning_rate": 4.5939222686001734e-05,
      "loss": 3.3455,
      "step": 357650
    },
    {
      "epoch": 0.745125,
      "grad_norm": 0.8750297427177429,
      "learning_rate": 4.5932122514138015e-05,
      "loss": 3.397,
      "step": 357660
    },
    {
      "epoch": 0.7451458333333333,
      "grad_norm": 0.8179912567138672,
      "learning_rate": 4.592502279180634e-05,
      "loss": 3.2881,
      "step": 357670
    },
    {
      "epoch": 0.7451666666666666,
      "grad_norm": 0.8961542844772339,
      "learning_rate": 4.591792351903736e-05,
      "loss": 3.3743,
      "step": 357680
    },
    {
      "epoch": 0.7451875,
      "grad_norm": 0.8245762586593628,
      "learning_rate": 4.591082469586175e-05,
      "loss": 3.5036,
      "step": 357690
    },
    {
      "epoch": 0.7452083333333334,
      "grad_norm": 0.8412088751792908,
      "learning_rate": 4.590372632231019e-05,
      "loss": 3.3204,
      "step": 357700
    },
    {
      "epoch": 0.7452291666666667,
      "grad_norm": 0.8747566938400269,
      "learning_rate": 4.589662839841332e-05,
      "loss": 3.3169,
      "step": 357710
    },
    {
      "epoch": 0.74525,
      "grad_norm": 0.8578709959983826,
      "learning_rate": 4.58895309242018e-05,
      "loss": 3.3127,
      "step": 357720
    },
    {
      "epoch": 0.7452708333333333,
      "grad_norm": 0.8308212757110596,
      "learning_rate": 4.588243389970632e-05,
      "loss": 3.3114,
      "step": 357730
    },
    {
      "epoch": 0.7452916666666667,
      "grad_norm": 1.0334551334381104,
      "learning_rate": 4.587533732495749e-05,
      "loss": 3.416,
      "step": 357740
    },
    {
      "epoch": 0.7453125,
      "grad_norm": 0.9623312950134277,
      "learning_rate": 4.5868241199986045e-05,
      "loss": 3.4622,
      "step": 357750
    },
    {
      "epoch": 0.7453333333333333,
      "grad_norm": 0.9282097220420837,
      "learning_rate": 4.586114552482249e-05,
      "loss": 3.4441,
      "step": 357760
    },
    {
      "epoch": 0.7453541666666667,
      "grad_norm": 0.9812553524971008,
      "learning_rate": 4.5854050299497604e-05,
      "loss": 3.3279,
      "step": 357770
    },
    {
      "epoch": 0.745375,
      "grad_norm": 0.8372989296913147,
      "learning_rate": 4.584695552404204e-05,
      "loss": 3.3062,
      "step": 357780
    },
    {
      "epoch": 0.7453958333333334,
      "grad_norm": 0.9033677577972412,
      "learning_rate": 4.583986119848631e-05,
      "loss": 3.3801,
      "step": 357790
    },
    {
      "epoch": 0.7454166666666666,
      "grad_norm": 0.8106141090393066,
      "learning_rate": 4.5832767322861206e-05,
      "loss": 3.2482,
      "step": 357800
    },
    {
      "epoch": 0.7454375,
      "grad_norm": 0.9200114011764526,
      "learning_rate": 4.582567389719736e-05,
      "loss": 3.3582,
      "step": 357810
    },
    {
      "epoch": 0.7454583333333333,
      "grad_norm": 0.8370185494422913,
      "learning_rate": 4.581858092152527e-05,
      "loss": 3.3794,
      "step": 357820
    },
    {
      "epoch": 0.7454791666666667,
      "grad_norm": 0.9399173855781555,
      "learning_rate": 4.581148839587571e-05,
      "loss": 3.2206,
      "step": 357830
    },
    {
      "epoch": 0.7455,
      "grad_norm": 0.8934924006462097,
      "learning_rate": 4.580439632027933e-05,
      "loss": 3.2376,
      "step": 357840
    },
    {
      "epoch": 0.7455208333333333,
      "grad_norm": 0.9064852595329285,
      "learning_rate": 4.5797304694766626e-05,
      "loss": 3.3618,
      "step": 357850
    },
    {
      "epoch": 0.7455416666666667,
      "grad_norm": 0.9998471736907959,
      "learning_rate": 4.579021351936837e-05,
      "loss": 3.3273,
      "step": 357860
    },
    {
      "epoch": 0.7455625,
      "grad_norm": 0.7981839776039124,
      "learning_rate": 4.578312279411519e-05,
      "loss": 3.3602,
      "step": 357870
    },
    {
      "epoch": 0.7455833333333334,
      "grad_norm": 0.8278317451477051,
      "learning_rate": 4.577603251903757e-05,
      "loss": 3.4537,
      "step": 357880
    },
    {
      "epoch": 0.7456041666666666,
      "grad_norm": 0.8204671740531921,
      "learning_rate": 4.576894269416633e-05,
      "loss": 3.2907,
      "step": 357890
    },
    {
      "epoch": 0.745625,
      "grad_norm": 0.8773491382598877,
      "learning_rate": 4.576185331953194e-05,
      "loss": 3.2876,
      "step": 357900
    },
    {
      "epoch": 0.7456458333333333,
      "grad_norm": 0.8766289353370667,
      "learning_rate": 4.575476439516506e-05,
      "loss": 3.2622,
      "step": 357910
    },
    {
      "epoch": 0.7456666666666667,
      "grad_norm": 0.8162040114402771,
      "learning_rate": 4.574767592109641e-05,
      "loss": 3.3668,
      "step": 357920
    },
    {
      "epoch": 0.7456875,
      "grad_norm": 0.9263522624969482,
      "learning_rate": 4.57405878973565e-05,
      "loss": 3.3261,
      "step": 357930
    },
    {
      "epoch": 0.7457083333333333,
      "grad_norm": 0.8115265369415283,
      "learning_rate": 4.5733500323975925e-05,
      "loss": 3.2968,
      "step": 357940
    },
    {
      "epoch": 0.7457291666666667,
      "grad_norm": 0.8194252848625183,
      "learning_rate": 4.5726413200985454e-05,
      "loss": 3.3292,
      "step": 357950
    },
    {
      "epoch": 0.74575,
      "grad_norm": 0.8871599435806274,
      "learning_rate": 4.5719326528415554e-05,
      "loss": 3.3111,
      "step": 357960
    },
    {
      "epoch": 0.7457708333333334,
      "grad_norm": 1.1854865550994873,
      "learning_rate": 4.5712240306296846e-05,
      "loss": 3.3281,
      "step": 357970
    },
    {
      "epoch": 0.7457916666666666,
      "grad_norm": 0.8519169688224792,
      "learning_rate": 4.5705154534660076e-05,
      "loss": 3.3541,
      "step": 357980
    },
    {
      "epoch": 0.7458125,
      "grad_norm": 0.8070206046104431,
      "learning_rate": 4.5698069213535695e-05,
      "loss": 3.3622,
      "step": 357990
    },
    {
      "epoch": 0.7458333333333333,
      "grad_norm": 0.8024068474769592,
      "learning_rate": 4.5690984342954373e-05,
      "loss": 3.4342,
      "step": 358000
    },
    {
      "epoch": 0.7458333333333333,
      "eval_loss": 4.054505348205566,
      "eval_runtime": 8.7413,
      "eval_samples_per_second": 1.144,
      "eval_steps_per_second": 0.343,
      "step": 358000
    },
    {
      "epoch": 0.7458541666666667,
      "grad_norm": 0.9080142974853516,
      "learning_rate": 4.5683899922946725e-05,
      "loss": 3.2407,
      "step": 358010
    },
    {
      "epoch": 0.745875,
      "grad_norm": 0.9479826092720032,
      "learning_rate": 4.567681595354332e-05,
      "loss": 3.3496,
      "step": 358020
    },
    {
      "epoch": 0.7458958333333333,
      "grad_norm": 0.869330108165741,
      "learning_rate": 4.566973243477478e-05,
      "loss": 3.2165,
      "step": 358030
    },
    {
      "epoch": 0.7459166666666667,
      "grad_norm": 0.8884238004684448,
      "learning_rate": 4.566264936667171e-05,
      "loss": 3.268,
      "step": 358040
    },
    {
      "epoch": 0.7459375,
      "grad_norm": 0.8627751469612122,
      "learning_rate": 4.565556674926468e-05,
      "loss": 3.2251,
      "step": 358050
    },
    {
      "epoch": 0.7459583333333333,
      "grad_norm": 0.9109436869621277,
      "learning_rate": 4.564848458258431e-05,
      "loss": 3.3548,
      "step": 358060
    },
    {
      "epoch": 0.7459791666666666,
      "grad_norm": 0.8372489213943481,
      "learning_rate": 4.5641402866661186e-05,
      "loss": 3.2811,
      "step": 358070
    },
    {
      "epoch": 0.746,
      "grad_norm": 0.9035660624504089,
      "learning_rate": 4.5634321601525884e-05,
      "loss": 3.3877,
      "step": 358080
    },
    {
      "epoch": 0.7460208333333334,
      "grad_norm": 0.8293914198875427,
      "learning_rate": 4.5627240787209e-05,
      "loss": 3.3043,
      "step": 358090
    },
    {
      "epoch": 0.7460416666666667,
      "grad_norm": 0.7897348999977112,
      "learning_rate": 4.5620160423741125e-05,
      "loss": 3.3,
      "step": 358100
    },
    {
      "epoch": 0.7460625,
      "grad_norm": 0.9304989576339722,
      "learning_rate": 4.561308051115285e-05,
      "loss": 3.4052,
      "step": 358110
    },
    {
      "epoch": 0.7460833333333333,
      "grad_norm": 0.8427630066871643,
      "learning_rate": 4.560600104947478e-05,
      "loss": 3.2991,
      "step": 358120
    },
    {
      "epoch": 0.7461041666666667,
      "grad_norm": 1.0058050155639648,
      "learning_rate": 4.5598922038737387e-05,
      "loss": 3.3648,
      "step": 358130
    },
    {
      "epoch": 0.746125,
      "grad_norm": 0.9887833595275879,
      "learning_rate": 4.5591843478971365e-05,
      "loss": 3.2679,
      "step": 358140
    },
    {
      "epoch": 0.7461458333333333,
      "grad_norm": 0.8605341911315918,
      "learning_rate": 4.558476537020729e-05,
      "loss": 3.3072,
      "step": 358150
    },
    {
      "epoch": 0.7461666666666666,
      "grad_norm": 0.918168306350708,
      "learning_rate": 4.5577687712475604e-05,
      "loss": 3.4151,
      "step": 358160
    },
    {
      "epoch": 0.7461875,
      "grad_norm": 0.8314031362533569,
      "learning_rate": 4.557061050580703e-05,
      "loss": 3.2793,
      "step": 358170
    },
    {
      "epoch": 0.7462083333333334,
      "grad_norm": 0.8285293579101562,
      "learning_rate": 4.556353375023212e-05,
      "loss": 3.3237,
      "step": 358180
    },
    {
      "epoch": 0.7462291666666667,
      "grad_norm": 0.9475377202033997,
      "learning_rate": 4.5556457445781316e-05,
      "loss": 3.2563,
      "step": 358190
    },
    {
      "epoch": 0.74625,
      "grad_norm": 0.8871282339096069,
      "learning_rate": 4.5549381592485326e-05,
      "loss": 3.2119,
      "step": 358200
    },
    {
      "epoch": 0.7462708333333333,
      "grad_norm": 0.7725692391395569,
      "learning_rate": 4.554230619037471e-05,
      "loss": 3.3553,
      "step": 358210
    },
    {
      "epoch": 0.7462916666666667,
      "grad_norm": 0.9175360798835754,
      "learning_rate": 4.553523123947989e-05,
      "loss": 3.3237,
      "step": 358220
    },
    {
      "epoch": 0.7463125,
      "grad_norm": 0.8110953569412231,
      "learning_rate": 4.5528156739831565e-05,
      "loss": 3.3751,
      "step": 358230
    },
    {
      "epoch": 0.7463333333333333,
      "grad_norm": 0.9183827638626099,
      "learning_rate": 4.55210826914603e-05,
      "loss": 3.4351,
      "step": 358240
    },
    {
      "epoch": 0.7463541666666667,
      "grad_norm": 0.8237185478210449,
      "learning_rate": 4.5514009094396506e-05,
      "loss": 3.4194,
      "step": 358250
    },
    {
      "epoch": 0.746375,
      "grad_norm": 0.8622360229492188,
      "learning_rate": 4.5506935948670916e-05,
      "loss": 3.2253,
      "step": 358260
    },
    {
      "epoch": 0.7463958333333334,
      "grad_norm": 0.8633232712745667,
      "learning_rate": 4.549986325431397e-05,
      "loss": 3.3459,
      "step": 358270
    },
    {
      "epoch": 0.7464166666666666,
      "grad_norm": 0.9485923647880554,
      "learning_rate": 4.549279101135619e-05,
      "loss": 3.3259,
      "step": 358280
    },
    {
      "epoch": 0.7464375,
      "grad_norm": 0.8618194460868835,
      "learning_rate": 4.548571921982831e-05,
      "loss": 3.363,
      "step": 358290
    },
    {
      "epoch": 0.7464583333333333,
      "grad_norm": 0.8707998991012573,
      "learning_rate": 4.547864787976068e-05,
      "loss": 3.3483,
      "step": 358300
    },
    {
      "epoch": 0.7464791666666667,
      "grad_norm": 0.9935437440872192,
      "learning_rate": 4.547157699118392e-05,
      "loss": 3.3261,
      "step": 358310
    },
    {
      "epoch": 0.7465,
      "grad_norm": 0.8870894908905029,
      "learning_rate": 4.546450655412859e-05,
      "loss": 3.4374,
      "step": 358320
    },
    {
      "epoch": 0.7465208333333333,
      "grad_norm": 0.9350936412811279,
      "learning_rate": 4.54574365686252e-05,
      "loss": 3.3587,
      "step": 358330
    },
    {
      "epoch": 0.7465416666666667,
      "grad_norm": 0.9132096767425537,
      "learning_rate": 4.54503670347043e-05,
      "loss": 3.3766,
      "step": 358340
    },
    {
      "epoch": 0.7465625,
      "grad_norm": 0.8915956020355225,
      "learning_rate": 4.544329795239643e-05,
      "loss": 3.3768,
      "step": 358350
    },
    {
      "epoch": 0.7465833333333334,
      "grad_norm": 0.870202898979187,
      "learning_rate": 4.543622932173213e-05,
      "loss": 3.2931,
      "step": 358360
    },
    {
      "epoch": 0.7466041666666666,
      "grad_norm": 0.9344332218170166,
      "learning_rate": 4.542916114274193e-05,
      "loss": 3.3538,
      "step": 358370
    },
    {
      "epoch": 0.746625,
      "grad_norm": 0.8767508268356323,
      "learning_rate": 4.542209341545637e-05,
      "loss": 3.3249,
      "step": 358380
    },
    {
      "epoch": 0.7466458333333333,
      "grad_norm": 0.8506255745887756,
      "learning_rate": 4.5415026139905966e-05,
      "loss": 3.2331,
      "step": 358390
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 0.8354310989379883,
      "learning_rate": 4.5407959316121245e-05,
      "loss": 3.353,
      "step": 358400
    },
    {
      "epoch": 0.7466875,
      "grad_norm": 0.8828881978988647,
      "learning_rate": 4.5400892944132744e-05,
      "loss": 3.4121,
      "step": 358410
    },
    {
      "epoch": 0.7467083333333333,
      "grad_norm": 0.9609333276748657,
      "learning_rate": 4.5393827023970984e-05,
      "loss": 3.3617,
      "step": 358420
    },
    {
      "epoch": 0.7467291666666667,
      "grad_norm": 0.8054623603820801,
      "learning_rate": 4.538676155566648e-05,
      "loss": 3.2479,
      "step": 358430
    },
    {
      "epoch": 0.74675,
      "grad_norm": 0.9138787984848022,
      "learning_rate": 4.537969653924977e-05,
      "loss": 3.2615,
      "step": 358440
    },
    {
      "epoch": 0.7467708333333334,
      "grad_norm": 0.9092470407485962,
      "learning_rate": 4.537263197475134e-05,
      "loss": 3.3933,
      "step": 358450
    },
    {
      "epoch": 0.7467916666666666,
      "grad_norm": 0.9013830423355103,
      "learning_rate": 4.536556786220174e-05,
      "loss": 3.2018,
      "step": 358460
    },
    {
      "epoch": 0.7468125,
      "grad_norm": 0.9019551873207092,
      "learning_rate": 4.5358504201631464e-05,
      "loss": 3.3496,
      "step": 358470
    },
    {
      "epoch": 0.7468333333333333,
      "grad_norm": 0.9574363827705383,
      "learning_rate": 4.535144099307103e-05,
      "loss": 3.3662,
      "step": 358480
    },
    {
      "epoch": 0.7468541666666667,
      "grad_norm": 1.035208821296692,
      "learning_rate": 4.534437823655096e-05,
      "loss": 3.3413,
      "step": 358490
    },
    {
      "epoch": 0.746875,
      "grad_norm": 0.9812104105949402,
      "learning_rate": 4.5337315932101745e-05,
      "loss": 3.3093,
      "step": 358500
    },
    {
      "epoch": 0.7468958333333333,
      "grad_norm": 0.8682315349578857,
      "learning_rate": 4.533025407975389e-05,
      "loss": 3.3928,
      "step": 358510
    },
    {
      "epoch": 0.7469166666666667,
      "grad_norm": 0.8894244432449341,
      "learning_rate": 4.532319267953795e-05,
      "loss": 3.2403,
      "step": 358520
    },
    {
      "epoch": 0.7469375,
      "grad_norm": 0.9657630324363708,
      "learning_rate": 4.531613173148429e-05,
      "loss": 3.3199,
      "step": 358530
    },
    {
      "epoch": 0.7469583333333333,
      "grad_norm": 0.9283544421195984,
      "learning_rate": 4.530907123562356e-05,
      "loss": 3.4167,
      "step": 358540
    },
    {
      "epoch": 0.7469791666666666,
      "grad_norm": 0.9424809813499451,
      "learning_rate": 4.5302011191986256e-05,
      "loss": 3.3801,
      "step": 358550
    },
    {
      "epoch": 0.747,
      "grad_norm": 0.8455378413200378,
      "learning_rate": 4.5294951600602716e-05,
      "loss": 3.3959,
      "step": 358560
    },
    {
      "epoch": 0.7470208333333334,
      "grad_norm": 0.7778525948524475,
      "learning_rate": 4.5287892461503586e-05,
      "loss": 3.2866,
      "step": 358570
    },
    {
      "epoch": 0.7470416666666667,
      "grad_norm": 0.914915919303894,
      "learning_rate": 4.528083377471936e-05,
      "loss": 3.329,
      "step": 358580
    },
    {
      "epoch": 0.7470625,
      "grad_norm": 0.8490973711013794,
      "learning_rate": 4.527377554028044e-05,
      "loss": 3.3736,
      "step": 358590
    },
    {
      "epoch": 0.7470833333333333,
      "grad_norm": 0.9831069707870483,
      "learning_rate": 4.526671775821729e-05,
      "loss": 3.4148,
      "step": 358600
    },
    {
      "epoch": 0.7471041666666667,
      "grad_norm": 0.8788502216339111,
      "learning_rate": 4.5259660428560575e-05,
      "loss": 3.3078,
      "step": 358610
    },
    {
      "epoch": 0.747125,
      "grad_norm": 0.8157910108566284,
      "learning_rate": 4.5252603551340626e-05,
      "loss": 3.369,
      "step": 358620
    },
    {
      "epoch": 0.7471458333333333,
      "grad_norm": 0.8949646949768066,
      "learning_rate": 4.5245547126587964e-05,
      "loss": 3.328,
      "step": 358630
    },
    {
      "epoch": 0.7471666666666666,
      "grad_norm": 1.227476716041565,
      "learning_rate": 4.523849115433307e-05,
      "loss": 3.4562,
      "step": 358640
    },
    {
      "epoch": 0.7471875,
      "grad_norm": 0.7703750729560852,
      "learning_rate": 4.523143563460642e-05,
      "loss": 3.393,
      "step": 358650
    },
    {
      "epoch": 0.7472083333333334,
      "grad_norm": 0.8727350234985352,
      "learning_rate": 4.5224380567438504e-05,
      "loss": 3.3201,
      "step": 358660
    },
    {
      "epoch": 0.7472291666666667,
      "grad_norm": 0.9131765961647034,
      "learning_rate": 4.5217325952859794e-05,
      "loss": 3.333,
      "step": 358670
    },
    {
      "epoch": 0.74725,
      "grad_norm": 0.8582425117492676,
      "learning_rate": 4.521027179090075e-05,
      "loss": 3.2683,
      "step": 358680
    },
    {
      "epoch": 0.7472708333333333,
      "grad_norm": 0.8525033593177795,
      "learning_rate": 4.520321808159187e-05,
      "loss": 3.3045,
      "step": 358690
    },
    {
      "epoch": 0.7472916666666667,
      "grad_norm": 0.9883189797401428,
      "learning_rate": 4.519616482496358e-05,
      "loss": 3.415,
      "step": 358700
    },
    {
      "epoch": 0.7473125,
      "grad_norm": 0.9937688112258911,
      "learning_rate": 4.51891120210464e-05,
      "loss": 3.2495,
      "step": 358710
    },
    {
      "epoch": 0.7473333333333333,
      "grad_norm": 1.0066701173782349,
      "learning_rate": 4.518205966987076e-05,
      "loss": 3.3862,
      "step": 358720
    },
    {
      "epoch": 0.7473541666666667,
      "grad_norm": 0.8697981238365173,
      "learning_rate": 4.517500777146714e-05,
      "loss": 3.1853,
      "step": 358730
    },
    {
      "epoch": 0.747375,
      "grad_norm": 0.9396805167198181,
      "learning_rate": 4.516795632586598e-05,
      "loss": 3.3248,
      "step": 358740
    },
    {
      "epoch": 0.7473958333333334,
      "grad_norm": 0.8561215400695801,
      "learning_rate": 4.5160905333097757e-05,
      "loss": 3.2974,
      "step": 358750
    },
    {
      "epoch": 0.7474166666666666,
      "grad_norm": 0.8672378659248352,
      "learning_rate": 4.515385479319292e-05,
      "loss": 3.3317,
      "step": 358760
    },
    {
      "epoch": 0.7474375,
      "grad_norm": 0.8433921933174133,
      "learning_rate": 4.514680470618195e-05,
      "loss": 3.2195,
      "step": 358770
    },
    {
      "epoch": 0.7474583333333333,
      "grad_norm": 0.9126984477043152,
      "learning_rate": 4.5139755072095265e-05,
      "loss": 3.4052,
      "step": 358780
    },
    {
      "epoch": 0.7474791666666667,
      "grad_norm": 0.8602916598320007,
      "learning_rate": 4.513270589096332e-05,
      "loss": 3.4596,
      "step": 358790
    },
    {
      "epoch": 0.7475,
      "grad_norm": 0.9361031651496887,
      "learning_rate": 4.512565716281659e-05,
      "loss": 3.3632,
      "step": 358800
    },
    {
      "epoch": 0.7475208333333333,
      "grad_norm": 0.858305037021637,
      "learning_rate": 4.5118608887685515e-05,
      "loss": 3.4289,
      "step": 358810
    },
    {
      "epoch": 0.7475416666666667,
      "grad_norm": 0.9215031862258911,
      "learning_rate": 4.511156106560052e-05,
      "loss": 3.3072,
      "step": 358820
    },
    {
      "epoch": 0.7475625,
      "grad_norm": 1.243056058883667,
      "learning_rate": 4.510451369659208e-05,
      "loss": 3.3248,
      "step": 358830
    },
    {
      "epoch": 0.7475833333333334,
      "grad_norm": 0.9087489247322083,
      "learning_rate": 4.50974667806906e-05,
      "loss": 3.3769,
      "step": 358840
    },
    {
      "epoch": 0.7476041666666666,
      "grad_norm": 0.927150547504425,
      "learning_rate": 4.509042031792656e-05,
      "loss": 3.3513,
      "step": 358850
    },
    {
      "epoch": 0.747625,
      "grad_norm": 0.8442478775978088,
      "learning_rate": 4.508337430833036e-05,
      "loss": 3.3563,
      "step": 358860
    },
    {
      "epoch": 0.7476458333333333,
      "grad_norm": 0.839726448059082,
      "learning_rate": 4.507632875193246e-05,
      "loss": 3.2444,
      "step": 358870
    },
    {
      "epoch": 0.7476666666666667,
      "grad_norm": 0.8277554512023926,
      "learning_rate": 4.5069283648763296e-05,
      "loss": 3.3645,
      "step": 358880
    },
    {
      "epoch": 0.7476875,
      "grad_norm": 0.8972497582435608,
      "learning_rate": 4.506223899885333e-05,
      "loss": 3.2945,
      "step": 358890
    },
    {
      "epoch": 0.7477083333333333,
      "grad_norm": 0.9241492748260498,
      "learning_rate": 4.5055194802232926e-05,
      "loss": 3.2333,
      "step": 358900
    },
    {
      "epoch": 0.7477291666666667,
      "grad_norm": 0.8813464641571045,
      "learning_rate": 4.504815105893248e-05,
      "loss": 3.3332,
      "step": 358910
    },
    {
      "epoch": 0.74775,
      "grad_norm": 0.9297031164169312,
      "learning_rate": 4.504110776898256e-05,
      "loss": 3.2255,
      "step": 358920
    },
    {
      "epoch": 0.7477708333333334,
      "grad_norm": 0.8804461359977722,
      "learning_rate": 4.503406493241349e-05,
      "loss": 3.362,
      "step": 358930
    },
    {
      "epoch": 0.7477916666666666,
      "grad_norm": 0.826179027557373,
      "learning_rate": 4.502702254925564e-05,
      "loss": 3.3637,
      "step": 358940
    },
    {
      "epoch": 0.7478125,
      "grad_norm": 0.9283206462860107,
      "learning_rate": 4.5019980619539594e-05,
      "loss": 3.3622,
      "step": 358950
    },
    {
      "epoch": 0.7478333333333333,
      "grad_norm": 0.843375563621521,
      "learning_rate": 4.5012939143295644e-05,
      "loss": 3.3351,
      "step": 358960
    },
    {
      "epoch": 0.7478541666666667,
      "grad_norm": 0.8663636445999146,
      "learning_rate": 4.50058981205542e-05,
      "loss": 3.3808,
      "step": 358970
    },
    {
      "epoch": 0.747875,
      "grad_norm": 0.866066038608551,
      "learning_rate": 4.499885755134579e-05,
      "loss": 3.4307,
      "step": 358980
    },
    {
      "epoch": 0.7478958333333333,
      "grad_norm": 0.9265855550765991,
      "learning_rate": 4.499181743570072e-05,
      "loss": 3.3727,
      "step": 358990
    },
    {
      "epoch": 0.7479166666666667,
      "grad_norm": 0.950812816619873,
      "learning_rate": 4.498477777364938e-05,
      "loss": 3.3518,
      "step": 359000
    },
    {
      "epoch": 0.7479166666666667,
      "eval_loss": 4.058545112609863,
      "eval_runtime": 9.1152,
      "eval_samples_per_second": 1.097,
      "eval_steps_per_second": 0.329,
      "step": 359000
    },
    {
      "epoch": 0.7479375,
      "grad_norm": 0.9020420908927917,
      "learning_rate": 4.497773856522233e-05,
      "loss": 3.3245,
      "step": 359010
    },
    {
      "epoch": 0.7479583333333333,
      "grad_norm": 0.7919903993606567,
      "learning_rate": 4.497069981044983e-05,
      "loss": 3.3801,
      "step": 359020
    },
    {
      "epoch": 0.7479791666666666,
      "grad_norm": 0.8973686695098877,
      "learning_rate": 4.496366150936233e-05,
      "loss": 3.3239,
      "step": 359030
    },
    {
      "epoch": 0.748,
      "grad_norm": 0.981245756149292,
      "learning_rate": 4.495662366199025e-05,
      "loss": 3.3615,
      "step": 359040
    },
    {
      "epoch": 0.7480208333333334,
      "grad_norm": 0.860940158367157,
      "learning_rate": 4.494958626836396e-05,
      "loss": 3.33,
      "step": 359050
    },
    {
      "epoch": 0.7480416666666667,
      "grad_norm": 0.9134164452552795,
      "learning_rate": 4.494254932851388e-05,
      "loss": 3.304,
      "step": 359060
    },
    {
      "epoch": 0.7480625,
      "grad_norm": 0.829757034778595,
      "learning_rate": 4.49355128424704e-05,
      "loss": 3.346,
      "step": 359070
    },
    {
      "epoch": 0.7480833333333333,
      "grad_norm": 0.9253338575363159,
      "learning_rate": 4.492847681026392e-05,
      "loss": 3.2277,
      "step": 359080
    },
    {
      "epoch": 0.7481041666666667,
      "grad_norm": 0.8684383630752563,
      "learning_rate": 4.492144123192483e-05,
      "loss": 3.4213,
      "step": 359090
    },
    {
      "epoch": 0.748125,
      "grad_norm": 0.980237603187561,
      "learning_rate": 4.491440610748353e-05,
      "loss": 3.4281,
      "step": 359100
    },
    {
      "epoch": 0.7481458333333333,
      "grad_norm": 0.8702089786529541,
      "learning_rate": 4.490737143697039e-05,
      "loss": 3.3005,
      "step": 359110
    },
    {
      "epoch": 0.7481666666666666,
      "grad_norm": 0.9518822431564331,
      "learning_rate": 4.4900337220415804e-05,
      "loss": 3.4107,
      "step": 359120
    },
    {
      "epoch": 0.7481875,
      "grad_norm": 0.8197119832038879,
      "learning_rate": 4.489330345785017e-05,
      "loss": 3.3519,
      "step": 359130
    },
    {
      "epoch": 0.7482083333333334,
      "grad_norm": 0.9920734763145447,
      "learning_rate": 4.488627014930385e-05,
      "loss": 3.3502,
      "step": 359140
    },
    {
      "epoch": 0.7482291666666666,
      "grad_norm": 0.8395261764526367,
      "learning_rate": 4.4879237294807246e-05,
      "loss": 3.4932,
      "step": 359150
    },
    {
      "epoch": 0.74825,
      "grad_norm": 0.9047378301620483,
      "learning_rate": 4.487220489439072e-05,
      "loss": 3.4162,
      "step": 359160
    },
    {
      "epoch": 0.7482708333333333,
      "grad_norm": 0.8673428297042847,
      "learning_rate": 4.486517294808467e-05,
      "loss": 3.2624,
      "step": 359170
    },
    {
      "epoch": 0.7482916666666667,
      "grad_norm": 0.8170359134674072,
      "learning_rate": 4.4858141455919484e-05,
      "loss": 3.3108,
      "step": 359180
    },
    {
      "epoch": 0.7483125,
      "grad_norm": 0.9009798169136047,
      "learning_rate": 4.485111041792543e-05,
      "loss": 3.2975,
      "step": 359190
    },
    {
      "epoch": 0.7483333333333333,
      "grad_norm": 0.9006521105766296,
      "learning_rate": 4.4844079834133004e-05,
      "loss": 3.383,
      "step": 359200
    },
    {
      "epoch": 0.7483541666666667,
      "grad_norm": 0.870065450668335,
      "learning_rate": 4.483704970457256e-05,
      "loss": 3.2778,
      "step": 359210
    },
    {
      "epoch": 0.748375,
      "grad_norm": 0.8401590585708618,
      "learning_rate": 4.483002002927436e-05,
      "loss": 3.2412,
      "step": 359220
    },
    {
      "epoch": 0.7483958333333334,
      "grad_norm": 0.7938025593757629,
      "learning_rate": 4.4822990808268884e-05,
      "loss": 3.4086,
      "step": 359230
    },
    {
      "epoch": 0.7484166666666666,
      "grad_norm": 0.8397560119628906,
      "learning_rate": 4.48159620415865e-05,
      "loss": 3.4172,
      "step": 359240
    },
    {
      "epoch": 0.7484375,
      "grad_norm": 0.8535043001174927,
      "learning_rate": 4.480893372925744e-05,
      "loss": 3.442,
      "step": 359250
    },
    {
      "epoch": 0.7484583333333333,
      "grad_norm": 0.828397810459137,
      "learning_rate": 4.480190587131223e-05,
      "loss": 3.2731,
      "step": 359260
    },
    {
      "epoch": 0.7484791666666667,
      "grad_norm": 1.1188105344772339,
      "learning_rate": 4.47948784677811e-05,
      "loss": 3.4542,
      "step": 359270
    },
    {
      "epoch": 0.7485,
      "grad_norm": 0.9519238471984863,
      "learning_rate": 4.4787851518694426e-05,
      "loss": 3.3472,
      "step": 359280
    },
    {
      "epoch": 0.7485208333333333,
      "grad_norm": 0.9377766251564026,
      "learning_rate": 4.478082502408266e-05,
      "loss": 3.3478,
      "step": 359290
    },
    {
      "epoch": 0.7485416666666667,
      "grad_norm": 0.8483349084854126,
      "learning_rate": 4.4773798983976046e-05,
      "loss": 3.2965,
      "step": 359300
    },
    {
      "epoch": 0.7485625,
      "grad_norm": 0.9440303444862366,
      "learning_rate": 4.476677339840492e-05,
      "loss": 3.4476,
      "step": 359310
    },
    {
      "epoch": 0.7485833333333334,
      "grad_norm": 0.8973612785339355,
      "learning_rate": 4.4759748267399766e-05,
      "loss": 3.1601,
      "step": 359320
    },
    {
      "epoch": 0.7486041666666666,
      "grad_norm": 0.8305772542953491,
      "learning_rate": 4.4752723590990804e-05,
      "loss": 3.3836,
      "step": 359330
    },
    {
      "epoch": 0.748625,
      "grad_norm": 0.7834162712097168,
      "learning_rate": 4.474569936920836e-05,
      "loss": 3.3485,
      "step": 359340
    },
    {
      "epoch": 0.7486458333333333,
      "grad_norm": 1.0739555358886719,
      "learning_rate": 4.473867560208293e-05,
      "loss": 3.3968,
      "step": 359350
    },
    {
      "epoch": 0.7486666666666667,
      "grad_norm": 0.9154654741287231,
      "learning_rate": 4.473165228964472e-05,
      "loss": 3.29,
      "step": 359360
    },
    {
      "epoch": 0.7486875,
      "grad_norm": 0.8592135310173035,
      "learning_rate": 4.472462943192404e-05,
      "loss": 3.4369,
      "step": 359370
    },
    {
      "epoch": 0.7487083333333333,
      "grad_norm": 0.8334702253341675,
      "learning_rate": 4.471760702895138e-05,
      "loss": 3.3304,
      "step": 359380
    },
    {
      "epoch": 0.7487291666666667,
      "grad_norm": 0.9147858619689941,
      "learning_rate": 4.471058508075696e-05,
      "loss": 3.3127,
      "step": 359390
    },
    {
      "epoch": 0.74875,
      "grad_norm": 0.9108949303627014,
      "learning_rate": 4.470356358737113e-05,
      "loss": 3.1694,
      "step": 359400
    },
    {
      "epoch": 0.7487708333333334,
      "grad_norm": 0.9070017337799072,
      "learning_rate": 4.469654254882421e-05,
      "loss": 3.1865,
      "step": 359410
    },
    {
      "epoch": 0.7487916666666666,
      "grad_norm": 0.9534200429916382,
      "learning_rate": 4.468952196514655e-05,
      "loss": 3.4084,
      "step": 359420
    },
    {
      "epoch": 0.7488125,
      "grad_norm": 0.9333054423332214,
      "learning_rate": 4.468250183636848e-05,
      "loss": 3.3651,
      "step": 359430
    },
    {
      "epoch": 0.7488333333333334,
      "grad_norm": 0.9041448831558228,
      "learning_rate": 4.4675482162520313e-05,
      "loss": 3.4656,
      "step": 359440
    },
    {
      "epoch": 0.7488541666666667,
      "grad_norm": 0.8383223414421082,
      "learning_rate": 4.466846294363237e-05,
      "loss": 3.4261,
      "step": 359450
    },
    {
      "epoch": 0.748875,
      "grad_norm": 0.8638505339622498,
      "learning_rate": 4.466144417973497e-05,
      "loss": 3.3941,
      "step": 359460
    },
    {
      "epoch": 0.7488958333333333,
      "grad_norm": 1.1238281726837158,
      "learning_rate": 4.4654425870858445e-05,
      "loss": 3.2776,
      "step": 359470
    },
    {
      "epoch": 0.7489166666666667,
      "grad_norm": 0.8193032145500183,
      "learning_rate": 4.4647408017033084e-05,
      "loss": 3.3459,
      "step": 359480
    },
    {
      "epoch": 0.7489375,
      "grad_norm": 0.967190146446228,
      "learning_rate": 4.4640390618289274e-05,
      "loss": 3.3823,
      "step": 359490
    },
    {
      "epoch": 0.7489583333333333,
      "grad_norm": 0.963228166103363,
      "learning_rate": 4.463337367465718e-05,
      "loss": 3.303,
      "step": 359500
    },
    {
      "epoch": 0.7489791666666666,
      "grad_norm": 0.9556902647018433,
      "learning_rate": 4.462635718616726e-05,
      "loss": 3.3463,
      "step": 359510
    },
    {
      "epoch": 0.749,
      "grad_norm": 0.8878037333488464,
      "learning_rate": 4.4619341152849806e-05,
      "loss": 3.332,
      "step": 359520
    },
    {
      "epoch": 0.7490208333333334,
      "grad_norm": 1.1261626482009888,
      "learning_rate": 4.4612325574735e-05,
      "loss": 3.337,
      "step": 359530
    },
    {
      "epoch": 0.7490416666666667,
      "grad_norm": 0.8863804340362549,
      "learning_rate": 4.460531045185327e-05,
      "loss": 3.3364,
      "step": 359540
    },
    {
      "epoch": 0.7490625,
      "grad_norm": 0.8075448274612427,
      "learning_rate": 4.459829578423492e-05,
      "loss": 3.3691,
      "step": 359550
    },
    {
      "epoch": 0.7490833333333333,
      "grad_norm": 0.807219922542572,
      "learning_rate": 4.459128157191012e-05,
      "loss": 3.3793,
      "step": 359560
    },
    {
      "epoch": 0.7491041666666667,
      "grad_norm": 0.9368153810501099,
      "learning_rate": 4.458426781490933e-05,
      "loss": 3.3588,
      "step": 359570
    },
    {
      "epoch": 0.749125,
      "grad_norm": 0.7973456382751465,
      "learning_rate": 4.45772545132628e-05,
      "loss": 3.4097,
      "step": 359580
    },
    {
      "epoch": 0.7491458333333333,
      "grad_norm": 0.970636248588562,
      "learning_rate": 4.457024166700071e-05,
      "loss": 3.4201,
      "step": 359590
    },
    {
      "epoch": 0.7491666666666666,
      "grad_norm": 0.854349672794342,
      "learning_rate": 4.45632292761535e-05,
      "loss": 3.2482,
      "step": 359600
    },
    {
      "epoch": 0.7491875,
      "grad_norm": 0.9443181753158569,
      "learning_rate": 4.455621734075145e-05,
      "loss": 3.3344,
      "step": 359610
    },
    {
      "epoch": 0.7492083333333334,
      "grad_norm": 0.9502381086349487,
      "learning_rate": 4.45492058608247e-05,
      "loss": 3.3438,
      "step": 359620
    },
    {
      "epoch": 0.7492291666666666,
      "grad_norm": 0.8603264093399048,
      "learning_rate": 4.4542194836403746e-05,
      "loss": 3.3183,
      "step": 359630
    },
    {
      "epoch": 0.74925,
      "grad_norm": 0.9064833521842957,
      "learning_rate": 4.453518426751872e-05,
      "loss": 3.1954,
      "step": 359640
    },
    {
      "epoch": 0.7492708333333333,
      "grad_norm": 1.089053988456726,
      "learning_rate": 4.45281741541999e-05,
      "loss": 3.3244,
      "step": 359650
    },
    {
      "epoch": 0.7492916666666667,
      "grad_norm": 0.9324645400047302,
      "learning_rate": 4.452116449647772e-05,
      "loss": 3.2895,
      "step": 359660
    },
    {
      "epoch": 0.7493125,
      "grad_norm": 1.0575188398361206,
      "learning_rate": 4.45141552943823e-05,
      "loss": 3.3764,
      "step": 359670
    },
    {
      "epoch": 0.7493333333333333,
      "grad_norm": 0.9142425656318665,
      "learning_rate": 4.450714654794393e-05,
      "loss": 3.3324,
      "step": 359680
    },
    {
      "epoch": 0.7493541666666667,
      "grad_norm": 0.8406258225440979,
      "learning_rate": 4.450013825719302e-05,
      "loss": 3.3438,
      "step": 359690
    },
    {
      "epoch": 0.749375,
      "grad_norm": 0.9087232351303101,
      "learning_rate": 4.4493130422159715e-05,
      "loss": 3.3567,
      "step": 359700
    },
    {
      "epoch": 0.7493958333333334,
      "grad_norm": 0.9574516415596008,
      "learning_rate": 4.448612304287427e-05,
      "loss": 3.394,
      "step": 359710
    },
    {
      "epoch": 0.7494166666666666,
      "grad_norm": 0.8656251430511475,
      "learning_rate": 4.447911611936711e-05,
      "loss": 3.4003,
      "step": 359720
    },
    {
      "epoch": 0.7494375,
      "grad_norm": 0.8308306932449341,
      "learning_rate": 4.447210965166835e-05,
      "loss": 3.29,
      "step": 359730
    },
    {
      "epoch": 0.7494583333333333,
      "grad_norm": 0.8552629947662354,
      "learning_rate": 4.4465103639808265e-05,
      "loss": 3.351,
      "step": 359740
    },
    {
      "epoch": 0.7494791666666667,
      "grad_norm": 0.8623133897781372,
      "learning_rate": 4.445809808381723e-05,
      "loss": 3.3742,
      "step": 359750
    },
    {
      "epoch": 0.7495,
      "grad_norm": 0.9584593176841736,
      "learning_rate": 4.445109298372542e-05,
      "loss": 3.3451,
      "step": 359760
    },
    {
      "epoch": 0.7495208333333333,
      "grad_norm": 0.8409491777420044,
      "learning_rate": 4.444408833956309e-05,
      "loss": 3.4984,
      "step": 359770
    },
    {
      "epoch": 0.7495416666666667,
      "grad_norm": 0.8577784299850464,
      "learning_rate": 4.4437084151360523e-05,
      "loss": 3.4192,
      "step": 359780
    },
    {
      "epoch": 0.7495625,
      "grad_norm": 0.921349823474884,
      "learning_rate": 4.443008041914796e-05,
      "loss": 3.3008,
      "step": 359790
    },
    {
      "epoch": 0.7495833333333334,
      "grad_norm": 0.8942715525627136,
      "learning_rate": 4.442307714295566e-05,
      "loss": 3.3335,
      "step": 359800
    },
    {
      "epoch": 0.7496041666666666,
      "grad_norm": 1.242142677307129,
      "learning_rate": 4.441607432281389e-05,
      "loss": 3.3446,
      "step": 359810
    },
    {
      "epoch": 0.749625,
      "grad_norm": 1.0623219013214111,
      "learning_rate": 4.440907195875288e-05,
      "loss": 3.405,
      "step": 359820
    },
    {
      "epoch": 0.7496458333333333,
      "grad_norm": 0.9031668305397034,
      "learning_rate": 4.440207005080287e-05,
      "loss": 3.3594,
      "step": 359830
    },
    {
      "epoch": 0.7496666666666667,
      "grad_norm": 0.9828614592552185,
      "learning_rate": 4.439506859899414e-05,
      "loss": 3.5267,
      "step": 359840
    },
    {
      "epoch": 0.7496875,
      "grad_norm": 0.8967660069465637,
      "learning_rate": 4.43880676033569e-05,
      "loss": 3.3365,
      "step": 359850
    },
    {
      "epoch": 0.7497083333333333,
      "grad_norm": 0.95013427734375,
      "learning_rate": 4.438106706392141e-05,
      "loss": 3.3186,
      "step": 359860
    },
    {
      "epoch": 0.7497291666666667,
      "grad_norm": 0.8276862502098083,
      "learning_rate": 4.437406698071791e-05,
      "loss": 3.38,
      "step": 359870
    },
    {
      "epoch": 0.74975,
      "grad_norm": 0.8355605602264404,
      "learning_rate": 4.4367067353776606e-05,
      "loss": 3.371,
      "step": 359880
    },
    {
      "epoch": 0.7497708333333334,
      "grad_norm": 0.8137362599372864,
      "learning_rate": 4.4360068183127834e-05,
      "loss": 3.2382,
      "step": 359890
    },
    {
      "epoch": 0.7497916666666666,
      "grad_norm": 0.8786904215812683,
      "learning_rate": 4.4353069468801636e-05,
      "loss": 3.3693,
      "step": 359900
    },
    {
      "epoch": 0.7498125,
      "grad_norm": 0.9016593098640442,
      "learning_rate": 4.434607121082842e-05,
      "loss": 3.2219,
      "step": 359910
    },
    {
      "epoch": 0.7498333333333334,
      "grad_norm": 0.8215562105178833,
      "learning_rate": 4.433907340923839e-05,
      "loss": 3.3848,
      "step": 359920
    },
    {
      "epoch": 0.7498541666666667,
      "grad_norm": 0.8909154534339905,
      "learning_rate": 4.4332076064061654e-05,
      "loss": 3.3161,
      "step": 359930
    },
    {
      "epoch": 0.749875,
      "grad_norm": 0.8284374475479126,
      "learning_rate": 4.432507917532857e-05,
      "loss": 3.3932,
      "step": 359940
    },
    {
      "epoch": 0.7498958333333333,
      "grad_norm": 0.8857538104057312,
      "learning_rate": 4.431808274306938e-05,
      "loss": 3.2918,
      "step": 359950
    },
    {
      "epoch": 0.7499166666666667,
      "grad_norm": 0.8863363862037659,
      "learning_rate": 4.431108676731412e-05,
      "loss": 3.4046,
      "step": 359960
    },
    {
      "epoch": 0.7499375,
      "grad_norm": 0.9738360643386841,
      "learning_rate": 4.430409124809319e-05,
      "loss": 3.2902,
      "step": 359970
    },
    {
      "epoch": 0.7499583333333333,
      "grad_norm": 0.8621792197227478,
      "learning_rate": 4.429709618543679e-05,
      "loss": 3.2261,
      "step": 359980
    },
    {
      "epoch": 0.7499791666666666,
      "grad_norm": 0.9553948044776917,
      "learning_rate": 4.429010157937501e-05,
      "loss": 3.2897,
      "step": 359990
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8476954698562622,
      "learning_rate": 4.428310742993818e-05,
      "loss": 3.3723,
      "step": 360000
    },
    {
      "epoch": 0.75,
      "eval_loss": 4.0546488761901855,
      "eval_runtime": 8.3719,
      "eval_samples_per_second": 1.194,
      "eval_steps_per_second": 0.358,
      "step": 360000
    },
    {
      "epoch": 0.7500208333333334,
      "grad_norm": 0.9146144390106201,
      "learning_rate": 4.4276113737156535e-05,
      "loss": 3.3178,
      "step": 360010
    },
    {
      "epoch": 0.7500416666666667,
      "grad_norm": 0.7898750305175781,
      "learning_rate": 4.426912050106014e-05,
      "loss": 3.2137,
      "step": 360020
    },
    {
      "epoch": 0.7500625,
      "grad_norm": 0.9938588738441467,
      "learning_rate": 4.426212772167938e-05,
      "loss": 3.2669,
      "step": 360030
    },
    {
      "epoch": 0.7500833333333333,
      "grad_norm": 0.8363437056541443,
      "learning_rate": 4.425513539904433e-05,
      "loss": 3.3454,
      "step": 360040
    },
    {
      "epoch": 0.7501041666666667,
      "grad_norm": 0.8502739667892456,
      "learning_rate": 4.4248143533185195e-05,
      "loss": 3.2135,
      "step": 360050
    },
    {
      "epoch": 0.750125,
      "grad_norm": 0.891589879989624,
      "learning_rate": 4.42411521241323e-05,
      "loss": 3.4573,
      "step": 360060
    },
    {
      "epoch": 0.7501458333333333,
      "grad_norm": 0.8780606985092163,
      "learning_rate": 4.423416117191574e-05,
      "loss": 3.3598,
      "step": 360070
    },
    {
      "epoch": 0.7501666666666666,
      "grad_norm": 0.9394505023956299,
      "learning_rate": 4.422717067656573e-05,
      "loss": 3.3444,
      "step": 360080
    },
    {
      "epoch": 0.7501875,
      "grad_norm": 0.8664728403091431,
      "learning_rate": 4.422018063811247e-05,
      "loss": 3.3271,
      "step": 360090
    },
    {
      "epoch": 0.7502083333333334,
      "grad_norm": 0.9329365491867065,
      "learning_rate": 4.421319105658616e-05,
      "loss": 3.2784,
      "step": 360100
    },
    {
      "epoch": 0.7502291666666666,
      "grad_norm": 0.8589863181114197,
      "learning_rate": 4.4206201932017e-05,
      "loss": 3.289,
      "step": 360110
    },
    {
      "epoch": 0.75025,
      "grad_norm": 0.7866576313972473,
      "learning_rate": 4.4199213264435166e-05,
      "loss": 3.34,
      "step": 360120
    },
    {
      "epoch": 0.7502708333333333,
      "grad_norm": 0.8092224597930908,
      "learning_rate": 4.419222505387084e-05,
      "loss": 3.3889,
      "step": 360130
    },
    {
      "epoch": 0.7502916666666667,
      "grad_norm": 0.7966738939285278,
      "learning_rate": 4.4185237300354244e-05,
      "loss": 3.3545,
      "step": 360140
    },
    {
      "epoch": 0.7503125,
      "grad_norm": 0.8607056736946106,
      "learning_rate": 4.4178250003915515e-05,
      "loss": 3.1581,
      "step": 360150
    },
    {
      "epoch": 0.7503333333333333,
      "grad_norm": 0.8356696367263794,
      "learning_rate": 4.417126316458487e-05,
      "loss": 3.3429,
      "step": 360160
    },
    {
      "epoch": 0.7503541666666667,
      "grad_norm": 0.795775294303894,
      "learning_rate": 4.4164276782392496e-05,
      "loss": 3.4481,
      "step": 360170
    },
    {
      "epoch": 0.750375,
      "grad_norm": 0.9541506171226501,
      "learning_rate": 4.4157290857368536e-05,
      "loss": 3.4545,
      "step": 360180
    },
    {
      "epoch": 0.7503958333333334,
      "grad_norm": 0.8251866698265076,
      "learning_rate": 4.4150305389543165e-05,
      "loss": 3.363,
      "step": 360190
    },
    {
      "epoch": 0.7504166666666666,
      "grad_norm": 0.910495400428772,
      "learning_rate": 4.4143320378946606e-05,
      "loss": 3.2965,
      "step": 360200
    },
    {
      "epoch": 0.7504375,
      "grad_norm": 0.9554085731506348,
      "learning_rate": 4.413633582560899e-05,
      "loss": 3.3274,
      "step": 360210
    },
    {
      "epoch": 0.7504583333333333,
      "grad_norm": 0.8596909642219543,
      "learning_rate": 4.41293517295605e-05,
      "loss": 3.2887,
      "step": 360220
    },
    {
      "epoch": 0.7504791666666667,
      "grad_norm": 0.9726272225379944,
      "learning_rate": 4.412236809083131e-05,
      "loss": 3.3414,
      "step": 360230
    },
    {
      "epoch": 0.7505,
      "grad_norm": 0.94954913854599,
      "learning_rate": 4.411538490945158e-05,
      "loss": 3.3172,
      "step": 360240
    },
    {
      "epoch": 0.7505208333333333,
      "grad_norm": 0.8082662224769592,
      "learning_rate": 4.4108402185451465e-05,
      "loss": 3.2665,
      "step": 360250
    },
    {
      "epoch": 0.7505416666666667,
      "grad_norm": 0.9064357876777649,
      "learning_rate": 4.410141991886119e-05,
      "loss": 3.2962,
      "step": 360260
    },
    {
      "epoch": 0.7505625,
      "grad_norm": 0.8716820478439331,
      "learning_rate": 4.409443810971077e-05,
      "loss": 3.3135,
      "step": 360270
    },
    {
      "epoch": 0.7505833333333334,
      "grad_norm": 0.9025298953056335,
      "learning_rate": 4.40874567580305e-05,
      "loss": 3.2694,
      "step": 360280
    },
    {
      "epoch": 0.7506041666666666,
      "grad_norm": 0.89751136302948,
      "learning_rate": 4.408047586385055e-05,
      "loss": 3.3177,
      "step": 360290
    },
    {
      "epoch": 0.750625,
      "grad_norm": 1.0917848348617554,
      "learning_rate": 4.407349542720092e-05,
      "loss": 3.439,
      "step": 360300
    },
    {
      "epoch": 0.7506458333333333,
      "grad_norm": 0.8275498151779175,
      "learning_rate": 4.406651544811191e-05,
      "loss": 3.3309,
      "step": 360310
    },
    {
      "epoch": 0.7506666666666667,
      "grad_norm": 0.8851830959320068,
      "learning_rate": 4.4059535926613654e-05,
      "loss": 3.3185,
      "step": 360320
    },
    {
      "epoch": 0.7506875,
      "grad_norm": 0.8293936848640442,
      "learning_rate": 4.405255686273619e-05,
      "loss": 3.2983,
      "step": 360330
    },
    {
      "epoch": 0.7507083333333333,
      "grad_norm": 0.9496601223945618,
      "learning_rate": 4.404557825650978e-05,
      "loss": 3.4125,
      "step": 360340
    },
    {
      "epoch": 0.7507291666666667,
      "grad_norm": 0.869395911693573,
      "learning_rate": 4.40386001079646e-05,
      "loss": 3.2523,
      "step": 360350
    },
    {
      "epoch": 0.75075,
      "grad_norm": 0.9767850637435913,
      "learning_rate": 4.403162241713065e-05,
      "loss": 3.2705,
      "step": 360360
    },
    {
      "epoch": 0.7507708333333334,
      "grad_norm": 0.8131877779960632,
      "learning_rate": 4.4024645184038116e-05,
      "loss": 3.2076,
      "step": 360370
    },
    {
      "epoch": 0.7507916666666666,
      "grad_norm": 0.8364725112915039,
      "learning_rate": 4.4017668408717266e-05,
      "loss": 3.3361,
      "step": 360380
    },
    {
      "epoch": 0.7508125,
      "grad_norm": 0.920634925365448,
      "learning_rate": 4.401069209119808e-05,
      "loss": 3.2844,
      "step": 360390
    },
    {
      "epoch": 0.7508333333333334,
      "grad_norm": 0.828387975692749,
      "learning_rate": 4.400371623151075e-05,
      "loss": 3.2483,
      "step": 360400
    },
    {
      "epoch": 0.7508541666666667,
      "grad_norm": 0.8753427267074585,
      "learning_rate": 4.3996740829685416e-05,
      "loss": 3.27,
      "step": 360410
    },
    {
      "epoch": 0.750875,
      "grad_norm": 0.8408759236335754,
      "learning_rate": 4.398976588575219e-05,
      "loss": 3.2972,
      "step": 360420
    },
    {
      "epoch": 0.7508958333333333,
      "grad_norm": 0.847745954990387,
      "learning_rate": 4.398279139974124e-05,
      "loss": 3.3579,
      "step": 360430
    },
    {
      "epoch": 0.7509166666666667,
      "grad_norm": 0.8721426725387573,
      "learning_rate": 4.397581737168264e-05,
      "loss": 3.4721,
      "step": 360440
    },
    {
      "epoch": 0.7509375,
      "grad_norm": 0.8694596886634827,
      "learning_rate": 4.396884380160656e-05,
      "loss": 3.2228,
      "step": 360450
    },
    {
      "epoch": 0.7509583333333333,
      "grad_norm": 0.9285566210746765,
      "learning_rate": 4.396187068954309e-05,
      "loss": 3.4066,
      "step": 360460
    },
    {
      "epoch": 0.7509791666666666,
      "grad_norm": 0.9966329336166382,
      "learning_rate": 4.3954898035522376e-05,
      "loss": 3.3402,
      "step": 360470
    },
    {
      "epoch": 0.751,
      "grad_norm": 0.8473291993141174,
      "learning_rate": 4.394792583957452e-05,
      "loss": 3.3212,
      "step": 360480
    },
    {
      "epoch": 0.7510208333333334,
      "grad_norm": 0.9495422840118408,
      "learning_rate": 4.394095410172966e-05,
      "loss": 3.2369,
      "step": 360490
    },
    {
      "epoch": 0.7510416666666667,
      "grad_norm": 0.8864665627479553,
      "learning_rate": 4.3933982822017876e-05,
      "loss": 3.349,
      "step": 360500
    },
    {
      "epoch": 0.7510625,
      "grad_norm": 0.960708737373352,
      "learning_rate": 4.392701200046932e-05,
      "loss": 3.3975,
      "step": 360510
    },
    {
      "epoch": 0.7510833333333333,
      "grad_norm": 0.9302105903625488,
      "learning_rate": 4.392004163711408e-05,
      "loss": 3.2719,
      "step": 360520
    },
    {
      "epoch": 0.7511041666666667,
      "grad_norm": 0.9502136707305908,
      "learning_rate": 4.391307173198226e-05,
      "loss": 3.4116,
      "step": 360530
    },
    {
      "epoch": 0.751125,
      "grad_norm": 0.8110434412956238,
      "learning_rate": 4.390610228510398e-05,
      "loss": 3.4501,
      "step": 360540
    },
    {
      "epoch": 0.7511458333333333,
      "grad_norm": 0.9423829317092896,
      "learning_rate": 4.389913329650936e-05,
      "loss": 3.3165,
      "step": 360550
    },
    {
      "epoch": 0.7511666666666666,
      "grad_norm": 0.8435629606246948,
      "learning_rate": 4.3892164766228485e-05,
      "loss": 3.42,
      "step": 360560
    },
    {
      "epoch": 0.7511875,
      "grad_norm": 0.8949222564697266,
      "learning_rate": 4.388519669429145e-05,
      "loss": 3.239,
      "step": 360570
    },
    {
      "epoch": 0.7512083333333334,
      "grad_norm": 0.8997212648391724,
      "learning_rate": 4.387822908072835e-05,
      "loss": 3.3644,
      "step": 360580
    },
    {
      "epoch": 0.7512291666666666,
      "grad_norm": 0.8423389196395874,
      "learning_rate": 4.38712619255693e-05,
      "loss": 3.3548,
      "step": 360590
    },
    {
      "epoch": 0.75125,
      "grad_norm": 0.903152346611023,
      "learning_rate": 4.386429522884441e-05,
      "loss": 3.2978,
      "step": 360600
    },
    {
      "epoch": 0.7512708333333333,
      "grad_norm": 0.8679866790771484,
      "learning_rate": 4.3857328990583735e-05,
      "loss": 3.2794,
      "step": 360610
    },
    {
      "epoch": 0.7512916666666667,
      "grad_norm": 0.9890169501304626,
      "learning_rate": 4.385036321081739e-05,
      "loss": 3.2861,
      "step": 360620
    },
    {
      "epoch": 0.7513125,
      "grad_norm": 0.9605273604393005,
      "learning_rate": 4.38433978895755e-05,
      "loss": 3.3269,
      "step": 360630
    },
    {
      "epoch": 0.7513333333333333,
      "grad_norm": 0.8532809615135193,
      "learning_rate": 4.383643302688802e-05,
      "loss": 3.3342,
      "step": 360640
    },
    {
      "epoch": 0.7513541666666667,
      "grad_norm": 0.88143390417099,
      "learning_rate": 4.3829468622785186e-05,
      "loss": 3.3522,
      "step": 360650
    },
    {
      "epoch": 0.751375,
      "grad_norm": 0.9210573434829712,
      "learning_rate": 4.382250467729705e-05,
      "loss": 3.2775,
      "step": 360660
    },
    {
      "epoch": 0.7513958333333334,
      "grad_norm": 0.8721513748168945,
      "learning_rate": 4.381554119045364e-05,
      "loss": 3.3214,
      "step": 360670
    },
    {
      "epoch": 0.7514166666666666,
      "grad_norm": 0.9231630563735962,
      "learning_rate": 4.3808578162285e-05,
      "loss": 3.4214,
      "step": 360680
    },
    {
      "epoch": 0.7514375,
      "grad_norm": 0.8391508460044861,
      "learning_rate": 4.380161559282136e-05,
      "loss": 3.2855,
      "step": 360690
    },
    {
      "epoch": 0.7514583333333333,
      "grad_norm": 0.8874316811561584,
      "learning_rate": 4.3794653482092665e-05,
      "loss": 3.3406,
      "step": 360700
    },
    {
      "epoch": 0.7514791666666667,
      "grad_norm": 0.9185104370117188,
      "learning_rate": 4.3787691830128985e-05,
      "loss": 3.2486,
      "step": 360710
    },
    {
      "epoch": 0.7515,
      "grad_norm": 0.8578066825866699,
      "learning_rate": 4.378073063696052e-05,
      "loss": 3.4605,
      "step": 360720
    },
    {
      "epoch": 0.7515208333333333,
      "grad_norm": 0.7972007989883423,
      "learning_rate": 4.37737699026172e-05,
      "loss": 3.3209,
      "step": 360730
    },
    {
      "epoch": 0.7515416666666667,
      "grad_norm": 0.9222053289413452,
      "learning_rate": 4.376680962712912e-05,
      "loss": 3.4857,
      "step": 360740
    },
    {
      "epoch": 0.7515625,
      "grad_norm": 0.9647395014762878,
      "learning_rate": 4.3759849810526445e-05,
      "loss": 3.4062,
      "step": 360750
    },
    {
      "epoch": 0.7515833333333334,
      "grad_norm": 0.938908040523529,
      "learning_rate": 4.375289045283913e-05,
      "loss": 3.3935,
      "step": 360760
    },
    {
      "epoch": 0.7516041666666666,
      "grad_norm": 0.8551292419433594,
      "learning_rate": 4.374593155409727e-05,
      "loss": 3.374,
      "step": 360770
    },
    {
      "epoch": 0.751625,
      "grad_norm": 0.8597816228866577,
      "learning_rate": 4.3738973114330944e-05,
      "loss": 3.3615,
      "step": 360780
    },
    {
      "epoch": 0.7516458333333333,
      "grad_norm": 0.8505533933639526,
      "learning_rate": 4.373201513357017e-05,
      "loss": 3.3152,
      "step": 360790
    },
    {
      "epoch": 0.7516666666666667,
      "grad_norm": 0.9291951656341553,
      "learning_rate": 4.3725057611845035e-05,
      "loss": 3.4493,
      "step": 360800
    },
    {
      "epoch": 0.7516875,
      "grad_norm": 0.9483035802841187,
      "learning_rate": 4.371810054918559e-05,
      "loss": 3.3323,
      "step": 360810
    },
    {
      "epoch": 0.7517083333333333,
      "grad_norm": 1.023758888244629,
      "learning_rate": 4.371114394562188e-05,
      "loss": 3.3796,
      "step": 360820
    },
    {
      "epoch": 0.7517291666666667,
      "grad_norm": 0.8280799984931946,
      "learning_rate": 4.370418780118394e-05,
      "loss": 3.214,
      "step": 360830
    },
    {
      "epoch": 0.75175,
      "grad_norm": 0.9869306087493896,
      "learning_rate": 4.3697232115901856e-05,
      "loss": 3.4254,
      "step": 360840
    },
    {
      "epoch": 0.7517708333333334,
      "grad_norm": 0.8828912973403931,
      "learning_rate": 4.369027688980565e-05,
      "loss": 3.3396,
      "step": 360850
    },
    {
      "epoch": 0.7517916666666666,
      "grad_norm": 0.809383749961853,
      "learning_rate": 4.3683322122925354e-05,
      "loss": 3.3814,
      "step": 360860
    },
    {
      "epoch": 0.7518125,
      "grad_norm": 0.8664789199829102,
      "learning_rate": 4.367636781529103e-05,
      "loss": 3.2856,
      "step": 360870
    },
    {
      "epoch": 0.7518333333333334,
      "grad_norm": 0.9423587322235107,
      "learning_rate": 4.366941396693271e-05,
      "loss": 3.2833,
      "step": 360880
    },
    {
      "epoch": 0.7518541666666667,
      "grad_norm": 0.9418308138847351,
      "learning_rate": 4.366246057788043e-05,
      "loss": 3.2832,
      "step": 360890
    },
    {
      "epoch": 0.751875,
      "grad_norm": 0.9604794383049011,
      "learning_rate": 4.365550764816424e-05,
      "loss": 3.4858,
      "step": 360900
    },
    {
      "epoch": 0.7518958333333333,
      "grad_norm": 0.8677176237106323,
      "learning_rate": 4.364855517781414e-05,
      "loss": 3.3171,
      "step": 360910
    },
    {
      "epoch": 0.7519166666666667,
      "grad_norm": 0.8558498620986938,
      "learning_rate": 4.36416031668602e-05,
      "loss": 3.4077,
      "step": 360920
    },
    {
      "epoch": 0.7519375,
      "grad_norm": 0.8521648049354553,
      "learning_rate": 4.363465161533244e-05,
      "loss": 3.3456,
      "step": 360930
    },
    {
      "epoch": 0.7519583333333333,
      "grad_norm": 0.9612817168235779,
      "learning_rate": 4.362770052326088e-05,
      "loss": 3.3661,
      "step": 360940
    },
    {
      "epoch": 0.7519791666666666,
      "grad_norm": 0.8066072463989258,
      "learning_rate": 4.3620749890675596e-05,
      "loss": 3.2939,
      "step": 360950
    },
    {
      "epoch": 0.752,
      "grad_norm": 0.8827496767044067,
      "learning_rate": 4.3613799717606465e-05,
      "loss": 3.2859,
      "step": 360960
    },
    {
      "epoch": 0.7520208333333334,
      "grad_norm": 0.8941885828971863,
      "learning_rate": 4.360685000408367e-05,
      "loss": 3.4698,
      "step": 360970
    },
    {
      "epoch": 0.7520416666666667,
      "grad_norm": 0.8521919846534729,
      "learning_rate": 4.35999007501372e-05,
      "loss": 3.21,
      "step": 360980
    },
    {
      "epoch": 0.7520625,
      "grad_norm": 1.0132524967193604,
      "learning_rate": 4.3592951955796945e-05,
      "loss": 3.2363,
      "step": 360990
    },
    {
      "epoch": 0.7520833333333333,
      "grad_norm": 0.8842493891716003,
      "learning_rate": 4.358600362109312e-05,
      "loss": 3.2925,
      "step": 361000
    },
    {
      "epoch": 0.7520833333333333,
      "eval_loss": 4.052168369293213,
      "eval_runtime": 7.8703,
      "eval_samples_per_second": 1.271,
      "eval_steps_per_second": 0.381,
      "step": 361000
    },
    {
      "epoch": 0.7521041666666667,
      "grad_norm": 0.84127277135849,
      "learning_rate": 4.357905574605559e-05,
      "loss": 3.2699,
      "step": 361010
    },
    {
      "epoch": 0.752125,
      "grad_norm": 0.8382707834243774,
      "learning_rate": 4.357210833071437e-05,
      "loss": 3.4197,
      "step": 361020
    },
    {
      "epoch": 0.7521458333333333,
      "grad_norm": 0.8538468480110168,
      "learning_rate": 4.356516137509961e-05,
      "loss": 3.4154,
      "step": 361030
    },
    {
      "epoch": 0.7521666666666667,
      "grad_norm": 0.8834249377250671,
      "learning_rate": 4.355821487924118e-05,
      "loss": 3.3352,
      "step": 361040
    },
    {
      "epoch": 0.7521875,
      "grad_norm": 0.8793758153915405,
      "learning_rate": 4.355126884316908e-05,
      "loss": 3.3364,
      "step": 361050
    },
    {
      "epoch": 0.7522083333333334,
      "grad_norm": 0.8711312413215637,
      "learning_rate": 4.3544323266913464e-05,
      "loss": 3.2242,
      "step": 361060
    },
    {
      "epoch": 0.7522291666666666,
      "grad_norm": 0.8539425730705261,
      "learning_rate": 4.353737815050417e-05,
      "loss": 3.543,
      "step": 361070
    },
    {
      "epoch": 0.75225,
      "grad_norm": 0.8998810648918152,
      "learning_rate": 4.353043349397122e-05,
      "loss": 3.2434,
      "step": 361080
    },
    {
      "epoch": 0.7522708333333333,
      "grad_norm": 0.8117247223854065,
      "learning_rate": 4.3523489297344744e-05,
      "loss": 3.3578,
      "step": 361090
    },
    {
      "epoch": 0.7522916666666667,
      "grad_norm": 0.81838059425354,
      "learning_rate": 4.351654556065461e-05,
      "loss": 3.3164,
      "step": 361100
    },
    {
      "epoch": 0.7523125,
      "grad_norm": 0.8421964645385742,
      "learning_rate": 4.3509602283930804e-05,
      "loss": 3.4388,
      "step": 361110
    },
    {
      "epoch": 0.7523333333333333,
      "grad_norm": 0.8936489820480347,
      "learning_rate": 4.3502659467203445e-05,
      "loss": 3.3484,
      "step": 361120
    },
    {
      "epoch": 0.7523541666666667,
      "grad_norm": 1.0521044731140137,
      "learning_rate": 4.349571711050242e-05,
      "loss": 3.3232,
      "step": 361130
    },
    {
      "epoch": 0.752375,
      "grad_norm": 0.8376320600509644,
      "learning_rate": 4.3488775213857714e-05,
      "loss": 3.3816,
      "step": 361140
    },
    {
      "epoch": 0.7523958333333334,
      "grad_norm": 0.856173038482666,
      "learning_rate": 4.3481833777299345e-05,
      "loss": 3.2974,
      "step": 361150
    },
    {
      "epoch": 0.7524166666666666,
      "grad_norm": 0.8490528464317322,
      "learning_rate": 4.347489280085729e-05,
      "loss": 3.3254,
      "step": 361160
    },
    {
      "epoch": 0.7524375,
      "grad_norm": 0.8722802400588989,
      "learning_rate": 4.346795228456154e-05,
      "loss": 3.1952,
      "step": 361170
    },
    {
      "epoch": 0.7524583333333333,
      "grad_norm": 0.8547284603118896,
      "learning_rate": 4.346101222844207e-05,
      "loss": 3.2665,
      "step": 361180
    },
    {
      "epoch": 0.7524791666666667,
      "grad_norm": 0.946252167224884,
      "learning_rate": 4.345407263252886e-05,
      "loss": 3.3358,
      "step": 361190
    },
    {
      "epoch": 0.7525,
      "grad_norm": 0.9636961221694946,
      "learning_rate": 4.344713349685188e-05,
      "loss": 3.3823,
      "step": 361200
    },
    {
      "epoch": 0.7525208333333333,
      "grad_norm": 0.8217931985855103,
      "learning_rate": 4.344019482144109e-05,
      "loss": 3.4124,
      "step": 361210
    },
    {
      "epoch": 0.7525416666666667,
      "grad_norm": 0.8145304918289185,
      "learning_rate": 4.343325660632648e-05,
      "loss": 3.3242,
      "step": 361220
    },
    {
      "epoch": 0.7525625,
      "grad_norm": 0.8642539381980896,
      "learning_rate": 4.342631885153804e-05,
      "loss": 3.3121,
      "step": 361230
    },
    {
      "epoch": 0.7525833333333334,
      "grad_norm": 0.7840723395347595,
      "learning_rate": 4.34193815571057e-05,
      "loss": 3.2855,
      "step": 361240
    },
    {
      "epoch": 0.7526041666666666,
      "grad_norm": 0.9455418586730957,
      "learning_rate": 4.3412444723059455e-05,
      "loss": 3.3655,
      "step": 361250
    },
    {
      "epoch": 0.752625,
      "grad_norm": 0.8235855102539062,
      "learning_rate": 4.34055083494293e-05,
      "loss": 3.4942,
      "step": 361260
    },
    {
      "epoch": 0.7526458333333333,
      "grad_norm": 0.9471501111984253,
      "learning_rate": 4.339857243624507e-05,
      "loss": 3.3234,
      "step": 361270
    },
    {
      "epoch": 0.7526666666666667,
      "grad_norm": 0.8441339731216431,
      "learning_rate": 4.339163698353685e-05,
      "loss": 3.2668,
      "step": 361280
    },
    {
      "epoch": 0.7526875,
      "grad_norm": 1.0062915086746216,
      "learning_rate": 4.3384701991334606e-05,
      "loss": 3.3237,
      "step": 361290
    },
    {
      "epoch": 0.7527083333333333,
      "grad_norm": 1.010872483253479,
      "learning_rate": 4.337776745966816e-05,
      "loss": 3.2077,
      "step": 361300
    },
    {
      "epoch": 0.7527291666666667,
      "grad_norm": 0.8568276166915894,
      "learning_rate": 4.337083338856761e-05,
      "loss": 3.3848,
      "step": 361310
    },
    {
      "epoch": 0.75275,
      "grad_norm": 0.787257969379425,
      "learning_rate": 4.336389977806288e-05,
      "loss": 3.3327,
      "step": 361320
    },
    {
      "epoch": 0.7527708333333333,
      "grad_norm": 0.8867908120155334,
      "learning_rate": 4.33569666281838e-05,
      "loss": 3.3893,
      "step": 361330
    },
    {
      "epoch": 0.7527916666666666,
      "grad_norm": 1.4862323999404907,
      "learning_rate": 4.335003393896048e-05,
      "loss": 3.3915,
      "step": 361340
    },
    {
      "epoch": 0.7528125,
      "grad_norm": 0.8617643713951111,
      "learning_rate": 4.334310171042282e-05,
      "loss": 3.3765,
      "step": 361350
    },
    {
      "epoch": 0.7528333333333334,
      "grad_norm": 1.0384788513183594,
      "learning_rate": 4.333616994260067e-05,
      "loss": 3.2742,
      "step": 361360
    },
    {
      "epoch": 0.7528541666666667,
      "grad_norm": 0.853955864906311,
      "learning_rate": 4.332923863552407e-05,
      "loss": 3.3779,
      "step": 361370
    },
    {
      "epoch": 0.752875,
      "grad_norm": 1.0177788734436035,
      "learning_rate": 4.332230778922301e-05,
      "loss": 3.3584,
      "step": 361380
    },
    {
      "epoch": 0.7528958333333333,
      "grad_norm": 0.847227156162262,
      "learning_rate": 4.331537740372724e-05,
      "loss": 3.3118,
      "step": 361390
    },
    {
      "epoch": 0.7529166666666667,
      "grad_norm": 0.8583309054374695,
      "learning_rate": 4.330844747906691e-05,
      "loss": 3.2689,
      "step": 361400
    },
    {
      "epoch": 0.7529375,
      "grad_norm": 0.8583602905273438,
      "learning_rate": 4.330151801527181e-05,
      "loss": 3.377,
      "step": 361410
    },
    {
      "epoch": 0.7529583333333333,
      "grad_norm": 0.8903909921646118,
      "learning_rate": 4.329458901237188e-05,
      "loss": 3.4386,
      "step": 361420
    },
    {
      "epoch": 0.7529791666666666,
      "grad_norm": 0.814621090888977,
      "learning_rate": 4.3287660470397165e-05,
      "loss": 3.3304,
      "step": 361430
    },
    {
      "epoch": 0.753,
      "grad_norm": 0.9154847860336304,
      "learning_rate": 4.328073238937749e-05,
      "loss": 3.3251,
      "step": 361440
    },
    {
      "epoch": 0.7530208333333334,
      "grad_norm": 0.867232084274292,
      "learning_rate": 4.327380476934274e-05,
      "loss": 3.4072,
      "step": 361450
    },
    {
      "epoch": 0.7530416666666667,
      "grad_norm": 1.0294820070266724,
      "learning_rate": 4.326687761032301e-05,
      "loss": 3.3251,
      "step": 361460
    },
    {
      "epoch": 0.7530625,
      "grad_norm": 0.7952115535736084,
      "learning_rate": 4.3259950912348084e-05,
      "loss": 3.3433,
      "step": 361470
    },
    {
      "epoch": 0.7530833333333333,
      "grad_norm": 0.8399108648300171,
      "learning_rate": 4.325302467544787e-05,
      "loss": 3.3881,
      "step": 361480
    },
    {
      "epoch": 0.7531041666666667,
      "grad_norm": 0.8843580484390259,
      "learning_rate": 4.324609889965242e-05,
      "loss": 3.3598,
      "step": 361490
    },
    {
      "epoch": 0.753125,
      "grad_norm": 0.8730596303939819,
      "learning_rate": 4.323917358499152e-05,
      "loss": 3.3249,
      "step": 361500
    },
    {
      "epoch": 0.7531458333333333,
      "grad_norm": 0.8966789245605469,
      "learning_rate": 4.323224873149509e-05,
      "loss": 3.3104,
      "step": 361510
    },
    {
      "epoch": 0.7531666666666667,
      "grad_norm": 0.9234370589256287,
      "learning_rate": 4.322532433919317e-05,
      "loss": 3.4591,
      "step": 361520
    },
    {
      "epoch": 0.7531875,
      "grad_norm": 0.993743360042572,
      "learning_rate": 4.321840040811555e-05,
      "loss": 3.3675,
      "step": 361530
    },
    {
      "epoch": 0.7532083333333334,
      "grad_norm": 0.9787868857383728,
      "learning_rate": 4.321147693829217e-05,
      "loss": 3.3583,
      "step": 361540
    },
    {
      "epoch": 0.7532291666666666,
      "grad_norm": 0.8330893516540527,
      "learning_rate": 4.3204553929752926e-05,
      "loss": 3.4987,
      "step": 361550
    },
    {
      "epoch": 0.75325,
      "grad_norm": 0.8920572400093079,
      "learning_rate": 4.3197631382527756e-05,
      "loss": 3.3678,
      "step": 361560
    },
    {
      "epoch": 0.7532708333333333,
      "grad_norm": 0.9842626452445984,
      "learning_rate": 4.3190709296646535e-05,
      "loss": 3.3187,
      "step": 361570
    },
    {
      "epoch": 0.7532916666666667,
      "grad_norm": 0.8449360132217407,
      "learning_rate": 4.318378767213917e-05,
      "loss": 3.2568,
      "step": 361580
    },
    {
      "epoch": 0.7533125,
      "grad_norm": 0.817081868648529,
      "learning_rate": 4.3176866509035566e-05,
      "loss": 3.2773,
      "step": 361590
    },
    {
      "epoch": 0.7533333333333333,
      "grad_norm": 0.855055570602417,
      "learning_rate": 4.3169945807365606e-05,
      "loss": 3.3787,
      "step": 361600
    },
    {
      "epoch": 0.7533541666666667,
      "grad_norm": 0.9336374402046204,
      "learning_rate": 4.3163025567159196e-05,
      "loss": 3.2571,
      "step": 361610
    },
    {
      "epoch": 0.753375,
      "grad_norm": 0.9135810136795044,
      "learning_rate": 4.315610578844623e-05,
      "loss": 3.4426,
      "step": 361620
    },
    {
      "epoch": 0.7533958333333334,
      "grad_norm": 0.8197604417800903,
      "learning_rate": 4.314918647125665e-05,
      "loss": 3.3975,
      "step": 361630
    },
    {
      "epoch": 0.7534166666666666,
      "grad_norm": 0.8185995221138,
      "learning_rate": 4.314226761562018e-05,
      "loss": 3.3283,
      "step": 361640
    },
    {
      "epoch": 0.7534375,
      "grad_norm": 0.8192991018295288,
      "learning_rate": 4.313534922156687e-05,
      "loss": 3.2089,
      "step": 361650
    },
    {
      "epoch": 0.7534583333333333,
      "grad_norm": 0.9927341938018799,
      "learning_rate": 4.312843128912661e-05,
      "loss": 3.2812,
      "step": 361660
    },
    {
      "epoch": 0.7534791666666667,
      "grad_norm": 1.0626554489135742,
      "learning_rate": 4.312151381832912e-05,
      "loss": 3.2154,
      "step": 361670
    },
    {
      "epoch": 0.7535,
      "grad_norm": 0.8727098107337952,
      "learning_rate": 4.3114596809204427e-05,
      "loss": 3.3569,
      "step": 361680
    },
    {
      "epoch": 0.7535208333333333,
      "grad_norm": 0.827065110206604,
      "learning_rate": 4.310768026178243e-05,
      "loss": 3.2774,
      "step": 361690
    },
    {
      "epoch": 0.7535416666666667,
      "grad_norm": 0.8774410486221313,
      "learning_rate": 4.310076417609283e-05,
      "loss": 3.3441,
      "step": 361700
    },
    {
      "epoch": 0.7535625,
      "grad_norm": 0.8627263903617859,
      "learning_rate": 4.309384855216568e-05,
      "loss": 3.2368,
      "step": 361710
    },
    {
      "epoch": 0.7535833333333334,
      "grad_norm": 0.9139264225959778,
      "learning_rate": 4.308693339003082e-05,
      "loss": 3.2912,
      "step": 361720
    },
    {
      "epoch": 0.7536041666666666,
      "grad_norm": 0.8890208005905151,
      "learning_rate": 4.308001868971801e-05,
      "loss": 3.3289,
      "step": 361730
    },
    {
      "epoch": 0.753625,
      "grad_norm": 0.8215964436531067,
      "learning_rate": 4.3073104451257226e-05,
      "loss": 3.3042,
      "step": 361740
    },
    {
      "epoch": 0.7536458333333333,
      "grad_norm": 0.9769046902656555,
      "learning_rate": 4.306619067467837e-05,
      "loss": 3.3123,
      "step": 361750
    },
    {
      "epoch": 0.7536666666666667,
      "grad_norm": 0.9805772304534912,
      "learning_rate": 4.3059277360011134e-05,
      "loss": 3.3341,
      "step": 361760
    },
    {
      "epoch": 0.7536875,
      "grad_norm": 0.9512428045272827,
      "learning_rate": 4.30523645072856e-05,
      "loss": 3.3821,
      "step": 361770
    },
    {
      "epoch": 0.7537083333333333,
      "grad_norm": 0.9022414684295654,
      "learning_rate": 4.304545211653147e-05,
      "loss": 3.416,
      "step": 361780
    },
    {
      "epoch": 0.7537291666666667,
      "grad_norm": 0.8952120542526245,
      "learning_rate": 4.303854018777858e-05,
      "loss": 3.3763,
      "step": 361790
    },
    {
      "epoch": 0.75375,
      "grad_norm": 0.9411296248435974,
      "learning_rate": 4.3031628721056976e-05,
      "loss": 3.382,
      "step": 361800
    },
    {
      "epoch": 0.7537708333333333,
      "grad_norm": 0.8102838397026062,
      "learning_rate": 4.3024717716396345e-05,
      "loss": 3.3266,
      "step": 361810
    },
    {
      "epoch": 0.7537916666666666,
      "grad_norm": 0.8165158033370972,
      "learning_rate": 4.301780717382653e-05,
      "loss": 3.3851,
      "step": 361820
    },
    {
      "epoch": 0.7538125,
      "grad_norm": 1.2418705224990845,
      "learning_rate": 4.301089709337755e-05,
      "loss": 3.2841,
      "step": 361830
    },
    {
      "epoch": 0.7538333333333334,
      "grad_norm": 0.8821024298667908,
      "learning_rate": 4.30039874750791e-05,
      "loss": 3.2836,
      "step": 361840
    },
    {
      "epoch": 0.7538541666666667,
      "grad_norm": 0.9084609746932983,
      "learning_rate": 4.299707831896105e-05,
      "loss": 3.3739,
      "step": 361850
    },
    {
      "epoch": 0.753875,
      "grad_norm": 0.8699864745140076,
      "learning_rate": 4.2990169625053295e-05,
      "loss": 3.2846,
      "step": 361860
    },
    {
      "epoch": 0.7538958333333333,
      "grad_norm": 0.8856536149978638,
      "learning_rate": 4.2983261393385634e-05,
      "loss": 3.4069,
      "step": 361870
    },
    {
      "epoch": 0.7539166666666667,
      "grad_norm": 0.8108311295509338,
      "learning_rate": 4.2976353623987924e-05,
      "loss": 3.3654,
      "step": 361880
    },
    {
      "epoch": 0.7539375,
      "grad_norm": 0.8186786770820618,
      "learning_rate": 4.296944631689e-05,
      "loss": 3.3923,
      "step": 361890
    },
    {
      "epoch": 0.7539583333333333,
      "grad_norm": 0.9099681973457336,
      "learning_rate": 4.296253947212172e-05,
      "loss": 3.3202,
      "step": 361900
    },
    {
      "epoch": 0.7539791666666666,
      "grad_norm": 0.8711973428726196,
      "learning_rate": 4.295563308971288e-05,
      "loss": 3.2857,
      "step": 361910
    },
    {
      "epoch": 0.754,
      "grad_norm": 0.9044746160507202,
      "learning_rate": 4.2948727169693345e-05,
      "loss": 3.2586,
      "step": 361920
    },
    {
      "epoch": 0.7540208333333334,
      "grad_norm": 0.8880026936531067,
      "learning_rate": 4.294182171209294e-05,
      "loss": 3.2238,
      "step": 361930
    },
    {
      "epoch": 0.7540416666666667,
      "grad_norm": 0.7899952530860901,
      "learning_rate": 4.293491671694148e-05,
      "loss": 3.2857,
      "step": 361940
    },
    {
      "epoch": 0.7540625,
      "grad_norm": 0.8241280317306519,
      "learning_rate": 4.29280121842688e-05,
      "loss": 3.2863,
      "step": 361950
    },
    {
      "epoch": 0.7540833333333333,
      "grad_norm": 0.9364420175552368,
      "learning_rate": 4.292110811410472e-05,
      "loss": 3.3269,
      "step": 361960
    },
    {
      "epoch": 0.7541041666666667,
      "grad_norm": 0.8048565983772278,
      "learning_rate": 4.2914204506479076e-05,
      "loss": 3.3251,
      "step": 361970
    },
    {
      "epoch": 0.754125,
      "grad_norm": 0.9057490229606628,
      "learning_rate": 4.290730136142168e-05,
      "loss": 3.3653,
      "step": 361980
    },
    {
      "epoch": 0.7541458333333333,
      "grad_norm": 0.8842234015464783,
      "learning_rate": 4.290039867896236e-05,
      "loss": 3.4346,
      "step": 361990
    },
    {
      "epoch": 0.7541666666666667,
      "grad_norm": 0.8429572582244873,
      "learning_rate": 4.289349645913096e-05,
      "loss": 3.2357,
      "step": 362000
    },
    {
      "epoch": 0.7541666666666667,
      "eval_loss": 4.0526251792907715,
      "eval_runtime": 8.3372,
      "eval_samples_per_second": 1.199,
      "eval_steps_per_second": 0.36,
      "step": 362000
    },
    {
      "epoch": 0.7541875,
      "grad_norm": 0.8391687870025635,
      "learning_rate": 4.288659470195717e-05,
      "loss": 3.3869,
      "step": 362010
    },
    {
      "epoch": 0.7542083333333334,
      "grad_norm": 0.9249444603919983,
      "learning_rate": 4.287969340747094e-05,
      "loss": 3.5145,
      "step": 362020
    },
    {
      "epoch": 0.7542291666666666,
      "grad_norm": 0.9720057845115662,
      "learning_rate": 4.287279257570207e-05,
      "loss": 3.3492,
      "step": 362030
    },
    {
      "epoch": 0.75425,
      "grad_norm": 0.834618091583252,
      "learning_rate": 4.286589220668026e-05,
      "loss": 3.4116,
      "step": 362040
    },
    {
      "epoch": 0.7542708333333333,
      "grad_norm": 0.8065180778503418,
      "learning_rate": 4.285899230043541e-05,
      "loss": 3.2844,
      "step": 362050
    },
    {
      "epoch": 0.7542916666666667,
      "grad_norm": 0.9669914841651917,
      "learning_rate": 4.2852092856997376e-05,
      "loss": 3.381,
      "step": 362060
    },
    {
      "epoch": 0.7543125,
      "grad_norm": 0.9128864407539368,
      "learning_rate": 4.284519387639578e-05,
      "loss": 3.2161,
      "step": 362070
    },
    {
      "epoch": 0.7543333333333333,
      "grad_norm": 0.8815053105354309,
      "learning_rate": 4.283829535866059e-05,
      "loss": 3.3419,
      "step": 362080
    },
    {
      "epoch": 0.7543541666666667,
      "grad_norm": 0.8374926447868347,
      "learning_rate": 4.283139730382157e-05,
      "loss": 3.4144,
      "step": 362090
    },
    {
      "epoch": 0.754375,
      "grad_norm": 0.8343451023101807,
      "learning_rate": 4.2824499711908424e-05,
      "loss": 3.4662,
      "step": 362100
    },
    {
      "epoch": 0.7543958333333334,
      "grad_norm": 0.9700691103935242,
      "learning_rate": 4.281760258295106e-05,
      "loss": 3.3886,
      "step": 362110
    },
    {
      "epoch": 0.7544166666666666,
      "grad_norm": 0.8457456827163696,
      "learning_rate": 4.281070591697927e-05,
      "loss": 3.4139,
      "step": 362120
    },
    {
      "epoch": 0.7544375,
      "grad_norm": 0.9099289178848267,
      "learning_rate": 4.280380971402274e-05,
      "loss": 3.3802,
      "step": 362130
    },
    {
      "epoch": 0.7544583333333333,
      "grad_norm": 1.0130517482757568,
      "learning_rate": 4.279691397411135e-05,
      "loss": 3.3586,
      "step": 362140
    },
    {
      "epoch": 0.7544791666666667,
      "grad_norm": 1.320839285850525,
      "learning_rate": 4.279001869727482e-05,
      "loss": 3.3338,
      "step": 362150
    },
    {
      "epoch": 0.7545,
      "grad_norm": 0.8546409010887146,
      "learning_rate": 4.2783123883543005e-05,
      "loss": 3.3887,
      "step": 362160
    },
    {
      "epoch": 0.7545208333333333,
      "grad_norm": 0.9142652750015259,
      "learning_rate": 4.277622953294564e-05,
      "loss": 3.2452,
      "step": 362170
    },
    {
      "epoch": 0.7545416666666667,
      "grad_norm": 0.864095151424408,
      "learning_rate": 4.2769335645512526e-05,
      "loss": 3.3398,
      "step": 362180
    },
    {
      "epoch": 0.7545625,
      "grad_norm": 0.8202066421508789,
      "learning_rate": 4.276244222127344e-05,
      "loss": 3.5046,
      "step": 362190
    },
    {
      "epoch": 0.7545833333333334,
      "grad_norm": 0.8800907731056213,
      "learning_rate": 4.275554926025816e-05,
      "loss": 3.3241,
      "step": 362200
    },
    {
      "epoch": 0.7546041666666666,
      "grad_norm": 0.9560863375663757,
      "learning_rate": 4.274865676249644e-05,
      "loss": 3.4082,
      "step": 362210
    },
    {
      "epoch": 0.754625,
      "grad_norm": 0.8135243654251099,
      "learning_rate": 4.274176472801808e-05,
      "loss": 3.3914,
      "step": 362220
    },
    {
      "epoch": 0.7546458333333333,
      "grad_norm": 0.8348148465156555,
      "learning_rate": 4.273487315685285e-05,
      "loss": 3.3063,
      "step": 362230
    },
    {
      "epoch": 0.7546666666666667,
      "grad_norm": 0.8183633089065552,
      "learning_rate": 4.2727982049030494e-05,
      "loss": 3.3871,
      "step": 362240
    },
    {
      "epoch": 0.7546875,
      "grad_norm": 0.9211152791976929,
      "learning_rate": 4.27210914045808e-05,
      "loss": 3.2661,
      "step": 362250
    },
    {
      "epoch": 0.7547083333333333,
      "grad_norm": 0.9034505486488342,
      "learning_rate": 4.2714201223533534e-05,
      "loss": 3.3239,
      "step": 362260
    },
    {
      "epoch": 0.7547291666666667,
      "grad_norm": 0.8650639057159424,
      "learning_rate": 4.270731150591845e-05,
      "loss": 3.2411,
      "step": 362270
    },
    {
      "epoch": 0.75475,
      "grad_norm": 0.8811941742897034,
      "learning_rate": 4.270042225176529e-05,
      "loss": 3.3993,
      "step": 362280
    },
    {
      "epoch": 0.7547708333333333,
      "grad_norm": 0.8706970810890198,
      "learning_rate": 4.269353346110385e-05,
      "loss": 3.3021,
      "step": 362290
    },
    {
      "epoch": 0.7547916666666666,
      "grad_norm": 0.8830130696296692,
      "learning_rate": 4.268664513396388e-05,
      "loss": 3.3193,
      "step": 362300
    },
    {
      "epoch": 0.7548125,
      "grad_norm": 0.8534464836120605,
      "learning_rate": 4.267975727037511e-05,
      "loss": 3.2442,
      "step": 362310
    },
    {
      "epoch": 0.7548333333333334,
      "grad_norm": 0.8824706673622131,
      "learning_rate": 4.267286987036733e-05,
      "loss": 3.2823,
      "step": 362320
    },
    {
      "epoch": 0.7548541666666667,
      "grad_norm": 0.862951934337616,
      "learning_rate": 4.2665982933970246e-05,
      "loss": 3.2778,
      "step": 362330
    },
    {
      "epoch": 0.754875,
      "grad_norm": 0.8641237020492554,
      "learning_rate": 4.2659096461213636e-05,
      "loss": 3.3897,
      "step": 362340
    },
    {
      "epoch": 0.7548958333333333,
      "grad_norm": 0.8052495718002319,
      "learning_rate": 4.265221045212725e-05,
      "loss": 3.3708,
      "step": 362350
    },
    {
      "epoch": 0.7549166666666667,
      "grad_norm": 1.05995774269104,
      "learning_rate": 4.264532490674081e-05,
      "loss": 3.4581,
      "step": 362360
    },
    {
      "epoch": 0.7549375,
      "grad_norm": 0.890357255935669,
      "learning_rate": 4.263843982508407e-05,
      "loss": 3.4303,
      "step": 362370
    },
    {
      "epoch": 0.7549583333333333,
      "grad_norm": 0.8086232542991638,
      "learning_rate": 4.26315552071868e-05,
      "loss": 3.4502,
      "step": 362380
    },
    {
      "epoch": 0.7549791666666666,
      "grad_norm": 0.8729914426803589,
      "learning_rate": 4.262467105307868e-05,
      "loss": 3.4591,
      "step": 362390
    },
    {
      "epoch": 0.755,
      "grad_norm": 0.8859267830848694,
      "learning_rate": 4.2617787362789546e-05,
      "loss": 3.3873,
      "step": 362400
    },
    {
      "epoch": 0.7550208333333334,
      "grad_norm": 0.8849830627441406,
      "learning_rate": 4.261090413634895e-05,
      "loss": 3.3565,
      "step": 362410
    },
    {
      "epoch": 0.7550416666666667,
      "grad_norm": 0.8363087177276611,
      "learning_rate": 4.2604021373786815e-05,
      "loss": 3.2495,
      "step": 362420
    },
    {
      "epoch": 0.7550625,
      "grad_norm": 0.9128260612487793,
      "learning_rate": 4.259713907513284e-05,
      "loss": 3.3277,
      "step": 362430
    },
    {
      "epoch": 0.7550833333333333,
      "grad_norm": 0.91180419921875,
      "learning_rate": 4.2590257240416655e-05,
      "loss": 3.363,
      "step": 362440
    },
    {
      "epoch": 0.7551041666666667,
      "grad_norm": 0.9179686903953552,
      "learning_rate": 4.258337586966799e-05,
      "loss": 3.4685,
      "step": 362450
    },
    {
      "epoch": 0.755125,
      "grad_norm": 0.9227803945541382,
      "learning_rate": 4.257649496291673e-05,
      "loss": 3.3428,
      "step": 362460
    },
    {
      "epoch": 0.7551458333333333,
      "grad_norm": 0.9693155884742737,
      "learning_rate": 4.256961452019243e-05,
      "loss": 3.3506,
      "step": 362470
    },
    {
      "epoch": 0.7551666666666667,
      "grad_norm": 0.8668514490127563,
      "learning_rate": 4.256273454152484e-05,
      "loss": 3.3198,
      "step": 362480
    },
    {
      "epoch": 0.7551875,
      "grad_norm": 0.8724231719970703,
      "learning_rate": 4.25558550269438e-05,
      "loss": 3.3539,
      "step": 362490
    },
    {
      "epoch": 0.7552083333333334,
      "grad_norm": 0.8968546986579895,
      "learning_rate": 4.254897597647888e-05,
      "loss": 3.3358,
      "step": 362500
    },
    {
      "epoch": 0.7552291666666666,
      "grad_norm": 0.8198855519294739,
      "learning_rate": 4.2542097390159854e-05,
      "loss": 3.4301,
      "step": 362510
    },
    {
      "epoch": 0.75525,
      "grad_norm": 0.8682417869567871,
      "learning_rate": 4.253521926801645e-05,
      "loss": 3.3625,
      "step": 362520
    },
    {
      "epoch": 0.7552708333333333,
      "grad_norm": 0.8248605728149414,
      "learning_rate": 4.2528341610078336e-05,
      "loss": 3.2472,
      "step": 362530
    },
    {
      "epoch": 0.7552916666666667,
      "grad_norm": 0.8583879470825195,
      "learning_rate": 4.252146441637526e-05,
      "loss": 3.3341,
      "step": 362540
    },
    {
      "epoch": 0.7553125,
      "grad_norm": 0.8611322641372681,
      "learning_rate": 4.2514587686936916e-05,
      "loss": 3.3667,
      "step": 362550
    },
    {
      "epoch": 0.7553333333333333,
      "grad_norm": 0.9885381460189819,
      "learning_rate": 4.2507711421793e-05,
      "loss": 3.3084,
      "step": 362560
    },
    {
      "epoch": 0.7553541666666667,
      "grad_norm": 0.9594805240631104,
      "learning_rate": 4.250083562097323e-05,
      "loss": 3.3973,
      "step": 362570
    },
    {
      "epoch": 0.755375,
      "grad_norm": 0.9296784400939941,
      "learning_rate": 4.2493960284507295e-05,
      "loss": 3.6024,
      "step": 362580
    },
    {
      "epoch": 0.7553958333333334,
      "grad_norm": 0.9127892851829529,
      "learning_rate": 4.248708541242491e-05,
      "loss": 3.3292,
      "step": 362590
    },
    {
      "epoch": 0.7554166666666666,
      "grad_norm": 0.9124234914779663,
      "learning_rate": 4.2480211004755735e-05,
      "loss": 3.3539,
      "step": 362600
    },
    {
      "epoch": 0.7554375,
      "grad_norm": 0.999401867389679,
      "learning_rate": 4.24733370615295e-05,
      "loss": 3.4866,
      "step": 362610
    },
    {
      "epoch": 0.7554583333333333,
      "grad_norm": 0.8696249127388,
      "learning_rate": 4.246646358277589e-05,
      "loss": 3.2434,
      "step": 362620
    },
    {
      "epoch": 0.7554791666666667,
      "grad_norm": 0.8100785613059998,
      "learning_rate": 4.245959056852459e-05,
      "loss": 3.2878,
      "step": 362630
    },
    {
      "epoch": 0.7555,
      "grad_norm": 0.9099183678627014,
      "learning_rate": 4.2452718018805294e-05,
      "loss": 3.3828,
      "step": 362640
    },
    {
      "epoch": 0.7555208333333333,
      "grad_norm": 0.9119060039520264,
      "learning_rate": 4.24458459336477e-05,
      "loss": 3.3236,
      "step": 362650
    },
    {
      "epoch": 0.7555416666666667,
      "grad_norm": 0.8716904520988464,
      "learning_rate": 4.243897431308145e-05,
      "loss": 3.4335,
      "step": 362660
    },
    {
      "epoch": 0.7555625,
      "grad_norm": 1.0243922472000122,
      "learning_rate": 4.2432103157136265e-05,
      "loss": 3.4454,
      "step": 362670
    },
    {
      "epoch": 0.7555833333333334,
      "grad_norm": 0.9309088587760925,
      "learning_rate": 4.242523246584183e-05,
      "loss": 3.3964,
      "step": 362680
    },
    {
      "epoch": 0.7556041666666666,
      "grad_norm": 1.1052716970443726,
      "learning_rate": 4.24183622392278e-05,
      "loss": 3.3876,
      "step": 362690
    },
    {
      "epoch": 0.755625,
      "grad_norm": 0.8028911352157593,
      "learning_rate": 4.2411492477323866e-05,
      "loss": 3.2537,
      "step": 362700
    },
    {
      "epoch": 0.7556458333333333,
      "grad_norm": 0.8394823670387268,
      "learning_rate": 4.240462318015969e-05,
      "loss": 3.2578,
      "step": 362710
    },
    {
      "epoch": 0.7556666666666667,
      "grad_norm": 0.8165772557258606,
      "learning_rate": 4.239775434776499e-05,
      "loss": 3.2033,
      "step": 362720
    },
    {
      "epoch": 0.7556875,
      "grad_norm": 0.9540988206863403,
      "learning_rate": 4.239088598016932e-05,
      "loss": 3.3122,
      "step": 362730
    },
    {
      "epoch": 0.7557083333333333,
      "grad_norm": 0.8844228386878967,
      "learning_rate": 4.2384018077402476e-05,
      "loss": 3.2944,
      "step": 362740
    },
    {
      "epoch": 0.7557291666666667,
      "grad_norm": 0.8964210748672485,
      "learning_rate": 4.2377150639494115e-05,
      "loss": 3.4479,
      "step": 362750
    },
    {
      "epoch": 0.75575,
      "grad_norm": 0.9187520742416382,
      "learning_rate": 4.237028366647378e-05,
      "loss": 3.4235,
      "step": 362760
    },
    {
      "epoch": 0.7557708333333333,
      "grad_norm": 0.9952281713485718,
      "learning_rate": 4.236341715837131e-05,
      "loss": 3.3534,
      "step": 362770
    },
    {
      "epoch": 0.7557916666666666,
      "grad_norm": 0.8610535860061646,
      "learning_rate": 4.235655111521621e-05,
      "loss": 3.3417,
      "step": 362780
    },
    {
      "epoch": 0.7558125,
      "grad_norm": 0.8484490513801575,
      "learning_rate": 4.234968553703818e-05,
      "loss": 3.3152,
      "step": 362790
    },
    {
      "epoch": 0.7558333333333334,
      "grad_norm": 0.7914009094238281,
      "learning_rate": 4.234282042386697e-05,
      "loss": 3.3049,
      "step": 362800
    },
    {
      "epoch": 0.7558541666666667,
      "grad_norm": 0.9493845701217651,
      "learning_rate": 4.2335955775732126e-05,
      "loss": 3.4089,
      "step": 362810
    },
    {
      "epoch": 0.755875,
      "grad_norm": 0.840607225894928,
      "learning_rate": 4.232909159266328e-05,
      "loss": 3.4447,
      "step": 362820
    },
    {
      "epoch": 0.7558958333333333,
      "grad_norm": 0.9465505480766296,
      "learning_rate": 4.2322227874690226e-05,
      "loss": 3.5042,
      "step": 362830
    },
    {
      "epoch": 0.7559166666666667,
      "grad_norm": 0.8313085436820984,
      "learning_rate": 4.23153646218425e-05,
      "loss": 3.3976,
      "step": 362840
    },
    {
      "epoch": 0.7559375,
      "grad_norm": 0.8233779072761536,
      "learning_rate": 4.2308501834149724e-05,
      "loss": 3.3074,
      "step": 362850
    },
    {
      "epoch": 0.7559583333333333,
      "grad_norm": 0.910443127155304,
      "learning_rate": 4.230163951164168e-05,
      "loss": 3.2054,
      "step": 362860
    },
    {
      "epoch": 0.7559791666666666,
      "grad_norm": 0.8089848756790161,
      "learning_rate": 4.229477765434788e-05,
      "loss": 3.3445,
      "step": 362870
    },
    {
      "epoch": 0.756,
      "grad_norm": 0.805152177810669,
      "learning_rate": 4.228791626229795e-05,
      "loss": 3.3206,
      "step": 362880
    },
    {
      "epoch": 0.7560208333333334,
      "grad_norm": 0.8528907895088196,
      "learning_rate": 4.228105533552169e-05,
      "loss": 3.2891,
      "step": 362890
    },
    {
      "epoch": 0.7560416666666666,
      "grad_norm": 0.891514241695404,
      "learning_rate": 4.2274194874048575e-05,
      "loss": 3.4119,
      "step": 362900
    },
    {
      "epoch": 0.7560625,
      "grad_norm": 0.7965971827507019,
      "learning_rate": 4.226733487790832e-05,
      "loss": 3.3014,
      "step": 362910
    },
    {
      "epoch": 0.7560833333333333,
      "grad_norm": 0.9002491235733032,
      "learning_rate": 4.226047534713051e-05,
      "loss": 3.3836,
      "step": 362920
    },
    {
      "epoch": 0.7561041666666667,
      "grad_norm": 0.8455721735954285,
      "learning_rate": 4.225361628174481e-05,
      "loss": 3.2098,
      "step": 362930
    },
    {
      "epoch": 0.756125,
      "grad_norm": 0.8587620258331299,
      "learning_rate": 4.2246757681780843e-05,
      "loss": 3.2817,
      "step": 362940
    },
    {
      "epoch": 0.7561458333333333,
      "grad_norm": 0.7759779095649719,
      "learning_rate": 4.2239899547268244e-05,
      "loss": 3.2172,
      "step": 362950
    },
    {
      "epoch": 0.7561666666666667,
      "grad_norm": 0.8371031880378723,
      "learning_rate": 4.2233041878236603e-05,
      "loss": 3.3657,
      "step": 362960
    },
    {
      "epoch": 0.7561875,
      "grad_norm": 0.9856789708137512,
      "learning_rate": 4.222618467471557e-05,
      "loss": 3.2794,
      "step": 362970
    },
    {
      "epoch": 0.7562083333333334,
      "grad_norm": 0.8501204252243042,
      "learning_rate": 4.221932793673475e-05,
      "loss": 3.3091,
      "step": 362980
    },
    {
      "epoch": 0.7562291666666666,
      "grad_norm": 0.9879630208015442,
      "learning_rate": 4.221247166432379e-05,
      "loss": 3.3815,
      "step": 362990
    },
    {
      "epoch": 0.75625,
      "grad_norm": 0.8073694109916687,
      "learning_rate": 4.220561585751228e-05,
      "loss": 3.3607,
      "step": 363000
    },
    {
      "epoch": 0.75625,
      "eval_loss": 4.0535383224487305,
      "eval_runtime": 8.5257,
      "eval_samples_per_second": 1.173,
      "eval_steps_per_second": 0.352,
      "step": 363000
    },
    {
      "epoch": 0.7562708333333333,
      "grad_norm": 0.8573564887046814,
      "learning_rate": 4.219876051632983e-05,
      "loss": 3.242,
      "step": 363010
    },
    {
      "epoch": 0.7562916666666667,
      "grad_norm": 0.9341957569122314,
      "learning_rate": 4.2191905640806065e-05,
      "loss": 3.4181,
      "step": 363020
    },
    {
      "epoch": 0.7563125,
      "grad_norm": 0.7769431471824646,
      "learning_rate": 4.218505123097066e-05,
      "loss": 3.3456,
      "step": 363030
    },
    {
      "epoch": 0.7563333333333333,
      "grad_norm": 0.8914611339569092,
      "learning_rate": 4.2178197286853055e-05,
      "loss": 3.4064,
      "step": 363040
    },
    {
      "epoch": 0.7563541666666667,
      "grad_norm": 0.8137301802635193,
      "learning_rate": 4.2171343808483006e-05,
      "loss": 3.4151,
      "step": 363050
    },
    {
      "epoch": 0.756375,
      "grad_norm": 0.9784421324729919,
      "learning_rate": 4.2164490795890106e-05,
      "loss": 3.2552,
      "step": 363060
    },
    {
      "epoch": 0.7563958333333334,
      "grad_norm": 0.9726386070251465,
      "learning_rate": 4.215763824910383e-05,
      "loss": 3.3955,
      "step": 363070
    },
    {
      "epoch": 0.7564166666666666,
      "grad_norm": 0.9151329398155212,
      "learning_rate": 4.215078616815393e-05,
      "loss": 3.4228,
      "step": 363080
    },
    {
      "epoch": 0.7564375,
      "grad_norm": 0.8180700540542603,
      "learning_rate": 4.214393455306999e-05,
      "loss": 3.3615,
      "step": 363090
    },
    {
      "epoch": 0.7564583333333333,
      "grad_norm": 0.8267884254455566,
      "learning_rate": 4.213708340388145e-05,
      "loss": 3.3892,
      "step": 363100
    },
    {
      "epoch": 0.7564791666666667,
      "grad_norm": 1.0828189849853516,
      "learning_rate": 4.213023272061808e-05,
      "loss": 3.387,
      "step": 363110
    },
    {
      "epoch": 0.7565,
      "grad_norm": 0.849315345287323,
      "learning_rate": 4.212338250330945e-05,
      "loss": 3.4348,
      "step": 363120
    },
    {
      "epoch": 0.7565208333333333,
      "grad_norm": 0.9723367691040039,
      "learning_rate": 4.2116532751985005e-05,
      "loss": 3.2926,
      "step": 363130
    },
    {
      "epoch": 0.7565416666666667,
      "grad_norm": 0.8564425110816956,
      "learning_rate": 4.210968346667452e-05,
      "loss": 3.3729,
      "step": 363140
    },
    {
      "epoch": 0.7565625,
      "grad_norm": 0.8277159333229065,
      "learning_rate": 4.2102834647407474e-05,
      "loss": 3.2944,
      "step": 363150
    },
    {
      "epoch": 0.7565833333333334,
      "grad_norm": 0.9145841598510742,
      "learning_rate": 4.2095986294213404e-05,
      "loss": 3.412,
      "step": 363160
    },
    {
      "epoch": 0.7566041666666666,
      "grad_norm": 0.7936486005783081,
      "learning_rate": 4.2089138407122084e-05,
      "loss": 3.3586,
      "step": 363170
    },
    {
      "epoch": 0.756625,
      "grad_norm": 1.006263017654419,
      "learning_rate": 4.20822909861629e-05,
      "loss": 3.4556,
      "step": 363180
    },
    {
      "epoch": 0.7566458333333334,
      "grad_norm": 0.8560402989387512,
      "learning_rate": 4.207544403136547e-05,
      "loss": 3.2408,
      "step": 363190
    },
    {
      "epoch": 0.7566666666666667,
      "grad_norm": 0.7898588180541992,
      "learning_rate": 4.2068597542759486e-05,
      "loss": 3.323,
      "step": 363200
    },
    {
      "epoch": 0.7566875,
      "grad_norm": 0.9448428153991699,
      "learning_rate": 4.20617515203744e-05,
      "loss": 3.4028,
      "step": 363210
    },
    {
      "epoch": 0.7567083333333333,
      "grad_norm": 0.848868727684021,
      "learning_rate": 4.2054905964239766e-05,
      "loss": 3.3166,
      "step": 363220
    },
    {
      "epoch": 0.7567291666666667,
      "grad_norm": 0.9460852146148682,
      "learning_rate": 4.20480608743853e-05,
      "loss": 3.4047,
      "step": 363230
    },
    {
      "epoch": 0.75675,
      "grad_norm": 0.912492573261261,
      "learning_rate": 4.2041216250840456e-05,
      "loss": 3.4227,
      "step": 363240
    },
    {
      "epoch": 0.7567708333333333,
      "grad_norm": 0.8599505424499512,
      "learning_rate": 4.203437209363476e-05,
      "loss": 3.2344,
      "step": 363250
    },
    {
      "epoch": 0.7567916666666666,
      "grad_norm": 0.9287285208702087,
      "learning_rate": 4.2027528402797926e-05,
      "loss": 3.3263,
      "step": 363260
    },
    {
      "epoch": 0.7568125,
      "grad_norm": 0.826687216758728,
      "learning_rate": 4.20206851783594e-05,
      "loss": 3.3796,
      "step": 363270
    },
    {
      "epoch": 0.7568333333333334,
      "grad_norm": 1.1412615776062012,
      "learning_rate": 4.201384242034878e-05,
      "loss": 3.3345,
      "step": 363280
    },
    {
      "epoch": 0.7568541666666667,
      "grad_norm": 0.8194014430046082,
      "learning_rate": 4.20070001287956e-05,
      "loss": 3.3973,
      "step": 363290
    },
    {
      "epoch": 0.756875,
      "grad_norm": 0.8231896758079529,
      "learning_rate": 4.2000158303729443e-05,
      "loss": 3.3323,
      "step": 363300
    },
    {
      "epoch": 0.7568958333333333,
      "grad_norm": 0.7990540862083435,
      "learning_rate": 4.199331694517984e-05,
      "loss": 3.3169,
      "step": 363310
    },
    {
      "epoch": 0.7569166666666667,
      "grad_norm": 0.8213127255439758,
      "learning_rate": 4.198647605317637e-05,
      "loss": 3.3671,
      "step": 363320
    },
    {
      "epoch": 0.7569375,
      "grad_norm": 0.8990783095359802,
      "learning_rate": 4.197963562774856e-05,
      "loss": 3.4113,
      "step": 363330
    },
    {
      "epoch": 0.7569583333333333,
      "grad_norm": 0.8672822713851929,
      "learning_rate": 4.197279566892598e-05,
      "loss": 3.2801,
      "step": 363340
    },
    {
      "epoch": 0.7569791666666666,
      "grad_norm": 0.859512984752655,
      "learning_rate": 4.196595617673814e-05,
      "loss": 3.187,
      "step": 363350
    },
    {
      "epoch": 0.757,
      "grad_norm": 0.8992663621902466,
      "learning_rate": 4.195911715121463e-05,
      "loss": 3.3199,
      "step": 363360
    },
    {
      "epoch": 0.7570208333333334,
      "grad_norm": 0.9181745648384094,
      "learning_rate": 4.195227859238496e-05,
      "loss": 3.4626,
      "step": 363370
    },
    {
      "epoch": 0.7570416666666666,
      "grad_norm": 0.824651837348938,
      "learning_rate": 4.1945440500278675e-05,
      "loss": 3.374,
      "step": 363380
    },
    {
      "epoch": 0.7570625,
      "grad_norm": 0.8484405279159546,
      "learning_rate": 4.1938602874925306e-05,
      "loss": 3.2896,
      "step": 363390
    },
    {
      "epoch": 0.7570833333333333,
      "grad_norm": 0.8469747304916382,
      "learning_rate": 4.193176571635447e-05,
      "loss": 3.3586,
      "step": 363400
    },
    {
      "epoch": 0.7571041666666667,
      "grad_norm": 0.9358379244804382,
      "learning_rate": 4.192492902459552e-05,
      "loss": 3.3853,
      "step": 363410
    },
    {
      "epoch": 0.757125,
      "grad_norm": 0.7755037546157837,
      "learning_rate": 4.191809279967814e-05,
      "loss": 3.314,
      "step": 363420
    },
    {
      "epoch": 0.7571458333333333,
      "grad_norm": 0.8466022610664368,
      "learning_rate": 4.191125704163188e-05,
      "loss": 3.301,
      "step": 363430
    },
    {
      "epoch": 0.7571666666666667,
      "grad_norm": 0.9302282333374023,
      "learning_rate": 4.190442175048611e-05,
      "loss": 3.3759,
      "step": 363440
    },
    {
      "epoch": 0.7571875,
      "grad_norm": 0.8422910571098328,
      "learning_rate": 4.189758692627048e-05,
      "loss": 3.3967,
      "step": 363450
    },
    {
      "epoch": 0.7572083333333334,
      "grad_norm": 0.9556868672370911,
      "learning_rate": 4.189075256901453e-05,
      "loss": 3.2632,
      "step": 363460
    },
    {
      "epoch": 0.7572291666666666,
      "grad_norm": 0.8157967925071716,
      "learning_rate": 4.188391867874768e-05,
      "loss": 3.3289,
      "step": 363470
    },
    {
      "epoch": 0.75725,
      "grad_norm": 0.8509716987609863,
      "learning_rate": 4.187708525549952e-05,
      "loss": 3.2446,
      "step": 363480
    },
    {
      "epoch": 0.7572708333333333,
      "grad_norm": 0.7881905436515808,
      "learning_rate": 4.18702522992996e-05,
      "loss": 3.4308,
      "step": 363490
    },
    {
      "epoch": 0.7572916666666667,
      "grad_norm": 0.8077810406684875,
      "learning_rate": 4.1863419810177305e-05,
      "loss": 3.342,
      "step": 363500
    },
    {
      "epoch": 0.7573125,
      "grad_norm": 0.9037941098213196,
      "learning_rate": 4.1856587788162334e-05,
      "loss": 3.3066,
      "step": 363510
    },
    {
      "epoch": 0.7573333333333333,
      "grad_norm": 1.0695922374725342,
      "learning_rate": 4.1849756233284034e-05,
      "loss": 3.4633,
      "step": 363520
    },
    {
      "epoch": 0.7573541666666667,
      "grad_norm": 0.9764788150787354,
      "learning_rate": 4.184292514557193e-05,
      "loss": 3.1355,
      "step": 363530
    },
    {
      "epoch": 0.757375,
      "grad_norm": 0.8669185042381287,
      "learning_rate": 4.1836094525055694e-05,
      "loss": 3.2124,
      "step": 363540
    },
    {
      "epoch": 0.7573958333333334,
      "grad_norm": 0.9311010241508484,
      "learning_rate": 4.182926437176466e-05,
      "loss": 3.28,
      "step": 363550
    },
    {
      "epoch": 0.7574166666666666,
      "grad_norm": 0.9023072123527527,
      "learning_rate": 4.182243468572833e-05,
      "loss": 3.3354,
      "step": 363560
    },
    {
      "epoch": 0.7574375,
      "grad_norm": 0.8410486578941345,
      "learning_rate": 4.181560546697636e-05,
      "loss": 3.3682,
      "step": 363570
    },
    {
      "epoch": 0.7574583333333333,
      "grad_norm": 0.9145520329475403,
      "learning_rate": 4.180877671553811e-05,
      "loss": 3.3336,
      "step": 363580
    },
    {
      "epoch": 0.7574791666666667,
      "grad_norm": 0.9888020753860474,
      "learning_rate": 4.1801948431443064e-05,
      "loss": 3.4296,
      "step": 363590
    },
    {
      "epoch": 0.7575,
      "grad_norm": 0.9572927951812744,
      "learning_rate": 4.179512061472087e-05,
      "loss": 3.3258,
      "step": 363600
    },
    {
      "epoch": 0.7575208333333333,
      "grad_norm": 1.0825673341751099,
      "learning_rate": 4.178829326540089e-05,
      "loss": 3.4171,
      "step": 363610
    },
    {
      "epoch": 0.7575416666666667,
      "grad_norm": 0.9080767631530762,
      "learning_rate": 4.178146638351264e-05,
      "loss": 3.276,
      "step": 363620
    },
    {
      "epoch": 0.7575625,
      "grad_norm": 0.8406517505645752,
      "learning_rate": 4.177463996908561e-05,
      "loss": 3.3058,
      "step": 363630
    },
    {
      "epoch": 0.7575833333333334,
      "grad_norm": 0.8057265281677246,
      "learning_rate": 4.176781402214931e-05,
      "loss": 3.4334,
      "step": 363640
    },
    {
      "epoch": 0.7576041666666666,
      "grad_norm": 0.8574205636978149,
      "learning_rate": 4.176098854273321e-05,
      "loss": 3.274,
      "step": 363650
    },
    {
      "epoch": 0.757625,
      "grad_norm": 0.8892747163772583,
      "learning_rate": 4.1754163530866786e-05,
      "loss": 3.2708,
      "step": 363660
    },
    {
      "epoch": 0.7576458333333334,
      "grad_norm": 0.9806995987892151,
      "learning_rate": 4.174733898657955e-05,
      "loss": 3.3874,
      "step": 363670
    },
    {
      "epoch": 0.7576666666666667,
      "grad_norm": 0.9158353209495544,
      "learning_rate": 4.174051490990095e-05,
      "loss": 3.3731,
      "step": 363680
    },
    {
      "epoch": 0.7576875,
      "grad_norm": 1.0738540887832642,
      "learning_rate": 4.173369130086046e-05,
      "loss": 3.3697,
      "step": 363690
    },
    {
      "epoch": 0.7577083333333333,
      "grad_norm": 0.9699626564979553,
      "learning_rate": 4.1726868159487584e-05,
      "loss": 3.3198,
      "step": 363700
    },
    {
      "epoch": 0.7577291666666667,
      "grad_norm": 0.8918163776397705,
      "learning_rate": 4.1720045485811766e-05,
      "loss": 3.2531,
      "step": 363710
    },
    {
      "epoch": 0.75775,
      "grad_norm": 0.8444828391075134,
      "learning_rate": 4.17132232798625e-05,
      "loss": 3.4125,
      "step": 363720
    },
    {
      "epoch": 0.7577708333333333,
      "grad_norm": 0.8819227814674377,
      "learning_rate": 4.1706401541669256e-05,
      "loss": 3.3249,
      "step": 363730
    },
    {
      "epoch": 0.7577916666666666,
      "grad_norm": 0.8602322936058044,
      "learning_rate": 4.169958027126148e-05,
      "loss": 3.3832,
      "step": 363740
    },
    {
      "epoch": 0.7578125,
      "grad_norm": 0.9537685513496399,
      "learning_rate": 4.169275946866865e-05,
      "loss": 3.2277,
      "step": 363750
    },
    {
      "epoch": 0.7578333333333334,
      "grad_norm": 0.9294643998146057,
      "learning_rate": 4.168593913392023e-05,
      "loss": 3.3714,
      "step": 363760
    },
    {
      "epoch": 0.7578541666666667,
      "grad_norm": 0.9232461452484131,
      "learning_rate": 4.167911926704572e-05,
      "loss": 3.2783,
      "step": 363770
    },
    {
      "epoch": 0.757875,
      "grad_norm": 0.9573192596435547,
      "learning_rate": 4.167229986807445e-05,
      "loss": 3.3767,
      "step": 363780
    },
    {
      "epoch": 0.7578958333333333,
      "grad_norm": 0.9207096695899963,
      "learning_rate": 4.166548093703601e-05,
      "loss": 3.3007,
      "step": 363790
    },
    {
      "epoch": 0.7579166666666667,
      "grad_norm": 0.7984396815299988,
      "learning_rate": 4.1658662473959865e-05,
      "loss": 3.304,
      "step": 363800
    },
    {
      "epoch": 0.7579375,
      "grad_norm": 0.9285310506820679,
      "learning_rate": 4.165184447887532e-05,
      "loss": 3.2832,
      "step": 363810
    },
    {
      "epoch": 0.7579583333333333,
      "grad_norm": 0.8885646462440491,
      "learning_rate": 4.1645026951811956e-05,
      "loss": 3.2965,
      "step": 363820
    },
    {
      "epoch": 0.7579791666666666,
      "grad_norm": 0.9113637804985046,
      "learning_rate": 4.163820989279925e-05,
      "loss": 3.2936,
      "step": 363830
    },
    {
      "epoch": 0.758,
      "grad_norm": 1.057772159576416,
      "learning_rate": 4.163139330186647e-05,
      "loss": 3.4266,
      "step": 363840
    },
    {
      "epoch": 0.7580208333333334,
      "grad_norm": 0.8826910853385925,
      "learning_rate": 4.162457717904323e-05,
      "loss": 3.3183,
      "step": 363850
    },
    {
      "epoch": 0.7580416666666666,
      "grad_norm": 0.9002718925476074,
      "learning_rate": 4.161776152435898e-05,
      "loss": 3.2903,
      "step": 363860
    },
    {
      "epoch": 0.7580625,
      "grad_norm": 1.0747010707855225,
      "learning_rate": 4.1610946337842985e-05,
      "loss": 3.4562,
      "step": 363870
    },
    {
      "epoch": 0.7580833333333333,
      "grad_norm": 0.7889223098754883,
      "learning_rate": 4.160413161952485e-05,
      "loss": 3.3813,
      "step": 363880
    },
    {
      "epoch": 0.7581041666666667,
      "grad_norm": 0.9281442761421204,
      "learning_rate": 4.1597317369434005e-05,
      "loss": 3.3044,
      "step": 363890
    },
    {
      "epoch": 0.758125,
      "grad_norm": 0.851019561290741,
      "learning_rate": 4.1590503587599816e-05,
      "loss": 3.3064,
      "step": 363900
    },
    {
      "epoch": 0.7581458333333333,
      "grad_norm": 0.9212167859077454,
      "learning_rate": 4.1583690274051715e-05,
      "loss": 3.4756,
      "step": 363910
    },
    {
      "epoch": 0.7581666666666667,
      "grad_norm": 0.8753844499588013,
      "learning_rate": 4.157687742881917e-05,
      "loss": 3.2251,
      "step": 363920
    },
    {
      "epoch": 0.7581875,
      "grad_norm": 0.8716192841529846,
      "learning_rate": 4.157006505193159e-05,
      "loss": 3.3033,
      "step": 363930
    },
    {
      "epoch": 0.7582083333333334,
      "grad_norm": 0.8664863705635071,
      "learning_rate": 4.156325314341841e-05,
      "loss": 3.3524,
      "step": 363940
    },
    {
      "epoch": 0.7582291666666666,
      "grad_norm": 0.8810579180717468,
      "learning_rate": 4.155644170330907e-05,
      "loss": 3.3345,
      "step": 363950
    },
    {
      "epoch": 0.75825,
      "grad_norm": 0.889947772026062,
      "learning_rate": 4.154963073163295e-05,
      "loss": 3.2456,
      "step": 363960
    },
    {
      "epoch": 0.7582708333333333,
      "grad_norm": 0.9050204157829285,
      "learning_rate": 4.154282022841952e-05,
      "loss": 3.3348,
      "step": 363970
    },
    {
      "epoch": 0.7582916666666667,
      "grad_norm": 0.8949998617172241,
      "learning_rate": 4.1536010193698164e-05,
      "loss": 3.457,
      "step": 363980
    },
    {
      "epoch": 0.7583125,
      "grad_norm": 0.8955286741256714,
      "learning_rate": 4.152920062749831e-05,
      "loss": 3.5415,
      "step": 363990
    },
    {
      "epoch": 0.7583333333333333,
      "grad_norm": 0.8626871109008789,
      "learning_rate": 4.1522391529849394e-05,
      "loss": 3.3699,
      "step": 364000
    },
    {
      "epoch": 0.7583333333333333,
      "eval_loss": 4.054907321929932,
      "eval_runtime": 8.3714,
      "eval_samples_per_second": 1.195,
      "eval_steps_per_second": 0.358,
      "step": 364000
    },
    {
      "epoch": 0.7583541666666667,
      "grad_norm": 0.8533780574798584,
      "learning_rate": 4.151558290078078e-05,
      "loss": 3.3402,
      "step": 364010
    },
    {
      "epoch": 0.758375,
      "grad_norm": 0.820424497127533,
      "learning_rate": 4.150877474032192e-05,
      "loss": 3.2841,
      "step": 364020
    },
    {
      "epoch": 0.7583958333333334,
      "grad_norm": 0.8916465640068054,
      "learning_rate": 4.1501967048502204e-05,
      "loss": 3.3614,
      "step": 364030
    },
    {
      "epoch": 0.7584166666666666,
      "grad_norm": 0.8563637137413025,
      "learning_rate": 4.149515982535106e-05,
      "loss": 3.332,
      "step": 364040
    },
    {
      "epoch": 0.7584375,
      "grad_norm": 0.8880654573440552,
      "learning_rate": 4.148835307089786e-05,
      "loss": 3.3362,
      "step": 364050
    },
    {
      "epoch": 0.7584583333333333,
      "grad_norm": 1.027960181236267,
      "learning_rate": 4.148154678517202e-05,
      "loss": 3.3662,
      "step": 364060
    },
    {
      "epoch": 0.7584791666666667,
      "grad_norm": 0.8803079724311829,
      "learning_rate": 4.147474096820296e-05,
      "loss": 3.3109,
      "step": 364070
    },
    {
      "epoch": 0.7585,
      "grad_norm": 0.935834527015686,
      "learning_rate": 4.1467935620020046e-05,
      "loss": 3.2864,
      "step": 364080
    },
    {
      "epoch": 0.7585208333333333,
      "grad_norm": 0.8027186393737793,
      "learning_rate": 4.14611307406527e-05,
      "loss": 3.2767,
      "step": 364090
    },
    {
      "epoch": 0.7585416666666667,
      "grad_norm": 0.8146408796310425,
      "learning_rate": 4.1454326330130303e-05,
      "loss": 3.1791,
      "step": 364100
    },
    {
      "epoch": 0.7585625,
      "grad_norm": 0.8304707407951355,
      "learning_rate": 4.144752238848226e-05,
      "loss": 3.2907,
      "step": 364110
    },
    {
      "epoch": 0.7585833333333334,
      "grad_norm": 0.9233368039131165,
      "learning_rate": 4.144071891573794e-05,
      "loss": 3.3703,
      "step": 364120
    },
    {
      "epoch": 0.7586041666666666,
      "grad_norm": 0.9730920791625977,
      "learning_rate": 4.1433915911926754e-05,
      "loss": 3.2915,
      "step": 364130
    },
    {
      "epoch": 0.758625,
      "grad_norm": 0.8490927219390869,
      "learning_rate": 4.14271133770781e-05,
      "loss": 3.2711,
      "step": 364140
    },
    {
      "epoch": 0.7586458333333334,
      "grad_norm": 0.844977080821991,
      "learning_rate": 4.142031131122128e-05,
      "loss": 3.2584,
      "step": 364150
    },
    {
      "epoch": 0.7586666666666667,
      "grad_norm": 0.98223477602005,
      "learning_rate": 4.141350971438577e-05,
      "loss": 3.3327,
      "step": 364160
    },
    {
      "epoch": 0.7586875,
      "grad_norm": 0.9094030261039734,
      "learning_rate": 4.140670858660095e-05,
      "loss": 3.3138,
      "step": 364170
    },
    {
      "epoch": 0.7587083333333333,
      "grad_norm": 0.8952599763870239,
      "learning_rate": 4.139990792789612e-05,
      "loss": 3.4151,
      "step": 364180
    },
    {
      "epoch": 0.7587291666666667,
      "grad_norm": 0.9216698408126831,
      "learning_rate": 4.139310773830067e-05,
      "loss": 3.3211,
      "step": 364190
    },
    {
      "epoch": 0.75875,
      "grad_norm": 0.8785764575004578,
      "learning_rate": 4.1386308017844086e-05,
      "loss": 3.3278,
      "step": 364200
    },
    {
      "epoch": 0.7587708333333333,
      "grad_norm": 0.8500252962112427,
      "learning_rate": 4.137950876655563e-05,
      "loss": 3.3223,
      "step": 364210
    },
    {
      "epoch": 0.7587916666666666,
      "grad_norm": 0.9510350823402405,
      "learning_rate": 4.1372709984464635e-05,
      "loss": 3.2496,
      "step": 364220
    },
    {
      "epoch": 0.7588125,
      "grad_norm": 0.935429036617279,
      "learning_rate": 4.136591167160063e-05,
      "loss": 3.4109,
      "step": 364230
    },
    {
      "epoch": 0.7588333333333334,
      "grad_norm": 0.8702226281166077,
      "learning_rate": 4.135911382799284e-05,
      "loss": 3.3356,
      "step": 364240
    },
    {
      "epoch": 0.7588541666666667,
      "grad_norm": 0.8676965236663818,
      "learning_rate": 4.1352316453670654e-05,
      "loss": 3.2552,
      "step": 364250
    },
    {
      "epoch": 0.758875,
      "grad_norm": 0.9780396223068237,
      "learning_rate": 4.1345519548663516e-05,
      "loss": 3.4054,
      "step": 364260
    },
    {
      "epoch": 0.7588958333333333,
      "grad_norm": 0.9407360553741455,
      "learning_rate": 4.133872311300071e-05,
      "loss": 3.3289,
      "step": 364270
    },
    {
      "epoch": 0.7589166666666667,
      "grad_norm": 1.0532805919647217,
      "learning_rate": 4.133192714671157e-05,
      "loss": 3.4449,
      "step": 364280
    },
    {
      "epoch": 0.7589375,
      "grad_norm": 1.148931622505188,
      "learning_rate": 4.132513164982552e-05,
      "loss": 3.343,
      "step": 364290
    },
    {
      "epoch": 0.7589583333333333,
      "grad_norm": 0.8272469639778137,
      "learning_rate": 4.131833662237187e-05,
      "loss": 3.3429,
      "step": 364300
    },
    {
      "epoch": 0.7589791666666666,
      "grad_norm": 0.8568850755691528,
      "learning_rate": 4.131154206438e-05,
      "loss": 3.1824,
      "step": 364310
    },
    {
      "epoch": 0.759,
      "grad_norm": 0.827265739440918,
      "learning_rate": 4.1304747975879235e-05,
      "loss": 3.2458,
      "step": 364320
    },
    {
      "epoch": 0.7590208333333334,
      "grad_norm": 0.8479803204536438,
      "learning_rate": 4.1297954356898936e-05,
      "loss": 3.3719,
      "step": 364330
    },
    {
      "epoch": 0.7590416666666666,
      "grad_norm": 0.8752313852310181,
      "learning_rate": 4.1291161207468444e-05,
      "loss": 3.4288,
      "step": 364340
    },
    {
      "epoch": 0.7590625,
      "grad_norm": 0.8070383071899414,
      "learning_rate": 4.1284368527617114e-05,
      "loss": 3.2607,
      "step": 364350
    },
    {
      "epoch": 0.7590833333333333,
      "grad_norm": 0.8270033597946167,
      "learning_rate": 4.127757631737427e-05,
      "loss": 3.2811,
      "step": 364360
    },
    {
      "epoch": 0.7591041666666667,
      "grad_norm": 0.9561395049095154,
      "learning_rate": 4.1270784576769265e-05,
      "loss": 3.4762,
      "step": 364370
    },
    {
      "epoch": 0.759125,
      "grad_norm": 0.8886944651603699,
      "learning_rate": 4.126399330583144e-05,
      "loss": 3.3501,
      "step": 364380
    },
    {
      "epoch": 0.7591458333333333,
      "grad_norm": 0.8310759663581848,
      "learning_rate": 4.1257202504590125e-05,
      "loss": 3.282,
      "step": 364390
    },
    {
      "epoch": 0.7591666666666667,
      "grad_norm": 0.8842018246650696,
      "learning_rate": 4.1250412173074635e-05,
      "loss": 3.281,
      "step": 364400
    },
    {
      "epoch": 0.7591875,
      "grad_norm": 0.806523859500885,
      "learning_rate": 4.1243622311314335e-05,
      "loss": 3.2755,
      "step": 364410
    },
    {
      "epoch": 0.7592083333333334,
      "grad_norm": 0.9111571311950684,
      "learning_rate": 4.1236832919338524e-05,
      "loss": 3.3023,
      "step": 364420
    },
    {
      "epoch": 0.7592291666666666,
      "grad_norm": 0.923375129699707,
      "learning_rate": 4.123004399717655e-05,
      "loss": 3.3526,
      "step": 364430
    },
    {
      "epoch": 0.75925,
      "grad_norm": 0.8225484490394592,
      "learning_rate": 4.122325554485773e-05,
      "loss": 3.2525,
      "step": 364440
    },
    {
      "epoch": 0.7592708333333333,
      "grad_norm": 0.9409485459327698,
      "learning_rate": 4.1216467562411395e-05,
      "loss": 3.25,
      "step": 364450
    },
    {
      "epoch": 0.7592916666666667,
      "grad_norm": 0.868788480758667,
      "learning_rate": 4.120968004986685e-05,
      "loss": 3.2272,
      "step": 364460
    },
    {
      "epoch": 0.7593125,
      "grad_norm": 0.9060137867927551,
      "learning_rate": 4.120289300725343e-05,
      "loss": 3.2716,
      "step": 364470
    },
    {
      "epoch": 0.7593333333333333,
      "grad_norm": 0.8694103956222534,
      "learning_rate": 4.119610643460045e-05,
      "loss": 3.3792,
      "step": 364480
    },
    {
      "epoch": 0.7593541666666667,
      "grad_norm": 0.8617694973945618,
      "learning_rate": 4.1189320331937274e-05,
      "loss": 3.3645,
      "step": 364490
    },
    {
      "epoch": 0.759375,
      "grad_norm": 0.881170928478241,
      "learning_rate": 4.118253469929306e-05,
      "loss": 3.311,
      "step": 364500
    },
    {
      "epoch": 0.7593958333333334,
      "grad_norm": 0.9295607805252075,
      "learning_rate": 4.1175749536697314e-05,
      "loss": 3.3445,
      "step": 364510
    },
    {
      "epoch": 0.7594166666666666,
      "grad_norm": 0.8353559374809265,
      "learning_rate": 4.116896484417921e-05,
      "loss": 3.4719,
      "step": 364520
    },
    {
      "epoch": 0.7594375,
      "grad_norm": 0.8750344514846802,
      "learning_rate": 4.116218062176807e-05,
      "loss": 3.2917,
      "step": 364530
    },
    {
      "epoch": 0.7594583333333333,
      "grad_norm": 0.9845455884933472,
      "learning_rate": 4.115539686949331e-05,
      "loss": 3.3519,
      "step": 364540
    },
    {
      "epoch": 0.7594791666666667,
      "grad_norm": 1.0017293691635132,
      "learning_rate": 4.11486135873841e-05,
      "loss": 3.3298,
      "step": 364550
    },
    {
      "epoch": 0.7595,
      "grad_norm": 0.8291935920715332,
      "learning_rate": 4.114183077546975e-05,
      "loss": 3.2897,
      "step": 364560
    },
    {
      "epoch": 0.7595208333333333,
      "grad_norm": 0.9289596676826477,
      "learning_rate": 4.11350484337797e-05,
      "loss": 3.3688,
      "step": 364570
    },
    {
      "epoch": 0.7595416666666667,
      "grad_norm": 0.8722301721572876,
      "learning_rate": 4.11282665623431e-05,
      "loss": 3.362,
      "step": 364580
    },
    {
      "epoch": 0.7595625,
      "grad_norm": 0.8432066440582275,
      "learning_rate": 4.1121485161189247e-05,
      "loss": 3.2457,
      "step": 364590
    },
    {
      "epoch": 0.7595833333333334,
      "grad_norm": 0.9371433258056641,
      "learning_rate": 4.111470423034758e-05,
      "loss": 3.4021,
      "step": 364600
    },
    {
      "epoch": 0.7596041666666666,
      "grad_norm": 0.8701602816581726,
      "learning_rate": 4.110792376984723e-05,
      "loss": 3.094,
      "step": 364610
    },
    {
      "epoch": 0.759625,
      "grad_norm": 0.9672655463218689,
      "learning_rate": 4.110114377971751e-05,
      "loss": 3.419,
      "step": 364620
    },
    {
      "epoch": 0.7596458333333334,
      "grad_norm": 0.9215281009674072,
      "learning_rate": 4.109436425998783e-05,
      "loss": 3.3945,
      "step": 364630
    },
    {
      "epoch": 0.7596666666666667,
      "grad_norm": 0.87033611536026,
      "learning_rate": 4.108758521068734e-05,
      "loss": 3.3539,
      "step": 364640
    },
    {
      "epoch": 0.7596875,
      "grad_norm": 0.8548164963722229,
      "learning_rate": 4.1080806631845384e-05,
      "loss": 3.3867,
      "step": 364650
    },
    {
      "epoch": 0.7597083333333333,
      "grad_norm": 0.8387874960899353,
      "learning_rate": 4.1074028523491234e-05,
      "loss": 3.2901,
      "step": 364660
    },
    {
      "epoch": 0.7597291666666667,
      "grad_norm": 0.8743119835853577,
      "learning_rate": 4.106725088565415e-05,
      "loss": 3.3505,
      "step": 364670
    },
    {
      "epoch": 0.75975,
      "grad_norm": 0.9152104258537292,
      "learning_rate": 4.106047371836342e-05,
      "loss": 3.3349,
      "step": 364680
    },
    {
      "epoch": 0.7597708333333333,
      "grad_norm": 0.8523278832435608,
      "learning_rate": 4.105369702164834e-05,
      "loss": 3.4059,
      "step": 364690
    },
    {
      "epoch": 0.7597916666666666,
      "grad_norm": 0.8481956124305725,
      "learning_rate": 4.1046920795538145e-05,
      "loss": 3.3319,
      "step": 364700
    },
    {
      "epoch": 0.7598125,
      "grad_norm": 0.8786318302154541,
      "learning_rate": 4.104014504006215e-05,
      "loss": 3.25,
      "step": 364710
    },
    {
      "epoch": 0.7598333333333334,
      "grad_norm": 0.8879251480102539,
      "learning_rate": 4.1033369755249576e-05,
      "loss": 3.2522,
      "step": 364720
    },
    {
      "epoch": 0.7598541666666667,
      "grad_norm": 0.8948416113853455,
      "learning_rate": 4.1026594941129724e-05,
      "loss": 3.388,
      "step": 364730
    },
    {
      "epoch": 0.759875,
      "grad_norm": 0.8491002321243286,
      "learning_rate": 4.101982059773185e-05,
      "loss": 3.2705,
      "step": 364740
    },
    {
      "epoch": 0.7598958333333333,
      "grad_norm": 0.9134940505027771,
      "learning_rate": 4.1013046725085215e-05,
      "loss": 3.2182,
      "step": 364750
    },
    {
      "epoch": 0.7599166666666667,
      "grad_norm": 0.8357551693916321,
      "learning_rate": 4.100627332321906e-05,
      "loss": 3.2799,
      "step": 364760
    },
    {
      "epoch": 0.7599375,
      "grad_norm": 0.8641694784164429,
      "learning_rate": 4.099950039216273e-05,
      "loss": 3.3024,
      "step": 364770
    },
    {
      "epoch": 0.7599583333333333,
      "grad_norm": 0.9565331339836121,
      "learning_rate": 4.0992727931945295e-05,
      "loss": 3.2546,
      "step": 364780
    },
    {
      "epoch": 0.7599791666666667,
      "grad_norm": 0.8222571015357971,
      "learning_rate": 4.0985955942596194e-05,
      "loss": 3.3197,
      "step": 364790
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8971823453903198,
      "learning_rate": 4.097918442414466e-05,
      "loss": 3.2686,
      "step": 364800
    },
    {
      "epoch": 0.7600208333333334,
      "grad_norm": 0.8632863759994507,
      "learning_rate": 4.097241337661979e-05,
      "loss": 3.3439,
      "step": 364810
    },
    {
      "epoch": 0.7600416666666666,
      "grad_norm": 0.9802466034889221,
      "learning_rate": 4.0965642800051e-05,
      "loss": 3.3591,
      "step": 364820
    },
    {
      "epoch": 0.7600625,
      "grad_norm": 0.827686607837677,
      "learning_rate": 4.095887269446751e-05,
      "loss": 3.3398,
      "step": 364830
    },
    {
      "epoch": 0.7600833333333333,
      "grad_norm": 0.8879682421684265,
      "learning_rate": 4.095210305989844e-05,
      "loss": 3.4759,
      "step": 364840
    },
    {
      "epoch": 0.7601041666666667,
      "grad_norm": 0.9642176032066345,
      "learning_rate": 4.0945333896373165e-05,
      "loss": 3.4257,
      "step": 364850
    },
    {
      "epoch": 0.760125,
      "grad_norm": 0.8961551785469055,
      "learning_rate": 4.093856520392092e-05,
      "loss": 3.2595,
      "step": 364860
    },
    {
      "epoch": 0.7601458333333333,
      "grad_norm": 0.8562215566635132,
      "learning_rate": 4.093179698257081e-05,
      "loss": 3.2788,
      "step": 364870
    },
    {
      "epoch": 0.7601666666666667,
      "grad_norm": 0.8416145443916321,
      "learning_rate": 4.092502923235222e-05,
      "loss": 3.3204,
      "step": 364880
    },
    {
      "epoch": 0.7601875,
      "grad_norm": 0.8284718990325928,
      "learning_rate": 4.091826195329438e-05,
      "loss": 3.3983,
      "step": 364890
    },
    {
      "epoch": 0.7602083333333334,
      "grad_norm": 0.9129623174667358,
      "learning_rate": 4.091149514542637e-05,
      "loss": 3.351,
      "step": 364900
    },
    {
      "epoch": 0.7602291666666666,
      "grad_norm": 0.8819419741630554,
      "learning_rate": 4.0904728808777624e-05,
      "loss": 3.2609,
      "step": 364910
    },
    {
      "epoch": 0.76025,
      "grad_norm": 1.068585753440857,
      "learning_rate": 4.08979629433772e-05,
      "loss": 3.2741,
      "step": 364920
    },
    {
      "epoch": 0.7602708333333333,
      "grad_norm": 0.9061833024024963,
      "learning_rate": 4.0891197549254365e-05,
      "loss": 3.2725,
      "step": 364930
    },
    {
      "epoch": 0.7602916666666667,
      "grad_norm": 0.868495523929596,
      "learning_rate": 4.0884432626438455e-05,
      "loss": 3.3243,
      "step": 364940
    },
    {
      "epoch": 0.7603125,
      "grad_norm": 0.959355354309082,
      "learning_rate": 4.087766817495855e-05,
      "loss": 3.3533,
      "step": 364950
    },
    {
      "epoch": 0.7603333333333333,
      "grad_norm": 0.9634575843811035,
      "learning_rate": 4.087090419484389e-05,
      "loss": 3.3719,
      "step": 364960
    },
    {
      "epoch": 0.7603541666666667,
      "grad_norm": 0.8670060038566589,
      "learning_rate": 4.086414068612382e-05,
      "loss": 3.4101,
      "step": 364970
    },
    {
      "epoch": 0.760375,
      "grad_norm": 0.9244104623794556,
      "learning_rate": 4.08573776488274e-05,
      "loss": 3.2744,
      "step": 364980
    },
    {
      "epoch": 0.7603958333333334,
      "grad_norm": 0.9088358283042908,
      "learning_rate": 4.085061508298387e-05,
      "loss": 3.4027,
      "step": 364990
    },
    {
      "epoch": 0.7604166666666666,
      "grad_norm": 1.1728107929229736,
      "learning_rate": 4.084385298862258e-05,
      "loss": 3.3595,
      "step": 365000
    },
    {
      "epoch": 0.7604166666666666,
      "eval_loss": 4.05361270904541,
      "eval_runtime": 8.4642,
      "eval_samples_per_second": 1.181,
      "eval_steps_per_second": 0.354,
      "step": 365000
    },
    {
      "epoch": 0.7604375,
      "grad_norm": 1.0965588092803955,
      "learning_rate": 4.083709136577259e-05,
      "loss": 3.2515,
      "step": 365010
    },
    {
      "epoch": 0.7604583333333333,
      "grad_norm": 0.811534583568573,
      "learning_rate": 4.0830330214463155e-05,
      "loss": 3.3233,
      "step": 365020
    },
    {
      "epoch": 0.7604791666666667,
      "grad_norm": 0.8196481466293335,
      "learning_rate": 4.0823569534723465e-05,
      "loss": 3.3587,
      "step": 365030
    },
    {
      "epoch": 0.7605,
      "grad_norm": 0.8184170126914978,
      "learning_rate": 4.081680932658276e-05,
      "loss": 3.4307,
      "step": 365040
    },
    {
      "epoch": 0.7605208333333333,
      "grad_norm": 0.9117322564125061,
      "learning_rate": 4.081004959007021e-05,
      "loss": 3.3085,
      "step": 365050
    },
    {
      "epoch": 0.7605416666666667,
      "grad_norm": 0.8906936645507812,
      "learning_rate": 4.0803290325215036e-05,
      "loss": 3.3698,
      "step": 365060
    },
    {
      "epoch": 0.7605625,
      "grad_norm": 0.9164783358573914,
      "learning_rate": 4.079653153204642e-05,
      "loss": 3.351,
      "step": 365070
    },
    {
      "epoch": 0.7605833333333333,
      "grad_norm": 1.057348370552063,
      "learning_rate": 4.0789773210593546e-05,
      "loss": 3.2194,
      "step": 365080
    },
    {
      "epoch": 0.7606041666666666,
      "grad_norm": 0.7897048592567444,
      "learning_rate": 4.078301536088564e-05,
      "loss": 3.2798,
      "step": 365090
    },
    {
      "epoch": 0.760625,
      "grad_norm": 0.8026020526885986,
      "learning_rate": 4.077625798295188e-05,
      "loss": 3.401,
      "step": 365100
    },
    {
      "epoch": 0.7606458333333334,
      "grad_norm": 0.8845285773277283,
      "learning_rate": 4.076950107682143e-05,
      "loss": 3.438,
      "step": 365110
    },
    {
      "epoch": 0.7606666666666667,
      "grad_norm": 0.9804208874702454,
      "learning_rate": 4.0762744642523526e-05,
      "loss": 3.4156,
      "step": 365120
    },
    {
      "epoch": 0.7606875,
      "grad_norm": 0.865703284740448,
      "learning_rate": 4.07559886800873e-05,
      "loss": 3.3102,
      "step": 365130
    },
    {
      "epoch": 0.7607083333333333,
      "grad_norm": 0.9175465703010559,
      "learning_rate": 4.074923318954202e-05,
      "loss": 3.2841,
      "step": 365140
    },
    {
      "epoch": 0.7607291666666667,
      "grad_norm": 0.8300736546516418,
      "learning_rate": 4.074247817091673e-05,
      "loss": 3.2899,
      "step": 365150
    },
    {
      "epoch": 0.76075,
      "grad_norm": 1.222267508506775,
      "learning_rate": 4.073572362424072e-05,
      "loss": 3.3721,
      "step": 365160
    },
    {
      "epoch": 0.7607708333333333,
      "grad_norm": 0.9296270608901978,
      "learning_rate": 4.0728969549543176e-05,
      "loss": 3.3585,
      "step": 365170
    },
    {
      "epoch": 0.7607916666666666,
      "grad_norm": 0.869270384311676,
      "learning_rate": 4.072221594685314e-05,
      "loss": 3.3377,
      "step": 365180
    },
    {
      "epoch": 0.7608125,
      "grad_norm": 0.879875659942627,
      "learning_rate": 4.071546281619992e-05,
      "loss": 3.3912,
      "step": 365190
    },
    {
      "epoch": 0.7608333333333334,
      "grad_norm": 0.8898494839668274,
      "learning_rate": 4.070871015761269e-05,
      "loss": 3.3697,
      "step": 365200
    },
    {
      "epoch": 0.7608541666666667,
      "grad_norm": 0.9367135167121887,
      "learning_rate": 4.0701957971120496e-05,
      "loss": 3.2825,
      "step": 365210
    },
    {
      "epoch": 0.760875,
      "grad_norm": 0.8322365880012512,
      "learning_rate": 4.069520625675262e-05,
      "loss": 3.2245,
      "step": 365220
    },
    {
      "epoch": 0.7608958333333333,
      "grad_norm": 0.8655943870544434,
      "learning_rate": 4.0688455014538215e-05,
      "loss": 3.4779,
      "step": 365230
    },
    {
      "epoch": 0.7609166666666667,
      "grad_norm": 0.8946271538734436,
      "learning_rate": 4.0681704244506345e-05,
      "loss": 3.2635,
      "step": 365240
    },
    {
      "epoch": 0.7609375,
      "grad_norm": 0.8937613368034363,
      "learning_rate": 4.067495394668627e-05,
      "loss": 3.2723,
      "step": 365250
    },
    {
      "epoch": 0.7609583333333333,
      "grad_norm": 0.9096792340278625,
      "learning_rate": 4.066820412110718e-05,
      "loss": 3.2312,
      "step": 365260
    },
    {
      "epoch": 0.7609791666666667,
      "grad_norm": 0.8393373489379883,
      "learning_rate": 4.0661454767798075e-05,
      "loss": 3.3588,
      "step": 365270
    },
    {
      "epoch": 0.761,
      "grad_norm": 0.8280155658721924,
      "learning_rate": 4.06547058867883e-05,
      "loss": 3.2274,
      "step": 365280
    },
    {
      "epoch": 0.7610208333333334,
      "grad_norm": 1.0964051485061646,
      "learning_rate": 4.064795747810686e-05,
      "loss": 3.3515,
      "step": 365290
    },
    {
      "epoch": 0.7610416666666666,
      "grad_norm": 0.9323883652687073,
      "learning_rate": 4.064120954178292e-05,
      "loss": 3.2642,
      "step": 365300
    },
    {
      "epoch": 0.7610625,
      "grad_norm": 1.0360782146453857,
      "learning_rate": 4.0634462077845765e-05,
      "loss": 3.39,
      "step": 365310
    },
    {
      "epoch": 0.7610833333333333,
      "grad_norm": 1.0290038585662842,
      "learning_rate": 4.0627715086324385e-05,
      "loss": 3.332,
      "step": 365320
    },
    {
      "epoch": 0.7611041666666667,
      "grad_norm": 0.8080245852470398,
      "learning_rate": 4.062096856724794e-05,
      "loss": 3.2888,
      "step": 365330
    },
    {
      "epoch": 0.761125,
      "grad_norm": 0.8946824073791504,
      "learning_rate": 4.06142225206457e-05,
      "loss": 3.25,
      "step": 365340
    },
    {
      "epoch": 0.7611458333333333,
      "grad_norm": 0.8266096115112305,
      "learning_rate": 4.060747694654669e-05,
      "loss": 3.2686,
      "step": 365350
    },
    {
      "epoch": 0.7611666666666667,
      "grad_norm": 0.8338716626167297,
      "learning_rate": 4.060073184498009e-05,
      "loss": 3.3944,
      "step": 365360
    },
    {
      "epoch": 0.7611875,
      "grad_norm": 1.0772788524627686,
      "learning_rate": 4.059398721597499e-05,
      "loss": 3.3006,
      "step": 365370
    },
    {
      "epoch": 0.7612083333333334,
      "grad_norm": 1.0531009435653687,
      "learning_rate": 4.058724305956058e-05,
      "loss": 3.4129,
      "step": 365380
    },
    {
      "epoch": 0.7612291666666666,
      "grad_norm": 0.8100646734237671,
      "learning_rate": 4.058049937576598e-05,
      "loss": 3.3347,
      "step": 365390
    },
    {
      "epoch": 0.76125,
      "grad_norm": 0.8647729754447937,
      "learning_rate": 4.05737561646203e-05,
      "loss": 3.2781,
      "step": 365400
    },
    {
      "epoch": 0.7612708333333333,
      "grad_norm": 0.9241939187049866,
      "learning_rate": 4.056701342615268e-05,
      "loss": 3.3612,
      "step": 365410
    },
    {
      "epoch": 0.7612916666666667,
      "grad_norm": 0.9082092046737671,
      "learning_rate": 4.056027116039225e-05,
      "loss": 3.2542,
      "step": 365420
    },
    {
      "epoch": 0.7613125,
      "grad_norm": 0.9137450456619263,
      "learning_rate": 4.055352936736812e-05,
      "loss": 3.3769,
      "step": 365430
    },
    {
      "epoch": 0.7613333333333333,
      "grad_norm": 0.9445561766624451,
      "learning_rate": 4.0546788047109435e-05,
      "loss": 3.334,
      "step": 365440
    },
    {
      "epoch": 0.7613541666666667,
      "grad_norm": 0.8099463582038879,
      "learning_rate": 4.054004719964529e-05,
      "loss": 3.3116,
      "step": 365450
    },
    {
      "epoch": 0.761375,
      "grad_norm": 0.951904833316803,
      "learning_rate": 4.0533306825004815e-05,
      "loss": 3.4101,
      "step": 365460
    },
    {
      "epoch": 0.7613958333333334,
      "grad_norm": 0.8855662941932678,
      "learning_rate": 4.052656692321712e-05,
      "loss": 3.3446,
      "step": 365470
    },
    {
      "epoch": 0.7614166666666666,
      "grad_norm": 0.8782595992088318,
      "learning_rate": 4.0519827494311343e-05,
      "loss": 3.3566,
      "step": 365480
    },
    {
      "epoch": 0.7614375,
      "grad_norm": 0.857572078704834,
      "learning_rate": 4.051308853831656e-05,
      "loss": 3.3023,
      "step": 365490
    },
    {
      "epoch": 0.7614583333333333,
      "grad_norm": 0.960452139377594,
      "learning_rate": 4.05063500552619e-05,
      "loss": 3.501,
      "step": 365500
    },
    {
      "epoch": 0.7614791666666667,
      "grad_norm": 0.9856514930725098,
      "learning_rate": 4.0499612045176516e-05,
      "loss": 3.3481,
      "step": 365510
    },
    {
      "epoch": 0.7615,
      "grad_norm": 0.936938464641571,
      "learning_rate": 4.0492874508089354e-05,
      "loss": 3.2263,
      "step": 365520
    },
    {
      "epoch": 0.7615208333333333,
      "grad_norm": 0.954005777835846,
      "learning_rate": 4.04861374440297e-05,
      "loss": 3.4358,
      "step": 365530
    },
    {
      "epoch": 0.7615416666666667,
      "grad_norm": 0.8795037269592285,
      "learning_rate": 4.047940085302662e-05,
      "loss": 3.2881,
      "step": 365540
    },
    {
      "epoch": 0.7615625,
      "grad_norm": 0.8900556564331055,
      "learning_rate": 4.047266473510909e-05,
      "loss": 3.3241,
      "step": 365550
    },
    {
      "epoch": 0.7615833333333333,
      "grad_norm": 0.8669115900993347,
      "learning_rate": 4.0465929090306324e-05,
      "loss": 3.3348,
      "step": 365560
    },
    {
      "epoch": 0.7616041666666666,
      "grad_norm": 0.9039517045021057,
      "learning_rate": 4.0459193918647457e-05,
      "loss": 3.3631,
      "step": 365570
    },
    {
      "epoch": 0.761625,
      "grad_norm": 0.9731286764144897,
      "learning_rate": 4.04524592201614e-05,
      "loss": 3.2722,
      "step": 365580
    },
    {
      "epoch": 0.7616458333333334,
      "grad_norm": 0.7757096886634827,
      "learning_rate": 4.04457249948774e-05,
      "loss": 3.2529,
      "step": 365590
    },
    {
      "epoch": 0.7616666666666667,
      "grad_norm": 0.7540768980979919,
      "learning_rate": 4.0438991242824565e-05,
      "loss": 3.2661,
      "step": 365600
    },
    {
      "epoch": 0.7616875,
      "grad_norm": 0.8461734056472778,
      "learning_rate": 4.043225796403184e-05,
      "loss": 3.3826,
      "step": 365610
    },
    {
      "epoch": 0.7617083333333333,
      "grad_norm": 0.960162341594696,
      "learning_rate": 4.042552515852842e-05,
      "loss": 3.3642,
      "step": 365620
    },
    {
      "epoch": 0.7617291666666667,
      "grad_norm": 1.0459976196289062,
      "learning_rate": 4.041879282634341e-05,
      "loss": 3.4134,
      "step": 365630
    },
    {
      "epoch": 0.76175,
      "grad_norm": 0.8686198592185974,
      "learning_rate": 4.0412060967505735e-05,
      "loss": 3.3413,
      "step": 365640
    },
    {
      "epoch": 0.7617708333333333,
      "grad_norm": 0.9243082404136658,
      "learning_rate": 4.0405329582044684e-05,
      "loss": 3.2493,
      "step": 365650
    },
    {
      "epoch": 0.7617916666666666,
      "grad_norm": 0.9749571681022644,
      "learning_rate": 4.039859866998918e-05,
      "loss": 3.2457,
      "step": 365660
    },
    {
      "epoch": 0.7618125,
      "grad_norm": 1.0315735340118408,
      "learning_rate": 4.039186823136834e-05,
      "loss": 3.3489,
      "step": 365670
    },
    {
      "epoch": 0.7618333333333334,
      "grad_norm": 0.875917911529541,
      "learning_rate": 4.0385138266211245e-05,
      "loss": 3.3965,
      "step": 365680
    },
    {
      "epoch": 0.7618541666666667,
      "grad_norm": 0.9603570699691772,
      "learning_rate": 4.037840877454696e-05,
      "loss": 3.3471,
      "step": 365690
    },
    {
      "epoch": 0.761875,
      "grad_norm": 0.8097338080406189,
      "learning_rate": 4.037167975640457e-05,
      "loss": 3.3681,
      "step": 365700
    },
    {
      "epoch": 0.7618958333333333,
      "grad_norm": 0.8725402355194092,
      "learning_rate": 4.036495121181312e-05,
      "loss": 3.2689,
      "step": 365710
    },
    {
      "epoch": 0.7619166666666667,
      "grad_norm": 0.8929500579833984,
      "learning_rate": 4.035822314080169e-05,
      "loss": 3.3727,
      "step": 365720
    },
    {
      "epoch": 0.7619375,
      "grad_norm": 1.344521403312683,
      "learning_rate": 4.035149554339934e-05,
      "loss": 3.4378,
      "step": 365730
    },
    {
      "epoch": 0.7619583333333333,
      "grad_norm": 0.9448293447494507,
      "learning_rate": 4.034476841963512e-05,
      "loss": 3.4086,
      "step": 365740
    },
    {
      "epoch": 0.7619791666666667,
      "grad_norm": 0.7958389520645142,
      "learning_rate": 4.03380417695381e-05,
      "loss": 3.3865,
      "step": 365750
    },
    {
      "epoch": 0.762,
      "grad_norm": 0.8394395112991333,
      "learning_rate": 4.0331315593137334e-05,
      "loss": 3.3699,
      "step": 365760
    },
    {
      "epoch": 0.7620208333333334,
      "grad_norm": 0.8859582543373108,
      "learning_rate": 4.032458989046187e-05,
      "loss": 3.1807,
      "step": 365770
    },
    {
      "epoch": 0.7620416666666666,
      "grad_norm": 0.9809049367904663,
      "learning_rate": 4.0317864661540766e-05,
      "loss": 3.4283,
      "step": 365780
    },
    {
      "epoch": 0.7620625,
      "grad_norm": 0.8285062313079834,
      "learning_rate": 4.031113990640307e-05,
      "loss": 3.4057,
      "step": 365790
    },
    {
      "epoch": 0.7620833333333333,
      "grad_norm": 0.863217830657959,
      "learning_rate": 4.030441562507784e-05,
      "loss": 3.2666,
      "step": 365800
    },
    {
      "epoch": 0.7621041666666667,
      "grad_norm": 0.9353338479995728,
      "learning_rate": 4.0297691817594115e-05,
      "loss": 3.2814,
      "step": 365810
    },
    {
      "epoch": 0.762125,
      "grad_norm": 0.8866671919822693,
      "learning_rate": 4.0290968483980914e-05,
      "loss": 3.2349,
      "step": 365820
    },
    {
      "epoch": 0.7621458333333333,
      "grad_norm": 0.8559988141059875,
      "learning_rate": 4.028424562426733e-05,
      "loss": 3.2703,
      "step": 365830
    },
    {
      "epoch": 0.7621666666666667,
      "grad_norm": 0.9743192791938782,
      "learning_rate": 4.027752323848236e-05,
      "loss": 3.3499,
      "step": 365840
    },
    {
      "epoch": 0.7621875,
      "grad_norm": 0.8894497156143188,
      "learning_rate": 4.0270801326655075e-05,
      "loss": 3.336,
      "step": 365850
    },
    {
      "epoch": 0.7622083333333334,
      "grad_norm": 0.8095685243606567,
      "learning_rate": 4.026407988881448e-05,
      "loss": 3.3245,
      "step": 365860
    },
    {
      "epoch": 0.7622291666666666,
      "grad_norm": 0.9044090509414673,
      "learning_rate": 4.0257358924989635e-05,
      "loss": 3.2911,
      "step": 365870
    },
    {
      "epoch": 0.76225,
      "grad_norm": 1.0789779424667358,
      "learning_rate": 4.025063843520954e-05,
      "loss": 3.4273,
      "step": 365880
    },
    {
      "epoch": 0.7622708333333333,
      "grad_norm": 0.9593103528022766,
      "learning_rate": 4.0243918419503264e-05,
      "loss": 3.327,
      "step": 365890
    },
    {
      "epoch": 0.7622916666666667,
      "grad_norm": 0.9272242784500122,
      "learning_rate": 4.0237198877899806e-05,
      "loss": 3.3588,
      "step": 365900
    },
    {
      "epoch": 0.7623125,
      "grad_norm": 0.9062750339508057,
      "learning_rate": 4.023047981042825e-05,
      "loss": 3.3265,
      "step": 365910
    },
    {
      "epoch": 0.7623333333333333,
      "grad_norm": 0.9745610952377319,
      "learning_rate": 4.022376121711749e-05,
      "loss": 3.387,
      "step": 365920
    },
    {
      "epoch": 0.7623541666666667,
      "grad_norm": 0.8696162104606628,
      "learning_rate": 4.0217043097996666e-05,
      "loss": 3.2266,
      "step": 365930
    },
    {
      "epoch": 0.762375,
      "grad_norm": 1.075743317604065,
      "learning_rate": 4.02103254530948e-05,
      "loss": 3.4256,
      "step": 365940
    },
    {
      "epoch": 0.7623958333333334,
      "grad_norm": 0.8656398057937622,
      "learning_rate": 4.020360828244084e-05,
      "loss": 3.3597,
      "step": 365950
    },
    {
      "epoch": 0.7624166666666666,
      "grad_norm": 0.7788693904876709,
      "learning_rate": 4.019689158606379e-05,
      "loss": 3.4181,
      "step": 365960
    },
    {
      "epoch": 0.7624375,
      "grad_norm": 0.82030189037323,
      "learning_rate": 4.019017536399278e-05,
      "loss": 3.3129,
      "step": 365970
    },
    {
      "epoch": 0.7624583333333333,
      "grad_norm": 0.9581187963485718,
      "learning_rate": 4.018345961625669e-05,
      "loss": 3.3581,
      "step": 365980
    },
    {
      "epoch": 0.7624791666666667,
      "grad_norm": 0.8766237497329712,
      "learning_rate": 4.017674434288457e-05,
      "loss": 3.3333,
      "step": 365990
    },
    {
      "epoch": 0.7625,
      "grad_norm": 0.96512770652771,
      "learning_rate": 4.0170029543905506e-05,
      "loss": 3.247,
      "step": 366000
    },
    {
      "epoch": 0.7625,
      "eval_loss": 4.0564188957214355,
      "eval_runtime": 8.3265,
      "eval_samples_per_second": 1.201,
      "eval_steps_per_second": 0.36,
      "step": 366000
    },
    {
      "epoch": 0.7625208333333333,
      "grad_norm": 0.86393141746521,
      "learning_rate": 4.0163315219348414e-05,
      "loss": 3.4842,
      "step": 366010
    },
    {
      "epoch": 0.7625416666666667,
      "grad_norm": 0.8491024374961853,
      "learning_rate": 4.015660136924233e-05,
      "loss": 3.2923,
      "step": 366020
    },
    {
      "epoch": 0.7625625,
      "grad_norm": 0.9369067549705505,
      "learning_rate": 4.014988799361624e-05,
      "loss": 3.3642,
      "step": 366030
    },
    {
      "epoch": 0.7625833333333333,
      "grad_norm": 0.8293925523757935,
      "learning_rate": 4.014317509249914e-05,
      "loss": 3.2432,
      "step": 366040
    },
    {
      "epoch": 0.7626041666666666,
      "grad_norm": 0.8607010841369629,
      "learning_rate": 4.013646266592006e-05,
      "loss": 3.3275,
      "step": 366050
    },
    {
      "epoch": 0.762625,
      "grad_norm": 0.8366882801055908,
      "learning_rate": 4.012975071390796e-05,
      "loss": 3.275,
      "step": 366060
    },
    {
      "epoch": 0.7626458333333334,
      "grad_norm": 0.8427788615226746,
      "learning_rate": 4.012303923649185e-05,
      "loss": 3.3347,
      "step": 366070
    },
    {
      "epoch": 0.7626666666666667,
      "grad_norm": 0.8783945441246033,
      "learning_rate": 4.011632823370072e-05,
      "loss": 3.2047,
      "step": 366080
    },
    {
      "epoch": 0.7626875,
      "grad_norm": 0.8186725974082947,
      "learning_rate": 4.010961770556355e-05,
      "loss": 3.4839,
      "step": 366090
    },
    {
      "epoch": 0.7627083333333333,
      "grad_norm": 0.8358362317085266,
      "learning_rate": 4.0102907652109346e-05,
      "loss": 3.3078,
      "step": 366100
    },
    {
      "epoch": 0.7627291666666667,
      "grad_norm": 0.9211301207542419,
      "learning_rate": 4.009619807336707e-05,
      "loss": 3.2308,
      "step": 366110
    },
    {
      "epoch": 0.76275,
      "grad_norm": 1.2019553184509277,
      "learning_rate": 4.008948896936572e-05,
      "loss": 3.3472,
      "step": 366120
    },
    {
      "epoch": 0.7627708333333333,
      "grad_norm": 0.8470374941825867,
      "learning_rate": 4.0082780340134286e-05,
      "loss": 3.3255,
      "step": 366130
    },
    {
      "epoch": 0.7627916666666666,
      "grad_norm": 0.7827367186546326,
      "learning_rate": 4.007607218570172e-05,
      "loss": 3.2378,
      "step": 366140
    },
    {
      "epoch": 0.7628125,
      "grad_norm": 0.8592345118522644,
      "learning_rate": 4.0069364506096997e-05,
      "loss": 3.3314,
      "step": 366150
    },
    {
      "epoch": 0.7628333333333334,
      "grad_norm": 0.822751522064209,
      "learning_rate": 4.006265730134913e-05,
      "loss": 3.4974,
      "step": 366160
    },
    {
      "epoch": 0.7628541666666667,
      "grad_norm": 0.8767135143280029,
      "learning_rate": 4.005595057148706e-05,
      "loss": 3.422,
      "step": 366170
    },
    {
      "epoch": 0.762875,
      "grad_norm": 0.9311132431030273,
      "learning_rate": 4.004924431653976e-05,
      "loss": 3.3165,
      "step": 366180
    },
    {
      "epoch": 0.7628958333333333,
      "grad_norm": 0.8649088740348816,
      "learning_rate": 4.0042538536536194e-05,
      "loss": 3.4488,
      "step": 366190
    },
    {
      "epoch": 0.7629166666666667,
      "grad_norm": 0.8845257759094238,
      "learning_rate": 4.0035833231505344e-05,
      "loss": 3.3413,
      "step": 366200
    },
    {
      "epoch": 0.7629375,
      "grad_norm": 0.935032069683075,
      "learning_rate": 4.002912840147618e-05,
      "loss": 3.2456,
      "step": 366210
    },
    {
      "epoch": 0.7629583333333333,
      "grad_norm": 0.8293546438217163,
      "learning_rate": 4.0022424046477644e-05,
      "loss": 3.2985,
      "step": 366220
    },
    {
      "epoch": 0.7629791666666667,
      "grad_norm": 0.895316481590271,
      "learning_rate": 4.0015720166538704e-05,
      "loss": 3.1124,
      "step": 366230
    },
    {
      "epoch": 0.763,
      "grad_norm": 0.789854109287262,
      "learning_rate": 4.000901676168832e-05,
      "loss": 3.3303,
      "step": 366240
    },
    {
      "epoch": 0.7630208333333334,
      "grad_norm": 1.071287989616394,
      "learning_rate": 4.000231383195544e-05,
      "loss": 3.3447,
      "step": 366250
    },
    {
      "epoch": 0.7630416666666666,
      "grad_norm": 0.8117671608924866,
      "learning_rate": 3.999561137736907e-05,
      "loss": 3.3922,
      "step": 366260
    },
    {
      "epoch": 0.7630625,
      "grad_norm": 0.8897480368614197,
      "learning_rate": 3.998890939795803e-05,
      "loss": 3.4736,
      "step": 366270
    },
    {
      "epoch": 0.7630833333333333,
      "grad_norm": 0.8508220911026001,
      "learning_rate": 3.998220789375145e-05,
      "loss": 3.3675,
      "step": 366280
    },
    {
      "epoch": 0.7631041666666667,
      "grad_norm": 0.8837910294532776,
      "learning_rate": 3.9975506864778125e-05,
      "loss": 3.2884,
      "step": 366290
    },
    {
      "epoch": 0.763125,
      "grad_norm": 0.8803067207336426,
      "learning_rate": 3.996880631106703e-05,
      "loss": 3.4091,
      "step": 366300
    },
    {
      "epoch": 0.7631458333333333,
      "grad_norm": 0.7677520513534546,
      "learning_rate": 3.996210623264722e-05,
      "loss": 3.3029,
      "step": 366310
    },
    {
      "epoch": 0.7631666666666667,
      "grad_norm": 0.880556583404541,
      "learning_rate": 3.995540662954751e-05,
      "loss": 3.2269,
      "step": 366320
    },
    {
      "epoch": 0.7631875,
      "grad_norm": 0.9330212473869324,
      "learning_rate": 3.9948707501796845e-05,
      "loss": 3.3668,
      "step": 366330
    },
    {
      "epoch": 0.7632083333333334,
      "grad_norm": 0.9584243297576904,
      "learning_rate": 3.9942008849424284e-05,
      "loss": 3.1835,
      "step": 366340
    },
    {
      "epoch": 0.7632291666666666,
      "grad_norm": 0.8692249059677124,
      "learning_rate": 3.9935310672458635e-05,
      "loss": 3.3534,
      "step": 366350
    },
    {
      "epoch": 0.76325,
      "grad_norm": 0.9353554248809814,
      "learning_rate": 3.9928612970928845e-05,
      "loss": 3.277,
      "step": 366360
    },
    {
      "epoch": 0.7632708333333333,
      "grad_norm": 0.8856125473976135,
      "learning_rate": 3.992191574486396e-05,
      "loss": 3.2075,
      "step": 366370
    },
    {
      "epoch": 0.7632916666666667,
      "grad_norm": 1.0543428659439087,
      "learning_rate": 3.991521899429278e-05,
      "loss": 3.4614,
      "step": 366380
    },
    {
      "epoch": 0.7633125,
      "grad_norm": 1.019088864326477,
      "learning_rate": 3.9908522719244244e-05,
      "loss": 3.4243,
      "step": 366390
    },
    {
      "epoch": 0.7633333333333333,
      "grad_norm": 0.8349180817604065,
      "learning_rate": 3.990182691974738e-05,
      "loss": 3.3926,
      "step": 366400
    },
    {
      "epoch": 0.7633541666666667,
      "grad_norm": 0.9223456978797913,
      "learning_rate": 3.989513159583102e-05,
      "loss": 3.3343,
      "step": 366410
    },
    {
      "epoch": 0.763375,
      "grad_norm": 0.887462317943573,
      "learning_rate": 3.98884367475241e-05,
      "loss": 3.2361,
      "step": 366420
    },
    {
      "epoch": 0.7633958333333334,
      "grad_norm": 0.9298703074455261,
      "learning_rate": 3.9881742374855545e-05,
      "loss": 3.2971,
      "step": 366430
    },
    {
      "epoch": 0.7634166666666666,
      "grad_norm": 0.7948201298713684,
      "learning_rate": 3.987504847785428e-05,
      "loss": 3.3314,
      "step": 366440
    },
    {
      "epoch": 0.7634375,
      "grad_norm": 0.9711986780166626,
      "learning_rate": 3.986835505654922e-05,
      "loss": 3.3692,
      "step": 366450
    },
    {
      "epoch": 0.7634583333333333,
      "grad_norm": 0.962413489818573,
      "learning_rate": 3.986166211096928e-05,
      "loss": 3.1873,
      "step": 366460
    },
    {
      "epoch": 0.7634791666666667,
      "grad_norm": 0.9039351940155029,
      "learning_rate": 3.985496964114334e-05,
      "loss": 3.3462,
      "step": 366470
    },
    {
      "epoch": 0.7635,
      "grad_norm": 0.9442083835601807,
      "learning_rate": 3.9848277647100354e-05,
      "loss": 3.3141,
      "step": 366480
    },
    {
      "epoch": 0.7635208333333333,
      "grad_norm": 1.0443329811096191,
      "learning_rate": 3.98415861288692e-05,
      "loss": 3.288,
      "step": 366490
    },
    {
      "epoch": 0.7635416666666667,
      "grad_norm": 0.8939587473869324,
      "learning_rate": 3.9834895086478784e-05,
      "loss": 3.3344,
      "step": 366500
    },
    {
      "epoch": 0.7635625,
      "grad_norm": 0.8693811893463135,
      "learning_rate": 3.982820451995803e-05,
      "loss": 3.2926,
      "step": 366510
    },
    {
      "epoch": 0.7635833333333333,
      "grad_norm": 0.9485591053962708,
      "learning_rate": 3.982151442933581e-05,
      "loss": 3.2488,
      "step": 366520
    },
    {
      "epoch": 0.7636041666666666,
      "grad_norm": 0.8311133980751038,
      "learning_rate": 3.981482481464104e-05,
      "loss": 3.318,
      "step": 366530
    },
    {
      "epoch": 0.763625,
      "grad_norm": 0.8988361358642578,
      "learning_rate": 3.980813567590266e-05,
      "loss": 3.2869,
      "step": 366540
    },
    {
      "epoch": 0.7636458333333334,
      "grad_norm": 1.0590183734893799,
      "learning_rate": 3.980144701314941e-05,
      "loss": 3.3799,
      "step": 366550
    },
    {
      "epoch": 0.7636666666666667,
      "grad_norm": 0.9792224168777466,
      "learning_rate": 3.9794758826410364e-05,
      "loss": 3.23,
      "step": 366560
    },
    {
      "epoch": 0.7636875,
      "grad_norm": 0.9154418110847473,
      "learning_rate": 3.9788071115714364e-05,
      "loss": 3.2784,
      "step": 366570
    },
    {
      "epoch": 0.7637083333333333,
      "grad_norm": 0.9464830160140991,
      "learning_rate": 3.978138388109018e-05,
      "loss": 3.2594,
      "step": 366580
    },
    {
      "epoch": 0.7637291666666667,
      "grad_norm": 0.8098058700561523,
      "learning_rate": 3.977469712256684e-05,
      "loss": 3.2565,
      "step": 366590
    },
    {
      "epoch": 0.76375,
      "grad_norm": 0.8269326686859131,
      "learning_rate": 3.9768010840173224e-05,
      "loss": 3.3055,
      "step": 366600
    },
    {
      "epoch": 0.7637708333333333,
      "grad_norm": 0.8363814353942871,
      "learning_rate": 3.9761325033938086e-05,
      "loss": 3.4079,
      "step": 366610
    },
    {
      "epoch": 0.7637916666666666,
      "grad_norm": 0.8642095923423767,
      "learning_rate": 3.975463970389042e-05,
      "loss": 3.3813,
      "step": 366620
    },
    {
      "epoch": 0.7638125,
      "grad_norm": 0.9153833389282227,
      "learning_rate": 3.974795485005912e-05,
      "loss": 3.2737,
      "step": 366630
    },
    {
      "epoch": 0.7638333333333334,
      "grad_norm": 0.9550771117210388,
      "learning_rate": 3.974127047247293e-05,
      "loss": 3.4183,
      "step": 366640
    },
    {
      "epoch": 0.7638541666666666,
      "grad_norm": 0.9451990723609924,
      "learning_rate": 3.973458657116089e-05,
      "loss": 3.4,
      "step": 366650
    },
    {
      "epoch": 0.763875,
      "grad_norm": 0.833423376083374,
      "learning_rate": 3.9727903146151745e-05,
      "loss": 3.3962,
      "step": 366660
    },
    {
      "epoch": 0.7638958333333333,
      "grad_norm": 0.8994936347007751,
      "learning_rate": 3.972122019747438e-05,
      "loss": 3.2438,
      "step": 366670
    },
    {
      "epoch": 0.7639166666666667,
      "grad_norm": 0.91902095079422,
      "learning_rate": 3.971453772515776e-05,
      "loss": 3.3578,
      "step": 366680
    },
    {
      "epoch": 0.7639375,
      "grad_norm": 0.8914576172828674,
      "learning_rate": 3.970785572923066e-05,
      "loss": 3.3507,
      "step": 366690
    },
    {
      "epoch": 0.7639583333333333,
      "grad_norm": 0.9376793503761292,
      "learning_rate": 3.970117420972191e-05,
      "loss": 3.3484,
      "step": 366700
    },
    {
      "epoch": 0.7639791666666667,
      "grad_norm": 0.8532421588897705,
      "learning_rate": 3.969449316666051e-05,
      "loss": 3.3475,
      "step": 366710
    },
    {
      "epoch": 0.764,
      "grad_norm": 0.9436504244804382,
      "learning_rate": 3.9687812600075215e-05,
      "loss": 3.4984,
      "step": 366720
    },
    {
      "epoch": 0.7640208333333334,
      "grad_norm": 0.8852629661560059,
      "learning_rate": 3.968113250999484e-05,
      "loss": 3.1915,
      "step": 366730
    },
    {
      "epoch": 0.7640416666666666,
      "grad_norm": 0.8461589217185974,
      "learning_rate": 3.967445289644839e-05,
      "loss": 3.4232,
      "step": 366740
    },
    {
      "epoch": 0.7640625,
      "grad_norm": 0.9462124109268188,
      "learning_rate": 3.966777375946461e-05,
      "loss": 3.3471,
      "step": 366750
    },
    {
      "epoch": 0.7640833333333333,
      "grad_norm": 0.8879071474075317,
      "learning_rate": 3.966109509907231e-05,
      "loss": 3.3602,
      "step": 366760
    },
    {
      "epoch": 0.7641041666666667,
      "grad_norm": 0.8281802535057068,
      "learning_rate": 3.965441691530052e-05,
      "loss": 3.3704,
      "step": 366770
    },
    {
      "epoch": 0.764125,
      "grad_norm": 0.8829718828201294,
      "learning_rate": 3.9647739208177906e-05,
      "loss": 3.3859,
      "step": 366780
    },
    {
      "epoch": 0.7641458333333333,
      "grad_norm": 1.0018012523651123,
      "learning_rate": 3.964106197773338e-05,
      "loss": 3.2392,
      "step": 366790
    },
    {
      "epoch": 0.7641666666666667,
      "grad_norm": 0.880342960357666,
      "learning_rate": 3.963438522399579e-05,
      "loss": 3.2909,
      "step": 366800
    },
    {
      "epoch": 0.7641875,
      "grad_norm": 0.854744553565979,
      "learning_rate": 3.962770894699397e-05,
      "loss": 3.3769,
      "step": 366810
    },
    {
      "epoch": 0.7642083333333334,
      "grad_norm": 0.9771586060523987,
      "learning_rate": 3.962103314675676e-05,
      "loss": 3.3603,
      "step": 366820
    },
    {
      "epoch": 0.7642291666666666,
      "grad_norm": 0.8766539096832275,
      "learning_rate": 3.961435782331299e-05,
      "loss": 3.488,
      "step": 366830
    },
    {
      "epoch": 0.76425,
      "grad_norm": 0.8906419277191162,
      "learning_rate": 3.9607682976691493e-05,
      "loss": 3.4074,
      "step": 366840
    },
    {
      "epoch": 0.7642708333333333,
      "grad_norm": 0.9037541151046753,
      "learning_rate": 3.9601008606921114e-05,
      "loss": 3.302,
      "step": 366850
    },
    {
      "epoch": 0.7642916666666667,
      "grad_norm": 0.8724837303161621,
      "learning_rate": 3.959433471403068e-05,
      "loss": 3.4041,
      "step": 366860
    },
    {
      "epoch": 0.7643125,
      "grad_norm": 0.9183129072189331,
      "learning_rate": 3.9587661298049034e-05,
      "loss": 3.3166,
      "step": 366870
    },
    {
      "epoch": 0.7643333333333333,
      "grad_norm": 0.878760039806366,
      "learning_rate": 3.9580988359004974e-05,
      "loss": 3.3848,
      "step": 366880
    },
    {
      "epoch": 0.7643541666666667,
      "grad_norm": 0.8353466391563416,
      "learning_rate": 3.957431589692733e-05,
      "loss": 3.3384,
      "step": 366890
    },
    {
      "epoch": 0.764375,
      "grad_norm": 0.9512282609939575,
      "learning_rate": 3.956764391184494e-05,
      "loss": 3.3935,
      "step": 366900
    },
    {
      "epoch": 0.7643958333333334,
      "grad_norm": 0.910847544670105,
      "learning_rate": 3.9560972403786664e-05,
      "loss": 3.234,
      "step": 366910
    },
    {
      "epoch": 0.7644166666666666,
      "grad_norm": 1.01821768283844,
      "learning_rate": 3.9554301372781177e-05,
      "loss": 3.3347,
      "step": 366920
    },
    {
      "epoch": 0.7644375,
      "grad_norm": 0.9082759618759155,
      "learning_rate": 3.9547630818857436e-05,
      "loss": 3.3081,
      "step": 366930
    },
    {
      "epoch": 0.7644583333333334,
      "grad_norm": 0.8909287452697754,
      "learning_rate": 3.954096074204426e-05,
      "loss": 3.3078,
      "step": 366940
    },
    {
      "epoch": 0.7644791666666667,
      "grad_norm": 0.8982205986976624,
      "learning_rate": 3.953429114237031e-05,
      "loss": 3.1835,
      "step": 366950
    },
    {
      "epoch": 0.7645,
      "grad_norm": 0.993556797504425,
      "learning_rate": 3.952762201986455e-05,
      "loss": 3.2626,
      "step": 366960
    },
    {
      "epoch": 0.7645208333333333,
      "grad_norm": 0.9374241828918457,
      "learning_rate": 3.9520953374555775e-05,
      "loss": 3.3863,
      "step": 366970
    },
    {
      "epoch": 0.7645416666666667,
      "grad_norm": 0.8920864462852478,
      "learning_rate": 3.951428520647267e-05,
      "loss": 3.3855,
      "step": 366980
    },
    {
      "epoch": 0.7645625,
      "grad_norm": 0.9096404910087585,
      "learning_rate": 3.9507617515644155e-05,
      "loss": 3.2815,
      "step": 366990
    },
    {
      "epoch": 0.7645833333333333,
      "grad_norm": 0.827658474445343,
      "learning_rate": 3.9500950302099054e-05,
      "loss": 3.383,
      "step": 367000
    },
    {
      "epoch": 0.7645833333333333,
      "eval_loss": 4.051596641540527,
      "eval_runtime": 8.8663,
      "eval_samples_per_second": 1.128,
      "eval_steps_per_second": 0.338,
      "step": 367000
    },
    {
      "epoch": 0.7646041666666666,
      "grad_norm": 0.9050613641738892,
      "learning_rate": 3.949428356586601e-05,
      "loss": 3.2176,
      "step": 367010
    },
    {
      "epoch": 0.764625,
      "grad_norm": 0.8916125893592834,
      "learning_rate": 3.9487617306974014e-05,
      "loss": 3.1839,
      "step": 367020
    },
    {
      "epoch": 0.7646458333333334,
      "grad_norm": 0.8538393974304199,
      "learning_rate": 3.948095152545171e-05,
      "loss": 3.3966,
      "step": 367030
    },
    {
      "epoch": 0.7646666666666667,
      "grad_norm": 0.9066037535667419,
      "learning_rate": 3.947428622132791e-05,
      "loss": 3.3309,
      "step": 367040
    },
    {
      "epoch": 0.7646875,
      "grad_norm": 0.8128467798233032,
      "learning_rate": 3.9467621394631544e-05,
      "loss": 3.265,
      "step": 367050
    },
    {
      "epoch": 0.7647083333333333,
      "grad_norm": 0.8241804838180542,
      "learning_rate": 3.946095704539125e-05,
      "loss": 3.2323,
      "step": 367060
    },
    {
      "epoch": 0.7647291666666667,
      "grad_norm": 1.018972396850586,
      "learning_rate": 3.9454293173635825e-05,
      "loss": 3.2965,
      "step": 367070
    },
    {
      "epoch": 0.76475,
      "grad_norm": 1.325930118560791,
      "learning_rate": 3.944762977939418e-05,
      "loss": 3.3718,
      "step": 367080
    },
    {
      "epoch": 0.7647708333333333,
      "grad_norm": 0.9902763366699219,
      "learning_rate": 3.944096686269497e-05,
      "loss": 3.3511,
      "step": 367090
    },
    {
      "epoch": 0.7647916666666666,
      "grad_norm": 0.9829843044281006,
      "learning_rate": 3.9434304423566984e-05,
      "loss": 3.2728,
      "step": 367100
    },
    {
      "epoch": 0.7648125,
      "grad_norm": 0.9299547672271729,
      "learning_rate": 3.9427642462039115e-05,
      "loss": 3.2903,
      "step": 367110
    },
    {
      "epoch": 0.7648333333333334,
      "grad_norm": 0.8738199472427368,
      "learning_rate": 3.942098097814004e-05,
      "loss": 3.4839,
      "step": 367120
    },
    {
      "epoch": 0.7648541666666666,
      "grad_norm": 0.8320128917694092,
      "learning_rate": 3.941431997189854e-05,
      "loss": 3.4504,
      "step": 367130
    },
    {
      "epoch": 0.764875,
      "grad_norm": 0.9382451176643372,
      "learning_rate": 3.94076594433434e-05,
      "loss": 3.2001,
      "step": 367140
    },
    {
      "epoch": 0.7648958333333333,
      "grad_norm": 0.8643434047698975,
      "learning_rate": 3.940099939250341e-05,
      "loss": 3.3126,
      "step": 367150
    },
    {
      "epoch": 0.7649166666666667,
      "grad_norm": 0.9268807172775269,
      "learning_rate": 3.939433981940731e-05,
      "loss": 3.3355,
      "step": 367160
    },
    {
      "epoch": 0.7649375,
      "grad_norm": 0.8518658876419067,
      "learning_rate": 3.9387680724083887e-05,
      "loss": 3.2854,
      "step": 367170
    },
    {
      "epoch": 0.7649583333333333,
      "grad_norm": 0.8687810897827148,
      "learning_rate": 3.938102210656191e-05,
      "loss": 3.3035,
      "step": 367180
    },
    {
      "epoch": 0.7649791666666667,
      "grad_norm": 1.0128178596496582,
      "learning_rate": 3.9374363966870124e-05,
      "loss": 3.256,
      "step": 367190
    },
    {
      "epoch": 0.765,
      "grad_norm": 0.8661561608314514,
      "learning_rate": 3.9367706305037295e-05,
      "loss": 3.2723,
      "step": 367200
    },
    {
      "epoch": 0.7650208333333334,
      "grad_norm": 0.9198707342147827,
      "learning_rate": 3.9361049121092195e-05,
      "loss": 3.4494,
      "step": 367210
    },
    {
      "epoch": 0.7650416666666666,
      "grad_norm": 0.9028047919273376,
      "learning_rate": 3.935439241506355e-05,
      "loss": 3.3401,
      "step": 367220
    },
    {
      "epoch": 0.7650625,
      "grad_norm": 0.9623989462852478,
      "learning_rate": 3.934773618698013e-05,
      "loss": 3.3997,
      "step": 367230
    },
    {
      "epoch": 0.7650833333333333,
      "grad_norm": 0.9385082125663757,
      "learning_rate": 3.9341080436870714e-05,
      "loss": 3.3997,
      "step": 367240
    },
    {
      "epoch": 0.7651041666666667,
      "grad_norm": 0.8349599242210388,
      "learning_rate": 3.933442516476402e-05,
      "loss": 3.3963,
      "step": 367250
    },
    {
      "epoch": 0.765125,
      "grad_norm": 0.8485020995140076,
      "learning_rate": 3.93277703706888e-05,
      "loss": 3.4155,
      "step": 367260
    },
    {
      "epoch": 0.7651458333333333,
      "grad_norm": 0.8254940509796143,
      "learning_rate": 3.9321116054673804e-05,
      "loss": 3.2471,
      "step": 367270
    },
    {
      "epoch": 0.7651666666666667,
      "grad_norm": 0.9214580059051514,
      "learning_rate": 3.931446221674783e-05,
      "loss": 3.1982,
      "step": 367280
    },
    {
      "epoch": 0.7651875,
      "grad_norm": 0.8577611446380615,
      "learning_rate": 3.930780885693947e-05,
      "loss": 3.2983,
      "step": 367290
    },
    {
      "epoch": 0.7652083333333334,
      "grad_norm": 0.8994871377944946,
      "learning_rate": 3.93011559752776e-05,
      "loss": 3.4167,
      "step": 367300
    },
    {
      "epoch": 0.7652291666666666,
      "grad_norm": 0.8949771523475647,
      "learning_rate": 3.9294503571790976e-05,
      "loss": 3.4223,
      "step": 367310
    },
    {
      "epoch": 0.76525,
      "grad_norm": 0.9691410064697266,
      "learning_rate": 3.9287851646508176e-05,
      "loss": 3.37,
      "step": 367320
    },
    {
      "epoch": 0.7652708333333333,
      "grad_norm": 0.855363667011261,
      "learning_rate": 3.9281200199458084e-05,
      "loss": 3.2991,
      "step": 367330
    },
    {
      "epoch": 0.7652916666666667,
      "grad_norm": 0.8931939005851746,
      "learning_rate": 3.927454923066944e-05,
      "loss": 3.4146,
      "step": 367340
    },
    {
      "epoch": 0.7653125,
      "grad_norm": 0.9344953894615173,
      "learning_rate": 3.92678987401708e-05,
      "loss": 3.2883,
      "step": 367350
    },
    {
      "epoch": 0.7653333333333333,
      "grad_norm": 1.1086233854293823,
      "learning_rate": 3.926124872799106e-05,
      "loss": 3.2833,
      "step": 367360
    },
    {
      "epoch": 0.7653541666666667,
      "grad_norm": 0.9010046124458313,
      "learning_rate": 3.925459919415895e-05,
      "loss": 3.3742,
      "step": 367370
    },
    {
      "epoch": 0.765375,
      "grad_norm": 0.9423345327377319,
      "learning_rate": 3.924795013870303e-05,
      "loss": 3.2697,
      "step": 367380
    },
    {
      "epoch": 0.7653958333333334,
      "grad_norm": 0.8725326061248779,
      "learning_rate": 3.9241301561652175e-05,
      "loss": 3.3529,
      "step": 367390
    },
    {
      "epoch": 0.7654166666666666,
      "grad_norm": 0.9189290404319763,
      "learning_rate": 3.923465346303512e-05,
      "loss": 3.377,
      "step": 367400
    },
    {
      "epoch": 0.7654375,
      "grad_norm": 0.9443265199661255,
      "learning_rate": 3.9228005842880404e-05,
      "loss": 3.248,
      "step": 367410
    },
    {
      "epoch": 0.7654583333333334,
      "grad_norm": 0.8535857200622559,
      "learning_rate": 3.922135870121696e-05,
      "loss": 3.3536,
      "step": 367420
    },
    {
      "epoch": 0.7654791666666667,
      "grad_norm": 0.998105525970459,
      "learning_rate": 3.921471203807334e-05,
      "loss": 3.3259,
      "step": 367430
    },
    {
      "epoch": 0.7655,
      "grad_norm": 0.9044939875602722,
      "learning_rate": 3.920806585347832e-05,
      "loss": 3.4112,
      "step": 367440
    },
    {
      "epoch": 0.7655208333333333,
      "grad_norm": 0.8632996678352356,
      "learning_rate": 3.9201420147460605e-05,
      "loss": 3.329,
      "step": 367450
    },
    {
      "epoch": 0.7655416666666667,
      "grad_norm": 0.9067489504814148,
      "learning_rate": 3.919477492004888e-05,
      "loss": 3.3728,
      "step": 367460
    },
    {
      "epoch": 0.7655625,
      "grad_norm": 0.935825526714325,
      "learning_rate": 3.918813017127189e-05,
      "loss": 3.3992,
      "step": 367470
    },
    {
      "epoch": 0.7655833333333333,
      "grad_norm": 0.993439793586731,
      "learning_rate": 3.9181485901158295e-05,
      "loss": 3.2804,
      "step": 367480
    },
    {
      "epoch": 0.7656041666666666,
      "grad_norm": 0.8982822895050049,
      "learning_rate": 3.917484210973683e-05,
      "loss": 3.3682,
      "step": 367490
    },
    {
      "epoch": 0.765625,
      "grad_norm": 1.0102803707122803,
      "learning_rate": 3.916819879703618e-05,
      "loss": 3.3795,
      "step": 367500
    },
    {
      "epoch": 0.7656458333333334,
      "grad_norm": 0.8344959616661072,
      "learning_rate": 3.916155596308504e-05,
      "loss": 3.3756,
      "step": 367510
    },
    {
      "epoch": 0.7656666666666667,
      "grad_norm": 0.9166218638420105,
      "learning_rate": 3.91549136079121e-05,
      "loss": 3.362,
      "step": 367520
    },
    {
      "epoch": 0.7656875,
      "grad_norm": 0.871772825717926,
      "learning_rate": 3.914827173154605e-05,
      "loss": 3.2964,
      "step": 367530
    },
    {
      "epoch": 0.7657083333333333,
      "grad_norm": 0.8046494722366333,
      "learning_rate": 3.9141630334015605e-05,
      "loss": 3.3999,
      "step": 367540
    },
    {
      "epoch": 0.7657291666666667,
      "grad_norm": 0.8774330615997314,
      "learning_rate": 3.913498941534943e-05,
      "loss": 3.3221,
      "step": 367550
    },
    {
      "epoch": 0.76575,
      "grad_norm": 0.9065690636634827,
      "learning_rate": 3.912834897557621e-05,
      "loss": 3.317,
      "step": 367560
    },
    {
      "epoch": 0.7657708333333333,
      "grad_norm": 0.8296329975128174,
      "learning_rate": 3.912170901472464e-05,
      "loss": 3.2067,
      "step": 367570
    },
    {
      "epoch": 0.7657916666666666,
      "grad_norm": 0.8177953958511353,
      "learning_rate": 3.91150695328234e-05,
      "loss": 3.3877,
      "step": 367580
    },
    {
      "epoch": 0.7658125,
      "grad_norm": 0.8849648833274841,
      "learning_rate": 3.910843052990117e-05,
      "loss": 3.2395,
      "step": 367590
    },
    {
      "epoch": 0.7658333333333334,
      "grad_norm": 0.8821123242378235,
      "learning_rate": 3.910179200598662e-05,
      "loss": 3.3082,
      "step": 367600
    },
    {
      "epoch": 0.7658541666666666,
      "grad_norm": 0.8735854625701904,
      "learning_rate": 3.909515396110845e-05,
      "loss": 3.3595,
      "step": 367610
    },
    {
      "epoch": 0.765875,
      "grad_norm": 0.8899232149124146,
      "learning_rate": 3.90885163952953e-05,
      "loss": 3.3484,
      "step": 367620
    },
    {
      "epoch": 0.7658958333333333,
      "grad_norm": 0.9085248708724976,
      "learning_rate": 3.908187930857586e-05,
      "loss": 3.2743,
      "step": 367630
    },
    {
      "epoch": 0.7659166666666667,
      "grad_norm": 0.9117365479469299,
      "learning_rate": 3.90752427009788e-05,
      "loss": 3.308,
      "step": 367640
    },
    {
      "epoch": 0.7659375,
      "grad_norm": 0.8650722503662109,
      "learning_rate": 3.906860657253283e-05,
      "loss": 3.4088,
      "step": 367650
    },
    {
      "epoch": 0.7659583333333333,
      "grad_norm": 0.8964056372642517,
      "learning_rate": 3.9061970923266466e-05,
      "loss": 3.4011,
      "step": 367660
    },
    {
      "epoch": 0.7659791666666667,
      "grad_norm": 0.8947590589523315,
      "learning_rate": 3.9055335753208525e-05,
      "loss": 3.2926,
      "step": 367670
    },
    {
      "epoch": 0.766,
      "grad_norm": 0.9735874533653259,
      "learning_rate": 3.904870106238767e-05,
      "loss": 3.248,
      "step": 367680
    },
    {
      "epoch": 0.7660208333333334,
      "grad_norm": 0.8146796226501465,
      "learning_rate": 3.904206685083243e-05,
      "loss": 3.2955,
      "step": 367690
    },
    {
      "epoch": 0.7660416666666666,
      "grad_norm": 0.8155991435050964,
      "learning_rate": 3.903543311857157e-05,
      "loss": 3.3801,
      "step": 367700
    },
    {
      "epoch": 0.7660625,
      "grad_norm": 0.8761178255081177,
      "learning_rate": 3.9028799865633756e-05,
      "loss": 3.266,
      "step": 367710
    },
    {
      "epoch": 0.7660833333333333,
      "grad_norm": 0.8745396733283997,
      "learning_rate": 3.9022167092047575e-05,
      "loss": 3.2556,
      "step": 367720
    },
    {
      "epoch": 0.7661041666666667,
      "grad_norm": 0.9518818259239197,
      "learning_rate": 3.9015534797841643e-05,
      "loss": 3.2582,
      "step": 367730
    },
    {
      "epoch": 0.766125,
      "grad_norm": 0.8412675261497498,
      "learning_rate": 3.900890298304477e-05,
      "loss": 3.2116,
      "step": 367740
    },
    {
      "epoch": 0.7661458333333333,
      "grad_norm": 1.0459470748901367,
      "learning_rate": 3.9002271647685456e-05,
      "loss": 3.334,
      "step": 367750
    },
    {
      "epoch": 0.7661666666666667,
      "grad_norm": 0.8387614488601685,
      "learning_rate": 3.8995640791792344e-05,
      "loss": 3.3271,
      "step": 367760
    },
    {
      "epoch": 0.7661875,
      "grad_norm": 0.8654475212097168,
      "learning_rate": 3.8989010415394223e-05,
      "loss": 3.3653,
      "step": 367770
    },
    {
      "epoch": 0.7662083333333334,
      "grad_norm": 0.9273335337638855,
      "learning_rate": 3.8982380518519574e-05,
      "loss": 3.4268,
      "step": 367780
    },
    {
      "epoch": 0.7662291666666666,
      "grad_norm": 0.8116415143013,
      "learning_rate": 3.897575110119712e-05,
      "loss": 3.4705,
      "step": 367790
    },
    {
      "epoch": 0.76625,
      "grad_norm": 0.9891935586929321,
      "learning_rate": 3.8969122163455464e-05,
      "loss": 3.3758,
      "step": 367800
    },
    {
      "epoch": 0.7662708333333333,
      "grad_norm": 0.8855140805244446,
      "learning_rate": 3.896249370532324e-05,
      "loss": 3.2832,
      "step": 367810
    },
    {
      "epoch": 0.7662916666666667,
      "grad_norm": 0.8331313729286194,
      "learning_rate": 3.895586572682911e-05,
      "loss": 3.4056,
      "step": 367820
    },
    {
      "epoch": 0.7663125,
      "grad_norm": 0.8438328504562378,
      "learning_rate": 3.894923822800167e-05,
      "loss": 3.3644,
      "step": 367830
    },
    {
      "epoch": 0.7663333333333333,
      "grad_norm": 0.8884825110435486,
      "learning_rate": 3.894261120886957e-05,
      "loss": 3.4522,
      "step": 367840
    },
    {
      "epoch": 0.7663541666666667,
      "grad_norm": 0.9820754528045654,
      "learning_rate": 3.893598466946144e-05,
      "loss": 3.4659,
      "step": 367850
    },
    {
      "epoch": 0.766375,
      "grad_norm": 0.8846016526222229,
      "learning_rate": 3.8929358609805885e-05,
      "loss": 3.4102,
      "step": 367860
    },
    {
      "epoch": 0.7663958333333334,
      "grad_norm": 0.8457992076873779,
      "learning_rate": 3.8922733029931525e-05,
      "loss": 3.3546,
      "step": 367870
    },
    {
      "epoch": 0.7664166666666666,
      "grad_norm": 0.8256039023399353,
      "learning_rate": 3.891610792986701e-05,
      "loss": 3.288,
      "step": 367880
    },
    {
      "epoch": 0.7664375,
      "grad_norm": 0.9365537762641907,
      "learning_rate": 3.890948330964093e-05,
      "loss": 3.3777,
      "step": 367890
    },
    {
      "epoch": 0.7664583333333334,
      "grad_norm": 0.9133850336074829,
      "learning_rate": 3.890285916928191e-05,
      "loss": 3.4157,
      "step": 367900
    },
    {
      "epoch": 0.7664791666666667,
      "grad_norm": 0.805473268032074,
      "learning_rate": 3.8896235508818564e-05,
      "loss": 3.3641,
      "step": 367910
    },
    {
      "epoch": 0.7665,
      "grad_norm": 0.8813048005104065,
      "learning_rate": 3.88896123282795e-05,
      "loss": 3.4562,
      "step": 367920
    },
    {
      "epoch": 0.7665208333333333,
      "grad_norm": 0.8495856523513794,
      "learning_rate": 3.8882989627693335e-05,
      "loss": 3.3514,
      "step": 367930
    },
    {
      "epoch": 0.7665416666666667,
      "grad_norm": 1.038666009902954,
      "learning_rate": 3.887636740708867e-05,
      "loss": 3.3782,
      "step": 367940
    },
    {
      "epoch": 0.7665625,
      "grad_norm": 0.901455283164978,
      "learning_rate": 3.88697456664941e-05,
      "loss": 3.2338,
      "step": 367950
    },
    {
      "epoch": 0.7665833333333333,
      "grad_norm": 1.0325078964233398,
      "learning_rate": 3.8863124405938266e-05,
      "loss": 3.3236,
      "step": 367960
    },
    {
      "epoch": 0.7666041666666666,
      "grad_norm": 0.8691173195838928,
      "learning_rate": 3.885650362544973e-05,
      "loss": 3.2868,
      "step": 367970
    },
    {
      "epoch": 0.766625,
      "grad_norm": 0.9396302700042725,
      "learning_rate": 3.884988332505709e-05,
      "loss": 3.4144,
      "step": 367980
    },
    {
      "epoch": 0.7666458333333334,
      "grad_norm": 0.9778518676757812,
      "learning_rate": 3.884326350478897e-05,
      "loss": 3.372,
      "step": 367990
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 0.947838544845581,
      "learning_rate": 3.883664416467396e-05,
      "loss": 3.2552,
      "step": 368000
    },
    {
      "epoch": 0.7666666666666667,
      "eval_loss": 4.050932884216309,
      "eval_runtime": 8.7081,
      "eval_samples_per_second": 1.148,
      "eval_steps_per_second": 0.345,
      "step": 368000
    },
    {
      "epoch": 0.7666875,
      "grad_norm": 1.0093865394592285,
      "learning_rate": 3.8830025304740636e-05,
      "loss": 3.3337,
      "step": 368010
    },
    {
      "epoch": 0.7667083333333333,
      "grad_norm": 0.9247986078262329,
      "learning_rate": 3.882340692501765e-05,
      "loss": 3.352,
      "step": 368020
    },
    {
      "epoch": 0.7667291666666667,
      "grad_norm": 0.8664401173591614,
      "learning_rate": 3.8816789025533504e-05,
      "loss": 3.4458,
      "step": 368030
    },
    {
      "epoch": 0.76675,
      "grad_norm": 0.8207859396934509,
      "learning_rate": 3.881017160631676e-05,
      "loss": 3.3248,
      "step": 368040
    },
    {
      "epoch": 0.7667708333333333,
      "grad_norm": 0.7917519807815552,
      "learning_rate": 3.8803554667396155e-05,
      "loss": 3.249,
      "step": 368050
    },
    {
      "epoch": 0.7667916666666666,
      "grad_norm": 0.969836950302124,
      "learning_rate": 3.8796938208800125e-05,
      "loss": 3.2362,
      "step": 368060
    },
    {
      "epoch": 0.7668125,
      "grad_norm": 0.8565574288368225,
      "learning_rate": 3.879032223055727e-05,
      "loss": 3.285,
      "step": 368070
    },
    {
      "epoch": 0.7668333333333334,
      "grad_norm": 0.8410605788230896,
      "learning_rate": 3.878370673269629e-05,
      "loss": 3.4039,
      "step": 368080
    },
    {
      "epoch": 0.7668541666666666,
      "grad_norm": 0.8476816415786743,
      "learning_rate": 3.877709171524563e-05,
      "loss": 3.2451,
      "step": 368090
    },
    {
      "epoch": 0.766875,
      "grad_norm": 0.9855782985687256,
      "learning_rate": 3.877047717823387e-05,
      "loss": 3.349,
      "step": 368100
    },
    {
      "epoch": 0.7668958333333333,
      "grad_norm": 1.0265626907348633,
      "learning_rate": 3.8763863121689716e-05,
      "loss": 3.3871,
      "step": 368110
    },
    {
      "epoch": 0.7669166666666667,
      "grad_norm": 0.8537003397941589,
      "learning_rate": 3.875724954564157e-05,
      "loss": 3.4616,
      "step": 368120
    },
    {
      "epoch": 0.7669375,
      "grad_norm": 0.9976865649223328,
      "learning_rate": 3.875063645011805e-05,
      "loss": 3.3344,
      "step": 368130
    },
    {
      "epoch": 0.7669583333333333,
      "grad_norm": 0.832950234413147,
      "learning_rate": 3.874402383514784e-05,
      "loss": 3.3668,
      "step": 368140
    },
    {
      "epoch": 0.7669791666666667,
      "grad_norm": 0.908309280872345,
      "learning_rate": 3.873741170075936e-05,
      "loss": 3.2388,
      "step": 368150
    },
    {
      "epoch": 0.767,
      "grad_norm": 0.9117276072502136,
      "learning_rate": 3.873080004698121e-05,
      "loss": 3.3357,
      "step": 368160
    },
    {
      "epoch": 0.7670208333333334,
      "grad_norm": 0.902070164680481,
      "learning_rate": 3.872418887384197e-05,
      "loss": 3.3981,
      "step": 368170
    },
    {
      "epoch": 0.7670416666666666,
      "grad_norm": 0.8250095248222351,
      "learning_rate": 3.8717578181370174e-05,
      "loss": 3.4615,
      "step": 368180
    },
    {
      "epoch": 0.7670625,
      "grad_norm": 0.8444116711616516,
      "learning_rate": 3.8710967969594406e-05,
      "loss": 3.3517,
      "step": 368190
    },
    {
      "epoch": 0.7670833333333333,
      "grad_norm": 0.8477327227592468,
      "learning_rate": 3.87043582385432e-05,
      "loss": 3.2832,
      "step": 368200
    },
    {
      "epoch": 0.7671041666666667,
      "grad_norm": 1.0625718832015991,
      "learning_rate": 3.869774898824512e-05,
      "loss": 3.4653,
      "step": 368210
    },
    {
      "epoch": 0.767125,
      "grad_norm": 0.8624519109725952,
      "learning_rate": 3.86911402187287e-05,
      "loss": 3.328,
      "step": 368220
    },
    {
      "epoch": 0.7671458333333333,
      "grad_norm": 0.8601192235946655,
      "learning_rate": 3.868453193002249e-05,
      "loss": 3.3425,
      "step": 368230
    },
    {
      "epoch": 0.7671666666666667,
      "grad_norm": 0.8525738716125488,
      "learning_rate": 3.867792412215504e-05,
      "loss": 3.296,
      "step": 368240
    },
    {
      "epoch": 0.7671875,
      "grad_norm": 0.9246418476104736,
      "learning_rate": 3.867131679515492e-05,
      "loss": 3.4081,
      "step": 368250
    },
    {
      "epoch": 0.7672083333333334,
      "grad_norm": 0.9165274500846863,
      "learning_rate": 3.866470994905061e-05,
      "loss": 3.2853,
      "step": 368260
    },
    {
      "epoch": 0.7672291666666666,
      "grad_norm": 0.8088268041610718,
      "learning_rate": 3.86581035838707e-05,
      "loss": 3.2676,
      "step": 368270
    },
    {
      "epoch": 0.76725,
      "grad_norm": 1.0393038988113403,
      "learning_rate": 3.8651497699643705e-05,
      "loss": 3.3409,
      "step": 368280
    },
    {
      "epoch": 0.7672708333333333,
      "grad_norm": 0.8723858594894409,
      "learning_rate": 3.8644892296398185e-05,
      "loss": 3.3976,
      "step": 368290
    },
    {
      "epoch": 0.7672916666666667,
      "grad_norm": 0.8845916986465454,
      "learning_rate": 3.8638287374162625e-05,
      "loss": 3.2309,
      "step": 368300
    },
    {
      "epoch": 0.7673125,
      "grad_norm": 0.8545054197311401,
      "learning_rate": 3.863168293296564e-05,
      "loss": 3.3497,
      "step": 368310
    },
    {
      "epoch": 0.7673333333333333,
      "grad_norm": 0.9088905453681946,
      "learning_rate": 3.862507897283561e-05,
      "loss": 3.2507,
      "step": 368320
    },
    {
      "epoch": 0.7673541666666667,
      "grad_norm": 1.0362162590026855,
      "learning_rate": 3.861847549380121e-05,
      "loss": 3.3565,
      "step": 368330
    },
    {
      "epoch": 0.767375,
      "grad_norm": 1.0271337032318115,
      "learning_rate": 3.861187249589093e-05,
      "loss": 3.4132,
      "step": 368340
    },
    {
      "epoch": 0.7673958333333334,
      "grad_norm": 1.1282633543014526,
      "learning_rate": 3.860526997913321e-05,
      "loss": 3.4198,
      "step": 368350
    },
    {
      "epoch": 0.7674166666666666,
      "grad_norm": 0.9364191889762878,
      "learning_rate": 3.859866794355666e-05,
      "loss": 3.2984,
      "step": 368360
    },
    {
      "epoch": 0.7674375,
      "grad_norm": 0.7795177102088928,
      "learning_rate": 3.85920663891898e-05,
      "loss": 3.2649,
      "step": 368370
    },
    {
      "epoch": 0.7674583333333334,
      "grad_norm": 1.0061479806900024,
      "learning_rate": 3.858546531606104e-05,
      "loss": 3.4416,
      "step": 368380
    },
    {
      "epoch": 0.7674791666666667,
      "grad_norm": 0.8107404112815857,
      "learning_rate": 3.857886472419901e-05,
      "loss": 3.3729,
      "step": 368390
    },
    {
      "epoch": 0.7675,
      "grad_norm": 0.889248251914978,
      "learning_rate": 3.857226461363223e-05,
      "loss": 3.4179,
      "step": 368400
    },
    {
      "epoch": 0.7675208333333333,
      "grad_norm": 1.0341362953186035,
      "learning_rate": 3.856566498438908e-05,
      "loss": 3.3018,
      "step": 368410
    },
    {
      "epoch": 0.7675416666666667,
      "grad_norm": 0.9372729063034058,
      "learning_rate": 3.855906583649823e-05,
      "loss": 3.349,
      "step": 368420
    },
    {
      "epoch": 0.7675625,
      "grad_norm": 0.9245752692222595,
      "learning_rate": 3.855246716998806e-05,
      "loss": 3.3805,
      "step": 368430
    },
    {
      "epoch": 0.7675833333333333,
      "grad_norm": 0.8815750479698181,
      "learning_rate": 3.8545868984887064e-05,
      "loss": 3.4356,
      "step": 368440
    },
    {
      "epoch": 0.7676041666666666,
      "grad_norm": 1.0888584852218628,
      "learning_rate": 3.8539271281223896e-05,
      "loss": 3.402,
      "step": 368450
    },
    {
      "epoch": 0.767625,
      "grad_norm": 0.8946303725242615,
      "learning_rate": 3.8532674059026894e-05,
      "loss": 3.3238,
      "step": 368460
    },
    {
      "epoch": 0.7676458333333334,
      "grad_norm": 0.8037039041519165,
      "learning_rate": 3.85260773183246e-05,
      "loss": 3.2624,
      "step": 368470
    },
    {
      "epoch": 0.7676666666666667,
      "grad_norm": 0.9280705451965332,
      "learning_rate": 3.85194810591456e-05,
      "loss": 3.306,
      "step": 368480
    },
    {
      "epoch": 0.7676875,
      "grad_norm": 0.7976566553115845,
      "learning_rate": 3.851288528151827e-05,
      "loss": 3.3044,
      "step": 368490
    },
    {
      "epoch": 0.7677083333333333,
      "grad_norm": 0.822676956653595,
      "learning_rate": 3.850628998547111e-05,
      "loss": 3.2568,
      "step": 368500
    },
    {
      "epoch": 0.7677291666666667,
      "grad_norm": 0.8698580861091614,
      "learning_rate": 3.8499695171032737e-05,
      "loss": 3.3361,
      "step": 368510
    },
    {
      "epoch": 0.76775,
      "grad_norm": 0.8438366651535034,
      "learning_rate": 3.849310083823149e-05,
      "loss": 3.3668,
      "step": 368520
    },
    {
      "epoch": 0.7677708333333333,
      "grad_norm": 0.8890743851661682,
      "learning_rate": 3.848650698709592e-05,
      "loss": 3.3756,
      "step": 368530
    },
    {
      "epoch": 0.7677916666666667,
      "grad_norm": 0.8227977156639099,
      "learning_rate": 3.8479913617654493e-05,
      "loss": 3.2605,
      "step": 368540
    },
    {
      "epoch": 0.7678125,
      "grad_norm": 0.9112119078636169,
      "learning_rate": 3.847332072993569e-05,
      "loss": 3.4205,
      "step": 368550
    },
    {
      "epoch": 0.7678333333333334,
      "grad_norm": 0.8537972569465637,
      "learning_rate": 3.846672832396802e-05,
      "loss": 3.2046,
      "step": 368560
    },
    {
      "epoch": 0.7678541666666666,
      "grad_norm": 0.8713195323944092,
      "learning_rate": 3.846013639977991e-05,
      "loss": 3.4063,
      "step": 368570
    },
    {
      "epoch": 0.767875,
      "grad_norm": 0.9293622374534607,
      "learning_rate": 3.845354495739987e-05,
      "loss": 3.3673,
      "step": 368580
    },
    {
      "epoch": 0.7678958333333333,
      "grad_norm": 0.8662821650505066,
      "learning_rate": 3.844695399685636e-05,
      "loss": 3.5421,
      "step": 368590
    },
    {
      "epoch": 0.7679166666666667,
      "grad_norm": 1.0070748329162598,
      "learning_rate": 3.844036351817785e-05,
      "loss": 3.3619,
      "step": 368600
    },
    {
      "epoch": 0.7679375,
      "grad_norm": 0.8078877329826355,
      "learning_rate": 3.843377352139282e-05,
      "loss": 3.2642,
      "step": 368610
    },
    {
      "epoch": 0.7679583333333333,
      "grad_norm": 0.8957957625389099,
      "learning_rate": 3.842718400652972e-05,
      "loss": 3.3698,
      "step": 368620
    },
    {
      "epoch": 0.7679791666666667,
      "grad_norm": 0.8806530833244324,
      "learning_rate": 3.8420594973617034e-05,
      "loss": 3.327,
      "step": 368630
    },
    {
      "epoch": 0.768,
      "grad_norm": 0.9161456823348999,
      "learning_rate": 3.841400642268321e-05,
      "loss": 3.3414,
      "step": 368640
    },
    {
      "epoch": 0.7680208333333334,
      "grad_norm": 0.8912403583526611,
      "learning_rate": 3.840741835375675e-05,
      "loss": 3.335,
      "step": 368650
    },
    {
      "epoch": 0.7680416666666666,
      "grad_norm": 0.8766589164733887,
      "learning_rate": 3.840083076686596e-05,
      "loss": 3.2549,
      "step": 368660
    },
    {
      "epoch": 0.7680625,
      "grad_norm": 0.9648890495300293,
      "learning_rate": 3.8394243662039485e-05,
      "loss": 3.3317,
      "step": 368670
    },
    {
      "epoch": 0.7680833333333333,
      "grad_norm": 0.8813065886497498,
      "learning_rate": 3.8387657039305724e-05,
      "loss": 3.4367,
      "step": 368680
    },
    {
      "epoch": 0.7681041666666667,
      "grad_norm": 0.9403523802757263,
      "learning_rate": 3.838107089869302e-05,
      "loss": 3.4012,
      "step": 368690
    },
    {
      "epoch": 0.768125,
      "grad_norm": 0.9544394612312317,
      "learning_rate": 3.837448524022996e-05,
      "loss": 3.262,
      "step": 368700
    },
    {
      "epoch": 0.7681458333333333,
      "grad_norm": 0.8242180347442627,
      "learning_rate": 3.836790006394499e-05,
      "loss": 3.2171,
      "step": 368710
    },
    {
      "epoch": 0.7681666666666667,
      "grad_norm": 0.8417951464653015,
      "learning_rate": 3.83613153698664e-05,
      "loss": 3.5249,
      "step": 368720
    },
    {
      "epoch": 0.7681875,
      "grad_norm": 0.9331826567649841,
      "learning_rate": 3.835473115802279e-05,
      "loss": 3.3681,
      "step": 368730
    },
    {
      "epoch": 0.7682083333333334,
      "grad_norm": 0.9026814103126526,
      "learning_rate": 3.8348147428442595e-05,
      "loss": 3.3666,
      "step": 368740
    },
    {
      "epoch": 0.7682291666666666,
      "grad_norm": 0.8305112719535828,
      "learning_rate": 3.8341564181154103e-05,
      "loss": 3.2888,
      "step": 368750
    },
    {
      "epoch": 0.76825,
      "grad_norm": 1.0586854219436646,
      "learning_rate": 3.833498141618592e-05,
      "loss": 3.3945,
      "step": 368760
    },
    {
      "epoch": 0.7682708333333333,
      "grad_norm": 0.810712456703186,
      "learning_rate": 3.832839913356646e-05,
      "loss": 3.3271,
      "step": 368770
    },
    {
      "epoch": 0.7682916666666667,
      "grad_norm": 0.8105557560920715,
      "learning_rate": 3.8321817333324015e-05,
      "loss": 3.3529,
      "step": 368780
    },
    {
      "epoch": 0.7683125,
      "grad_norm": 0.8903831243515015,
      "learning_rate": 3.831523601548721e-05,
      "loss": 3.3881,
      "step": 368790
    },
    {
      "epoch": 0.7683333333333333,
      "grad_norm": 0.8909181952476501,
      "learning_rate": 3.830865518008433e-05,
      "loss": 3.4187,
      "step": 368800
    },
    {
      "epoch": 0.7683541666666667,
      "grad_norm": 0.9156596064567566,
      "learning_rate": 3.83020748271438e-05,
      "loss": 3.3251,
      "step": 368810
    },
    {
      "epoch": 0.768375,
      "grad_norm": 0.9239119291305542,
      "learning_rate": 3.8295494956694186e-05,
      "loss": 3.2831,
      "step": 368820
    },
    {
      "epoch": 0.7683958333333333,
      "grad_norm": 0.9758512377738953,
      "learning_rate": 3.8288915568763786e-05,
      "loss": 3.403,
      "step": 368830
    },
    {
      "epoch": 0.7684166666666666,
      "grad_norm": 0.9834840893745422,
      "learning_rate": 3.8282336663380994e-05,
      "loss": 3.2461,
      "step": 368840
    },
    {
      "epoch": 0.7684375,
      "grad_norm": 0.8157098293304443,
      "learning_rate": 3.8275758240574374e-05,
      "loss": 3.3694,
      "step": 368850
    },
    {
      "epoch": 0.7684583333333334,
      "grad_norm": 1.0880647897720337,
      "learning_rate": 3.826918030037222e-05,
      "loss": 3.2816,
      "step": 368860
    },
    {
      "epoch": 0.7684791666666667,
      "grad_norm": 0.9064494371414185,
      "learning_rate": 3.826260284280293e-05,
      "loss": 3.3372,
      "step": 368870
    },
    {
      "epoch": 0.7685,
      "grad_norm": 0.8123446702957153,
      "learning_rate": 3.825602586789506e-05,
      "loss": 3.2996,
      "step": 368880
    },
    {
      "epoch": 0.7685208333333333,
      "grad_norm": 0.8736717104911804,
      "learning_rate": 3.824944937567688e-05,
      "loss": 3.2912,
      "step": 368890
    },
    {
      "epoch": 0.7685416666666667,
      "grad_norm": 1.060962200164795,
      "learning_rate": 3.824287336617684e-05,
      "loss": 3.3817,
      "step": 368900
    },
    {
      "epoch": 0.7685625,
      "grad_norm": 0.939347505569458,
      "learning_rate": 3.823629783942336e-05,
      "loss": 3.516,
      "step": 368910
    },
    {
      "epoch": 0.7685833333333333,
      "grad_norm": 0.8655263185501099,
      "learning_rate": 3.8229722795444823e-05,
      "loss": 3.3515,
      "step": 368920
    },
    {
      "epoch": 0.7686041666666666,
      "grad_norm": 0.8250518441200256,
      "learning_rate": 3.822314823426964e-05,
      "loss": 3.3321,
      "step": 368930
    },
    {
      "epoch": 0.768625,
      "grad_norm": 0.9089862704277039,
      "learning_rate": 3.821657415592623e-05,
      "loss": 3.3273,
      "step": 368940
    },
    {
      "epoch": 0.7686458333333334,
      "grad_norm": 0.9431117177009583,
      "learning_rate": 3.821000056044296e-05,
      "loss": 3.3181,
      "step": 368950
    },
    {
      "epoch": 0.7686666666666667,
      "grad_norm": 0.8226702809333801,
      "learning_rate": 3.8203427447848255e-05,
      "loss": 3.3036,
      "step": 368960
    },
    {
      "epoch": 0.7686875,
      "grad_norm": 0.9440467953681946,
      "learning_rate": 3.819685481817048e-05,
      "loss": 3.2675,
      "step": 368970
    },
    {
      "epoch": 0.7687083333333333,
      "grad_norm": 0.8754874467849731,
      "learning_rate": 3.8190282671438027e-05,
      "loss": 3.2038,
      "step": 368980
    },
    {
      "epoch": 0.7687291666666667,
      "grad_norm": 0.8716092705726624,
      "learning_rate": 3.8183711007679304e-05,
      "loss": 3.4046,
      "step": 368990
    },
    {
      "epoch": 0.76875,
      "grad_norm": 0.9192147850990295,
      "learning_rate": 3.8177139826922695e-05,
      "loss": 3.2187,
      "step": 369000
    },
    {
      "epoch": 0.76875,
      "eval_loss": 4.051138401031494,
      "eval_runtime": 9.094,
      "eval_samples_per_second": 1.1,
      "eval_steps_per_second": 0.33,
      "step": 369000
    },
    {
      "epoch": 0.7687708333333333,
      "grad_norm": 1.1048915386199951,
      "learning_rate": 3.817056912919656e-05,
      "loss": 3.3413,
      "step": 369010
    },
    {
      "epoch": 0.7687916666666667,
      "grad_norm": 1.0832182168960571,
      "learning_rate": 3.816399891452937e-05,
      "loss": 3.3417,
      "step": 369020
    },
    {
      "epoch": 0.7688125,
      "grad_norm": 0.9427282214164734,
      "learning_rate": 3.815742918294933e-05,
      "loss": 3.412,
      "step": 369030
    },
    {
      "epoch": 0.7688333333333334,
      "grad_norm": 0.9004035592079163,
      "learning_rate": 3.815085993448498e-05,
      "loss": 3.3312,
      "step": 369040
    },
    {
      "epoch": 0.7688541666666666,
      "grad_norm": 0.8627795577049255,
      "learning_rate": 3.814429116916468e-05,
      "loss": 3.379,
      "step": 369050
    },
    {
      "epoch": 0.768875,
      "grad_norm": 0.979948103427887,
      "learning_rate": 3.813772288701669e-05,
      "loss": 3.3594,
      "step": 369060
    },
    {
      "epoch": 0.7688958333333333,
      "grad_norm": 0.9032726287841797,
      "learning_rate": 3.813115508806949e-05,
      "loss": 3.3696,
      "step": 369070
    },
    {
      "epoch": 0.7689166666666667,
      "grad_norm": 0.865121066570282,
      "learning_rate": 3.8124587772351464e-05,
      "loss": 3.2851,
      "step": 369080
    },
    {
      "epoch": 0.7689375,
      "grad_norm": 0.8782796859741211,
      "learning_rate": 3.8118020939890857e-05,
      "loss": 3.3562,
      "step": 369090
    },
    {
      "epoch": 0.7689583333333333,
      "grad_norm": 0.8639876246452332,
      "learning_rate": 3.811145459071616e-05,
      "loss": 3.2451,
      "step": 369100
    },
    {
      "epoch": 0.7689791666666667,
      "grad_norm": 0.9318816661834717,
      "learning_rate": 3.810488872485572e-05,
      "loss": 3.3642,
      "step": 369110
    },
    {
      "epoch": 0.769,
      "grad_norm": 0.8803492784500122,
      "learning_rate": 3.809832334233779e-05,
      "loss": 3.3439,
      "step": 369120
    },
    {
      "epoch": 0.7690208333333334,
      "grad_norm": 0.9303387999534607,
      "learning_rate": 3.809175844319084e-05,
      "loss": 3.4515,
      "step": 369130
    },
    {
      "epoch": 0.7690416666666666,
      "grad_norm": 0.8486348986625671,
      "learning_rate": 3.808519402744326e-05,
      "loss": 3.3436,
      "step": 369140
    },
    {
      "epoch": 0.7690625,
      "grad_norm": 0.9017807245254517,
      "learning_rate": 3.8078630095123244e-05,
      "loss": 3.339,
      "step": 369150
    },
    {
      "epoch": 0.7690833333333333,
      "grad_norm": 0.9647592306137085,
      "learning_rate": 3.807206664625934e-05,
      "loss": 3.2733,
      "step": 369160
    },
    {
      "epoch": 0.7691041666666667,
      "grad_norm": 0.8103777170181274,
      "learning_rate": 3.8065503680879755e-05,
      "loss": 3.2416,
      "step": 369170
    },
    {
      "epoch": 0.769125,
      "grad_norm": 1.0183826684951782,
      "learning_rate": 3.805894119901285e-05,
      "loss": 3.3214,
      "step": 369180
    },
    {
      "epoch": 0.7691458333333333,
      "grad_norm": 0.877665638923645,
      "learning_rate": 3.805237920068708e-05,
      "loss": 3.3836,
      "step": 369190
    },
    {
      "epoch": 0.7691666666666667,
      "grad_norm": 1.0704561471939087,
      "learning_rate": 3.8045817685930703e-05,
      "loss": 3.3473,
      "step": 369200
    },
    {
      "epoch": 0.7691875,
      "grad_norm": 1.299377679824829,
      "learning_rate": 3.803925665477205e-05,
      "loss": 3.3,
      "step": 369210
    },
    {
      "epoch": 0.7692083333333334,
      "grad_norm": 0.9130538702011108,
      "learning_rate": 3.8032696107239516e-05,
      "loss": 3.3291,
      "step": 369220
    },
    {
      "epoch": 0.7692291666666666,
      "grad_norm": 0.8453286290168762,
      "learning_rate": 3.80261360433614e-05,
      "loss": 3.326,
      "step": 369230
    },
    {
      "epoch": 0.76925,
      "grad_norm": 0.897596001625061,
      "learning_rate": 3.801957646316605e-05,
      "loss": 3.2739,
      "step": 369240
    },
    {
      "epoch": 0.7692708333333333,
      "grad_norm": 0.837203860282898,
      "learning_rate": 3.801301736668182e-05,
      "loss": 3.3939,
      "step": 369250
    },
    {
      "epoch": 0.7692916666666667,
      "grad_norm": 0.8770983219146729,
      "learning_rate": 3.800645875393702e-05,
      "loss": 3.2566,
      "step": 369260
    },
    {
      "epoch": 0.7693125,
      "grad_norm": 0.834453821182251,
      "learning_rate": 3.799990062495999e-05,
      "loss": 3.3498,
      "step": 369270
    },
    {
      "epoch": 0.7693333333333333,
      "grad_norm": 0.8383966684341431,
      "learning_rate": 3.799334297977906e-05,
      "loss": 3.3678,
      "step": 369280
    },
    {
      "epoch": 0.7693541666666667,
      "grad_norm": 0.8265575170516968,
      "learning_rate": 3.798678581842255e-05,
      "loss": 3.3292,
      "step": 369290
    },
    {
      "epoch": 0.769375,
      "grad_norm": 0.9856472015380859,
      "learning_rate": 3.798022914091878e-05,
      "loss": 3.397,
      "step": 369300
    },
    {
      "epoch": 0.7693958333333333,
      "grad_norm": 0.8151540160179138,
      "learning_rate": 3.7973672947296083e-05,
      "loss": 3.3187,
      "step": 369310
    },
    {
      "epoch": 0.7694166666666666,
      "grad_norm": 1.0326181650161743,
      "learning_rate": 3.7967117237582785e-05,
      "loss": 3.3543,
      "step": 369320
    },
    {
      "epoch": 0.7694375,
      "grad_norm": 0.8994224667549133,
      "learning_rate": 3.796056201180719e-05,
      "loss": 3.3983,
      "step": 369330
    },
    {
      "epoch": 0.7694583333333334,
      "grad_norm": 0.9314285516738892,
      "learning_rate": 3.795400726999761e-05,
      "loss": 3.3659,
      "step": 369340
    },
    {
      "epoch": 0.7694791666666667,
      "grad_norm": 0.9082782864570618,
      "learning_rate": 3.794745301218238e-05,
      "loss": 3.3713,
      "step": 369350
    },
    {
      "epoch": 0.7695,
      "grad_norm": 0.8749032616615295,
      "learning_rate": 3.7940899238389785e-05,
      "loss": 3.3018,
      "step": 369360
    },
    {
      "epoch": 0.7695208333333333,
      "grad_norm": 0.8608003854751587,
      "learning_rate": 3.793434594864815e-05,
      "loss": 3.316,
      "step": 369370
    },
    {
      "epoch": 0.7695416666666667,
      "grad_norm": 0.9017965197563171,
      "learning_rate": 3.79277931429858e-05,
      "loss": 3.3253,
      "step": 369380
    },
    {
      "epoch": 0.7695625,
      "grad_norm": 0.8806847333908081,
      "learning_rate": 3.792124082143105e-05,
      "loss": 3.2904,
      "step": 369390
    },
    {
      "epoch": 0.7695833333333333,
      "grad_norm": 0.8888064622879028,
      "learning_rate": 3.7914688984012105e-05,
      "loss": 3.3363,
      "step": 369400
    },
    {
      "epoch": 0.7696041666666666,
      "grad_norm": 0.85391765832901,
      "learning_rate": 3.790813763075736e-05,
      "loss": 3.3628,
      "step": 369410
    },
    {
      "epoch": 0.769625,
      "grad_norm": 0.9761705994606018,
      "learning_rate": 3.790158676169514e-05,
      "loss": 3.386,
      "step": 369420
    },
    {
      "epoch": 0.7696458333333334,
      "grad_norm": 0.8339359164237976,
      "learning_rate": 3.789503637685362e-05,
      "loss": 3.4099,
      "step": 369430
    },
    {
      "epoch": 0.7696666666666667,
      "grad_norm": 0.8366513848304749,
      "learning_rate": 3.78884864762612e-05,
      "loss": 3.4482,
      "step": 369440
    },
    {
      "epoch": 0.7696875,
      "grad_norm": 0.8591689467430115,
      "learning_rate": 3.78819370599462e-05,
      "loss": 3.2519,
      "step": 369450
    },
    {
      "epoch": 0.7697083333333333,
      "grad_norm": 0.9193945527076721,
      "learning_rate": 3.7875388127936744e-05,
      "loss": 3.2842,
      "step": 369460
    },
    {
      "epoch": 0.7697291666666667,
      "grad_norm": 0.896730899810791,
      "learning_rate": 3.786883968026128e-05,
      "loss": 3.3753,
      "step": 369470
    },
    {
      "epoch": 0.76975,
      "grad_norm": 0.8451685905456543,
      "learning_rate": 3.78622917169481e-05,
      "loss": 3.2624,
      "step": 369480
    },
    {
      "epoch": 0.7697708333333333,
      "grad_norm": 0.8530966639518738,
      "learning_rate": 3.7855744238025384e-05,
      "loss": 3.3571,
      "step": 369490
    },
    {
      "epoch": 0.7697916666666667,
      "grad_norm": 0.8573189377784729,
      "learning_rate": 3.78491972435214e-05,
      "loss": 3.2461,
      "step": 369500
    },
    {
      "epoch": 0.7698125,
      "grad_norm": 0.8366444706916809,
      "learning_rate": 3.7842650733464605e-05,
      "loss": 3.3615,
      "step": 369510
    },
    {
      "epoch": 0.7698333333333334,
      "grad_norm": 1.0102076530456543,
      "learning_rate": 3.78361047078831e-05,
      "loss": 3.3236,
      "step": 369520
    },
    {
      "epoch": 0.7698541666666666,
      "grad_norm": 0.7858505249023438,
      "learning_rate": 3.7829559166805245e-05,
      "loss": 3.3065,
      "step": 369530
    },
    {
      "epoch": 0.769875,
      "grad_norm": 0.8518993258476257,
      "learning_rate": 3.782301411025927e-05,
      "loss": 3.3271,
      "step": 369540
    },
    {
      "epoch": 0.7698958333333333,
      "grad_norm": 0.8481114506721497,
      "learning_rate": 3.7816469538273495e-05,
      "loss": 3.2998,
      "step": 369550
    },
    {
      "epoch": 0.7699166666666667,
      "grad_norm": 0.831450879573822,
      "learning_rate": 3.780992545087615e-05,
      "loss": 3.3011,
      "step": 369560
    },
    {
      "epoch": 0.7699375,
      "grad_norm": 0.8961188793182373,
      "learning_rate": 3.7803381848095526e-05,
      "loss": 3.2459,
      "step": 369570
    },
    {
      "epoch": 0.7699583333333333,
      "grad_norm": 0.8948566913604736,
      "learning_rate": 3.779683872995989e-05,
      "loss": 3.3104,
      "step": 369580
    },
    {
      "epoch": 0.7699791666666667,
      "grad_norm": 0.8615761399269104,
      "learning_rate": 3.779029609649749e-05,
      "loss": 3.3954,
      "step": 369590
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.865294873714447,
      "learning_rate": 3.778375394773658e-05,
      "loss": 3.2737,
      "step": 369600
    },
    {
      "epoch": 0.7700208333333334,
      "grad_norm": 0.8715968728065491,
      "learning_rate": 3.777721228370546e-05,
      "loss": 3.3726,
      "step": 369610
    },
    {
      "epoch": 0.7700416666666666,
      "grad_norm": 0.9625311493873596,
      "learning_rate": 3.777067110443234e-05,
      "loss": 3.238,
      "step": 369620
    },
    {
      "epoch": 0.7700625,
      "grad_norm": 1.021189570426941,
      "learning_rate": 3.7764130409945503e-05,
      "loss": 3.3536,
      "step": 369630
    },
    {
      "epoch": 0.7700833333333333,
      "grad_norm": 1.0339151620864868,
      "learning_rate": 3.77575902002732e-05,
      "loss": 3.3202,
      "step": 369640
    },
    {
      "epoch": 0.7701041666666667,
      "grad_norm": 0.8857413530349731,
      "learning_rate": 3.775105047544368e-05,
      "loss": 3.3309,
      "step": 369650
    },
    {
      "epoch": 0.770125,
      "grad_norm": 0.8814573287963867,
      "learning_rate": 3.774451123548521e-05,
      "loss": 3.4684,
      "step": 369660
    },
    {
      "epoch": 0.7701458333333333,
      "grad_norm": 0.8213402628898621,
      "learning_rate": 3.773797248042599e-05,
      "loss": 3.4376,
      "step": 369670
    },
    {
      "epoch": 0.7701666666666667,
      "grad_norm": 0.8790927529335022,
      "learning_rate": 3.7731434210294295e-05,
      "loss": 3.3278,
      "step": 369680
    },
    {
      "epoch": 0.7701875,
      "grad_norm": 1.0501312017440796,
      "learning_rate": 3.772489642511839e-05,
      "loss": 3.3998,
      "step": 369690
    },
    {
      "epoch": 0.7702083333333334,
      "grad_norm": 0.9339579939842224,
      "learning_rate": 3.771835912492646e-05,
      "loss": 3.2962,
      "step": 369700
    },
    {
      "epoch": 0.7702291666666666,
      "grad_norm": 0.813808798789978,
      "learning_rate": 3.771182230974679e-05,
      "loss": 3.3016,
      "step": 369710
    },
    {
      "epoch": 0.77025,
      "grad_norm": 0.8288825750350952,
      "learning_rate": 3.770528597960759e-05,
      "loss": 3.3533,
      "step": 369720
    },
    {
      "epoch": 0.7702708333333333,
      "grad_norm": 0.775015652179718,
      "learning_rate": 3.769875013453711e-05,
      "loss": 3.3345,
      "step": 369730
    },
    {
      "epoch": 0.7702916666666667,
      "grad_norm": 0.776645839214325,
      "learning_rate": 3.769221477456359e-05,
      "loss": 3.4733,
      "step": 369740
    },
    {
      "epoch": 0.7703125,
      "grad_norm": 0.7704708576202393,
      "learning_rate": 3.768567989971524e-05,
      "loss": 3.338,
      "step": 369750
    },
    {
      "epoch": 0.7703333333333333,
      "grad_norm": 1.2244513034820557,
      "learning_rate": 3.767914551002029e-05,
      "loss": 3.3961,
      "step": 369760
    },
    {
      "epoch": 0.7703541666666667,
      "grad_norm": 0.8285562992095947,
      "learning_rate": 3.7672611605506984e-05,
      "loss": 3.4269,
      "step": 369770
    },
    {
      "epoch": 0.770375,
      "grad_norm": 0.9376623630523682,
      "learning_rate": 3.766607818620351e-05,
      "loss": 3.4181,
      "step": 369780
    },
    {
      "epoch": 0.7703958333333333,
      "grad_norm": 0.8379615545272827,
      "learning_rate": 3.765954525213818e-05,
      "loss": 3.2254,
      "step": 369790
    },
    {
      "epoch": 0.7704166666666666,
      "grad_norm": 0.8375464081764221,
      "learning_rate": 3.765301280333909e-05,
      "loss": 3.3946,
      "step": 369800
    },
    {
      "epoch": 0.7704375,
      "grad_norm": 0.8912349343299866,
      "learning_rate": 3.764648083983447e-05,
      "loss": 3.3588,
      "step": 369810
    },
    {
      "epoch": 0.7704583333333334,
      "grad_norm": 1.1254196166992188,
      "learning_rate": 3.763994936165268e-05,
      "loss": 3.4089,
      "step": 369820
    },
    {
      "epoch": 0.7704791666666667,
      "grad_norm": 0.9775967597961426,
      "learning_rate": 3.763341836882179e-05,
      "loss": 3.3372,
      "step": 369830
    },
    {
      "epoch": 0.7705,
      "grad_norm": 0.8342175483703613,
      "learning_rate": 3.762688786137e-05,
      "loss": 3.4097,
      "step": 369840
    },
    {
      "epoch": 0.7705208333333333,
      "grad_norm": 1.0241583585739136,
      "learning_rate": 3.762035783932567e-05,
      "loss": 3.3223,
      "step": 369850
    },
    {
      "epoch": 0.7705416666666667,
      "grad_norm": 0.8788692951202393,
      "learning_rate": 3.7613828302716855e-05,
      "loss": 3.3413,
      "step": 369860
    },
    {
      "epoch": 0.7705625,
      "grad_norm": 0.9343308806419373,
      "learning_rate": 3.7607299251571786e-05,
      "loss": 3.3682,
      "step": 369870
    },
    {
      "epoch": 0.7705833333333333,
      "grad_norm": 0.8654990792274475,
      "learning_rate": 3.760077068591878e-05,
      "loss": 3.3906,
      "step": 369880
    },
    {
      "epoch": 0.7706041666666666,
      "grad_norm": 0.8355531096458435,
      "learning_rate": 3.7594242605785904e-05,
      "loss": 3.3489,
      "step": 369890
    },
    {
      "epoch": 0.770625,
      "grad_norm": 0.913493812084198,
      "learning_rate": 3.758771501120138e-05,
      "loss": 3.2582,
      "step": 369900
    },
    {
      "epoch": 0.7706458333333334,
      "grad_norm": 0.8697444200515747,
      "learning_rate": 3.75811879021935e-05,
      "loss": 3.2878,
      "step": 369910
    },
    {
      "epoch": 0.7706666666666667,
      "grad_norm": 0.9441626667976379,
      "learning_rate": 3.7574661278790355e-05,
      "loss": 3.3337,
      "step": 369920
    },
    {
      "epoch": 0.7706875,
      "grad_norm": 1.033982753753662,
      "learning_rate": 3.756813514102017e-05,
      "loss": 3.389,
      "step": 369930
    },
    {
      "epoch": 0.7707083333333333,
      "grad_norm": 0.856185257434845,
      "learning_rate": 3.756160948891114e-05,
      "loss": 3.3615,
      "step": 369940
    },
    {
      "epoch": 0.7707291666666667,
      "grad_norm": 0.9803294539451599,
      "learning_rate": 3.755508432249145e-05,
      "loss": 3.3904,
      "step": 369950
    },
    {
      "epoch": 0.77075,
      "grad_norm": 0.8912230730056763,
      "learning_rate": 3.754855964178927e-05,
      "loss": 3.3784,
      "step": 369960
    },
    {
      "epoch": 0.7707708333333333,
      "grad_norm": 0.8710665702819824,
      "learning_rate": 3.754203544683283e-05,
      "loss": 3.3815,
      "step": 369970
    },
    {
      "epoch": 0.7707916666666667,
      "grad_norm": 0.9125701785087585,
      "learning_rate": 3.753551173765027e-05,
      "loss": 3.2722,
      "step": 369980
    },
    {
      "epoch": 0.7708125,
      "grad_norm": 0.8729270100593567,
      "learning_rate": 3.752898851426977e-05,
      "loss": 3.3669,
      "step": 369990
    },
    {
      "epoch": 0.7708333333333334,
      "grad_norm": 0.9179220795631409,
      "learning_rate": 3.752246577671953e-05,
      "loss": 3.3001,
      "step": 370000
    },
    {
      "epoch": 0.7708333333333334,
      "eval_loss": 4.0523786544799805,
      "eval_runtime": 9.4775,
      "eval_samples_per_second": 1.055,
      "eval_steps_per_second": 0.317,
      "step": 370000
    },
    {
      "epoch": 0.7708541666666666,
      "grad_norm": 0.8523340821266174,
      "learning_rate": 3.7515943525027737e-05,
      "loss": 3.377,
      "step": 370010
    },
    {
      "epoch": 0.770875,
      "grad_norm": 1.030219554901123,
      "learning_rate": 3.750942175922252e-05,
      "loss": 3.3366,
      "step": 370020
    },
    {
      "epoch": 0.7708958333333333,
      "grad_norm": 0.8215855360031128,
      "learning_rate": 3.750290047933208e-05,
      "loss": 3.4243,
      "step": 370030
    },
    {
      "epoch": 0.7709166666666667,
      "grad_norm": 0.8554186224937439,
      "learning_rate": 3.749637968538457e-05,
      "loss": 3.3005,
      "step": 370040
    },
    {
      "epoch": 0.7709375,
      "grad_norm": 0.8524226546287537,
      "learning_rate": 3.748985937740819e-05,
      "loss": 3.3074,
      "step": 370050
    },
    {
      "epoch": 0.7709583333333333,
      "grad_norm": 0.8761445879936218,
      "learning_rate": 3.7483339555431055e-05,
      "loss": 3.2324,
      "step": 370060
    },
    {
      "epoch": 0.7709791666666667,
      "grad_norm": 0.845564603805542,
      "learning_rate": 3.747682021948139e-05,
      "loss": 3.2792,
      "step": 370070
    },
    {
      "epoch": 0.771,
      "grad_norm": 0.8630732893943787,
      "learning_rate": 3.747030136958734e-05,
      "loss": 3.3282,
      "step": 370080
    },
    {
      "epoch": 0.7710208333333334,
      "grad_norm": 0.8710846304893494,
      "learning_rate": 3.7463783005776974e-05,
      "loss": 3.2896,
      "step": 370090
    },
    {
      "epoch": 0.7710416666666666,
      "grad_norm": 1.0307523012161255,
      "learning_rate": 3.745726512807854e-05,
      "loss": 3.3538,
      "step": 370100
    },
    {
      "epoch": 0.7710625,
      "grad_norm": 0.8698610067367554,
      "learning_rate": 3.745074773652024e-05,
      "loss": 3.3244,
      "step": 370110
    },
    {
      "epoch": 0.7710833333333333,
      "grad_norm": 0.852454662322998,
      "learning_rate": 3.744423083113006e-05,
      "loss": 3.2739,
      "step": 370120
    },
    {
      "epoch": 0.7711041666666667,
      "grad_norm": 0.9757212400436401,
      "learning_rate": 3.743771441193631e-05,
      "loss": 3.3932,
      "step": 370130
    },
    {
      "epoch": 0.771125,
      "grad_norm": 0.8736658096313477,
      "learning_rate": 3.743119847896711e-05,
      "loss": 3.2832,
      "step": 370140
    },
    {
      "epoch": 0.7711458333333333,
      "grad_norm": 0.7890951037406921,
      "learning_rate": 3.7424683032250476e-05,
      "loss": 3.3043,
      "step": 370150
    },
    {
      "epoch": 0.7711666666666667,
      "grad_norm": 0.8909883499145508,
      "learning_rate": 3.741816807181476e-05,
      "loss": 3.2522,
      "step": 370160
    },
    {
      "epoch": 0.7711875,
      "grad_norm": 0.8947494029998779,
      "learning_rate": 3.741165359768793e-05,
      "loss": 3.4202,
      "step": 370170
    },
    {
      "epoch": 0.7712083333333334,
      "grad_norm": 0.8737742304801941,
      "learning_rate": 3.7405139609898164e-05,
      "loss": 3.3865,
      "step": 370180
    },
    {
      "epoch": 0.7712291666666666,
      "grad_norm": 0.8275193572044373,
      "learning_rate": 3.739862610847371e-05,
      "loss": 3.2052,
      "step": 370190
    },
    {
      "epoch": 0.77125,
      "grad_norm": 0.872918426990509,
      "learning_rate": 3.739211309344258e-05,
      "loss": 3.3018,
      "step": 370200
    },
    {
      "epoch": 0.7712708333333333,
      "grad_norm": 0.8077548742294312,
      "learning_rate": 3.7385600564832906e-05,
      "loss": 3.3218,
      "step": 370210
    },
    {
      "epoch": 0.7712916666666667,
      "grad_norm": 0.9842664003372192,
      "learning_rate": 3.737908852267293e-05,
      "loss": 3.1571,
      "step": 370220
    },
    {
      "epoch": 0.7713125,
      "grad_norm": 0.8291312456130981,
      "learning_rate": 3.737257696699069e-05,
      "loss": 3.3869,
      "step": 370230
    },
    {
      "epoch": 0.7713333333333333,
      "grad_norm": 1.183886170387268,
      "learning_rate": 3.736606589781429e-05,
      "loss": 3.3808,
      "step": 370240
    },
    {
      "epoch": 0.7713541666666667,
      "grad_norm": 0.9051159620285034,
      "learning_rate": 3.7359555315171985e-05,
      "loss": 3.4004,
      "step": 370250
    },
    {
      "epoch": 0.771375,
      "grad_norm": 0.8842366933822632,
      "learning_rate": 3.735304521909177e-05,
      "loss": 3.3674,
      "step": 370260
    },
    {
      "epoch": 0.7713958333333333,
      "grad_norm": 0.8135083317756653,
      "learning_rate": 3.734653560960176e-05,
      "loss": 3.2976,
      "step": 370270
    },
    {
      "epoch": 0.7714166666666666,
      "grad_norm": 0.9052999019622803,
      "learning_rate": 3.734002648673023e-05,
      "loss": 3.396,
      "step": 370280
    },
    {
      "epoch": 0.7714375,
      "grad_norm": 1.1891666650772095,
      "learning_rate": 3.733351785050513e-05,
      "loss": 3.3988,
      "step": 370290
    },
    {
      "epoch": 0.7714583333333334,
      "grad_norm": 0.9073991179466248,
      "learning_rate": 3.732700970095465e-05,
      "loss": 3.2809,
      "step": 370300
    },
    {
      "epoch": 0.7714791666666667,
      "grad_norm": 1.056822657585144,
      "learning_rate": 3.732050203810689e-05,
      "loss": 3.382,
      "step": 370310
    },
    {
      "epoch": 0.7715,
      "grad_norm": 0.9605607986450195,
      "learning_rate": 3.731399486198994e-05,
      "loss": 3.2763,
      "step": 370320
    },
    {
      "epoch": 0.7715208333333333,
      "grad_norm": 0.8548831343650818,
      "learning_rate": 3.730748817263195e-05,
      "loss": 3.2981,
      "step": 370330
    },
    {
      "epoch": 0.7715416666666667,
      "grad_norm": 0.837796688079834,
      "learning_rate": 3.730098197006098e-05,
      "loss": 3.359,
      "step": 370340
    },
    {
      "epoch": 0.7715625,
      "grad_norm": 0.9245477914810181,
      "learning_rate": 3.729447625430519e-05,
      "loss": 3.296,
      "step": 370350
    },
    {
      "epoch": 0.7715833333333333,
      "grad_norm": 1.3351637125015259,
      "learning_rate": 3.7287971025392625e-05,
      "loss": 3.3431,
      "step": 370360
    },
    {
      "epoch": 0.7716041666666666,
      "grad_norm": 0.9314014315605164,
      "learning_rate": 3.7281466283351426e-05,
      "loss": 3.4507,
      "step": 370370
    },
    {
      "epoch": 0.771625,
      "grad_norm": 0.8115051984786987,
      "learning_rate": 3.7274962028209674e-05,
      "loss": 3.3546,
      "step": 370380
    },
    {
      "epoch": 0.7716458333333334,
      "grad_norm": 0.8419017791748047,
      "learning_rate": 3.726845825999551e-05,
      "loss": 3.3284,
      "step": 370390
    },
    {
      "epoch": 0.7716666666666666,
      "grad_norm": 0.8329601883888245,
      "learning_rate": 3.7261954978736885e-05,
      "loss": 3.3862,
      "step": 370400
    },
    {
      "epoch": 0.7716875,
      "grad_norm": 0.9136300086975098,
      "learning_rate": 3.725545218446205e-05,
      "loss": 3.2472,
      "step": 370410
    },
    {
      "epoch": 0.7717083333333333,
      "grad_norm": 0.8978459239006042,
      "learning_rate": 3.724894987719906e-05,
      "loss": 3.4634,
      "step": 370420
    },
    {
      "epoch": 0.7717291666666667,
      "grad_norm": 0.8617551326751709,
      "learning_rate": 3.7242448056975894e-05,
      "loss": 3.449,
      "step": 370430
    },
    {
      "epoch": 0.77175,
      "grad_norm": 0.883640468120575,
      "learning_rate": 3.723594672382076e-05,
      "loss": 3.3287,
      "step": 370440
    },
    {
      "epoch": 0.7717708333333333,
      "grad_norm": 0.9007939696311951,
      "learning_rate": 3.722944587776177e-05,
      "loss": 3.3017,
      "step": 370450
    },
    {
      "epoch": 0.7717916666666667,
      "grad_norm": 0.8749088048934937,
      "learning_rate": 3.7222945518826825e-05,
      "loss": 3.2861,
      "step": 370460
    },
    {
      "epoch": 0.7718125,
      "grad_norm": 0.9245437383651733,
      "learning_rate": 3.721644564704417e-05,
      "loss": 3.3128,
      "step": 370470
    },
    {
      "epoch": 0.7718333333333334,
      "grad_norm": 0.8307843208312988,
      "learning_rate": 3.720994626244186e-05,
      "loss": 3.3659,
      "step": 370480
    },
    {
      "epoch": 0.7718541666666666,
      "grad_norm": 0.919312596321106,
      "learning_rate": 3.7203447365047855e-05,
      "loss": 3.4664,
      "step": 370490
    },
    {
      "epoch": 0.771875,
      "grad_norm": 0.9647516012191772,
      "learning_rate": 3.7196948954890356e-05,
      "loss": 3.3049,
      "step": 370500
    },
    {
      "epoch": 0.7718958333333333,
      "grad_norm": 0.8278029561042786,
      "learning_rate": 3.719045103199743e-05,
      "loss": 3.1846,
      "step": 370510
    },
    {
      "epoch": 0.7719166666666667,
      "grad_norm": 0.8750116229057312,
      "learning_rate": 3.7183953596397016e-05,
      "loss": 3.2671,
      "step": 370520
    },
    {
      "epoch": 0.7719375,
      "grad_norm": 0.8771054148674011,
      "learning_rate": 3.717745664811735e-05,
      "loss": 3.2552,
      "step": 370530
    },
    {
      "epoch": 0.7719583333333333,
      "grad_norm": 0.8613463044166565,
      "learning_rate": 3.717096018718636e-05,
      "loss": 3.3699,
      "step": 370540
    },
    {
      "epoch": 0.7719791666666667,
      "grad_norm": 0.8976247310638428,
      "learning_rate": 3.7164464213632126e-05,
      "loss": 3.2881,
      "step": 370550
    },
    {
      "epoch": 0.772,
      "grad_norm": 0.9966822266578674,
      "learning_rate": 3.715796872748283e-05,
      "loss": 3.353,
      "step": 370560
    },
    {
      "epoch": 0.7720208333333334,
      "grad_norm": 0.8922304511070251,
      "learning_rate": 3.7151473728766403e-05,
      "loss": 3.3203,
      "step": 370570
    },
    {
      "epoch": 0.7720416666666666,
      "grad_norm": 0.8542526960372925,
      "learning_rate": 3.7144979217510905e-05,
      "loss": 3.1938,
      "step": 370580
    },
    {
      "epoch": 0.7720625,
      "grad_norm": 0.9105259776115417,
      "learning_rate": 3.7138485193744505e-05,
      "loss": 3.3027,
      "step": 370590
    },
    {
      "epoch": 0.7720833333333333,
      "grad_norm": 0.8562464714050293,
      "learning_rate": 3.713199165749513e-05,
      "loss": 3.3364,
      "step": 370600
    },
    {
      "epoch": 0.7721041666666667,
      "grad_norm": 0.7859962582588196,
      "learning_rate": 3.7125498608790826e-05,
      "loss": 3.2769,
      "step": 370610
    },
    {
      "epoch": 0.772125,
      "grad_norm": 0.7958570122718811,
      "learning_rate": 3.711900604765979e-05,
      "loss": 3.3232,
      "step": 370620
    },
    {
      "epoch": 0.7721458333333333,
      "grad_norm": 0.946260392665863,
      "learning_rate": 3.711251397412991e-05,
      "loss": 3.3591,
      "step": 370630
    },
    {
      "epoch": 0.7721666666666667,
      "grad_norm": 0.889079749584198,
      "learning_rate": 3.710602238822925e-05,
      "loss": 3.2959,
      "step": 370640
    },
    {
      "epoch": 0.7721875,
      "grad_norm": 0.9306482672691345,
      "learning_rate": 3.7099531289985976e-05,
      "loss": 3.4314,
      "step": 370650
    },
    {
      "epoch": 0.7722083333333334,
      "grad_norm": 0.9730350971221924,
      "learning_rate": 3.7093040679427985e-05,
      "loss": 3.4213,
      "step": 370660
    },
    {
      "epoch": 0.7722291666666666,
      "grad_norm": 0.8976759910583496,
      "learning_rate": 3.708655055658337e-05,
      "loss": 3.2926,
      "step": 370670
    },
    {
      "epoch": 0.77225,
      "grad_norm": 0.921380877494812,
      "learning_rate": 3.708006092148015e-05,
      "loss": 3.3882,
      "step": 370680
    },
    {
      "epoch": 0.7722708333333334,
      "grad_norm": 0.8581590056419373,
      "learning_rate": 3.70735717741464e-05,
      "loss": 3.3421,
      "step": 370690
    },
    {
      "epoch": 0.7722916666666667,
      "grad_norm": 1.1081171035766602,
      "learning_rate": 3.70670831146101e-05,
      "loss": 3.3249,
      "step": 370700
    },
    {
      "epoch": 0.7723125,
      "grad_norm": 0.8459022641181946,
      "learning_rate": 3.706059494289929e-05,
      "loss": 3.3879,
      "step": 370710
    },
    {
      "epoch": 0.7723333333333333,
      "grad_norm": 0.9173080921173096,
      "learning_rate": 3.705410725904202e-05,
      "loss": 3.4087,
      "step": 370720
    },
    {
      "epoch": 0.7723541666666667,
      "grad_norm": 0.9281378984451294,
      "learning_rate": 3.70476200630663e-05,
      "loss": 3.3985,
      "step": 370730
    },
    {
      "epoch": 0.772375,
      "grad_norm": 0.8426615595817566,
      "learning_rate": 3.7041133355000145e-05,
      "loss": 3.3265,
      "step": 370740
    },
    {
      "epoch": 0.7723958333333333,
      "grad_norm": 0.806654155254364,
      "learning_rate": 3.70346471348716e-05,
      "loss": 3.3979,
      "step": 370750
    },
    {
      "epoch": 0.7724166666666666,
      "grad_norm": 0.836344301700592,
      "learning_rate": 3.702816140270865e-05,
      "loss": 3.272,
      "step": 370760
    },
    {
      "epoch": 0.7724375,
      "grad_norm": 1.0921140909194946,
      "learning_rate": 3.702167615853931e-05,
      "loss": 3.3941,
      "step": 370770
    },
    {
      "epoch": 0.7724583333333334,
      "grad_norm": 0.8795962333679199,
      "learning_rate": 3.7015191402391634e-05,
      "loss": 3.3759,
      "step": 370780
    },
    {
      "epoch": 0.7724791666666667,
      "grad_norm": 1.0132189989089966,
      "learning_rate": 3.700870713429364e-05,
      "loss": 3.4098,
      "step": 370790
    },
    {
      "epoch": 0.7725,
      "grad_norm": 0.9033812284469604,
      "learning_rate": 3.700222335427322e-05,
      "loss": 3.4607,
      "step": 370800
    },
    {
      "epoch": 0.7725208333333333,
      "grad_norm": 0.8783770799636841,
      "learning_rate": 3.6995740062358516e-05,
      "loss": 3.3172,
      "step": 370810
    },
    {
      "epoch": 0.7725416666666667,
      "grad_norm": 0.9176317453384399,
      "learning_rate": 3.698925725857752e-05,
      "loss": 3.2621,
      "step": 370820
    },
    {
      "epoch": 0.7725625,
      "grad_norm": 0.8031378388404846,
      "learning_rate": 3.6982774942958124e-05,
      "loss": 3.3774,
      "step": 370830
    },
    {
      "epoch": 0.7725833333333333,
      "grad_norm": 0.8369244933128357,
      "learning_rate": 3.6976293115528444e-05,
      "loss": 3.4424,
      "step": 370840
    },
    {
      "epoch": 0.7726041666666666,
      "grad_norm": 0.9192870855331421,
      "learning_rate": 3.696981177631648e-05,
      "loss": 3.3757,
      "step": 370850
    },
    {
      "epoch": 0.772625,
      "grad_norm": 0.8967041969299316,
      "learning_rate": 3.6963330925350096e-05,
      "loss": 3.4117,
      "step": 370860
    },
    {
      "epoch": 0.7726458333333334,
      "grad_norm": 0.8802902102470398,
      "learning_rate": 3.695685056265744e-05,
      "loss": 3.448,
      "step": 370870
    },
    {
      "epoch": 0.7726666666666666,
      "grad_norm": 0.9281540513038635,
      "learning_rate": 3.695037068826647e-05,
      "loss": 3.355,
      "step": 370880
    },
    {
      "epoch": 0.7726875,
      "grad_norm": 0.8461633920669556,
      "learning_rate": 3.6943891302205085e-05,
      "loss": 3.4764,
      "step": 370890
    },
    {
      "epoch": 0.7727083333333333,
      "grad_norm": 0.8766545057296753,
      "learning_rate": 3.6937412404501407e-05,
      "loss": 3.3658,
      "step": 370900
    },
    {
      "epoch": 0.7727291666666667,
      "grad_norm": 0.8863586187362671,
      "learning_rate": 3.693093399518332e-05,
      "loss": 3.2721,
      "step": 370910
    },
    {
      "epoch": 0.77275,
      "grad_norm": 0.970346987247467,
      "learning_rate": 3.6924456074278794e-05,
      "loss": 3.2917,
      "step": 370920
    },
    {
      "epoch": 0.7727708333333333,
      "grad_norm": 1.022433876991272,
      "learning_rate": 3.691797864181594e-05,
      "loss": 3.38,
      "step": 370930
    },
    {
      "epoch": 0.7727916666666667,
      "grad_norm": 0.8106383085250854,
      "learning_rate": 3.691150169782262e-05,
      "loss": 3.3607,
      "step": 370940
    },
    {
      "epoch": 0.7728125,
      "grad_norm": 0.9621362686157227,
      "learning_rate": 3.690502524232686e-05,
      "loss": 3.2134,
      "step": 370950
    },
    {
      "epoch": 0.7728333333333334,
      "grad_norm": 0.8515706658363342,
      "learning_rate": 3.6898549275356615e-05,
      "loss": 3.3833,
      "step": 370960
    },
    {
      "epoch": 0.7728541666666666,
      "grad_norm": 0.8395016193389893,
      "learning_rate": 3.689207379693987e-05,
      "loss": 3.3825,
      "step": 370970
    },
    {
      "epoch": 0.772875,
      "grad_norm": 0.9106115102767944,
      "learning_rate": 3.6885598807104586e-05,
      "loss": 3.3385,
      "step": 370980
    },
    {
      "epoch": 0.7728958333333333,
      "grad_norm": 0.853154718875885,
      "learning_rate": 3.687912430587875e-05,
      "loss": 3.3668,
      "step": 370990
    },
    {
      "epoch": 0.7729166666666667,
      "grad_norm": 0.8619420528411865,
      "learning_rate": 3.687265029329033e-05,
      "loss": 3.227,
      "step": 371000
    },
    {
      "epoch": 0.7729166666666667,
      "eval_loss": 4.047704219818115,
      "eval_runtime": 8.9844,
      "eval_samples_per_second": 1.113,
      "eval_steps_per_second": 0.334,
      "step": 371000
    },
    {
      "epoch": 0.7729375,
      "grad_norm": 0.7987614274024963,
      "learning_rate": 3.686617676936727e-05,
      "loss": 3.3832,
      "step": 371010
    },
    {
      "epoch": 0.7729583333333333,
      "grad_norm": 0.904437780380249,
      "learning_rate": 3.685970373413754e-05,
      "loss": 3.3099,
      "step": 371020
    },
    {
      "epoch": 0.7729791666666667,
      "grad_norm": 0.9701899290084839,
      "learning_rate": 3.6853231187629114e-05,
      "loss": 3.401,
      "step": 371030
    },
    {
      "epoch": 0.773,
      "grad_norm": 0.9747268557548523,
      "learning_rate": 3.684675912986994e-05,
      "loss": 3.4126,
      "step": 371040
    },
    {
      "epoch": 0.7730208333333334,
      "grad_norm": 0.9680097103118896,
      "learning_rate": 3.684028756088797e-05,
      "loss": 3.3729,
      "step": 371050
    },
    {
      "epoch": 0.7730416666666666,
      "grad_norm": 0.8139184713363647,
      "learning_rate": 3.6833816480711184e-05,
      "loss": 3.3102,
      "step": 371060
    },
    {
      "epoch": 0.7730625,
      "grad_norm": 0.8963823914527893,
      "learning_rate": 3.68273458893675e-05,
      "loss": 3.344,
      "step": 371070
    },
    {
      "epoch": 0.7730833333333333,
      "grad_norm": 0.8882697820663452,
      "learning_rate": 3.6820875786884884e-05,
      "loss": 3.1985,
      "step": 371080
    },
    {
      "epoch": 0.7731041666666667,
      "grad_norm": 0.978596031665802,
      "learning_rate": 3.68144061732913e-05,
      "loss": 3.2068,
      "step": 371090
    },
    {
      "epoch": 0.773125,
      "grad_norm": 0.9224830865859985,
      "learning_rate": 3.6807937048614675e-05,
      "loss": 3.3662,
      "step": 371100
    },
    {
      "epoch": 0.7731458333333333,
      "grad_norm": 0.8467917442321777,
      "learning_rate": 3.6801468412882946e-05,
      "loss": 3.4446,
      "step": 371110
    },
    {
      "epoch": 0.7731666666666667,
      "grad_norm": 0.8863104581832886,
      "learning_rate": 3.679500026612408e-05,
      "loss": 3.2708,
      "step": 371120
    },
    {
      "epoch": 0.7731875,
      "grad_norm": 0.8785688877105713,
      "learning_rate": 3.678853260836601e-05,
      "loss": 3.3436,
      "step": 371130
    },
    {
      "epoch": 0.7732083333333334,
      "grad_norm": 0.8234211206436157,
      "learning_rate": 3.678206543963665e-05,
      "loss": 3.2768,
      "step": 371140
    },
    {
      "epoch": 0.7732291666666666,
      "grad_norm": 1.1763087511062622,
      "learning_rate": 3.677559875996395e-05,
      "loss": 3.3448,
      "step": 371150
    },
    {
      "epoch": 0.77325,
      "grad_norm": 1.0024625062942505,
      "learning_rate": 3.67691325693759e-05,
      "loss": 3.2859,
      "step": 371160
    },
    {
      "epoch": 0.7732708333333334,
      "grad_norm": 0.9218679666519165,
      "learning_rate": 3.6762666867900295e-05,
      "loss": 3.2803,
      "step": 371170
    },
    {
      "epoch": 0.7732916666666667,
      "grad_norm": 0.8584662675857544,
      "learning_rate": 3.675620165556518e-05,
      "loss": 3.2277,
      "step": 371180
    },
    {
      "epoch": 0.7733125,
      "grad_norm": 0.7640204429626465,
      "learning_rate": 3.6749736932398496e-05,
      "loss": 3.2705,
      "step": 371190
    },
    {
      "epoch": 0.7733333333333333,
      "grad_norm": 0.8071053624153137,
      "learning_rate": 3.6743272698428024e-05,
      "loss": 3.3537,
      "step": 371200
    },
    {
      "epoch": 0.7733541666666667,
      "grad_norm": 1.1256176233291626,
      "learning_rate": 3.673680895368185e-05,
      "loss": 3.543,
      "step": 371210
    },
    {
      "epoch": 0.773375,
      "grad_norm": 0.9453548789024353,
      "learning_rate": 3.673034569818784e-05,
      "loss": 3.3237,
      "step": 371220
    },
    {
      "epoch": 0.7733958333333333,
      "grad_norm": 0.9162411093711853,
      "learning_rate": 3.672388293197384e-05,
      "loss": 3.3844,
      "step": 371230
    },
    {
      "epoch": 0.7734166666666666,
      "grad_norm": 0.9679760336875916,
      "learning_rate": 3.671742065506786e-05,
      "loss": 3.2504,
      "step": 371240
    },
    {
      "epoch": 0.7734375,
      "grad_norm": 0.8567491173744202,
      "learning_rate": 3.671095886749784e-05,
      "loss": 3.2449,
      "step": 371250
    },
    {
      "epoch": 0.7734583333333334,
      "grad_norm": 0.8206754922866821,
      "learning_rate": 3.670449756929158e-05,
      "loss": 3.2926,
      "step": 371260
    },
    {
      "epoch": 0.7734791666666667,
      "grad_norm": 0.9158704876899719,
      "learning_rate": 3.6698036760477e-05,
      "loss": 3.2539,
      "step": 371270
    },
    {
      "epoch": 0.7735,
      "grad_norm": 0.871927797794342,
      "learning_rate": 3.669157644108214e-05,
      "loss": 3.4425,
      "step": 371280
    },
    {
      "epoch": 0.7735208333333333,
      "grad_norm": 0.9055443406105042,
      "learning_rate": 3.668511661113478e-05,
      "loss": 3.3043,
      "step": 371290
    },
    {
      "epoch": 0.7735416666666667,
      "grad_norm": 0.9386128187179565,
      "learning_rate": 3.6678657270662853e-05,
      "loss": 3.3167,
      "step": 371300
    },
    {
      "epoch": 0.7735625,
      "grad_norm": 1.032184362411499,
      "learning_rate": 3.6672198419694294e-05,
      "loss": 3.4565,
      "step": 371310
    },
    {
      "epoch": 0.7735833333333333,
      "grad_norm": 0.9075891375541687,
      "learning_rate": 3.666574005825697e-05,
      "loss": 3.3405,
      "step": 371320
    },
    {
      "epoch": 0.7736041666666666,
      "grad_norm": 0.9384459853172302,
      "learning_rate": 3.6659282186378765e-05,
      "loss": 3.3124,
      "step": 371330
    },
    {
      "epoch": 0.773625,
      "grad_norm": 0.845147967338562,
      "learning_rate": 3.665282480408762e-05,
      "loss": 3.3041,
      "step": 371340
    },
    {
      "epoch": 0.7736458333333334,
      "grad_norm": 0.8921337127685547,
      "learning_rate": 3.66463679114114e-05,
      "loss": 3.3546,
      "step": 371350
    },
    {
      "epoch": 0.7736666666666666,
      "grad_norm": 1.1180263757705688,
      "learning_rate": 3.663991150837801e-05,
      "loss": 3.1404,
      "step": 371360
    },
    {
      "epoch": 0.7736875,
      "grad_norm": 0.9263198971748352,
      "learning_rate": 3.663345559501533e-05,
      "loss": 3.4382,
      "step": 371370
    },
    {
      "epoch": 0.7737083333333333,
      "grad_norm": 0.8636599183082581,
      "learning_rate": 3.662700017135124e-05,
      "loss": 3.3262,
      "step": 371380
    },
    {
      "epoch": 0.7737291666666667,
      "grad_norm": 0.9213305115699768,
      "learning_rate": 3.662054523741363e-05,
      "loss": 3.3371,
      "step": 371390
    },
    {
      "epoch": 0.77375,
      "grad_norm": 0.8026961088180542,
      "learning_rate": 3.661409079323039e-05,
      "loss": 3.341,
      "step": 371400
    },
    {
      "epoch": 0.7737708333333333,
      "grad_norm": 0.881601870059967,
      "learning_rate": 3.6607636838829396e-05,
      "loss": 3.2782,
      "step": 371410
    },
    {
      "epoch": 0.7737916666666667,
      "grad_norm": 0.9454403519630432,
      "learning_rate": 3.660118337423855e-05,
      "loss": 3.4193,
      "step": 371420
    },
    {
      "epoch": 0.7738125,
      "grad_norm": 0.9084137082099915,
      "learning_rate": 3.659473039948567e-05,
      "loss": 3.3898,
      "step": 371430
    },
    {
      "epoch": 0.7738333333333334,
      "grad_norm": 1.0118976831436157,
      "learning_rate": 3.6588277914598686e-05,
      "loss": 3.2359,
      "step": 371440
    },
    {
      "epoch": 0.7738541666666666,
      "grad_norm": 0.8259763121604919,
      "learning_rate": 3.658182591960545e-05,
      "loss": 3.1878,
      "step": 371450
    },
    {
      "epoch": 0.773875,
      "grad_norm": 0.9069403409957886,
      "learning_rate": 3.657537441453382e-05,
      "loss": 3.3388,
      "step": 371460
    },
    {
      "epoch": 0.7738958333333333,
      "grad_norm": 0.9423332810401917,
      "learning_rate": 3.656892339941169e-05,
      "loss": 3.3516,
      "step": 371470
    },
    {
      "epoch": 0.7739166666666667,
      "grad_norm": 0.9127569794654846,
      "learning_rate": 3.656247287426689e-05,
      "loss": 3.3692,
      "step": 371480
    },
    {
      "epoch": 0.7739375,
      "grad_norm": 0.8248242139816284,
      "learning_rate": 3.655602283912733e-05,
      "loss": 3.328,
      "step": 371490
    },
    {
      "epoch": 0.7739583333333333,
      "grad_norm": 0.775835394859314,
      "learning_rate": 3.6549573294020836e-05,
      "loss": 3.3659,
      "step": 371500
    },
    {
      "epoch": 0.7739791666666667,
      "grad_norm": 0.9268037676811218,
      "learning_rate": 3.654312423897528e-05,
      "loss": 3.2696,
      "step": 371510
    },
    {
      "epoch": 0.774,
      "grad_norm": 0.8531290888786316,
      "learning_rate": 3.653667567401851e-05,
      "loss": 3.3667,
      "step": 371520
    },
    {
      "epoch": 0.7740208333333334,
      "grad_norm": 0.845228910446167,
      "learning_rate": 3.653022759917844e-05,
      "loss": 3.2474,
      "step": 371530
    },
    {
      "epoch": 0.7740416666666666,
      "grad_norm": 0.9238083958625793,
      "learning_rate": 3.652378001448284e-05,
      "loss": 3.1999,
      "step": 371540
    },
    {
      "epoch": 0.7740625,
      "grad_norm": 0.8915385603904724,
      "learning_rate": 3.6517332919959534e-05,
      "loss": 3.4692,
      "step": 371550
    },
    {
      "epoch": 0.7740833333333333,
      "grad_norm": 0.9333222508430481,
      "learning_rate": 3.6510886315636526e-05,
      "loss": 3.3519,
      "step": 371560
    },
    {
      "epoch": 0.7741041666666667,
      "grad_norm": 0.9028348922729492,
      "learning_rate": 3.650444020154152e-05,
      "loss": 3.2886,
      "step": 371570
    },
    {
      "epoch": 0.774125,
      "grad_norm": 1.002670168876648,
      "learning_rate": 3.649799457770237e-05,
      "loss": 3.3567,
      "step": 371580
    },
    {
      "epoch": 0.7741458333333333,
      "grad_norm": 0.8700473308563232,
      "learning_rate": 3.649154944414703e-05,
      "loss": 3.2784,
      "step": 371590
    },
    {
      "epoch": 0.7741666666666667,
      "grad_norm": 0.8044360876083374,
      "learning_rate": 3.648510480090323e-05,
      "loss": 3.367,
      "step": 371600
    },
    {
      "epoch": 0.7741875,
      "grad_norm": 0.9563005566596985,
      "learning_rate": 3.64786606479988e-05,
      "loss": 3.2928,
      "step": 371610
    },
    {
      "epoch": 0.7742083333333334,
      "grad_norm": 0.9671812057495117,
      "learning_rate": 3.647221698546172e-05,
      "loss": 3.3062,
      "step": 371620
    },
    {
      "epoch": 0.7742291666666666,
      "grad_norm": 0.8211744427680969,
      "learning_rate": 3.6465773813319666e-05,
      "loss": 3.3765,
      "step": 371630
    },
    {
      "epoch": 0.77425,
      "grad_norm": 1.0166516304016113,
      "learning_rate": 3.64593311316005e-05,
      "loss": 3.3564,
      "step": 371640
    },
    {
      "epoch": 0.7742708333333334,
      "grad_norm": 0.9237452745437622,
      "learning_rate": 3.6452888940332154e-05,
      "loss": 3.305,
      "step": 371650
    },
    {
      "epoch": 0.7742916666666667,
      "grad_norm": 0.9190118312835693,
      "learning_rate": 3.644644723954234e-05,
      "loss": 3.4057,
      "step": 371660
    },
    {
      "epoch": 0.7743125,
      "grad_norm": 0.8892840147018433,
      "learning_rate": 3.644000602925894e-05,
      "loss": 3.2928,
      "step": 371670
    },
    {
      "epoch": 0.7743333333333333,
      "grad_norm": 0.8245751857757568,
      "learning_rate": 3.6433565309509756e-05,
      "loss": 3.3292,
      "step": 371680
    },
    {
      "epoch": 0.7743541666666667,
      "grad_norm": 0.9141147136688232,
      "learning_rate": 3.6427125080322614e-05,
      "loss": 3.3591,
      "step": 371690
    },
    {
      "epoch": 0.774375,
      "grad_norm": 0.961141049861908,
      "learning_rate": 3.642068534172533e-05,
      "loss": 3.3148,
      "step": 371700
    },
    {
      "epoch": 0.7743958333333333,
      "grad_norm": 0.8235815167427063,
      "learning_rate": 3.6414246093745744e-05,
      "loss": 3.2396,
      "step": 371710
    },
    {
      "epoch": 0.7744166666666666,
      "grad_norm": 0.8355153799057007,
      "learning_rate": 3.640780733641164e-05,
      "loss": 3.28,
      "step": 371720
    },
    {
      "epoch": 0.7744375,
      "grad_norm": 0.8537521362304688,
      "learning_rate": 3.6401369069750855e-05,
      "loss": 3.5001,
      "step": 371730
    },
    {
      "epoch": 0.7744583333333334,
      "grad_norm": 0.8880818486213684,
      "learning_rate": 3.639493129379118e-05,
      "loss": 3.2717,
      "step": 371740
    },
    {
      "epoch": 0.7744791666666667,
      "grad_norm": 0.8964023590087891,
      "learning_rate": 3.638849400856045e-05,
      "loss": 3.2837,
      "step": 371750
    },
    {
      "epoch": 0.7745,
      "grad_norm": 1.0417431592941284,
      "learning_rate": 3.638205721408643e-05,
      "loss": 3.3721,
      "step": 371760
    },
    {
      "epoch": 0.7745208333333333,
      "grad_norm": 0.9382944703102112,
      "learning_rate": 3.637562091039697e-05,
      "loss": 3.4908,
      "step": 371770
    },
    {
      "epoch": 0.7745416666666667,
      "grad_norm": 0.820890486240387,
      "learning_rate": 3.636918509751986e-05,
      "loss": 3.3428,
      "step": 371780
    },
    {
      "epoch": 0.7745625,
      "grad_norm": 1.0248737335205078,
      "learning_rate": 3.636274977548287e-05,
      "loss": 3.3085,
      "step": 371790
    },
    {
      "epoch": 0.7745833333333333,
      "grad_norm": 0.8389477133750916,
      "learning_rate": 3.635631494431382e-05,
      "loss": 3.4701,
      "step": 371800
    },
    {
      "epoch": 0.7746041666666666,
      "grad_norm": 0.8792963027954102,
      "learning_rate": 3.634988060404052e-05,
      "loss": 3.354,
      "step": 371810
    },
    {
      "epoch": 0.774625,
      "grad_norm": 0.8683288097381592,
      "learning_rate": 3.634344675469075e-05,
      "loss": 3.2752,
      "step": 371820
    },
    {
      "epoch": 0.7746458333333334,
      "grad_norm": 0.7921499609947205,
      "learning_rate": 3.6337013396292296e-05,
      "loss": 3.273,
      "step": 371830
    },
    {
      "epoch": 0.7746666666666666,
      "grad_norm": 1.0416374206542969,
      "learning_rate": 3.6330580528872965e-05,
      "loss": 3.2048,
      "step": 371840
    },
    {
      "epoch": 0.7746875,
      "grad_norm": 0.8677279949188232,
      "learning_rate": 3.632414815246057e-05,
      "loss": 3.3351,
      "step": 371850
    },
    {
      "epoch": 0.7747083333333333,
      "grad_norm": 0.9431559443473816,
      "learning_rate": 3.6317716267082766e-05,
      "loss": 3.412,
      "step": 371860
    },
    {
      "epoch": 0.7747291666666667,
      "grad_norm": 0.9721658825874329,
      "learning_rate": 3.631128487276748e-05,
      "loss": 3.3264,
      "step": 371870
    },
    {
      "epoch": 0.77475,
      "grad_norm": 0.7916390895843506,
      "learning_rate": 3.630485396954247e-05,
      "loss": 3.3083,
      "step": 371880
    },
    {
      "epoch": 0.7747708333333333,
      "grad_norm": 0.8860244154930115,
      "learning_rate": 3.6298423557435406e-05,
      "loss": 3.296,
      "step": 371890
    },
    {
      "epoch": 0.7747916666666667,
      "grad_norm": 1.0861475467681885,
      "learning_rate": 3.6291993636474236e-05,
      "loss": 3.2963,
      "step": 371900
    },
    {
      "epoch": 0.7748125,
      "grad_norm": 0.7993064522743225,
      "learning_rate": 3.6285564206686615e-05,
      "loss": 3.2645,
      "step": 371910
    },
    {
      "epoch": 0.7748333333333334,
      "grad_norm": 0.8497661352157593,
      "learning_rate": 3.627913526810028e-05,
      "loss": 3.4056,
      "step": 371920
    },
    {
      "epoch": 0.7748541666666666,
      "grad_norm": 0.9037601947784424,
      "learning_rate": 3.6272706820743164e-05,
      "loss": 3.3345,
      "step": 371930
    },
    {
      "epoch": 0.774875,
      "grad_norm": 0.8412817716598511,
      "learning_rate": 3.62662788646429e-05,
      "loss": 3.362,
      "step": 371940
    },
    {
      "epoch": 0.7748958333333333,
      "grad_norm": 0.8840609788894653,
      "learning_rate": 3.625985139982725e-05,
      "loss": 3.3458,
      "step": 371950
    },
    {
      "epoch": 0.7749166666666667,
      "grad_norm": 0.9639275670051575,
      "learning_rate": 3.625342442632409e-05,
      "loss": 3.2478,
      "step": 371960
    },
    {
      "epoch": 0.7749375,
      "grad_norm": 0.9151737689971924,
      "learning_rate": 3.624699794416108e-05,
      "loss": 3.4469,
      "step": 371970
    },
    {
      "epoch": 0.7749583333333333,
      "grad_norm": 0.952466607093811,
      "learning_rate": 3.6240571953365974e-05,
      "loss": 3.4147,
      "step": 371980
    },
    {
      "epoch": 0.7749791666666667,
      "grad_norm": 0.9961669445037842,
      "learning_rate": 3.623414645396665e-05,
      "loss": 3.3408,
      "step": 371990
    },
    {
      "epoch": 0.775,
      "grad_norm": 0.8418644070625305,
      "learning_rate": 3.6227721445990734e-05,
      "loss": 3.2463,
      "step": 372000
    },
    {
      "epoch": 0.775,
      "eval_loss": 4.048187255859375,
      "eval_runtime": 8.9799,
      "eval_samples_per_second": 1.114,
      "eval_steps_per_second": 0.334,
      "step": 372000
    },
    {
      "epoch": 0.7750208333333334,
      "grad_norm": 0.8608677387237549,
      "learning_rate": 3.622129692946599e-05,
      "loss": 3.29,
      "step": 372010
    },
    {
      "epoch": 0.7750416666666666,
      "grad_norm": 0.951015830039978,
      "learning_rate": 3.621487290442029e-05,
      "loss": 3.4169,
      "step": 372020
    },
    {
      "epoch": 0.7750625,
      "grad_norm": 0.9455296993255615,
      "learning_rate": 3.620844937088125e-05,
      "loss": 3.2963,
      "step": 372030
    },
    {
      "epoch": 0.7750833333333333,
      "grad_norm": 0.8652859926223755,
      "learning_rate": 3.6202026328876684e-05,
      "loss": 3.3909,
      "step": 372040
    },
    {
      "epoch": 0.7751041666666667,
      "grad_norm": 0.8172237277030945,
      "learning_rate": 3.619560377843431e-05,
      "loss": 3.1738,
      "step": 372050
    },
    {
      "epoch": 0.775125,
      "grad_norm": 0.8657333850860596,
      "learning_rate": 3.618918171958188e-05,
      "loss": 3.3686,
      "step": 372060
    },
    {
      "epoch": 0.7751458333333333,
      "grad_norm": 0.9281068444252014,
      "learning_rate": 3.618276015234712e-05,
      "loss": 3.2617,
      "step": 372070
    },
    {
      "epoch": 0.7751666666666667,
      "grad_norm": 0.8452181816101074,
      "learning_rate": 3.61763390767578e-05,
      "loss": 3.3309,
      "step": 372080
    },
    {
      "epoch": 0.7751875,
      "grad_norm": 0.8605568408966064,
      "learning_rate": 3.616991849284165e-05,
      "loss": 3.2555,
      "step": 372090
    },
    {
      "epoch": 0.7752083333333334,
      "grad_norm": 1.0055631399154663,
      "learning_rate": 3.6163498400626386e-05,
      "loss": 3.4272,
      "step": 372100
    },
    {
      "epoch": 0.7752291666666666,
      "grad_norm": 0.8392812013626099,
      "learning_rate": 3.615707880013975e-05,
      "loss": 3.3093,
      "step": 372110
    },
    {
      "epoch": 0.77525,
      "grad_norm": 0.8808984756469727,
      "learning_rate": 3.6150659691409475e-05,
      "loss": 3.3476,
      "step": 372120
    },
    {
      "epoch": 0.7752708333333334,
      "grad_norm": 2.719054937362671,
      "learning_rate": 3.614424107446328e-05,
      "loss": 3.4303,
      "step": 372130
    },
    {
      "epoch": 0.7752916666666667,
      "grad_norm": 0.8657472729682922,
      "learning_rate": 3.613782294932889e-05,
      "loss": 3.3519,
      "step": 372140
    },
    {
      "epoch": 0.7753125,
      "grad_norm": 0.8489922285079956,
      "learning_rate": 3.6131405316034055e-05,
      "loss": 3.4363,
      "step": 372150
    },
    {
      "epoch": 0.7753333333333333,
      "grad_norm": 0.8673062920570374,
      "learning_rate": 3.61249881746065e-05,
      "loss": 3.2878,
      "step": 372160
    },
    {
      "epoch": 0.7753541666666667,
      "grad_norm": 0.8716052174568176,
      "learning_rate": 3.611857152507384e-05,
      "loss": 3.3864,
      "step": 372170
    },
    {
      "epoch": 0.775375,
      "grad_norm": 0.877657949924469,
      "learning_rate": 3.6112155367463926e-05,
      "loss": 3.3738,
      "step": 372180
    },
    {
      "epoch": 0.7753958333333333,
      "grad_norm": 0.8395885825157166,
      "learning_rate": 3.610573970180446e-05,
      "loss": 3.3221,
      "step": 372190
    },
    {
      "epoch": 0.7754166666666666,
      "grad_norm": 0.8794325590133667,
      "learning_rate": 3.609932452812302e-05,
      "loss": 3.4036,
      "step": 372200
    },
    {
      "epoch": 0.7754375,
      "grad_norm": 0.8773268461227417,
      "learning_rate": 3.6092909846447464e-05,
      "loss": 3.2292,
      "step": 372210
    },
    {
      "epoch": 0.7754583333333334,
      "grad_norm": 0.8931505084037781,
      "learning_rate": 3.608649565680549e-05,
      "loss": 3.4114,
      "step": 372220
    },
    {
      "epoch": 0.7754791666666667,
      "grad_norm": 0.8405797481536865,
      "learning_rate": 3.608008195922468e-05,
      "loss": 3.2622,
      "step": 372230
    },
    {
      "epoch": 0.7755,
      "grad_norm": 0.9890703558921814,
      "learning_rate": 3.6073668753732863e-05,
      "loss": 3.354,
      "step": 372240
    },
    {
      "epoch": 0.7755208333333333,
      "grad_norm": 0.90083247423172,
      "learning_rate": 3.606725604035775e-05,
      "loss": 3.3149,
      "step": 372250
    },
    {
      "epoch": 0.7755416666666667,
      "grad_norm": 0.7691593766212463,
      "learning_rate": 3.606084381912691e-05,
      "loss": 3.3088,
      "step": 372260
    },
    {
      "epoch": 0.7755625,
      "grad_norm": 0.8888895511627197,
      "learning_rate": 3.6054432090068157e-05,
      "loss": 3.2593,
      "step": 372270
    },
    {
      "epoch": 0.7755833333333333,
      "grad_norm": 1.2632334232330322,
      "learning_rate": 3.6048020853209206e-05,
      "loss": 3.2449,
      "step": 372280
    },
    {
      "epoch": 0.7756041666666667,
      "grad_norm": 0.8528582453727722,
      "learning_rate": 3.604161010857762e-05,
      "loss": 3.4442,
      "step": 372290
    },
    {
      "epoch": 0.775625,
      "grad_norm": 0.8861300349235535,
      "learning_rate": 3.6035199856201246e-05,
      "loss": 3.2881,
      "step": 372300
    },
    {
      "epoch": 0.7756458333333334,
      "grad_norm": 0.8536490797996521,
      "learning_rate": 3.6028790096107654e-05,
      "loss": 3.3108,
      "step": 372310
    },
    {
      "epoch": 0.7756666666666666,
      "grad_norm": 1.0361988544464111,
      "learning_rate": 3.602238082832453e-05,
      "loss": 3.375,
      "step": 372320
    },
    {
      "epoch": 0.7756875,
      "grad_norm": 0.9965015649795532,
      "learning_rate": 3.6015972052879696e-05,
      "loss": 3.3538,
      "step": 372330
    },
    {
      "epoch": 0.7757083333333333,
      "grad_norm": 0.7863637208938599,
      "learning_rate": 3.6009563769800714e-05,
      "loss": 3.3069,
      "step": 372340
    },
    {
      "epoch": 0.7757291666666667,
      "grad_norm": 0.8777714371681213,
      "learning_rate": 3.600315597911524e-05,
      "loss": 3.3252,
      "step": 372350
    },
    {
      "epoch": 0.77575,
      "grad_norm": 0.9801198840141296,
      "learning_rate": 3.59967486808511e-05,
      "loss": 3.2884,
      "step": 372360
    },
    {
      "epoch": 0.7757708333333333,
      "grad_norm": 0.8424659967422485,
      "learning_rate": 3.599034187503583e-05,
      "loss": 3.4483,
      "step": 372370
    },
    {
      "epoch": 0.7757916666666667,
      "grad_norm": 0.8867656588554382,
      "learning_rate": 3.5983935561697114e-05,
      "loss": 3.3805,
      "step": 372380
    },
    {
      "epoch": 0.7758125,
      "grad_norm": 0.862294614315033,
      "learning_rate": 3.597752974086275e-05,
      "loss": 3.3653,
      "step": 372390
    },
    {
      "epoch": 0.7758333333333334,
      "grad_norm": 0.8465997576713562,
      "learning_rate": 3.597112441256029e-05,
      "loss": 3.3892,
      "step": 372400
    },
    {
      "epoch": 0.7758541666666666,
      "grad_norm": 0.8626003265380859,
      "learning_rate": 3.596471957681744e-05,
      "loss": 3.2571,
      "step": 372410
    },
    {
      "epoch": 0.775875,
      "grad_norm": 0.8591130375862122,
      "learning_rate": 3.595831523366184e-05,
      "loss": 3.3787,
      "step": 372420
    },
    {
      "epoch": 0.7758958333333333,
      "grad_norm": 0.9454471468925476,
      "learning_rate": 3.5951911383121195e-05,
      "loss": 3.3591,
      "step": 372430
    },
    {
      "epoch": 0.7759166666666667,
      "grad_norm": 0.9017404317855835,
      "learning_rate": 3.5945508025223156e-05,
      "loss": 3.3439,
      "step": 372440
    },
    {
      "epoch": 0.7759375,
      "grad_norm": 0.8130173683166504,
      "learning_rate": 3.593910515999536e-05,
      "loss": 3.4511,
      "step": 372450
    },
    {
      "epoch": 0.7759583333333333,
      "grad_norm": 0.8171926140785217,
      "learning_rate": 3.593270278746549e-05,
      "loss": 3.2817,
      "step": 372460
    },
    {
      "epoch": 0.7759791666666667,
      "grad_norm": 0.9697559475898743,
      "learning_rate": 3.5926300907661196e-05,
      "loss": 3.248,
      "step": 372470
    },
    {
      "epoch": 0.776,
      "grad_norm": 0.9170095920562744,
      "learning_rate": 3.591989952061013e-05,
      "loss": 3.3302,
      "step": 372480
    },
    {
      "epoch": 0.7760208333333334,
      "grad_norm": 0.9328669905662537,
      "learning_rate": 3.5913498626339925e-05,
      "loss": 3.3631,
      "step": 372490
    },
    {
      "epoch": 0.7760416666666666,
      "grad_norm": 0.7967779040336609,
      "learning_rate": 3.5907098224878264e-05,
      "loss": 3.2562,
      "step": 372500
    },
    {
      "epoch": 0.7760625,
      "grad_norm": 0.8892666101455688,
      "learning_rate": 3.590069831625278e-05,
      "loss": 3.2687,
      "step": 372510
    },
    {
      "epoch": 0.7760833333333333,
      "grad_norm": 1.0291732549667358,
      "learning_rate": 3.5894298900491095e-05,
      "loss": 3.3466,
      "step": 372520
    },
    {
      "epoch": 0.7761041666666667,
      "grad_norm": 0.9068555235862732,
      "learning_rate": 3.5887899977620935e-05,
      "loss": 3.3804,
      "step": 372530
    },
    {
      "epoch": 0.776125,
      "grad_norm": 0.8687561750411987,
      "learning_rate": 3.588150154766978e-05,
      "loss": 3.3088,
      "step": 372540
    },
    {
      "epoch": 0.7761458333333333,
      "grad_norm": 0.9171631932258606,
      "learning_rate": 3.587510361066542e-05,
      "loss": 3.3863,
      "step": 372550
    },
    {
      "epoch": 0.7761666666666667,
      "grad_norm": 0.9472763538360596,
      "learning_rate": 3.586870616663548e-05,
      "loss": 3.4025,
      "step": 372560
    },
    {
      "epoch": 0.7761875,
      "grad_norm": 0.7976418137550354,
      "learning_rate": 3.586230921560746e-05,
      "loss": 3.2458,
      "step": 372570
    },
    {
      "epoch": 0.7762083333333333,
      "grad_norm": 0.8862610459327698,
      "learning_rate": 3.585591275760914e-05,
      "loss": 3.3608,
      "step": 372580
    },
    {
      "epoch": 0.7762291666666666,
      "grad_norm": 1.0025830268859863,
      "learning_rate": 3.584951679266813e-05,
      "loss": 3.1471,
      "step": 372590
    },
    {
      "epoch": 0.77625,
      "grad_norm": 1.0033798217773438,
      "learning_rate": 3.5843121320811926e-05,
      "loss": 3.4327,
      "step": 372600
    },
    {
      "epoch": 0.7762708333333334,
      "grad_norm": 1.1780658960342407,
      "learning_rate": 3.583672634206831e-05,
      "loss": 3.2809,
      "step": 372610
    },
    {
      "epoch": 0.7762916666666667,
      "grad_norm": 0.9170348048210144,
      "learning_rate": 3.583033185646489e-05,
      "loss": 3.3464,
      "step": 372620
    },
    {
      "epoch": 0.7763125,
      "grad_norm": 0.9366289377212524,
      "learning_rate": 3.5823937864029153e-05,
      "loss": 3.3757,
      "step": 372630
    },
    {
      "epoch": 0.7763333333333333,
      "grad_norm": 0.9732280969619751,
      "learning_rate": 3.581754436478886e-05,
      "loss": 3.3183,
      "step": 372640
    },
    {
      "epoch": 0.7763541666666667,
      "grad_norm": 0.9810030460357666,
      "learning_rate": 3.581115135877162e-05,
      "loss": 3.3127,
      "step": 372650
    },
    {
      "epoch": 0.776375,
      "grad_norm": 0.9402185082435608,
      "learning_rate": 3.5804758846004925e-05,
      "loss": 3.3197,
      "step": 372660
    },
    {
      "epoch": 0.7763958333333333,
      "grad_norm": 0.9705830812454224,
      "learning_rate": 3.579836682651655e-05,
      "loss": 3.2817,
      "step": 372670
    },
    {
      "epoch": 0.7764166666666666,
      "grad_norm": 0.8891721367835999,
      "learning_rate": 3.579197530033399e-05,
      "loss": 3.3986,
      "step": 372680
    },
    {
      "epoch": 0.7764375,
      "grad_norm": 0.9885515570640564,
      "learning_rate": 3.578558426748483e-05,
      "loss": 3.3048,
      "step": 372690
    },
    {
      "epoch": 0.7764583333333334,
      "grad_norm": 0.8782056570053101,
      "learning_rate": 3.577919372799684e-05,
      "loss": 3.3718,
      "step": 372700
    },
    {
      "epoch": 0.7764791666666667,
      "grad_norm": 0.9431014657020569,
      "learning_rate": 3.577280368189746e-05,
      "loss": 3.3733,
      "step": 372710
    },
    {
      "epoch": 0.7765,
      "grad_norm": 1.108546495437622,
      "learning_rate": 3.5766414129214383e-05,
      "loss": 3.4624,
      "step": 372720
    },
    {
      "epoch": 0.7765208333333333,
      "grad_norm": 0.9403724670410156,
      "learning_rate": 3.576002506997515e-05,
      "loss": 3.3744,
      "step": 372730
    },
    {
      "epoch": 0.7765416666666667,
      "grad_norm": 0.8703659772872925,
      "learning_rate": 3.57536365042074e-05,
      "loss": 3.4246,
      "step": 372740
    },
    {
      "epoch": 0.7765625,
      "grad_norm": 0.871236264705658,
      "learning_rate": 3.5747248431938726e-05,
      "loss": 3.2887,
      "step": 372750
    },
    {
      "epoch": 0.7765833333333333,
      "grad_norm": 0.9593272805213928,
      "learning_rate": 3.574086085319672e-05,
      "loss": 3.3463,
      "step": 372760
    },
    {
      "epoch": 0.7766041666666667,
      "grad_norm": 0.900077223777771,
      "learning_rate": 3.573447376800894e-05,
      "loss": 3.4295,
      "step": 372770
    },
    {
      "epoch": 0.776625,
      "grad_norm": 0.8628073334693909,
      "learning_rate": 3.5728087176403026e-05,
      "loss": 3.3345,
      "step": 372780
    },
    {
      "epoch": 0.7766458333333334,
      "grad_norm": 0.834049642086029,
      "learning_rate": 3.572170107840654e-05,
      "loss": 3.2522,
      "step": 372790
    },
    {
      "epoch": 0.7766666666666666,
      "grad_norm": 0.9127758741378784,
      "learning_rate": 3.571531547404708e-05,
      "loss": 3.3486,
      "step": 372800
    },
    {
      "epoch": 0.7766875,
      "grad_norm": 1.0549064874649048,
      "learning_rate": 3.5708930363352206e-05,
      "loss": 3.4066,
      "step": 372810
    },
    {
      "epoch": 0.7767083333333333,
      "grad_norm": 0.8857295513153076,
      "learning_rate": 3.570254574634952e-05,
      "loss": 3.374,
      "step": 372820
    },
    {
      "epoch": 0.7767291666666667,
      "grad_norm": 0.8624373078346252,
      "learning_rate": 3.569616162306658e-05,
      "loss": 3.3165,
      "step": 372830
    },
    {
      "epoch": 0.77675,
      "grad_norm": 0.9786331057548523,
      "learning_rate": 3.568977799353099e-05,
      "loss": 3.429,
      "step": 372840
    },
    {
      "epoch": 0.7767708333333333,
      "grad_norm": 0.9496336579322815,
      "learning_rate": 3.568339485777031e-05,
      "loss": 3.4199,
      "step": 372850
    },
    {
      "epoch": 0.7767916666666667,
      "grad_norm": 1.0387009382247925,
      "learning_rate": 3.567701221581212e-05,
      "loss": 3.3913,
      "step": 372860
    },
    {
      "epoch": 0.7768125,
      "grad_norm": 1.0358126163482666,
      "learning_rate": 3.5670630067683976e-05,
      "loss": 3.3082,
      "step": 372870
    },
    {
      "epoch": 0.7768333333333334,
      "grad_norm": 0.8871326446533203,
      "learning_rate": 3.5664248413413466e-05,
      "loss": 3.3685,
      "step": 372880
    },
    {
      "epoch": 0.7768541666666666,
      "grad_norm": 0.8917942643165588,
      "learning_rate": 3.565786725302814e-05,
      "loss": 3.3521,
      "step": 372890
    },
    {
      "epoch": 0.776875,
      "grad_norm": 0.8680258393287659,
      "learning_rate": 3.56514865865556e-05,
      "loss": 3.3829,
      "step": 372900
    },
    {
      "epoch": 0.7768958333333333,
      "grad_norm": 0.8932794332504272,
      "learning_rate": 3.564510641402331e-05,
      "loss": 3.361,
      "step": 372910
    },
    {
      "epoch": 0.7769166666666667,
      "grad_norm": 0.9618480205535889,
      "learning_rate": 3.5638726735458934e-05,
      "loss": 3.3455,
      "step": 372920
    },
    {
      "epoch": 0.7769375,
      "grad_norm": 1.0246925354003906,
      "learning_rate": 3.563234755089002e-05,
      "loss": 3.2545,
      "step": 372930
    },
    {
      "epoch": 0.7769583333333333,
      "grad_norm": 0.8589473962783813,
      "learning_rate": 3.562596886034402e-05,
      "loss": 3.3679,
      "step": 372940
    },
    {
      "epoch": 0.7769791666666667,
      "grad_norm": 1.003605842590332,
      "learning_rate": 3.5619590663848594e-05,
      "loss": 3.2897,
      "step": 372950
    },
    {
      "epoch": 0.777,
      "grad_norm": 0.8727707266807556,
      "learning_rate": 3.561321296143131e-05,
      "loss": 3.3325,
      "step": 372960
    },
    {
      "epoch": 0.7770208333333334,
      "grad_norm": 0.8985475301742554,
      "learning_rate": 3.560683575311959e-05,
      "loss": 3.369,
      "step": 372970
    },
    {
      "epoch": 0.7770416666666666,
      "grad_norm": 0.8800846934318542,
      "learning_rate": 3.56004590389411e-05,
      "loss": 3.2719,
      "step": 372980
    },
    {
      "epoch": 0.7770625,
      "grad_norm": 0.8636346459388733,
      "learning_rate": 3.559408281892339e-05,
      "loss": 3.3733,
      "step": 372990
    },
    {
      "epoch": 0.7770833333333333,
      "grad_norm": 1.1459119319915771,
      "learning_rate": 3.5587707093093865e-05,
      "loss": 3.2435,
      "step": 373000
    },
    {
      "epoch": 0.7770833333333333,
      "eval_loss": 4.048134803771973,
      "eval_runtime": 8.7114,
      "eval_samples_per_second": 1.148,
      "eval_steps_per_second": 0.344,
      "step": 373000
    },
    {
      "epoch": 0.7771041666666667,
      "grad_norm": 0.9332812428474426,
      "learning_rate": 3.5581331861480194e-05,
      "loss": 3.4597,
      "step": 373010
    },
    {
      "epoch": 0.777125,
      "grad_norm": 0.9851009249687195,
      "learning_rate": 3.557495712410994e-05,
      "loss": 3.3836,
      "step": 373020
    },
    {
      "epoch": 0.7771458333333333,
      "grad_norm": 0.8854293823242188,
      "learning_rate": 3.556858288101052e-05,
      "loss": 3.2716,
      "step": 373030
    },
    {
      "epoch": 0.7771666666666667,
      "grad_norm": 0.8718752264976501,
      "learning_rate": 3.556220913220954e-05,
      "loss": 3.2951,
      "step": 373040
    },
    {
      "epoch": 0.7771875,
      "grad_norm": 1.0541373491287231,
      "learning_rate": 3.555583587773451e-05,
      "loss": 3.3555,
      "step": 373050
    },
    {
      "epoch": 0.7772083333333333,
      "grad_norm": 0.9022374153137207,
      "learning_rate": 3.5549463117612965e-05,
      "loss": 3.0786,
      "step": 373060
    },
    {
      "epoch": 0.7772291666666666,
      "grad_norm": 0.898996114730835,
      "learning_rate": 3.554309085187244e-05,
      "loss": 3.3506,
      "step": 373070
    },
    {
      "epoch": 0.77725,
      "grad_norm": 0.9345405101776123,
      "learning_rate": 3.553671908054047e-05,
      "loss": 3.2847,
      "step": 373080
    },
    {
      "epoch": 0.7772708333333334,
      "grad_norm": 0.9906616806983948,
      "learning_rate": 3.553034780364455e-05,
      "loss": 3.3638,
      "step": 373090
    },
    {
      "epoch": 0.7772916666666667,
      "grad_norm": 1.4566553831100464,
      "learning_rate": 3.552397702121222e-05,
      "loss": 3.2989,
      "step": 373100
    },
    {
      "epoch": 0.7773125,
      "grad_norm": 0.8757712244987488,
      "learning_rate": 3.5517606733271005e-05,
      "loss": 3.1828,
      "step": 373110
    },
    {
      "epoch": 0.7773333333333333,
      "grad_norm": 0.9355583786964417,
      "learning_rate": 3.551123693984842e-05,
      "loss": 3.2814,
      "step": 373120
    },
    {
      "epoch": 0.7773541666666667,
      "grad_norm": 0.8359237909317017,
      "learning_rate": 3.5504867640971945e-05,
      "loss": 3.3722,
      "step": 373130
    },
    {
      "epoch": 0.777375,
      "grad_norm": 0.9866809248924255,
      "learning_rate": 3.549849883666914e-05,
      "loss": 3.3164,
      "step": 373140
    },
    {
      "epoch": 0.7773958333333333,
      "grad_norm": 0.9027188420295715,
      "learning_rate": 3.54921305269675e-05,
      "loss": 3.2511,
      "step": 373150
    },
    {
      "epoch": 0.7774166666666666,
      "grad_norm": 0.824198842048645,
      "learning_rate": 3.548576271189453e-05,
      "loss": 3.4783,
      "step": 373160
    },
    {
      "epoch": 0.7774375,
      "grad_norm": 0.8755653500556946,
      "learning_rate": 3.547939539147772e-05,
      "loss": 3.3899,
      "step": 373170
    },
    {
      "epoch": 0.7774583333333334,
      "grad_norm": 1.1016380786895752,
      "learning_rate": 3.547302856574461e-05,
      "loss": 3.4107,
      "step": 373180
    },
    {
      "epoch": 0.7774791666666667,
      "grad_norm": 0.8400441408157349,
      "learning_rate": 3.546666223472269e-05,
      "loss": 3.2811,
      "step": 373190
    },
    {
      "epoch": 0.7775,
      "grad_norm": 0.937481701374054,
      "learning_rate": 3.546029639843943e-05,
      "loss": 3.3851,
      "step": 373200
    },
    {
      "epoch": 0.7775208333333333,
      "grad_norm": 0.8929819464683533,
      "learning_rate": 3.545393105692237e-05,
      "loss": 3.2592,
      "step": 373210
    },
    {
      "epoch": 0.7775416666666667,
      "grad_norm": 0.8613768219947815,
      "learning_rate": 3.544756621019898e-05,
      "loss": 3.3081,
      "step": 373220
    },
    {
      "epoch": 0.7775625,
      "grad_norm": 0.9166572093963623,
      "learning_rate": 3.5441201858296756e-05,
      "loss": 3.2998,
      "step": 373230
    },
    {
      "epoch": 0.7775833333333333,
      "grad_norm": 0.8746572732925415,
      "learning_rate": 3.54348380012432e-05,
      "loss": 3.2541,
      "step": 373240
    },
    {
      "epoch": 0.7776041666666667,
      "grad_norm": 0.7864583730697632,
      "learning_rate": 3.5428474639065796e-05,
      "loss": 3.3087,
      "step": 373250
    },
    {
      "epoch": 0.777625,
      "grad_norm": 1.1852574348449707,
      "learning_rate": 3.5422111771792045e-05,
      "loss": 3.3487,
      "step": 373260
    },
    {
      "epoch": 0.7776458333333334,
      "grad_norm": 0.9406041502952576,
      "learning_rate": 3.541574939944939e-05,
      "loss": 3.3638,
      "step": 373270
    },
    {
      "epoch": 0.7776666666666666,
      "grad_norm": 0.9131636023521423,
      "learning_rate": 3.540938752206536e-05,
      "loss": 3.4052,
      "step": 373280
    },
    {
      "epoch": 0.7776875,
      "grad_norm": 0.9339589476585388,
      "learning_rate": 3.540302613966741e-05,
      "loss": 3.3522,
      "step": 373290
    },
    {
      "epoch": 0.7777083333333333,
      "grad_norm": 0.9223660826683044,
      "learning_rate": 3.539666525228308e-05,
      "loss": 3.2723,
      "step": 373300
    },
    {
      "epoch": 0.7777291666666667,
      "grad_norm": 0.9385710954666138,
      "learning_rate": 3.539030485993974e-05,
      "loss": 3.3509,
      "step": 373310
    },
    {
      "epoch": 0.77775,
      "grad_norm": 0.7994535565376282,
      "learning_rate": 3.538394496266488e-05,
      "loss": 3.2478,
      "step": 373320
    },
    {
      "epoch": 0.7777708333333333,
      "grad_norm": 0.8601068258285522,
      "learning_rate": 3.5377585560486096e-05,
      "loss": 3.4388,
      "step": 373330
    },
    {
      "epoch": 0.7777916666666667,
      "grad_norm": 0.9479867219924927,
      "learning_rate": 3.537122665343073e-05,
      "loss": 3.3338,
      "step": 373340
    },
    {
      "epoch": 0.7778125,
      "grad_norm": 0.8083820939064026,
      "learning_rate": 3.536486824152624e-05,
      "loss": 3.3259,
      "step": 373350
    },
    {
      "epoch": 0.7778333333333334,
      "grad_norm": 0.8389080166816711,
      "learning_rate": 3.5358510324800236e-05,
      "loss": 3.3877,
      "step": 373360
    },
    {
      "epoch": 0.7778541666666666,
      "grad_norm": 0.849884569644928,
      "learning_rate": 3.5352152903280054e-05,
      "loss": 3.2592,
      "step": 373370
    },
    {
      "epoch": 0.777875,
      "grad_norm": 0.9126074314117432,
      "learning_rate": 3.5345795976993134e-05,
      "loss": 3.2144,
      "step": 373380
    },
    {
      "epoch": 0.7778958333333333,
      "grad_norm": 0.8336501717567444,
      "learning_rate": 3.533943954596708e-05,
      "loss": 3.4295,
      "step": 373390
    },
    {
      "epoch": 0.7779166666666667,
      "grad_norm": 0.8651106357574463,
      "learning_rate": 3.5333083610229216e-05,
      "loss": 3.3726,
      "step": 373400
    },
    {
      "epoch": 0.7779375,
      "grad_norm": 0.7642788887023926,
      "learning_rate": 3.5326728169807045e-05,
      "loss": 3.4489,
      "step": 373410
    },
    {
      "epoch": 0.7779583333333333,
      "grad_norm": 0.8911169171333313,
      "learning_rate": 3.532037322472803e-05,
      "loss": 3.3906,
      "step": 373420
    },
    {
      "epoch": 0.7779791666666667,
      "grad_norm": 0.9095786809921265,
      "learning_rate": 3.5314018775019585e-05,
      "loss": 3.3054,
      "step": 373430
    },
    {
      "epoch": 0.778,
      "grad_norm": 0.886822521686554,
      "learning_rate": 3.5307664820709205e-05,
      "loss": 3.2506,
      "step": 373440
    },
    {
      "epoch": 0.7780208333333334,
      "grad_norm": 0.888654351234436,
      "learning_rate": 3.53013113618243e-05,
      "loss": 3.3632,
      "step": 373450
    },
    {
      "epoch": 0.7780416666666666,
      "grad_norm": 0.8778478503227234,
      "learning_rate": 3.529495839839235e-05,
      "loss": 3.2257,
      "step": 373460
    },
    {
      "epoch": 0.7780625,
      "grad_norm": 0.8422451615333557,
      "learning_rate": 3.528860593044075e-05,
      "loss": 3.2644,
      "step": 373470
    },
    {
      "epoch": 0.7780833333333333,
      "grad_norm": 0.8452468514442444,
      "learning_rate": 3.5282253957996985e-05,
      "loss": 3.3764,
      "step": 373480
    },
    {
      "epoch": 0.7781041666666667,
      "grad_norm": 0.8518362641334534,
      "learning_rate": 3.527590248108847e-05,
      "loss": 3.4816,
      "step": 373490
    },
    {
      "epoch": 0.778125,
      "grad_norm": 0.8067169785499573,
      "learning_rate": 3.526955149974264e-05,
      "loss": 3.3068,
      "step": 373500
    },
    {
      "epoch": 0.7781458333333333,
      "grad_norm": 0.8159112334251404,
      "learning_rate": 3.5263201013986934e-05,
      "loss": 3.339,
      "step": 373510
    },
    {
      "epoch": 0.7781666666666667,
      "grad_norm": 0.9241043329238892,
      "learning_rate": 3.525685102384879e-05,
      "loss": 3.3127,
      "step": 373520
    },
    {
      "epoch": 0.7781875,
      "grad_norm": 0.8923080563545227,
      "learning_rate": 3.5250501529355626e-05,
      "loss": 3.3697,
      "step": 373530
    },
    {
      "epoch": 0.7782083333333333,
      "grad_norm": 0.8123842477798462,
      "learning_rate": 3.524415253053488e-05,
      "loss": 3.3374,
      "step": 373540
    },
    {
      "epoch": 0.7782291666666666,
      "grad_norm": 0.8559510707855225,
      "learning_rate": 3.523780402741396e-05,
      "loss": 3.3242,
      "step": 373550
    },
    {
      "epoch": 0.77825,
      "grad_norm": 0.9000691175460815,
      "learning_rate": 3.523145602002032e-05,
      "loss": 3.3158,
      "step": 373560
    },
    {
      "epoch": 0.7782708333333334,
      "grad_norm": 0.8521746397018433,
      "learning_rate": 3.5225108508381346e-05,
      "loss": 3.4702,
      "step": 373570
    },
    {
      "epoch": 0.7782916666666667,
      "grad_norm": 0.9104065895080566,
      "learning_rate": 3.5218761492524474e-05,
      "loss": 3.3776,
      "step": 373580
    },
    {
      "epoch": 0.7783125,
      "grad_norm": 0.9581751227378845,
      "learning_rate": 3.5212414972477124e-05,
      "loss": 3.217,
      "step": 373590
    },
    {
      "epoch": 0.7783333333333333,
      "grad_norm": 1.0111109018325806,
      "learning_rate": 3.52060689482667e-05,
      "loss": 3.4623,
      "step": 373600
    },
    {
      "epoch": 0.7783541666666667,
      "grad_norm": 0.9055769443511963,
      "learning_rate": 3.5199723419920626e-05,
      "loss": 3.3636,
      "step": 373610
    },
    {
      "epoch": 0.778375,
      "grad_norm": 0.8941120505332947,
      "learning_rate": 3.519337838746633e-05,
      "loss": 3.553,
      "step": 373620
    },
    {
      "epoch": 0.7783958333333333,
      "grad_norm": 0.9630913138389587,
      "learning_rate": 3.518703385093114e-05,
      "loss": 3.3406,
      "step": 373630
    },
    {
      "epoch": 0.7784166666666666,
      "grad_norm": 0.8381306529045105,
      "learning_rate": 3.518068981034253e-05,
      "loss": 3.3852,
      "step": 373640
    },
    {
      "epoch": 0.7784375,
      "grad_norm": 0.8643190264701843,
      "learning_rate": 3.5174346265727956e-05,
      "loss": 3.4881,
      "step": 373650
    },
    {
      "epoch": 0.7784583333333334,
      "grad_norm": 0.8179345726966858,
      "learning_rate": 3.5168003217114664e-05,
      "loss": 3.3417,
      "step": 373660
    },
    {
      "epoch": 0.7784791666666667,
      "grad_norm": 1.1843606233596802,
      "learning_rate": 3.516166066453023e-05,
      "loss": 3.2927,
      "step": 373670
    },
    {
      "epoch": 0.7785,
      "grad_norm": 0.7990803122520447,
      "learning_rate": 3.515531860800192e-05,
      "loss": 3.3281,
      "step": 373680
    },
    {
      "epoch": 0.7785208333333333,
      "grad_norm": 0.8473274111747742,
      "learning_rate": 3.5148977047557135e-05,
      "loss": 3.2354,
      "step": 373690
    },
    {
      "epoch": 0.7785416666666667,
      "grad_norm": 0.8746914863586426,
      "learning_rate": 3.514263598322339e-05,
      "loss": 3.3039,
      "step": 373700
    },
    {
      "epoch": 0.7785625,
      "grad_norm": 0.942007303237915,
      "learning_rate": 3.5136295415027954e-05,
      "loss": 3.3358,
      "step": 373710
    },
    {
      "epoch": 0.7785833333333333,
      "grad_norm": 0.9722996950149536,
      "learning_rate": 3.5129955342998214e-05,
      "loss": 3.397,
      "step": 373720
    },
    {
      "epoch": 0.7786041666666667,
      "grad_norm": 0.8454578518867493,
      "learning_rate": 3.5123615767161675e-05,
      "loss": 3.237,
      "step": 373730
    },
    {
      "epoch": 0.778625,
      "grad_norm": 0.8545479774475098,
      "learning_rate": 3.511727668754561e-05,
      "loss": 3.2874,
      "step": 373740
    },
    {
      "epoch": 0.7786458333333334,
      "grad_norm": 0.8713001608848572,
      "learning_rate": 3.51109381041774e-05,
      "loss": 3.3736,
      "step": 373750
    },
    {
      "epoch": 0.7786666666666666,
      "grad_norm": 0.9762682914733887,
      "learning_rate": 3.510460001708454e-05,
      "loss": 3.4839,
      "step": 373760
    },
    {
      "epoch": 0.7786875,
      "grad_norm": 0.8361580967903137,
      "learning_rate": 3.509826242629428e-05,
      "loss": 3.3217,
      "step": 373770
    },
    {
      "epoch": 0.7787083333333333,
      "grad_norm": 0.8355219960212708,
      "learning_rate": 3.509192533183401e-05,
      "loss": 3.2921,
      "step": 373780
    },
    {
      "epoch": 0.7787291666666667,
      "grad_norm": 0.9137250781059265,
      "learning_rate": 3.5085588733731214e-05,
      "loss": 3.2955,
      "step": 373790
    },
    {
      "epoch": 0.77875,
      "grad_norm": 0.8103982210159302,
      "learning_rate": 3.507925263201315e-05,
      "loss": 3.4526,
      "step": 373800
    },
    {
      "epoch": 0.7787708333333333,
      "grad_norm": 0.9587560296058655,
      "learning_rate": 3.5072917026707234e-05,
      "loss": 3.3983,
      "step": 373810
    },
    {
      "epoch": 0.7787916666666667,
      "grad_norm": 0.9339388012886047,
      "learning_rate": 3.506658191784082e-05,
      "loss": 3.3861,
      "step": 373820
    },
    {
      "epoch": 0.7788125,
      "grad_norm": 0.9185342192649841,
      "learning_rate": 3.5060247305441276e-05,
      "loss": 3.2577,
      "step": 373830
    },
    {
      "epoch": 0.7788333333333334,
      "grad_norm": 0.896614134311676,
      "learning_rate": 3.505391318953598e-05,
      "loss": 3.3718,
      "step": 373840
    },
    {
      "epoch": 0.7788541666666666,
      "grad_norm": 0.8444852232933044,
      "learning_rate": 3.5047579570152265e-05,
      "loss": 3.4578,
      "step": 373850
    },
    {
      "epoch": 0.778875,
      "grad_norm": 0.8899787664413452,
      "learning_rate": 3.504124644731751e-05,
      "loss": 3.3138,
      "step": 373860
    },
    {
      "epoch": 0.7788958333333333,
      "grad_norm": 0.9722306132316589,
      "learning_rate": 3.503491382105907e-05,
      "loss": 3.3591,
      "step": 373870
    },
    {
      "epoch": 0.7789166666666667,
      "grad_norm": 0.8260506987571716,
      "learning_rate": 3.5028581691404284e-05,
      "loss": 3.2643,
      "step": 373880
    },
    {
      "epoch": 0.7789375,
      "grad_norm": 0.8265459537506104,
      "learning_rate": 3.502225005838052e-05,
      "loss": 3.2614,
      "step": 373890
    },
    {
      "epoch": 0.7789583333333333,
      "grad_norm": 0.9345565438270569,
      "learning_rate": 3.501591892201517e-05,
      "loss": 3.334,
      "step": 373900
    },
    {
      "epoch": 0.7789791666666667,
      "grad_norm": 0.9652281999588013,
      "learning_rate": 3.500958828233546e-05,
      "loss": 3.2855,
      "step": 373910
    },
    {
      "epoch": 0.779,
      "grad_norm": 0.8917696475982666,
      "learning_rate": 3.500325813936884e-05,
      "loss": 3.3257,
      "step": 373920
    },
    {
      "epoch": 0.7790208333333334,
      "grad_norm": 0.9611721634864807,
      "learning_rate": 3.4996928493142684e-05,
      "loss": 3.2092,
      "step": 373930
    },
    {
      "epoch": 0.7790416666666666,
      "grad_norm": 1.1343837976455688,
      "learning_rate": 3.499059934368419e-05,
      "loss": 3.4014,
      "step": 373940
    },
    {
      "epoch": 0.7790625,
      "grad_norm": 0.9291769862174988,
      "learning_rate": 3.4984270691020816e-05,
      "loss": 3.3085,
      "step": 373950
    },
    {
      "epoch": 0.7790833333333333,
      "grad_norm": 0.8936259746551514,
      "learning_rate": 3.497794253517991e-05,
      "loss": 3.284,
      "step": 373960
    },
    {
      "epoch": 0.7791041666666667,
      "grad_norm": 0.8364229202270508,
      "learning_rate": 3.497161487618868e-05,
      "loss": 3.232,
      "step": 373970
    },
    {
      "epoch": 0.779125,
      "grad_norm": 0.9028656482696533,
      "learning_rate": 3.496528771407457e-05,
      "loss": 3.413,
      "step": 373980
    },
    {
      "epoch": 0.7791458333333333,
      "grad_norm": 0.9575930237770081,
      "learning_rate": 3.495896104886495e-05,
      "loss": 3.3149,
      "step": 373990
    },
    {
      "epoch": 0.7791666666666667,
      "grad_norm": 0.8181714415550232,
      "learning_rate": 3.495263488058698e-05,
      "loss": 3.3318,
      "step": 374000
    },
    {
      "epoch": 0.7791666666666667,
      "eval_loss": 4.048153400421143,
      "eval_runtime": 8.4827,
      "eval_samples_per_second": 1.179,
      "eval_steps_per_second": 0.354,
      "step": 374000
    },
    {
      "epoch": 0.7791875,
      "grad_norm": 0.912577211856842,
      "learning_rate": 3.494630920926814e-05,
      "loss": 3.3518,
      "step": 374010
    },
    {
      "epoch": 0.7792083333333333,
      "grad_norm": 0.8928329944610596,
      "learning_rate": 3.493998403493574e-05,
      "loss": 3.472,
      "step": 374020
    },
    {
      "epoch": 0.7792291666666666,
      "grad_norm": 1.0691310167312622,
      "learning_rate": 3.493365935761699e-05,
      "loss": 3.3376,
      "step": 374030
    },
    {
      "epoch": 0.77925,
      "grad_norm": 0.9904452562332153,
      "learning_rate": 3.492733517733936e-05,
      "loss": 3.4035,
      "step": 374040
    },
    {
      "epoch": 0.7792708333333334,
      "grad_norm": 0.9628784656524658,
      "learning_rate": 3.492101149413005e-05,
      "loss": 3.2824,
      "step": 374050
    },
    {
      "epoch": 0.7792916666666667,
      "grad_norm": 0.8754608035087585,
      "learning_rate": 3.4914688308016376e-05,
      "loss": 3.316,
      "step": 374060
    },
    {
      "epoch": 0.7793125,
      "grad_norm": 0.896216869354248,
      "learning_rate": 3.490836561902579e-05,
      "loss": 3.4315,
      "step": 374070
    },
    {
      "epoch": 0.7793333333333333,
      "grad_norm": 0.8554893732070923,
      "learning_rate": 3.490204342718546e-05,
      "loss": 3.4007,
      "step": 374080
    },
    {
      "epoch": 0.7793541666666667,
      "grad_norm": 0.863925039768219,
      "learning_rate": 3.4895721732522695e-05,
      "loss": 3.3279,
      "step": 374090
    },
    {
      "epoch": 0.779375,
      "grad_norm": 0.8805816173553467,
      "learning_rate": 3.4889400535064945e-05,
      "loss": 3.3276,
      "step": 374100
    },
    {
      "epoch": 0.7793958333333333,
      "grad_norm": 0.8759698867797852,
      "learning_rate": 3.488307983483938e-05,
      "loss": 3.2646,
      "step": 374110
    },
    {
      "epoch": 0.7794166666666666,
      "grad_norm": 0.9027451276779175,
      "learning_rate": 3.4876759631873296e-05,
      "loss": 3.3421,
      "step": 374120
    },
    {
      "epoch": 0.7794375,
      "grad_norm": 0.9277548789978027,
      "learning_rate": 3.487043992619411e-05,
      "loss": 3.4553,
      "step": 374130
    },
    {
      "epoch": 0.7794583333333334,
      "grad_norm": 0.8527255654335022,
      "learning_rate": 3.4864120717829034e-05,
      "loss": 3.354,
      "step": 374140
    },
    {
      "epoch": 0.7794791666666666,
      "grad_norm": 0.8952921628952026,
      "learning_rate": 3.4857802006805336e-05,
      "loss": 3.3097,
      "step": 374150
    },
    {
      "epoch": 0.7795,
      "grad_norm": 0.8320172429084778,
      "learning_rate": 3.4851483793150434e-05,
      "loss": 3.2821,
      "step": 374160
    },
    {
      "epoch": 0.7795208333333333,
      "grad_norm": 0.9604114890098572,
      "learning_rate": 3.484516607689149e-05,
      "loss": 3.4094,
      "step": 374170
    },
    {
      "epoch": 0.7795416666666667,
      "grad_norm": 0.7956581115722656,
      "learning_rate": 3.4838848858055875e-05,
      "loss": 3.3175,
      "step": 374180
    },
    {
      "epoch": 0.7795625,
      "grad_norm": 1.050624966621399,
      "learning_rate": 3.483253213667083e-05,
      "loss": 3.318,
      "step": 374190
    },
    {
      "epoch": 0.7795833333333333,
      "grad_norm": 0.8830018043518066,
      "learning_rate": 3.482621591276367e-05,
      "loss": 3.4819,
      "step": 374200
    },
    {
      "epoch": 0.7796041666666667,
      "grad_norm": 0.7410393357276917,
      "learning_rate": 3.4819900186361657e-05,
      "loss": 3.3477,
      "step": 374210
    },
    {
      "epoch": 0.779625,
      "grad_norm": 0.9539788961410522,
      "learning_rate": 3.481358495749209e-05,
      "loss": 3.3286,
      "step": 374220
    },
    {
      "epoch": 0.7796458333333334,
      "grad_norm": 1.0057157278060913,
      "learning_rate": 3.480727022618224e-05,
      "loss": 3.3825,
      "step": 374230
    },
    {
      "epoch": 0.7796666666666666,
      "grad_norm": 0.9015785455703735,
      "learning_rate": 3.480095599245939e-05,
      "loss": 3.3044,
      "step": 374240
    },
    {
      "epoch": 0.7796875,
      "grad_norm": 0.8839959502220154,
      "learning_rate": 3.479464225635081e-05,
      "loss": 3.354,
      "step": 374250
    },
    {
      "epoch": 0.7797083333333333,
      "grad_norm": 0.8757695555686951,
      "learning_rate": 3.478832901788377e-05,
      "loss": 3.3685,
      "step": 374260
    },
    {
      "epoch": 0.7797291666666667,
      "grad_norm": 0.9362967014312744,
      "learning_rate": 3.4782016277085555e-05,
      "loss": 3.36,
      "step": 374270
    },
    {
      "epoch": 0.77975,
      "grad_norm": 0.892332136631012,
      "learning_rate": 3.4775704033983406e-05,
      "loss": 3.2791,
      "step": 374280
    },
    {
      "epoch": 0.7797708333333333,
      "grad_norm": 0.9818580746650696,
      "learning_rate": 3.476939228860463e-05,
      "loss": 3.4227,
      "step": 374290
    },
    {
      "epoch": 0.7797916666666667,
      "grad_norm": 0.8707067966461182,
      "learning_rate": 3.476308104097648e-05,
      "loss": 3.4029,
      "step": 374300
    },
    {
      "epoch": 0.7798125,
      "grad_norm": 0.8794447779655457,
      "learning_rate": 3.475677029112614e-05,
      "loss": 3.3872,
      "step": 374310
    },
    {
      "epoch": 0.7798333333333334,
      "grad_norm": 1.188599944114685,
      "learning_rate": 3.475046003908098e-05,
      "loss": 3.4063,
      "step": 374320
    },
    {
      "epoch": 0.7798541666666666,
      "grad_norm": 0.9304118752479553,
      "learning_rate": 3.474415028486826e-05,
      "loss": 3.3607,
      "step": 374330
    },
    {
      "epoch": 0.779875,
      "grad_norm": 0.8136045932769775,
      "learning_rate": 3.47378410285151e-05,
      "loss": 3.1398,
      "step": 374340
    },
    {
      "epoch": 0.7798958333333333,
      "grad_norm": 0.8429203033447266,
      "learning_rate": 3.473153227004888e-05,
      "loss": 3.2958,
      "step": 374350
    },
    {
      "epoch": 0.7799166666666667,
      "grad_norm": 1.0147432088851929,
      "learning_rate": 3.4725224009496855e-05,
      "loss": 3.4122,
      "step": 374360
    },
    {
      "epoch": 0.7799375,
      "grad_norm": 0.8977158665657043,
      "learning_rate": 3.471891624688615e-05,
      "loss": 3.2934,
      "step": 374370
    },
    {
      "epoch": 0.7799583333333333,
      "grad_norm": 0.9425508975982666,
      "learning_rate": 3.471260898224413e-05,
      "loss": 3.3313,
      "step": 374380
    },
    {
      "epoch": 0.7799791666666667,
      "grad_norm": 0.8155526518821716,
      "learning_rate": 3.4706302215598077e-05,
      "loss": 3.2646,
      "step": 374390
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.906474232673645,
      "learning_rate": 3.469999594697506e-05,
      "loss": 3.3145,
      "step": 374400
    },
    {
      "epoch": 0.7800208333333334,
      "grad_norm": 0.8360736966133118,
      "learning_rate": 3.469369017640249e-05,
      "loss": 3.2737,
      "step": 374410
    },
    {
      "epoch": 0.7800416666666666,
      "grad_norm": 1.0852458477020264,
      "learning_rate": 3.4687384903907515e-05,
      "loss": 3.3723,
      "step": 374420
    },
    {
      "epoch": 0.7800625,
      "grad_norm": 0.9209607243537903,
      "learning_rate": 3.4681080129517336e-05,
      "loss": 3.3734,
      "step": 374430
    },
    {
      "epoch": 0.7800833333333334,
      "grad_norm": 0.884053111076355,
      "learning_rate": 3.467477585325934e-05,
      "loss": 3.3427,
      "step": 374440
    },
    {
      "epoch": 0.7801041666666667,
      "grad_norm": 0.9387618899345398,
      "learning_rate": 3.466847207516063e-05,
      "loss": 3.3239,
      "step": 374450
    },
    {
      "epoch": 0.780125,
      "grad_norm": 0.9213364124298096,
      "learning_rate": 3.46621687952484e-05,
      "loss": 3.3518,
      "step": 374460
    },
    {
      "epoch": 0.7801458333333333,
      "grad_norm": 0.8920502066612244,
      "learning_rate": 3.465586601355006e-05,
      "loss": 3.2519,
      "step": 374470
    },
    {
      "epoch": 0.7801666666666667,
      "grad_norm": 0.9697462916374207,
      "learning_rate": 3.464956373009266e-05,
      "loss": 3.3173,
      "step": 374480
    },
    {
      "epoch": 0.7801875,
      "grad_norm": 0.7991957664489746,
      "learning_rate": 3.46432619449035e-05,
      "loss": 3.3289,
      "step": 374490
    },
    {
      "epoch": 0.7802083333333333,
      "grad_norm": 0.9111707210540771,
      "learning_rate": 3.463696065800978e-05,
      "loss": 3.3781,
      "step": 374500
    },
    {
      "epoch": 0.7802291666666666,
      "grad_norm": 0.9360978007316589,
      "learning_rate": 3.463065986943872e-05,
      "loss": 3.2559,
      "step": 374510
    },
    {
      "epoch": 0.78025,
      "grad_norm": 0.8187366724014282,
      "learning_rate": 3.4624359579217556e-05,
      "loss": 3.3089,
      "step": 374520
    },
    {
      "epoch": 0.7802708333333334,
      "grad_norm": 0.9398528933525085,
      "learning_rate": 3.4618059787373484e-05,
      "loss": 3.2812,
      "step": 374530
    },
    {
      "epoch": 0.7802916666666667,
      "grad_norm": 1.0883113145828247,
      "learning_rate": 3.4611760493933714e-05,
      "loss": 3.2998,
      "step": 374540
    },
    {
      "epoch": 0.7803125,
      "grad_norm": 0.9513049125671387,
      "learning_rate": 3.4605461698925475e-05,
      "loss": 3.2682,
      "step": 374550
    },
    {
      "epoch": 0.7803333333333333,
      "grad_norm": 0.8672136664390564,
      "learning_rate": 3.459916340237597e-05,
      "loss": 3.2231,
      "step": 374560
    },
    {
      "epoch": 0.7803541666666667,
      "grad_norm": 0.8764196038246155,
      "learning_rate": 3.459286560431239e-05,
      "loss": 3.2112,
      "step": 374570
    },
    {
      "epoch": 0.780375,
      "grad_norm": 0.8578388094902039,
      "learning_rate": 3.458656830476196e-05,
      "loss": 3.3354,
      "step": 374580
    },
    {
      "epoch": 0.7803958333333333,
      "grad_norm": 0.8789782524108887,
      "learning_rate": 3.458027150375185e-05,
      "loss": 3.3341,
      "step": 374590
    },
    {
      "epoch": 0.7804166666666666,
      "grad_norm": 0.8782274723052979,
      "learning_rate": 3.4573975201309296e-05,
      "loss": 3.2817,
      "step": 374600
    },
    {
      "epoch": 0.7804375,
      "grad_norm": 0.9038682579994202,
      "learning_rate": 3.456767939746149e-05,
      "loss": 3.3677,
      "step": 374610
    },
    {
      "epoch": 0.7804583333333334,
      "grad_norm": 0.8027470707893372,
      "learning_rate": 3.456138409223559e-05,
      "loss": 3.3214,
      "step": 374620
    },
    {
      "epoch": 0.7804791666666666,
      "grad_norm": 0.875113844871521,
      "learning_rate": 3.455508928565884e-05,
      "loss": 3.2447,
      "step": 374630
    },
    {
      "epoch": 0.7805,
      "grad_norm": 0.955027163028717,
      "learning_rate": 3.4548794977758395e-05,
      "loss": 3.436,
      "step": 374640
    },
    {
      "epoch": 0.7805208333333333,
      "grad_norm": 0.8819185495376587,
      "learning_rate": 3.4542501168561474e-05,
      "loss": 3.3698,
      "step": 374650
    },
    {
      "epoch": 0.7805416666666667,
      "grad_norm": 0.8319950103759766,
      "learning_rate": 3.4536207858095234e-05,
      "loss": 3.4406,
      "step": 374660
    },
    {
      "epoch": 0.7805625,
      "grad_norm": 0.880334198474884,
      "learning_rate": 3.4529915046386916e-05,
      "loss": 3.3138,
      "step": 374670
    },
    {
      "epoch": 0.7805833333333333,
      "grad_norm": 0.9297806620597839,
      "learning_rate": 3.452362273346357e-05,
      "loss": 3.3572,
      "step": 374680
    },
    {
      "epoch": 0.7806041666666667,
      "grad_norm": 0.8408014178276062,
      "learning_rate": 3.451733091935252e-05,
      "loss": 3.3418,
      "step": 374690
    },
    {
      "epoch": 0.780625,
      "grad_norm": 0.867468535900116,
      "learning_rate": 3.4511039604080915e-05,
      "loss": 3.4329,
      "step": 374700
    },
    {
      "epoch": 0.7806458333333334,
      "grad_norm": 0.9853095412254333,
      "learning_rate": 3.450474878767583e-05,
      "loss": 3.2719,
      "step": 374710
    },
    {
      "epoch": 0.7806666666666666,
      "grad_norm": 0.8783748149871826,
      "learning_rate": 3.4498458470164564e-05,
      "loss": 3.4165,
      "step": 374720
    },
    {
      "epoch": 0.7806875,
      "grad_norm": 0.9705538153648376,
      "learning_rate": 3.449216865157427e-05,
      "loss": 3.2978,
      "step": 374730
    },
    {
      "epoch": 0.7807083333333333,
      "grad_norm": 1.0227382183074951,
      "learning_rate": 3.4485879331931996e-05,
      "loss": 3.3482,
      "step": 374740
    },
    {
      "epoch": 0.7807291666666667,
      "grad_norm": 0.9146422147750854,
      "learning_rate": 3.447959051126506e-05,
      "loss": 3.3517,
      "step": 374750
    },
    {
      "epoch": 0.78075,
      "grad_norm": 0.8939127922058105,
      "learning_rate": 3.447330218960059e-05,
      "loss": 3.3789,
      "step": 374760
    },
    {
      "epoch": 0.7807708333333333,
      "grad_norm": 0.8549755215644836,
      "learning_rate": 3.446701436696566e-05,
      "loss": 3.3612,
      "step": 374770
    },
    {
      "epoch": 0.7807916666666667,
      "grad_norm": 1.1102678775787354,
      "learning_rate": 3.446072704338753e-05,
      "loss": 3.3018,
      "step": 374780
    },
    {
      "epoch": 0.7808125,
      "grad_norm": 0.9617426991462708,
      "learning_rate": 3.445444021889337e-05,
      "loss": 3.2182,
      "step": 374790
    },
    {
      "epoch": 0.7808333333333334,
      "grad_norm": 0.865600049495697,
      "learning_rate": 3.444815389351024e-05,
      "loss": 3.3608,
      "step": 374800
    },
    {
      "epoch": 0.7808541666666666,
      "grad_norm": 0.8660135865211487,
      "learning_rate": 3.444186806726536e-05,
      "loss": 3.3137,
      "step": 374810
    },
    {
      "epoch": 0.780875,
      "grad_norm": 0.8091782331466675,
      "learning_rate": 3.443558274018586e-05,
      "loss": 3.3449,
      "step": 374820
    },
    {
      "epoch": 0.7808958333333333,
      "grad_norm": 0.8681424856185913,
      "learning_rate": 3.442929791229891e-05,
      "loss": 3.1968,
      "step": 374830
    },
    {
      "epoch": 0.7809166666666667,
      "grad_norm": 0.9012541770935059,
      "learning_rate": 3.442301358363163e-05,
      "loss": 3.2792,
      "step": 374840
    },
    {
      "epoch": 0.7809375,
      "grad_norm": 0.8641698956489563,
      "learning_rate": 3.4416729754211185e-05,
      "loss": 3.3229,
      "step": 374850
    },
    {
      "epoch": 0.7809583333333333,
      "grad_norm": 0.8137521743774414,
      "learning_rate": 3.441044642406474e-05,
      "loss": 3.3437,
      "step": 374860
    },
    {
      "epoch": 0.7809791666666667,
      "grad_norm": 0.864269495010376,
      "learning_rate": 3.4404163593219386e-05,
      "loss": 3.3799,
      "step": 374870
    },
    {
      "epoch": 0.781,
      "grad_norm": 0.9781453609466553,
      "learning_rate": 3.43978812617023e-05,
      "loss": 3.2781,
      "step": 374880
    },
    {
      "epoch": 0.7810208333333334,
      "grad_norm": 0.8457354307174683,
      "learning_rate": 3.43915994295406e-05,
      "loss": 3.3159,
      "step": 374890
    },
    {
      "epoch": 0.7810416666666666,
      "grad_norm": 0.9123251438140869,
      "learning_rate": 3.438531809676144e-05,
      "loss": 3.362,
      "step": 374900
    },
    {
      "epoch": 0.7810625,
      "grad_norm": 0.8935572504997253,
      "learning_rate": 3.437903726339194e-05,
      "loss": 3.3935,
      "step": 374910
    },
    {
      "epoch": 0.7810833333333334,
      "grad_norm": 0.8619362115859985,
      "learning_rate": 3.437275692945923e-05,
      "loss": 3.2993,
      "step": 374920
    },
    {
      "epoch": 0.7811041666666667,
      "grad_norm": 0.9621031880378723,
      "learning_rate": 3.436647709499045e-05,
      "loss": 3.4947,
      "step": 374930
    },
    {
      "epoch": 0.781125,
      "grad_norm": 0.8506647944450378,
      "learning_rate": 3.436019776001271e-05,
      "loss": 3.3101,
      "step": 374940
    },
    {
      "epoch": 0.7811458333333333,
      "grad_norm": 0.8941775560379028,
      "learning_rate": 3.435391892455315e-05,
      "loss": 3.4034,
      "step": 374950
    },
    {
      "epoch": 0.7811666666666667,
      "grad_norm": 0.8817601203918457,
      "learning_rate": 3.434764058863888e-05,
      "loss": 3.3539,
      "step": 374960
    },
    {
      "epoch": 0.7811875,
      "grad_norm": 0.8478904366493225,
      "learning_rate": 3.434136275229702e-05,
      "loss": 3.3721,
      "step": 374970
    },
    {
      "epoch": 0.7812083333333333,
      "grad_norm": 0.8182188272476196,
      "learning_rate": 3.433508541555469e-05,
      "loss": 3.4513,
      "step": 374980
    },
    {
      "epoch": 0.7812291666666666,
      "grad_norm": 0.9163859486579895,
      "learning_rate": 3.432880857843902e-05,
      "loss": 3.332,
      "step": 374990
    },
    {
      "epoch": 0.78125,
      "grad_norm": 0.9130091071128845,
      "learning_rate": 3.43225322409771e-05,
      "loss": 3.4435,
      "step": 375000
    },
    {
      "epoch": 0.78125,
      "eval_loss": 4.046504020690918,
      "eval_runtime": 8.5574,
      "eval_samples_per_second": 1.169,
      "eval_steps_per_second": 0.351,
      "step": 375000
    },
    {
      "epoch": 0.7812708333333334,
      "grad_norm": 0.9001588821411133,
      "learning_rate": 3.431625640319606e-05,
      "loss": 3.3608,
      "step": 375010
    },
    {
      "epoch": 0.7812916666666667,
      "grad_norm": 0.9347550868988037,
      "learning_rate": 3.4309981065123e-05,
      "loss": 3.2633,
      "step": 375020
    },
    {
      "epoch": 0.7813125,
      "grad_norm": 0.9339666366577148,
      "learning_rate": 3.430370622678502e-05,
      "loss": 3.3022,
      "step": 375030
    },
    {
      "epoch": 0.7813333333333333,
      "grad_norm": 0.877842903137207,
      "learning_rate": 3.429743188820928e-05,
      "loss": 3.3976,
      "step": 375040
    },
    {
      "epoch": 0.7813541666666667,
      "grad_norm": 0.9104579091072083,
      "learning_rate": 3.429115804942276e-05,
      "loss": 3.3433,
      "step": 375050
    },
    {
      "epoch": 0.781375,
      "grad_norm": 0.9863036870956421,
      "learning_rate": 3.4284884710452656e-05,
      "loss": 3.3,
      "step": 375060
    },
    {
      "epoch": 0.7813958333333333,
      "grad_norm": 0.8859543800354004,
      "learning_rate": 3.4278611871326114e-05,
      "loss": 3.4143,
      "step": 375070
    },
    {
      "epoch": 0.7814166666666666,
      "grad_norm": 0.8809341192245483,
      "learning_rate": 3.427233953207011e-05,
      "loss": 3.3319,
      "step": 375080
    },
    {
      "epoch": 0.7814375,
      "grad_norm": 0.8107948899269104,
      "learning_rate": 3.426606769271176e-05,
      "loss": 3.3391,
      "step": 375090
    },
    {
      "epoch": 0.7814583333333334,
      "grad_norm": 0.8604289889335632,
      "learning_rate": 3.4259796353278255e-05,
      "loss": 3.2619,
      "step": 375100
    },
    {
      "epoch": 0.7814791666666666,
      "grad_norm": 0.8504846096038818,
      "learning_rate": 3.425352551379659e-05,
      "loss": 3.355,
      "step": 375110
    },
    {
      "epoch": 0.7815,
      "grad_norm": 0.8210591673851013,
      "learning_rate": 3.424725517429382e-05,
      "loss": 3.2394,
      "step": 375120
    },
    {
      "epoch": 0.7815208333333333,
      "grad_norm": 0.8801299929618835,
      "learning_rate": 3.424098533479718e-05,
      "loss": 3.3936,
      "step": 375130
    },
    {
      "epoch": 0.7815416666666667,
      "grad_norm": 0.8906003832817078,
      "learning_rate": 3.4234715995333624e-05,
      "loss": 3.4311,
      "step": 375140
    },
    {
      "epoch": 0.7815625,
      "grad_norm": 0.9438847303390503,
      "learning_rate": 3.422844715593023e-05,
      "loss": 3.3617,
      "step": 375150
    },
    {
      "epoch": 0.7815833333333333,
      "grad_norm": 0.8448639512062073,
      "learning_rate": 3.4222178816614204e-05,
      "loss": 3.3578,
      "step": 375160
    },
    {
      "epoch": 0.7816041666666667,
      "grad_norm": 0.9980660080909729,
      "learning_rate": 3.42159109774125e-05,
      "loss": 3.4487,
      "step": 375170
    },
    {
      "epoch": 0.781625,
      "grad_norm": 0.8710934519767761,
      "learning_rate": 3.420964363835222e-05,
      "loss": 3.3763,
      "step": 375180
    },
    {
      "epoch": 0.7816458333333334,
      "grad_norm": 0.8646164536476135,
      "learning_rate": 3.4203376799460446e-05,
      "loss": 3.4625,
      "step": 375190
    },
    {
      "epoch": 0.7816666666666666,
      "grad_norm": 0.9704037308692932,
      "learning_rate": 3.4197110460764245e-05,
      "loss": 3.2867,
      "step": 375200
    },
    {
      "epoch": 0.7816875,
      "grad_norm": 1.0567667484283447,
      "learning_rate": 3.41908446222907e-05,
      "loss": 3.197,
      "step": 375210
    },
    {
      "epoch": 0.7817083333333333,
      "grad_norm": 0.8775461316108704,
      "learning_rate": 3.418457928406687e-05,
      "loss": 3.2454,
      "step": 375220
    },
    {
      "epoch": 0.7817291666666667,
      "grad_norm": 0.8826698064804077,
      "learning_rate": 3.4178314446119794e-05,
      "loss": 3.3587,
      "step": 375230
    },
    {
      "epoch": 0.78175,
      "grad_norm": 0.9151625633239746,
      "learning_rate": 3.4172050108476576e-05,
      "loss": 3.3709,
      "step": 375240
    },
    {
      "epoch": 0.7817708333333333,
      "grad_norm": 0.8339146375656128,
      "learning_rate": 3.416578627116424e-05,
      "loss": 3.231,
      "step": 375250
    },
    {
      "epoch": 0.7817916666666667,
      "grad_norm": 0.9195403456687927,
      "learning_rate": 3.415952293420986e-05,
      "loss": 3.2975,
      "step": 375260
    },
    {
      "epoch": 0.7818125,
      "grad_norm": 0.9779648780822754,
      "learning_rate": 3.41532600976405e-05,
      "loss": 3.3659,
      "step": 375270
    },
    {
      "epoch": 0.7818333333333334,
      "grad_norm": 0.9419978857040405,
      "learning_rate": 3.414699776148318e-05,
      "loss": 3.3208,
      "step": 375280
    },
    {
      "epoch": 0.7818541666666666,
      "grad_norm": 0.911202609539032,
      "learning_rate": 3.414073592576498e-05,
      "loss": 3.3561,
      "step": 375290
    },
    {
      "epoch": 0.781875,
      "grad_norm": 0.9255738258361816,
      "learning_rate": 3.413447459051295e-05,
      "loss": 3.429,
      "step": 375300
    },
    {
      "epoch": 0.7818958333333333,
      "grad_norm": 0.7989381551742554,
      "learning_rate": 3.412821375575412e-05,
      "loss": 3.3302,
      "step": 375310
    },
    {
      "epoch": 0.7819166666666667,
      "grad_norm": 0.9843490123748779,
      "learning_rate": 3.412195342151553e-05,
      "loss": 3.3215,
      "step": 375320
    },
    {
      "epoch": 0.7819375,
      "grad_norm": 0.9348136186599731,
      "learning_rate": 3.411569358782425e-05,
      "loss": 3.4432,
      "step": 375330
    },
    {
      "epoch": 0.7819583333333333,
      "grad_norm": 0.8715200424194336,
      "learning_rate": 3.410943425470731e-05,
      "loss": 3.3495,
      "step": 375340
    },
    {
      "epoch": 0.7819791666666667,
      "grad_norm": 1.185481309890747,
      "learning_rate": 3.4103175422191715e-05,
      "loss": 3.2633,
      "step": 375350
    },
    {
      "epoch": 0.782,
      "grad_norm": 1.0419228076934814,
      "learning_rate": 3.409691709030454e-05,
      "loss": 3.354,
      "step": 375360
    },
    {
      "epoch": 0.7820208333333334,
      "grad_norm": 0.9134438037872314,
      "learning_rate": 3.40906592590728e-05,
      "loss": 3.3051,
      "step": 375370
    },
    {
      "epoch": 0.7820416666666666,
      "grad_norm": 0.848074197769165,
      "learning_rate": 3.4084401928523545e-05,
      "loss": 3.2424,
      "step": 375380
    },
    {
      "epoch": 0.7820625,
      "grad_norm": 0.8640624284744263,
      "learning_rate": 3.407814509868383e-05,
      "loss": 3.355,
      "step": 375390
    },
    {
      "epoch": 0.7820833333333334,
      "grad_norm": 0.9973064064979553,
      "learning_rate": 3.407188876958056e-05,
      "loss": 3.3233,
      "step": 375400
    },
    {
      "epoch": 0.7821041666666667,
      "grad_norm": 0.8438596129417419,
      "learning_rate": 3.406563294124093e-05,
      "loss": 3.2366,
      "step": 375410
    },
    {
      "epoch": 0.782125,
      "grad_norm": 1.0237318277359009,
      "learning_rate": 3.405937761369182e-05,
      "loss": 3.2922,
      "step": 375420
    },
    {
      "epoch": 0.7821458333333333,
      "grad_norm": 0.9894038438796997,
      "learning_rate": 3.405312278696026e-05,
      "loss": 3.3013,
      "step": 375430
    },
    {
      "epoch": 0.7821666666666667,
      "grad_norm": 0.9081165790557861,
      "learning_rate": 3.404686846107342e-05,
      "loss": 3.2439,
      "step": 375440
    },
    {
      "epoch": 0.7821875,
      "grad_norm": 0.8298323750495911,
      "learning_rate": 3.404061463605816e-05,
      "loss": 3.2347,
      "step": 375450
    },
    {
      "epoch": 0.7822083333333333,
      "grad_norm": 0.78799968957901,
      "learning_rate": 3.4034361311941506e-05,
      "loss": 3.3191,
      "step": 375460
    },
    {
      "epoch": 0.7822291666666666,
      "grad_norm": 0.9865841269493103,
      "learning_rate": 3.402810848875058e-05,
      "loss": 3.3191,
      "step": 375470
    },
    {
      "epoch": 0.78225,
      "grad_norm": 0.8679377436637878,
      "learning_rate": 3.402185616651229e-05,
      "loss": 3.3503,
      "step": 375480
    },
    {
      "epoch": 0.7822708333333334,
      "grad_norm": 0.7925527691841125,
      "learning_rate": 3.401560434525362e-05,
      "loss": 3.3479,
      "step": 375490
    },
    {
      "epoch": 0.7822916666666667,
      "grad_norm": 1.0358498096466064,
      "learning_rate": 3.400935302500172e-05,
      "loss": 3.3247,
      "step": 375500
    },
    {
      "epoch": 0.7823125,
      "grad_norm": 0.8081235289573669,
      "learning_rate": 3.4003102205783475e-05,
      "loss": 3.2187,
      "step": 375510
    },
    {
      "epoch": 0.7823333333333333,
      "grad_norm": 0.8687222599983215,
      "learning_rate": 3.399685188762585e-05,
      "loss": 3.278,
      "step": 375520
    },
    {
      "epoch": 0.7823541666666667,
      "grad_norm": 0.9805171489715576,
      "learning_rate": 3.399060207055601e-05,
      "loss": 3.2556,
      "step": 375530
    },
    {
      "epoch": 0.782375,
      "grad_norm": 0.9204066395759583,
      "learning_rate": 3.398435275460079e-05,
      "loss": 3.2747,
      "step": 375540
    },
    {
      "epoch": 0.7823958333333333,
      "grad_norm": 1.496341586112976,
      "learning_rate": 3.397810393978725e-05,
      "loss": 3.3631,
      "step": 375550
    },
    {
      "epoch": 0.7824166666666666,
      "grad_norm": 0.8798772692680359,
      "learning_rate": 3.3971855626142383e-05,
      "loss": 3.3509,
      "step": 375560
    },
    {
      "epoch": 0.7824375,
      "grad_norm": 0.9036305546760559,
      "learning_rate": 3.3965607813693166e-05,
      "loss": 3.3383,
      "step": 375570
    },
    {
      "epoch": 0.7824583333333334,
      "grad_norm": 0.8289287686347961,
      "learning_rate": 3.3959360502466595e-05,
      "loss": 3.2633,
      "step": 375580
    },
    {
      "epoch": 0.7824791666666666,
      "grad_norm": 0.8405920267105103,
      "learning_rate": 3.3953113692489666e-05,
      "loss": 3.4415,
      "step": 375590
    },
    {
      "epoch": 0.7825,
      "grad_norm": 1.0120633840560913,
      "learning_rate": 3.3946867383789336e-05,
      "loss": 3.2597,
      "step": 375600
    },
    {
      "epoch": 0.7825208333333333,
      "grad_norm": 1.1740649938583374,
      "learning_rate": 3.3940621576392614e-05,
      "loss": 3.315,
      "step": 375610
    },
    {
      "epoch": 0.7825416666666667,
      "grad_norm": 0.8648090958595276,
      "learning_rate": 3.3934376270326444e-05,
      "loss": 3.2903,
      "step": 375620
    },
    {
      "epoch": 0.7825625,
      "grad_norm": 0.8823322057723999,
      "learning_rate": 3.3928131465617856e-05,
      "loss": 3.2971,
      "step": 375630
    },
    {
      "epoch": 0.7825833333333333,
      "grad_norm": 0.8624921441078186,
      "learning_rate": 3.392188716229378e-05,
      "loss": 3.318,
      "step": 375640
    },
    {
      "epoch": 0.7826041666666667,
      "grad_norm": 0.8914313316345215,
      "learning_rate": 3.3915643360381194e-05,
      "loss": 3.3834,
      "step": 375650
    },
    {
      "epoch": 0.782625,
      "grad_norm": 0.9571771621704102,
      "learning_rate": 3.390940005990711e-05,
      "loss": 3.368,
      "step": 375660
    },
    {
      "epoch": 0.7826458333333334,
      "grad_norm": 0.9100576639175415,
      "learning_rate": 3.390315726089848e-05,
      "loss": 3.3515,
      "step": 375670
    },
    {
      "epoch": 0.7826666666666666,
      "grad_norm": 0.9480034112930298,
      "learning_rate": 3.3896914963382174e-05,
      "loss": 3.2187,
      "step": 375680
    },
    {
      "epoch": 0.7826875,
      "grad_norm": 0.8626888990402222,
      "learning_rate": 3.3890673167385294e-05,
      "loss": 3.4063,
      "step": 375690
    },
    {
      "epoch": 0.7827083333333333,
      "grad_norm": 0.913137674331665,
      "learning_rate": 3.388443187293478e-05,
      "loss": 3.4011,
      "step": 375700
    },
    {
      "epoch": 0.7827291666666667,
      "grad_norm": 1.1376904249191284,
      "learning_rate": 3.3878191080057474e-05,
      "loss": 3.4666,
      "step": 375710
    },
    {
      "epoch": 0.78275,
      "grad_norm": 0.8650588393211365,
      "learning_rate": 3.387195078878048e-05,
      "loss": 3.3166,
      "step": 375720
    },
    {
      "epoch": 0.7827708333333333,
      "grad_norm": 0.901701033115387,
      "learning_rate": 3.38657109991307e-05,
      "loss": 3.4244,
      "step": 375730
    },
    {
      "epoch": 0.7827916666666667,
      "grad_norm": 0.9277876615524292,
      "learning_rate": 3.3859471711135026e-05,
      "loss": 3.2722,
      "step": 375740
    },
    {
      "epoch": 0.7828125,
      "grad_norm": 1.0054903030395508,
      "learning_rate": 3.3853232924820486e-05,
      "loss": 3.3118,
      "step": 375750
    },
    {
      "epoch": 0.7828333333333334,
      "grad_norm": 0.8623021841049194,
      "learning_rate": 3.3846994640214064e-05,
      "loss": 3.3994,
      "step": 375760
    },
    {
      "epoch": 0.7828541666666666,
      "grad_norm": 0.8736069202423096,
      "learning_rate": 3.384075685734255e-05,
      "loss": 3.2658,
      "step": 375770
    },
    {
      "epoch": 0.782875,
      "grad_norm": 0.9436767101287842,
      "learning_rate": 3.383451957623303e-05,
      "loss": 3.3473,
      "step": 375780
    },
    {
      "epoch": 0.7828958333333333,
      "grad_norm": 0.9685287475585938,
      "learning_rate": 3.382828279691244e-05,
      "loss": 3.3575,
      "step": 375790
    },
    {
      "epoch": 0.7829166666666667,
      "grad_norm": 0.9607719779014587,
      "learning_rate": 3.3822046519407625e-05,
      "loss": 3.315,
      "step": 375800
    },
    {
      "epoch": 0.7829375,
      "grad_norm": 0.873367428779602,
      "learning_rate": 3.3815810743745644e-05,
      "loss": 3.1791,
      "step": 375810
    },
    {
      "epoch": 0.7829583333333333,
      "grad_norm": 0.9415072798728943,
      "learning_rate": 3.3809575469953334e-05,
      "loss": 3.2936,
      "step": 375820
    },
    {
      "epoch": 0.7829791666666667,
      "grad_norm": 0.892126739025116,
      "learning_rate": 3.380334069805764e-05,
      "loss": 3.2678,
      "step": 375830
    },
    {
      "epoch": 0.783,
      "grad_norm": 0.9338374733924866,
      "learning_rate": 3.379710642808558e-05,
      "loss": 3.2908,
      "step": 375840
    },
    {
      "epoch": 0.7830208333333334,
      "grad_norm": 0.8053869605064392,
      "learning_rate": 3.3790872660064e-05,
      "loss": 3.2658,
      "step": 375850
    },
    {
      "epoch": 0.7830416666666666,
      "grad_norm": 0.8892113566398621,
      "learning_rate": 3.37846393940198e-05,
      "loss": 3.2981,
      "step": 375860
    },
    {
      "epoch": 0.7830625,
      "grad_norm": 0.9771247506141663,
      "learning_rate": 3.377840662998005e-05,
      "loss": 3.2911,
      "step": 375870
    },
    {
      "epoch": 0.7830833333333334,
      "grad_norm": 0.7700079083442688,
      "learning_rate": 3.377217436797153e-05,
      "loss": 3.262,
      "step": 375880
    },
    {
      "epoch": 0.7831041666666667,
      "grad_norm": 0.8627663850784302,
      "learning_rate": 3.3765942608021164e-05,
      "loss": 3.3814,
      "step": 375890
    },
    {
      "epoch": 0.783125,
      "grad_norm": 0.8571820259094238,
      "learning_rate": 3.375971135015602e-05,
      "loss": 3.3676,
      "step": 375900
    },
    {
      "epoch": 0.7831458333333333,
      "grad_norm": 0.8251825571060181,
      "learning_rate": 3.375348059440286e-05,
      "loss": 3.3855,
      "step": 375910
    },
    {
      "epoch": 0.7831666666666667,
      "grad_norm": 0.8756569027900696,
      "learning_rate": 3.374725034078864e-05,
      "loss": 3.3083,
      "step": 375920
    },
    {
      "epoch": 0.7831875,
      "grad_norm": 0.9324678182601929,
      "learning_rate": 3.3741020589340286e-05,
      "loss": 3.381,
      "step": 375930
    },
    {
      "epoch": 0.7832083333333333,
      "grad_norm": 0.8685987591743469,
      "learning_rate": 3.3734791340084714e-05,
      "loss": 3.3415,
      "step": 375940
    },
    {
      "epoch": 0.7832291666666666,
      "grad_norm": 0.8990345597267151,
      "learning_rate": 3.3728562593048814e-05,
      "loss": 3.3311,
      "step": 375950
    },
    {
      "epoch": 0.78325,
      "grad_norm": 0.8805608749389648,
      "learning_rate": 3.372233434825951e-05,
      "loss": 3.3344,
      "step": 375960
    },
    {
      "epoch": 0.7832708333333334,
      "grad_norm": 0.852665364742279,
      "learning_rate": 3.371610660574369e-05,
      "loss": 3.3392,
      "step": 375970
    },
    {
      "epoch": 0.7832916666666667,
      "grad_norm": 1.0471642017364502,
      "learning_rate": 3.3709879365528256e-05,
      "loss": 3.3849,
      "step": 375980
    },
    {
      "epoch": 0.7833125,
      "grad_norm": 0.8304187059402466,
      "learning_rate": 3.3703652627640114e-05,
      "loss": 3.3408,
      "step": 375990
    },
    {
      "epoch": 0.7833333333333333,
      "grad_norm": 0.9702040553092957,
      "learning_rate": 3.369742639210615e-05,
      "loss": 3.2585,
      "step": 376000
    },
    {
      "epoch": 0.7833333333333333,
      "eval_loss": 4.041337013244629,
      "eval_runtime": 9.0312,
      "eval_samples_per_second": 1.107,
      "eval_steps_per_second": 0.332,
      "step": 376000
    },
    {
      "epoch": 0.7833541666666667,
      "grad_norm": 0.8760992288589478,
      "learning_rate": 3.369120065895329e-05,
      "loss": 3.239,
      "step": 376010
    },
    {
      "epoch": 0.783375,
      "grad_norm": 0.8300193548202515,
      "learning_rate": 3.36849754282084e-05,
      "loss": 3.3866,
      "step": 376020
    },
    {
      "epoch": 0.7833958333333333,
      "grad_norm": 0.8705123066902161,
      "learning_rate": 3.367875069989837e-05,
      "loss": 3.2769,
      "step": 376030
    },
    {
      "epoch": 0.7834166666666667,
      "grad_norm": 0.9186222553253174,
      "learning_rate": 3.367252647405014e-05,
      "loss": 3.4057,
      "step": 376040
    },
    {
      "epoch": 0.7834375,
      "grad_norm": 0.835890531539917,
      "learning_rate": 3.366630275069046e-05,
      "loss": 3.3519,
      "step": 376050
    },
    {
      "epoch": 0.7834583333333334,
      "grad_norm": 0.8495144248008728,
      "learning_rate": 3.3660079529846345e-05,
      "loss": 3.4545,
      "step": 376060
    },
    {
      "epoch": 0.7834791666666666,
      "grad_norm": 0.800635039806366,
      "learning_rate": 3.365385681154467e-05,
      "loss": 3.2458,
      "step": 376070
    },
    {
      "epoch": 0.7835,
      "grad_norm": 0.966248095035553,
      "learning_rate": 3.364763459581222e-05,
      "loss": 3.2716,
      "step": 376080
    },
    {
      "epoch": 0.7835208333333333,
      "grad_norm": 0.950260579586029,
      "learning_rate": 3.3641412882675964e-05,
      "loss": 3.4703,
      "step": 376090
    },
    {
      "epoch": 0.7835416666666667,
      "grad_norm": 0.8775715231895447,
      "learning_rate": 3.363519167216278e-05,
      "loss": 3.3592,
      "step": 376100
    },
    {
      "epoch": 0.7835625,
      "grad_norm": 0.9117037057876587,
      "learning_rate": 3.362897096429944e-05,
      "loss": 3.2415,
      "step": 376110
    },
    {
      "epoch": 0.7835833333333333,
      "grad_norm": 1.0367457866668701,
      "learning_rate": 3.3622750759112915e-05,
      "loss": 3.403,
      "step": 376120
    },
    {
      "epoch": 0.7836041666666667,
      "grad_norm": 0.8375024199485779,
      "learning_rate": 3.361653105663007e-05,
      "loss": 3.3127,
      "step": 376130
    },
    {
      "epoch": 0.783625,
      "grad_norm": 0.8303948640823364,
      "learning_rate": 3.361031185687768e-05,
      "loss": 3.3778,
      "step": 376140
    },
    {
      "epoch": 0.7836458333333334,
      "grad_norm": 0.9222384095191956,
      "learning_rate": 3.3604093159882713e-05,
      "loss": 3.4147,
      "step": 376150
    },
    {
      "epoch": 0.7836666666666666,
      "grad_norm": 0.975959837436676,
      "learning_rate": 3.359787496567202e-05,
      "loss": 3.3949,
      "step": 376160
    },
    {
      "epoch": 0.7836875,
      "grad_norm": 0.9106429219245911,
      "learning_rate": 3.359165727427236e-05,
      "loss": 3.291,
      "step": 376170
    },
    {
      "epoch": 0.7837083333333333,
      "grad_norm": 0.8682107329368591,
      "learning_rate": 3.358544008571074e-05,
      "loss": 3.421,
      "step": 376180
    },
    {
      "epoch": 0.7837291666666667,
      "grad_norm": 0.9405667185783386,
      "learning_rate": 3.357922340001389e-05,
      "loss": 3.3332,
      "step": 376190
    },
    {
      "epoch": 0.78375,
      "grad_norm": 0.9229352474212646,
      "learning_rate": 3.357300721720868e-05,
      "loss": 3.3113,
      "step": 376200
    },
    {
      "epoch": 0.7837708333333333,
      "grad_norm": 0.892665445804596,
      "learning_rate": 3.356679153732209e-05,
      "loss": 3.3316,
      "step": 376210
    },
    {
      "epoch": 0.7837916666666667,
      "grad_norm": 0.9135003685951233,
      "learning_rate": 3.356057636038082e-05,
      "loss": 3.3041,
      "step": 376220
    },
    {
      "epoch": 0.7838125,
      "grad_norm": 1.0547350645065308,
      "learning_rate": 3.3554361686411714e-05,
      "loss": 3.3568,
      "step": 376230
    },
    {
      "epoch": 0.7838333333333334,
      "grad_norm": 1.0671050548553467,
      "learning_rate": 3.354814751544178e-05,
      "loss": 3.4092,
      "step": 376240
    },
    {
      "epoch": 0.7838541666666666,
      "grad_norm": 0.8114794492721558,
      "learning_rate": 3.3541933847497706e-05,
      "loss": 3.2841,
      "step": 376250
    },
    {
      "epoch": 0.783875,
      "grad_norm": 0.947586715221405,
      "learning_rate": 3.353572068260636e-05,
      "loss": 3.4157,
      "step": 376260
    },
    {
      "epoch": 0.7838958333333333,
      "grad_norm": 0.8551805019378662,
      "learning_rate": 3.3529508020794625e-05,
      "loss": 3.2918,
      "step": 376270
    },
    {
      "epoch": 0.7839166666666667,
      "grad_norm": 0.8699102997779846,
      "learning_rate": 3.35232958620893e-05,
      "loss": 3.383,
      "step": 376280
    },
    {
      "epoch": 0.7839375,
      "grad_norm": 0.9125170111656189,
      "learning_rate": 3.3517084206517245e-05,
      "loss": 3.3092,
      "step": 376290
    },
    {
      "epoch": 0.7839583333333333,
      "grad_norm": 0.9909840226173401,
      "learning_rate": 3.3510873054105264e-05,
      "loss": 3.2854,
      "step": 376300
    },
    {
      "epoch": 0.7839791666666667,
      "grad_norm": 0.8411733508110046,
      "learning_rate": 3.350466240488021e-05,
      "loss": 3.2689,
      "step": 376310
    },
    {
      "epoch": 0.784,
      "grad_norm": 0.8967142701148987,
      "learning_rate": 3.3498452258868895e-05,
      "loss": 3.3696,
      "step": 376320
    },
    {
      "epoch": 0.7840208333333333,
      "grad_norm": 0.8738365173339844,
      "learning_rate": 3.349224261609816e-05,
      "loss": 3.2835,
      "step": 376330
    },
    {
      "epoch": 0.7840416666666666,
      "grad_norm": 1.0139622688293457,
      "learning_rate": 3.3486033476594825e-05,
      "loss": 3.411,
      "step": 376340
    },
    {
      "epoch": 0.7840625,
      "grad_norm": 0.9550308585166931,
      "learning_rate": 3.3479824840385693e-05,
      "loss": 3.3299,
      "step": 376350
    },
    {
      "epoch": 0.7840833333333334,
      "grad_norm": 0.9686214327812195,
      "learning_rate": 3.347361670749761e-05,
      "loss": 3.4482,
      "step": 376360
    },
    {
      "epoch": 0.7841041666666667,
      "grad_norm": 0.9006767272949219,
      "learning_rate": 3.3467409077957364e-05,
      "loss": 3.4408,
      "step": 376370
    },
    {
      "epoch": 0.784125,
      "grad_norm": 0.9041808247566223,
      "learning_rate": 3.346120195179179e-05,
      "loss": 3.2987,
      "step": 376380
    },
    {
      "epoch": 0.7841458333333333,
      "grad_norm": 0.9418651461601257,
      "learning_rate": 3.34549953290277e-05,
      "loss": 3.2893,
      "step": 376390
    },
    {
      "epoch": 0.7841666666666667,
      "grad_norm": 0.8778306841850281,
      "learning_rate": 3.34487892096919e-05,
      "loss": 3.323,
      "step": 376400
    },
    {
      "epoch": 0.7841875,
      "grad_norm": 0.9081549644470215,
      "learning_rate": 3.344258359381122e-05,
      "loss": 3.3754,
      "step": 376410
    },
    {
      "epoch": 0.7842083333333333,
      "grad_norm": 0.8312063217163086,
      "learning_rate": 3.343637848141238e-05,
      "loss": 3.4469,
      "step": 376420
    },
    {
      "epoch": 0.7842291666666666,
      "grad_norm": 0.8982982635498047,
      "learning_rate": 3.343017387252227e-05,
      "loss": 3.3768,
      "step": 376430
    },
    {
      "epoch": 0.78425,
      "grad_norm": 0.8882653713226318,
      "learning_rate": 3.342396976716772e-05,
      "loss": 3.3118,
      "step": 376440
    },
    {
      "epoch": 0.7842708333333334,
      "grad_norm": 0.9562228918075562,
      "learning_rate": 3.341776616537539e-05,
      "loss": 3.3361,
      "step": 376450
    },
    {
      "epoch": 0.7842916666666667,
      "grad_norm": 0.8209788203239441,
      "learning_rate": 3.341156306717221e-05,
      "loss": 3.2697,
      "step": 376460
    },
    {
      "epoch": 0.7843125,
      "grad_norm": 0.883204460144043,
      "learning_rate": 3.3405360472584964e-05,
      "loss": 3.4819,
      "step": 376470
    },
    {
      "epoch": 0.7843333333333333,
      "grad_norm": 1.002569317817688,
      "learning_rate": 3.3399158381640326e-05,
      "loss": 3.4906,
      "step": 376480
    },
    {
      "epoch": 0.7843541666666667,
      "grad_norm": 0.8816965818405151,
      "learning_rate": 3.3392956794365214e-05,
      "loss": 3.2901,
      "step": 376490
    },
    {
      "epoch": 0.784375,
      "grad_norm": 0.8271105885505676,
      "learning_rate": 3.3386755710786404e-05,
      "loss": 3.3653,
      "step": 376500
    },
    {
      "epoch": 0.7843958333333333,
      "grad_norm": 0.7861445546150208,
      "learning_rate": 3.338055513093057e-05,
      "loss": 3.3791,
      "step": 376510
    },
    {
      "epoch": 0.7844166666666667,
      "grad_norm": 0.8303526639938354,
      "learning_rate": 3.3374355054824635e-05,
      "loss": 3.3447,
      "step": 376520
    },
    {
      "epoch": 0.7844375,
      "grad_norm": 0.8802626729011536,
      "learning_rate": 3.336815548249535e-05,
      "loss": 3.4018,
      "step": 376530
    },
    {
      "epoch": 0.7844583333333334,
      "grad_norm": 0.8833982348442078,
      "learning_rate": 3.33619564139694e-05,
      "loss": 3.2801,
      "step": 376540
    },
    {
      "epoch": 0.7844791666666666,
      "grad_norm": 0.8394446969032288,
      "learning_rate": 3.335575784927369e-05,
      "loss": 3.3182,
      "step": 376550
    },
    {
      "epoch": 0.7845,
      "grad_norm": 0.8682570457458496,
      "learning_rate": 3.33495597884349e-05,
      "loss": 3.3303,
      "step": 376560
    },
    {
      "epoch": 0.7845208333333333,
      "grad_norm": 0.9003492593765259,
      "learning_rate": 3.334336223147985e-05,
      "loss": 3.3364,
      "step": 376570
    },
    {
      "epoch": 0.7845416666666667,
      "grad_norm": 0.8615000247955322,
      "learning_rate": 3.33371651784353e-05,
      "loss": 3.3743,
      "step": 376580
    },
    {
      "epoch": 0.7845625,
      "grad_norm": 0.9317812919616699,
      "learning_rate": 3.3330968629328006e-05,
      "loss": 3.4104,
      "step": 376590
    },
    {
      "epoch": 0.7845833333333333,
      "grad_norm": 0.8972099423408508,
      "learning_rate": 3.3324772584184746e-05,
      "loss": 3.3024,
      "step": 376600
    },
    {
      "epoch": 0.7846041666666667,
      "grad_norm": 1.0089343786239624,
      "learning_rate": 3.33185770430323e-05,
      "loss": 3.3971,
      "step": 376610
    },
    {
      "epoch": 0.784625,
      "grad_norm": 1.1039230823516846,
      "learning_rate": 3.33123820058974e-05,
      "loss": 3.2872,
      "step": 376620
    },
    {
      "epoch": 0.7846458333333334,
      "grad_norm": 0.8528554439544678,
      "learning_rate": 3.3306187472806826e-05,
      "loss": 3.27,
      "step": 376630
    },
    {
      "epoch": 0.7846666666666666,
      "grad_norm": 0.8673291802406311,
      "learning_rate": 3.329999344378734e-05,
      "loss": 3.2409,
      "step": 376640
    },
    {
      "epoch": 0.7846875,
      "grad_norm": 0.8605844378471375,
      "learning_rate": 3.329379991886568e-05,
      "loss": 3.1544,
      "step": 376650
    },
    {
      "epoch": 0.7847083333333333,
      "grad_norm": 0.8080527782440186,
      "learning_rate": 3.3287606898068606e-05,
      "loss": 3.3367,
      "step": 376660
    },
    {
      "epoch": 0.7847291666666667,
      "grad_norm": 0.8789772391319275,
      "learning_rate": 3.3281414381422874e-05,
      "loss": 3.2915,
      "step": 376670
    },
    {
      "epoch": 0.78475,
      "grad_norm": 0.9082563519477844,
      "learning_rate": 3.327522236895523e-05,
      "loss": 3.388,
      "step": 376680
    },
    {
      "epoch": 0.7847708333333333,
      "grad_norm": 0.856020987033844,
      "learning_rate": 3.326903086069244e-05,
      "loss": 3.4605,
      "step": 376690
    },
    {
      "epoch": 0.7847916666666667,
      "grad_norm": 0.988176167011261,
      "learning_rate": 3.3262839856661214e-05,
      "loss": 3.3411,
      "step": 376700
    },
    {
      "epoch": 0.7848125,
      "grad_norm": 0.8370632529258728,
      "learning_rate": 3.3256649356888317e-05,
      "loss": 3.4488,
      "step": 376710
    },
    {
      "epoch": 0.7848333333333334,
      "grad_norm": 0.8655804991722107,
      "learning_rate": 3.325045936140048e-05,
      "loss": 3.3499,
      "step": 376720
    },
    {
      "epoch": 0.7848541666666666,
      "grad_norm": 0.9607958197593689,
      "learning_rate": 3.324426987022444e-05,
      "loss": 3.3154,
      "step": 376730
    },
    {
      "epoch": 0.784875,
      "grad_norm": 0.9395447969436646,
      "learning_rate": 3.323808088338696e-05,
      "loss": 3.352,
      "step": 376740
    },
    {
      "epoch": 0.7848958333333333,
      "grad_norm": 0.8215152025222778,
      "learning_rate": 3.323189240091474e-05,
      "loss": 3.2742,
      "step": 376750
    },
    {
      "epoch": 0.7849166666666667,
      "grad_norm": 0.909174919128418,
      "learning_rate": 3.322570442283453e-05,
      "loss": 3.3129,
      "step": 376760
    },
    {
      "epoch": 0.7849375,
      "grad_norm": 0.8769930601119995,
      "learning_rate": 3.3219516949173045e-05,
      "loss": 3.3268,
      "step": 376770
    },
    {
      "epoch": 0.7849583333333333,
      "grad_norm": 1.1312545537948608,
      "learning_rate": 3.3213329979957064e-05,
      "loss": 3.4119,
      "step": 376780
    },
    {
      "epoch": 0.7849791666666667,
      "grad_norm": 0.8744381070137024,
      "learning_rate": 3.32071435152132e-05,
      "loss": 3.3579,
      "step": 376790
    },
    {
      "epoch": 0.785,
      "grad_norm": 0.9479495286941528,
      "learning_rate": 3.320095755496829e-05,
      "loss": 3.2655,
      "step": 376800
    },
    {
      "epoch": 0.7850208333333333,
      "grad_norm": 0.8318783044815063,
      "learning_rate": 3.319477209924903e-05,
      "loss": 3.4598,
      "step": 376810
    },
    {
      "epoch": 0.7850416666666666,
      "grad_norm": 0.8637651801109314,
      "learning_rate": 3.318858714808205e-05,
      "loss": 3.4632,
      "step": 376820
    },
    {
      "epoch": 0.7850625,
      "grad_norm": 0.8609851598739624,
      "learning_rate": 3.318240270149419e-05,
      "loss": 3.414,
      "step": 376830
    },
    {
      "epoch": 0.7850833333333334,
      "grad_norm": 0.8871070146560669,
      "learning_rate": 3.3176218759512135e-05,
      "loss": 3.312,
      "step": 376840
    },
    {
      "epoch": 0.7851041666666667,
      "grad_norm": 1.0733286142349243,
      "learning_rate": 3.3170035322162536e-05,
      "loss": 3.3177,
      "step": 376850
    },
    {
      "epoch": 0.785125,
      "grad_norm": 0.9128185510635376,
      "learning_rate": 3.31638523894721e-05,
      "loss": 3.2345,
      "step": 376860
    },
    {
      "epoch": 0.7851458333333333,
      "grad_norm": 1.0448336601257324,
      "learning_rate": 3.3157669961467645e-05,
      "loss": 3.3439,
      "step": 376870
    },
    {
      "epoch": 0.7851666666666667,
      "grad_norm": 0.9785577058792114,
      "learning_rate": 3.315148803817579e-05,
      "loss": 3.2652,
      "step": 376880
    },
    {
      "epoch": 0.7851875,
      "grad_norm": 0.9210954308509827,
      "learning_rate": 3.314530661962319e-05,
      "loss": 3.3116,
      "step": 376890
    },
    {
      "epoch": 0.7852083333333333,
      "grad_norm": 0.9268015027046204,
      "learning_rate": 3.313912570583671e-05,
      "loss": 3.2965,
      "step": 376900
    },
    {
      "epoch": 0.7852291666666666,
      "grad_norm": 0.8846473693847656,
      "learning_rate": 3.313294529684289e-05,
      "loss": 3.3005,
      "step": 376910
    },
    {
      "epoch": 0.78525,
      "grad_norm": 0.8080375790596008,
      "learning_rate": 3.3126765392668496e-05,
      "loss": 3.3498,
      "step": 376920
    },
    {
      "epoch": 0.7852708333333334,
      "grad_norm": 0.8713789582252502,
      "learning_rate": 3.312058599334023e-05,
      "loss": 3.3163,
      "step": 376930
    },
    {
      "epoch": 0.7852916666666667,
      "grad_norm": 0.9960646629333496,
      "learning_rate": 3.311440709888474e-05,
      "loss": 3.4021,
      "step": 376940
    },
    {
      "epoch": 0.7853125,
      "grad_norm": 0.8547959327697754,
      "learning_rate": 3.3108228709328774e-05,
      "loss": 3.3114,
      "step": 376950
    },
    {
      "epoch": 0.7853333333333333,
      "grad_norm": 0.9082820415496826,
      "learning_rate": 3.310205082469898e-05,
      "loss": 3.3318,
      "step": 376960
    },
    {
      "epoch": 0.7853541666666667,
      "grad_norm": 0.8396362066268921,
      "learning_rate": 3.309587344502204e-05,
      "loss": 3.2564,
      "step": 376970
    },
    {
      "epoch": 0.785375,
      "grad_norm": 0.9723539352416992,
      "learning_rate": 3.308969657032466e-05,
      "loss": 3.259,
      "step": 376980
    },
    {
      "epoch": 0.7853958333333333,
      "grad_norm": 0.8941466808319092,
      "learning_rate": 3.308352020063352e-05,
      "loss": 3.2742,
      "step": 376990
    },
    {
      "epoch": 0.7854166666666667,
      "grad_norm": 0.8808169364929199,
      "learning_rate": 3.3077344335975296e-05,
      "loss": 3.3729,
      "step": 377000
    },
    {
      "epoch": 0.7854166666666667,
      "eval_loss": 4.03847599029541,
      "eval_runtime": 9.0702,
      "eval_samples_per_second": 1.103,
      "eval_steps_per_second": 0.331,
      "step": 377000
    },
    {
      "epoch": 0.7854375,
      "grad_norm": 0.8542200922966003,
      "learning_rate": 3.307116897637667e-05,
      "loss": 3.3125,
      "step": 377010
    },
    {
      "epoch": 0.7854583333333334,
      "grad_norm": 0.8785768151283264,
      "learning_rate": 3.306499412186431e-05,
      "loss": 3.2642,
      "step": 377020
    },
    {
      "epoch": 0.7854791666666666,
      "grad_norm": 0.9331868290901184,
      "learning_rate": 3.305881977246487e-05,
      "loss": 3.3608,
      "step": 377030
    },
    {
      "epoch": 0.7855,
      "grad_norm": 0.8390635251998901,
      "learning_rate": 3.3052645928205056e-05,
      "loss": 3.3387,
      "step": 377040
    },
    {
      "epoch": 0.7855208333333333,
      "grad_norm": 0.8392810225486755,
      "learning_rate": 3.30464725891115e-05,
      "loss": 3.4077,
      "step": 377050
    },
    {
      "epoch": 0.7855416666666667,
      "grad_norm": 0.9023561477661133,
      "learning_rate": 3.304029975521091e-05,
      "loss": 3.3175,
      "step": 377060
    },
    {
      "epoch": 0.7855625,
      "grad_norm": 0.8882525563240051,
      "learning_rate": 3.303412742652993e-05,
      "loss": 3.4742,
      "step": 377070
    },
    {
      "epoch": 0.7855833333333333,
      "grad_norm": 0.8747994899749756,
      "learning_rate": 3.302795560309521e-05,
      "loss": 3.3368,
      "step": 377080
    },
    {
      "epoch": 0.7856041666666667,
      "grad_norm": 0.8964638113975525,
      "learning_rate": 3.3021784284933426e-05,
      "loss": 3.4182,
      "step": 377090
    },
    {
      "epoch": 0.785625,
      "grad_norm": 0.8385031819343567,
      "learning_rate": 3.301561347207123e-05,
      "loss": 3.3243,
      "step": 377100
    },
    {
      "epoch": 0.7856458333333334,
      "grad_norm": 0.9107255339622498,
      "learning_rate": 3.300944316453529e-05,
      "loss": 3.3644,
      "step": 377110
    },
    {
      "epoch": 0.7856666666666666,
      "grad_norm": 0.8821355104446411,
      "learning_rate": 3.3003273362352234e-05,
      "loss": 3.3787,
      "step": 377120
    },
    {
      "epoch": 0.7856875,
      "grad_norm": 0.9799929261207581,
      "learning_rate": 3.299710406554877e-05,
      "loss": 3.3693,
      "step": 377130
    },
    {
      "epoch": 0.7857083333333333,
      "grad_norm": 0.8498144745826721,
      "learning_rate": 3.299093527415142e-05,
      "loss": 3.3484,
      "step": 377140
    },
    {
      "epoch": 0.7857291666666667,
      "grad_norm": 0.8656516075134277,
      "learning_rate": 3.298476698818695e-05,
      "loss": 3.2673,
      "step": 377150
    },
    {
      "epoch": 0.78575,
      "grad_norm": 0.8909241557121277,
      "learning_rate": 3.297859920768202e-05,
      "loss": 3.286,
      "step": 377160
    },
    {
      "epoch": 0.7857708333333333,
      "grad_norm": 0.8863858580589294,
      "learning_rate": 3.297243193266313e-05,
      "loss": 3.4032,
      "step": 377170
    },
    {
      "epoch": 0.7857916666666667,
      "grad_norm": 0.9125526547431946,
      "learning_rate": 3.29662651631571e-05,
      "loss": 3.4529,
      "step": 377180
    },
    {
      "epoch": 0.7858125,
      "grad_norm": 0.9360781908035278,
      "learning_rate": 3.2960098899190435e-05,
      "loss": 3.3811,
      "step": 377190
    },
    {
      "epoch": 0.7858333333333334,
      "grad_norm": 0.8061190247535706,
      "learning_rate": 3.295393314078977e-05,
      "loss": 3.2869,
      "step": 377200
    },
    {
      "epoch": 0.7858541666666666,
      "grad_norm": 0.9329378604888916,
      "learning_rate": 3.294776788798188e-05,
      "loss": 3.1568,
      "step": 377210
    },
    {
      "epoch": 0.785875,
      "grad_norm": 0.844796359539032,
      "learning_rate": 3.294160314079325e-05,
      "loss": 3.3047,
      "step": 377220
    },
    {
      "epoch": 0.7858958333333333,
      "grad_norm": 0.8680160045623779,
      "learning_rate": 3.293543889925053e-05,
      "loss": 3.3418,
      "step": 377230
    },
    {
      "epoch": 0.7859166666666667,
      "grad_norm": 0.9579682946205139,
      "learning_rate": 3.292927516338044e-05,
      "loss": 3.3249,
      "step": 377240
    },
    {
      "epoch": 0.7859375,
      "grad_norm": 0.8124287128448486,
      "learning_rate": 3.29231119332095e-05,
      "loss": 3.3764,
      "step": 377250
    },
    {
      "epoch": 0.7859583333333333,
      "grad_norm": 1.138065218925476,
      "learning_rate": 3.2916949208764345e-05,
      "loss": 3.4699,
      "step": 377260
    },
    {
      "epoch": 0.7859791666666667,
      "grad_norm": 0.9518648982048035,
      "learning_rate": 3.291078699007171e-05,
      "loss": 3.4499,
      "step": 377270
    },
    {
      "epoch": 0.786,
      "grad_norm": 0.8300476670265198,
      "learning_rate": 3.290462527715808e-05,
      "loss": 3.2311,
      "step": 377280
    },
    {
      "epoch": 0.7860208333333333,
      "grad_norm": 0.8380083441734314,
      "learning_rate": 3.289846407005008e-05,
      "loss": 3.3437,
      "step": 377290
    },
    {
      "epoch": 0.7860416666666666,
      "grad_norm": 0.8588550686836243,
      "learning_rate": 3.2892303368774433e-05,
      "loss": 3.2661,
      "step": 377300
    },
    {
      "epoch": 0.7860625,
      "grad_norm": 0.9580632448196411,
      "learning_rate": 3.288614317335767e-05,
      "loss": 3.3011,
      "step": 377310
    },
    {
      "epoch": 0.7860833333333334,
      "grad_norm": 0.8209438323974609,
      "learning_rate": 3.2879983483826375e-05,
      "loss": 3.4367,
      "step": 377320
    },
    {
      "epoch": 0.7861041666666667,
      "grad_norm": 0.9010940194129944,
      "learning_rate": 3.2873824300207215e-05,
      "loss": 3.3815,
      "step": 377330
    },
    {
      "epoch": 0.786125,
      "grad_norm": 0.9441757798194885,
      "learning_rate": 3.2867665622526764e-05,
      "loss": 3.4042,
      "step": 377340
    },
    {
      "epoch": 0.7861458333333333,
      "grad_norm": 0.7717239856719971,
      "learning_rate": 3.286150745081164e-05,
      "loss": 3.4131,
      "step": 377350
    },
    {
      "epoch": 0.7861666666666667,
      "grad_norm": 0.9051088690757751,
      "learning_rate": 3.2855349785088436e-05,
      "loss": 3.3704,
      "step": 377360
    },
    {
      "epoch": 0.7861875,
      "grad_norm": 0.9079006910324097,
      "learning_rate": 3.2849192625383746e-05,
      "loss": 3.2101,
      "step": 377370
    },
    {
      "epoch": 0.7862083333333333,
      "grad_norm": 0.9337062835693359,
      "learning_rate": 3.284303597172418e-05,
      "loss": 3.2579,
      "step": 377380
    },
    {
      "epoch": 0.7862291666666666,
      "grad_norm": 0.919550359249115,
      "learning_rate": 3.283687982413631e-05,
      "loss": 3.3112,
      "step": 377390
    },
    {
      "epoch": 0.78625,
      "grad_norm": 0.8621154427528381,
      "learning_rate": 3.283072418264676e-05,
      "loss": 3.2768,
      "step": 377400
    },
    {
      "epoch": 0.7862708333333334,
      "grad_norm": 0.9321529865264893,
      "learning_rate": 3.2824569047282103e-05,
      "loss": 3.3018,
      "step": 377410
    },
    {
      "epoch": 0.7862916666666667,
      "grad_norm": 0.8458979725837708,
      "learning_rate": 3.281841441806891e-05,
      "loss": 3.2715,
      "step": 377420
    },
    {
      "epoch": 0.7863125,
      "grad_norm": 1.0031177997589111,
      "learning_rate": 3.281226029503379e-05,
      "loss": 3.3708,
      "step": 377430
    },
    {
      "epoch": 0.7863333333333333,
      "grad_norm": 0.8551066517829895,
      "learning_rate": 3.280610667820338e-05,
      "loss": 3.2389,
      "step": 377440
    },
    {
      "epoch": 0.7863541666666667,
      "grad_norm": 0.8479070067405701,
      "learning_rate": 3.2799953567604085e-05,
      "loss": 3.2645,
      "step": 377450
    },
    {
      "epoch": 0.786375,
      "grad_norm": 0.8686822056770325,
      "learning_rate": 3.279380096326267e-05,
      "loss": 3.4133,
      "step": 377460
    },
    {
      "epoch": 0.7863958333333333,
      "grad_norm": 0.8640609979629517,
      "learning_rate": 3.278764886520566e-05,
      "loss": 3.3356,
      "step": 377470
    },
    {
      "epoch": 0.7864166666666667,
      "grad_norm": 0.9474158883094788,
      "learning_rate": 3.2781497273459535e-05,
      "loss": 3.3606,
      "step": 377480
    },
    {
      "epoch": 0.7864375,
      "grad_norm": 0.9249229431152344,
      "learning_rate": 3.2775346188050994e-05,
      "loss": 3.3769,
      "step": 377490
    },
    {
      "epoch": 0.7864583333333334,
      "grad_norm": 0.8870105743408203,
      "learning_rate": 3.276919560900659e-05,
      "loss": 3.2189,
      "step": 377500
    },
    {
      "epoch": 0.7864791666666666,
      "grad_norm": 0.8744876980781555,
      "learning_rate": 3.2763045536352776e-05,
      "loss": 3.395,
      "step": 377510
    },
    {
      "epoch": 0.7865,
      "grad_norm": 0.873203456401825,
      "learning_rate": 3.2756895970116244e-05,
      "loss": 3.2959,
      "step": 377520
    },
    {
      "epoch": 0.7865208333333333,
      "grad_norm": 0.8605070114135742,
      "learning_rate": 3.2750746910323544e-05,
      "loss": 3.4358,
      "step": 377530
    },
    {
      "epoch": 0.7865416666666667,
      "grad_norm": 0.8530778288841248,
      "learning_rate": 3.2744598357001144e-05,
      "loss": 3.3368,
      "step": 377540
    },
    {
      "epoch": 0.7865625,
      "grad_norm": 0.8657981157302856,
      "learning_rate": 3.273845031017572e-05,
      "loss": 3.2503,
      "step": 377550
    },
    {
      "epoch": 0.7865833333333333,
      "grad_norm": 0.8904032111167908,
      "learning_rate": 3.273230276987376e-05,
      "loss": 3.2513,
      "step": 377560
    },
    {
      "epoch": 0.7866041666666667,
      "grad_norm": 0.9668551087379456,
      "learning_rate": 3.27261557361218e-05,
      "loss": 3.4138,
      "step": 377570
    },
    {
      "epoch": 0.786625,
      "grad_norm": 0.928852379322052,
      "learning_rate": 3.272000920894648e-05,
      "loss": 3.2216,
      "step": 377580
    },
    {
      "epoch": 0.7866458333333334,
      "grad_norm": 0.8663166165351868,
      "learning_rate": 3.271386318837427e-05,
      "loss": 3.3941,
      "step": 377590
    },
    {
      "epoch": 0.7866666666666666,
      "grad_norm": 0.8347338438034058,
      "learning_rate": 3.270771767443171e-05,
      "loss": 3.2769,
      "step": 377600
    },
    {
      "epoch": 0.7866875,
      "grad_norm": 0.8065637946128845,
      "learning_rate": 3.270157266714545e-05,
      "loss": 3.3678,
      "step": 377610
    },
    {
      "epoch": 0.7867083333333333,
      "grad_norm": 0.8480662107467651,
      "learning_rate": 3.2695428166541946e-05,
      "loss": 3.435,
      "step": 377620
    },
    {
      "epoch": 0.7867291666666667,
      "grad_norm": 0.9543075561523438,
      "learning_rate": 3.26892841726477e-05,
      "loss": 3.3801,
      "step": 377630
    },
    {
      "epoch": 0.78675,
      "grad_norm": 0.9812402129173279,
      "learning_rate": 3.268314068548941e-05,
      "loss": 3.282,
      "step": 377640
    },
    {
      "epoch": 0.7867708333333333,
      "grad_norm": 0.9249303340911865,
      "learning_rate": 3.267699770509346e-05,
      "loss": 3.2684,
      "step": 377650
    },
    {
      "epoch": 0.7867916666666667,
      "grad_norm": 0.8311087489128113,
      "learning_rate": 3.267085523148641e-05,
      "loss": 3.3595,
      "step": 377660
    },
    {
      "epoch": 0.7868125,
      "grad_norm": 0.9366816878318787,
      "learning_rate": 3.26647132646949e-05,
      "loss": 3.3142,
      "step": 377670
    },
    {
      "epoch": 0.7868333333333334,
      "grad_norm": 0.9786457419395447,
      "learning_rate": 3.2658571804745336e-05,
      "loss": 3.3516,
      "step": 377680
    },
    {
      "epoch": 0.7868541666666666,
      "grad_norm": 0.8653003573417664,
      "learning_rate": 3.265243085166431e-05,
      "loss": 3.3036,
      "step": 377690
    },
    {
      "epoch": 0.786875,
      "grad_norm": 0.8616918921470642,
      "learning_rate": 3.264629040547832e-05,
      "loss": 3.3378,
      "step": 377700
    },
    {
      "epoch": 0.7868958333333333,
      "grad_norm": 0.9375929236412048,
      "learning_rate": 3.26401504662139e-05,
      "loss": 3.3291,
      "step": 377710
    },
    {
      "epoch": 0.7869166666666667,
      "grad_norm": 0.8822099566459656,
      "learning_rate": 3.263401103389759e-05,
      "loss": 3.2734,
      "step": 377720
    },
    {
      "epoch": 0.7869375,
      "grad_norm": 0.9210125207901001,
      "learning_rate": 3.262787210855589e-05,
      "loss": 3.2867,
      "step": 377730
    },
    {
      "epoch": 0.7869583333333333,
      "grad_norm": 0.9065588116645813,
      "learning_rate": 3.2621733690215324e-05,
      "loss": 3.1608,
      "step": 377740
    },
    {
      "epoch": 0.7869791666666667,
      "grad_norm": 1.0041173696517944,
      "learning_rate": 3.2615595778902414e-05,
      "loss": 3.3676,
      "step": 377750
    },
    {
      "epoch": 0.787,
      "grad_norm": 0.9892662167549133,
      "learning_rate": 3.2609458374643654e-05,
      "loss": 3.3257,
      "step": 377760
    },
    {
      "epoch": 0.7870208333333333,
      "grad_norm": 0.9022275805473328,
      "learning_rate": 3.260332147746557e-05,
      "loss": 3.3994,
      "step": 377770
    },
    {
      "epoch": 0.7870416666666666,
      "grad_norm": 0.9382002949714661,
      "learning_rate": 3.259718508739471e-05,
      "loss": 3.3209,
      "step": 377780
    },
    {
      "epoch": 0.7870625,
      "grad_norm": 2.4836764335632324,
      "learning_rate": 3.259104920445745e-05,
      "loss": 3.4197,
      "step": 377790
    },
    {
      "epoch": 0.7870833333333334,
      "grad_norm": 0.9361124634742737,
      "learning_rate": 3.258491382868044e-05,
      "loss": 3.2502,
      "step": 377800
    },
    {
      "epoch": 0.7871041666666667,
      "grad_norm": 1.0184199810028076,
      "learning_rate": 3.2578778960090155e-05,
      "loss": 3.4841,
      "step": 377810
    },
    {
      "epoch": 0.787125,
      "grad_norm": 0.8641437292098999,
      "learning_rate": 3.2572644598712995e-05,
      "loss": 3.411,
      "step": 377820
    },
    {
      "epoch": 0.7871458333333333,
      "grad_norm": 0.8729375600814819,
      "learning_rate": 3.2566510744575565e-05,
      "loss": 3.2638,
      "step": 377830
    },
    {
      "epoch": 0.7871666666666667,
      "grad_norm": 1.0492125749588013,
      "learning_rate": 3.256037739770436e-05,
      "loss": 3.3227,
      "step": 377840
    },
    {
      "epoch": 0.7871875,
      "grad_norm": 0.9067908525466919,
      "learning_rate": 3.255424455812577e-05,
      "loss": 3.3042,
      "step": 377850
    },
    {
      "epoch": 0.7872083333333333,
      "grad_norm": 0.9059942364692688,
      "learning_rate": 3.25481122258664e-05,
      "loss": 3.3415,
      "step": 377860
    },
    {
      "epoch": 0.7872291666666666,
      "grad_norm": 0.9254323840141296,
      "learning_rate": 3.254198040095272e-05,
      "loss": 3.3603,
      "step": 377870
    },
    {
      "epoch": 0.78725,
      "grad_norm": 0.8626158833503723,
      "learning_rate": 3.253584908341111e-05,
      "loss": 3.2756,
      "step": 377880
    },
    {
      "epoch": 0.7872708333333334,
      "grad_norm": 0.9102095365524292,
      "learning_rate": 3.252971827326819e-05,
      "loss": 3.3381,
      "step": 377890
    },
    {
      "epoch": 0.7872916666666666,
      "grad_norm": 0.7901182174682617,
      "learning_rate": 3.2523587970550415e-05,
      "loss": 3.4184,
      "step": 377900
    },
    {
      "epoch": 0.7873125,
      "grad_norm": 0.8090059161186218,
      "learning_rate": 3.251745817528417e-05,
      "loss": 3.2497,
      "step": 377910
    },
    {
      "epoch": 0.7873333333333333,
      "grad_norm": 0.8973488807678223,
      "learning_rate": 3.2511328887496075e-05,
      "loss": 3.2712,
      "step": 377920
    },
    {
      "epoch": 0.7873541666666667,
      "grad_norm": 0.940294086933136,
      "learning_rate": 3.25052001072125e-05,
      "loss": 3.34,
      "step": 377930
    },
    {
      "epoch": 0.787375,
      "grad_norm": 0.8158882856369019,
      "learning_rate": 3.2499071834459905e-05,
      "loss": 3.3723,
      "step": 377940
    },
    {
      "epoch": 0.7873958333333333,
      "grad_norm": 0.9015915393829346,
      "learning_rate": 3.2492944069264895e-05,
      "loss": 3.2803,
      "step": 377950
    },
    {
      "epoch": 0.7874166666666667,
      "grad_norm": 0.860320508480072,
      "learning_rate": 3.2486816811653824e-05,
      "loss": 3.2861,
      "step": 377960
    },
    {
      "epoch": 0.7874375,
      "grad_norm": 1.0203750133514404,
      "learning_rate": 3.248069006165314e-05,
      "loss": 3.2939,
      "step": 377970
    },
    {
      "epoch": 0.7874583333333334,
      "grad_norm": 0.9052842855453491,
      "learning_rate": 3.2474563819289435e-05,
      "loss": 3.4032,
      "step": 377980
    },
    {
      "epoch": 0.7874791666666666,
      "grad_norm": 0.899200975894928,
      "learning_rate": 3.2468438084589047e-05,
      "loss": 3.3256,
      "step": 377990
    },
    {
      "epoch": 0.7875,
      "grad_norm": 0.926403820514679,
      "learning_rate": 3.246231285757846e-05,
      "loss": 3.2543,
      "step": 378000
    },
    {
      "epoch": 0.7875,
      "eval_loss": 4.042950630187988,
      "eval_runtime": 8.4049,
      "eval_samples_per_second": 1.19,
      "eval_steps_per_second": 0.357,
      "step": 378000
    },
    {
      "epoch": 0.7875208333333333,
      "grad_norm": 0.8557559251785278,
      "learning_rate": 3.245618813828423e-05,
      "loss": 3.3242,
      "step": 378010
    },
    {
      "epoch": 0.7875416666666667,
      "grad_norm": 1.1656183004379272,
      "learning_rate": 3.245006392673269e-05,
      "loss": 3.307,
      "step": 378020
    },
    {
      "epoch": 0.7875625,
      "grad_norm": 0.8729556202888489,
      "learning_rate": 3.2443940222950373e-05,
      "loss": 3.2097,
      "step": 378030
    },
    {
      "epoch": 0.7875833333333333,
      "grad_norm": 0.8726375102996826,
      "learning_rate": 3.243781702696367e-05,
      "loss": 3.3648,
      "step": 378040
    },
    {
      "epoch": 0.7876041666666667,
      "grad_norm": 0.8938488960266113,
      "learning_rate": 3.2431694338799084e-05,
      "loss": 3.3757,
      "step": 378050
    },
    {
      "epoch": 0.787625,
      "grad_norm": 0.8353742957115173,
      "learning_rate": 3.242557215848303e-05,
      "loss": 3.3859,
      "step": 378060
    },
    {
      "epoch": 0.7876458333333334,
      "grad_norm": 0.9201101660728455,
      "learning_rate": 3.241945048604197e-05,
      "loss": 3.2672,
      "step": 378070
    },
    {
      "epoch": 0.7876666666666666,
      "grad_norm": 0.8219869136810303,
      "learning_rate": 3.241332932150235e-05,
      "loss": 3.3615,
      "step": 378080
    },
    {
      "epoch": 0.7876875,
      "grad_norm": 0.8869211077690125,
      "learning_rate": 3.2407208664890586e-05,
      "loss": 3.3389,
      "step": 378090
    },
    {
      "epoch": 0.7877083333333333,
      "grad_norm": 0.8663275241851807,
      "learning_rate": 3.2401088516233145e-05,
      "loss": 3.2523,
      "step": 378100
    },
    {
      "epoch": 0.7877291666666667,
      "grad_norm": 1.02419114112854,
      "learning_rate": 3.239496887555645e-05,
      "loss": 3.3955,
      "step": 378110
    },
    {
      "epoch": 0.78775,
      "grad_norm": 0.9045742154121399,
      "learning_rate": 3.238884974288695e-05,
      "loss": 3.3971,
      "step": 378120
    },
    {
      "epoch": 0.7877708333333333,
      "grad_norm": 0.8375924229621887,
      "learning_rate": 3.2382731118251047e-05,
      "loss": 3.3776,
      "step": 378130
    },
    {
      "epoch": 0.7877916666666667,
      "grad_norm": 0.8679510951042175,
      "learning_rate": 3.237661300167521e-05,
      "loss": 3.3371,
      "step": 378140
    },
    {
      "epoch": 0.7878125,
      "grad_norm": 0.9585225582122803,
      "learning_rate": 3.237049539318582e-05,
      "loss": 3.3301,
      "step": 378150
    },
    {
      "epoch": 0.7878333333333334,
      "grad_norm": 0.9490764737129211,
      "learning_rate": 3.2364378292809354e-05,
      "loss": 3.3614,
      "step": 378160
    },
    {
      "epoch": 0.7878541666666666,
      "grad_norm": 0.8544155955314636,
      "learning_rate": 3.2358261700572194e-05,
      "loss": 3.3101,
      "step": 378170
    },
    {
      "epoch": 0.787875,
      "grad_norm": 1.0479475259780884,
      "learning_rate": 3.2352145616500816e-05,
      "loss": 3.3435,
      "step": 378180
    },
    {
      "epoch": 0.7878958333333334,
      "grad_norm": 0.9896951913833618,
      "learning_rate": 3.234603004062153e-05,
      "loss": 3.3978,
      "step": 378190
    },
    {
      "epoch": 0.7879166666666667,
      "grad_norm": 0.8433221578598022,
      "learning_rate": 3.233991497296087e-05,
      "loss": 3.4411,
      "step": 378200
    },
    {
      "epoch": 0.7879375,
      "grad_norm": 0.9715758562088013,
      "learning_rate": 3.233380041354523e-05,
      "loss": 3.4112,
      "step": 378210
    },
    {
      "epoch": 0.7879583333333333,
      "grad_norm": 0.8745245337486267,
      "learning_rate": 3.2327686362400926e-05,
      "loss": 3.2937,
      "step": 378220
    },
    {
      "epoch": 0.7879791666666667,
      "grad_norm": 0.8831661939620972,
      "learning_rate": 3.232157281955446e-05,
      "loss": 3.4377,
      "step": 378230
    },
    {
      "epoch": 0.788,
      "grad_norm": 0.9494060277938843,
      "learning_rate": 3.2315459785032284e-05,
      "loss": 3.2743,
      "step": 378240
    },
    {
      "epoch": 0.7880208333333333,
      "grad_norm": 0.8046063780784607,
      "learning_rate": 3.230934725886065e-05,
      "loss": 3.243,
      "step": 378250
    },
    {
      "epoch": 0.7880416666666666,
      "grad_norm": 0.8368496298789978,
      "learning_rate": 3.230323524106608e-05,
      "loss": 3.2937,
      "step": 378260
    },
    {
      "epoch": 0.7880625,
      "grad_norm": 0.8934082984924316,
      "learning_rate": 3.2297123731675004e-05,
      "loss": 3.4195,
      "step": 378270
    },
    {
      "epoch": 0.7880833333333334,
      "grad_norm": 0.8981136679649353,
      "learning_rate": 3.229101273071368e-05,
      "loss": 3.3958,
      "step": 378280
    },
    {
      "epoch": 0.7881041666666667,
      "grad_norm": 0.925786018371582,
      "learning_rate": 3.228490223820866e-05,
      "loss": 3.2782,
      "step": 378290
    },
    {
      "epoch": 0.788125,
      "grad_norm": 0.9619622826576233,
      "learning_rate": 3.227879225418623e-05,
      "loss": 3.2991,
      "step": 378300
    },
    {
      "epoch": 0.7881458333333333,
      "grad_norm": 0.8626057505607605,
      "learning_rate": 3.227268277867282e-05,
      "loss": 3.4024,
      "step": 378310
    },
    {
      "epoch": 0.7881666666666667,
      "grad_norm": 0.8386918306350708,
      "learning_rate": 3.226657381169482e-05,
      "loss": 3.3319,
      "step": 378320
    },
    {
      "epoch": 0.7881875,
      "grad_norm": 0.909111738204956,
      "learning_rate": 3.226046535327862e-05,
      "loss": 3.2566,
      "step": 378330
    },
    {
      "epoch": 0.7882083333333333,
      "grad_norm": 0.8738250732421875,
      "learning_rate": 3.225435740345062e-05,
      "loss": 3.4265,
      "step": 378340
    },
    {
      "epoch": 0.7882291666666666,
      "grad_norm": 0.8637151122093201,
      "learning_rate": 3.2248249962237175e-05,
      "loss": 3.2679,
      "step": 378350
    },
    {
      "epoch": 0.78825,
      "grad_norm": 0.9631436467170715,
      "learning_rate": 3.224214302966467e-05,
      "loss": 3.2886,
      "step": 378360
    },
    {
      "epoch": 0.7882708333333334,
      "grad_norm": 0.8828825354576111,
      "learning_rate": 3.223603660575951e-05,
      "loss": 3.3955,
      "step": 378370
    },
    {
      "epoch": 0.7882916666666666,
      "grad_norm": 0.8650528192520142,
      "learning_rate": 3.222993069054805e-05,
      "loss": 3.3246,
      "step": 378380
    },
    {
      "epoch": 0.7883125,
      "grad_norm": 0.8959025144577026,
      "learning_rate": 3.2223825284056676e-05,
      "loss": 3.3886,
      "step": 378390
    },
    {
      "epoch": 0.7883333333333333,
      "grad_norm": 0.930677592754364,
      "learning_rate": 3.221772038631176e-05,
      "loss": 3.3732,
      "step": 378400
    },
    {
      "epoch": 0.7883541666666667,
      "grad_norm": 0.9242509007453918,
      "learning_rate": 3.221161599733967e-05,
      "loss": 3.2585,
      "step": 378410
    },
    {
      "epoch": 0.788375,
      "grad_norm": 0.9315126538276672,
      "learning_rate": 3.220551211716677e-05,
      "loss": 3.3256,
      "step": 378420
    },
    {
      "epoch": 0.7883958333333333,
      "grad_norm": 0.8793628215789795,
      "learning_rate": 3.2199408745819446e-05,
      "loss": 3.3424,
      "step": 378430
    },
    {
      "epoch": 0.7884166666666667,
      "grad_norm": 0.9976384043693542,
      "learning_rate": 3.2193305883324036e-05,
      "loss": 3.3621,
      "step": 378440
    },
    {
      "epoch": 0.7884375,
      "grad_norm": 0.9551618695259094,
      "learning_rate": 3.218720352970692e-05,
      "loss": 3.273,
      "step": 378450
    },
    {
      "epoch": 0.7884583333333334,
      "grad_norm": 0.9133650064468384,
      "learning_rate": 3.218110168499443e-05,
      "loss": 3.3742,
      "step": 378460
    },
    {
      "epoch": 0.7884791666666666,
      "grad_norm": 0.9643139839172363,
      "learning_rate": 3.217500034921296e-05,
      "loss": 3.2569,
      "step": 378470
    },
    {
      "epoch": 0.7885,
      "grad_norm": 0.8193152546882629,
      "learning_rate": 3.216889952238886e-05,
      "loss": 3.3562,
      "step": 378480
    },
    {
      "epoch": 0.7885208333333333,
      "grad_norm": 0.9072964787483215,
      "learning_rate": 3.2162799204548455e-05,
      "loss": 3.258,
      "step": 378490
    },
    {
      "epoch": 0.7885416666666667,
      "grad_norm": 0.8777496218681335,
      "learning_rate": 3.2156699395718134e-05,
      "loss": 3.3334,
      "step": 378500
    },
    {
      "epoch": 0.7885625,
      "grad_norm": 0.9322200417518616,
      "learning_rate": 3.215060009592421e-05,
      "loss": 3.3502,
      "step": 378510
    },
    {
      "epoch": 0.7885833333333333,
      "grad_norm": 0.8120706081390381,
      "learning_rate": 3.214450130519305e-05,
      "loss": 3.3435,
      "step": 378520
    },
    {
      "epoch": 0.7886041666666667,
      "grad_norm": 0.9279118776321411,
      "learning_rate": 3.213840302355099e-05,
      "loss": 3.3465,
      "step": 378530
    },
    {
      "epoch": 0.788625,
      "grad_norm": 0.8428627848625183,
      "learning_rate": 3.213230525102439e-05,
      "loss": 3.2981,
      "step": 378540
    },
    {
      "epoch": 0.7886458333333334,
      "grad_norm": 0.8468567132949829,
      "learning_rate": 3.212620798763961e-05,
      "loss": 3.3738,
      "step": 378550
    },
    {
      "epoch": 0.7886666666666666,
      "grad_norm": 0.8765419721603394,
      "learning_rate": 3.212011123342286e-05,
      "loss": 3.2069,
      "step": 378560
    },
    {
      "epoch": 0.7886875,
      "grad_norm": 0.917965829372406,
      "learning_rate": 3.211401498840062e-05,
      "loss": 3.4299,
      "step": 378570
    },
    {
      "epoch": 0.7887083333333333,
      "grad_norm": 0.8199813961982727,
      "learning_rate": 3.2107919252599214e-05,
      "loss": 3.3721,
      "step": 378580
    },
    {
      "epoch": 0.7887291666666667,
      "grad_norm": 1.0443401336669922,
      "learning_rate": 3.210182402604485e-05,
      "loss": 3.4444,
      "step": 378590
    },
    {
      "epoch": 0.78875,
      "grad_norm": 1.0743346214294434,
      "learning_rate": 3.209572930876397e-05,
      "loss": 3.2563,
      "step": 378600
    },
    {
      "epoch": 0.7887708333333333,
      "grad_norm": 1.012963891029358,
      "learning_rate": 3.2089635100782935e-05,
      "loss": 3.4931,
      "step": 378610
    },
    {
      "epoch": 0.7887916666666667,
      "grad_norm": 0.8714431524276733,
      "learning_rate": 3.208354140212794e-05,
      "loss": 3.2594,
      "step": 378620
    },
    {
      "epoch": 0.7888125,
      "grad_norm": 0.9633643627166748,
      "learning_rate": 3.2077448212825346e-05,
      "loss": 3.2663,
      "step": 378630
    },
    {
      "epoch": 0.7888333333333334,
      "grad_norm": 0.8117798566818237,
      "learning_rate": 3.207135553290157e-05,
      "loss": 3.3175,
      "step": 378640
    },
    {
      "epoch": 0.7888541666666666,
      "grad_norm": 0.8747854828834534,
      "learning_rate": 3.206526336238282e-05,
      "loss": 3.3165,
      "step": 378650
    },
    {
      "epoch": 0.788875,
      "grad_norm": 0.9320458769798279,
      "learning_rate": 3.2059171701295406e-05,
      "loss": 3.325,
      "step": 378660
    },
    {
      "epoch": 0.7888958333333334,
      "grad_norm": 0.8992320895195007,
      "learning_rate": 3.205308054966577e-05,
      "loss": 3.3772,
      "step": 378670
    },
    {
      "epoch": 0.7889166666666667,
      "grad_norm": 0.9856714010238647,
      "learning_rate": 3.204698990752011e-05,
      "loss": 3.3984,
      "step": 378680
    },
    {
      "epoch": 0.7889375,
      "grad_norm": 0.8543429374694824,
      "learning_rate": 3.204089977488475e-05,
      "loss": 3.3561,
      "step": 378690
    },
    {
      "epoch": 0.7889583333333333,
      "grad_norm": 0.7792396545410156,
      "learning_rate": 3.2034810151786015e-05,
      "loss": 3.2646,
      "step": 378700
    },
    {
      "epoch": 0.7889791666666667,
      "grad_norm": 0.8427939414978027,
      "learning_rate": 3.202872103825021e-05,
      "loss": 3.3583,
      "step": 378710
    },
    {
      "epoch": 0.789,
      "grad_norm": 0.902232825756073,
      "learning_rate": 3.202263243430364e-05,
      "loss": 3.3237,
      "step": 378720
    },
    {
      "epoch": 0.7890208333333333,
      "grad_norm": 0.8523547053337097,
      "learning_rate": 3.2016544339972585e-05,
      "loss": 3.3092,
      "step": 378730
    },
    {
      "epoch": 0.7890416666666666,
      "grad_norm": 0.8830748796463013,
      "learning_rate": 3.201045675528336e-05,
      "loss": 3.3011,
      "step": 378740
    },
    {
      "epoch": 0.7890625,
      "grad_norm": 0.8392651081085205,
      "learning_rate": 3.200436968026227e-05,
      "loss": 3.3187,
      "step": 378750
    },
    {
      "epoch": 0.7890833333333334,
      "grad_norm": 0.8762657046318054,
      "learning_rate": 3.199828311493558e-05,
      "loss": 3.3731,
      "step": 378760
    },
    {
      "epoch": 0.7891041666666667,
      "grad_norm": 0.8844990134239197,
      "learning_rate": 3.1992197059329623e-05,
      "loss": 3.369,
      "step": 378770
    },
    {
      "epoch": 0.789125,
      "grad_norm": 0.9232966899871826,
      "learning_rate": 3.198611151347063e-05,
      "loss": 3.4733,
      "step": 378780
    },
    {
      "epoch": 0.7891458333333333,
      "grad_norm": 0.8350098729133606,
      "learning_rate": 3.198002647738496e-05,
      "loss": 3.3123,
      "step": 378790
    },
    {
      "epoch": 0.7891666666666667,
      "grad_norm": 0.8543351292610168,
      "learning_rate": 3.1973941951098834e-05,
      "loss": 3.4573,
      "step": 378800
    },
    {
      "epoch": 0.7891875,
      "grad_norm": 0.8124474883079529,
      "learning_rate": 3.196785793463857e-05,
      "loss": 3.2109,
      "step": 378810
    },
    {
      "epoch": 0.7892083333333333,
      "grad_norm": 0.8622279167175293,
      "learning_rate": 3.196177442803043e-05,
      "loss": 3.411,
      "step": 378820
    },
    {
      "epoch": 0.7892291666666666,
      "grad_norm": 0.8531672358512878,
      "learning_rate": 3.1955691431300705e-05,
      "loss": 3.4184,
      "step": 378830
    },
    {
      "epoch": 0.78925,
      "grad_norm": 0.9498438239097595,
      "learning_rate": 3.194960894447568e-05,
      "loss": 3.33,
      "step": 378840
    },
    {
      "epoch": 0.7892708333333334,
      "grad_norm": 0.8882364630699158,
      "learning_rate": 3.19435269675816e-05,
      "loss": 3.3318,
      "step": 378850
    },
    {
      "epoch": 0.7892916666666666,
      "grad_norm": 0.8839613199234009,
      "learning_rate": 3.1937445500644766e-05,
      "loss": 3.4015,
      "step": 378860
    },
    {
      "epoch": 0.7893125,
      "grad_norm": 0.8966061472892761,
      "learning_rate": 3.1931364543691433e-05,
      "loss": 3.3683,
      "step": 378870
    },
    {
      "epoch": 0.7893333333333333,
      "grad_norm": 1.0597246885299683,
      "learning_rate": 3.192528409674787e-05,
      "loss": 3.5525,
      "step": 378880
    },
    {
      "epoch": 0.7893541666666667,
      "grad_norm": 0.9626896977424622,
      "learning_rate": 3.191920415984034e-05,
      "loss": 3.2148,
      "step": 378890
    },
    {
      "epoch": 0.789375,
      "grad_norm": 0.896149218082428,
      "learning_rate": 3.191312473299515e-05,
      "loss": 3.328,
      "step": 378900
    },
    {
      "epoch": 0.7893958333333333,
      "grad_norm": 1.0404800176620483,
      "learning_rate": 3.190704581623843e-05,
      "loss": 3.3283,
      "step": 378910
    },
    {
      "epoch": 0.7894166666666667,
      "grad_norm": 0.841973066329956,
      "learning_rate": 3.190096740959663e-05,
      "loss": 3.2467,
      "step": 378920
    },
    {
      "epoch": 0.7894375,
      "grad_norm": 0.9224414229393005,
      "learning_rate": 3.189488951309584e-05,
      "loss": 3.3772,
      "step": 378930
    },
    {
      "epoch": 0.7894583333333334,
      "grad_norm": 0.8439993262290955,
      "learning_rate": 3.188881212676234e-05,
      "loss": 3.2329,
      "step": 378940
    },
    {
      "epoch": 0.7894791666666666,
      "grad_norm": 0.7964159846305847,
      "learning_rate": 3.1882735250622515e-05,
      "loss": 3.2376,
      "step": 378950
    },
    {
      "epoch": 0.7895,
      "grad_norm": 0.9124010801315308,
      "learning_rate": 3.187665888470247e-05,
      "loss": 3.2979,
      "step": 378960
    },
    {
      "epoch": 0.7895208333333333,
      "grad_norm": 1.0689165592193604,
      "learning_rate": 3.1870583029028476e-05,
      "loss": 3.3016,
      "step": 378970
    },
    {
      "epoch": 0.7895416666666667,
      "grad_norm": 0.8297364115715027,
      "learning_rate": 3.186450768362687e-05,
      "loss": 3.3257,
      "step": 378980
    },
    {
      "epoch": 0.7895625,
      "grad_norm": 0.8689629435539246,
      "learning_rate": 3.1858432848523794e-05,
      "loss": 3.2803,
      "step": 378990
    },
    {
      "epoch": 0.7895833333333333,
      "grad_norm": 0.9073655605316162,
      "learning_rate": 3.1852358523745474e-05,
      "loss": 3.3345,
      "step": 379000
    },
    {
      "epoch": 0.7895833333333333,
      "eval_loss": 4.043769836425781,
      "eval_runtime": 8.6877,
      "eval_samples_per_second": 1.151,
      "eval_steps_per_second": 0.345,
      "step": 379000
    },
    {
      "epoch": 0.7896041666666667,
      "grad_norm": 0.8898563981056213,
      "learning_rate": 3.1846284709318295e-05,
      "loss": 3.3033,
      "step": 379010
    },
    {
      "epoch": 0.789625,
      "grad_norm": 0.8503631949424744,
      "learning_rate": 3.1840211405268345e-05,
      "loss": 3.2571,
      "step": 379020
    },
    {
      "epoch": 0.7896458333333334,
      "grad_norm": 0.9111682772636414,
      "learning_rate": 3.1834138611621876e-05,
      "loss": 3.3368,
      "step": 379030
    },
    {
      "epoch": 0.7896666666666666,
      "grad_norm": 0.8449721336364746,
      "learning_rate": 3.1828066328405246e-05,
      "loss": 3.3301,
      "step": 379040
    },
    {
      "epoch": 0.7896875,
      "grad_norm": 0.9350737929344177,
      "learning_rate": 3.182199455564454e-05,
      "loss": 3.4953,
      "step": 379050
    },
    {
      "epoch": 0.7897083333333333,
      "grad_norm": 0.9804680943489075,
      "learning_rate": 3.181592329336604e-05,
      "loss": 3.337,
      "step": 379060
    },
    {
      "epoch": 0.7897291666666667,
      "grad_norm": 0.9358915090560913,
      "learning_rate": 3.180985254159597e-05,
      "loss": 3.3276,
      "step": 379070
    },
    {
      "epoch": 0.78975,
      "grad_norm": 0.8632197380065918,
      "learning_rate": 3.180378230036055e-05,
      "loss": 3.3677,
      "step": 379080
    },
    {
      "epoch": 0.7897708333333333,
      "grad_norm": 0.8809893131256104,
      "learning_rate": 3.179771256968603e-05,
      "loss": 3.375,
      "step": 379090
    },
    {
      "epoch": 0.7897916666666667,
      "grad_norm": 0.9078898429870605,
      "learning_rate": 3.179164334959858e-05,
      "loss": 3.3446,
      "step": 379100
    },
    {
      "epoch": 0.7898125,
      "grad_norm": 0.8994730710983276,
      "learning_rate": 3.178557464012445e-05,
      "loss": 3.3911,
      "step": 379110
    },
    {
      "epoch": 0.7898333333333334,
      "grad_norm": 0.8884493112564087,
      "learning_rate": 3.177950644128984e-05,
      "loss": 3.445,
      "step": 379120
    },
    {
      "epoch": 0.7898541666666666,
      "grad_norm": 0.8467292785644531,
      "learning_rate": 3.177343875312097e-05,
      "loss": 3.2539,
      "step": 379130
    },
    {
      "epoch": 0.789875,
      "grad_norm": 0.9007335305213928,
      "learning_rate": 3.176737157564405e-05,
      "loss": 3.3028,
      "step": 379140
    },
    {
      "epoch": 0.7898958333333334,
      "grad_norm": 0.9296280741691589,
      "learning_rate": 3.176130490888528e-05,
      "loss": 3.2918,
      "step": 379150
    },
    {
      "epoch": 0.7899166666666667,
      "grad_norm": 0.9324508905410767,
      "learning_rate": 3.175523875287087e-05,
      "loss": 3.3657,
      "step": 379160
    },
    {
      "epoch": 0.7899375,
      "grad_norm": 0.9347414970397949,
      "learning_rate": 3.1749173107627025e-05,
      "loss": 3.2906,
      "step": 379170
    },
    {
      "epoch": 0.7899583333333333,
      "grad_norm": 0.9283486604690552,
      "learning_rate": 3.174310797317995e-05,
      "loss": 3.3463,
      "step": 379180
    },
    {
      "epoch": 0.7899791666666667,
      "grad_norm": 0.928477942943573,
      "learning_rate": 3.173704334955584e-05,
      "loss": 3.3439,
      "step": 379190
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8788919448852539,
      "learning_rate": 3.173097923678088e-05,
      "loss": 3.2409,
      "step": 379200
    },
    {
      "epoch": 0.7900208333333333,
      "grad_norm": 0.8791089653968811,
      "learning_rate": 3.172491563488133e-05,
      "loss": 3.3938,
      "step": 379210
    },
    {
      "epoch": 0.7900416666666666,
      "grad_norm": 0.921318769454956,
      "learning_rate": 3.1718852543883224e-05,
      "loss": 3.3376,
      "step": 379220
    },
    {
      "epoch": 0.7900625,
      "grad_norm": 0.934333324432373,
      "learning_rate": 3.171278996381293e-05,
      "loss": 3.2759,
      "step": 379230
    },
    {
      "epoch": 0.7900833333333334,
      "grad_norm": 0.8566728234291077,
      "learning_rate": 3.1706727894696575e-05,
      "loss": 3.3324,
      "step": 379240
    },
    {
      "epoch": 0.7901041666666667,
      "grad_norm": 0.9403811097145081,
      "learning_rate": 3.170066633656027e-05,
      "loss": 3.2849,
      "step": 379250
    },
    {
      "epoch": 0.790125,
      "grad_norm": 0.9320669770240784,
      "learning_rate": 3.169460528943029e-05,
      "loss": 3.3124,
      "step": 379260
    },
    {
      "epoch": 0.7901458333333333,
      "grad_norm": 0.7808111310005188,
      "learning_rate": 3.1688544753332835e-05,
      "loss": 3.3265,
      "step": 379270
    },
    {
      "epoch": 0.7901666666666667,
      "grad_norm": 0.8480384945869446,
      "learning_rate": 3.168248472829394e-05,
      "loss": 3.3519,
      "step": 379280
    },
    {
      "epoch": 0.7901875,
      "grad_norm": 0.897206723690033,
      "learning_rate": 3.167642521433997e-05,
      "loss": 3.2635,
      "step": 379290
    },
    {
      "epoch": 0.7902083333333333,
      "grad_norm": 0.8478193879127502,
      "learning_rate": 3.1670366211496966e-05,
      "loss": 3.3171,
      "step": 379300
    },
    {
      "epoch": 0.7902291666666666,
      "grad_norm": 0.8899914026260376,
      "learning_rate": 3.1664307719791096e-05,
      "loss": 3.3394,
      "step": 379310
    },
    {
      "epoch": 0.79025,
      "grad_norm": 0.8336429595947266,
      "learning_rate": 3.165824973924866e-05,
      "loss": 3.2885,
      "step": 379320
    },
    {
      "epoch": 0.7902708333333334,
      "grad_norm": 0.8655188083648682,
      "learning_rate": 3.165219226989571e-05,
      "loss": 3.2338,
      "step": 379330
    },
    {
      "epoch": 0.7902916666666666,
      "grad_norm": 0.9900740385055542,
      "learning_rate": 3.164613531175838e-05,
      "loss": 3.3332,
      "step": 379340
    },
    {
      "epoch": 0.7903125,
      "grad_norm": 0.83307945728302,
      "learning_rate": 3.1640078864863e-05,
      "loss": 3.4104,
      "step": 379350
    },
    {
      "epoch": 0.7903333333333333,
      "grad_norm": 0.9505711197853088,
      "learning_rate": 3.163402292923558e-05,
      "loss": 3.3341,
      "step": 379360
    },
    {
      "epoch": 0.7903541666666667,
      "grad_norm": 0.8880182504653931,
      "learning_rate": 3.16279675049023e-05,
      "loss": 3.2106,
      "step": 379370
    },
    {
      "epoch": 0.790375,
      "grad_norm": 0.8613446354866028,
      "learning_rate": 3.162191259188941e-05,
      "loss": 3.4143,
      "step": 379380
    },
    {
      "epoch": 0.7903958333333333,
      "grad_norm": 0.8703137040138245,
      "learning_rate": 3.161585819022297e-05,
      "loss": 3.4689,
      "step": 379390
    },
    {
      "epoch": 0.7904166666666667,
      "grad_norm": 0.8700911402702332,
      "learning_rate": 3.1609804299929116e-05,
      "loss": 3.4162,
      "step": 379400
    },
    {
      "epoch": 0.7904375,
      "grad_norm": 0.8795977234840393,
      "learning_rate": 3.160375092103414e-05,
      "loss": 3.3214,
      "step": 379410
    },
    {
      "epoch": 0.7904583333333334,
      "grad_norm": 1.0040676593780518,
      "learning_rate": 3.1597698053564045e-05,
      "loss": 3.289,
      "step": 379420
    },
    {
      "epoch": 0.7904791666666666,
      "grad_norm": 0.9602251648902893,
      "learning_rate": 3.159164569754502e-05,
      "loss": 3.3528,
      "step": 379430
    },
    {
      "epoch": 0.7905,
      "grad_norm": 0.8710334897041321,
      "learning_rate": 3.158559385300322e-05,
      "loss": 3.2813,
      "step": 379440
    },
    {
      "epoch": 0.7905208333333333,
      "grad_norm": 0.8791838884353638,
      "learning_rate": 3.1579542519964795e-05,
      "loss": 3.2361,
      "step": 379450
    },
    {
      "epoch": 0.7905416666666667,
      "grad_norm": 0.9073845148086548,
      "learning_rate": 3.1573491698455874e-05,
      "loss": 3.3235,
      "step": 379460
    },
    {
      "epoch": 0.7905625,
      "grad_norm": 0.8851549625396729,
      "learning_rate": 3.156744138850258e-05,
      "loss": 3.4152,
      "step": 379470
    },
    {
      "epoch": 0.7905833333333333,
      "grad_norm": 0.9409789443016052,
      "learning_rate": 3.156139159013106e-05,
      "loss": 3.4881,
      "step": 379480
    },
    {
      "epoch": 0.7906041666666667,
      "grad_norm": 0.8197609186172485,
      "learning_rate": 3.155534230336745e-05,
      "loss": 3.3448,
      "step": 379490
    },
    {
      "epoch": 0.790625,
      "grad_norm": 0.8954847455024719,
      "learning_rate": 3.154929352823788e-05,
      "loss": 3.3661,
      "step": 379500
    },
    {
      "epoch": 0.7906458333333334,
      "grad_norm": 0.8488444089889526,
      "learning_rate": 3.154324526476847e-05,
      "loss": 3.4263,
      "step": 379510
    },
    {
      "epoch": 0.7906666666666666,
      "grad_norm": 0.9053100347518921,
      "learning_rate": 3.153719751298535e-05,
      "loss": 3.3771,
      "step": 379520
    },
    {
      "epoch": 0.7906875,
      "grad_norm": 0.9989194273948669,
      "learning_rate": 3.1531150272914656e-05,
      "loss": 3.3582,
      "step": 379530
    },
    {
      "epoch": 0.7907083333333333,
      "grad_norm": 0.9257197976112366,
      "learning_rate": 3.1525103544582495e-05,
      "loss": 3.2749,
      "step": 379540
    },
    {
      "epoch": 0.7907291666666667,
      "grad_norm": 0.9567270278930664,
      "learning_rate": 3.151905732801504e-05,
      "loss": 3.2833,
      "step": 379550
    },
    {
      "epoch": 0.79075,
      "grad_norm": 0.8463958501815796,
      "learning_rate": 3.151301162323827e-05,
      "loss": 3.2801,
      "step": 379560
    },
    {
      "epoch": 0.7907708333333333,
      "grad_norm": 0.8191640973091125,
      "learning_rate": 3.150696643027842e-05,
      "loss": 3.3597,
      "step": 379570
    },
    {
      "epoch": 0.7907916666666667,
      "grad_norm": 0.9205305576324463,
      "learning_rate": 3.1500921749161623e-05,
      "loss": 3.4288,
      "step": 379580
    },
    {
      "epoch": 0.7908125,
      "grad_norm": 0.8931233882904053,
      "learning_rate": 3.1494877579913856e-05,
      "loss": 3.2336,
      "step": 379590
    },
    {
      "epoch": 0.7908333333333334,
      "grad_norm": 0.8660550713539124,
      "learning_rate": 3.148883392256135e-05,
      "loss": 3.3104,
      "step": 379600
    },
    {
      "epoch": 0.7908541666666666,
      "grad_norm": 0.9539254307746887,
      "learning_rate": 3.148279077713022e-05,
      "loss": 3.4505,
      "step": 379610
    },
    {
      "epoch": 0.790875,
      "grad_norm": 0.848380446434021,
      "learning_rate": 3.1476748143646435e-05,
      "loss": 3.2529,
      "step": 379620
    },
    {
      "epoch": 0.7908958333333334,
      "grad_norm": 1.0341776609420776,
      "learning_rate": 3.1470706022136217e-05,
      "loss": 3.3478,
      "step": 379630
    },
    {
      "epoch": 0.7909166666666667,
      "grad_norm": 1.1154770851135254,
      "learning_rate": 3.146466441262569e-05,
      "loss": 3.2785,
      "step": 379640
    },
    {
      "epoch": 0.7909375,
      "grad_norm": 0.8596887588500977,
      "learning_rate": 3.1458623315140804e-05,
      "loss": 3.2476,
      "step": 379650
    },
    {
      "epoch": 0.7909583333333333,
      "grad_norm": 0.9726414680480957,
      "learning_rate": 3.145258272970778e-05,
      "loss": 3.4043,
      "step": 379660
    },
    {
      "epoch": 0.7909791666666667,
      "grad_norm": 0.8727250099182129,
      "learning_rate": 3.1446542656352705e-05,
      "loss": 3.3842,
      "step": 379670
    },
    {
      "epoch": 0.791,
      "grad_norm": 0.9600579142570496,
      "learning_rate": 3.144050309510158e-05,
      "loss": 3.3161,
      "step": 379680
    },
    {
      "epoch": 0.7910208333333333,
      "grad_norm": 0.8648463487625122,
      "learning_rate": 3.1434464045980615e-05,
      "loss": 3.1928,
      "step": 379690
    },
    {
      "epoch": 0.7910416666666666,
      "grad_norm": 0.896704912185669,
      "learning_rate": 3.142842550901581e-05,
      "loss": 3.2492,
      "step": 379700
    },
    {
      "epoch": 0.7910625,
      "grad_norm": 0.8377561569213867,
      "learning_rate": 3.1422387484233215e-05,
      "loss": 3.3776,
      "step": 379710
    },
    {
      "epoch": 0.7910833333333334,
      "grad_norm": 0.7951915264129639,
      "learning_rate": 3.141634997165906e-05,
      "loss": 3.403,
      "step": 379720
    },
    {
      "epoch": 0.7911041666666667,
      "grad_norm": 1.0193389654159546,
      "learning_rate": 3.14103129713193e-05,
      "loss": 3.4297,
      "step": 379730
    },
    {
      "epoch": 0.791125,
      "grad_norm": 0.8545867800712585,
      "learning_rate": 3.140427648323998e-05,
      "loss": 3.3731,
      "step": 379740
    },
    {
      "epoch": 0.7911458333333333,
      "grad_norm": 0.9732204079627991,
      "learning_rate": 3.1398240507447345e-05,
      "loss": 3.3261,
      "step": 379750
    },
    {
      "epoch": 0.7911666666666667,
      "grad_norm": 0.8345930576324463,
      "learning_rate": 3.139220504396732e-05,
      "loss": 3.3183,
      "step": 379760
    },
    {
      "epoch": 0.7911875,
      "grad_norm": 0.8717107772827148,
      "learning_rate": 3.138617009282599e-05,
      "loss": 3.2924,
      "step": 379770
    },
    {
      "epoch": 0.7912083333333333,
      "grad_norm": 0.8431588411331177,
      "learning_rate": 3.138013565404953e-05,
      "loss": 3.3975,
      "step": 379780
    },
    {
      "epoch": 0.7912291666666667,
      "grad_norm": 0.9680292010307312,
      "learning_rate": 3.137410172766389e-05,
      "loss": 3.3743,
      "step": 379790
    },
    {
      "epoch": 0.79125,
      "grad_norm": 0.8600199222564697,
      "learning_rate": 3.136806831369518e-05,
      "loss": 3.2655,
      "step": 379800
    },
    {
      "epoch": 0.7912708333333334,
      "grad_norm": 0.8599940538406372,
      "learning_rate": 3.1362035412169435e-05,
      "loss": 3.2728,
      "step": 379810
    },
    {
      "epoch": 0.7912916666666666,
      "grad_norm": 0.8530593514442444,
      "learning_rate": 3.1356003023112755e-05,
      "loss": 3.3982,
      "step": 379820
    },
    {
      "epoch": 0.7913125,
      "grad_norm": 0.9321833848953247,
      "learning_rate": 3.134997114655118e-05,
      "loss": 3.2802,
      "step": 379830
    },
    {
      "epoch": 0.7913333333333333,
      "grad_norm": 0.8920687437057495,
      "learning_rate": 3.134393978251076e-05,
      "loss": 3.2923,
      "step": 379840
    },
    {
      "epoch": 0.7913541666666667,
      "grad_norm": 0.8853847980499268,
      "learning_rate": 3.133790893101756e-05,
      "loss": 3.2806,
      "step": 379850
    },
    {
      "epoch": 0.791375,
      "grad_norm": 0.905857503414154,
      "learning_rate": 3.133187859209761e-05,
      "loss": 3.3329,
      "step": 379860
    },
    {
      "epoch": 0.7913958333333333,
      "grad_norm": 1.0031691789627075,
      "learning_rate": 3.132584876577699e-05,
      "loss": 3.3767,
      "step": 379870
    },
    {
      "epoch": 0.7914166666666667,
      "grad_norm": 0.8925960063934326,
      "learning_rate": 3.1319819452081714e-05,
      "loss": 3.4028,
      "step": 379880
    },
    {
      "epoch": 0.7914375,
      "grad_norm": 0.9354210495948792,
      "learning_rate": 3.131379065103784e-05,
      "loss": 3.316,
      "step": 379890
    },
    {
      "epoch": 0.7914583333333334,
      "grad_norm": 0.8742451071739197,
      "learning_rate": 3.1307762362671415e-05,
      "loss": 3.2752,
      "step": 379900
    },
    {
      "epoch": 0.7914791666666666,
      "grad_norm": 0.9165140390396118,
      "learning_rate": 3.1301734587008495e-05,
      "loss": 3.3929,
      "step": 379910
    },
    {
      "epoch": 0.7915,
      "grad_norm": 1.0525285005569458,
      "learning_rate": 3.129570732407511e-05,
      "loss": 3.1825,
      "step": 379920
    },
    {
      "epoch": 0.7915208333333333,
      "grad_norm": 0.9994456171989441,
      "learning_rate": 3.128968057389721e-05,
      "loss": 3.3548,
      "step": 379930
    },
    {
      "epoch": 0.7915416666666667,
      "grad_norm": 0.9257982969284058,
      "learning_rate": 3.128365433650095e-05,
      "loss": 3.2898,
      "step": 379940
    },
    {
      "epoch": 0.7915625,
      "grad_norm": 0.9491152167320251,
      "learning_rate": 3.127762861191235e-05,
      "loss": 3.3248,
      "step": 379950
    },
    {
      "epoch": 0.7915833333333333,
      "grad_norm": 0.8615620136260986,
      "learning_rate": 3.127160340015731e-05,
      "loss": 3.3338,
      "step": 379960
    },
    {
      "epoch": 0.7916041666666667,
      "grad_norm": 0.893454909324646,
      "learning_rate": 3.126557870126199e-05,
      "loss": 3.3769,
      "step": 379970
    },
    {
      "epoch": 0.791625,
      "grad_norm": 0.8466691374778748,
      "learning_rate": 3.125955451525243e-05,
      "loss": 3.3914,
      "step": 379980
    },
    {
      "epoch": 0.7916458333333334,
      "grad_norm": 0.8618711233139038,
      "learning_rate": 3.125353084215449e-05,
      "loss": 3.3227,
      "step": 379990
    },
    {
      "epoch": 0.7916666666666666,
      "grad_norm": 0.8872181177139282,
      "learning_rate": 3.1247507681994345e-05,
      "loss": 3.3178,
      "step": 380000
    },
    {
      "epoch": 0.7916666666666666,
      "eval_loss": 4.044315814971924,
      "eval_runtime": 8.7122,
      "eval_samples_per_second": 1.148,
      "eval_steps_per_second": 0.344,
      "step": 380000
    },
    {
      "epoch": 0.7916875,
      "grad_norm": 0.887772262096405,
      "learning_rate": 3.1241485034798005e-05,
      "loss": 3.4519,
      "step": 380010
    },
    {
      "epoch": 0.7917083333333333,
      "grad_norm": 0.856436550617218,
      "learning_rate": 3.123546290059135e-05,
      "loss": 3.2615,
      "step": 380020
    },
    {
      "epoch": 0.7917291666666667,
      "grad_norm": 0.9317830204963684,
      "learning_rate": 3.1229441279400535e-05,
      "loss": 3.2926,
      "step": 380030
    },
    {
      "epoch": 0.79175,
      "grad_norm": 0.9577903151512146,
      "learning_rate": 3.1223420171251554e-05,
      "loss": 3.3747,
      "step": 380040
    },
    {
      "epoch": 0.7917708333333333,
      "grad_norm": 0.8680456280708313,
      "learning_rate": 3.1217399576170304e-05,
      "loss": 3.328,
      "step": 380050
    },
    {
      "epoch": 0.7917916666666667,
      "grad_norm": 0.8497756123542786,
      "learning_rate": 3.121137949418296e-05,
      "loss": 3.2923,
      "step": 380060
    },
    {
      "epoch": 0.7918125,
      "grad_norm": 0.860420823097229,
      "learning_rate": 3.120535992531539e-05,
      "loss": 3.2931,
      "step": 380070
    },
    {
      "epoch": 0.7918333333333333,
      "grad_norm": 1.0514899492263794,
      "learning_rate": 3.119934086959364e-05,
      "loss": 3.3148,
      "step": 380080
    },
    {
      "epoch": 0.7918541666666666,
      "grad_norm": 0.8623099327087402,
      "learning_rate": 3.1193322327043716e-05,
      "loss": 3.1473,
      "step": 380090
    },
    {
      "epoch": 0.791875,
      "grad_norm": 0.8792073130607605,
      "learning_rate": 3.1187304297691616e-05,
      "loss": 3.252,
      "step": 380100
    },
    {
      "epoch": 0.7918958333333334,
      "grad_norm": 0.8729709982872009,
      "learning_rate": 3.118128678156333e-05,
      "loss": 3.3238,
      "step": 380110
    },
    {
      "epoch": 0.7919166666666667,
      "grad_norm": 0.8770632743835449,
      "learning_rate": 3.117526977868485e-05,
      "loss": 3.2968,
      "step": 380120
    },
    {
      "epoch": 0.7919375,
      "grad_norm": 0.9289358854293823,
      "learning_rate": 3.1169253289082165e-05,
      "loss": 3.3572,
      "step": 380130
    },
    {
      "epoch": 0.7919583333333333,
      "grad_norm": 0.8690850138664246,
      "learning_rate": 3.1163237312781276e-05,
      "loss": 3.3991,
      "step": 380140
    },
    {
      "epoch": 0.7919791666666667,
      "grad_norm": 0.8962069749832153,
      "learning_rate": 3.1157221849808164e-05,
      "loss": 3.3346,
      "step": 380150
    },
    {
      "epoch": 0.792,
      "grad_norm": 0.8638095259666443,
      "learning_rate": 3.1151206900188816e-05,
      "loss": 3.2834,
      "step": 380160
    },
    {
      "epoch": 0.7920208333333333,
      "grad_norm": 1.02094566822052,
      "learning_rate": 3.114519246394921e-05,
      "loss": 3.4399,
      "step": 380170
    },
    {
      "epoch": 0.7920416666666666,
      "grad_norm": 0.867679238319397,
      "learning_rate": 3.113917854111532e-05,
      "loss": 3.2277,
      "step": 380180
    },
    {
      "epoch": 0.7920625,
      "grad_norm": 1.0001047849655151,
      "learning_rate": 3.113316513171312e-05,
      "loss": 3.3246,
      "step": 380190
    },
    {
      "epoch": 0.7920833333333334,
      "grad_norm": 0.99961918592453,
      "learning_rate": 3.1127152235768623e-05,
      "loss": 3.4111,
      "step": 380200
    },
    {
      "epoch": 0.7921041666666667,
      "grad_norm": 0.8025315403938293,
      "learning_rate": 3.1121139853307756e-05,
      "loss": 3.2304,
      "step": 380210
    },
    {
      "epoch": 0.792125,
      "grad_norm": 0.9495872855186462,
      "learning_rate": 3.1115127984356514e-05,
      "loss": 3.375,
      "step": 380220
    },
    {
      "epoch": 0.7921458333333333,
      "grad_norm": 0.9256346225738525,
      "learning_rate": 3.110911662894087e-05,
      "loss": 3.3504,
      "step": 380230
    },
    {
      "epoch": 0.7921666666666667,
      "grad_norm": 1.1449521780014038,
      "learning_rate": 3.110310578708676e-05,
      "loss": 3.5069,
      "step": 380240
    },
    {
      "epoch": 0.7921875,
      "grad_norm": 0.9311203360557556,
      "learning_rate": 3.10970954588202e-05,
      "loss": 3.339,
      "step": 380250
    },
    {
      "epoch": 0.7922083333333333,
      "grad_norm": 0.9493534564971924,
      "learning_rate": 3.10910856441671e-05,
      "loss": 3.4388,
      "step": 380260
    },
    {
      "epoch": 0.7922291666666667,
      "grad_norm": 0.9462877511978149,
      "learning_rate": 3.1085076343153456e-05,
      "loss": 3.3637,
      "step": 380270
    },
    {
      "epoch": 0.79225,
      "grad_norm": 0.8867466449737549,
      "learning_rate": 3.10790675558052e-05,
      "loss": 3.4318,
      "step": 380280
    },
    {
      "epoch": 0.7922708333333334,
      "grad_norm": 0.8068590760231018,
      "learning_rate": 3.107305928214835e-05,
      "loss": 3.3451,
      "step": 380290
    },
    {
      "epoch": 0.7922916666666666,
      "grad_norm": 0.8526875972747803,
      "learning_rate": 3.106705152220872e-05,
      "loss": 3.3084,
      "step": 380300
    },
    {
      "epoch": 0.7923125,
      "grad_norm": 0.8290697932243347,
      "learning_rate": 3.106104427601239e-05,
      "loss": 3.2483,
      "step": 380310
    },
    {
      "epoch": 0.7923333333333333,
      "grad_norm": 0.8414402604103088,
      "learning_rate": 3.105503754358531e-05,
      "loss": 3.389,
      "step": 380320
    },
    {
      "epoch": 0.7923541666666667,
      "grad_norm": 0.9737187623977661,
      "learning_rate": 3.104903132495332e-05,
      "loss": 3.3344,
      "step": 380330
    },
    {
      "epoch": 0.792375,
      "grad_norm": 0.900088369846344,
      "learning_rate": 3.1043025620142456e-05,
      "loss": 3.223,
      "step": 380340
    },
    {
      "epoch": 0.7923958333333333,
      "grad_norm": 0.8941635489463806,
      "learning_rate": 3.103702042917869e-05,
      "loss": 3.3212,
      "step": 380350
    },
    {
      "epoch": 0.7924166666666667,
      "grad_norm": 0.9687526226043701,
      "learning_rate": 3.103101575208782e-05,
      "loss": 3.3721,
      "step": 380360
    },
    {
      "epoch": 0.7924375,
      "grad_norm": 0.8587808012962341,
      "learning_rate": 3.10250115888959e-05,
      "loss": 3.3267,
      "step": 380370
    },
    {
      "epoch": 0.7924583333333334,
      "grad_norm": 0.96657794713974,
      "learning_rate": 3.1019007939628876e-05,
      "loss": 3.2836,
      "step": 380380
    },
    {
      "epoch": 0.7924791666666666,
      "grad_norm": 0.9082651138305664,
      "learning_rate": 3.101300480431261e-05,
      "loss": 3.3222,
      "step": 380390
    },
    {
      "epoch": 0.7925,
      "grad_norm": 0.8113858103752136,
      "learning_rate": 3.100700218297303e-05,
      "loss": 3.2974,
      "step": 380400
    },
    {
      "epoch": 0.7925208333333333,
      "grad_norm": 0.8637545704841614,
      "learning_rate": 3.100100007563618e-05,
      "loss": 3.3708,
      "step": 380410
    },
    {
      "epoch": 0.7925416666666667,
      "grad_norm": 0.9035587310791016,
      "learning_rate": 3.099499848232786e-05,
      "loss": 3.3042,
      "step": 380420
    },
    {
      "epoch": 0.7925625,
      "grad_norm": 0.8865914344787598,
      "learning_rate": 3.0988997403074034e-05,
      "loss": 3.4095,
      "step": 380430
    },
    {
      "epoch": 0.7925833333333333,
      "grad_norm": 0.8722545504570007,
      "learning_rate": 3.098299683790065e-05,
      "loss": 3.4012,
      "step": 380440
    },
    {
      "epoch": 0.7926041666666667,
      "grad_norm": 0.8912932872772217,
      "learning_rate": 3.09769967868336e-05,
      "loss": 3.2496,
      "step": 380450
    },
    {
      "epoch": 0.792625,
      "grad_norm": 0.9663393497467041,
      "learning_rate": 3.097099724989881e-05,
      "loss": 3.2075,
      "step": 380460
    },
    {
      "epoch": 0.7926458333333334,
      "grad_norm": 0.9177116751670837,
      "learning_rate": 3.096499822712219e-05,
      "loss": 3.3316,
      "step": 380470
    },
    {
      "epoch": 0.7926666666666666,
      "grad_norm": 0.8147125840187073,
      "learning_rate": 3.0958999718529684e-05,
      "loss": 3.3922,
      "step": 380480
    },
    {
      "epoch": 0.7926875,
      "grad_norm": 0.8949162364006042,
      "learning_rate": 3.0953001724147145e-05,
      "loss": 3.4149,
      "step": 380490
    },
    {
      "epoch": 0.7927083333333333,
      "grad_norm": 0.9018300175666809,
      "learning_rate": 3.094700424400055e-05,
      "loss": 3.3663,
      "step": 380500
    },
    {
      "epoch": 0.7927291666666667,
      "grad_norm": 0.8064781427383423,
      "learning_rate": 3.094100727811575e-05,
      "loss": 3.2884,
      "step": 380510
    },
    {
      "epoch": 0.79275,
      "grad_norm": 0.8720173239707947,
      "learning_rate": 3.0935010826518685e-05,
      "loss": 3.3626,
      "step": 380520
    },
    {
      "epoch": 0.7927708333333333,
      "grad_norm": 0.9234005808830261,
      "learning_rate": 3.0929014889235225e-05,
      "loss": 3.3862,
      "step": 380530
    },
    {
      "epoch": 0.7927916666666667,
      "grad_norm": 0.960577666759491,
      "learning_rate": 3.0923019466291306e-05,
      "loss": 3.4205,
      "step": 380540
    },
    {
      "epoch": 0.7928125,
      "grad_norm": 1.1236885786056519,
      "learning_rate": 3.091702455771282e-05,
      "loss": 3.4213,
      "step": 380550
    },
    {
      "epoch": 0.7928333333333333,
      "grad_norm": 0.88840651512146,
      "learning_rate": 3.0911030163525624e-05,
      "loss": 3.3867,
      "step": 380560
    },
    {
      "epoch": 0.7928541666666666,
      "grad_norm": 1.0735232830047607,
      "learning_rate": 3.090503628375566e-05,
      "loss": 3.3071,
      "step": 380570
    },
    {
      "epoch": 0.792875,
      "grad_norm": 0.8537049889564514,
      "learning_rate": 3.089904291842878e-05,
      "loss": 3.3843,
      "step": 380580
    },
    {
      "epoch": 0.7928958333333334,
      "grad_norm": 0.961746871471405,
      "learning_rate": 3.08930500675709e-05,
      "loss": 3.3543,
      "step": 380590
    },
    {
      "epoch": 0.7929166666666667,
      "grad_norm": 0.8859904408454895,
      "learning_rate": 3.08870577312079e-05,
      "loss": 3.4022,
      "step": 380600
    },
    {
      "epoch": 0.7929375,
      "grad_norm": 0.9003746509552002,
      "learning_rate": 3.0881065909365664e-05,
      "loss": 3.2792,
      "step": 380610
    },
    {
      "epoch": 0.7929583333333333,
      "grad_norm": 0.841860294342041,
      "learning_rate": 3.0875074602070064e-05,
      "loss": 3.526,
      "step": 380620
    },
    {
      "epoch": 0.7929791666666667,
      "grad_norm": 0.8891542553901672,
      "learning_rate": 3.0869083809347e-05,
      "loss": 3.4138,
      "step": 380630
    },
    {
      "epoch": 0.793,
      "grad_norm": 0.8318930268287659,
      "learning_rate": 3.086309353122233e-05,
      "loss": 3.3988,
      "step": 380640
    },
    {
      "epoch": 0.7930208333333333,
      "grad_norm": 0.9012699127197266,
      "learning_rate": 3.085710376772194e-05,
      "loss": 3.3509,
      "step": 380650
    },
    {
      "epoch": 0.7930416666666666,
      "grad_norm": 0.8573113083839417,
      "learning_rate": 3.085111451887171e-05,
      "loss": 3.3783,
      "step": 380660
    },
    {
      "epoch": 0.7930625,
      "grad_norm": 0.814651370048523,
      "learning_rate": 3.084512578469754e-05,
      "loss": 3.3174,
      "step": 380670
    },
    {
      "epoch": 0.7930833333333334,
      "grad_norm": 0.8716592788696289,
      "learning_rate": 3.083913756522517e-05,
      "loss": 3.3151,
      "step": 380680
    },
    {
      "epoch": 0.7931041666666667,
      "grad_norm": 0.8636558651924133,
      "learning_rate": 3.083314986048066e-05,
      "loss": 3.3804,
      "step": 380690
    },
    {
      "epoch": 0.793125,
      "grad_norm": 0.9562420845031738,
      "learning_rate": 3.082716267048971e-05,
      "loss": 3.3804,
      "step": 380700
    },
    {
      "epoch": 0.7931458333333333,
      "grad_norm": 0.8228966593742371,
      "learning_rate": 3.082117599527822e-05,
      "loss": 3.2771,
      "step": 380710
    },
    {
      "epoch": 0.7931666666666667,
      "grad_norm": 0.8527355790138245,
      "learning_rate": 3.0815189834872155e-05,
      "loss": 3.3255,
      "step": 380720
    },
    {
      "epoch": 0.7931875,
      "grad_norm": 0.9430339932441711,
      "learning_rate": 3.080920418929725e-05,
      "loss": 3.4567,
      "step": 380730
    },
    {
      "epoch": 0.7932083333333333,
      "grad_norm": 0.8875319957733154,
      "learning_rate": 3.080321905857935e-05,
      "loss": 3.4191,
      "step": 380740
    },
    {
      "epoch": 0.7932291666666667,
      "grad_norm": 0.9018338322639465,
      "learning_rate": 3.0797234442744464e-05,
      "loss": 3.3477,
      "step": 380750
    },
    {
      "epoch": 0.79325,
      "grad_norm": 0.8210418820381165,
      "learning_rate": 3.0791250341818283e-05,
      "loss": 3.4101,
      "step": 380760
    },
    {
      "epoch": 0.7932708333333334,
      "grad_norm": 0.9547353386878967,
      "learning_rate": 3.07852667558267e-05,
      "loss": 3.4444,
      "step": 380770
    },
    {
      "epoch": 0.7932916666666666,
      "grad_norm": 0.930081844329834,
      "learning_rate": 3.0779283684795637e-05,
      "loss": 3.3599,
      "step": 380780
    },
    {
      "epoch": 0.7933125,
      "grad_norm": 0.9094169735908508,
      "learning_rate": 3.0773301128750826e-05,
      "loss": 3.348,
      "step": 380790
    },
    {
      "epoch": 0.7933333333333333,
      "grad_norm": 0.9873930811882019,
      "learning_rate": 3.076731908771818e-05,
      "loss": 3.1906,
      "step": 380800
    },
    {
      "epoch": 0.7933541666666667,
      "grad_norm": 0.8890218734741211,
      "learning_rate": 3.076133756172352e-05,
      "loss": 3.3063,
      "step": 380810
    },
    {
      "epoch": 0.793375,
      "grad_norm": 0.9075177907943726,
      "learning_rate": 3.075535655079268e-05,
      "loss": 3.2706,
      "step": 380820
    },
    {
      "epoch": 0.7933958333333333,
      "grad_norm": 1.0369054079055786,
      "learning_rate": 3.0749376054951495e-05,
      "loss": 3.2358,
      "step": 380830
    },
    {
      "epoch": 0.7934166666666667,
      "grad_norm": 1.0623475313186646,
      "learning_rate": 3.074339607422581e-05,
      "loss": 3.4441,
      "step": 380840
    },
    {
      "epoch": 0.7934375,
      "grad_norm": 0.9277744293212891,
      "learning_rate": 3.073741660864144e-05,
      "loss": 3.384,
      "step": 380850
    },
    {
      "epoch": 0.7934583333333334,
      "grad_norm": 0.8740635514259338,
      "learning_rate": 3.073143765822423e-05,
      "loss": 3.3357,
      "step": 380860
    },
    {
      "epoch": 0.7934791666666666,
      "grad_norm": 0.8513797521591187,
      "learning_rate": 3.0725459223e-05,
      "loss": 3.3677,
      "step": 380870
    },
    {
      "epoch": 0.7935,
      "grad_norm": 0.8797827363014221,
      "learning_rate": 3.071948130299458e-05,
      "loss": 3.3675,
      "step": 380880
    },
    {
      "epoch": 0.7935208333333333,
      "grad_norm": 0.9502047300338745,
      "learning_rate": 3.071350389823377e-05,
      "loss": 3.3658,
      "step": 380890
    },
    {
      "epoch": 0.7935416666666667,
      "grad_norm": 0.8833634853363037,
      "learning_rate": 3.0707527008743424e-05,
      "loss": 3.3065,
      "step": 380900
    },
    {
      "epoch": 0.7935625,
      "grad_norm": 0.87010657787323,
      "learning_rate": 3.0701550634549326e-05,
      "loss": 3.3026,
      "step": 380910
    },
    {
      "epoch": 0.7935833333333333,
      "grad_norm": 0.9129167795181274,
      "learning_rate": 3.069557477567732e-05,
      "loss": 3.4458,
      "step": 380920
    },
    {
      "epoch": 0.7936041666666667,
      "grad_norm": 0.823183536529541,
      "learning_rate": 3.06895994321532e-05,
      "loss": 3.3678,
      "step": 380930
    },
    {
      "epoch": 0.793625,
      "grad_norm": 0.9244210720062256,
      "learning_rate": 3.068362460400279e-05,
      "loss": 3.3973,
      "step": 380940
    },
    {
      "epoch": 0.7936458333333334,
      "grad_norm": 0.8124896883964539,
      "learning_rate": 3.0677650291251875e-05,
      "loss": 3.1957,
      "step": 380950
    },
    {
      "epoch": 0.7936666666666666,
      "grad_norm": 1.1877073049545288,
      "learning_rate": 3.06716764939263e-05,
      "loss": 3.3118,
      "step": 380960
    },
    {
      "epoch": 0.7936875,
      "grad_norm": 0.9583501219749451,
      "learning_rate": 3.066570321205184e-05,
      "loss": 3.2654,
      "step": 380970
    },
    {
      "epoch": 0.7937083333333333,
      "grad_norm": 0.894074022769928,
      "learning_rate": 3.065973044565436e-05,
      "loss": 3.2668,
      "step": 380980
    },
    {
      "epoch": 0.7937291666666667,
      "grad_norm": 0.8430512547492981,
      "learning_rate": 3.06537581947595e-05,
      "loss": 3.2407,
      "step": 380990
    },
    {
      "epoch": 0.79375,
      "grad_norm": 0.8219358921051025,
      "learning_rate": 3.064778645939323e-05,
      "loss": 3.2855,
      "step": 381000
    },
    {
      "epoch": 0.79375,
      "eval_loss": 4.042621612548828,
      "eval_runtime": 8.3308,
      "eval_samples_per_second": 1.2,
      "eval_steps_per_second": 0.36,
      "step": 381000
    },
    {
      "epoch": 0.7937708333333333,
      "grad_norm": 0.9605866074562073,
      "learning_rate": 3.06418152395813e-05,
      "loss": 3.3359,
      "step": 381010
    },
    {
      "epoch": 0.7937916666666667,
      "grad_norm": 0.8419070243835449,
      "learning_rate": 3.063584453534941e-05,
      "loss": 3.3068,
      "step": 381020
    },
    {
      "epoch": 0.7938125,
      "grad_norm": 0.9089857339859009,
      "learning_rate": 3.062987434672347e-05,
      "loss": 3.3365,
      "step": 381030
    },
    {
      "epoch": 0.7938333333333333,
      "grad_norm": 0.9332239627838135,
      "learning_rate": 3.0623904673729255e-05,
      "loss": 3.3189,
      "step": 381040
    },
    {
      "epoch": 0.7938541666666666,
      "grad_norm": 0.8624796271324158,
      "learning_rate": 3.0617935516392436e-05,
      "loss": 3.2508,
      "step": 381050
    },
    {
      "epoch": 0.793875,
      "grad_norm": 0.8758931159973145,
      "learning_rate": 3.0611966874738986e-05,
      "loss": 3.3349,
      "step": 381060
    },
    {
      "epoch": 0.7938958333333334,
      "grad_norm": 0.977372944355011,
      "learning_rate": 3.0605998748794526e-05,
      "loss": 3.3249,
      "step": 381070
    },
    {
      "epoch": 0.7939166666666667,
      "grad_norm": 0.9468175768852234,
      "learning_rate": 3.060003113858483e-05,
      "loss": 3.3844,
      "step": 381080
    },
    {
      "epoch": 0.7939375,
      "grad_norm": 0.8776784539222717,
      "learning_rate": 3.0594064044135845e-05,
      "loss": 3.3856,
      "step": 381090
    },
    {
      "epoch": 0.7939583333333333,
      "grad_norm": 0.9788812398910522,
      "learning_rate": 3.058809746547319e-05,
      "loss": 3.2333,
      "step": 381100
    },
    {
      "epoch": 0.7939791666666667,
      "grad_norm": 0.8508113622665405,
      "learning_rate": 3.0582131402622656e-05,
      "loss": 3.3035,
      "step": 381110
    },
    {
      "epoch": 0.794,
      "grad_norm": 0.899110734462738,
      "learning_rate": 3.0576165855610116e-05,
      "loss": 3.2576,
      "step": 381120
    },
    {
      "epoch": 0.7940208333333333,
      "grad_norm": 0.8126355409622192,
      "learning_rate": 3.057020082446124e-05,
      "loss": 3.3456,
      "step": 381130
    },
    {
      "epoch": 0.7940416666666666,
      "grad_norm": 0.8506872653961182,
      "learning_rate": 3.056423630920176e-05,
      "loss": 3.3611,
      "step": 381140
    },
    {
      "epoch": 0.7940625,
      "grad_norm": 0.8547393083572388,
      "learning_rate": 3.055827230985759e-05,
      "loss": 3.3335,
      "step": 381150
    },
    {
      "epoch": 0.7940833333333334,
      "grad_norm": 0.8726962804794312,
      "learning_rate": 3.055230882645439e-05,
      "loss": 3.2662,
      "step": 381160
    },
    {
      "epoch": 0.7941041666666667,
      "grad_norm": 0.8295290470123291,
      "learning_rate": 3.054634585901788e-05,
      "loss": 3.2571,
      "step": 381170
    },
    {
      "epoch": 0.794125,
      "grad_norm": 0.892687976360321,
      "learning_rate": 3.0540383407573935e-05,
      "loss": 3.3142,
      "step": 381180
    },
    {
      "epoch": 0.7941458333333333,
      "grad_norm": 0.8683493733406067,
      "learning_rate": 3.053442147214822e-05,
      "loss": 3.2568,
      "step": 381190
    },
    {
      "epoch": 0.7941666666666667,
      "grad_norm": 0.835783064365387,
      "learning_rate": 3.0528460052766536e-05,
      "loss": 3.3492,
      "step": 381200
    },
    {
      "epoch": 0.7941875,
      "grad_norm": 0.8862922787666321,
      "learning_rate": 3.05224991494546e-05,
      "loss": 3.5562,
      "step": 381210
    },
    {
      "epoch": 0.7942083333333333,
      "grad_norm": 0.9597545862197876,
      "learning_rate": 3.0516538762238162e-05,
      "loss": 3.432,
      "step": 381220
    },
    {
      "epoch": 0.7942291666666667,
      "grad_norm": 0.8775819540023804,
      "learning_rate": 3.051057889114299e-05,
      "loss": 3.3067,
      "step": 381230
    },
    {
      "epoch": 0.79425,
      "grad_norm": 0.979647159576416,
      "learning_rate": 3.0504619536194825e-05,
      "loss": 3.2536,
      "step": 381240
    },
    {
      "epoch": 0.7942708333333334,
      "grad_norm": 0.8863362073898315,
      "learning_rate": 3.0498660697419414e-05,
      "loss": 3.28,
      "step": 381250
    },
    {
      "epoch": 0.7942916666666666,
      "grad_norm": 0.8760112524032593,
      "learning_rate": 3.049270237484247e-05,
      "loss": 3.336,
      "step": 381260
    },
    {
      "epoch": 0.7943125,
      "grad_norm": 1.0174607038497925,
      "learning_rate": 3.048674456848976e-05,
      "loss": 3.2214,
      "step": 381270
    },
    {
      "epoch": 0.7943333333333333,
      "grad_norm": 0.8192697763442993,
      "learning_rate": 3.0480787278386986e-05,
      "loss": 3.2847,
      "step": 381280
    },
    {
      "epoch": 0.7943541666666667,
      "grad_norm": 0.8853316307067871,
      "learning_rate": 3.0474830504559956e-05,
      "loss": 3.3421,
      "step": 381290
    },
    {
      "epoch": 0.794375,
      "grad_norm": 0.8672844767570496,
      "learning_rate": 3.0468874247034274e-05,
      "loss": 3.2464,
      "step": 381300
    },
    {
      "epoch": 0.7943958333333333,
      "grad_norm": 0.7941973209381104,
      "learning_rate": 3.0462918505835776e-05,
      "loss": 3.34,
      "step": 381310
    },
    {
      "epoch": 0.7944166666666667,
      "grad_norm": 0.848358154296875,
      "learning_rate": 3.045696328099019e-05,
      "loss": 3.3253,
      "step": 381320
    },
    {
      "epoch": 0.7944375,
      "grad_norm": 0.8820803761482239,
      "learning_rate": 3.0451008572523124e-05,
      "loss": 3.2701,
      "step": 381330
    },
    {
      "epoch": 0.7944583333333334,
      "grad_norm": 0.8450681567192078,
      "learning_rate": 3.0445054380460425e-05,
      "loss": 3.1743,
      "step": 381340
    },
    {
      "epoch": 0.7944791666666666,
      "grad_norm": 1.1095376014709473,
      "learning_rate": 3.0439100704827796e-05,
      "loss": 3.295,
      "step": 381350
    },
    {
      "epoch": 0.7945,
      "grad_norm": 0.9118126630783081,
      "learning_rate": 3.043314754565086e-05,
      "loss": 3.2816,
      "step": 381360
    },
    {
      "epoch": 0.7945208333333333,
      "grad_norm": 0.7934144735336304,
      "learning_rate": 3.042719490295543e-05,
      "loss": 3.4485,
      "step": 381370
    },
    {
      "epoch": 0.7945416666666667,
      "grad_norm": 0.8205316662788391,
      "learning_rate": 3.0421242776767242e-05,
      "loss": 3.3958,
      "step": 381380
    },
    {
      "epoch": 0.7945625,
      "grad_norm": 0.9913316965103149,
      "learning_rate": 3.0415291167111867e-05,
      "loss": 3.3722,
      "step": 381390
    },
    {
      "epoch": 0.7945833333333333,
      "grad_norm": 0.8586040735244751,
      "learning_rate": 3.040934007401512e-05,
      "loss": 3.3112,
      "step": 381400
    },
    {
      "epoch": 0.7946041666666667,
      "grad_norm": 0.9653374552726746,
      "learning_rate": 3.040338949750275e-05,
      "loss": 3.4199,
      "step": 381410
    },
    {
      "epoch": 0.794625,
      "grad_norm": 0.9265663027763367,
      "learning_rate": 3.0397439437600302e-05,
      "loss": 3.2965,
      "step": 381420
    },
    {
      "epoch": 0.7946458333333334,
      "grad_norm": 0.8761551380157471,
      "learning_rate": 3.039148989433367e-05,
      "loss": 3.3023,
      "step": 381430
    },
    {
      "epoch": 0.7946666666666666,
      "grad_norm": 0.9372138977050781,
      "learning_rate": 3.0385540867728403e-05,
      "loss": 3.5078,
      "step": 381440
    },
    {
      "epoch": 0.7946875,
      "grad_norm": 0.820327877998352,
      "learning_rate": 3.0379592357810228e-05,
      "loss": 3.4347,
      "step": 381450
    },
    {
      "epoch": 0.7947083333333333,
      "grad_norm": 0.8859469294548035,
      "learning_rate": 3.0373644364604926e-05,
      "loss": 3.3714,
      "step": 381460
    },
    {
      "epoch": 0.7947291666666667,
      "grad_norm": 1.0284968614578247,
      "learning_rate": 3.0367696888138094e-05,
      "loss": 3.3255,
      "step": 381470
    },
    {
      "epoch": 0.79475,
      "grad_norm": 0.9097670316696167,
      "learning_rate": 3.0361749928435424e-05,
      "loss": 3.4274,
      "step": 381480
    },
    {
      "epoch": 0.7947708333333333,
      "grad_norm": 0.8122149705886841,
      "learning_rate": 3.0355803485522717e-05,
      "loss": 3.2451,
      "step": 381490
    },
    {
      "epoch": 0.7947916666666667,
      "grad_norm": 0.9947794079780579,
      "learning_rate": 3.034985755942555e-05,
      "loss": 3.2803,
      "step": 381500
    },
    {
      "epoch": 0.7948125,
      "grad_norm": 0.8756390810012817,
      "learning_rate": 3.0343912150169586e-05,
      "loss": 3.2499,
      "step": 381510
    },
    {
      "epoch": 0.7948333333333333,
      "grad_norm": 1.1311566829681396,
      "learning_rate": 3.0337967257780637e-05,
      "loss": 3.391,
      "step": 381520
    },
    {
      "epoch": 0.7948541666666666,
      "grad_norm": 0.8880980014801025,
      "learning_rate": 3.0332022882284267e-05,
      "loss": 3.1459,
      "step": 381530
    },
    {
      "epoch": 0.794875,
      "grad_norm": 0.8421726226806641,
      "learning_rate": 3.032607902370614e-05,
      "loss": 3.2204,
      "step": 381540
    },
    {
      "epoch": 0.7948958333333334,
      "grad_norm": 0.9111642241477966,
      "learning_rate": 3.0320135682072082e-05,
      "loss": 3.4695,
      "step": 381550
    },
    {
      "epoch": 0.7949166666666667,
      "grad_norm": 0.8831567168235779,
      "learning_rate": 3.031419285740761e-05,
      "loss": 3.2801,
      "step": 381560
    },
    {
      "epoch": 0.7949375,
      "grad_norm": 0.8206297159194946,
      "learning_rate": 3.030825054973845e-05,
      "loss": 3.2925,
      "step": 381570
    },
    {
      "epoch": 0.7949583333333333,
      "grad_norm": 0.9013760089874268,
      "learning_rate": 3.030230875909028e-05,
      "loss": 3.4864,
      "step": 381580
    },
    {
      "epoch": 0.7949791666666667,
      "grad_norm": 0.864996075630188,
      "learning_rate": 3.0296367485488755e-05,
      "loss": 3.3206,
      "step": 381590
    },
    {
      "epoch": 0.795,
      "grad_norm": 0.8871806859970093,
      "learning_rate": 3.0290426728959527e-05,
      "loss": 3.3045,
      "step": 381600
    },
    {
      "epoch": 0.7950208333333333,
      "grad_norm": 0.9694728255271912,
      "learning_rate": 3.028448648952828e-05,
      "loss": 3.4185,
      "step": 381610
    },
    {
      "epoch": 0.7950416666666666,
      "grad_norm": 0.8694198727607727,
      "learning_rate": 3.0278546767220662e-05,
      "loss": 3.2172,
      "step": 381620
    },
    {
      "epoch": 0.7950625,
      "grad_norm": 0.9189749360084534,
      "learning_rate": 3.027260756206235e-05,
      "loss": 3.3346,
      "step": 381630
    },
    {
      "epoch": 0.7950833333333334,
      "grad_norm": 0.904388427734375,
      "learning_rate": 3.026666887407896e-05,
      "loss": 3.4841,
      "step": 381640
    },
    {
      "epoch": 0.7951041666666666,
      "grad_norm": 0.8503904938697815,
      "learning_rate": 3.026073070329618e-05,
      "loss": 3.1937,
      "step": 381650
    },
    {
      "epoch": 0.795125,
      "grad_norm": 0.9666919708251953,
      "learning_rate": 3.0254793049739633e-05,
      "loss": 3.4253,
      "step": 381660
    },
    {
      "epoch": 0.7951458333333333,
      "grad_norm": 0.9189136624336243,
      "learning_rate": 3.0248855913434995e-05,
      "loss": 3.3451,
      "step": 381670
    },
    {
      "epoch": 0.7951666666666667,
      "grad_norm": 0.98650062084198,
      "learning_rate": 3.024291929440789e-05,
      "loss": 3.2706,
      "step": 381680
    },
    {
      "epoch": 0.7951875,
      "grad_norm": 0.8215258121490479,
      "learning_rate": 3.0236983192684023e-05,
      "loss": 3.2256,
      "step": 381690
    },
    {
      "epoch": 0.7952083333333333,
      "grad_norm": 0.9079222679138184,
      "learning_rate": 3.02310476082889e-05,
      "loss": 3.3735,
      "step": 381700
    },
    {
      "epoch": 0.7952291666666667,
      "grad_norm": 0.9553113579750061,
      "learning_rate": 3.022511254124827e-05,
      "loss": 3.3365,
      "step": 381710
    },
    {
      "epoch": 0.79525,
      "grad_norm": 0.8591195344924927,
      "learning_rate": 3.0219177991587794e-05,
      "loss": 3.2875,
      "step": 381720
    },
    {
      "epoch": 0.7952708333333334,
      "grad_norm": 1.0276001691818237,
      "learning_rate": 3.0213243959332973e-05,
      "loss": 3.3391,
      "step": 381730
    },
    {
      "epoch": 0.7952916666666666,
      "grad_norm": 0.9617491960525513,
      "learning_rate": 3.0207310444509564e-05,
      "loss": 3.3664,
      "step": 381740
    },
    {
      "epoch": 0.7953125,
      "grad_norm": 0.8499917984008789,
      "learning_rate": 3.02013774471432e-05,
      "loss": 3.3062,
      "step": 381750
    },
    {
      "epoch": 0.7953333333333333,
      "grad_norm": 0.9010564088821411,
      "learning_rate": 3.019544496725939e-05,
      "loss": 3.3149,
      "step": 381760
    },
    {
      "epoch": 0.7953541666666667,
      "grad_norm": 0.8616441488265991,
      "learning_rate": 3.018951300488387e-05,
      "loss": 3.2581,
      "step": 381770
    },
    {
      "epoch": 0.795375,
      "grad_norm": 0.8368753790855408,
      "learning_rate": 3.0183581560042262e-05,
      "loss": 3.2746,
      "step": 381780
    },
    {
      "epoch": 0.7953958333333333,
      "grad_norm": 1.0365707874298096,
      "learning_rate": 3.0177650632760087e-05,
      "loss": 3.4003,
      "step": 381790
    },
    {
      "epoch": 0.7954166666666667,
      "grad_norm": 0.9081161022186279,
      "learning_rate": 3.01717202230631e-05,
      "loss": 3.3166,
      "step": 381800
    },
    {
      "epoch": 0.7954375,
      "grad_norm": 0.9084132313728333,
      "learning_rate": 3.0165790330976817e-05,
      "loss": 3.2667,
      "step": 381810
    },
    {
      "epoch": 0.7954583333333334,
      "grad_norm": 0.8425840735435486,
      "learning_rate": 3.0159860956526853e-05,
      "loss": 3.3256,
      "step": 381820
    },
    {
      "epoch": 0.7954791666666666,
      "grad_norm": 0.9630687236785889,
      "learning_rate": 3.015393209973892e-05,
      "loss": 3.4136,
      "step": 381830
    },
    {
      "epoch": 0.7955,
      "grad_norm": 0.8109839558601379,
      "learning_rate": 3.014800376063853e-05,
      "loss": 3.3922,
      "step": 381840
    },
    {
      "epoch": 0.7955208333333333,
      "grad_norm": 0.7882660031318665,
      "learning_rate": 3.0142075939251327e-05,
      "loss": 3.262,
      "step": 381850
    },
    {
      "epoch": 0.7955416666666667,
      "grad_norm": 0.8780362606048584,
      "learning_rate": 3.0136148635602908e-05,
      "loss": 3.3532,
      "step": 381860
    },
    {
      "epoch": 0.7955625,
      "grad_norm": 0.8479929566383362,
      "learning_rate": 3.0130221849718888e-05,
      "loss": 3.2425,
      "step": 381870
    },
    {
      "epoch": 0.7955833333333333,
      "grad_norm": 0.8885365128517151,
      "learning_rate": 3.0124295581624848e-05,
      "loss": 3.3005,
      "step": 381880
    },
    {
      "epoch": 0.7956041666666667,
      "grad_norm": 0.8901667594909668,
      "learning_rate": 3.011836983134641e-05,
      "loss": 3.2791,
      "step": 381890
    },
    {
      "epoch": 0.795625,
      "grad_norm": 0.916443407535553,
      "learning_rate": 3.0112444598909164e-05,
      "loss": 3.1851,
      "step": 381900
    },
    {
      "epoch": 0.7956458333333334,
      "grad_norm": 1.357306957244873,
      "learning_rate": 3.0106519884338696e-05,
      "loss": 3.3107,
      "step": 381910
    },
    {
      "epoch": 0.7956666666666666,
      "grad_norm": 0.9251042008399963,
      "learning_rate": 3.0100595687660612e-05,
      "loss": 3.2493,
      "step": 381920
    },
    {
      "epoch": 0.7956875,
      "grad_norm": 0.9078778624534607,
      "learning_rate": 3.0094672008900482e-05,
      "loss": 3.294,
      "step": 381930
    },
    {
      "epoch": 0.7957083333333334,
      "grad_norm": 0.8515461087226868,
      "learning_rate": 3.0088748848083925e-05,
      "loss": 3.3157,
      "step": 381940
    },
    {
      "epoch": 0.7957291666666667,
      "grad_norm": 0.8769099116325378,
      "learning_rate": 3.0082826205236487e-05,
      "loss": 3.3906,
      "step": 381950
    },
    {
      "epoch": 0.79575,
      "grad_norm": 0.883364200592041,
      "learning_rate": 3.0076904080383797e-05,
      "loss": 3.4022,
      "step": 381960
    },
    {
      "epoch": 0.7957708333333333,
      "grad_norm": 0.8970044851303101,
      "learning_rate": 3.0070982473551396e-05,
      "loss": 3.2279,
      "step": 381970
    },
    {
      "epoch": 0.7957916666666667,
      "grad_norm": 0.8891788721084595,
      "learning_rate": 3.0065061384764887e-05,
      "loss": 3.4349,
      "step": 381980
    },
    {
      "epoch": 0.7958125,
      "grad_norm": 0.8495448231697083,
      "learning_rate": 3.005914081404983e-05,
      "loss": 3.2909,
      "step": 381990
    },
    {
      "epoch": 0.7958333333333333,
      "grad_norm": 0.8911466598510742,
      "learning_rate": 3.005322076143182e-05,
      "loss": 3.3473,
      "step": 382000
    },
    {
      "epoch": 0.7958333333333333,
      "eval_loss": 4.0372114181518555,
      "eval_runtime": 8.4711,
      "eval_samples_per_second": 1.18,
      "eval_steps_per_second": 0.354,
      "step": 382000
    },
    {
      "epoch": 0.7958541666666666,
      "grad_norm": 0.8714642524719238,
      "learning_rate": 3.004730122693641e-05,
      "loss": 3.315,
      "step": 382010
    },
    {
      "epoch": 0.795875,
      "grad_norm": 0.9484938979148865,
      "learning_rate": 3.0041382210589186e-05,
      "loss": 3.382,
      "step": 382020
    },
    {
      "epoch": 0.7958958333333334,
      "grad_norm": 0.8598451018333435,
      "learning_rate": 3.00354637124157e-05,
      "loss": 3.2699,
      "step": 382030
    },
    {
      "epoch": 0.7959166666666667,
      "grad_norm": 0.9907031059265137,
      "learning_rate": 3.0029545732441533e-05,
      "loss": 3.3446,
      "step": 382040
    },
    {
      "epoch": 0.7959375,
      "grad_norm": 0.9389975070953369,
      "learning_rate": 3.0023628270692246e-05,
      "loss": 3.4835,
      "step": 382050
    },
    {
      "epoch": 0.7959583333333333,
      "grad_norm": 0.8467172980308533,
      "learning_rate": 3.0017711327193417e-05,
      "loss": 3.324,
      "step": 382060
    },
    {
      "epoch": 0.7959791666666667,
      "grad_norm": 0.9366368651390076,
      "learning_rate": 3.0011794901970525e-05,
      "loss": 3.2837,
      "step": 382070
    },
    {
      "epoch": 0.796,
      "grad_norm": 0.9433691501617432,
      "learning_rate": 3.0005878995049204e-05,
      "loss": 3.4069,
      "step": 382080
    },
    {
      "epoch": 0.7960208333333333,
      "grad_norm": 0.940299391746521,
      "learning_rate": 2.9999963606455048e-05,
      "loss": 3.3079,
      "step": 382090
    },
    {
      "epoch": 0.7960416666666666,
      "grad_norm": 0.8066111207008362,
      "learning_rate": 2.999404873621345e-05,
      "loss": 3.3664,
      "step": 382100
    },
    {
      "epoch": 0.7960625,
      "grad_norm": 0.9171867966651917,
      "learning_rate": 2.998813438435011e-05,
      "loss": 3.2872,
      "step": 382110
    },
    {
      "epoch": 0.7960833333333334,
      "grad_norm": 0.8700512051582336,
      "learning_rate": 2.9982220550890558e-05,
      "loss": 3.2998,
      "step": 382120
    },
    {
      "epoch": 0.7961041666666666,
      "grad_norm": 0.8598175048828125,
      "learning_rate": 2.9976307235860236e-05,
      "loss": 3.2933,
      "step": 382130
    },
    {
      "epoch": 0.796125,
      "grad_norm": 0.922832727432251,
      "learning_rate": 2.9970394439284795e-05,
      "loss": 3.3118,
      "step": 382140
    },
    {
      "epoch": 0.7961458333333333,
      "grad_norm": 0.8931558728218079,
      "learning_rate": 2.996448216118978e-05,
      "loss": 3.1445,
      "step": 382150
    },
    {
      "epoch": 0.7961666666666667,
      "grad_norm": 0.9455803632736206,
      "learning_rate": 2.995857040160065e-05,
      "loss": 3.3109,
      "step": 382160
    },
    {
      "epoch": 0.7961875,
      "grad_norm": 1.1679713726043701,
      "learning_rate": 2.9952659160542942e-05,
      "loss": 3.2838,
      "step": 382170
    },
    {
      "epoch": 0.7962083333333333,
      "grad_norm": 0.8720715641975403,
      "learning_rate": 2.9946748438042296e-05,
      "loss": 3.4399,
      "step": 382180
    },
    {
      "epoch": 0.7962291666666667,
      "grad_norm": 0.85689777135849,
      "learning_rate": 2.9940838234124142e-05,
      "loss": 3.3961,
      "step": 382190
    },
    {
      "epoch": 0.79625,
      "grad_norm": 0.9745550155639648,
      "learning_rate": 2.9934928548814046e-05,
      "loss": 3.478,
      "step": 382200
    },
    {
      "epoch": 0.7962708333333334,
      "grad_norm": 0.9891526699066162,
      "learning_rate": 2.9929019382137538e-05,
      "loss": 3.3791,
      "step": 382210
    },
    {
      "epoch": 0.7962916666666666,
      "grad_norm": 0.8776076436042786,
      "learning_rate": 2.9923110734120127e-05,
      "loss": 3.2993,
      "step": 382220
    },
    {
      "epoch": 0.7963125,
      "grad_norm": 0.8627196550369263,
      "learning_rate": 2.991720260478736e-05,
      "loss": 3.3277,
      "step": 382230
    },
    {
      "epoch": 0.7963333333333333,
      "grad_norm": 0.9340786337852478,
      "learning_rate": 2.9911294994164735e-05,
      "loss": 3.2717,
      "step": 382240
    },
    {
      "epoch": 0.7963541666666667,
      "grad_norm": 0.9114355444908142,
      "learning_rate": 2.99053879022778e-05,
      "loss": 3.4006,
      "step": 382250
    },
    {
      "epoch": 0.796375,
      "grad_norm": 0.9197078943252563,
      "learning_rate": 2.989948132915203e-05,
      "loss": 3.3559,
      "step": 382260
    },
    {
      "epoch": 0.7963958333333333,
      "grad_norm": 0.9598482251167297,
      "learning_rate": 2.9893575274812975e-05,
      "loss": 3.3361,
      "step": 382270
    },
    {
      "epoch": 0.7964166666666667,
      "grad_norm": 0.8902756571769714,
      "learning_rate": 2.988766973928613e-05,
      "loss": 3.3923,
      "step": 382280
    },
    {
      "epoch": 0.7964375,
      "grad_norm": 0.911231279373169,
      "learning_rate": 2.9881764722597008e-05,
      "loss": 3.239,
      "step": 382290
    },
    {
      "epoch": 0.7964583333333334,
      "grad_norm": 0.8486155271530151,
      "learning_rate": 2.987586022477112e-05,
      "loss": 3.4524,
      "step": 382300
    },
    {
      "epoch": 0.7964791666666666,
      "grad_norm": 0.8978102803230286,
      "learning_rate": 2.9869956245833966e-05,
      "loss": 3.3853,
      "step": 382310
    },
    {
      "epoch": 0.7965,
      "grad_norm": 0.87624192237854,
      "learning_rate": 2.986405278581104e-05,
      "loss": 3.1829,
      "step": 382320
    },
    {
      "epoch": 0.7965208333333333,
      "grad_norm": 1.160699486732483,
      "learning_rate": 2.9858149844727868e-05,
      "loss": 3.2756,
      "step": 382330
    },
    {
      "epoch": 0.7965416666666667,
      "grad_norm": 0.895582377910614,
      "learning_rate": 2.9852247422609922e-05,
      "loss": 3.3636,
      "step": 382340
    },
    {
      "epoch": 0.7965625,
      "grad_norm": 0.9624264240264893,
      "learning_rate": 2.9846345519482724e-05,
      "loss": 3.3433,
      "step": 382350
    },
    {
      "epoch": 0.7965833333333333,
      "grad_norm": 0.8526390194892883,
      "learning_rate": 2.984044413537174e-05,
      "loss": 3.2375,
      "step": 382360
    },
    {
      "epoch": 0.7966041666666667,
      "grad_norm": 1.0136691331863403,
      "learning_rate": 2.983454327030248e-05,
      "loss": 3.2844,
      "step": 382370
    },
    {
      "epoch": 0.796625,
      "grad_norm": 0.8944643139839172,
      "learning_rate": 2.982864292430041e-05,
      "loss": 3.2885,
      "step": 382380
    },
    {
      "epoch": 0.7966458333333334,
      "grad_norm": 0.790244996547699,
      "learning_rate": 2.982274309739106e-05,
      "loss": 3.2551,
      "step": 382390
    },
    {
      "epoch": 0.7966666666666666,
      "grad_norm": 0.8638759255409241,
      "learning_rate": 2.9816843789599875e-05,
      "loss": 3.3549,
      "step": 382400
    },
    {
      "epoch": 0.7966875,
      "grad_norm": 1.0346007347106934,
      "learning_rate": 2.981094500095237e-05,
      "loss": 3.424,
      "step": 382410
    },
    {
      "epoch": 0.7967083333333334,
      "grad_norm": 0.8434756994247437,
      "learning_rate": 2.9805046731474003e-05,
      "loss": 3.4864,
      "step": 382420
    },
    {
      "epoch": 0.7967291666666667,
      "grad_norm": 0.9089288711547852,
      "learning_rate": 2.979914898119029e-05,
      "loss": 3.3665,
      "step": 382430
    },
    {
      "epoch": 0.79675,
      "grad_norm": 0.9353532195091248,
      "learning_rate": 2.979325175012663e-05,
      "loss": 3.2903,
      "step": 382440
    },
    {
      "epoch": 0.7967708333333333,
      "grad_norm": 0.8793013691902161,
      "learning_rate": 2.9787355038308514e-05,
      "loss": 3.3747,
      "step": 382450
    },
    {
      "epoch": 0.7967916666666667,
      "grad_norm": 0.9915587306022644,
      "learning_rate": 2.9781458845761508e-05,
      "loss": 3.2993,
      "step": 382460
    },
    {
      "epoch": 0.7968125,
      "grad_norm": 0.848366379737854,
      "learning_rate": 2.977556317251099e-05,
      "loss": 3.3299,
      "step": 382470
    },
    {
      "epoch": 0.7968333333333333,
      "grad_norm": 0.8881178498268127,
      "learning_rate": 2.9769668018582395e-05,
      "loss": 3.3914,
      "step": 382480
    },
    {
      "epoch": 0.7968541666666666,
      "grad_norm": 0.9192516207695007,
      "learning_rate": 2.9763773384001327e-05,
      "loss": 3.355,
      "step": 382490
    },
    {
      "epoch": 0.796875,
      "grad_norm": 0.8441950082778931,
      "learning_rate": 2.975787926879314e-05,
      "loss": 3.2999,
      "step": 382500
    },
    {
      "epoch": 0.7968958333333334,
      "grad_norm": 0.9281468987464905,
      "learning_rate": 2.9751985672983274e-05,
      "loss": 3.1057,
      "step": 382510
    },
    {
      "epoch": 0.7969166666666667,
      "grad_norm": 1.0280753374099731,
      "learning_rate": 2.97460925965973e-05,
      "loss": 3.4015,
      "step": 382520
    },
    {
      "epoch": 0.7969375,
      "grad_norm": 0.7912003993988037,
      "learning_rate": 2.9740200039660573e-05,
      "loss": 3.349,
      "step": 382530
    },
    {
      "epoch": 0.7969583333333333,
      "grad_norm": 0.9161949157714844,
      "learning_rate": 2.973430800219854e-05,
      "loss": 3.3519,
      "step": 382540
    },
    {
      "epoch": 0.7969791666666667,
      "grad_norm": 0.9713062047958374,
      "learning_rate": 2.972841648423677e-05,
      "loss": 3.4017,
      "step": 382550
    },
    {
      "epoch": 0.797,
      "grad_norm": 0.8564661741256714,
      "learning_rate": 2.9722525485800592e-05,
      "loss": 3.32,
      "step": 382560
    },
    {
      "epoch": 0.7970208333333333,
      "grad_norm": 0.85560542345047,
      "learning_rate": 2.971663500691551e-05,
      "loss": 3.2816,
      "step": 382570
    },
    {
      "epoch": 0.7970416666666666,
      "grad_norm": 0.8305493593215942,
      "learning_rate": 2.971074504760693e-05,
      "loss": 3.2595,
      "step": 382580
    },
    {
      "epoch": 0.7970625,
      "grad_norm": 0.9286054372787476,
      "learning_rate": 2.970485560790033e-05,
      "loss": 3.3602,
      "step": 382590
    },
    {
      "epoch": 0.7970833333333334,
      "grad_norm": 1.0994457006454468,
      "learning_rate": 2.9698966687821153e-05,
      "loss": 3.307,
      "step": 382600
    },
    {
      "epoch": 0.7971041666666666,
      "grad_norm": 0.8629088997840881,
      "learning_rate": 2.9693078287394794e-05,
      "loss": 3.3732,
      "step": 382610
    },
    {
      "epoch": 0.797125,
      "grad_norm": 0.8872359395027161,
      "learning_rate": 2.9687190406646737e-05,
      "loss": 3.4171,
      "step": 382620
    },
    {
      "epoch": 0.7971458333333333,
      "grad_norm": 1.0421456098556519,
      "learning_rate": 2.968130304560238e-05,
      "loss": 3.394,
      "step": 382630
    },
    {
      "epoch": 0.7971666666666667,
      "grad_norm": 0.9038276672363281,
      "learning_rate": 2.9675416204287177e-05,
      "loss": 3.3736,
      "step": 382640
    },
    {
      "epoch": 0.7971875,
      "grad_norm": 0.7555173635482788,
      "learning_rate": 2.9669529882726533e-05,
      "loss": 3.3914,
      "step": 382650
    },
    {
      "epoch": 0.7972083333333333,
      "grad_norm": 0.8896462321281433,
      "learning_rate": 2.966364408094591e-05,
      "loss": 3.3298,
      "step": 382660
    },
    {
      "epoch": 0.7972291666666667,
      "grad_norm": 0.8869867920875549,
      "learning_rate": 2.96577587989707e-05,
      "loss": 3.267,
      "step": 382670
    },
    {
      "epoch": 0.79725,
      "grad_norm": 1.0850017070770264,
      "learning_rate": 2.9651874036826352e-05,
      "loss": 3.2978,
      "step": 382680
    },
    {
      "epoch": 0.7972708333333334,
      "grad_norm": 1.161038875579834,
      "learning_rate": 2.964598979453826e-05,
      "loss": 3.3304,
      "step": 382690
    },
    {
      "epoch": 0.7972916666666666,
      "grad_norm": 0.938148558139801,
      "learning_rate": 2.9640106072131843e-05,
      "loss": 3.4854,
      "step": 382700
    },
    {
      "epoch": 0.7973125,
      "grad_norm": 0.9296917915344238,
      "learning_rate": 2.963422286963254e-05,
      "loss": 3.2617,
      "step": 382710
    },
    {
      "epoch": 0.7973333333333333,
      "grad_norm": 0.9216716289520264,
      "learning_rate": 2.9628340187065734e-05,
      "loss": 3.3877,
      "step": 382720
    },
    {
      "epoch": 0.7973541666666667,
      "grad_norm": 0.8822326064109802,
      "learning_rate": 2.9622458024456875e-05,
      "loss": 3.3227,
      "step": 382730
    },
    {
      "epoch": 0.797375,
      "grad_norm": 0.992683470249176,
      "learning_rate": 2.9616576381831338e-05,
      "loss": 3.2602,
      "step": 382740
    },
    {
      "epoch": 0.7973958333333333,
      "grad_norm": 0.8449378609657288,
      "learning_rate": 2.9610695259214583e-05,
      "loss": 3.3895,
      "step": 382750
    },
    {
      "epoch": 0.7974166666666667,
      "grad_norm": 0.837285578250885,
      "learning_rate": 2.960481465663188e-05,
      "loss": 3.4451,
      "step": 382760
    },
    {
      "epoch": 0.7974375,
      "grad_norm": 0.8488808274269104,
      "learning_rate": 2.9598934574108772e-05,
      "loss": 3.3342,
      "step": 382770
    },
    {
      "epoch": 0.7974583333333334,
      "grad_norm": 0.8778148889541626,
      "learning_rate": 2.959305501167064e-05,
      "loss": 3.4044,
      "step": 382780
    },
    {
      "epoch": 0.7974791666666666,
      "grad_norm": 0.8894367218017578,
      "learning_rate": 2.958717596934278e-05,
      "loss": 3.3802,
      "step": 382790
    },
    {
      "epoch": 0.7975,
      "grad_norm": 0.9107274413108826,
      "learning_rate": 2.958129744715074e-05,
      "loss": 3.3558,
      "step": 382800
    },
    {
      "epoch": 0.7975208333333333,
      "grad_norm": 0.8545424342155457,
      "learning_rate": 2.9575419445119775e-05,
      "loss": 3.3578,
      "step": 382810
    },
    {
      "epoch": 0.7975416666666667,
      "grad_norm": 0.9015270471572876,
      "learning_rate": 2.9569541963275305e-05,
      "loss": 3.3983,
      "step": 382820
    },
    {
      "epoch": 0.7975625,
      "grad_norm": 0.9478784203529358,
      "learning_rate": 2.956366500164281e-05,
      "loss": 3.5408,
      "step": 382830
    },
    {
      "epoch": 0.7975833333333333,
      "grad_norm": 0.9296995997428894,
      "learning_rate": 2.9557788560247585e-05,
      "loss": 3.2467,
      "step": 382840
    },
    {
      "epoch": 0.7976041666666667,
      "grad_norm": 0.8247476816177368,
      "learning_rate": 2.9551912639114995e-05,
      "loss": 3.3384,
      "step": 382850
    },
    {
      "epoch": 0.797625,
      "grad_norm": 0.9991398453712463,
      "learning_rate": 2.954603723827053e-05,
      "loss": 3.3337,
      "step": 382860
    },
    {
      "epoch": 0.7976458333333334,
      "grad_norm": 0.9744592308998108,
      "learning_rate": 2.9540162357739478e-05,
      "loss": 3.2778,
      "step": 382870
    },
    {
      "epoch": 0.7976666666666666,
      "grad_norm": 0.8772652745246887,
      "learning_rate": 2.9534287997547213e-05,
      "loss": 3.2886,
      "step": 382880
    },
    {
      "epoch": 0.7976875,
      "grad_norm": 0.9591369032859802,
      "learning_rate": 2.95284141577192e-05,
      "loss": 3.3194,
      "step": 382890
    },
    {
      "epoch": 0.7977083333333334,
      "grad_norm": 0.9627036452293396,
      "learning_rate": 2.9522540838280735e-05,
      "loss": 3.3875,
      "step": 382900
    },
    {
      "epoch": 0.7977291666666667,
      "grad_norm": 0.7913275361061096,
      "learning_rate": 2.9516668039257145e-05,
      "loss": 3.3613,
      "step": 382910
    },
    {
      "epoch": 0.79775,
      "grad_norm": 1.0653780698776245,
      "learning_rate": 2.951079576067395e-05,
      "loss": 3.2895,
      "step": 382920
    },
    {
      "epoch": 0.7977708333333333,
      "grad_norm": 0.8360522985458374,
      "learning_rate": 2.9504924002556374e-05,
      "loss": 3.3204,
      "step": 382930
    },
    {
      "epoch": 0.7977916666666667,
      "grad_norm": 0.9318682551383972,
      "learning_rate": 2.949905276492985e-05,
      "loss": 3.2844,
      "step": 382940
    },
    {
      "epoch": 0.7978125,
      "grad_norm": 0.8259021639823914,
      "learning_rate": 2.94931820478197e-05,
      "loss": 3.3901,
      "step": 382950
    },
    {
      "epoch": 0.7978333333333333,
      "grad_norm": 0.9471984505653381,
      "learning_rate": 2.9487311851251315e-05,
      "loss": 3.2697,
      "step": 382960
    },
    {
      "epoch": 0.7978541666666666,
      "grad_norm": 0.9034845232963562,
      "learning_rate": 2.9481442175250036e-05,
      "loss": 3.3008,
      "step": 382970
    },
    {
      "epoch": 0.797875,
      "grad_norm": 0.9943751096725464,
      "learning_rate": 2.9475573019841224e-05,
      "loss": 3.3374,
      "step": 382980
    },
    {
      "epoch": 0.7978958333333334,
      "grad_norm": 0.8693428039550781,
      "learning_rate": 2.9469704385050232e-05,
      "loss": 3.2481,
      "step": 382990
    },
    {
      "epoch": 0.7979166666666667,
      "grad_norm": 0.8470181822776794,
      "learning_rate": 2.9463836270902396e-05,
      "loss": 3.2588,
      "step": 383000
    },
    {
      "epoch": 0.7979166666666667,
      "eval_loss": 4.041281700134277,
      "eval_runtime": 8.8817,
      "eval_samples_per_second": 1.126,
      "eval_steps_per_second": 0.338,
      "step": 383000
    },
    {
      "epoch": 0.7979375,
      "grad_norm": 0.8542254567146301,
      "learning_rate": 2.9457968677423087e-05,
      "loss": 3.2675,
      "step": 383010
    },
    {
      "epoch": 0.7979583333333333,
      "grad_norm": 0.844345211982727,
      "learning_rate": 2.9452101604637635e-05,
      "loss": 3.2736,
      "step": 383020
    },
    {
      "epoch": 0.7979791666666667,
      "grad_norm": 0.9243692755699158,
      "learning_rate": 2.94462350525714e-05,
      "loss": 3.3736,
      "step": 383030
    },
    {
      "epoch": 0.798,
      "grad_norm": 0.8304126858711243,
      "learning_rate": 2.9440369021249694e-05,
      "loss": 3.3183,
      "step": 383040
    },
    {
      "epoch": 0.7980208333333333,
      "grad_norm": 0.8849756121635437,
      "learning_rate": 2.943450351069788e-05,
      "loss": 3.3745,
      "step": 383050
    },
    {
      "epoch": 0.7980416666666666,
      "grad_norm": 0.8629447817802429,
      "learning_rate": 2.9428638520941328e-05,
      "loss": 3.2376,
      "step": 383060
    },
    {
      "epoch": 0.7980625,
      "grad_norm": 0.8811519145965576,
      "learning_rate": 2.9422774052005242e-05,
      "loss": 3.3355,
      "step": 383070
    },
    {
      "epoch": 0.7980833333333334,
      "grad_norm": 0.8088506460189819,
      "learning_rate": 2.941691010391511e-05,
      "loss": 3.3754,
      "step": 383080
    },
    {
      "epoch": 0.7981041666666666,
      "grad_norm": 0.9691201448440552,
      "learning_rate": 2.941104667669622e-05,
      "loss": 3.327,
      "step": 383090
    },
    {
      "epoch": 0.798125,
      "grad_norm": 1.0036262273788452,
      "learning_rate": 2.940518377037379e-05,
      "loss": 3.2704,
      "step": 383100
    },
    {
      "epoch": 0.7981458333333333,
      "grad_norm": 0.8594076037406921,
      "learning_rate": 2.9399321384973285e-05,
      "loss": 3.3126,
      "step": 383110
    },
    {
      "epoch": 0.7981666666666667,
      "grad_norm": 0.909570574760437,
      "learning_rate": 2.9393459520519995e-05,
      "loss": 3.439,
      "step": 383120
    },
    {
      "epoch": 0.7981875,
      "grad_norm": 0.8843455910682678,
      "learning_rate": 2.9387598177039157e-05,
      "loss": 3.3177,
      "step": 383130
    },
    {
      "epoch": 0.7982083333333333,
      "grad_norm": 0.9832530617713928,
      "learning_rate": 2.9381737354556196e-05,
      "loss": 3.4189,
      "step": 383140
    },
    {
      "epoch": 0.7982291666666667,
      "grad_norm": 0.9121230244636536,
      "learning_rate": 2.9375877053096408e-05,
      "loss": 3.2729,
      "step": 383150
    },
    {
      "epoch": 0.79825,
      "grad_norm": 0.9361558556556702,
      "learning_rate": 2.9370017272685027e-05,
      "loss": 3.2919,
      "step": 383160
    },
    {
      "epoch": 0.7982708333333334,
      "grad_norm": 0.860237717628479,
      "learning_rate": 2.9364158013347445e-05,
      "loss": 3.2902,
      "step": 383170
    },
    {
      "epoch": 0.7982916666666666,
      "grad_norm": 1.0194122791290283,
      "learning_rate": 2.9358299275108993e-05,
      "loss": 3.4276,
      "step": 383180
    },
    {
      "epoch": 0.7983125,
      "grad_norm": 0.9097959399223328,
      "learning_rate": 2.9352441057994868e-05,
      "loss": 3.3104,
      "step": 383190
    },
    {
      "epoch": 0.7983333333333333,
      "grad_norm": 0.9540702104568481,
      "learning_rate": 2.9346583362030502e-05,
      "loss": 3.379,
      "step": 383200
    },
    {
      "epoch": 0.7983541666666667,
      "grad_norm": 0.8708671927452087,
      "learning_rate": 2.9340726187241105e-05,
      "loss": 3.4705,
      "step": 383210
    },
    {
      "epoch": 0.798375,
      "grad_norm": 0.8108170628547668,
      "learning_rate": 2.933486953365197e-05,
      "loss": 3.344,
      "step": 383220
    },
    {
      "epoch": 0.7983958333333333,
      "grad_norm": 0.8832960724830627,
      "learning_rate": 2.932901340128852e-05,
      "loss": 3.3547,
      "step": 383230
    },
    {
      "epoch": 0.7984166666666667,
      "grad_norm": 0.878398060798645,
      "learning_rate": 2.9323157790175928e-05,
      "loss": 3.2452,
      "step": 383240
    },
    {
      "epoch": 0.7984375,
      "grad_norm": 0.8986024260520935,
      "learning_rate": 2.931730270033949e-05,
      "loss": 3.2923,
      "step": 383250
    },
    {
      "epoch": 0.7984583333333334,
      "grad_norm": 0.9314558506011963,
      "learning_rate": 2.9311448131804605e-05,
      "loss": 3.4107,
      "step": 383260
    },
    {
      "epoch": 0.7984791666666666,
      "grad_norm": 0.8625479340553284,
      "learning_rate": 2.9305594084596467e-05,
      "loss": 3.3843,
      "step": 383270
    },
    {
      "epoch": 0.7985,
      "grad_norm": 0.866813600063324,
      "learning_rate": 2.9299740558740343e-05,
      "loss": 3.3478,
      "step": 383280
    },
    {
      "epoch": 0.7985208333333333,
      "grad_norm": 0.8529641032218933,
      "learning_rate": 2.9293887554261625e-05,
      "loss": 3.2871,
      "step": 383290
    },
    {
      "epoch": 0.7985416666666667,
      "grad_norm": 0.7944454550743103,
      "learning_rate": 2.928803507118551e-05,
      "loss": 3.2768,
      "step": 383300
    },
    {
      "epoch": 0.7985625,
      "grad_norm": 0.9204179644584656,
      "learning_rate": 2.92821831095373e-05,
      "loss": 3.348,
      "step": 383310
    },
    {
      "epoch": 0.7985833333333333,
      "grad_norm": 0.8448153734207153,
      "learning_rate": 2.9276331669342285e-05,
      "loss": 3.2145,
      "step": 383320
    },
    {
      "epoch": 0.7986041666666667,
      "grad_norm": 1.0560176372528076,
      "learning_rate": 2.9270480750625713e-05,
      "loss": 3.4732,
      "step": 383330
    },
    {
      "epoch": 0.798625,
      "grad_norm": 0.957504391670227,
      "learning_rate": 2.9264630353412882e-05,
      "loss": 3.5438,
      "step": 383340
    },
    {
      "epoch": 0.7986458333333334,
      "grad_norm": 0.8688079118728638,
      "learning_rate": 2.9258780477729073e-05,
      "loss": 3.3052,
      "step": 383350
    },
    {
      "epoch": 0.7986666666666666,
      "grad_norm": 0.9362356662750244,
      "learning_rate": 2.9252931123599526e-05,
      "loss": 3.3791,
      "step": 383360
    },
    {
      "epoch": 0.7986875,
      "grad_norm": 0.911110520362854,
      "learning_rate": 2.9247082291049527e-05,
      "loss": 3.305,
      "step": 383370
    },
    {
      "epoch": 0.7987083333333334,
      "grad_norm": 0.9408239126205444,
      "learning_rate": 2.924123398010432e-05,
      "loss": 3.5073,
      "step": 383380
    },
    {
      "epoch": 0.7987291666666667,
      "grad_norm": 0.875062108039856,
      "learning_rate": 2.9235386190789207e-05,
      "loss": 3.2915,
      "step": 383390
    },
    {
      "epoch": 0.79875,
      "grad_norm": 0.926322877407074,
      "learning_rate": 2.9229538923129407e-05,
      "loss": 3.2406,
      "step": 383400
    },
    {
      "epoch": 0.7987708333333333,
      "grad_norm": 1.080592393875122,
      "learning_rate": 2.9223692177150193e-05,
      "loss": 3.38,
      "step": 383410
    },
    {
      "epoch": 0.7987916666666667,
      "grad_norm": 0.9960811734199524,
      "learning_rate": 2.9217845952876822e-05,
      "loss": 3.3984,
      "step": 383420
    },
    {
      "epoch": 0.7988125,
      "grad_norm": 0.8936859369277954,
      "learning_rate": 2.9212000250334595e-05,
      "loss": 3.1929,
      "step": 383430
    },
    {
      "epoch": 0.7988333333333333,
      "grad_norm": 0.8973417282104492,
      "learning_rate": 2.9206155069548637e-05,
      "loss": 3.2579,
      "step": 383440
    },
    {
      "epoch": 0.7988541666666666,
      "grad_norm": 0.9804253578186035,
      "learning_rate": 2.9200310410544313e-05,
      "loss": 3.3485,
      "step": 383450
    },
    {
      "epoch": 0.798875,
      "grad_norm": 0.8067810535430908,
      "learning_rate": 2.9194466273346873e-05,
      "loss": 3.1906,
      "step": 383460
    },
    {
      "epoch": 0.7988958333333334,
      "grad_norm": 0.8836610913276672,
      "learning_rate": 2.918862265798144e-05,
      "loss": 3.2397,
      "step": 383470
    },
    {
      "epoch": 0.7989166666666667,
      "grad_norm": 0.9043694138526917,
      "learning_rate": 2.9182779564473368e-05,
      "loss": 3.3745,
      "step": 383480
    },
    {
      "epoch": 0.7989375,
      "grad_norm": 0.832786500453949,
      "learning_rate": 2.9176936992847914e-05,
      "loss": 3.3615,
      "step": 383490
    },
    {
      "epoch": 0.7989583333333333,
      "grad_norm": 0.9523825645446777,
      "learning_rate": 2.9171094943130197e-05,
      "loss": 3.4276,
      "step": 383500
    },
    {
      "epoch": 0.7989791666666667,
      "grad_norm": 0.9239271879196167,
      "learning_rate": 2.916525341534554e-05,
      "loss": 3.3642,
      "step": 383510
    },
    {
      "epoch": 0.799,
      "grad_norm": 0.9043355584144592,
      "learning_rate": 2.915941240951921e-05,
      "loss": 3.3374,
      "step": 383520
    },
    {
      "epoch": 0.7990208333333333,
      "grad_norm": 0.9054740071296692,
      "learning_rate": 2.9153571925676306e-05,
      "loss": 3.3861,
      "step": 383530
    },
    {
      "epoch": 0.7990416666666667,
      "grad_norm": 0.808742880821228,
      "learning_rate": 2.9147731963842186e-05,
      "loss": 3.2307,
      "step": 383540
    },
    {
      "epoch": 0.7990625,
      "grad_norm": 0.9025098085403442,
      "learning_rate": 2.914189252404205e-05,
      "loss": 3.3316,
      "step": 383550
    },
    {
      "epoch": 0.7990833333333334,
      "grad_norm": 0.8933178782463074,
      "learning_rate": 2.9136053606301042e-05,
      "loss": 3.2958,
      "step": 383560
    },
    {
      "epoch": 0.7991041666666666,
      "grad_norm": 0.9402696490287781,
      "learning_rate": 2.9130215210644492e-05,
      "loss": 3.2441,
      "step": 383570
    },
    {
      "epoch": 0.799125,
      "grad_norm": 0.9420450329780579,
      "learning_rate": 2.912437733709755e-05,
      "loss": 3.348,
      "step": 383580
    },
    {
      "epoch": 0.7991458333333333,
      "grad_norm": 1.0057544708251953,
      "learning_rate": 2.9118539985685406e-05,
      "loss": 3.3804,
      "step": 383590
    },
    {
      "epoch": 0.7991666666666667,
      "grad_norm": 0.9298637509346008,
      "learning_rate": 2.9112703156433397e-05,
      "loss": 3.3145,
      "step": 383600
    },
    {
      "epoch": 0.7991875,
      "grad_norm": 0.9590866565704346,
      "learning_rate": 2.9106866849366633e-05,
      "loss": 3.2036,
      "step": 383610
    },
    {
      "epoch": 0.7992083333333333,
      "grad_norm": 0.8358530402183533,
      "learning_rate": 2.9101031064510344e-05,
      "loss": 3.2542,
      "step": 383620
    },
    {
      "epoch": 0.7992291666666667,
      "grad_norm": 0.9167642593383789,
      "learning_rate": 2.9095195801889742e-05,
      "loss": 3.3618,
      "step": 383630
    },
    {
      "epoch": 0.79925,
      "grad_norm": 1.1932579278945923,
      "learning_rate": 2.908936106153004e-05,
      "loss": 3.3585,
      "step": 383640
    },
    {
      "epoch": 0.7992708333333334,
      "grad_norm": 0.8778783679008484,
      "learning_rate": 2.908352684345644e-05,
      "loss": 3.3467,
      "step": 383650
    },
    {
      "epoch": 0.7992916666666666,
      "grad_norm": 0.9055370092391968,
      "learning_rate": 2.9077693147694132e-05,
      "loss": 3.2882,
      "step": 383660
    },
    {
      "epoch": 0.7993125,
      "grad_norm": 0.8172414898872375,
      "learning_rate": 2.907185997426833e-05,
      "loss": 3.2801,
      "step": 383670
    },
    {
      "epoch": 0.7993333333333333,
      "grad_norm": 0.9192401170730591,
      "learning_rate": 2.906602732320423e-05,
      "loss": 3.3025,
      "step": 383680
    },
    {
      "epoch": 0.7993541666666667,
      "grad_norm": 0.9238665103912354,
      "learning_rate": 2.9060195194527018e-05,
      "loss": 3.2844,
      "step": 383690
    },
    {
      "epoch": 0.799375,
      "grad_norm": 0.8929986357688904,
      "learning_rate": 2.90543635882619e-05,
      "loss": 3.4122,
      "step": 383700
    },
    {
      "epoch": 0.7993958333333333,
      "grad_norm": 0.9528540968894958,
      "learning_rate": 2.9048532504434045e-05,
      "loss": 3.3002,
      "step": 383710
    },
    {
      "epoch": 0.7994166666666667,
      "grad_norm": 0.8314896821975708,
      "learning_rate": 2.9042701943068664e-05,
      "loss": 3.3091,
      "step": 383720
    },
    {
      "epoch": 0.7994375,
      "grad_norm": 0.87712562084198,
      "learning_rate": 2.9036871904190934e-05,
      "loss": 3.4423,
      "step": 383730
    },
    {
      "epoch": 0.7994583333333334,
      "grad_norm": 0.8608981966972351,
      "learning_rate": 2.9031042387826038e-05,
      "loss": 3.2638,
      "step": 383740
    },
    {
      "epoch": 0.7994791666666666,
      "grad_norm": 0.9904370307922363,
      "learning_rate": 2.9025213393999154e-05,
      "loss": 3.3496,
      "step": 383750
    },
    {
      "epoch": 0.7995,
      "grad_norm": 0.8914680480957031,
      "learning_rate": 2.9019384922735444e-05,
      "loss": 3.388,
      "step": 383760
    },
    {
      "epoch": 0.7995208333333333,
      "grad_norm": 0.9873097538948059,
      "learning_rate": 2.9013556974060126e-05,
      "loss": 3.3265,
      "step": 383770
    },
    {
      "epoch": 0.7995416666666667,
      "grad_norm": 0.9122205972671509,
      "learning_rate": 2.9007729547998343e-05,
      "loss": 3.2568,
      "step": 383780
    },
    {
      "epoch": 0.7995625,
      "grad_norm": 0.9051676988601685,
      "learning_rate": 2.9001902644575274e-05,
      "loss": 3.3593,
      "step": 383790
    },
    {
      "epoch": 0.7995833333333333,
      "grad_norm": 0.9098048210144043,
      "learning_rate": 2.8996076263816136e-05,
      "loss": 3.4226,
      "step": 383800
    },
    {
      "epoch": 0.7996041666666667,
      "grad_norm": 0.8387647867202759,
      "learning_rate": 2.8990250405745972e-05,
      "loss": 3.3445,
      "step": 383810
    },
    {
      "epoch": 0.799625,
      "grad_norm": 0.8483097553253174,
      "learning_rate": 2.8984425070390083e-05,
      "loss": 3.3375,
      "step": 383820
    },
    {
      "epoch": 0.7996458333333333,
      "grad_norm": 0.917858898639679,
      "learning_rate": 2.8978600257773594e-05,
      "loss": 3.2922,
      "step": 383830
    },
    {
      "epoch": 0.7996666666666666,
      "grad_norm": 0.8937625288963318,
      "learning_rate": 2.8972775967921567e-05,
      "loss": 3.2777,
      "step": 383840
    },
    {
      "epoch": 0.7996875,
      "grad_norm": 0.9881609082221985,
      "learning_rate": 2.896695220085929e-05,
      "loss": 3.3854,
      "step": 383850
    },
    {
      "epoch": 0.7997083333333334,
      "grad_norm": 0.9314277172088623,
      "learning_rate": 2.896112895661192e-05,
      "loss": 3.3991,
      "step": 383860
    },
    {
      "epoch": 0.7997291666666667,
      "grad_norm": 0.7932207584381104,
      "learning_rate": 2.8955306235204468e-05,
      "loss": 3.2864,
      "step": 383870
    },
    {
      "epoch": 0.79975,
      "grad_norm": 0.8055408596992493,
      "learning_rate": 2.8949484036662236e-05,
      "loss": 3.3692,
      "step": 383880
    },
    {
      "epoch": 0.7997708333333333,
      "grad_norm": 0.842375636100769,
      "learning_rate": 2.8943662361010333e-05,
      "loss": 3.2625,
      "step": 383890
    },
    {
      "epoch": 0.7997916666666667,
      "grad_norm": 0.8746356964111328,
      "learning_rate": 2.8937841208273877e-05,
      "loss": 3.4929,
      "step": 383900
    },
    {
      "epoch": 0.7998125,
      "grad_norm": 0.7784569263458252,
      "learning_rate": 2.8932020578477978e-05,
      "loss": 3.2401,
      "step": 383910
    },
    {
      "epoch": 0.7998333333333333,
      "grad_norm": 0.8764276504516602,
      "learning_rate": 2.89262004716479e-05,
      "loss": 3.2575,
      "step": 383920
    },
    {
      "epoch": 0.7998541666666666,
      "grad_norm": 0.8490009903907776,
      "learning_rate": 2.892038088780867e-05,
      "loss": 3.291,
      "step": 383930
    },
    {
      "epoch": 0.799875,
      "grad_norm": 0.8609127998352051,
      "learning_rate": 2.891456182698549e-05,
      "loss": 3.3,
      "step": 383940
    },
    {
      "epoch": 0.7998958333333334,
      "grad_norm": 0.8146757483482361,
      "learning_rate": 2.890874328920345e-05,
      "loss": 3.3063,
      "step": 383950
    },
    {
      "epoch": 0.7999166666666667,
      "grad_norm": 1.234215497970581,
      "learning_rate": 2.890292527448772e-05,
      "loss": 3.2822,
      "step": 383960
    },
    {
      "epoch": 0.7999375,
      "grad_norm": 1.1067146062850952,
      "learning_rate": 2.889710778286341e-05,
      "loss": 3.4821,
      "step": 383970
    },
    {
      "epoch": 0.7999583333333333,
      "grad_norm": 0.8714099526405334,
      "learning_rate": 2.8891290814355668e-05,
      "loss": 3.1993,
      "step": 383980
    },
    {
      "epoch": 0.7999791666666667,
      "grad_norm": 0.9364395141601562,
      "learning_rate": 2.8885474368989604e-05,
      "loss": 3.2987,
      "step": 383990
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8564205169677734,
      "learning_rate": 2.8879658446790367e-05,
      "loss": 3.3472,
      "step": 384000
    },
    {
      "epoch": 0.8,
      "eval_loss": 4.039032459259033,
      "eval_runtime": 8.6741,
      "eval_samples_per_second": 1.153,
      "eval_steps_per_second": 0.346,
      "step": 384000
    },
    {
      "epoch": 0.8000208333333333,
      "grad_norm": 0.9666057825088501,
      "learning_rate": 2.8873843047783052e-05,
      "loss": 3.3422,
      "step": 384010
    },
    {
      "epoch": 0.8000416666666667,
      "grad_norm": 0.8418203592300415,
      "learning_rate": 2.8868028171992773e-05,
      "loss": 3.2875,
      "step": 384020
    },
    {
      "epoch": 0.8000625,
      "grad_norm": 0.958405077457428,
      "learning_rate": 2.8862213819444696e-05,
      "loss": 3.3518,
      "step": 384030
    },
    {
      "epoch": 0.8000833333333334,
      "grad_norm": 0.9060685634613037,
      "learning_rate": 2.885639999016388e-05,
      "loss": 3.2987,
      "step": 384040
    },
    {
      "epoch": 0.8001041666666666,
      "grad_norm": 0.8506203293800354,
      "learning_rate": 2.8850586684175474e-05,
      "loss": 3.3199,
      "step": 384050
    },
    {
      "epoch": 0.800125,
      "grad_norm": 0.871353268623352,
      "learning_rate": 2.8844773901504574e-05,
      "loss": 3.3292,
      "step": 384060
    },
    {
      "epoch": 0.8001458333333333,
      "grad_norm": 0.9684810638427734,
      "learning_rate": 2.883896164217631e-05,
      "loss": 3.4127,
      "step": 384070
    },
    {
      "epoch": 0.8001666666666667,
      "grad_norm": 0.8375006914138794,
      "learning_rate": 2.8833149906215764e-05,
      "loss": 3.2614,
      "step": 384080
    },
    {
      "epoch": 0.8001875,
      "grad_norm": 0.8955817222595215,
      "learning_rate": 2.8827338693648045e-05,
      "loss": 3.3175,
      "step": 384090
    },
    {
      "epoch": 0.8002083333333333,
      "grad_norm": 0.8381333947181702,
      "learning_rate": 2.882152800449827e-05,
      "loss": 3.3222,
      "step": 384100
    },
    {
      "epoch": 0.8002291666666667,
      "grad_norm": 0.9247609376907349,
      "learning_rate": 2.8815717838791512e-05,
      "loss": 3.3544,
      "step": 384110
    },
    {
      "epoch": 0.80025,
      "grad_norm": 0.8263452053070068,
      "learning_rate": 2.8809908196552893e-05,
      "loss": 3.3473,
      "step": 384120
    },
    {
      "epoch": 0.8002708333333334,
      "grad_norm": 0.8696020841598511,
      "learning_rate": 2.8804099077807506e-05,
      "loss": 3.3224,
      "step": 384130
    },
    {
      "epoch": 0.8002916666666666,
      "grad_norm": 0.8333472013473511,
      "learning_rate": 2.8798290482580434e-05,
      "loss": 3.3129,
      "step": 384140
    },
    {
      "epoch": 0.8003125,
      "grad_norm": 1.0165352821350098,
      "learning_rate": 2.8792482410896767e-05,
      "loss": 3.2947,
      "step": 384150
    },
    {
      "epoch": 0.8003333333333333,
      "grad_norm": 1.0281152725219727,
      "learning_rate": 2.8786674862781606e-05,
      "loss": 3.3333,
      "step": 384160
    },
    {
      "epoch": 0.8003541666666667,
      "grad_norm": 0.8726109862327576,
      "learning_rate": 2.8780867838260014e-05,
      "loss": 3.2389,
      "step": 384170
    },
    {
      "epoch": 0.800375,
      "grad_norm": 0.9235760569572449,
      "learning_rate": 2.8775061337357104e-05,
      "loss": 3.3868,
      "step": 384180
    },
    {
      "epoch": 0.8003958333333333,
      "grad_norm": 0.9591469764709473,
      "learning_rate": 2.8769255360097954e-05,
      "loss": 3.1657,
      "step": 384190
    },
    {
      "epoch": 0.8004166666666667,
      "grad_norm": 0.9444760084152222,
      "learning_rate": 2.8763449906507664e-05,
      "loss": 3.2789,
      "step": 384200
    },
    {
      "epoch": 0.8004375,
      "grad_norm": 1.0005240440368652,
      "learning_rate": 2.8757644976611242e-05,
      "loss": 3.3581,
      "step": 384210
    },
    {
      "epoch": 0.8004583333333334,
      "grad_norm": 0.8026230335235596,
      "learning_rate": 2.875184057043376e-05,
      "loss": 3.3023,
      "step": 384220
    },
    {
      "epoch": 0.8004791666666666,
      "grad_norm": 0.987007737159729,
      "learning_rate": 2.8746036688000425e-05,
      "loss": 3.1682,
      "step": 384230
    },
    {
      "epoch": 0.8005,
      "grad_norm": 1.0899349451065063,
      "learning_rate": 2.8740233329336164e-05,
      "loss": 3.5029,
      "step": 384240
    },
    {
      "epoch": 0.8005208333333333,
      "grad_norm": 0.8420311212539673,
      "learning_rate": 2.8734430494466067e-05,
      "loss": 3.3331,
      "step": 384250
    },
    {
      "epoch": 0.8005416666666667,
      "grad_norm": 0.8472124934196472,
      "learning_rate": 2.8728628183415286e-05,
      "loss": 3.3877,
      "step": 384260
    },
    {
      "epoch": 0.8005625,
      "grad_norm": 0.8288440704345703,
      "learning_rate": 2.872282639620881e-05,
      "loss": 3.3111,
      "step": 384270
    },
    {
      "epoch": 0.8005833333333333,
      "grad_norm": 0.8554221987724304,
      "learning_rate": 2.8717025132871678e-05,
      "loss": 3.3818,
      "step": 384280
    },
    {
      "epoch": 0.8006041666666667,
      "grad_norm": 0.8888134956359863,
      "learning_rate": 2.871122439342906e-05,
      "loss": 3.1847,
      "step": 384290
    },
    {
      "epoch": 0.800625,
      "grad_norm": 0.8185245394706726,
      "learning_rate": 2.8705424177905918e-05,
      "loss": 3.3165,
      "step": 384300
    },
    {
      "epoch": 0.8006458333333333,
      "grad_norm": 0.8770507574081421,
      "learning_rate": 2.869962448632733e-05,
      "loss": 3.2568,
      "step": 384310
    },
    {
      "epoch": 0.8006666666666666,
      "grad_norm": 0.9536842107772827,
      "learning_rate": 2.869382531871834e-05,
      "loss": 3.3507,
      "step": 384320
    },
    {
      "epoch": 0.8006875,
      "grad_norm": 0.9446337223052979,
      "learning_rate": 2.8688026675104014e-05,
      "loss": 3.1625,
      "step": 384330
    },
    {
      "epoch": 0.8007083333333334,
      "grad_norm": 1.0132594108581543,
      "learning_rate": 2.8682228555509402e-05,
      "loss": 3.3217,
      "step": 384340
    },
    {
      "epoch": 0.8007291666666667,
      "grad_norm": 1.0454076528549194,
      "learning_rate": 2.867643095995953e-05,
      "loss": 3.4012,
      "step": 384350
    },
    {
      "epoch": 0.80075,
      "grad_norm": 0.9985727667808533,
      "learning_rate": 2.8670633888479445e-05,
      "loss": 3.327,
      "step": 384360
    },
    {
      "epoch": 0.8007708333333333,
      "grad_norm": 0.9567781090736389,
      "learning_rate": 2.866483734109421e-05,
      "loss": 3.2943,
      "step": 384370
    },
    {
      "epoch": 0.8007916666666667,
      "grad_norm": 0.887043297290802,
      "learning_rate": 2.8659041317828856e-05,
      "loss": 3.3688,
      "step": 384380
    },
    {
      "epoch": 0.8008125,
      "grad_norm": 0.8519250750541687,
      "learning_rate": 2.8653245818708398e-05,
      "loss": 3.3249,
      "step": 384390
    },
    {
      "epoch": 0.8008333333333333,
      "grad_norm": 1.003288745880127,
      "learning_rate": 2.8647450843757897e-05,
      "loss": 3.1842,
      "step": 384400
    },
    {
      "epoch": 0.8008541666666666,
      "grad_norm": 0.9497287273406982,
      "learning_rate": 2.8641656393002366e-05,
      "loss": 3.3431,
      "step": 384410
    },
    {
      "epoch": 0.800875,
      "grad_norm": 0.8518120050430298,
      "learning_rate": 2.8635862466466835e-05,
      "loss": 3.3556,
      "step": 384420
    },
    {
      "epoch": 0.8008958333333334,
      "grad_norm": 0.8991841077804565,
      "learning_rate": 2.8630069064176353e-05,
      "loss": 3.2519,
      "step": 384430
    },
    {
      "epoch": 0.8009166666666667,
      "grad_norm": 0.8783151507377625,
      "learning_rate": 2.862427618615593e-05,
      "loss": 3.3535,
      "step": 384440
    },
    {
      "epoch": 0.8009375,
      "grad_norm": 0.8436614871025085,
      "learning_rate": 2.8618483832430584e-05,
      "loss": 3.2752,
      "step": 384450
    },
    {
      "epoch": 0.8009583333333333,
      "grad_norm": 0.9461669325828552,
      "learning_rate": 2.8612692003025357e-05,
      "loss": 3.3268,
      "step": 384460
    },
    {
      "epoch": 0.8009791666666667,
      "grad_norm": 0.9944868087768555,
      "learning_rate": 2.860690069796523e-05,
      "loss": 3.405,
      "step": 384470
    },
    {
      "epoch": 0.801,
      "grad_norm": 0.9122049808502197,
      "learning_rate": 2.860110991727525e-05,
      "loss": 3.3487,
      "step": 384480
    },
    {
      "epoch": 0.8010208333333333,
      "grad_norm": 0.8352723717689514,
      "learning_rate": 2.8595319660980465e-05,
      "loss": 3.3201,
      "step": 384490
    },
    {
      "epoch": 0.8010416666666667,
      "grad_norm": 0.839694082736969,
      "learning_rate": 2.858952992910577e-05,
      "loss": 3.3549,
      "step": 384500
    },
    {
      "epoch": 0.8010625,
      "grad_norm": 0.8178207278251648,
      "learning_rate": 2.858374072167628e-05,
      "loss": 3.3157,
      "step": 384510
    },
    {
      "epoch": 0.8010833333333334,
      "grad_norm": 0.860228419303894,
      "learning_rate": 2.8577952038717007e-05,
      "loss": 3.2885,
      "step": 384520
    },
    {
      "epoch": 0.8011041666666666,
      "grad_norm": 0.9180032014846802,
      "learning_rate": 2.8572163880252847e-05,
      "loss": 3.4076,
      "step": 384530
    },
    {
      "epoch": 0.801125,
      "grad_norm": 0.873451828956604,
      "learning_rate": 2.8566376246308913e-05,
      "loss": 3.3183,
      "step": 384540
    },
    {
      "epoch": 0.8011458333333333,
      "grad_norm": 0.9389424324035645,
      "learning_rate": 2.856058913691019e-05,
      "loss": 3.3352,
      "step": 384550
    },
    {
      "epoch": 0.8011666666666667,
      "grad_norm": 1.2796605825424194,
      "learning_rate": 2.8554802552081603e-05,
      "loss": 3.3761,
      "step": 384560
    },
    {
      "epoch": 0.8011875,
      "grad_norm": 0.8528613448143005,
      "learning_rate": 2.854901649184825e-05,
      "loss": 3.4825,
      "step": 384570
    },
    {
      "epoch": 0.8012083333333333,
      "grad_norm": 0.9942575693130493,
      "learning_rate": 2.854323095623504e-05,
      "loss": 3.3747,
      "step": 384580
    },
    {
      "epoch": 0.8012291666666667,
      "grad_norm": 0.8862210512161255,
      "learning_rate": 2.8537445945266962e-05,
      "loss": 3.4139,
      "step": 384590
    },
    {
      "epoch": 0.80125,
      "grad_norm": 0.8803431391716003,
      "learning_rate": 2.8531661458969122e-05,
      "loss": 3.3859,
      "step": 384600
    },
    {
      "epoch": 0.8012708333333334,
      "grad_norm": 0.8595407605171204,
      "learning_rate": 2.8525877497366374e-05,
      "loss": 3.211,
      "step": 384610
    },
    {
      "epoch": 0.8012916666666666,
      "grad_norm": 0.9170923829078674,
      "learning_rate": 2.852009406048372e-05,
      "loss": 3.3601,
      "step": 384620
    },
    {
      "epoch": 0.8013125,
      "grad_norm": 0.9396553039550781,
      "learning_rate": 2.8514311148346253e-05,
      "loss": 3.3061,
      "step": 384630
    },
    {
      "epoch": 0.8013333333333333,
      "grad_norm": 1.1462063789367676,
      "learning_rate": 2.8508528760978828e-05,
      "loss": 3.2748,
      "step": 384640
    },
    {
      "epoch": 0.8013541666666667,
      "grad_norm": 0.8571085929870605,
      "learning_rate": 2.850274689840644e-05,
      "loss": 3.2703,
      "step": 384650
    },
    {
      "epoch": 0.801375,
      "grad_norm": 0.9387125372886658,
      "learning_rate": 2.849696556065416e-05,
      "loss": 3.3635,
      "step": 384660
    },
    {
      "epoch": 0.8013958333333333,
      "grad_norm": 0.840057909488678,
      "learning_rate": 2.8491184747746864e-05,
      "loss": 3.4566,
      "step": 384670
    },
    {
      "epoch": 0.8014166666666667,
      "grad_norm": 0.8405681252479553,
      "learning_rate": 2.8485404459709515e-05,
      "loss": 3.3841,
      "step": 384680
    },
    {
      "epoch": 0.8014375,
      "grad_norm": 0.8698490858078003,
      "learning_rate": 2.847962469656721e-05,
      "loss": 3.3755,
      "step": 384690
    },
    {
      "epoch": 0.8014583333333334,
      "grad_norm": 0.9105694890022278,
      "learning_rate": 2.8473845458344762e-05,
      "loss": 3.5144,
      "step": 384700
    },
    {
      "epoch": 0.8014791666666666,
      "grad_norm": 0.9349589943885803,
      "learning_rate": 2.8468066745067202e-05,
      "loss": 3.3959,
      "step": 384710
    },
    {
      "epoch": 0.8015,
      "grad_norm": 0.9032030701637268,
      "learning_rate": 2.846228855675951e-05,
      "loss": 3.2424,
      "step": 384720
    },
    {
      "epoch": 0.8015208333333333,
      "grad_norm": 0.8882672190666199,
      "learning_rate": 2.84565108934466e-05,
      "loss": 3.3174,
      "step": 384730
    },
    {
      "epoch": 0.8015416666666667,
      "grad_norm": 0.8298617005348206,
      "learning_rate": 2.8450733755153466e-05,
      "loss": 3.2257,
      "step": 384740
    },
    {
      "epoch": 0.8015625,
      "grad_norm": 0.9322539567947388,
      "learning_rate": 2.8444957141905038e-05,
      "loss": 3.37,
      "step": 384750
    },
    {
      "epoch": 0.8015833333333333,
      "grad_norm": 0.8818368315696716,
      "learning_rate": 2.8439181053726285e-05,
      "loss": 3.2611,
      "step": 384760
    },
    {
      "epoch": 0.8016041666666667,
      "grad_norm": 0.869850218296051,
      "learning_rate": 2.8433405490642163e-05,
      "loss": 3.4557,
      "step": 384770
    },
    {
      "epoch": 0.801625,
      "grad_norm": 1.2121670246124268,
      "learning_rate": 2.8427630452677593e-05,
      "loss": 3.3314,
      "step": 384780
    },
    {
      "epoch": 0.8016458333333333,
      "grad_norm": 0.9838254451751709,
      "learning_rate": 2.8421855939857546e-05,
      "loss": 3.3648,
      "step": 384790
    },
    {
      "epoch": 0.8016666666666666,
      "grad_norm": 0.8316008448600769,
      "learning_rate": 2.8416081952206994e-05,
      "loss": 3.3671,
      "step": 384800
    },
    {
      "epoch": 0.8016875,
      "grad_norm": 0.8856706619262695,
      "learning_rate": 2.8410308489750777e-05,
      "loss": 3.4443,
      "step": 384810
    },
    {
      "epoch": 0.8017083333333334,
      "grad_norm": 1.0704773664474487,
      "learning_rate": 2.840453555251393e-05,
      "loss": 3.3044,
      "step": 384820
    },
    {
      "epoch": 0.8017291666666667,
      "grad_norm": 0.9608516693115234,
      "learning_rate": 2.839876314052138e-05,
      "loss": 3.3837,
      "step": 384830
    },
    {
      "epoch": 0.80175,
      "grad_norm": 0.9018877148628235,
      "learning_rate": 2.8392991253797976e-05,
      "loss": 3.304,
      "step": 384840
    },
    {
      "epoch": 0.8017708333333333,
      "grad_norm": 0.926861584186554,
      "learning_rate": 2.8387219892368763e-05,
      "loss": 3.3097,
      "step": 384850
    },
    {
      "epoch": 0.8017916666666667,
      "grad_norm": 0.9265602231025696,
      "learning_rate": 2.8381449056258654e-05,
      "loss": 3.2329,
      "step": 384860
    },
    {
      "epoch": 0.8018125,
      "grad_norm": 1.2968339920043945,
      "learning_rate": 2.8375678745492464e-05,
      "loss": 3.2748,
      "step": 384870
    },
    {
      "epoch": 0.8018333333333333,
      "grad_norm": 0.8055936098098755,
      "learning_rate": 2.836990896009524e-05,
      "loss": 3.2141,
      "step": 384880
    },
    {
      "epoch": 0.8018541666666666,
      "grad_norm": 0.9576501846313477,
      "learning_rate": 2.836413970009191e-05,
      "loss": 3.3724,
      "step": 384890
    },
    {
      "epoch": 0.801875,
      "grad_norm": 0.8103074431419373,
      "learning_rate": 2.8358370965507253e-05,
      "loss": 3.3511,
      "step": 384900
    },
    {
      "epoch": 0.8018958333333334,
      "grad_norm": 0.8276565670967102,
      "learning_rate": 2.835260275636634e-05,
      "loss": 3.44,
      "step": 384910
    },
    {
      "epoch": 0.8019166666666667,
      "grad_norm": 0.9400559067726135,
      "learning_rate": 2.8346835072694075e-05,
      "loss": 3.2826,
      "step": 384920
    },
    {
      "epoch": 0.8019375,
      "grad_norm": 0.9418038725852966,
      "learning_rate": 2.8341067914515224e-05,
      "loss": 3.3352,
      "step": 384930
    },
    {
      "epoch": 0.8019583333333333,
      "grad_norm": 0.8066523671150208,
      "learning_rate": 2.8335301281854905e-05,
      "loss": 3.3775,
      "step": 384940
    },
    {
      "epoch": 0.8019791666666667,
      "grad_norm": 0.8901636600494385,
      "learning_rate": 2.8329535174737896e-05,
      "loss": 3.2984,
      "step": 384950
    },
    {
      "epoch": 0.802,
      "grad_norm": 0.8857681751251221,
      "learning_rate": 2.8323769593189072e-05,
      "loss": 3.312,
      "step": 384960
    },
    {
      "epoch": 0.8020208333333333,
      "grad_norm": 0.8978863954544067,
      "learning_rate": 2.8318004537233486e-05,
      "loss": 3.3544,
      "step": 384970
    },
    {
      "epoch": 0.8020416666666667,
      "grad_norm": 1.037442922592163,
      "learning_rate": 2.8312240006895915e-05,
      "loss": 3.4583,
      "step": 384980
    },
    {
      "epoch": 0.8020625,
      "grad_norm": 0.8467150330543518,
      "learning_rate": 2.830647600220127e-05,
      "loss": 3.4279,
      "step": 384990
    },
    {
      "epoch": 0.8020833333333334,
      "grad_norm": 0.9577529430389404,
      "learning_rate": 2.8300712523174556e-05,
      "loss": 3.2474,
      "step": 385000
    },
    {
      "epoch": 0.8020833333333334,
      "eval_loss": 4.03965950012207,
      "eval_runtime": 9.1845,
      "eval_samples_per_second": 1.089,
      "eval_steps_per_second": 0.327,
      "step": 385000
    },
    {
      "epoch": 0.8021041666666666,
      "grad_norm": 0.8666651248931885,
      "learning_rate": 2.8294949569840548e-05,
      "loss": 3.2454,
      "step": 385010
    },
    {
      "epoch": 0.802125,
      "grad_norm": 0.8382961750030518,
      "learning_rate": 2.828918714222414e-05,
      "loss": 3.3287,
      "step": 385020
    },
    {
      "epoch": 0.8021458333333333,
      "grad_norm": 1.0729060173034668,
      "learning_rate": 2.8283425240350348e-05,
      "loss": 3.1635,
      "step": 385030
    },
    {
      "epoch": 0.8021666666666667,
      "grad_norm": 0.7752017378807068,
      "learning_rate": 2.8277663864243956e-05,
      "loss": 3.3041,
      "step": 385040
    },
    {
      "epoch": 0.8021875,
      "grad_norm": 0.9523493647575378,
      "learning_rate": 2.827190301392982e-05,
      "loss": 3.3684,
      "step": 385050
    },
    {
      "epoch": 0.8022083333333333,
      "grad_norm": 0.8596093058586121,
      "learning_rate": 2.826614268943296e-05,
      "loss": 3.3388,
      "step": 385060
    },
    {
      "epoch": 0.8022291666666667,
      "grad_norm": 0.9968310594558716,
      "learning_rate": 2.8260382890778132e-05,
      "loss": 3.2506,
      "step": 385070
    },
    {
      "epoch": 0.80225,
      "grad_norm": 0.9678722023963928,
      "learning_rate": 2.8254623617990273e-05,
      "loss": 3.3185,
      "step": 385080
    },
    {
      "epoch": 0.8022708333333334,
      "grad_norm": 1.0983147621154785,
      "learning_rate": 2.8248864871094244e-05,
      "loss": 3.2736,
      "step": 385090
    },
    {
      "epoch": 0.8022916666666666,
      "grad_norm": 0.9156558513641357,
      "learning_rate": 2.8243106650114928e-05,
      "loss": 3.4484,
      "step": 385100
    },
    {
      "epoch": 0.8023125,
      "grad_norm": 0.846555769443512,
      "learning_rate": 2.82373489550772e-05,
      "loss": 3.349,
      "step": 385110
    },
    {
      "epoch": 0.8023333333333333,
      "grad_norm": 0.8305338025093079,
      "learning_rate": 2.8231591786005926e-05,
      "loss": 3.2816,
      "step": 385120
    },
    {
      "epoch": 0.8023541666666667,
      "grad_norm": 0.8944360613822937,
      "learning_rate": 2.8225835142925984e-05,
      "loss": 3.3266,
      "step": 385130
    },
    {
      "epoch": 0.802375,
      "grad_norm": 0.8619115948677063,
      "learning_rate": 2.8220079025862223e-05,
      "loss": 3.3677,
      "step": 385140
    },
    {
      "epoch": 0.8023958333333333,
      "grad_norm": 0.904280424118042,
      "learning_rate": 2.821432343483951e-05,
      "loss": 3.4911,
      "step": 385150
    },
    {
      "epoch": 0.8024166666666667,
      "grad_norm": 0.9987965822219849,
      "learning_rate": 2.8208568369882715e-05,
      "loss": 3.3679,
      "step": 385160
    },
    {
      "epoch": 0.8024375,
      "grad_norm": 0.8539862632751465,
      "learning_rate": 2.8202813831016746e-05,
      "loss": 3.4048,
      "step": 385170
    },
    {
      "epoch": 0.8024583333333334,
      "grad_norm": 0.815209686756134,
      "learning_rate": 2.8197059818266325e-05,
      "loss": 3.3815,
      "step": 385180
    },
    {
      "epoch": 0.8024791666666666,
      "grad_norm": 0.8478454947471619,
      "learning_rate": 2.8191306331656437e-05,
      "loss": 3.4553,
      "step": 385190
    },
    {
      "epoch": 0.8025,
      "grad_norm": 0.8739241361618042,
      "learning_rate": 2.8185553371211926e-05,
      "loss": 3.3879,
      "step": 385200
    },
    {
      "epoch": 0.8025208333333333,
      "grad_norm": 0.8865842223167419,
      "learning_rate": 2.817980093695754e-05,
      "loss": 3.2512,
      "step": 385210
    },
    {
      "epoch": 0.8025416666666667,
      "grad_norm": 0.9138535857200623,
      "learning_rate": 2.817404902891823e-05,
      "loss": 3.2823,
      "step": 385220
    },
    {
      "epoch": 0.8025625,
      "grad_norm": 0.8635640740394592,
      "learning_rate": 2.816829764711883e-05,
      "loss": 3.1632,
      "step": 385230
    },
    {
      "epoch": 0.8025833333333333,
      "grad_norm": 0.8257769346237183,
      "learning_rate": 2.8162546791584083e-05,
      "loss": 3.1549,
      "step": 385240
    },
    {
      "epoch": 0.8026041666666667,
      "grad_norm": 0.9186964631080627,
      "learning_rate": 2.8156796462338965e-05,
      "loss": 3.3584,
      "step": 385250
    },
    {
      "epoch": 0.802625,
      "grad_norm": 0.8731674551963806,
      "learning_rate": 2.815104665940829e-05,
      "loss": 3.2824,
      "step": 385260
    },
    {
      "epoch": 0.8026458333333333,
      "grad_norm": 0.9078417420387268,
      "learning_rate": 2.8145297382816766e-05,
      "loss": 3.3361,
      "step": 385270
    },
    {
      "epoch": 0.8026666666666666,
      "grad_norm": 0.8877214193344116,
      "learning_rate": 2.813954863258938e-05,
      "loss": 3.2743,
      "step": 385280
    },
    {
      "epoch": 0.8026875,
      "grad_norm": 0.9088899493217468,
      "learning_rate": 2.8133800408750946e-05,
      "loss": 3.3278,
      "step": 385290
    },
    {
      "epoch": 0.8027083333333334,
      "grad_norm": 0.8857544660568237,
      "learning_rate": 2.812805271132617e-05,
      "loss": 3.3838,
      "step": 385300
    },
    {
      "epoch": 0.8027291666666667,
      "grad_norm": 0.9173136353492737,
      "learning_rate": 2.8122305540340058e-05,
      "loss": 3.122,
      "step": 385310
    },
    {
      "epoch": 0.80275,
      "grad_norm": 1.0290465354919434,
      "learning_rate": 2.8116558895817298e-05,
      "loss": 3.3889,
      "step": 385320
    },
    {
      "epoch": 0.8027708333333333,
      "grad_norm": 0.8318630456924438,
      "learning_rate": 2.811081277778271e-05,
      "loss": 3.3441,
      "step": 385330
    },
    {
      "epoch": 0.8027916666666667,
      "grad_norm": 0.9240676164627075,
      "learning_rate": 2.8105067186261254e-05,
      "loss": 3.3448,
      "step": 385340
    },
    {
      "epoch": 0.8028125,
      "grad_norm": 0.8623859286308289,
      "learning_rate": 2.8099322121277612e-05,
      "loss": 3.2425,
      "step": 385350
    },
    {
      "epoch": 0.8028333333333333,
      "grad_norm": 0.8506145477294922,
      "learning_rate": 2.8093577582856614e-05,
      "loss": 3.3792,
      "step": 385360
    },
    {
      "epoch": 0.8028541666666666,
      "grad_norm": 0.863763689994812,
      "learning_rate": 2.808783357102317e-05,
      "loss": 3.3023,
      "step": 385370
    },
    {
      "epoch": 0.802875,
      "grad_norm": 0.87883061170578,
      "learning_rate": 2.8082090085802018e-05,
      "loss": 3.4128,
      "step": 385380
    },
    {
      "epoch": 0.8028958333333334,
      "grad_norm": 0.8682428002357483,
      "learning_rate": 2.8076347127217948e-05,
      "loss": 3.2727,
      "step": 385390
    },
    {
      "epoch": 0.8029166666666666,
      "grad_norm": 0.881050169467926,
      "learning_rate": 2.8070604695295824e-05,
      "loss": 3.3553,
      "step": 385400
    },
    {
      "epoch": 0.8029375,
      "grad_norm": 0.8706375956535339,
      "learning_rate": 2.806486279006041e-05,
      "loss": 3.3551,
      "step": 385410
    },
    {
      "epoch": 0.8029583333333333,
      "grad_norm": 0.9013329148292542,
      "learning_rate": 2.8059121411536522e-05,
      "loss": 3.2644,
      "step": 385420
    },
    {
      "epoch": 0.8029791666666667,
      "grad_norm": 0.8637351393699646,
      "learning_rate": 2.8053380559748974e-05,
      "loss": 3.352,
      "step": 385430
    },
    {
      "epoch": 0.803,
      "grad_norm": 0.8481863737106323,
      "learning_rate": 2.8047640234722542e-05,
      "loss": 3.4269,
      "step": 385440
    },
    {
      "epoch": 0.8030208333333333,
      "grad_norm": 0.8793546557426453,
      "learning_rate": 2.8041900436482024e-05,
      "loss": 3.249,
      "step": 385450
    },
    {
      "epoch": 0.8030416666666667,
      "grad_norm": 0.8795284032821655,
      "learning_rate": 2.8036161165052235e-05,
      "loss": 3.3868,
      "step": 385460
    },
    {
      "epoch": 0.8030625,
      "grad_norm": 1.0788445472717285,
      "learning_rate": 2.8030422420457955e-05,
      "loss": 3.3711,
      "step": 385470
    },
    {
      "epoch": 0.8030833333333334,
      "grad_norm": 0.9029171466827393,
      "learning_rate": 2.8024684202723962e-05,
      "loss": 3.3378,
      "step": 385480
    },
    {
      "epoch": 0.8031041666666666,
      "grad_norm": 0.8796435594558716,
      "learning_rate": 2.8018946511875057e-05,
      "loss": 3.313,
      "step": 385490
    },
    {
      "epoch": 0.803125,
      "grad_norm": 0.8531882762908936,
      "learning_rate": 2.8013209347936018e-05,
      "loss": 3.2841,
      "step": 385500
    },
    {
      "epoch": 0.8031458333333333,
      "grad_norm": 0.864757239818573,
      "learning_rate": 2.800747271093162e-05,
      "loss": 3.3147,
      "step": 385510
    },
    {
      "epoch": 0.8031666666666667,
      "grad_norm": 0.9527093768119812,
      "learning_rate": 2.8001736600886672e-05,
      "loss": 3.4428,
      "step": 385520
    },
    {
      "epoch": 0.8031875,
      "grad_norm": 0.9086002707481384,
      "learning_rate": 2.7996001017825924e-05,
      "loss": 3.3688,
      "step": 385530
    },
    {
      "epoch": 0.8032083333333333,
      "grad_norm": 0.916688084602356,
      "learning_rate": 2.799026596177415e-05,
      "loss": 3.3166,
      "step": 385540
    },
    {
      "epoch": 0.8032291666666667,
      "grad_norm": 0.8750637769699097,
      "learning_rate": 2.798453143275614e-05,
      "loss": 3.4653,
      "step": 385550
    },
    {
      "epoch": 0.80325,
      "grad_norm": 0.9286080598831177,
      "learning_rate": 2.7978797430796663e-05,
      "loss": 3.4381,
      "step": 385560
    },
    {
      "epoch": 0.8032708333333334,
      "grad_norm": 0.8216431736946106,
      "learning_rate": 2.797306395592051e-05,
      "loss": 3.3308,
      "step": 385570
    },
    {
      "epoch": 0.8032916666666666,
      "grad_norm": 0.8897212743759155,
      "learning_rate": 2.7967331008152333e-05,
      "loss": 3.1794,
      "step": 385580
    },
    {
      "epoch": 0.8033125,
      "grad_norm": 0.8655873537063599,
      "learning_rate": 2.7961598587517043e-05,
      "loss": 3.406,
      "step": 385590
    },
    {
      "epoch": 0.8033333333333333,
      "grad_norm": 0.9245210886001587,
      "learning_rate": 2.795586669403937e-05,
      "loss": 3.1152,
      "step": 385600
    },
    {
      "epoch": 0.8033541666666667,
      "grad_norm": 0.8419368267059326,
      "learning_rate": 2.795013532774396e-05,
      "loss": 3.4631,
      "step": 385610
    },
    {
      "epoch": 0.803375,
      "grad_norm": 0.9929724931716919,
      "learning_rate": 2.7944404488655696e-05,
      "loss": 3.3287,
      "step": 385620
    },
    {
      "epoch": 0.8033958333333333,
      "grad_norm": 0.8367205262184143,
      "learning_rate": 2.793867417679934e-05,
      "loss": 3.3343,
      "step": 385630
    },
    {
      "epoch": 0.8034166666666667,
      "grad_norm": 0.980208694934845,
      "learning_rate": 2.793294439219951e-05,
      "loss": 3.2861,
      "step": 385640
    },
    {
      "epoch": 0.8034375,
      "grad_norm": 0.9951674938201904,
      "learning_rate": 2.7927215134881093e-05,
      "loss": 3.3391,
      "step": 385650
    },
    {
      "epoch": 0.8034583333333334,
      "grad_norm": 0.8804824352264404,
      "learning_rate": 2.7921486404868808e-05,
      "loss": 3.2859,
      "step": 385660
    },
    {
      "epoch": 0.8034791666666666,
      "grad_norm": 1.0739104747772217,
      "learning_rate": 2.7915758202187354e-05,
      "loss": 3.2936,
      "step": 385670
    },
    {
      "epoch": 0.8035,
      "grad_norm": 0.8626436591148376,
      "learning_rate": 2.791003052686146e-05,
      "loss": 3.2203,
      "step": 385680
    },
    {
      "epoch": 0.8035208333333334,
      "grad_norm": 0.8413241505622864,
      "learning_rate": 2.790430337891599e-05,
      "loss": 3.3111,
      "step": 385690
    },
    {
      "epoch": 0.8035416666666667,
      "grad_norm": 0.9025295376777649,
      "learning_rate": 2.7898576758375552e-05,
      "loss": 3.448,
      "step": 385700
    },
    {
      "epoch": 0.8035625,
      "grad_norm": 0.8857690095901489,
      "learning_rate": 2.7892850665264934e-05,
      "loss": 3.4391,
      "step": 385710
    },
    {
      "epoch": 0.8035833333333333,
      "grad_norm": 1.1714943647384644,
      "learning_rate": 2.788712509960886e-05,
      "loss": 3.3203,
      "step": 385720
    },
    {
      "epoch": 0.8036041666666667,
      "grad_norm": 0.9157539010047913,
      "learning_rate": 2.788140006143208e-05,
      "loss": 3.2638,
      "step": 385730
    },
    {
      "epoch": 0.803625,
      "grad_norm": 0.8784111738204956,
      "learning_rate": 2.7875675550759308e-05,
      "loss": 3.2758,
      "step": 385740
    },
    {
      "epoch": 0.8036458333333333,
      "grad_norm": 0.9009138941764832,
      "learning_rate": 2.7869951567615272e-05,
      "loss": 3.4061,
      "step": 385750
    },
    {
      "epoch": 0.8036666666666666,
      "grad_norm": 0.9106401205062866,
      "learning_rate": 2.7864228112024722e-05,
      "loss": 3.379,
      "step": 385760
    },
    {
      "epoch": 0.8036875,
      "grad_norm": 0.9185279011726379,
      "learning_rate": 2.7858505184012353e-05,
      "loss": 3.2328,
      "step": 385770
    },
    {
      "epoch": 0.8037083333333334,
      "grad_norm": 0.9173693060874939,
      "learning_rate": 2.7852782783602895e-05,
      "loss": 3.3352,
      "step": 385780
    },
    {
      "epoch": 0.8037291666666667,
      "grad_norm": 1.0394421815872192,
      "learning_rate": 2.784706091082106e-05,
      "loss": 3.2958,
      "step": 385790
    },
    {
      "epoch": 0.80375,
      "grad_norm": 0.8234158158302307,
      "learning_rate": 2.7841339565691568e-05,
      "loss": 3.3439,
      "step": 385800
    },
    {
      "epoch": 0.8037708333333333,
      "grad_norm": 0.9239078760147095,
      "learning_rate": 2.7835618748239142e-05,
      "loss": 3.2749,
      "step": 385810
    },
    {
      "epoch": 0.8037916666666667,
      "grad_norm": 0.9046812057495117,
      "learning_rate": 2.7829898458488496e-05,
      "loss": 3.3085,
      "step": 385820
    },
    {
      "epoch": 0.8038125,
      "grad_norm": 0.8737792372703552,
      "learning_rate": 2.7824178696464317e-05,
      "loss": 3.2383,
      "step": 385830
    },
    {
      "epoch": 0.8038333333333333,
      "grad_norm": 0.8582479953765869,
      "learning_rate": 2.781845946219133e-05,
      "loss": 3.2578,
      "step": 385840
    },
    {
      "epoch": 0.8038541666666666,
      "grad_norm": 0.8672010898590088,
      "learning_rate": 2.781274075569423e-05,
      "loss": 3.2912,
      "step": 385850
    },
    {
      "epoch": 0.803875,
      "grad_norm": 0.9167056083679199,
      "learning_rate": 2.7807022576997732e-05,
      "loss": 3.4223,
      "step": 385860
    },
    {
      "epoch": 0.8038958333333334,
      "grad_norm": 0.9287437796592712,
      "learning_rate": 2.780130492612652e-05,
      "loss": 3.2497,
      "step": 385870
    },
    {
      "epoch": 0.8039166666666666,
      "grad_norm": 0.8960956335067749,
      "learning_rate": 2.7795587803105324e-05,
      "loss": 3.2856,
      "step": 385880
    },
    {
      "epoch": 0.8039375,
      "grad_norm": 0.9631867408752441,
      "learning_rate": 2.7789871207958786e-05,
      "loss": 3.2325,
      "step": 385890
    },
    {
      "epoch": 0.8039583333333333,
      "grad_norm": 0.9140963554382324,
      "learning_rate": 2.7784155140711655e-05,
      "loss": 3.388,
      "step": 385900
    },
    {
      "epoch": 0.8039791666666667,
      "grad_norm": 0.9378015398979187,
      "learning_rate": 2.777843960138858e-05,
      "loss": 3.3346,
      "step": 385910
    },
    {
      "epoch": 0.804,
      "grad_norm": 0.8584049940109253,
      "learning_rate": 2.7772724590014272e-05,
      "loss": 3.3742,
      "step": 385920
    },
    {
      "epoch": 0.8040208333333333,
      "grad_norm": 0.7912766337394714,
      "learning_rate": 2.776701010661343e-05,
      "loss": 3.3296,
      "step": 385930
    },
    {
      "epoch": 0.8040416666666667,
      "grad_norm": 0.8484315276145935,
      "learning_rate": 2.7761296151210733e-05,
      "loss": 3.3427,
      "step": 385940
    },
    {
      "epoch": 0.8040625,
      "grad_norm": 0.9942314028739929,
      "learning_rate": 2.7755582723830795e-05,
      "loss": 3.3823,
      "step": 385950
    },
    {
      "epoch": 0.8040833333333334,
      "grad_norm": 0.9031983017921448,
      "learning_rate": 2.7749869824498376e-05,
      "loss": 3.3454,
      "step": 385960
    },
    {
      "epoch": 0.8041041666666666,
      "grad_norm": 0.810136079788208,
      "learning_rate": 2.774415745323818e-05,
      "loss": 3.2121,
      "step": 385970
    },
    {
      "epoch": 0.804125,
      "grad_norm": 0.96370530128479,
      "learning_rate": 2.7738445610074784e-05,
      "loss": 3.311,
      "step": 385980
    },
    {
      "epoch": 0.8041458333333333,
      "grad_norm": 0.8649316430091858,
      "learning_rate": 2.773273429503288e-05,
      "loss": 3.3507,
      "step": 385990
    },
    {
      "epoch": 0.8041666666666667,
      "grad_norm": 0.9581981897354126,
      "learning_rate": 2.7727023508137224e-05,
      "loss": 3.2547,
      "step": 386000
    },
    {
      "epoch": 0.8041666666666667,
      "eval_loss": 4.040644645690918,
      "eval_runtime": 8.8029,
      "eval_samples_per_second": 1.136,
      "eval_steps_per_second": 0.341,
      "step": 386000
    },
    {
      "epoch": 0.8041875,
      "grad_norm": 0.8754380345344543,
      "learning_rate": 2.772131324941241e-05,
      "loss": 3.314,
      "step": 386010
    },
    {
      "epoch": 0.8042083333333333,
      "grad_norm": 0.8581840395927429,
      "learning_rate": 2.7715603518883077e-05,
      "loss": 3.3265,
      "step": 386020
    },
    {
      "epoch": 0.8042291666666667,
      "grad_norm": 0.9326090216636658,
      "learning_rate": 2.7709894316574e-05,
      "loss": 3.3717,
      "step": 386030
    },
    {
      "epoch": 0.80425,
      "grad_norm": 1.0038940906524658,
      "learning_rate": 2.770418564250975e-05,
      "loss": 3.4071,
      "step": 386040
    },
    {
      "epoch": 0.8042708333333334,
      "grad_norm": 0.9204049110412598,
      "learning_rate": 2.7698477496714967e-05,
      "loss": 3.2509,
      "step": 386050
    },
    {
      "epoch": 0.8042916666666666,
      "grad_norm": 0.901526927947998,
      "learning_rate": 2.769276987921442e-05,
      "loss": 3.3162,
      "step": 386060
    },
    {
      "epoch": 0.8043125,
      "grad_norm": 0.9773024320602417,
      "learning_rate": 2.7687062790032665e-05,
      "loss": 3.2484,
      "step": 386070
    },
    {
      "epoch": 0.8043333333333333,
      "grad_norm": 0.900560200214386,
      "learning_rate": 2.7681356229194378e-05,
      "loss": 3.5123,
      "step": 386080
    },
    {
      "epoch": 0.8043541666666667,
      "grad_norm": 0.8607984185218811,
      "learning_rate": 2.7675650196724225e-05,
      "loss": 3.2715,
      "step": 386090
    },
    {
      "epoch": 0.804375,
      "grad_norm": 1.0250804424285889,
      "learning_rate": 2.7669944692646835e-05,
      "loss": 3.2822,
      "step": 386100
    },
    {
      "epoch": 0.8043958333333333,
      "grad_norm": 1.264769196510315,
      "learning_rate": 2.766423971698687e-05,
      "loss": 3.2008,
      "step": 386110
    },
    {
      "epoch": 0.8044166666666667,
      "grad_norm": 0.838272750377655,
      "learning_rate": 2.7658535269768944e-05,
      "loss": 3.3274,
      "step": 386120
    },
    {
      "epoch": 0.8044375,
      "grad_norm": 0.9176873564720154,
      "learning_rate": 2.765283135101774e-05,
      "loss": 3.2273,
      "step": 386130
    },
    {
      "epoch": 0.8044583333333334,
      "grad_norm": 0.9510098099708557,
      "learning_rate": 2.764712796075787e-05,
      "loss": 3.2597,
      "step": 386140
    },
    {
      "epoch": 0.8044791666666666,
      "grad_norm": 1.021521806716919,
      "learning_rate": 2.7641425099013982e-05,
      "loss": 3.3399,
      "step": 386150
    },
    {
      "epoch": 0.8045,
      "grad_norm": 0.961515486240387,
      "learning_rate": 2.7635722765810704e-05,
      "loss": 3.2157,
      "step": 386160
    },
    {
      "epoch": 0.8045208333333334,
      "grad_norm": 0.8649188280105591,
      "learning_rate": 2.7630020961172666e-05,
      "loss": 3.4457,
      "step": 386170
    },
    {
      "epoch": 0.8045416666666667,
      "grad_norm": 0.91792231798172,
      "learning_rate": 2.76243196851245e-05,
      "loss": 3.254,
      "step": 386180
    },
    {
      "epoch": 0.8045625,
      "grad_norm": 0.9931042194366455,
      "learning_rate": 2.7618618937690822e-05,
      "loss": 3.299,
      "step": 386190
    },
    {
      "epoch": 0.8045833333333333,
      "grad_norm": 0.9152330160140991,
      "learning_rate": 2.7612918718896277e-05,
      "loss": 3.2616,
      "step": 386200
    },
    {
      "epoch": 0.8046041666666667,
      "grad_norm": 0.9978740215301514,
      "learning_rate": 2.7607219028765494e-05,
      "loss": 3.4284,
      "step": 386210
    },
    {
      "epoch": 0.804625,
      "grad_norm": 0.9010174870491028,
      "learning_rate": 2.760151986732305e-05,
      "loss": 3.3269,
      "step": 386220
    },
    {
      "epoch": 0.8046458333333333,
      "grad_norm": 0.9596889615058899,
      "learning_rate": 2.7595821234593617e-05,
      "loss": 3.276,
      "step": 386230
    },
    {
      "epoch": 0.8046666666666666,
      "grad_norm": 0.9108460545539856,
      "learning_rate": 2.7590123130601772e-05,
      "loss": 3.3679,
      "step": 386240
    },
    {
      "epoch": 0.8046875,
      "grad_norm": 0.8510075211524963,
      "learning_rate": 2.7584425555372142e-05,
      "loss": 3.3824,
      "step": 386250
    },
    {
      "epoch": 0.8047083333333334,
      "grad_norm": 0.9107266664505005,
      "learning_rate": 2.7578728508929376e-05,
      "loss": 3.1524,
      "step": 386260
    },
    {
      "epoch": 0.8047291666666667,
      "grad_norm": 0.8430319428443909,
      "learning_rate": 2.7573031991297972e-05,
      "loss": 3.2378,
      "step": 386270
    },
    {
      "epoch": 0.80475,
      "grad_norm": 1.156734585762024,
      "learning_rate": 2.7567336002502662e-05,
      "loss": 3.3026,
      "step": 386280
    },
    {
      "epoch": 0.8047708333333333,
      "grad_norm": 0.9769018292427063,
      "learning_rate": 2.7561640542568018e-05,
      "loss": 3.2741,
      "step": 386290
    },
    {
      "epoch": 0.8047916666666667,
      "grad_norm": 0.8053067922592163,
      "learning_rate": 2.7555945611518548e-05,
      "loss": 3.435,
      "step": 386300
    },
    {
      "epoch": 0.8048125,
      "grad_norm": 0.9535695314407349,
      "learning_rate": 2.7550251209379008e-05,
      "loss": 3.3736,
      "step": 386310
    },
    {
      "epoch": 0.8048333333333333,
      "grad_norm": 0.8477672338485718,
      "learning_rate": 2.7544557336173868e-05,
      "loss": 3.3741,
      "step": 386320
    },
    {
      "epoch": 0.8048541666666666,
      "grad_norm": 0.8728795647621155,
      "learning_rate": 2.7538863991927735e-05,
      "loss": 3.3733,
      "step": 386330
    },
    {
      "epoch": 0.804875,
      "grad_norm": 0.8847818374633789,
      "learning_rate": 2.753317117666531e-05,
      "loss": 3.2207,
      "step": 386340
    },
    {
      "epoch": 0.8048958333333334,
      "grad_norm": 0.9838178157806396,
      "learning_rate": 2.7527478890411087e-05,
      "loss": 3.2299,
      "step": 386350
    },
    {
      "epoch": 0.8049166666666666,
      "grad_norm": 0.8442022204399109,
      "learning_rate": 2.7521787133189615e-05,
      "loss": 3.3181,
      "step": 386360
    },
    {
      "epoch": 0.8049375,
      "grad_norm": 0.9708707332611084,
      "learning_rate": 2.7516095905025626e-05,
      "loss": 3.3544,
      "step": 386370
    },
    {
      "epoch": 0.8049583333333333,
      "grad_norm": 0.8156241178512573,
      "learning_rate": 2.7510405205943597e-05,
      "loss": 3.2792,
      "step": 386380
    },
    {
      "epoch": 0.8049791666666667,
      "grad_norm": 0.9758227467536926,
      "learning_rate": 2.7504715035968077e-05,
      "loss": 3.332,
      "step": 386390
    },
    {
      "epoch": 0.805,
      "grad_norm": 0.7950462102890015,
      "learning_rate": 2.749902539512378e-05,
      "loss": 3.3552,
      "step": 386400
    },
    {
      "epoch": 0.8050208333333333,
      "grad_norm": 0.9045518636703491,
      "learning_rate": 2.7493336283435186e-05,
      "loss": 3.3442,
      "step": 386410
    },
    {
      "epoch": 0.8050416666666667,
      "grad_norm": 0.9639319181442261,
      "learning_rate": 2.7487647700926824e-05,
      "loss": 3.3276,
      "step": 386420
    },
    {
      "epoch": 0.8050625,
      "grad_norm": 0.9814974665641785,
      "learning_rate": 2.7481959647623424e-05,
      "loss": 3.3598,
      "step": 386430
    },
    {
      "epoch": 0.8050833333333334,
      "grad_norm": 0.9684335589408875,
      "learning_rate": 2.7476272123549405e-05,
      "loss": 3.276,
      "step": 386440
    },
    {
      "epoch": 0.8051041666666666,
      "grad_norm": 0.8101044297218323,
      "learning_rate": 2.7470585128729404e-05,
      "loss": 3.3346,
      "step": 386450
    },
    {
      "epoch": 0.805125,
      "grad_norm": 1.0132935047149658,
      "learning_rate": 2.746489866318798e-05,
      "loss": 3.3425,
      "step": 386460
    },
    {
      "epoch": 0.8051458333333333,
      "grad_norm": 0.8030408024787903,
      "learning_rate": 2.7459212726949685e-05,
      "loss": 3.4658,
      "step": 386470
    },
    {
      "epoch": 0.8051666666666667,
      "grad_norm": 0.8353920578956604,
      "learning_rate": 2.745352732003909e-05,
      "loss": 3.3054,
      "step": 386480
    },
    {
      "epoch": 0.8051875,
      "grad_norm": 0.9170873165130615,
      "learning_rate": 2.7447842442480745e-05,
      "loss": 3.2819,
      "step": 386490
    },
    {
      "epoch": 0.8052083333333333,
      "grad_norm": 0.8970828056335449,
      "learning_rate": 2.7442158094299204e-05,
      "loss": 3.3886,
      "step": 386500
    },
    {
      "epoch": 0.8052291666666667,
      "grad_norm": 0.9673757553100586,
      "learning_rate": 2.7436474275519038e-05,
      "loss": 3.3495,
      "step": 386510
    },
    {
      "epoch": 0.80525,
      "grad_norm": 0.8021405935287476,
      "learning_rate": 2.743079098616479e-05,
      "loss": 3.3035,
      "step": 386520
    },
    {
      "epoch": 0.8052708333333334,
      "grad_norm": 0.8926254510879517,
      "learning_rate": 2.742510822626101e-05,
      "loss": 3.3149,
      "step": 386530
    },
    {
      "epoch": 0.8052916666666666,
      "grad_norm": 0.8680117130279541,
      "learning_rate": 2.7419425995832244e-05,
      "loss": 3.2678,
      "step": 386540
    },
    {
      "epoch": 0.8053125,
      "grad_norm": 0.8936888575553894,
      "learning_rate": 2.7413744294903023e-05,
      "loss": 3.3463,
      "step": 386550
    },
    {
      "epoch": 0.8053333333333333,
      "grad_norm": 0.8705892562866211,
      "learning_rate": 2.740806312349791e-05,
      "loss": 3.3259,
      "step": 386560
    },
    {
      "epoch": 0.8053541666666667,
      "grad_norm": 0.8901688456535339,
      "learning_rate": 2.740238248164148e-05,
      "loss": 3.3339,
      "step": 386570
    },
    {
      "epoch": 0.805375,
      "grad_norm": 1.0016381740570068,
      "learning_rate": 2.739670236935816e-05,
      "loss": 3.3656,
      "step": 386580
    },
    {
      "epoch": 0.8053958333333333,
      "grad_norm": 0.7890478372573853,
      "learning_rate": 2.7391022786672583e-05,
      "loss": 3.3919,
      "step": 386590
    },
    {
      "epoch": 0.8054166666666667,
      "grad_norm": 0.8367573022842407,
      "learning_rate": 2.7385343733609304e-05,
      "loss": 3.1982,
      "step": 386600
    },
    {
      "epoch": 0.8054375,
      "grad_norm": 0.9296627044677734,
      "learning_rate": 2.7379665210192736e-05,
      "loss": 3.34,
      "step": 386610
    },
    {
      "epoch": 0.8054583333333334,
      "grad_norm": 0.8542448878288269,
      "learning_rate": 2.737398721644749e-05,
      "loss": 3.275,
      "step": 386620
    },
    {
      "epoch": 0.8054791666666666,
      "grad_norm": 0.827949583530426,
      "learning_rate": 2.736830975239815e-05,
      "loss": 3.1206,
      "step": 386630
    },
    {
      "epoch": 0.8055,
      "grad_norm": 0.9104012846946716,
      "learning_rate": 2.7362632818069074e-05,
      "loss": 3.3294,
      "step": 386640
    },
    {
      "epoch": 0.8055208333333334,
      "grad_norm": 1.0038995742797852,
      "learning_rate": 2.7356956413484916e-05,
      "loss": 3.2851,
      "step": 386650
    },
    {
      "epoch": 0.8055416666666667,
      "grad_norm": 0.9075897336006165,
      "learning_rate": 2.735128053867022e-05,
      "loss": 3.2951,
      "step": 386660
    },
    {
      "epoch": 0.8055625,
      "grad_norm": 1.1141352653503418,
      "learning_rate": 2.7345605193649345e-05,
      "loss": 3.3401,
      "step": 386670
    },
    {
      "epoch": 0.8055833333333333,
      "grad_norm": 0.8806982040405273,
      "learning_rate": 2.7339930378446993e-05,
      "loss": 3.323,
      "step": 386680
    },
    {
      "epoch": 0.8056041666666667,
      "grad_norm": 0.8992943167686462,
      "learning_rate": 2.733425609308755e-05,
      "loss": 3.3845,
      "step": 386690
    },
    {
      "epoch": 0.805625,
      "grad_norm": 0.9100557565689087,
      "learning_rate": 2.7328582337595534e-05,
      "loss": 3.3911,
      "step": 386700
    },
    {
      "epoch": 0.8056458333333333,
      "grad_norm": 0.8290001153945923,
      "learning_rate": 2.732290911199555e-05,
      "loss": 3.1804,
      "step": 386710
    },
    {
      "epoch": 0.8056666666666666,
      "grad_norm": 0.9161478281021118,
      "learning_rate": 2.731723641631201e-05,
      "loss": 3.3024,
      "step": 386720
    },
    {
      "epoch": 0.8056875,
      "grad_norm": 0.863847017288208,
      "learning_rate": 2.7311564250569394e-05,
      "loss": 3.25,
      "step": 386730
    },
    {
      "epoch": 0.8057083333333334,
      "grad_norm": 1.0820646286010742,
      "learning_rate": 2.7305892614792353e-05,
      "loss": 3.2669,
      "step": 386740
    },
    {
      "epoch": 0.8057291666666667,
      "grad_norm": 1.0068426132202148,
      "learning_rate": 2.7300221509005243e-05,
      "loss": 3.266,
      "step": 386750
    },
    {
      "epoch": 0.80575,
      "grad_norm": 0.8944904208183289,
      "learning_rate": 2.7294550933232567e-05,
      "loss": 3.2747,
      "step": 386760
    },
    {
      "epoch": 0.8057708333333333,
      "grad_norm": 0.9321807026863098,
      "learning_rate": 2.7288880887498954e-05,
      "loss": 3.3375,
      "step": 386770
    },
    {
      "epoch": 0.8057916666666667,
      "grad_norm": 1.0295313596725464,
      "learning_rate": 2.728321137182875e-05,
      "loss": 3.3961,
      "step": 386780
    },
    {
      "epoch": 0.8058125,
      "grad_norm": 0.829076886177063,
      "learning_rate": 2.7277542386246454e-05,
      "loss": 3.2785,
      "step": 386790
    },
    {
      "epoch": 0.8058333333333333,
      "grad_norm": 0.9402691125869751,
      "learning_rate": 2.7271873930776694e-05,
      "loss": 3.1511,
      "step": 386800
    },
    {
      "epoch": 0.8058541666666666,
      "grad_norm": 0.9009412527084351,
      "learning_rate": 2.7266206005443802e-05,
      "loss": 3.322,
      "step": 386810
    },
    {
      "epoch": 0.805875,
      "grad_norm": 0.8653564453125,
      "learning_rate": 2.7260538610272326e-05,
      "loss": 3.2679,
      "step": 386820
    },
    {
      "epoch": 0.8058958333333334,
      "grad_norm": 0.9065096378326416,
      "learning_rate": 2.7254871745286743e-05,
      "loss": 3.3298,
      "step": 386830
    },
    {
      "epoch": 0.8059166666666666,
      "grad_norm": 0.8246826529502869,
      "learning_rate": 2.7249205410511537e-05,
      "loss": 3.2802,
      "step": 386840
    },
    {
      "epoch": 0.8059375,
      "grad_norm": 0.978373110294342,
      "learning_rate": 2.7243539605971153e-05,
      "loss": 3.3499,
      "step": 386850
    },
    {
      "epoch": 0.8059583333333333,
      "grad_norm": 0.9694019556045532,
      "learning_rate": 2.7237874331690107e-05,
      "loss": 3.4653,
      "step": 386860
    },
    {
      "epoch": 0.8059791666666667,
      "grad_norm": 0.8167659044265747,
      "learning_rate": 2.7232209587692843e-05,
      "loss": 3.2347,
      "step": 386870
    },
    {
      "epoch": 0.806,
      "grad_norm": 0.8944735527038574,
      "learning_rate": 2.7226545374003828e-05,
      "loss": 3.317,
      "step": 386880
    },
    {
      "epoch": 0.8060208333333333,
      "grad_norm": 0.9124730825424194,
      "learning_rate": 2.7220881690647555e-05,
      "loss": 3.2575,
      "step": 386890
    },
    {
      "epoch": 0.8060416666666667,
      "grad_norm": 0.8754362463951111,
      "learning_rate": 2.7215218537648477e-05,
      "loss": 3.3808,
      "step": 386900
    },
    {
      "epoch": 0.8060625,
      "grad_norm": 1.014817476272583,
      "learning_rate": 2.7209555915031033e-05,
      "loss": 3.3429,
      "step": 386910
    },
    {
      "epoch": 0.8060833333333334,
      "grad_norm": 0.9048160314559937,
      "learning_rate": 2.7203893822819728e-05,
      "loss": 3.4171,
      "step": 386920
    },
    {
      "epoch": 0.8061041666666666,
      "grad_norm": 1.0619511604309082,
      "learning_rate": 2.7198232261038987e-05,
      "loss": 3.3248,
      "step": 386930
    },
    {
      "epoch": 0.806125,
      "grad_norm": 0.8723303079605103,
      "learning_rate": 2.7192571229713294e-05,
      "loss": 3.3612,
      "step": 386940
    },
    {
      "epoch": 0.8061458333333333,
      "grad_norm": 1.0355085134506226,
      "learning_rate": 2.718691072886703e-05,
      "loss": 3.3492,
      "step": 386950
    },
    {
      "epoch": 0.8061666666666667,
      "grad_norm": 1.5259562730789185,
      "learning_rate": 2.7181250758524736e-05,
      "loss": 3.3295,
      "step": 386960
    },
    {
      "epoch": 0.8061875,
      "grad_norm": 0.8787199258804321,
      "learning_rate": 2.7175591318710847e-05,
      "loss": 3.4321,
      "step": 386970
    },
    {
      "epoch": 0.8062083333333333,
      "grad_norm": 0.9144579768180847,
      "learning_rate": 2.7169932409449712e-05,
      "loss": 3.1746,
      "step": 386980
    },
    {
      "epoch": 0.8062291666666667,
      "grad_norm": 0.8881053924560547,
      "learning_rate": 2.7164274030765892e-05,
      "loss": 3.3257,
      "step": 386990
    },
    {
      "epoch": 0.80625,
      "grad_norm": 0.9315892457962036,
      "learning_rate": 2.7158616182683836e-05,
      "loss": 3.3257,
      "step": 387000
    },
    {
      "epoch": 0.80625,
      "eval_loss": 4.038941383361816,
      "eval_runtime": 8.7809,
      "eval_samples_per_second": 1.139,
      "eval_steps_per_second": 0.342,
      "step": 387000
    },
    {
      "epoch": 0.8062708333333334,
      "grad_norm": 0.8577896356582642,
      "learning_rate": 2.7152958865227853e-05,
      "loss": 3.2588,
      "step": 387010
    },
    {
      "epoch": 0.8062916666666666,
      "grad_norm": 0.9658896327018738,
      "learning_rate": 2.7147302078422493e-05,
      "loss": 3.3338,
      "step": 387020
    },
    {
      "epoch": 0.8063125,
      "grad_norm": 0.9595312476158142,
      "learning_rate": 2.714164582229219e-05,
      "loss": 3.251,
      "step": 387030
    },
    {
      "epoch": 0.8063333333333333,
      "grad_norm": 0.9436438083648682,
      "learning_rate": 2.713599009686129e-05,
      "loss": 3.3806,
      "step": 387040
    },
    {
      "epoch": 0.8063541666666667,
      "grad_norm": 0.8901774287223816,
      "learning_rate": 2.71303349021543e-05,
      "loss": 3.2628,
      "step": 387050
    },
    {
      "epoch": 0.806375,
      "grad_norm": 0.8238837718963623,
      "learning_rate": 2.7124680238195673e-05,
      "loss": 3.2299,
      "step": 387060
    },
    {
      "epoch": 0.8063958333333333,
      "grad_norm": 0.8534093499183655,
      "learning_rate": 2.7119026105009707e-05,
      "loss": 3.3504,
      "step": 387070
    },
    {
      "epoch": 0.8064166666666667,
      "grad_norm": 0.8887262940406799,
      "learning_rate": 2.7113372502620996e-05,
      "loss": 3.3722,
      "step": 387080
    },
    {
      "epoch": 0.8064375,
      "grad_norm": 0.9449154138565063,
      "learning_rate": 2.7107719431053837e-05,
      "loss": 3.2766,
      "step": 387090
    },
    {
      "epoch": 0.8064583333333334,
      "grad_norm": 0.8381789922714233,
      "learning_rate": 2.7102066890332648e-05,
      "loss": 3.2452,
      "step": 387100
    },
    {
      "epoch": 0.8064791666666666,
      "grad_norm": 0.9449952840805054,
      "learning_rate": 2.7096414880481955e-05,
      "loss": 3.3592,
      "step": 387110
    },
    {
      "epoch": 0.8065,
      "grad_norm": 1.0248439311981201,
      "learning_rate": 2.7090763401526055e-05,
      "loss": 3.442,
      "step": 387120
    },
    {
      "epoch": 0.8065208333333334,
      "grad_norm": 0.9950305223464966,
      "learning_rate": 2.7085112453489367e-05,
      "loss": 3.35,
      "step": 387130
    },
    {
      "epoch": 0.8065416666666667,
      "grad_norm": 0.8678385615348816,
      "learning_rate": 2.7079462036396433e-05,
      "loss": 3.2927,
      "step": 387140
    },
    {
      "epoch": 0.8065625,
      "grad_norm": 0.7854745388031006,
      "learning_rate": 2.7073812150271517e-05,
      "loss": 3.3361,
      "step": 387150
    },
    {
      "epoch": 0.8065833333333333,
      "grad_norm": 0.9012699127197266,
      "learning_rate": 2.7068162795139086e-05,
      "loss": 3.3342,
      "step": 387160
    },
    {
      "epoch": 0.8066041666666667,
      "grad_norm": 0.9194701313972473,
      "learning_rate": 2.706251397102352e-05,
      "loss": 3.3982,
      "step": 387170
    },
    {
      "epoch": 0.806625,
      "grad_norm": 0.8541799187660217,
      "learning_rate": 2.705686567794923e-05,
      "loss": 3.1948,
      "step": 387180
    },
    {
      "epoch": 0.8066458333333333,
      "grad_norm": 0.961925745010376,
      "learning_rate": 2.7051217915940632e-05,
      "loss": 3.336,
      "step": 387190
    },
    {
      "epoch": 0.8066666666666666,
      "grad_norm": 0.8501583933830261,
      "learning_rate": 2.704557068502209e-05,
      "loss": 3.3233,
      "step": 387200
    },
    {
      "epoch": 0.8066875,
      "grad_norm": 0.9201294779777527,
      "learning_rate": 2.7039923985218032e-05,
      "loss": 3.2747,
      "step": 387210
    },
    {
      "epoch": 0.8067083333333334,
      "grad_norm": 0.7856385111808777,
      "learning_rate": 2.703427781655281e-05,
      "loss": 3.28,
      "step": 387220
    },
    {
      "epoch": 0.8067291666666667,
      "grad_norm": 0.9330771565437317,
      "learning_rate": 2.7028632179050847e-05,
      "loss": 3.2597,
      "step": 387230
    },
    {
      "epoch": 0.80675,
      "grad_norm": 0.8332781791687012,
      "learning_rate": 2.702298707273651e-05,
      "loss": 3.3083,
      "step": 387240
    },
    {
      "epoch": 0.8067708333333333,
      "grad_norm": 0.8838785886764526,
      "learning_rate": 2.7017342497634202e-05,
      "loss": 3.3359,
      "step": 387250
    },
    {
      "epoch": 0.8067916666666667,
      "grad_norm": 1.07892644405365,
      "learning_rate": 2.701169845376828e-05,
      "loss": 3.3894,
      "step": 387260
    },
    {
      "epoch": 0.8068125,
      "grad_norm": 0.9121966361999512,
      "learning_rate": 2.7006054941163163e-05,
      "loss": 3.3611,
      "step": 387270
    },
    {
      "epoch": 0.8068333333333333,
      "grad_norm": 0.8952406048774719,
      "learning_rate": 2.7000411959843177e-05,
      "loss": 3.3293,
      "step": 387280
    },
    {
      "epoch": 0.8068541666666667,
      "grad_norm": 0.8027831315994263,
      "learning_rate": 2.6994769509832736e-05,
      "loss": 3.3841,
      "step": 387290
    },
    {
      "epoch": 0.806875,
      "grad_norm": 0.9233756065368652,
      "learning_rate": 2.6989127591156206e-05,
      "loss": 3.3354,
      "step": 387300
    },
    {
      "epoch": 0.8068958333333334,
      "grad_norm": 1.097935676574707,
      "learning_rate": 2.6983486203837983e-05,
      "loss": 3.5122,
      "step": 387310
    },
    {
      "epoch": 0.8069166666666666,
      "grad_norm": 0.94313645362854,
      "learning_rate": 2.6977845347902348e-05,
      "loss": 3.3572,
      "step": 387320
    },
    {
      "epoch": 0.8069375,
      "grad_norm": 0.8660886287689209,
      "learning_rate": 2.6972205023373748e-05,
      "loss": 3.3401,
      "step": 387330
    },
    {
      "epoch": 0.8069583333333333,
      "grad_norm": 0.8680512309074402,
      "learning_rate": 2.6966565230276567e-05,
      "loss": 3.2254,
      "step": 387340
    },
    {
      "epoch": 0.8069791666666667,
      "grad_norm": 0.9806715846061707,
      "learning_rate": 2.6960925968635043e-05,
      "loss": 3.291,
      "step": 387350
    },
    {
      "epoch": 0.807,
      "grad_norm": 1.1307066679000854,
      "learning_rate": 2.695528723847365e-05,
      "loss": 3.3397,
      "step": 387360
    },
    {
      "epoch": 0.8070208333333333,
      "grad_norm": 0.9979472756385803,
      "learning_rate": 2.6949649039816763e-05,
      "loss": 3.397,
      "step": 387370
    },
    {
      "epoch": 0.8070416666666667,
      "grad_norm": 0.8919135332107544,
      "learning_rate": 2.6944011372688613e-05,
      "loss": 3.2875,
      "step": 387380
    },
    {
      "epoch": 0.8070625,
      "grad_norm": 0.8660540580749512,
      "learning_rate": 2.6938374237113648e-05,
      "loss": 3.2759,
      "step": 387390
    },
    {
      "epoch": 0.8070833333333334,
      "grad_norm": 0.9322783350944519,
      "learning_rate": 2.693273763311623e-05,
      "loss": 3.3691,
      "step": 387400
    },
    {
      "epoch": 0.8071041666666666,
      "grad_norm": 0.9305019378662109,
      "learning_rate": 2.692710156072061e-05,
      "loss": 3.3713,
      "step": 387410
    },
    {
      "epoch": 0.807125,
      "grad_norm": 0.9748366475105286,
      "learning_rate": 2.692146601995123e-05,
      "loss": 3.2739,
      "step": 387420
    },
    {
      "epoch": 0.8071458333333333,
      "grad_norm": 0.8944191932678223,
      "learning_rate": 2.6915831010832446e-05,
      "loss": 3.3165,
      "step": 387430
    },
    {
      "epoch": 0.8071666666666667,
      "grad_norm": 0.9231497645378113,
      "learning_rate": 2.6910196533388496e-05,
      "loss": 3.2978,
      "step": 387440
    },
    {
      "epoch": 0.8071875,
      "grad_norm": 0.9535052180290222,
      "learning_rate": 2.690456258764378e-05,
      "loss": 3.35,
      "step": 387450
    },
    {
      "epoch": 0.8072083333333333,
      "grad_norm": 0.9131927490234375,
      "learning_rate": 2.689892917362263e-05,
      "loss": 3.3643,
      "step": 387460
    },
    {
      "epoch": 0.8072291666666667,
      "grad_norm": 0.8715758323669434,
      "learning_rate": 2.689329629134939e-05,
      "loss": 3.3648,
      "step": 387470
    },
    {
      "epoch": 0.80725,
      "grad_norm": 0.9740400314331055,
      "learning_rate": 2.6887663940848364e-05,
      "loss": 3.3115,
      "step": 387480
    },
    {
      "epoch": 0.8072708333333334,
      "grad_norm": 0.889152467250824,
      "learning_rate": 2.6882032122143908e-05,
      "loss": 3.3227,
      "step": 387490
    },
    {
      "epoch": 0.8072916666666666,
      "grad_norm": 1.024864673614502,
      "learning_rate": 2.6876400835260344e-05,
      "loss": 3.325,
      "step": 387500
    },
    {
      "epoch": 0.8073125,
      "grad_norm": 0.8567374348640442,
      "learning_rate": 2.6870770080221977e-05,
      "loss": 3.2735,
      "step": 387510
    },
    {
      "epoch": 0.8073333333333333,
      "grad_norm": 0.9251478314399719,
      "learning_rate": 2.686513985705316e-05,
      "loss": 3.2953,
      "step": 387520
    },
    {
      "epoch": 0.8073541666666667,
      "grad_norm": 0.9579485058784485,
      "learning_rate": 2.6859510165778185e-05,
      "loss": 3.2732,
      "step": 387530
    },
    {
      "epoch": 0.807375,
      "grad_norm": 0.8075234293937683,
      "learning_rate": 2.6853881006421406e-05,
      "loss": 3.3531,
      "step": 387540
    },
    {
      "epoch": 0.8073958333333333,
      "grad_norm": 0.838448166847229,
      "learning_rate": 2.6848252379007102e-05,
      "loss": 3.1978,
      "step": 387550
    },
    {
      "epoch": 0.8074166666666667,
      "grad_norm": 0.8366194367408752,
      "learning_rate": 2.68426242835596e-05,
      "loss": 3.3919,
      "step": 387560
    },
    {
      "epoch": 0.8074375,
      "grad_norm": 0.8608568906784058,
      "learning_rate": 2.6836996720103217e-05,
      "loss": 3.2811,
      "step": 387570
    },
    {
      "epoch": 0.8074583333333333,
      "grad_norm": 0.8885201215744019,
      "learning_rate": 2.6831369688662246e-05,
      "loss": 3.2947,
      "step": 387580
    },
    {
      "epoch": 0.8074791666666666,
      "grad_norm": 0.9021678566932678,
      "learning_rate": 2.6825743189261005e-05,
      "loss": 3.3172,
      "step": 387590
    },
    {
      "epoch": 0.8075,
      "grad_norm": 0.8513577580451965,
      "learning_rate": 2.682011722192381e-05,
      "loss": 3.3356,
      "step": 387600
    },
    {
      "epoch": 0.8075208333333334,
      "grad_norm": 0.935369074344635,
      "learning_rate": 2.6814491786674952e-05,
      "loss": 3.3523,
      "step": 387610
    },
    {
      "epoch": 0.8075416666666667,
      "grad_norm": 0.8660033941268921,
      "learning_rate": 2.6808866883538716e-05,
      "loss": 3.3362,
      "step": 387620
    },
    {
      "epoch": 0.8075625,
      "grad_norm": 0.8402975797653198,
      "learning_rate": 2.6803242512539412e-05,
      "loss": 3.3706,
      "step": 387630
    },
    {
      "epoch": 0.8075833333333333,
      "grad_norm": 1.0109097957611084,
      "learning_rate": 2.679761867370136e-05,
      "loss": 3.3019,
      "step": 387640
    },
    {
      "epoch": 0.8076041666666667,
      "grad_norm": 0.8705706596374512,
      "learning_rate": 2.6791995367048802e-05,
      "loss": 3.3445,
      "step": 387650
    },
    {
      "epoch": 0.807625,
      "grad_norm": 0.8852375149726868,
      "learning_rate": 2.678637259260607e-05,
      "loss": 3.2197,
      "step": 387660
    },
    {
      "epoch": 0.8076458333333333,
      "grad_norm": 0.9430757761001587,
      "learning_rate": 2.6780750350397428e-05,
      "loss": 3.3338,
      "step": 387670
    },
    {
      "epoch": 0.8076666666666666,
      "grad_norm": 0.9798417091369629,
      "learning_rate": 2.677512864044721e-05,
      "loss": 3.3966,
      "step": 387680
    },
    {
      "epoch": 0.8076875,
      "grad_norm": 1.0070785284042358,
      "learning_rate": 2.676950746277959e-05,
      "loss": 3.3653,
      "step": 387690
    },
    {
      "epoch": 0.8077083333333334,
      "grad_norm": 0.8515016436576843,
      "learning_rate": 2.676388681741895e-05,
      "loss": 3.3037,
      "step": 387700
    },
    {
      "epoch": 0.8077291666666667,
      "grad_norm": 0.8463324308395386,
      "learning_rate": 2.6758266704389575e-05,
      "loss": 3.3194,
      "step": 387710
    },
    {
      "epoch": 0.80775,
      "grad_norm": 0.8512955904006958,
      "learning_rate": 2.6752647123715644e-05,
      "loss": 3.3748,
      "step": 387720
    },
    {
      "epoch": 0.8077708333333333,
      "grad_norm": 0.954338014125824,
      "learning_rate": 2.6747028075421518e-05,
      "loss": 3.4287,
      "step": 387730
    },
    {
      "epoch": 0.8077916666666667,
      "grad_norm": 0.9300128221511841,
      "learning_rate": 2.6741409559531495e-05,
      "loss": 3.3229,
      "step": 387740
    },
    {
      "epoch": 0.8078125,
      "grad_norm": 1.0893678665161133,
      "learning_rate": 2.673579157606974e-05,
      "loss": 3.2146,
      "step": 387750
    },
    {
      "epoch": 0.8078333333333333,
      "grad_norm": 0.8588085174560547,
      "learning_rate": 2.6730174125060538e-05,
      "loss": 3.2621,
      "step": 387760
    },
    {
      "epoch": 0.8078541666666667,
      "grad_norm": 0.8689444661140442,
      "learning_rate": 2.672455720652828e-05,
      "loss": 3.3278,
      "step": 387770
    },
    {
      "epoch": 0.807875,
      "grad_norm": 0.890951931476593,
      "learning_rate": 2.671894082049708e-05,
      "loss": 3.4181,
      "step": 387780
    },
    {
      "epoch": 0.8078958333333334,
      "grad_norm": 0.9078129529953003,
      "learning_rate": 2.671332496699124e-05,
      "loss": 3.3553,
      "step": 387790
    },
    {
      "epoch": 0.8079166666666666,
      "grad_norm": 0.8704265356063843,
      "learning_rate": 2.67077096460351e-05,
      "loss": 3.339,
      "step": 387800
    },
    {
      "epoch": 0.8079375,
      "grad_norm": 0.9028459191322327,
      "learning_rate": 2.6702094857652816e-05,
      "loss": 3.45,
      "step": 387810
    },
    {
      "epoch": 0.8079583333333333,
      "grad_norm": 1.0855038166046143,
      "learning_rate": 2.669648060186868e-05,
      "loss": 3.398,
      "step": 387820
    },
    {
      "epoch": 0.8079791666666667,
      "grad_norm": 0.9662375450134277,
      "learning_rate": 2.669086687870694e-05,
      "loss": 3.333,
      "step": 387830
    },
    {
      "epoch": 0.808,
      "grad_norm": 0.9215081334114075,
      "learning_rate": 2.6685253688191842e-05,
      "loss": 3.3258,
      "step": 387840
    },
    {
      "epoch": 0.8080208333333333,
      "grad_norm": 0.8626914024353027,
      "learning_rate": 2.667964103034764e-05,
      "loss": 3.267,
      "step": 387850
    },
    {
      "epoch": 0.8080416666666667,
      "grad_norm": 0.8813914060592651,
      "learning_rate": 2.6674028905198587e-05,
      "loss": 3.3473,
      "step": 387860
    },
    {
      "epoch": 0.8080625,
      "grad_norm": 1.0845351219177246,
      "learning_rate": 2.66684173127689e-05,
      "loss": 3.3657,
      "step": 387870
    },
    {
      "epoch": 0.8080833333333334,
      "grad_norm": 0.8309784531593323,
      "learning_rate": 2.6662806253082834e-05,
      "loss": 3.4236,
      "step": 387880
    },
    {
      "epoch": 0.8081041666666666,
      "grad_norm": 0.9283221960067749,
      "learning_rate": 2.6657195726164614e-05,
      "loss": 3.3536,
      "step": 387890
    },
    {
      "epoch": 0.808125,
      "grad_norm": 0.9232800602912903,
      "learning_rate": 2.6651585732038504e-05,
      "loss": 3.3133,
      "step": 387900
    },
    {
      "epoch": 0.8081458333333333,
      "grad_norm": 0.929046630859375,
      "learning_rate": 2.6645976270728704e-05,
      "loss": 3.3225,
      "step": 387910
    },
    {
      "epoch": 0.8081666666666667,
      "grad_norm": 0.9421372413635254,
      "learning_rate": 2.664036734225947e-05,
      "loss": 3.2929,
      "step": 387920
    },
    {
      "epoch": 0.8081875,
      "grad_norm": 0.9577018022537231,
      "learning_rate": 2.6634758946655026e-05,
      "loss": 3.3911,
      "step": 387930
    },
    {
      "epoch": 0.8082083333333333,
      "grad_norm": 0.8075176477432251,
      "learning_rate": 2.662915108393958e-05,
      "loss": 3.3255,
      "step": 387940
    },
    {
      "epoch": 0.8082291666666667,
      "grad_norm": 0.8520680069923401,
      "learning_rate": 2.6623543754137368e-05,
      "loss": 3.2285,
      "step": 387950
    },
    {
      "epoch": 0.80825,
      "grad_norm": 0.9114620089530945,
      "learning_rate": 2.661793695727261e-05,
      "loss": 3.338,
      "step": 387960
    },
    {
      "epoch": 0.8082708333333334,
      "grad_norm": 0.8145526051521301,
      "learning_rate": 2.6612330693369534e-05,
      "loss": 3.3006,
      "step": 387970
    },
    {
      "epoch": 0.8082916666666666,
      "grad_norm": 0.9698219299316406,
      "learning_rate": 2.6606724962452343e-05,
      "loss": 3.2541,
      "step": 387980
    },
    {
      "epoch": 0.8083125,
      "grad_norm": 0.989274263381958,
      "learning_rate": 2.660111976454527e-05,
      "loss": 3.2209,
      "step": 387990
    },
    {
      "epoch": 0.8083333333333333,
      "grad_norm": 0.8195451498031616,
      "learning_rate": 2.65955150996725e-05,
      "loss": 3.3034,
      "step": 388000
    },
    {
      "epoch": 0.8083333333333333,
      "eval_loss": 4.039546012878418,
      "eval_runtime": 8.4109,
      "eval_samples_per_second": 1.189,
      "eval_steps_per_second": 0.357,
      "step": 388000
    },
    {
      "epoch": 0.8083541666666667,
      "grad_norm": 0.7786557674407959,
      "learning_rate": 2.658991096785826e-05,
      "loss": 3.25,
      "step": 388010
    },
    {
      "epoch": 0.808375,
      "grad_norm": 0.9631078243255615,
      "learning_rate": 2.658430736912676e-05,
      "loss": 3.3627,
      "step": 388020
    },
    {
      "epoch": 0.8083958333333333,
      "grad_norm": 0.976108729839325,
      "learning_rate": 2.657870430350224e-05,
      "loss": 3.288,
      "step": 388030
    },
    {
      "epoch": 0.8084166666666667,
      "grad_norm": 0.8905630111694336,
      "learning_rate": 2.6573101771008776e-05,
      "loss": 3.3787,
      "step": 388040
    },
    {
      "epoch": 0.8084375,
      "grad_norm": 0.8755736351013184,
      "learning_rate": 2.6567499771670715e-05,
      "loss": 3.3748,
      "step": 388050
    },
    {
      "epoch": 0.8084583333333333,
      "grad_norm": 1.0152469873428345,
      "learning_rate": 2.656189830551222e-05,
      "loss": 3.3118,
      "step": 388060
    },
    {
      "epoch": 0.8084791666666666,
      "grad_norm": 1.1238112449645996,
      "learning_rate": 2.655629737255739e-05,
      "loss": 3.2445,
      "step": 388070
    },
    {
      "epoch": 0.8085,
      "grad_norm": 0.9818567633628845,
      "learning_rate": 2.655069697283057e-05,
      "loss": 3.2959,
      "step": 388080
    },
    {
      "epoch": 0.8085208333333334,
      "grad_norm": 0.8557890057563782,
      "learning_rate": 2.6545097106355845e-05,
      "loss": 3.2969,
      "step": 388090
    },
    {
      "epoch": 0.8085416666666667,
      "grad_norm": 0.8568195104598999,
      "learning_rate": 2.6539497773157377e-05,
      "loss": 3.2748,
      "step": 388100
    },
    {
      "epoch": 0.8085625,
      "grad_norm": 1.0296951532363892,
      "learning_rate": 2.653389897325951e-05,
      "loss": 3.3247,
      "step": 388110
    },
    {
      "epoch": 0.8085833333333333,
      "grad_norm": 0.851323664188385,
      "learning_rate": 2.652830070668626e-05,
      "loss": 3.261,
      "step": 388120
    },
    {
      "epoch": 0.8086041666666667,
      "grad_norm": 1.087707757949829,
      "learning_rate": 2.6522702973461862e-05,
      "loss": 3.3761,
      "step": 388130
    },
    {
      "epoch": 0.808625,
      "grad_norm": 0.9859318733215332,
      "learning_rate": 2.651710577361059e-05,
      "loss": 3.3503,
      "step": 388140
    },
    {
      "epoch": 0.8086458333333333,
      "grad_norm": 0.881233811378479,
      "learning_rate": 2.6511509107156498e-05,
      "loss": 3.3409,
      "step": 388150
    },
    {
      "epoch": 0.8086666666666666,
      "grad_norm": 0.949793815612793,
      "learning_rate": 2.6505912974123762e-05,
      "loss": 3.2703,
      "step": 388160
    },
    {
      "epoch": 0.8086875,
      "grad_norm": 0.9089868664741516,
      "learning_rate": 2.650031737453668e-05,
      "loss": 3.3564,
      "step": 388170
    },
    {
      "epoch": 0.8087083333333334,
      "grad_norm": 0.9669979810714722,
      "learning_rate": 2.6494722308419315e-05,
      "loss": 3.298,
      "step": 388180
    },
    {
      "epoch": 0.8087291666666667,
      "grad_norm": 0.8270401954650879,
      "learning_rate": 2.6489127775795847e-05,
      "loss": 3.3123,
      "step": 388190
    },
    {
      "epoch": 0.80875,
      "grad_norm": 0.8959804773330688,
      "learning_rate": 2.6483533776690464e-05,
      "loss": 3.354,
      "step": 388200
    },
    {
      "epoch": 0.8087708333333333,
      "grad_norm": 0.8604552149772644,
      "learning_rate": 2.6477940311127323e-05,
      "loss": 3.245,
      "step": 388210
    },
    {
      "epoch": 0.8087916666666667,
      "grad_norm": 0.81344074010849,
      "learning_rate": 2.6472347379130588e-05,
      "loss": 3.2418,
      "step": 388220
    },
    {
      "epoch": 0.8088125,
      "grad_norm": 0.9057176113128662,
      "learning_rate": 2.646675498072441e-05,
      "loss": 3.239,
      "step": 388230
    },
    {
      "epoch": 0.8088333333333333,
      "grad_norm": 0.9763363003730774,
      "learning_rate": 2.6461163115932965e-05,
      "loss": 3.3967,
      "step": 388240
    },
    {
      "epoch": 0.8088541666666667,
      "grad_norm": 0.8971061706542969,
      "learning_rate": 2.6455571784780388e-05,
      "loss": 3.3625,
      "step": 388250
    },
    {
      "epoch": 0.808875,
      "grad_norm": 0.9285907745361328,
      "learning_rate": 2.644998098729084e-05,
      "loss": 3.3945,
      "step": 388260
    },
    {
      "epoch": 0.8088958333333334,
      "grad_norm": 0.8750267028808594,
      "learning_rate": 2.6444390723488472e-05,
      "loss": 3.2854,
      "step": 388270
    },
    {
      "epoch": 0.8089166666666666,
      "grad_norm": 0.8270764946937561,
      "learning_rate": 2.643880099339743e-05,
      "loss": 3.2783,
      "step": 388280
    },
    {
      "epoch": 0.8089375,
      "grad_norm": 0.8976834416389465,
      "learning_rate": 2.643321179704184e-05,
      "loss": 3.3037,
      "step": 388290
    },
    {
      "epoch": 0.8089583333333333,
      "grad_norm": 0.8718351125717163,
      "learning_rate": 2.642762313444589e-05,
      "loss": 3.3776,
      "step": 388300
    },
    {
      "epoch": 0.8089791666666667,
      "grad_norm": 0.8874712586402893,
      "learning_rate": 2.6422035005633675e-05,
      "loss": 3.3747,
      "step": 388310
    },
    {
      "epoch": 0.809,
      "grad_norm": 0.9958188533782959,
      "learning_rate": 2.641644741062937e-05,
      "loss": 3.2776,
      "step": 388320
    },
    {
      "epoch": 0.8090208333333333,
      "grad_norm": 0.8859611749649048,
      "learning_rate": 2.6410860349457082e-05,
      "loss": 3.2616,
      "step": 388330
    },
    {
      "epoch": 0.8090416666666667,
      "grad_norm": 1.0964322090148926,
      "learning_rate": 2.6405273822141e-05,
      "loss": 3.2389,
      "step": 388340
    },
    {
      "epoch": 0.8090625,
      "grad_norm": 0.8423997163772583,
      "learning_rate": 2.639968782870514e-05,
      "loss": 3.1861,
      "step": 388350
    },
    {
      "epoch": 0.8090833333333334,
      "grad_norm": 0.8735406398773193,
      "learning_rate": 2.6394102369173737e-05,
      "loss": 3.4954,
      "step": 388360
    },
    {
      "epoch": 0.8091041666666666,
      "grad_norm": 0.9116883873939514,
      "learning_rate": 2.6388517443570934e-05,
      "loss": 3.2902,
      "step": 388370
    },
    {
      "epoch": 0.809125,
      "grad_norm": 0.8580495119094849,
      "learning_rate": 2.6382933051920712e-05,
      "loss": 3.3484,
      "step": 388380
    },
    {
      "epoch": 0.8091458333333333,
      "grad_norm": 0.9034652709960938,
      "learning_rate": 2.6377349194247338e-05,
      "loss": 3.2531,
      "step": 388390
    },
    {
      "epoch": 0.8091666666666667,
      "grad_norm": 0.8358343839645386,
      "learning_rate": 2.6371765870574925e-05,
      "loss": 3.331,
      "step": 388400
    },
    {
      "epoch": 0.8091875,
      "grad_norm": 0.9680306911468506,
      "learning_rate": 2.6366183080927468e-05,
      "loss": 3.3277,
      "step": 388410
    },
    {
      "epoch": 0.8092083333333333,
      "grad_norm": 0.8893556594848633,
      "learning_rate": 2.6360600825329198e-05,
      "loss": 3.3167,
      "step": 388420
    },
    {
      "epoch": 0.8092291666666667,
      "grad_norm": 0.9553403258323669,
      "learning_rate": 2.6355019103804233e-05,
      "loss": 3.3724,
      "step": 388430
    },
    {
      "epoch": 0.80925,
      "grad_norm": 0.8323167562484741,
      "learning_rate": 2.6349437916376546e-05,
      "loss": 3.3138,
      "step": 388440
    },
    {
      "epoch": 0.8092708333333334,
      "grad_norm": 0.9446187615394592,
      "learning_rate": 2.6343857263070445e-05,
      "loss": 3.3233,
      "step": 388450
    },
    {
      "epoch": 0.8092916666666666,
      "grad_norm": 0.8137815594673157,
      "learning_rate": 2.6338277143909887e-05,
      "loss": 3.4038,
      "step": 388460
    },
    {
      "epoch": 0.8093125,
      "grad_norm": 0.8387193083763123,
      "learning_rate": 2.6332697558918984e-05,
      "loss": 3.4303,
      "step": 388470
    },
    {
      "epoch": 0.8093333333333333,
      "grad_norm": 0.8466085195541382,
      "learning_rate": 2.632711850812196e-05,
      "loss": 3.2521,
      "step": 388480
    },
    {
      "epoch": 0.8093541666666667,
      "grad_norm": 0.970622718334198,
      "learning_rate": 2.6321539991542784e-05,
      "loss": 3.3075,
      "step": 388490
    },
    {
      "epoch": 0.809375,
      "grad_norm": 1.0446555614471436,
      "learning_rate": 2.6315962009205577e-05,
      "loss": 3.4026,
      "step": 388500
    },
    {
      "epoch": 0.8093958333333333,
      "grad_norm": 0.9283974766731262,
      "learning_rate": 2.6310384561134517e-05,
      "loss": 3.2979,
      "step": 388510
    },
    {
      "epoch": 0.8094166666666667,
      "grad_norm": 0.877132773399353,
      "learning_rate": 2.6304807647353605e-05,
      "loss": 3.2611,
      "step": 388520
    },
    {
      "epoch": 0.8094375,
      "grad_norm": 1.1840101480484009,
      "learning_rate": 2.6299231267886918e-05,
      "loss": 3.3822,
      "step": 388530
    },
    {
      "epoch": 0.8094583333333333,
      "grad_norm": 0.8445540070533752,
      "learning_rate": 2.629365542275867e-05,
      "loss": 3.2221,
      "step": 388540
    },
    {
      "epoch": 0.8094791666666666,
      "grad_norm": 0.8278083801269531,
      "learning_rate": 2.6288080111992828e-05,
      "loss": 3.373,
      "step": 388550
    },
    {
      "epoch": 0.8095,
      "grad_norm": 0.9502958655357361,
      "learning_rate": 2.628250533561347e-05,
      "loss": 3.3385,
      "step": 388560
    },
    {
      "epoch": 0.8095208333333334,
      "grad_norm": 0.8982875347137451,
      "learning_rate": 2.6276931093644792e-05,
      "loss": 3.4604,
      "step": 388570
    },
    {
      "epoch": 0.8095416666666667,
      "grad_norm": 0.9492243528366089,
      "learning_rate": 2.6271357386110763e-05,
      "loss": 3.4176,
      "step": 388580
    },
    {
      "epoch": 0.8095625,
      "grad_norm": 0.9037421941757202,
      "learning_rate": 2.6265784213035496e-05,
      "loss": 3.3266,
      "step": 388590
    },
    {
      "epoch": 0.8095833333333333,
      "grad_norm": 0.8556032180786133,
      "learning_rate": 2.626021157444305e-05,
      "loss": 3.2785,
      "step": 388600
    },
    {
      "epoch": 0.8096041666666667,
      "grad_norm": 0.9909018278121948,
      "learning_rate": 2.625463947035753e-05,
      "loss": 3.4082,
      "step": 388610
    },
    {
      "epoch": 0.809625,
      "grad_norm": 1.0456602573394775,
      "learning_rate": 2.6249067900802977e-05,
      "loss": 3.3675,
      "step": 388620
    },
    {
      "epoch": 0.8096458333333333,
      "grad_norm": 0.9872602820396423,
      "learning_rate": 2.624349686580346e-05,
      "loss": 3.2857,
      "step": 388630
    },
    {
      "epoch": 0.8096666666666666,
      "grad_norm": 0.9468217492103577,
      "learning_rate": 2.623792636538307e-05,
      "loss": 3.3099,
      "step": 388640
    },
    {
      "epoch": 0.8096875,
      "grad_norm": 0.8157216310501099,
      "learning_rate": 2.623235639956583e-05,
      "loss": 3.3601,
      "step": 388650
    },
    {
      "epoch": 0.8097083333333334,
      "grad_norm": 0.9332825541496277,
      "learning_rate": 2.622678696837583e-05,
      "loss": 3.3557,
      "step": 388660
    },
    {
      "epoch": 0.8097291666666667,
      "grad_norm": 0.8662016987800598,
      "learning_rate": 2.622121807183712e-05,
      "loss": 3.3774,
      "step": 388670
    },
    {
      "epoch": 0.80975,
      "grad_norm": 0.9549189209938049,
      "learning_rate": 2.6215649709973778e-05,
      "loss": 3.3267,
      "step": 388680
    },
    {
      "epoch": 0.8097708333333333,
      "grad_norm": 0.9761534929275513,
      "learning_rate": 2.621008188280976e-05,
      "loss": 3.3346,
      "step": 388690
    },
    {
      "epoch": 0.8097916666666667,
      "grad_norm": 0.8656665682792664,
      "learning_rate": 2.6204514590369236e-05,
      "loss": 3.3766,
      "step": 388700
    },
    {
      "epoch": 0.8098125,
      "grad_norm": 0.9180012941360474,
      "learning_rate": 2.6198947832676243e-05,
      "loss": 3.3682,
      "step": 388710
    },
    {
      "epoch": 0.8098333333333333,
      "grad_norm": 0.9009411334991455,
      "learning_rate": 2.619338160975471e-05,
      "loss": 3.2583,
      "step": 388720
    },
    {
      "epoch": 0.8098541666666667,
      "grad_norm": 0.9431744813919067,
      "learning_rate": 2.6187815921628802e-05,
      "loss": 3.2567,
      "step": 388730
    },
    {
      "epoch": 0.809875,
      "grad_norm": 0.8464107513427734,
      "learning_rate": 2.6182250768322565e-05,
      "loss": 3.2697,
      "step": 388740
    },
    {
      "epoch": 0.8098958333333334,
      "grad_norm": 0.8255506753921509,
      "learning_rate": 2.61766861498599e-05,
      "loss": 3.3107,
      "step": 388750
    },
    {
      "epoch": 0.8099166666666666,
      "grad_norm": 1.1059523820877075,
      "learning_rate": 2.6171122066264998e-05,
      "loss": 3.3429,
      "step": 388760
    },
    {
      "epoch": 0.8099375,
      "grad_norm": 0.9429706335067749,
      "learning_rate": 2.616555851756186e-05,
      "loss": 3.3742,
      "step": 388770
    },
    {
      "epoch": 0.8099583333333333,
      "grad_norm": 1.0663031339645386,
      "learning_rate": 2.615999550377442e-05,
      "loss": 3.3236,
      "step": 388780
    },
    {
      "epoch": 0.8099791666666667,
      "grad_norm": 0.9167807698249817,
      "learning_rate": 2.6154433024926823e-05,
      "loss": 3.4768,
      "step": 388790
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9677253365516663,
      "learning_rate": 2.6148871081043083e-05,
      "loss": 3.2461,
      "step": 388800
    },
    {
      "epoch": 0.8100208333333333,
      "grad_norm": 0.9951186180114746,
      "learning_rate": 2.614330967214711e-05,
      "loss": 3.2709,
      "step": 388810
    },
    {
      "epoch": 0.8100416666666667,
      "grad_norm": 0.8958752155303955,
      "learning_rate": 2.6137748798263108e-05,
      "loss": 3.4825,
      "step": 388820
    },
    {
      "epoch": 0.8100625,
      "grad_norm": 0.8873818516731262,
      "learning_rate": 2.6132188459414954e-05,
      "loss": 3.3482,
      "step": 388830
    },
    {
      "epoch": 0.8100833333333334,
      "grad_norm": 0.857827365398407,
      "learning_rate": 2.6126628655626698e-05,
      "loss": 3.22,
      "step": 388840
    },
    {
      "epoch": 0.8101041666666666,
      "grad_norm": 0.9277550578117371,
      "learning_rate": 2.6121069386922433e-05,
      "loss": 3.3868,
      "step": 388850
    },
    {
      "epoch": 0.810125,
      "grad_norm": 0.8445598483085632,
      "learning_rate": 2.611551065332608e-05,
      "loss": 3.3444,
      "step": 388860
    },
    {
      "epoch": 0.8101458333333333,
      "grad_norm": 0.8259922862052917,
      "learning_rate": 2.6109952454861644e-05,
      "loss": 3.2816,
      "step": 388870
    },
    {
      "epoch": 0.8101666666666667,
      "grad_norm": 1.0308890342712402,
      "learning_rate": 2.6104394791553245e-05,
      "loss": 3.2581,
      "step": 388880
    },
    {
      "epoch": 0.8101875,
      "grad_norm": 0.9013603329658508,
      "learning_rate": 2.6098837663424783e-05,
      "loss": 3.2427,
      "step": 388890
    },
    {
      "epoch": 0.8102083333333333,
      "grad_norm": 0.8991556763648987,
      "learning_rate": 2.6093281070500264e-05,
      "loss": 3.3227,
      "step": 388900
    },
    {
      "epoch": 0.8102291666666667,
      "grad_norm": 0.8738405704498291,
      "learning_rate": 2.6087725012803797e-05,
      "loss": 3.3424,
      "step": 388910
    },
    {
      "epoch": 0.81025,
      "grad_norm": 0.8609177470207214,
      "learning_rate": 2.6082169490359283e-05,
      "loss": 3.2508,
      "step": 388920
    },
    {
      "epoch": 0.8102708333333334,
      "grad_norm": 0.888066291809082,
      "learning_rate": 2.607661450319073e-05,
      "loss": 3.4158,
      "step": 388930
    },
    {
      "epoch": 0.8102916666666666,
      "grad_norm": 0.990958571434021,
      "learning_rate": 2.6071060051322162e-05,
      "loss": 3.3946,
      "step": 388940
    },
    {
      "epoch": 0.8103125,
      "grad_norm": 0.9415113925933838,
      "learning_rate": 2.6065506134777565e-05,
      "loss": 3.4042,
      "step": 388950
    },
    {
      "epoch": 0.8103333333333333,
      "grad_norm": 0.8778330087661743,
      "learning_rate": 2.6059952753580913e-05,
      "loss": 3.3423,
      "step": 388960
    },
    {
      "epoch": 0.8103541666666667,
      "grad_norm": 0.8808415532112122,
      "learning_rate": 2.6054399907756214e-05,
      "loss": 3.3138,
      "step": 388970
    },
    {
      "epoch": 0.810375,
      "grad_norm": 0.8826004266738892,
      "learning_rate": 2.6048847597327437e-05,
      "loss": 3.3825,
      "step": 388980
    },
    {
      "epoch": 0.8103958333333333,
      "grad_norm": 0.8924254179000854,
      "learning_rate": 2.6043295822318587e-05,
      "loss": 3.253,
      "step": 388990
    },
    {
      "epoch": 0.8104166666666667,
      "grad_norm": 0.8035596609115601,
      "learning_rate": 2.6037744582753626e-05,
      "loss": 3.2571,
      "step": 389000
    },
    {
      "epoch": 0.8104166666666667,
      "eval_loss": 4.039645671844482,
      "eval_runtime": 9.0034,
      "eval_samples_per_second": 1.111,
      "eval_steps_per_second": 0.333,
      "step": 389000
    },
    {
      "epoch": 0.8104375,
      "grad_norm": 1.0121699571609497,
      "learning_rate": 2.6032193878656538e-05,
      "loss": 3.4077,
      "step": 389010
    },
    {
      "epoch": 0.8104583333333333,
      "grad_norm": 1.0411596298217773,
      "learning_rate": 2.6026643710051314e-05,
      "loss": 3.2323,
      "step": 389020
    },
    {
      "epoch": 0.8104791666666666,
      "grad_norm": 0.9036527872085571,
      "learning_rate": 2.6021094076961906e-05,
      "loss": 3.4434,
      "step": 389030
    },
    {
      "epoch": 0.8105,
      "grad_norm": 0.9173064827919006,
      "learning_rate": 2.601554497941231e-05,
      "loss": 3.2747,
      "step": 389040
    },
    {
      "epoch": 0.8105208333333334,
      "grad_norm": 1.0890557765960693,
      "learning_rate": 2.6009996417426475e-05,
      "loss": 3.3831,
      "step": 389050
    },
    {
      "epoch": 0.8105416666666667,
      "grad_norm": 0.8739321231842041,
      "learning_rate": 2.6004448391028365e-05,
      "loss": 3.3364,
      "step": 389060
    },
    {
      "epoch": 0.8105625,
      "grad_norm": 0.8284366130828857,
      "learning_rate": 2.5998900900241974e-05,
      "loss": 3.2806,
      "step": 389070
    },
    {
      "epoch": 0.8105833333333333,
      "grad_norm": 0.9870800375938416,
      "learning_rate": 2.5993353945091287e-05,
      "loss": 3.4733,
      "step": 389080
    },
    {
      "epoch": 0.8106041666666667,
      "grad_norm": 0.9236152172088623,
      "learning_rate": 2.5987807525600134e-05,
      "loss": 3.2787,
      "step": 389090
    },
    {
      "epoch": 0.810625,
      "grad_norm": 0.9408364295959473,
      "learning_rate": 2.5982261641792612e-05,
      "loss": 3.3152,
      "step": 389100
    },
    {
      "epoch": 0.8106458333333333,
      "grad_norm": 0.8914373517036438,
      "learning_rate": 2.5976716293692667e-05,
      "loss": 3.276,
      "step": 389110
    },
    {
      "epoch": 0.8106666666666666,
      "grad_norm": 0.9992531538009644,
      "learning_rate": 2.597117148132415e-05,
      "loss": 3.3062,
      "step": 389120
    },
    {
      "epoch": 0.8106875,
      "grad_norm": 0.816098690032959,
      "learning_rate": 2.5965627204711104e-05,
      "loss": 3.18,
      "step": 389130
    },
    {
      "epoch": 0.8107083333333334,
      "grad_norm": 1.1306371688842773,
      "learning_rate": 2.5960083463877494e-05,
      "loss": 3.3072,
      "step": 389140
    },
    {
      "epoch": 0.8107291666666666,
      "grad_norm": 0.8729089498519897,
      "learning_rate": 2.5954540258847156e-05,
      "loss": 3.4787,
      "step": 389150
    },
    {
      "epoch": 0.81075,
      "grad_norm": 0.9143166542053223,
      "learning_rate": 2.594899758964413e-05,
      "loss": 3.3428,
      "step": 389160
    },
    {
      "epoch": 0.8107708333333333,
      "grad_norm": 0.8804652690887451,
      "learning_rate": 2.5943455456292373e-05,
      "loss": 3.3228,
      "step": 389170
    },
    {
      "epoch": 0.8107916666666667,
      "grad_norm": 0.8327817916870117,
      "learning_rate": 2.5937913858815708e-05,
      "loss": 3.3497,
      "step": 389180
    },
    {
      "epoch": 0.8108125,
      "grad_norm": 0.9259802103042603,
      "learning_rate": 2.593237279723823e-05,
      "loss": 3.4071,
      "step": 389190
    },
    {
      "epoch": 0.8108333333333333,
      "grad_norm": 0.9105339646339417,
      "learning_rate": 2.592683227158375e-05,
      "loss": 3.3266,
      "step": 389200
    },
    {
      "epoch": 0.8108541666666667,
      "grad_norm": 0.8927106261253357,
      "learning_rate": 2.5921292281876234e-05,
      "loss": 3.3112,
      "step": 389210
    },
    {
      "epoch": 0.810875,
      "grad_norm": 0.886969268321991,
      "learning_rate": 2.5915752828139636e-05,
      "loss": 3.3734,
      "step": 389220
    },
    {
      "epoch": 0.8108958333333334,
      "grad_norm": 0.9462769031524658,
      "learning_rate": 2.5910213910397853e-05,
      "loss": 3.3817,
      "step": 389230
    },
    {
      "epoch": 0.8109166666666666,
      "grad_norm": 0.9580321311950684,
      "learning_rate": 2.590467552867485e-05,
      "loss": 3.3968,
      "step": 389240
    },
    {
      "epoch": 0.8109375,
      "grad_norm": 0.8445476293563843,
      "learning_rate": 2.589913768299451e-05,
      "loss": 3.3365,
      "step": 389250
    },
    {
      "epoch": 0.8109583333333333,
      "grad_norm": 1.0732123851776123,
      "learning_rate": 2.5893600373380775e-05,
      "loss": 3.2606,
      "step": 389260
    },
    {
      "epoch": 0.8109791666666667,
      "grad_norm": 0.8714139461517334,
      "learning_rate": 2.5888063599857562e-05,
      "loss": 3.46,
      "step": 389270
    },
    {
      "epoch": 0.811,
      "grad_norm": 0.9191822409629822,
      "learning_rate": 2.5882527362448802e-05,
      "loss": 3.3956,
      "step": 389280
    },
    {
      "epoch": 0.8110208333333333,
      "grad_norm": 1.112300992012024,
      "learning_rate": 2.5876991661178376e-05,
      "loss": 3.3797,
      "step": 389290
    },
    {
      "epoch": 0.8110416666666667,
      "grad_norm": 0.9308157563209534,
      "learning_rate": 2.587145649607023e-05,
      "loss": 3.3785,
      "step": 389300
    },
    {
      "epoch": 0.8110625,
      "grad_norm": 0.9705825448036194,
      "learning_rate": 2.586592186714825e-05,
      "loss": 3.494,
      "step": 389310
    },
    {
      "epoch": 0.8110833333333334,
      "grad_norm": 0.8455674052238464,
      "learning_rate": 2.586038777443634e-05,
      "loss": 3.2697,
      "step": 389320
    },
    {
      "epoch": 0.8111041666666666,
      "grad_norm": 0.9576042890548706,
      "learning_rate": 2.5854854217958443e-05,
      "loss": 3.3892,
      "step": 389330
    },
    {
      "epoch": 0.811125,
      "grad_norm": 0.8709032535552979,
      "learning_rate": 2.5849321197738416e-05,
      "loss": 3.3188,
      "step": 389340
    },
    {
      "epoch": 0.8111458333333333,
      "grad_norm": 0.8337461948394775,
      "learning_rate": 2.584378871380019e-05,
      "loss": 3.2595,
      "step": 389350
    },
    {
      "epoch": 0.8111666666666667,
      "grad_norm": 0.8737439513206482,
      "learning_rate": 2.5838256766167646e-05,
      "loss": 3.4427,
      "step": 389360
    },
    {
      "epoch": 0.8111875,
      "grad_norm": 0.8961632251739502,
      "learning_rate": 2.5832725354864686e-05,
      "loss": 3.3184,
      "step": 389370
    },
    {
      "epoch": 0.8112083333333333,
      "grad_norm": 0.999570369720459,
      "learning_rate": 2.5827194479915203e-05,
      "loss": 3.3511,
      "step": 389380
    },
    {
      "epoch": 0.8112291666666667,
      "grad_norm": 0.9257010221481323,
      "learning_rate": 2.5821664141343096e-05,
      "loss": 3.4098,
      "step": 389390
    },
    {
      "epoch": 0.81125,
      "grad_norm": 0.8720061182975769,
      "learning_rate": 2.5816134339172244e-05,
      "loss": 3.3208,
      "step": 389400
    },
    {
      "epoch": 0.8112708333333334,
      "grad_norm": 1.0369579792022705,
      "learning_rate": 2.5810605073426532e-05,
      "loss": 3.4268,
      "step": 389410
    },
    {
      "epoch": 0.8112916666666666,
      "grad_norm": 0.8599859476089478,
      "learning_rate": 2.5805076344129855e-05,
      "loss": 3.2781,
      "step": 389420
    },
    {
      "epoch": 0.8113125,
      "grad_norm": 0.9354850649833679,
      "learning_rate": 2.5799548151306075e-05,
      "loss": 3.2928,
      "step": 389430
    },
    {
      "epoch": 0.8113333333333334,
      "grad_norm": 0.936481773853302,
      "learning_rate": 2.5794020494979094e-05,
      "loss": 3.3967,
      "step": 389440
    },
    {
      "epoch": 0.8113541666666667,
      "grad_norm": 0.9507325291633606,
      "learning_rate": 2.5788493375172827e-05,
      "loss": 3.3516,
      "step": 389450
    },
    {
      "epoch": 0.811375,
      "grad_norm": 0.8193934559822083,
      "learning_rate": 2.5782966791911015e-05,
      "loss": 3.361,
      "step": 389460
    },
    {
      "epoch": 0.8113958333333333,
      "grad_norm": 0.9314008355140686,
      "learning_rate": 2.577744074521766e-05,
      "loss": 3.3927,
      "step": 389470
    },
    {
      "epoch": 0.8114166666666667,
      "grad_norm": 0.8685068488121033,
      "learning_rate": 2.5771915235116625e-05,
      "loss": 3.2928,
      "step": 389480
    },
    {
      "epoch": 0.8114375,
      "grad_norm": 0.8767291307449341,
      "learning_rate": 2.5766390261631676e-05,
      "loss": 3.3061,
      "step": 389490
    },
    {
      "epoch": 0.8114583333333333,
      "grad_norm": 0.9897934198379517,
      "learning_rate": 2.5760865824786776e-05,
      "loss": 3.3008,
      "step": 389500
    },
    {
      "epoch": 0.8114791666666666,
      "grad_norm": 0.9666675329208374,
      "learning_rate": 2.575534192460579e-05,
      "loss": 3.3423,
      "step": 389510
    },
    {
      "epoch": 0.8115,
      "grad_norm": 0.8450451493263245,
      "learning_rate": 2.574981856111251e-05,
      "loss": 3.1939,
      "step": 389520
    },
    {
      "epoch": 0.8115208333333334,
      "grad_norm": 0.8622140288352966,
      "learning_rate": 2.5744295734330812e-05,
      "loss": 3.3818,
      "step": 389530
    },
    {
      "epoch": 0.8115416666666667,
      "grad_norm": 0.8503730297088623,
      "learning_rate": 2.573877344428463e-05,
      "loss": 3.3988,
      "step": 389540
    },
    {
      "epoch": 0.8115625,
      "grad_norm": 0.8739679455757141,
      "learning_rate": 2.573325169099774e-05,
      "loss": 3.3592,
      "step": 389550
    },
    {
      "epoch": 0.8115833333333333,
      "grad_norm": 0.9603031873703003,
      "learning_rate": 2.572773047449397e-05,
      "loss": 3.2706,
      "step": 389560
    },
    {
      "epoch": 0.8116041666666667,
      "grad_norm": 0.9734545946121216,
      "learning_rate": 2.5722209794797276e-05,
      "loss": 3.288,
      "step": 389570
    },
    {
      "epoch": 0.811625,
      "grad_norm": 0.9109401106834412,
      "learning_rate": 2.5716689651931417e-05,
      "loss": 3.2946,
      "step": 389580
    },
    {
      "epoch": 0.8116458333333333,
      "grad_norm": 0.9354429841041565,
      "learning_rate": 2.5711170045920265e-05,
      "loss": 3.4453,
      "step": 389590
    },
    {
      "epoch": 0.8116666666666666,
      "grad_norm": 0.9008253216743469,
      "learning_rate": 2.5705650976787655e-05,
      "loss": 3.3703,
      "step": 389600
    },
    {
      "epoch": 0.8116875,
      "grad_norm": 0.8297052979469299,
      "learning_rate": 2.5700132444557452e-05,
      "loss": 3.3041,
      "step": 389610
    },
    {
      "epoch": 0.8117083333333334,
      "grad_norm": 0.8979625701904297,
      "learning_rate": 2.5694614449253452e-05,
      "loss": 3.4331,
      "step": 389620
    },
    {
      "epoch": 0.8117291666666666,
      "grad_norm": 0.9010306596755981,
      "learning_rate": 2.568909699089952e-05,
      "loss": 3.3777,
      "step": 389630
    },
    {
      "epoch": 0.81175,
      "grad_norm": 0.9533294439315796,
      "learning_rate": 2.568358006951949e-05,
      "loss": 3.3116,
      "step": 389640
    },
    {
      "epoch": 0.8117708333333333,
      "grad_norm": 0.9127523899078369,
      "learning_rate": 2.5678063685137185e-05,
      "loss": 3.466,
      "step": 389650
    },
    {
      "epoch": 0.8117916666666667,
      "grad_norm": 0.8506218791007996,
      "learning_rate": 2.5672547837776443e-05,
      "loss": 3.3277,
      "step": 389660
    },
    {
      "epoch": 0.8118125,
      "grad_norm": 0.969049870967865,
      "learning_rate": 2.5667032527461075e-05,
      "loss": 3.3945,
      "step": 389670
    },
    {
      "epoch": 0.8118333333333333,
      "grad_norm": 0.9879598021507263,
      "learning_rate": 2.5661517754214895e-05,
      "loss": 3.3884,
      "step": 389680
    },
    {
      "epoch": 0.8118541666666667,
      "grad_norm": 0.8761423826217651,
      "learning_rate": 2.5656003518061767e-05,
      "loss": 3.3747,
      "step": 389690
    },
    {
      "epoch": 0.811875,
      "grad_norm": 0.894342303276062,
      "learning_rate": 2.565048981902548e-05,
      "loss": 3.3333,
      "step": 389700
    },
    {
      "epoch": 0.8118958333333334,
      "grad_norm": 0.9001182317733765,
      "learning_rate": 2.5644976657129835e-05,
      "loss": 3.3633,
      "step": 389710
    },
    {
      "epoch": 0.8119166666666666,
      "grad_norm": 0.8303653597831726,
      "learning_rate": 2.5639464032398687e-05,
      "loss": 3.4047,
      "step": 389720
    },
    {
      "epoch": 0.8119375,
      "grad_norm": 0.9896112680435181,
      "learning_rate": 2.5633951944855835e-05,
      "loss": 3.3606,
      "step": 389730
    },
    {
      "epoch": 0.8119583333333333,
      "grad_norm": 0.9208312034606934,
      "learning_rate": 2.5628440394525073e-05,
      "loss": 3.278,
      "step": 389740
    },
    {
      "epoch": 0.8119791666666667,
      "grad_norm": 0.9403417706489563,
      "learning_rate": 2.562292938143022e-05,
      "loss": 3.3443,
      "step": 389750
    },
    {
      "epoch": 0.812,
      "grad_norm": 0.935699462890625,
      "learning_rate": 2.5617418905595066e-05,
      "loss": 3.3878,
      "step": 389760
    },
    {
      "epoch": 0.8120208333333333,
      "grad_norm": 0.8821441531181335,
      "learning_rate": 2.5611908967043448e-05,
      "loss": 3.1922,
      "step": 389770
    },
    {
      "epoch": 0.8120416666666667,
      "grad_norm": 0.9323562383651733,
      "learning_rate": 2.5606399565799147e-05,
      "loss": 3.3551,
      "step": 389780
    },
    {
      "epoch": 0.8120625,
      "grad_norm": 0.9040780663490295,
      "learning_rate": 2.560089070188594e-05,
      "loss": 3.3554,
      "step": 389790
    },
    {
      "epoch": 0.8120833333333334,
      "grad_norm": 0.95845627784729,
      "learning_rate": 2.5595382375327712e-05,
      "loss": 3.2376,
      "step": 389800
    },
    {
      "epoch": 0.8121041666666666,
      "grad_norm": 0.8151422739028931,
      "learning_rate": 2.558987458614809e-05,
      "loss": 3.1986,
      "step": 389810
    },
    {
      "epoch": 0.812125,
      "grad_norm": 1.0304462909698486,
      "learning_rate": 2.558436733437106e-05,
      "loss": 3.251,
      "step": 389820
    },
    {
      "epoch": 0.8121458333333333,
      "grad_norm": 0.9578996300697327,
      "learning_rate": 2.5578860620020264e-05,
      "loss": 3.4678,
      "step": 389830
    },
    {
      "epoch": 0.8121666666666667,
      "grad_norm": 0.8335111737251282,
      "learning_rate": 2.5573354443119505e-05,
      "loss": 3.3078,
      "step": 389840
    },
    {
      "epoch": 0.8121875,
      "grad_norm": 0.8924481272697449,
      "learning_rate": 2.5567848803692674e-05,
      "loss": 3.2973,
      "step": 389850
    },
    {
      "epoch": 0.8122083333333333,
      "grad_norm": 1.0309590101242065,
      "learning_rate": 2.556234370176346e-05,
      "loss": 3.3235,
      "step": 389860
    },
    {
      "epoch": 0.8122291666666667,
      "grad_norm": 0.8742488026618958,
      "learning_rate": 2.5556839137355624e-05,
      "loss": 3.3128,
      "step": 389870
    },
    {
      "epoch": 0.81225,
      "grad_norm": 0.8289885520935059,
      "learning_rate": 2.5551335110493042e-05,
      "loss": 3.2871,
      "step": 389880
    },
    {
      "epoch": 0.8122708333333334,
      "grad_norm": 1.0061967372894287,
      "learning_rate": 2.554583162119942e-05,
      "loss": 3.1999,
      "step": 389890
    },
    {
      "epoch": 0.8122916666666666,
      "grad_norm": 0.884102463722229,
      "learning_rate": 2.5540328669498484e-05,
      "loss": 3.3355,
      "step": 389900
    },
    {
      "epoch": 0.8123125,
      "grad_norm": 0.9199520945549011,
      "learning_rate": 2.5534826255414148e-05,
      "loss": 3.2499,
      "step": 389910
    },
    {
      "epoch": 0.8123333333333334,
      "grad_norm": 0.987989604473114,
      "learning_rate": 2.552932437897006e-05,
      "loss": 3.3605,
      "step": 389920
    },
    {
      "epoch": 0.8123541666666667,
      "grad_norm": 1.013870120048523,
      "learning_rate": 2.552382304018999e-05,
      "loss": 3.3639,
      "step": 389930
    },
    {
      "epoch": 0.812375,
      "grad_norm": 0.9297860860824585,
      "learning_rate": 2.5518322239097793e-05,
      "loss": 3.233,
      "step": 389940
    },
    {
      "epoch": 0.8123958333333333,
      "grad_norm": 0.8862521648406982,
      "learning_rate": 2.5512821975717142e-05,
      "loss": 3.317,
      "step": 389950
    },
    {
      "epoch": 0.8124166666666667,
      "grad_norm": 0.8591733574867249,
      "learning_rate": 2.5507322250071826e-05,
      "loss": 3.2886,
      "step": 389960
    },
    {
      "epoch": 0.8124375,
      "grad_norm": 0.8545017838478088,
      "learning_rate": 2.55018230621856e-05,
      "loss": 3.2864,
      "step": 389970
    },
    {
      "epoch": 0.8124583333333333,
      "grad_norm": 1.003511905670166,
      "learning_rate": 2.5496324412082207e-05,
      "loss": 3.2391,
      "step": 389980
    },
    {
      "epoch": 0.8124791666666666,
      "grad_norm": 0.8347901105880737,
      "learning_rate": 2.5490826299785432e-05,
      "loss": 3.4818,
      "step": 389990
    },
    {
      "epoch": 0.8125,
      "grad_norm": 0.9403103590011597,
      "learning_rate": 2.5485328725318986e-05,
      "loss": 3.3638,
      "step": 390000
    },
    {
      "epoch": 0.8125,
      "eval_loss": 4.041454315185547,
      "eval_runtime": 9.095,
      "eval_samples_per_second": 1.1,
      "eval_steps_per_second": 0.33,
      "step": 390000
    },
    {
      "epoch": 0.8125208333333334,
      "grad_norm": 0.8919958472251892,
      "learning_rate": 2.5479831688706637e-05,
      "loss": 3.251,
      "step": 390010
    },
    {
      "epoch": 0.8125416666666667,
      "grad_norm": 0.8401249051094055,
      "learning_rate": 2.547433518997213e-05,
      "loss": 3.2898,
      "step": 390020
    },
    {
      "epoch": 0.8125625,
      "grad_norm": 0.9544956684112549,
      "learning_rate": 2.546883922913921e-05,
      "loss": 3.4283,
      "step": 390030
    },
    {
      "epoch": 0.8125833333333333,
      "grad_norm": 0.9365540742874146,
      "learning_rate": 2.5463343806231595e-05,
      "loss": 3.3536,
      "step": 390040
    },
    {
      "epoch": 0.8126041666666667,
      "grad_norm": 0.965740442276001,
      "learning_rate": 2.545784892127305e-05,
      "loss": 3.3838,
      "step": 390050
    },
    {
      "epoch": 0.812625,
      "grad_norm": 0.882473886013031,
      "learning_rate": 2.5452354574287303e-05,
      "loss": 3.4725,
      "step": 390060
    },
    {
      "epoch": 0.8126458333333333,
      "grad_norm": 0.9433635473251343,
      "learning_rate": 2.5446860765298072e-05,
      "loss": 3.331,
      "step": 390070
    },
    {
      "epoch": 0.8126666666666666,
      "grad_norm": 0.783942461013794,
      "learning_rate": 2.544136749432912e-05,
      "loss": 3.2913,
      "step": 390080
    },
    {
      "epoch": 0.8126875,
      "grad_norm": 0.9841676950454712,
      "learning_rate": 2.543587476140414e-05,
      "loss": 3.2413,
      "step": 390090
    },
    {
      "epoch": 0.8127083333333334,
      "grad_norm": 0.9624170064926147,
      "learning_rate": 2.5430382566546888e-05,
      "loss": 3.3593,
      "step": 390100
    },
    {
      "epoch": 0.8127291666666666,
      "grad_norm": 1.0927648544311523,
      "learning_rate": 2.5424890909781104e-05,
      "loss": 3.3473,
      "step": 390110
    },
    {
      "epoch": 0.81275,
      "grad_norm": 0.9664492011070251,
      "learning_rate": 2.5419399791130406e-05,
      "loss": 3.2704,
      "step": 390120
    },
    {
      "epoch": 0.8127708333333333,
      "grad_norm": 1.0032659769058228,
      "learning_rate": 2.5413909210618627e-05,
      "loss": 3.2342,
      "step": 390130
    },
    {
      "epoch": 0.8127916666666667,
      "grad_norm": 0.983026921749115,
      "learning_rate": 2.5408419168269496e-05,
      "loss": 3.3518,
      "step": 390140
    },
    {
      "epoch": 0.8128125,
      "grad_norm": 1.0608121156692505,
      "learning_rate": 2.540292966410659e-05,
      "loss": 3.2497,
      "step": 390150
    },
    {
      "epoch": 0.8128333333333333,
      "grad_norm": 0.8480682373046875,
      "learning_rate": 2.539744069815375e-05,
      "loss": 3.3687,
      "step": 390160
    },
    {
      "epoch": 0.8128541666666667,
      "grad_norm": 0.9218923449516296,
      "learning_rate": 2.5391952270434678e-05,
      "loss": 3.3612,
      "step": 390170
    },
    {
      "epoch": 0.812875,
      "grad_norm": 0.852500319480896,
      "learning_rate": 2.5386464380972983e-05,
      "loss": 3.2835,
      "step": 390180
    },
    {
      "epoch": 0.8128958333333334,
      "grad_norm": 0.9043108224868774,
      "learning_rate": 2.5380977029792504e-05,
      "loss": 3.3751,
      "step": 390190
    },
    {
      "epoch": 0.8129166666666666,
      "grad_norm": 0.8373681902885437,
      "learning_rate": 2.5375490216916827e-05,
      "loss": 3.3125,
      "step": 390200
    },
    {
      "epoch": 0.8129375,
      "grad_norm": 0.8219077587127686,
      "learning_rate": 2.537000394236968e-05,
      "loss": 3.2747,
      "step": 390210
    },
    {
      "epoch": 0.8129583333333333,
      "grad_norm": 1.0066365003585815,
      "learning_rate": 2.5364518206174867e-05,
      "loss": 3.3503,
      "step": 390220
    },
    {
      "epoch": 0.8129791666666667,
      "grad_norm": 0.880538284778595,
      "learning_rate": 2.5359033008355945e-05,
      "loss": 3.3428,
      "step": 390230
    },
    {
      "epoch": 0.813,
      "grad_norm": 1.1183464527130127,
      "learning_rate": 2.535354834893663e-05,
      "loss": 3.3475,
      "step": 390240
    },
    {
      "epoch": 0.8130208333333333,
      "grad_norm": 0.9029397964477539,
      "learning_rate": 2.534806422794074e-05,
      "loss": 3.4596,
      "step": 390250
    },
    {
      "epoch": 0.8130416666666667,
      "grad_norm": 0.871279239654541,
      "learning_rate": 2.534258064539182e-05,
      "loss": 3.441,
      "step": 390260
    },
    {
      "epoch": 0.8130625,
      "grad_norm": 0.8352961540222168,
      "learning_rate": 2.5337097601313565e-05,
      "loss": 3.2808,
      "step": 390270
    },
    {
      "epoch": 0.8130833333333334,
      "grad_norm": 0.9015902280807495,
      "learning_rate": 2.5331615095729794e-05,
      "loss": 3.2695,
      "step": 390280
    },
    {
      "epoch": 0.8131041666666666,
      "grad_norm": 0.943489670753479,
      "learning_rate": 2.5326133128664056e-05,
      "loss": 3.2401,
      "step": 390290
    },
    {
      "epoch": 0.813125,
      "grad_norm": 0.8408313393592834,
      "learning_rate": 2.532065170014003e-05,
      "loss": 3.4028,
      "step": 390300
    },
    {
      "epoch": 0.8131458333333333,
      "grad_norm": 0.9122381806373596,
      "learning_rate": 2.5315170810181524e-05,
      "loss": 3.3012,
      "step": 390310
    },
    {
      "epoch": 0.8131666666666667,
      "grad_norm": 1.0047409534454346,
      "learning_rate": 2.5309690458812078e-05,
      "loss": 3.228,
      "step": 390320
    },
    {
      "epoch": 0.8131875,
      "grad_norm": 0.9376236796379089,
      "learning_rate": 2.530421064605542e-05,
      "loss": 3.308,
      "step": 390330
    },
    {
      "epoch": 0.8132083333333333,
      "grad_norm": 0.8739537000656128,
      "learning_rate": 2.529873137193521e-05,
      "loss": 3.2352,
      "step": 390340
    },
    {
      "epoch": 0.8132291666666667,
      "grad_norm": 0.8868597149848938,
      "learning_rate": 2.529325263647512e-05,
      "loss": 3.3416,
      "step": 390350
    },
    {
      "epoch": 0.81325,
      "grad_norm": 0.974915623664856,
      "learning_rate": 2.528777443969881e-05,
      "loss": 3.2843,
      "step": 390360
    },
    {
      "epoch": 0.8132708333333334,
      "grad_norm": 0.9666965007781982,
      "learning_rate": 2.528229678162996e-05,
      "loss": 3.2957,
      "step": 390370
    },
    {
      "epoch": 0.8132916666666666,
      "grad_norm": 0.8893815279006958,
      "learning_rate": 2.5276819662292226e-05,
      "loss": 3.3551,
      "step": 390380
    },
    {
      "epoch": 0.8133125,
      "grad_norm": 0.8605502843856812,
      "learning_rate": 2.5271343081709244e-05,
      "loss": 3.3376,
      "step": 390390
    },
    {
      "epoch": 0.8133333333333334,
      "grad_norm": 0.8956553339958191,
      "learning_rate": 2.5265867039904703e-05,
      "loss": 3.4645,
      "step": 390400
    },
    {
      "epoch": 0.8133541666666667,
      "grad_norm": 0.993455171585083,
      "learning_rate": 2.526039153690223e-05,
      "loss": 3.3984,
      "step": 390410
    },
    {
      "epoch": 0.813375,
      "grad_norm": 0.8877685070037842,
      "learning_rate": 2.525491657272551e-05,
      "loss": 3.4008,
      "step": 390420
    },
    {
      "epoch": 0.8133958333333333,
      "grad_norm": 0.9120258688926697,
      "learning_rate": 2.5249442147398153e-05,
      "loss": 3.3261,
      "step": 390430
    },
    {
      "epoch": 0.8134166666666667,
      "grad_norm": 0.9551517367362976,
      "learning_rate": 2.524396826094384e-05,
      "loss": 3.3526,
      "step": 390440
    },
    {
      "epoch": 0.8134375,
      "grad_norm": 0.8616251945495605,
      "learning_rate": 2.523849491338624e-05,
      "loss": 3.3144,
      "step": 390450
    },
    {
      "epoch": 0.8134583333333333,
      "grad_norm": 0.8892330527305603,
      "learning_rate": 2.523302210474887e-05,
      "loss": 3.3028,
      "step": 390460
    },
    {
      "epoch": 0.8134791666666666,
      "grad_norm": 0.9127951860427856,
      "learning_rate": 2.5227549835055514e-05,
      "loss": 3.3369,
      "step": 390470
    },
    {
      "epoch": 0.8135,
      "grad_norm": 0.8675973415374756,
      "learning_rate": 2.5222078104329783e-05,
      "loss": 3.2933,
      "step": 390480
    },
    {
      "epoch": 0.8135208333333334,
      "grad_norm": 0.9966408014297485,
      "learning_rate": 2.5216606912595206e-05,
      "loss": 3.34,
      "step": 390490
    },
    {
      "epoch": 0.8135416666666667,
      "grad_norm": 1.0021628141403198,
      "learning_rate": 2.5211136259875524e-05,
      "loss": 3.2961,
      "step": 390500
    },
    {
      "epoch": 0.8135625,
      "grad_norm": 0.9323817491531372,
      "learning_rate": 2.5205666146194392e-05,
      "loss": 3.4029,
      "step": 390510
    },
    {
      "epoch": 0.8135833333333333,
      "grad_norm": 0.8903612494468689,
      "learning_rate": 2.5200196571575304e-05,
      "loss": 3.3029,
      "step": 390520
    },
    {
      "epoch": 0.8136041666666667,
      "grad_norm": 1.0409022569656372,
      "learning_rate": 2.5194727536042007e-05,
      "loss": 3.1599,
      "step": 390530
    },
    {
      "epoch": 0.813625,
      "grad_norm": 0.8569273948669434,
      "learning_rate": 2.518925903961812e-05,
      "loss": 3.3602,
      "step": 390540
    },
    {
      "epoch": 0.8136458333333333,
      "grad_norm": 0.8521827459335327,
      "learning_rate": 2.5183791082327154e-05,
      "loss": 3.3175,
      "step": 390550
    },
    {
      "epoch": 0.8136666666666666,
      "grad_norm": 1.0908936262130737,
      "learning_rate": 2.5178323664192858e-05,
      "loss": 3.2929,
      "step": 390560
    },
    {
      "epoch": 0.8136875,
      "grad_norm": 0.9544899463653564,
      "learning_rate": 2.517285678523881e-05,
      "loss": 3.1449,
      "step": 390570
    },
    {
      "epoch": 0.8137083333333334,
      "grad_norm": 1.1127687692642212,
      "learning_rate": 2.5167390445488544e-05,
      "loss": 3.4479,
      "step": 390580
    },
    {
      "epoch": 0.8137291666666666,
      "grad_norm": 1.1523480415344238,
      "learning_rate": 2.5161924644965824e-05,
      "loss": 3.3423,
      "step": 390590
    },
    {
      "epoch": 0.81375,
      "grad_norm": 0.8650230169296265,
      "learning_rate": 2.5156459383694134e-05,
      "loss": 3.3111,
      "step": 390600
    },
    {
      "epoch": 0.8137708333333333,
      "grad_norm": 1.030347228050232,
      "learning_rate": 2.5150994661697084e-05,
      "loss": 3.3855,
      "step": 390610
    },
    {
      "epoch": 0.8137916666666667,
      "grad_norm": 0.9006231427192688,
      "learning_rate": 2.514553047899839e-05,
      "loss": 3.2955,
      "step": 390620
    },
    {
      "epoch": 0.8138125,
      "grad_norm": 0.9304003715515137,
      "learning_rate": 2.514006683562153e-05,
      "loss": 3.4884,
      "step": 390630
    },
    {
      "epoch": 0.8138333333333333,
      "grad_norm": 0.8795897960662842,
      "learning_rate": 2.5134603731590142e-05,
      "loss": 3.2527,
      "step": 390640
    },
    {
      "epoch": 0.8138541666666667,
      "grad_norm": 0.8861495852470398,
      "learning_rate": 2.512914116692792e-05,
      "loss": 3.4228,
      "step": 390650
    },
    {
      "epoch": 0.813875,
      "grad_norm": 0.86202073097229,
      "learning_rate": 2.5123679141658326e-05,
      "loss": 3.349,
      "step": 390660
    },
    {
      "epoch": 0.8138958333333334,
      "grad_norm": 1.0164204835891724,
      "learning_rate": 2.511821765580503e-05,
      "loss": 3.3762,
      "step": 390670
    },
    {
      "epoch": 0.8139166666666666,
      "grad_norm": 0.8118004202842712,
      "learning_rate": 2.5112756709391575e-05,
      "loss": 3.2734,
      "step": 390680
    },
    {
      "epoch": 0.8139375,
      "grad_norm": 0.9520038962364197,
      "learning_rate": 2.5107296302441593e-05,
      "loss": 3.2294,
      "step": 390690
    },
    {
      "epoch": 0.8139583333333333,
      "grad_norm": 0.9691087007522583,
      "learning_rate": 2.510183643497865e-05,
      "loss": 3.1657,
      "step": 390700
    },
    {
      "epoch": 0.8139791666666667,
      "grad_norm": 0.902772068977356,
      "learning_rate": 2.5096377107026343e-05,
      "loss": 3.2624,
      "step": 390710
    },
    {
      "epoch": 0.814,
      "grad_norm": 0.844913125038147,
      "learning_rate": 2.5090918318608255e-05,
      "loss": 3.2551,
      "step": 390720
    },
    {
      "epoch": 0.8140208333333333,
      "grad_norm": 0.8494774103164673,
      "learning_rate": 2.508546006974793e-05,
      "loss": 3.2338,
      "step": 390730
    },
    {
      "epoch": 0.8140416666666667,
      "grad_norm": 0.9629909992218018,
      "learning_rate": 2.5080002360469005e-05,
      "loss": 3.1539,
      "step": 390740
    },
    {
      "epoch": 0.8140625,
      "grad_norm": 1.0358424186706543,
      "learning_rate": 2.5074545190795003e-05,
      "loss": 3.248,
      "step": 390750
    },
    {
      "epoch": 0.8140833333333334,
      "grad_norm": 0.9121537208557129,
      "learning_rate": 2.5069088560749513e-05,
      "loss": 3.1797,
      "step": 390760
    },
    {
      "epoch": 0.8141041666666666,
      "grad_norm": 1.0282495021820068,
      "learning_rate": 2.506363247035611e-05,
      "loss": 3.3704,
      "step": 390770
    },
    {
      "epoch": 0.814125,
      "grad_norm": 0.8590028882026672,
      "learning_rate": 2.505817691963838e-05,
      "loss": 3.317,
      "step": 390780
    },
    {
      "epoch": 0.8141458333333333,
      "grad_norm": 0.8901910781860352,
      "learning_rate": 2.5052721908619848e-05,
      "loss": 3.1306,
      "step": 390790
    },
    {
      "epoch": 0.8141666666666667,
      "grad_norm": 0.9336695671081543,
      "learning_rate": 2.504726743732412e-05,
      "loss": 3.2271,
      "step": 390800
    },
    {
      "epoch": 0.8141875,
      "grad_norm": 1.1037282943725586,
      "learning_rate": 2.504181350577472e-05,
      "loss": 3.315,
      "step": 390810
    },
    {
      "epoch": 0.8142083333333333,
      "grad_norm": 0.9731247425079346,
      "learning_rate": 2.503636011399527e-05,
      "loss": 3.3831,
      "step": 390820
    },
    {
      "epoch": 0.8142291666666667,
      "grad_norm": 0.8694190382957458,
      "learning_rate": 2.503090726200921e-05,
      "loss": 3.2075,
      "step": 390830
    },
    {
      "epoch": 0.81425,
      "grad_norm": 0.8970801830291748,
      "learning_rate": 2.502545494984019e-05,
      "loss": 3.2222,
      "step": 390840
    },
    {
      "epoch": 0.8142708333333334,
      "grad_norm": 0.9153643846511841,
      "learning_rate": 2.5020003177511776e-05,
      "loss": 3.3593,
      "step": 390850
    },
    {
      "epoch": 0.8142916666666666,
      "grad_norm": 0.860276460647583,
      "learning_rate": 2.50145519450474e-05,
      "loss": 3.2629,
      "step": 390860
    },
    {
      "epoch": 0.8143125,
      "grad_norm": 0.9342243075370789,
      "learning_rate": 2.5009101252470744e-05,
      "loss": 3.2879,
      "step": 390870
    },
    {
      "epoch": 0.8143333333333334,
      "grad_norm": 0.8954999446868896,
      "learning_rate": 2.5003651099805318e-05,
      "loss": 3.4255,
      "step": 390880
    },
    {
      "epoch": 0.8143541666666667,
      "grad_norm": 0.8628673553466797,
      "learning_rate": 2.499820148707457e-05,
      "loss": 3.4435,
      "step": 390890
    },
    {
      "epoch": 0.814375,
      "grad_norm": 0.910646378993988,
      "learning_rate": 2.4992752414302135e-05,
      "loss": 3.3499,
      "step": 390900
    },
    {
      "epoch": 0.8143958333333333,
      "grad_norm": 0.8611752986907959,
      "learning_rate": 2.4987303881511595e-05,
      "loss": 3.233,
      "step": 390910
    },
    {
      "epoch": 0.8144166666666667,
      "grad_norm": 1.018678903579712,
      "learning_rate": 2.4981855888726327e-05,
      "loss": 3.3194,
      "step": 390920
    },
    {
      "epoch": 0.8144375,
      "grad_norm": 0.9449108839035034,
      "learning_rate": 2.4976408435969998e-05,
      "loss": 3.3149,
      "step": 390930
    },
    {
      "epoch": 0.8144583333333333,
      "grad_norm": 0.9569998383522034,
      "learning_rate": 2.497096152326612e-05,
      "loss": 3.3333,
      "step": 390940
    },
    {
      "epoch": 0.8144791666666666,
      "grad_norm": 0.9360118508338928,
      "learning_rate": 2.4965515150638143e-05,
      "loss": 3.3193,
      "step": 390950
    },
    {
      "epoch": 0.8145,
      "grad_norm": 0.7880544066429138,
      "learning_rate": 2.4960069318109715e-05,
      "loss": 3.2845,
      "step": 390960
    },
    {
      "epoch": 0.8145208333333334,
      "grad_norm": 0.834848165512085,
      "learning_rate": 2.495462402570425e-05,
      "loss": 3.2935,
      "step": 390970
    },
    {
      "epoch": 0.8145416666666667,
      "grad_norm": 0.9507303237915039,
      "learning_rate": 2.4949179273445313e-05,
      "loss": 3.3289,
      "step": 390980
    },
    {
      "epoch": 0.8145625,
      "grad_norm": 0.8944907784461975,
      "learning_rate": 2.4943735061356436e-05,
      "loss": 3.4103,
      "step": 390990
    },
    {
      "epoch": 0.8145833333333333,
      "grad_norm": 0.8794184923171997,
      "learning_rate": 2.493829138946111e-05,
      "loss": 3.3034,
      "step": 391000
    },
    {
      "epoch": 0.8145833333333333,
      "eval_loss": 4.040590763092041,
      "eval_runtime": 9.2493,
      "eval_samples_per_second": 1.081,
      "eval_steps_per_second": 0.324,
      "step": 391000
    },
    {
      "epoch": 0.8146041666666667,
      "grad_norm": 0.8275282382965088,
      "learning_rate": 2.493284825778286e-05,
      "loss": 3.375,
      "step": 391010
    },
    {
      "epoch": 0.814625,
      "grad_norm": 1.041733980178833,
      "learning_rate": 2.4927405666345212e-05,
      "loss": 3.2209,
      "step": 391020
    },
    {
      "epoch": 0.8146458333333333,
      "grad_norm": 0.9258650541305542,
      "learning_rate": 2.4921963615171662e-05,
      "loss": 3.392,
      "step": 391030
    },
    {
      "epoch": 0.8146666666666667,
      "grad_norm": 0.845946192741394,
      "learning_rate": 2.491652210428573e-05,
      "loss": 3.3876,
      "step": 391040
    },
    {
      "epoch": 0.8146875,
      "grad_norm": 0.8510847091674805,
      "learning_rate": 2.491108113371089e-05,
      "loss": 3.2612,
      "step": 391050
    },
    {
      "epoch": 0.8147083333333334,
      "grad_norm": 1.0664591789245605,
      "learning_rate": 2.4905640703470682e-05,
      "loss": 3.2649,
      "step": 391060
    },
    {
      "epoch": 0.8147291666666666,
      "grad_norm": 1.0910524129867554,
      "learning_rate": 2.490020081358858e-05,
      "loss": 3.3676,
      "step": 391070
    },
    {
      "epoch": 0.81475,
      "grad_norm": 0.8571668267250061,
      "learning_rate": 2.48947614640881e-05,
      "loss": 3.3343,
      "step": 391080
    },
    {
      "epoch": 0.8147708333333333,
      "grad_norm": 0.9504256248474121,
      "learning_rate": 2.4889322654992722e-05,
      "loss": 3.3133,
      "step": 391090
    },
    {
      "epoch": 0.8147916666666667,
      "grad_norm": 0.8776339888572693,
      "learning_rate": 2.4883884386325947e-05,
      "loss": 3.3217,
      "step": 391100
    },
    {
      "epoch": 0.8148125,
      "grad_norm": 0.9338645339012146,
      "learning_rate": 2.4878446658111272e-05,
      "loss": 3.3272,
      "step": 391110
    },
    {
      "epoch": 0.8148333333333333,
      "grad_norm": 0.8993073105812073,
      "learning_rate": 2.487300947037218e-05,
      "loss": 3.3054,
      "step": 391120
    },
    {
      "epoch": 0.8148541666666667,
      "grad_norm": 0.837911069393158,
      "learning_rate": 2.4867572823132163e-05,
      "loss": 3.4063,
      "step": 391130
    },
    {
      "epoch": 0.814875,
      "grad_norm": 0.9429317712783813,
      "learning_rate": 2.4862136716414692e-05,
      "loss": 3.3635,
      "step": 391140
    },
    {
      "epoch": 0.8148958333333334,
      "grad_norm": 0.9985527992248535,
      "learning_rate": 2.4856701150243263e-05,
      "loss": 3.3225,
      "step": 391150
    },
    {
      "epoch": 0.8149166666666666,
      "grad_norm": 0.8659785389900208,
      "learning_rate": 2.4851266124641356e-05,
      "loss": 3.3096,
      "step": 391160
    },
    {
      "epoch": 0.8149375,
      "grad_norm": 0.8416928052902222,
      "learning_rate": 2.4845831639632434e-05,
      "loss": 3.2784,
      "step": 391170
    },
    {
      "epoch": 0.8149583333333333,
      "grad_norm": 0.8826871514320374,
      "learning_rate": 2.4840397695239983e-05,
      "loss": 3.2754,
      "step": 391180
    },
    {
      "epoch": 0.8149791666666667,
      "grad_norm": 0.825062096118927,
      "learning_rate": 2.4834964291487514e-05,
      "loss": 3.4138,
      "step": 391190
    },
    {
      "epoch": 0.815,
      "grad_norm": 0.8818441033363342,
      "learning_rate": 2.4829531428398373e-05,
      "loss": 3.3663,
      "step": 391200
    },
    {
      "epoch": 0.8150208333333333,
      "grad_norm": 0.8569438457489014,
      "learning_rate": 2.4824099105996147e-05,
      "loss": 3.3195,
      "step": 391210
    },
    {
      "epoch": 0.8150416666666667,
      "grad_norm": 0.873009443283081,
      "learning_rate": 2.4818667324304297e-05,
      "loss": 3.4029,
      "step": 391220
    },
    {
      "epoch": 0.8150625,
      "grad_norm": 0.929327666759491,
      "learning_rate": 2.481323608334619e-05,
      "loss": 3.1524,
      "step": 391230
    },
    {
      "epoch": 0.8150833333333334,
      "grad_norm": 0.9410398006439209,
      "learning_rate": 2.4807805383145386e-05,
      "loss": 3.4069,
      "step": 391240
    },
    {
      "epoch": 0.8151041666666666,
      "grad_norm": 0.8934540152549744,
      "learning_rate": 2.4802375223725352e-05,
      "loss": 3.3286,
      "step": 391250
    },
    {
      "epoch": 0.815125,
      "grad_norm": 0.8998100161552429,
      "learning_rate": 2.4796945605109454e-05,
      "loss": 3.3105,
      "step": 391260
    },
    {
      "epoch": 0.8151458333333333,
      "grad_norm": 0.8290762901306152,
      "learning_rate": 2.4791516527321153e-05,
      "loss": 3.2433,
      "step": 391270
    },
    {
      "epoch": 0.8151666666666667,
      "grad_norm": 0.8767989277839661,
      "learning_rate": 2.4786087990384018e-05,
      "loss": 3.5686,
      "step": 391280
    },
    {
      "epoch": 0.8151875,
      "grad_norm": 0.9059476852416992,
      "learning_rate": 2.4780659994321378e-05,
      "loss": 3.3636,
      "step": 391290
    },
    {
      "epoch": 0.8152083333333333,
      "grad_norm": 0.8579009771347046,
      "learning_rate": 2.47752325391567e-05,
      "loss": 3.2891,
      "step": 391300
    },
    {
      "epoch": 0.8152291666666667,
      "grad_norm": 0.8052069544792175,
      "learning_rate": 2.4769805624913507e-05,
      "loss": 3.3782,
      "step": 391310
    },
    {
      "epoch": 0.81525,
      "grad_norm": 0.8862122893333435,
      "learning_rate": 2.4764379251615157e-05,
      "loss": 3.3872,
      "step": 391320
    },
    {
      "epoch": 0.8152708333333333,
      "grad_norm": 0.8720890283584595,
      "learning_rate": 2.475895341928511e-05,
      "loss": 3.2437,
      "step": 391330
    },
    {
      "epoch": 0.8152916666666666,
      "grad_norm": 1.0604534149169922,
      "learning_rate": 2.4753528127946813e-05,
      "loss": 3.2895,
      "step": 391340
    },
    {
      "epoch": 0.8153125,
      "grad_norm": 0.8662011623382568,
      "learning_rate": 2.4748103377623703e-05,
      "loss": 3.2969,
      "step": 391350
    },
    {
      "epoch": 0.8153333333333334,
      "grad_norm": 1.0076868534088135,
      "learning_rate": 2.47426791683392e-05,
      "loss": 3.4718,
      "step": 391360
    },
    {
      "epoch": 0.8153541666666667,
      "grad_norm": 1.2212352752685547,
      "learning_rate": 2.4737255500116748e-05,
      "loss": 3.2584,
      "step": 391370
    },
    {
      "epoch": 0.815375,
      "grad_norm": 0.907029390335083,
      "learning_rate": 2.473183237297977e-05,
      "loss": 3.2764,
      "step": 391380
    },
    {
      "epoch": 0.8153958333333333,
      "grad_norm": 0.8430894613265991,
      "learning_rate": 2.4726409786951683e-05,
      "loss": 3.389,
      "step": 391390
    },
    {
      "epoch": 0.8154166666666667,
      "grad_norm": 0.8947981595993042,
      "learning_rate": 2.4720987742055936e-05,
      "loss": 3.3281,
      "step": 391400
    },
    {
      "epoch": 0.8154375,
      "grad_norm": 1.0455207824707031,
      "learning_rate": 2.471556623831591e-05,
      "loss": 3.3716,
      "step": 391410
    },
    {
      "epoch": 0.8154583333333333,
      "grad_norm": 0.8372469544410706,
      "learning_rate": 2.4710145275755068e-05,
      "loss": 3.3168,
      "step": 391420
    },
    {
      "epoch": 0.8154791666666666,
      "grad_norm": 0.9595757722854614,
      "learning_rate": 2.470472485439679e-05,
      "loss": 3.3464,
      "step": 391430
    },
    {
      "epoch": 0.8155,
      "grad_norm": 0.8426255583763123,
      "learning_rate": 2.469930497426451e-05,
      "loss": 3.3193,
      "step": 391440
    },
    {
      "epoch": 0.8155208333333334,
      "grad_norm": 1.048734188079834,
      "learning_rate": 2.4693885635381643e-05,
      "loss": 3.3303,
      "step": 391450
    },
    {
      "epoch": 0.8155416666666667,
      "grad_norm": 0.8582894206047058,
      "learning_rate": 2.4688466837771587e-05,
      "loss": 3.4421,
      "step": 391460
    },
    {
      "epoch": 0.8155625,
      "grad_norm": 0.9023903012275696,
      "learning_rate": 2.4683048581457752e-05,
      "loss": 3.4382,
      "step": 391470
    },
    {
      "epoch": 0.8155833333333333,
      "grad_norm": 0.9957879781723022,
      "learning_rate": 2.4677630866463542e-05,
      "loss": 3.288,
      "step": 391480
    },
    {
      "epoch": 0.8156041666666667,
      "grad_norm": 0.8765018582344055,
      "learning_rate": 2.4672213692812354e-05,
      "loss": 3.2336,
      "step": 391490
    },
    {
      "epoch": 0.815625,
      "grad_norm": 1.0204983949661255,
      "learning_rate": 2.4666797060527617e-05,
      "loss": 3.2743,
      "step": 391500
    },
    {
      "epoch": 0.8156458333333333,
      "grad_norm": 0.8666596412658691,
      "learning_rate": 2.466138096963268e-05,
      "loss": 3.3822,
      "step": 391510
    },
    {
      "epoch": 0.8156666666666667,
      "grad_norm": 0.85004723072052,
      "learning_rate": 2.4655965420150968e-05,
      "loss": 3.358,
      "step": 391520
    },
    {
      "epoch": 0.8156875,
      "grad_norm": 1.0277864933013916,
      "learning_rate": 2.465055041210589e-05,
      "loss": 3.3674,
      "step": 391530
    },
    {
      "epoch": 0.8157083333333334,
      "grad_norm": 0.9172675609588623,
      "learning_rate": 2.4645135945520807e-05,
      "loss": 3.2446,
      "step": 391540
    },
    {
      "epoch": 0.8157291666666666,
      "grad_norm": 0.908641517162323,
      "learning_rate": 2.4639722020419112e-05,
      "loss": 3.2875,
      "step": 391550
    },
    {
      "epoch": 0.81575,
      "grad_norm": 0.8290945291519165,
      "learning_rate": 2.4634308636824206e-05,
      "loss": 3.4194,
      "step": 391560
    },
    {
      "epoch": 0.8157708333333333,
      "grad_norm": 0.9957492351531982,
      "learning_rate": 2.462889579475949e-05,
      "loss": 3.4406,
      "step": 391570
    },
    {
      "epoch": 0.8157916666666667,
      "grad_norm": 0.9629675149917603,
      "learning_rate": 2.4623483494248257e-05,
      "loss": 3.2046,
      "step": 391580
    },
    {
      "epoch": 0.8158125,
      "grad_norm": 0.965684711933136,
      "learning_rate": 2.461807173531401e-05,
      "loss": 3.3041,
      "step": 391590
    },
    {
      "epoch": 0.8158333333333333,
      "grad_norm": 0.8648068904876709,
      "learning_rate": 2.4612660517980027e-05,
      "loss": 3.3253,
      "step": 391600
    },
    {
      "epoch": 0.8158541666666667,
      "grad_norm": 0.8733885288238525,
      "learning_rate": 2.460724984226969e-05,
      "loss": 3.1958,
      "step": 391610
    },
    {
      "epoch": 0.815875,
      "grad_norm": 0.9454376697540283,
      "learning_rate": 2.460183970820648e-05,
      "loss": 3.3176,
      "step": 391620
    },
    {
      "epoch": 0.8158958333333334,
      "grad_norm": 0.9457507133483887,
      "learning_rate": 2.4596430115813625e-05,
      "loss": 3.2744,
      "step": 391630
    },
    {
      "epoch": 0.8159166666666666,
      "grad_norm": 0.9276290535926819,
      "learning_rate": 2.459102106511453e-05,
      "loss": 3.3361,
      "step": 391640
    },
    {
      "epoch": 0.8159375,
      "grad_norm": 0.9124019145965576,
      "learning_rate": 2.458561255613267e-05,
      "loss": 3.2788,
      "step": 391650
    },
    {
      "epoch": 0.8159583333333333,
      "grad_norm": 0.9178406596183777,
      "learning_rate": 2.4580204588891267e-05,
      "loss": 3.3727,
      "step": 391660
    },
    {
      "epoch": 0.8159791666666667,
      "grad_norm": 0.8669760823249817,
      "learning_rate": 2.4574797163413712e-05,
      "loss": 3.201,
      "step": 391670
    },
    {
      "epoch": 0.816,
      "grad_norm": 1.017406702041626,
      "learning_rate": 2.4569390279723454e-05,
      "loss": 3.2015,
      "step": 391680
    },
    {
      "epoch": 0.8160208333333333,
      "grad_norm": 0.8511821031570435,
      "learning_rate": 2.4563983937843747e-05,
      "loss": 3.4056,
      "step": 391690
    },
    {
      "epoch": 0.8160416666666667,
      "grad_norm": 0.9137081503868103,
      "learning_rate": 2.455857813779796e-05,
      "loss": 3.3305,
      "step": 391700
    },
    {
      "epoch": 0.8160625,
      "grad_norm": 0.9526974558830261,
      "learning_rate": 2.455317287960949e-05,
      "loss": 3.2518,
      "step": 391710
    },
    {
      "epoch": 0.8160833333333334,
      "grad_norm": 0.8515865206718445,
      "learning_rate": 2.4547768163301638e-05,
      "loss": 3.3186,
      "step": 391720
    },
    {
      "epoch": 0.8161041666666666,
      "grad_norm": 0.8556059002876282,
      "learning_rate": 2.454236398889778e-05,
      "loss": 3.2795,
      "step": 391730
    },
    {
      "epoch": 0.816125,
      "grad_norm": 0.9923355579376221,
      "learning_rate": 2.4536960356421252e-05,
      "loss": 3.4784,
      "step": 391740
    },
    {
      "epoch": 0.8161458333333333,
      "grad_norm": 0.8876855373382568,
      "learning_rate": 2.453155726589538e-05,
      "loss": 3.3493,
      "step": 391750
    },
    {
      "epoch": 0.8161666666666667,
      "grad_norm": 0.8183371424674988,
      "learning_rate": 2.4526154717343523e-05,
      "loss": 3.3117,
      "step": 391760
    },
    {
      "epoch": 0.8161875,
      "grad_norm": 1.0037552118301392,
      "learning_rate": 2.4520752710789025e-05,
      "loss": 3.3984,
      "step": 391770
    },
    {
      "epoch": 0.8162083333333333,
      "grad_norm": 1.017703890800476,
      "learning_rate": 2.4515351246255194e-05,
      "loss": 3.3017,
      "step": 391780
    },
    {
      "epoch": 0.8162291666666667,
      "grad_norm": 0.9068401455879211,
      "learning_rate": 2.450995032376537e-05,
      "loss": 3.3053,
      "step": 391790
    },
    {
      "epoch": 0.81625,
      "grad_norm": 1.1266276836395264,
      "learning_rate": 2.4504549943342904e-05,
      "loss": 3.4719,
      "step": 391800
    },
    {
      "epoch": 0.8162708333333333,
      "grad_norm": 0.8707212805747986,
      "learning_rate": 2.4499150105011093e-05,
      "loss": 3.2685,
      "step": 391810
    },
    {
      "epoch": 0.8162916666666666,
      "grad_norm": 0.8394765853881836,
      "learning_rate": 2.4493750808793288e-05,
      "loss": 3.3744,
      "step": 391820
    },
    {
      "epoch": 0.8163125,
      "grad_norm": 1.0185725688934326,
      "learning_rate": 2.4488352054712802e-05,
      "loss": 3.2265,
      "step": 391830
    },
    {
      "epoch": 0.8163333333333334,
      "grad_norm": 0.8436498641967773,
      "learning_rate": 2.4482953842792945e-05,
      "loss": 3.3161,
      "step": 391840
    },
    {
      "epoch": 0.8163541666666667,
      "grad_norm": 0.9608985185623169,
      "learning_rate": 2.447755617305707e-05,
      "loss": 3.3514,
      "step": 391850
    },
    {
      "epoch": 0.816375,
      "grad_norm": 0.8442018032073975,
      "learning_rate": 2.447215904552841e-05,
      "loss": 3.2901,
      "step": 391860
    },
    {
      "epoch": 0.8163958333333333,
      "grad_norm": 0.924773633480072,
      "learning_rate": 2.446676246023038e-05,
      "loss": 3.3075,
      "step": 391870
    },
    {
      "epoch": 0.8164166666666667,
      "grad_norm": 0.8816575407981873,
      "learning_rate": 2.4461366417186267e-05,
      "loss": 3.2488,
      "step": 391880
    },
    {
      "epoch": 0.8164375,
      "grad_norm": 0.9226207733154297,
      "learning_rate": 2.44559709164193e-05,
      "loss": 3.3284,
      "step": 391890
    },
    {
      "epoch": 0.8164583333333333,
      "grad_norm": 0.9301685094833374,
      "learning_rate": 2.4450575957952868e-05,
      "loss": 3.4503,
      "step": 391900
    },
    {
      "epoch": 0.8164791666666666,
      "grad_norm": 1.0096877813339233,
      "learning_rate": 2.4445181541810306e-05,
      "loss": 3.328,
      "step": 391910
    },
    {
      "epoch": 0.8165,
      "grad_norm": 0.906546413898468,
      "learning_rate": 2.4439787668014777e-05,
      "loss": 3.454,
      "step": 391920
    },
    {
      "epoch": 0.8165208333333334,
      "grad_norm": 0.9689205288887024,
      "learning_rate": 2.4434394336589695e-05,
      "loss": 3.3157,
      "step": 391930
    },
    {
      "epoch": 0.8165416666666667,
      "grad_norm": 0.8156241774559021,
      "learning_rate": 2.4429001547558362e-05,
      "loss": 3.2751,
      "step": 391940
    },
    {
      "epoch": 0.8165625,
      "grad_norm": 0.8822080492973328,
      "learning_rate": 2.4423609300943975e-05,
      "loss": 3.2918,
      "step": 391950
    },
    {
      "epoch": 0.8165833333333333,
      "grad_norm": 0.8488798141479492,
      "learning_rate": 2.441821759676996e-05,
      "loss": 3.2778,
      "step": 391960
    },
    {
      "epoch": 0.8166041666666667,
      "grad_norm": 0.8543391823768616,
      "learning_rate": 2.4412826435059505e-05,
      "loss": 3.3627,
      "step": 391970
    },
    {
      "epoch": 0.816625,
      "grad_norm": 0.8930135369300842,
      "learning_rate": 2.4407435815835892e-05,
      "loss": 3.3478,
      "step": 391980
    },
    {
      "epoch": 0.8166458333333333,
      "grad_norm": 0.9566004872322083,
      "learning_rate": 2.4402045739122513e-05,
      "loss": 3.375,
      "step": 391990
    },
    {
      "epoch": 0.8166666666666667,
      "grad_norm": 0.9648166298866272,
      "learning_rate": 2.4396656204942548e-05,
      "loss": 3.2749,
      "step": 392000
    },
    {
      "epoch": 0.8166666666666667,
      "eval_loss": 4.041409492492676,
      "eval_runtime": 8.6305,
      "eval_samples_per_second": 1.159,
      "eval_steps_per_second": 0.348,
      "step": 392000
    },
    {
      "epoch": 0.8166875,
      "grad_norm": 1.154029130935669,
      "learning_rate": 2.4391267213319272e-05,
      "loss": 3.302,
      "step": 392010
    },
    {
      "epoch": 0.8167083333333334,
      "grad_norm": 0.8380481004714966,
      "learning_rate": 2.4385878764276073e-05,
      "loss": 3.3948,
      "step": 392020
    },
    {
      "epoch": 0.8167291666666666,
      "grad_norm": 0.8359039425849915,
      "learning_rate": 2.438049085783612e-05,
      "loss": 3.3404,
      "step": 392030
    },
    {
      "epoch": 0.81675,
      "grad_norm": 0.9135515689849854,
      "learning_rate": 2.437510349402268e-05,
      "loss": 3.4763,
      "step": 392040
    },
    {
      "epoch": 0.8167708333333333,
      "grad_norm": 0.8828942775726318,
      "learning_rate": 2.4369716672859146e-05,
      "loss": 3.3724,
      "step": 392050
    },
    {
      "epoch": 0.8167916666666667,
      "grad_norm": 0.9246875047683716,
      "learning_rate": 2.436433039436867e-05,
      "loss": 3.3015,
      "step": 392060
    },
    {
      "epoch": 0.8168125,
      "grad_norm": 0.9919032454490662,
      "learning_rate": 2.4358944658574532e-05,
      "loss": 3.291,
      "step": 392070
    },
    {
      "epoch": 0.8168333333333333,
      "grad_norm": 0.819740355014801,
      "learning_rate": 2.4353559465500076e-05,
      "loss": 3.2958,
      "step": 392080
    },
    {
      "epoch": 0.8168541666666667,
      "grad_norm": 0.8676518201828003,
      "learning_rate": 2.4348174815168476e-05,
      "loss": 3.3737,
      "step": 392090
    },
    {
      "epoch": 0.816875,
      "grad_norm": 0.8653202652931213,
      "learning_rate": 2.434279070760304e-05,
      "loss": 3.3122,
      "step": 392100
    },
    {
      "epoch": 0.8168958333333334,
      "grad_norm": 1.0669050216674805,
      "learning_rate": 2.4337407142826998e-05,
      "loss": 3.3003,
      "step": 392110
    },
    {
      "epoch": 0.8169166666666666,
      "grad_norm": 0.8916434049606323,
      "learning_rate": 2.4332024120863618e-05,
      "loss": 3.3109,
      "step": 392120
    },
    {
      "epoch": 0.8169375,
      "grad_norm": 0.899959921836853,
      "learning_rate": 2.432664164173615e-05,
      "loss": 3.4119,
      "step": 392130
    },
    {
      "epoch": 0.8169583333333333,
      "grad_norm": 0.8783010244369507,
      "learning_rate": 2.4321259705467838e-05,
      "loss": 3.3779,
      "step": 392140
    },
    {
      "epoch": 0.8169791666666667,
      "grad_norm": 0.9379363059997559,
      "learning_rate": 2.431587831208195e-05,
      "loss": 3.372,
      "step": 392150
    },
    {
      "epoch": 0.817,
      "grad_norm": 0.8723463416099548,
      "learning_rate": 2.4310497461601713e-05,
      "loss": 3.4103,
      "step": 392160
    },
    {
      "epoch": 0.8170208333333333,
      "grad_norm": 0.973781406879425,
      "learning_rate": 2.430511715405038e-05,
      "loss": 3.3591,
      "step": 392170
    },
    {
      "epoch": 0.8170416666666667,
      "grad_norm": 1.0732089281082153,
      "learning_rate": 2.429973738945118e-05,
      "loss": 3.3729,
      "step": 392180
    },
    {
      "epoch": 0.8170625,
      "grad_norm": 0.8708058595657349,
      "learning_rate": 2.4294358167827392e-05,
      "loss": 3.32,
      "step": 392190
    },
    {
      "epoch": 0.8170833333333334,
      "grad_norm": 0.8785350918769836,
      "learning_rate": 2.4288979489202154e-05,
      "loss": 3.3284,
      "step": 392200
    },
    {
      "epoch": 0.8171041666666666,
      "grad_norm": 0.8552030920982361,
      "learning_rate": 2.428360135359879e-05,
      "loss": 3.4666,
      "step": 392210
    },
    {
      "epoch": 0.817125,
      "grad_norm": 0.8708042502403259,
      "learning_rate": 2.4278223761040553e-05,
      "loss": 3.2989,
      "step": 392220
    },
    {
      "epoch": 0.8171458333333333,
      "grad_norm": 0.8620128035545349,
      "learning_rate": 2.4272846711550558e-05,
      "loss": 3.2524,
      "step": 392230
    },
    {
      "epoch": 0.8171666666666667,
      "grad_norm": 0.9783363938331604,
      "learning_rate": 2.4267470205152134e-05,
      "loss": 3.3975,
      "step": 392240
    },
    {
      "epoch": 0.8171875,
      "grad_norm": 0.8989759683609009,
      "learning_rate": 2.4262094241868496e-05,
      "loss": 3.4087,
      "step": 392250
    },
    {
      "epoch": 0.8172083333333333,
      "grad_norm": 0.8475564122200012,
      "learning_rate": 2.4256718821722776e-05,
      "loss": 3.197,
      "step": 392260
    },
    {
      "epoch": 0.8172291666666667,
      "grad_norm": 0.947516918182373,
      "learning_rate": 2.425134394473829e-05,
      "loss": 3.3083,
      "step": 392270
    },
    {
      "epoch": 0.81725,
      "grad_norm": 1.0237181186676025,
      "learning_rate": 2.4245969610938264e-05,
      "loss": 3.5174,
      "step": 392280
    },
    {
      "epoch": 0.8172708333333333,
      "grad_norm": 0.9320016503334045,
      "learning_rate": 2.4240595820345788e-05,
      "loss": 3.3637,
      "step": 392290
    },
    {
      "epoch": 0.8172916666666666,
      "grad_norm": 0.9495028257369995,
      "learning_rate": 2.4235222572984204e-05,
      "loss": 3.2894,
      "step": 392300
    },
    {
      "epoch": 0.8173125,
      "grad_norm": 0.8828205466270447,
      "learning_rate": 2.422984986887671e-05,
      "loss": 3.419,
      "step": 392310
    },
    {
      "epoch": 0.8173333333333334,
      "grad_norm": 1.0192375183105469,
      "learning_rate": 2.4224477708046423e-05,
      "loss": 3.3412,
      "step": 392320
    },
    {
      "epoch": 0.8173541666666667,
      "grad_norm": 0.9754495620727539,
      "learning_rate": 2.421910609051666e-05,
      "loss": 3.1905,
      "step": 392330
    },
    {
      "epoch": 0.817375,
      "grad_norm": 1.2243173122406006,
      "learning_rate": 2.421373501631055e-05,
      "loss": 3.3457,
      "step": 392340
    },
    {
      "epoch": 0.8173958333333333,
      "grad_norm": 0.8915874361991882,
      "learning_rate": 2.420836448545127e-05,
      "loss": 3.2193,
      "step": 392350
    },
    {
      "epoch": 0.8174166666666667,
      "grad_norm": 0.7966816425323486,
      "learning_rate": 2.420299449796214e-05,
      "loss": 3.3984,
      "step": 392360
    },
    {
      "epoch": 0.8174375,
      "grad_norm": 0.8701924681663513,
      "learning_rate": 2.4197625053866242e-05,
      "loss": 3.2428,
      "step": 392370
    },
    {
      "epoch": 0.8174583333333333,
      "grad_norm": 0.8683584928512573,
      "learning_rate": 2.4192256153186774e-05,
      "loss": 3.4099,
      "step": 392380
    },
    {
      "epoch": 0.8174791666666666,
      "grad_norm": 0.853421151638031,
      "learning_rate": 2.418688779594703e-05,
      "loss": 3.3114,
      "step": 392390
    },
    {
      "epoch": 0.8175,
      "grad_norm": 1.0749698877334595,
      "learning_rate": 2.4181519982170096e-05,
      "loss": 3.3082,
      "step": 392400
    },
    {
      "epoch": 0.8175208333333334,
      "grad_norm": 0.9723437428474426,
      "learning_rate": 2.417615271187915e-05,
      "loss": 3.2271,
      "step": 392410
    },
    {
      "epoch": 0.8175416666666667,
      "grad_norm": 1.0192983150482178,
      "learning_rate": 2.4170785985097506e-05,
      "loss": 3.3031,
      "step": 392420
    },
    {
      "epoch": 0.8175625,
      "grad_norm": 0.8209471106529236,
      "learning_rate": 2.4165419801848218e-05,
      "loss": 3.3353,
      "step": 392430
    },
    {
      "epoch": 0.8175833333333333,
      "grad_norm": 1.0025053024291992,
      "learning_rate": 2.4160054162154497e-05,
      "loss": 3.3643,
      "step": 392440
    },
    {
      "epoch": 0.8176041666666667,
      "grad_norm": 1.0683081150054932,
      "learning_rate": 2.415468906603954e-05,
      "loss": 3.2722,
      "step": 392450
    },
    {
      "epoch": 0.817625,
      "grad_norm": 0.8876626491546631,
      "learning_rate": 2.4149324513526513e-05,
      "loss": 3.3209,
      "step": 392460
    },
    {
      "epoch": 0.8176458333333333,
      "grad_norm": 0.8199180364608765,
      "learning_rate": 2.41439605046386e-05,
      "loss": 3.1913,
      "step": 392470
    },
    {
      "epoch": 0.8176666666666667,
      "grad_norm": 0.8836438655853271,
      "learning_rate": 2.4138597039398943e-05,
      "loss": 3.2888,
      "step": 392480
    },
    {
      "epoch": 0.8176875,
      "grad_norm": 0.915626585483551,
      "learning_rate": 2.4133234117830747e-05,
      "loss": 3.2903,
      "step": 392490
    },
    {
      "epoch": 0.8177083333333334,
      "grad_norm": 0.8413779139518738,
      "learning_rate": 2.4127871739957138e-05,
      "loss": 3.3997,
      "step": 392500
    },
    {
      "epoch": 0.8177291666666666,
      "grad_norm": 0.907471776008606,
      "learning_rate": 2.4122509905801302e-05,
      "loss": 3.3201,
      "step": 392510
    },
    {
      "epoch": 0.81775,
      "grad_norm": 0.921604573726654,
      "learning_rate": 2.4117148615386402e-05,
      "loss": 3.2004,
      "step": 392520
    },
    {
      "epoch": 0.8177708333333333,
      "grad_norm": 0.8916786909103394,
      "learning_rate": 2.4111787868735598e-05,
      "loss": 3.3417,
      "step": 392530
    },
    {
      "epoch": 0.8177916666666667,
      "grad_norm": 0.9687369465827942,
      "learning_rate": 2.410642766587203e-05,
      "loss": 3.3659,
      "step": 392540
    },
    {
      "epoch": 0.8178125,
      "grad_norm": 0.9205425381660461,
      "learning_rate": 2.4101068006818874e-05,
      "loss": 3.2612,
      "step": 392550
    },
    {
      "epoch": 0.8178333333333333,
      "grad_norm": 0.9607540369033813,
      "learning_rate": 2.4095708891599263e-05,
      "loss": 3.4521,
      "step": 392560
    },
    {
      "epoch": 0.8178541666666667,
      "grad_norm": 0.9612095952033997,
      "learning_rate": 2.4090350320236346e-05,
      "loss": 3.2703,
      "step": 392570
    },
    {
      "epoch": 0.817875,
      "grad_norm": 0.9312882423400879,
      "learning_rate": 2.4084992292753284e-05,
      "loss": 3.2985,
      "step": 392580
    },
    {
      "epoch": 0.8178958333333334,
      "grad_norm": 0.883769690990448,
      "learning_rate": 2.407963480917325e-05,
      "loss": 3.4077,
      "step": 392590
    },
    {
      "epoch": 0.8179166666666666,
      "grad_norm": 0.9266372919082642,
      "learning_rate": 2.407427786951928e-05,
      "loss": 3.3403,
      "step": 392600
    },
    {
      "epoch": 0.8179375,
      "grad_norm": 0.906386137008667,
      "learning_rate": 2.4068921473814618e-05,
      "loss": 3.373,
      "step": 392610
    },
    {
      "epoch": 0.8179583333333333,
      "grad_norm": 0.8879636526107788,
      "learning_rate": 2.4063565622082422e-05,
      "loss": 3.3506,
      "step": 392620
    },
    {
      "epoch": 0.8179791666666667,
      "grad_norm": 0.9394341111183167,
      "learning_rate": 2.405821031434567e-05,
      "loss": 3.3751,
      "step": 392630
    },
    {
      "epoch": 0.818,
      "grad_norm": 0.8468206524848938,
      "learning_rate": 2.4052855550627654e-05,
      "loss": 3.3622,
      "step": 392640
    },
    {
      "epoch": 0.8180208333333333,
      "grad_norm": 0.8823252320289612,
      "learning_rate": 2.404750133095148e-05,
      "loss": 3.3662,
      "step": 392650
    },
    {
      "epoch": 0.8180416666666667,
      "grad_norm": 0.9860441088676453,
      "learning_rate": 2.4042147655340182e-05,
      "loss": 3.2527,
      "step": 392660
    },
    {
      "epoch": 0.8180625,
      "grad_norm": 1.013780117034912,
      "learning_rate": 2.4036794523816976e-05,
      "loss": 3.4204,
      "step": 392670
    },
    {
      "epoch": 0.8180833333333334,
      "grad_norm": 0.9204500317573547,
      "learning_rate": 2.4031441936404993e-05,
      "loss": 3.2459,
      "step": 392680
    },
    {
      "epoch": 0.8181041666666666,
      "grad_norm": 0.8509632349014282,
      "learning_rate": 2.4026089893127247e-05,
      "loss": 3.2934,
      "step": 392690
    },
    {
      "epoch": 0.818125,
      "grad_norm": 0.9018392562866211,
      "learning_rate": 2.4020738394007004e-05,
      "loss": 3.4497,
      "step": 392700
    },
    {
      "epoch": 0.8181458333333333,
      "grad_norm": 0.8151882290840149,
      "learning_rate": 2.401538743906726e-05,
      "loss": 3.3057,
      "step": 392710
    },
    {
      "epoch": 0.8181666666666667,
      "grad_norm": 0.9035162925720215,
      "learning_rate": 2.401003702833115e-05,
      "loss": 3.3121,
      "step": 392720
    },
    {
      "epoch": 0.8181875,
      "grad_norm": 0.8894446492195129,
      "learning_rate": 2.4004687161821872e-05,
      "loss": 3.214,
      "step": 392730
    },
    {
      "epoch": 0.8182083333333333,
      "grad_norm": 0.8941362500190735,
      "learning_rate": 2.3999337839562456e-05,
      "loss": 3.4023,
      "step": 392740
    },
    {
      "epoch": 0.8182291666666667,
      "grad_norm": 0.9228585958480835,
      "learning_rate": 2.3993989061576013e-05,
      "loss": 3.2571,
      "step": 392750
    },
    {
      "epoch": 0.81825,
      "grad_norm": 0.8969207406044006,
      "learning_rate": 2.3988640827885648e-05,
      "loss": 3.3738,
      "step": 392760
    },
    {
      "epoch": 0.8182708333333333,
      "grad_norm": 1.0057623386383057,
      "learning_rate": 2.3983293138514487e-05,
      "loss": 3.3506,
      "step": 392770
    },
    {
      "epoch": 0.8182916666666666,
      "grad_norm": 1.0824148654937744,
      "learning_rate": 2.397794599348563e-05,
      "loss": 3.385,
      "step": 392780
    },
    {
      "epoch": 0.8183125,
      "grad_norm": 0.9244449734687805,
      "learning_rate": 2.3972599392822146e-05,
      "loss": 3.4603,
      "step": 392790
    },
    {
      "epoch": 0.8183333333333334,
      "grad_norm": 0.8378955125808716,
      "learning_rate": 2.396725333654716e-05,
      "loss": 3.2615,
      "step": 392800
    },
    {
      "epoch": 0.8183541666666667,
      "grad_norm": 1.033652663230896,
      "learning_rate": 2.396190782468374e-05,
      "loss": 3.3485,
      "step": 392810
    },
    {
      "epoch": 0.818375,
      "grad_norm": 0.8603629469871521,
      "learning_rate": 2.3956562857255e-05,
      "loss": 3.3413,
      "step": 392820
    },
    {
      "epoch": 0.8183958333333333,
      "grad_norm": 1.1229292154312134,
      "learning_rate": 2.395121843428401e-05,
      "loss": 3.4054,
      "step": 392830
    },
    {
      "epoch": 0.8184166666666667,
      "grad_norm": 0.9087209701538086,
      "learning_rate": 2.3945874555793858e-05,
      "loss": 3.237,
      "step": 392840
    },
    {
      "epoch": 0.8184375,
      "grad_norm": 0.9793431758880615,
      "learning_rate": 2.3940531221807653e-05,
      "loss": 3.3586,
      "step": 392850
    },
    {
      "epoch": 0.8184583333333333,
      "grad_norm": 0.8953936696052551,
      "learning_rate": 2.3935188432348433e-05,
      "loss": 3.376,
      "step": 392860
    },
    {
      "epoch": 0.8184791666666666,
      "grad_norm": 0.8741398453712463,
      "learning_rate": 2.3929846187439306e-05,
      "loss": 3.313,
      "step": 392870
    },
    {
      "epoch": 0.8185,
      "grad_norm": 0.8109949231147766,
      "learning_rate": 2.3924504487103347e-05,
      "loss": 3.3066,
      "step": 392880
    },
    {
      "epoch": 0.8185208333333334,
      "grad_norm": 0.8834570050239563,
      "learning_rate": 2.391916333136362e-05,
      "loss": 3.308,
      "step": 392890
    },
    {
      "epoch": 0.8185416666666666,
      "grad_norm": 0.9917203783988953,
      "learning_rate": 2.39138227202432e-05,
      "loss": 3.3857,
      "step": 392900
    },
    {
      "epoch": 0.8185625,
      "grad_norm": 0.8595258593559265,
      "learning_rate": 2.390848265376517e-05,
      "loss": 3.3892,
      "step": 392910
    },
    {
      "epoch": 0.8185833333333333,
      "grad_norm": 0.854537308216095,
      "learning_rate": 2.3903143131952574e-05,
      "loss": 3.2397,
      "step": 392920
    },
    {
      "epoch": 0.8186041666666667,
      "grad_norm": 0.8258718252182007,
      "learning_rate": 2.3897804154828486e-05,
      "loss": 3.3076,
      "step": 392930
    },
    {
      "epoch": 0.818625,
      "grad_norm": 0.8300581574440002,
      "learning_rate": 2.389246572241596e-05,
      "loss": 3.2858,
      "step": 392940
    },
    {
      "epoch": 0.8186458333333333,
      "grad_norm": 0.8914459347724915,
      "learning_rate": 2.3887127834738072e-05,
      "loss": 3.3115,
      "step": 392950
    },
    {
      "epoch": 0.8186666666666667,
      "grad_norm": 0.8856726288795471,
      "learning_rate": 2.3881790491817926e-05,
      "loss": 3.2992,
      "step": 392960
    },
    {
      "epoch": 0.8186875,
      "grad_norm": 0.9298906922340393,
      "learning_rate": 2.387645369367843e-05,
      "loss": 3.4057,
      "step": 392970
    },
    {
      "epoch": 0.8187083333333334,
      "grad_norm": 0.8983165621757507,
      "learning_rate": 2.3871117440342775e-05,
      "loss": 3.256,
      "step": 392980
    },
    {
      "epoch": 0.8187291666666666,
      "grad_norm": 0.928102433681488,
      "learning_rate": 2.3865781731834e-05,
      "loss": 3.3121,
      "step": 392990
    },
    {
      "epoch": 0.81875,
      "grad_norm": 0.8081605434417725,
      "learning_rate": 2.3860446568175056e-05,
      "loss": 3.362,
      "step": 393000
    },
    {
      "epoch": 0.81875,
      "eval_loss": 4.038327217102051,
      "eval_runtime": 9.459,
      "eval_samples_per_second": 1.057,
      "eval_steps_per_second": 0.317,
      "step": 393000
    },
    {
      "epoch": 0.8187708333333333,
      "grad_norm": 0.9679988026618958,
      "learning_rate": 2.3855111949389094e-05,
      "loss": 3.3789,
      "step": 393010
    },
    {
      "epoch": 0.8187916666666667,
      "grad_norm": 0.9308471083641052,
      "learning_rate": 2.3849777875499143e-05,
      "loss": 3.2107,
      "step": 393020
    },
    {
      "epoch": 0.8188125,
      "grad_norm": 1.0067675113677979,
      "learning_rate": 2.3844444346528184e-05,
      "loss": 3.3474,
      "step": 393030
    },
    {
      "epoch": 0.8188333333333333,
      "grad_norm": 0.9653342366218567,
      "learning_rate": 2.3839111362499253e-05,
      "loss": 3.4299,
      "step": 393040
    },
    {
      "epoch": 0.8188541666666667,
      "grad_norm": 0.864690899848938,
      "learning_rate": 2.3833778923435494e-05,
      "loss": 3.4084,
      "step": 393050
    },
    {
      "epoch": 0.818875,
      "grad_norm": 1.02149498462677,
      "learning_rate": 2.3828447029359838e-05,
      "loss": 3.4184,
      "step": 393060
    },
    {
      "epoch": 0.8188958333333334,
      "grad_norm": 0.860883355140686,
      "learning_rate": 2.38231156802953e-05,
      "loss": 3.2903,
      "step": 393070
    },
    {
      "epoch": 0.8189166666666666,
      "grad_norm": 0.7979162335395813,
      "learning_rate": 2.3817784876265034e-05,
      "loss": 3.3726,
      "step": 393080
    },
    {
      "epoch": 0.8189375,
      "grad_norm": 0.8944448232650757,
      "learning_rate": 2.3812454617291964e-05,
      "loss": 3.388,
      "step": 393090
    },
    {
      "epoch": 0.8189583333333333,
      "grad_norm": 0.8715423345565796,
      "learning_rate": 2.3807124903399144e-05,
      "loss": 3.4263,
      "step": 393100
    },
    {
      "epoch": 0.8189791666666667,
      "grad_norm": 0.9194018840789795,
      "learning_rate": 2.3801795734609584e-05,
      "loss": 3.3097,
      "step": 393110
    },
    {
      "epoch": 0.819,
      "grad_norm": 0.9200440049171448,
      "learning_rate": 2.379646711094632e-05,
      "loss": 3.2829,
      "step": 393120
    },
    {
      "epoch": 0.8190208333333333,
      "grad_norm": 0.8652046322822571,
      "learning_rate": 2.379113903243235e-05,
      "loss": 3.3738,
      "step": 393130
    },
    {
      "epoch": 0.8190416666666667,
      "grad_norm": 0.8577384352684021,
      "learning_rate": 2.3785811499090717e-05,
      "loss": 3.3113,
      "step": 393140
    },
    {
      "epoch": 0.8190625,
      "grad_norm": 0.8716937899589539,
      "learning_rate": 2.3780484510944426e-05,
      "loss": 3.316,
      "step": 393150
    },
    {
      "epoch": 0.8190833333333334,
      "grad_norm": 0.9239293932914734,
      "learning_rate": 2.377515806801647e-05,
      "loss": 3.4517,
      "step": 393160
    },
    {
      "epoch": 0.8191041666666666,
      "grad_norm": 0.8834354877471924,
      "learning_rate": 2.3769832170329867e-05,
      "loss": 3.2835,
      "step": 393170
    },
    {
      "epoch": 0.819125,
      "grad_norm": 0.877653956413269,
      "learning_rate": 2.3764506817907613e-05,
      "loss": 3.4144,
      "step": 393180
    },
    {
      "epoch": 0.8191458333333334,
      "grad_norm": 0.8931570649147034,
      "learning_rate": 2.3759182010772743e-05,
      "loss": 3.3137,
      "step": 393190
    },
    {
      "epoch": 0.8191666666666667,
      "grad_norm": 0.9019423127174377,
      "learning_rate": 2.3753857748948218e-05,
      "loss": 3.3128,
      "step": 393200
    },
    {
      "epoch": 0.8191875,
      "grad_norm": 0.9184524416923523,
      "learning_rate": 2.3748534032457074e-05,
      "loss": 3.2632,
      "step": 393210
    },
    {
      "epoch": 0.8192083333333333,
      "grad_norm": 0.8191452622413635,
      "learning_rate": 2.3743210861322272e-05,
      "loss": 3.3204,
      "step": 393220
    },
    {
      "epoch": 0.8192291666666667,
      "grad_norm": 0.9413880109786987,
      "learning_rate": 2.3737888235566845e-05,
      "loss": 3.3066,
      "step": 393230
    },
    {
      "epoch": 0.81925,
      "grad_norm": 0.9031118154525757,
      "learning_rate": 2.373256615521374e-05,
      "loss": 3.3153,
      "step": 393240
    },
    {
      "epoch": 0.8192708333333333,
      "grad_norm": 0.9262266159057617,
      "learning_rate": 2.3727244620285974e-05,
      "loss": 3.3752,
      "step": 393250
    },
    {
      "epoch": 0.8192916666666666,
      "grad_norm": 0.8585820198059082,
      "learning_rate": 2.3721923630806544e-05,
      "loss": 3.3107,
      "step": 393260
    },
    {
      "epoch": 0.8193125,
      "grad_norm": 0.8297903537750244,
      "learning_rate": 2.37166031867984e-05,
      "loss": 3.4037,
      "step": 393270
    },
    {
      "epoch": 0.8193333333333334,
      "grad_norm": 0.9849874377250671,
      "learning_rate": 2.3711283288284555e-05,
      "loss": 3.34,
      "step": 393280
    },
    {
      "epoch": 0.8193541666666667,
      "grad_norm": 0.8663906455039978,
      "learning_rate": 2.3705963935287975e-05,
      "loss": 3.2536,
      "step": 393290
    },
    {
      "epoch": 0.819375,
      "grad_norm": 0.9476306438446045,
      "learning_rate": 2.3700645127831642e-05,
      "loss": 3.4187,
      "step": 393300
    },
    {
      "epoch": 0.8193958333333333,
      "grad_norm": 0.8756914138793945,
      "learning_rate": 2.3695326865938534e-05,
      "loss": 3.2603,
      "step": 393310
    },
    {
      "epoch": 0.8194166666666667,
      "grad_norm": 0.8766700029373169,
      "learning_rate": 2.3690009149631606e-05,
      "loss": 3.293,
      "step": 393320
    },
    {
      "epoch": 0.8194375,
      "grad_norm": 0.897200882434845,
      "learning_rate": 2.3684691978933883e-05,
      "loss": 3.1956,
      "step": 393330
    },
    {
      "epoch": 0.8194583333333333,
      "grad_norm": 0.9868438839912415,
      "learning_rate": 2.367937535386827e-05,
      "loss": 3.2204,
      "step": 393340
    },
    {
      "epoch": 0.8194791666666666,
      "grad_norm": 1.0093955993652344,
      "learning_rate": 2.3674059274457708e-05,
      "loss": 3.395,
      "step": 393350
    },
    {
      "epoch": 0.8195,
      "grad_norm": 0.9432092905044556,
      "learning_rate": 2.3668743740725264e-05,
      "loss": 3.3714,
      "step": 393360
    },
    {
      "epoch": 0.8195208333333334,
      "grad_norm": 0.9508419632911682,
      "learning_rate": 2.3663428752693824e-05,
      "loss": 3.3544,
      "step": 393370
    },
    {
      "epoch": 0.8195416666666666,
      "grad_norm": 0.9330894351005554,
      "learning_rate": 2.3658114310386317e-05,
      "loss": 3.2905,
      "step": 393380
    },
    {
      "epoch": 0.8195625,
      "grad_norm": 1.0377763509750366,
      "learning_rate": 2.3652800413825822e-05,
      "loss": 3.3765,
      "step": 393390
    },
    {
      "epoch": 0.8195833333333333,
      "grad_norm": 0.9305979609489441,
      "learning_rate": 2.364748706303519e-05,
      "loss": 3.3426,
      "step": 393400
    },
    {
      "epoch": 0.8196041666666667,
      "grad_norm": 0.8044577240943909,
      "learning_rate": 2.3642174258037357e-05,
      "loss": 3.3485,
      "step": 393410
    },
    {
      "epoch": 0.819625,
      "grad_norm": 0.9562762379646301,
      "learning_rate": 2.3636861998855394e-05,
      "loss": 3.3139,
      "step": 393420
    },
    {
      "epoch": 0.8196458333333333,
      "grad_norm": 1.1048177480697632,
      "learning_rate": 2.3631550285512125e-05,
      "loss": 3.3226,
      "step": 393430
    },
    {
      "epoch": 0.8196666666666667,
      "grad_norm": 0.9244471788406372,
      "learning_rate": 2.3626239118030508e-05,
      "loss": 3.2526,
      "step": 393440
    },
    {
      "epoch": 0.8196875,
      "grad_norm": 0.8732656240463257,
      "learning_rate": 2.3620928496433582e-05,
      "loss": 3.4066,
      "step": 393450
    },
    {
      "epoch": 0.8197083333333334,
      "grad_norm": 0.8818203806877136,
      "learning_rate": 2.3615618420744193e-05,
      "loss": 3.2877,
      "step": 393460
    },
    {
      "epoch": 0.8197291666666666,
      "grad_norm": 0.9114594459533691,
      "learning_rate": 2.3610308890985285e-05,
      "loss": 3.5456,
      "step": 393470
    },
    {
      "epoch": 0.81975,
      "grad_norm": 0.9732462167739868,
      "learning_rate": 2.3604999907179828e-05,
      "loss": 3.3827,
      "step": 393480
    },
    {
      "epoch": 0.8197708333333333,
      "grad_norm": 0.9179896116256714,
      "learning_rate": 2.359969146935075e-05,
      "loss": 3.207,
      "step": 393490
    },
    {
      "epoch": 0.8197916666666667,
      "grad_norm": 0.9653841257095337,
      "learning_rate": 2.359438357752097e-05,
      "loss": 3.36,
      "step": 393500
    },
    {
      "epoch": 0.8198125,
      "grad_norm": 0.8851608633995056,
      "learning_rate": 2.35890762317134e-05,
      "loss": 3.2758,
      "step": 393510
    },
    {
      "epoch": 0.8198333333333333,
      "grad_norm": 0.9487501382827759,
      "learning_rate": 2.3583769431951005e-05,
      "loss": 3.3825,
      "step": 393520
    },
    {
      "epoch": 0.8198541666666667,
      "grad_norm": 0.9859098196029663,
      "learning_rate": 2.3578463178256668e-05,
      "loss": 3.3463,
      "step": 393530
    },
    {
      "epoch": 0.819875,
      "grad_norm": 0.898583173751831,
      "learning_rate": 2.3573157470653355e-05,
      "loss": 3.3481,
      "step": 393540
    },
    {
      "epoch": 0.8198958333333334,
      "grad_norm": 0.9297216534614563,
      "learning_rate": 2.3567852309163926e-05,
      "loss": 3.3218,
      "step": 393550
    },
    {
      "epoch": 0.8199166666666666,
      "grad_norm": 0.8650723099708557,
      "learning_rate": 2.356254769381135e-05,
      "loss": 3.363,
      "step": 393560
    },
    {
      "epoch": 0.8199375,
      "grad_norm": 0.8632672429084778,
      "learning_rate": 2.3557243624618527e-05,
      "loss": 3.3853,
      "step": 393570
    },
    {
      "epoch": 0.8199583333333333,
      "grad_norm": 0.9018388986587524,
      "learning_rate": 2.355194010160835e-05,
      "loss": 3.4278,
      "step": 393580
    },
    {
      "epoch": 0.8199791666666667,
      "grad_norm": 0.9793897271156311,
      "learning_rate": 2.3546637124803742e-05,
      "loss": 3.2618,
      "step": 393590
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9454773664474487,
      "learning_rate": 2.3541334694227608e-05,
      "loss": 3.3396,
      "step": 393600
    },
    {
      "epoch": 0.8200208333333333,
      "grad_norm": 0.9473181366920471,
      "learning_rate": 2.3536032809902855e-05,
      "loss": 3.333,
      "step": 393610
    },
    {
      "epoch": 0.8200416666666667,
      "grad_norm": 0.9179453253746033,
      "learning_rate": 2.353073147185241e-05,
      "loss": 3.3106,
      "step": 393620
    },
    {
      "epoch": 0.8200625,
      "grad_norm": 0.9818435907363892,
      "learning_rate": 2.3525430680099073e-05,
      "loss": 3.4358,
      "step": 393630
    },
    {
      "epoch": 0.8200833333333334,
      "grad_norm": 0.8447766900062561,
      "learning_rate": 2.3520130434665857e-05,
      "loss": 3.2656,
      "step": 393640
    },
    {
      "epoch": 0.8201041666666666,
      "grad_norm": 0.8864114880561829,
      "learning_rate": 2.3514830735575645e-05,
      "loss": 3.2051,
      "step": 393650
    },
    {
      "epoch": 0.820125,
      "grad_norm": 0.8153191804885864,
      "learning_rate": 2.350953158285124e-05,
      "loss": 3.3354,
      "step": 393660
    },
    {
      "epoch": 0.8201458333333334,
      "grad_norm": 0.9181246757507324,
      "learning_rate": 2.3504232976515613e-05,
      "loss": 3.3579,
      "step": 393670
    },
    {
      "epoch": 0.8201666666666667,
      "grad_norm": 0.8832828402519226,
      "learning_rate": 2.3498934916591655e-05,
      "loss": 3.3407,
      "step": 393680
    },
    {
      "epoch": 0.8201875,
      "grad_norm": 0.8599258661270142,
      "learning_rate": 2.349363740310218e-05,
      "loss": 3.3868,
      "step": 393690
    },
    {
      "epoch": 0.8202083333333333,
      "grad_norm": 0.960608959197998,
      "learning_rate": 2.3488340436070162e-05,
      "loss": 3.359,
      "step": 393700
    },
    {
      "epoch": 0.8202291666666667,
      "grad_norm": 0.9821654558181763,
      "learning_rate": 2.3483044015518408e-05,
      "loss": 3.2072,
      "step": 393710
    },
    {
      "epoch": 0.82025,
      "grad_norm": 0.9803053140640259,
      "learning_rate": 2.3477748141469798e-05,
      "loss": 3.3768,
      "step": 393720
    },
    {
      "epoch": 0.8202708333333333,
      "grad_norm": 1.0010979175567627,
      "learning_rate": 2.3472452813947296e-05,
      "loss": 3.3585,
      "step": 393730
    },
    {
      "epoch": 0.8202916666666666,
      "grad_norm": 0.7705536484718323,
      "learning_rate": 2.3467158032973698e-05,
      "loss": 3.2683,
      "step": 393740
    },
    {
      "epoch": 0.8203125,
      "grad_norm": 0.9437329769134521,
      "learning_rate": 2.346186379857184e-05,
      "loss": 3.4074,
      "step": 393750
    },
    {
      "epoch": 0.8203333333333334,
      "grad_norm": 0.8872625827789307,
      "learning_rate": 2.3456570110764716e-05,
      "loss": 3.2931,
      "step": 393760
    },
    {
      "epoch": 0.8203541666666667,
      "grad_norm": 0.8696179389953613,
      "learning_rate": 2.345127696957508e-05,
      "loss": 3.4328,
      "step": 393770
    },
    {
      "epoch": 0.820375,
      "grad_norm": 0.8422523736953735,
      "learning_rate": 2.3445984375025804e-05,
      "loss": 3.3259,
      "step": 393780
    },
    {
      "epoch": 0.8203958333333333,
      "grad_norm": 0.9790839552879333,
      "learning_rate": 2.3440692327139864e-05,
      "loss": 3.3726,
      "step": 393790
    },
    {
      "epoch": 0.8204166666666667,
      "grad_norm": 0.9884584546089172,
      "learning_rate": 2.3435400825939986e-05,
      "loss": 3.357,
      "step": 393800
    },
    {
      "epoch": 0.8204375,
      "grad_norm": 0.8303914070129395,
      "learning_rate": 2.3430109871449054e-05,
      "loss": 3.2545,
      "step": 393810
    },
    {
      "epoch": 0.8204583333333333,
      "grad_norm": 0.8695389032363892,
      "learning_rate": 2.3424819463690015e-05,
      "loss": 3.2676,
      "step": 393820
    },
    {
      "epoch": 0.8204791666666666,
      "grad_norm": 0.9156795144081116,
      "learning_rate": 2.3419529602685617e-05,
      "loss": 3.4302,
      "step": 393830
    },
    {
      "epoch": 0.8205,
      "grad_norm": 0.8698462843894958,
      "learning_rate": 2.3414240288458757e-05,
      "loss": 3.3429,
      "step": 393840
    },
    {
      "epoch": 0.8205208333333334,
      "grad_norm": 0.8562673926353455,
      "learning_rate": 2.3408951521032255e-05,
      "loss": 3.4192,
      "step": 393850
    },
    {
      "epoch": 0.8205416666666666,
      "grad_norm": 1.319116234779358,
      "learning_rate": 2.3403663300428986e-05,
      "loss": 3.3165,
      "step": 393860
    },
    {
      "epoch": 0.8205625,
      "grad_norm": 0.8812029361724854,
      "learning_rate": 2.339837562667179e-05,
      "loss": 3.4539,
      "step": 393870
    },
    {
      "epoch": 0.8205833333333333,
      "grad_norm": 1.043033480644226,
      "learning_rate": 2.3393088499783475e-05,
      "loss": 3.3268,
      "step": 393880
    },
    {
      "epoch": 0.8206041666666667,
      "grad_norm": 0.9253674149513245,
      "learning_rate": 2.3387801919786924e-05,
      "loss": 3.2923,
      "step": 393890
    },
    {
      "epoch": 0.820625,
      "grad_norm": 0.8501265645027161,
      "learning_rate": 2.3382515886704938e-05,
      "loss": 3.4689,
      "step": 393900
    },
    {
      "epoch": 0.8206458333333333,
      "grad_norm": 0.9690921902656555,
      "learning_rate": 2.3377230400560365e-05,
      "loss": 3.4073,
      "step": 393910
    },
    {
      "epoch": 0.8206666666666667,
      "grad_norm": 0.9186388850212097,
      "learning_rate": 2.337194546137605e-05,
      "loss": 3.2301,
      "step": 393920
    },
    {
      "epoch": 0.8206875,
      "grad_norm": 1.033875823020935,
      "learning_rate": 2.3366661069174797e-05,
      "loss": 3.3243,
      "step": 393930
    },
    {
      "epoch": 0.8207083333333334,
      "grad_norm": 0.9101877808570862,
      "learning_rate": 2.336137722397945e-05,
      "loss": 3.3167,
      "step": 393940
    },
    {
      "epoch": 0.8207291666666666,
      "grad_norm": 0.9332768321037292,
      "learning_rate": 2.3356093925812824e-05,
      "loss": 3.3413,
      "step": 393950
    },
    {
      "epoch": 0.82075,
      "grad_norm": 0.9535454511642456,
      "learning_rate": 2.335081117469777e-05,
      "loss": 3.339,
      "step": 393960
    },
    {
      "epoch": 0.8207708333333333,
      "grad_norm": 0.8177844882011414,
      "learning_rate": 2.3345528970657018e-05,
      "loss": 3.3979,
      "step": 393970
    },
    {
      "epoch": 0.8207916666666667,
      "grad_norm": 1.029250979423523,
      "learning_rate": 2.3340247313713484e-05,
      "loss": 3.3319,
      "step": 393980
    },
    {
      "epoch": 0.8208125,
      "grad_norm": 0.9731820225715637,
      "learning_rate": 2.333496620388998e-05,
      "loss": 3.3647,
      "step": 393990
    },
    {
      "epoch": 0.8208333333333333,
      "grad_norm": 0.8046486377716064,
      "learning_rate": 2.332968564120921e-05,
      "loss": 3.329,
      "step": 394000
    },
    {
      "epoch": 0.8208333333333333,
      "eval_loss": 4.035810947418213,
      "eval_runtime": 8.5653,
      "eval_samples_per_second": 1.168,
      "eval_steps_per_second": 0.35,
      "step": 394000
    },
    {
      "epoch": 0.8208541666666667,
      "grad_norm": 0.7972621917724609,
      "learning_rate": 2.3324405625694087e-05,
      "loss": 3.3783,
      "step": 394010
    },
    {
      "epoch": 0.820875,
      "grad_norm": 0.8899336457252502,
      "learning_rate": 2.3319126157367442e-05,
      "loss": 3.3661,
      "step": 394020
    },
    {
      "epoch": 0.8208958333333334,
      "grad_norm": 0.8141965270042419,
      "learning_rate": 2.3313847236251955e-05,
      "loss": 3.2314,
      "step": 394030
    },
    {
      "epoch": 0.8209166666666666,
      "grad_norm": 1.0212348699569702,
      "learning_rate": 2.3308568862370523e-05,
      "loss": 3.4435,
      "step": 394040
    },
    {
      "epoch": 0.8209375,
      "grad_norm": 0.9679179787635803,
      "learning_rate": 2.330329103574597e-05,
      "loss": 3.2237,
      "step": 394050
    },
    {
      "epoch": 0.8209583333333333,
      "grad_norm": 0.8735600113868713,
      "learning_rate": 2.3298013756400986e-05,
      "loss": 3.3272,
      "step": 394060
    },
    {
      "epoch": 0.8209791666666667,
      "grad_norm": 0.8438985347747803,
      "learning_rate": 2.3292737024358454e-05,
      "loss": 3.218,
      "step": 394070
    },
    {
      "epoch": 0.821,
      "grad_norm": 0.8198283314704895,
      "learning_rate": 2.3287460839641193e-05,
      "loss": 3.3801,
      "step": 394080
    },
    {
      "epoch": 0.8210208333333333,
      "grad_norm": 1.0624016523361206,
      "learning_rate": 2.3282185202271862e-05,
      "loss": 3.3988,
      "step": 394090
    },
    {
      "epoch": 0.8210416666666667,
      "grad_norm": 0.9066949486732483,
      "learning_rate": 2.32769101122734e-05,
      "loss": 3.1425,
      "step": 394100
    },
    {
      "epoch": 0.8210625,
      "grad_norm": 0.8444200158119202,
      "learning_rate": 2.32716355696685e-05,
      "loss": 3.303,
      "step": 394110
    },
    {
      "epoch": 0.8210833333333334,
      "grad_norm": 0.9168959259986877,
      "learning_rate": 2.3266361574479932e-05,
      "loss": 3.3046,
      "step": 394120
    },
    {
      "epoch": 0.8211041666666666,
      "grad_norm": 0.866366982460022,
      "learning_rate": 2.3261088126730603e-05,
      "loss": 3.395,
      "step": 394130
    },
    {
      "epoch": 0.821125,
      "grad_norm": 0.8564717769622803,
      "learning_rate": 2.325581522644315e-05,
      "loss": 3.2134,
      "step": 394140
    },
    {
      "epoch": 0.8211458333333334,
      "grad_norm": 1.0653489828109741,
      "learning_rate": 2.3250542873640375e-05,
      "loss": 3.3252,
      "step": 394150
    },
    {
      "epoch": 0.8211666666666667,
      "grad_norm": 0.8610766530036926,
      "learning_rate": 2.3245271068345157e-05,
      "loss": 3.3242,
      "step": 394160
    },
    {
      "epoch": 0.8211875,
      "grad_norm": 0.8803990483283997,
      "learning_rate": 2.3239999810580175e-05,
      "loss": 3.3206,
      "step": 394170
    },
    {
      "epoch": 0.8212083333333333,
      "grad_norm": 0.9326717853546143,
      "learning_rate": 2.3234729100368162e-05,
      "loss": 3.326,
      "step": 394180
    },
    {
      "epoch": 0.8212291666666667,
      "grad_norm": 0.8594529032707214,
      "learning_rate": 2.3229458937732016e-05,
      "loss": 3.3364,
      "step": 394190
    },
    {
      "epoch": 0.82125,
      "grad_norm": 0.8706831336021423,
      "learning_rate": 2.3224189322694403e-05,
      "loss": 3.41,
      "step": 394200
    },
    {
      "epoch": 0.8212708333333333,
      "grad_norm": 0.906751811504364,
      "learning_rate": 2.3218920255278106e-05,
      "loss": 3.2252,
      "step": 394210
    },
    {
      "epoch": 0.8212916666666666,
      "grad_norm": 0.9612824320793152,
      "learning_rate": 2.3213651735505888e-05,
      "loss": 3.3598,
      "step": 394220
    },
    {
      "epoch": 0.8213125,
      "grad_norm": 0.9267559051513672,
      "learning_rate": 2.320838376340052e-05,
      "loss": 3.3444,
      "step": 394230
    },
    {
      "epoch": 0.8213333333333334,
      "grad_norm": 0.807776927947998,
      "learning_rate": 2.3203116338984722e-05,
      "loss": 3.2611,
      "step": 394240
    },
    {
      "epoch": 0.8213541666666667,
      "grad_norm": 1.0657644271850586,
      "learning_rate": 2.3197849462281286e-05,
      "loss": 3.3799,
      "step": 394250
    },
    {
      "epoch": 0.821375,
      "grad_norm": 0.8575701117515564,
      "learning_rate": 2.319258313331296e-05,
      "loss": 3.2671,
      "step": 394260
    },
    {
      "epoch": 0.8213958333333333,
      "grad_norm": 0.944912314414978,
      "learning_rate": 2.318731735210247e-05,
      "loss": 3.3517,
      "step": 394270
    },
    {
      "epoch": 0.8214166666666667,
      "grad_norm": 0.8626490235328674,
      "learning_rate": 2.3182052118672567e-05,
      "loss": 3.3176,
      "step": 394280
    },
    {
      "epoch": 0.8214375,
      "grad_norm": 0.929135799407959,
      "learning_rate": 2.3176787433046e-05,
      "loss": 3.2606,
      "step": 394290
    },
    {
      "epoch": 0.8214583333333333,
      "grad_norm": 0.8341161012649536,
      "learning_rate": 2.317152329524552e-05,
      "loss": 3.2737,
      "step": 394300
    },
    {
      "epoch": 0.8214791666666666,
      "grad_norm": 0.9116955995559692,
      "learning_rate": 2.3166259705293855e-05,
      "loss": 3.3804,
      "step": 394310
    },
    {
      "epoch": 0.8215,
      "grad_norm": 0.938076913356781,
      "learning_rate": 2.3160996663213753e-05,
      "loss": 3.324,
      "step": 394320
    },
    {
      "epoch": 0.8215208333333334,
      "grad_norm": 0.8134011030197144,
      "learning_rate": 2.3155734169027968e-05,
      "loss": 3.2836,
      "step": 394330
    },
    {
      "epoch": 0.8215416666666666,
      "grad_norm": 0.9234063029289246,
      "learning_rate": 2.3150472222759126e-05,
      "loss": 3.249,
      "step": 394340
    },
    {
      "epoch": 0.8215625,
      "grad_norm": 0.8830510377883911,
      "learning_rate": 2.314521082443006e-05,
      "loss": 3.3874,
      "step": 394350
    },
    {
      "epoch": 0.8215833333333333,
      "grad_norm": 0.8644248843193054,
      "learning_rate": 2.313994997406352e-05,
      "loss": 3.2178,
      "step": 394360
    },
    {
      "epoch": 0.8216041666666667,
      "grad_norm": 0.8879089951515198,
      "learning_rate": 2.313468967168212e-05,
      "loss": 3.2622,
      "step": 394370
    },
    {
      "epoch": 0.821625,
      "grad_norm": 0.8302122950553894,
      "learning_rate": 2.312942991730866e-05,
      "loss": 3.2851,
      "step": 394380
    },
    {
      "epoch": 0.8216458333333333,
      "grad_norm": 1.1405898332595825,
      "learning_rate": 2.312417071096589e-05,
      "loss": 3.3027,
      "step": 394390
    },
    {
      "epoch": 0.8216666666666667,
      "grad_norm": 0.8434492945671082,
      "learning_rate": 2.3118912052676402e-05,
      "loss": 3.4234,
      "step": 394400
    },
    {
      "epoch": 0.8216875,
      "grad_norm": 0.9033901691436768,
      "learning_rate": 2.3113653942463033e-05,
      "loss": 3.3838,
      "step": 394410
    },
    {
      "epoch": 0.8217083333333334,
      "grad_norm": 0.8827078342437744,
      "learning_rate": 2.31083963803485e-05,
      "loss": 3.3164,
      "step": 394420
    },
    {
      "epoch": 0.8217291666666666,
      "grad_norm": 0.9457669854164124,
      "learning_rate": 2.310313936635538e-05,
      "loss": 3.39,
      "step": 394430
    },
    {
      "epoch": 0.82175,
      "grad_norm": 0.9080427885055542,
      "learning_rate": 2.3097882900506505e-05,
      "loss": 3.2967,
      "step": 394440
    },
    {
      "epoch": 0.8217708333333333,
      "grad_norm": 0.9612148404121399,
      "learning_rate": 2.309262698282459e-05,
      "loss": 3.347,
      "step": 394450
    },
    {
      "epoch": 0.8217916666666667,
      "grad_norm": 0.823956310749054,
      "learning_rate": 2.3087371613332223e-05,
      "loss": 3.3295,
      "step": 394460
    },
    {
      "epoch": 0.8218125,
      "grad_norm": 0.8983750343322754,
      "learning_rate": 2.308211679205223e-05,
      "loss": 3.3338,
      "step": 394470
    },
    {
      "epoch": 0.8218333333333333,
      "grad_norm": 0.9487717151641846,
      "learning_rate": 2.3076862519007226e-05,
      "loss": 3.2967,
      "step": 394480
    },
    {
      "epoch": 0.8218541666666667,
      "grad_norm": 0.8427489399909973,
      "learning_rate": 2.3071608794219914e-05,
      "loss": 3.2881,
      "step": 394490
    },
    {
      "epoch": 0.821875,
      "grad_norm": 0.8426817655563354,
      "learning_rate": 2.306635561771307e-05,
      "loss": 3.4099,
      "step": 394500
    },
    {
      "epoch": 0.8218958333333334,
      "grad_norm": 0.9705013632774353,
      "learning_rate": 2.3061102989509284e-05,
      "loss": 3.486,
      "step": 394510
    },
    {
      "epoch": 0.8219166666666666,
      "grad_norm": 0.8570264577865601,
      "learning_rate": 2.3055850909631295e-05,
      "loss": 3.2865,
      "step": 394520
    },
    {
      "epoch": 0.8219375,
      "grad_norm": 0.8401264548301697,
      "learning_rate": 2.3050599378101792e-05,
      "loss": 3.4237,
      "step": 394530
    },
    {
      "epoch": 0.8219583333333333,
      "grad_norm": 0.9280871748924255,
      "learning_rate": 2.3045348394943436e-05,
      "loss": 3.4138,
      "step": 394540
    },
    {
      "epoch": 0.8219791666666667,
      "grad_norm": 0.9597238302230835,
      "learning_rate": 2.3040097960178926e-05,
      "loss": 3.3394,
      "step": 394550
    },
    {
      "epoch": 0.822,
      "grad_norm": 0.9201210141181946,
      "learning_rate": 2.3034848073830932e-05,
      "loss": 3.1959,
      "step": 394560
    },
    {
      "epoch": 0.8220208333333333,
      "grad_norm": 0.9469966292381287,
      "learning_rate": 2.3029598735922145e-05,
      "loss": 3.3765,
      "step": 394570
    },
    {
      "epoch": 0.8220416666666667,
      "grad_norm": 0.9636142253875732,
      "learning_rate": 2.3024349946475235e-05,
      "loss": 3.3552,
      "step": 394580
    },
    {
      "epoch": 0.8220625,
      "grad_norm": 0.9479853510856628,
      "learning_rate": 2.3019101705512882e-05,
      "loss": 3.3391,
      "step": 394590
    },
    {
      "epoch": 0.8220833333333334,
      "grad_norm": 1.022456169128418,
      "learning_rate": 2.3013854013057735e-05,
      "loss": 3.3774,
      "step": 394600
    },
    {
      "epoch": 0.8221041666666666,
      "grad_norm": 0.940682590007782,
      "learning_rate": 2.3008606869132462e-05,
      "loss": 3.3887,
      "step": 394610
    },
    {
      "epoch": 0.822125,
      "grad_norm": 1.0490059852600098,
      "learning_rate": 2.300336027375976e-05,
      "loss": 3.3073,
      "step": 394620
    },
    {
      "epoch": 0.8221458333333334,
      "grad_norm": 0.8873138427734375,
      "learning_rate": 2.2998114226962272e-05,
      "loss": 3.3773,
      "step": 394630
    },
    {
      "epoch": 0.8221666666666667,
      "grad_norm": 0.8247137069702148,
      "learning_rate": 2.2992868728762652e-05,
      "loss": 3.2702,
      "step": 394640
    },
    {
      "epoch": 0.8221875,
      "grad_norm": 0.8691701292991638,
      "learning_rate": 2.2987623779183568e-05,
      "loss": 3.2889,
      "step": 394650
    },
    {
      "epoch": 0.8222083333333333,
      "grad_norm": 0.8980225920677185,
      "learning_rate": 2.298237937824768e-05,
      "loss": 3.2988,
      "step": 394660
    },
    {
      "epoch": 0.8222291666666667,
      "grad_norm": 0.8805720210075378,
      "learning_rate": 2.297713552597762e-05,
      "loss": 3.2709,
      "step": 394670
    },
    {
      "epoch": 0.82225,
      "grad_norm": 0.8890119791030884,
      "learning_rate": 2.297189222239607e-05,
      "loss": 3.5088,
      "step": 394680
    },
    {
      "epoch": 0.8222708333333333,
      "grad_norm": 0.8822388052940369,
      "learning_rate": 2.2966649467525665e-05,
      "loss": 3.4204,
      "step": 394690
    },
    {
      "epoch": 0.8222916666666666,
      "grad_norm": 1.022187352180481,
      "learning_rate": 2.296140726138907e-05,
      "loss": 3.4224,
      "step": 394700
    },
    {
      "epoch": 0.8223125,
      "grad_norm": 0.849683403968811,
      "learning_rate": 2.2956165604008864e-05,
      "loss": 3.2825,
      "step": 394710
    },
    {
      "epoch": 0.8223333333333334,
      "grad_norm": 1.0180927515029907,
      "learning_rate": 2.2950924495407748e-05,
      "loss": 3.2611,
      "step": 394720
    },
    {
      "epoch": 0.8223541666666667,
      "grad_norm": 0.9036963582038879,
      "learning_rate": 2.29456839356084e-05,
      "loss": 3.3925,
      "step": 394730
    },
    {
      "epoch": 0.822375,
      "grad_norm": 0.9501839876174927,
      "learning_rate": 2.2940443924633324e-05,
      "loss": 3.3694,
      "step": 394740
    },
    {
      "epoch": 0.8223958333333333,
      "grad_norm": 0.8700956702232361,
      "learning_rate": 2.293520446250528e-05,
      "loss": 3.2795,
      "step": 394750
    },
    {
      "epoch": 0.8224166666666667,
      "grad_norm": 0.8701477646827698,
      "learning_rate": 2.2929965549246887e-05,
      "loss": 3.2471,
      "step": 394760
    },
    {
      "epoch": 0.8224375,
      "grad_norm": 0.9356711506843567,
      "learning_rate": 2.2924727184880677e-05,
      "loss": 3.4041,
      "step": 394770
    },
    {
      "epoch": 0.8224583333333333,
      "grad_norm": 0.8877300024032593,
      "learning_rate": 2.2919489369429377e-05,
      "loss": 3.2833,
      "step": 394780
    },
    {
      "epoch": 0.8224791666666667,
      "grad_norm": 0.8483082056045532,
      "learning_rate": 2.2914252102915625e-05,
      "loss": 3.3257,
      "step": 394790
    },
    {
      "epoch": 0.8225,
      "grad_norm": 0.8621251583099365,
      "learning_rate": 2.290901538536195e-05,
      "loss": 3.4523,
      "step": 394800
    },
    {
      "epoch": 0.8225208333333334,
      "grad_norm": 0.8721333146095276,
      "learning_rate": 2.2903779216791e-05,
      "loss": 3.3286,
      "step": 394810
    },
    {
      "epoch": 0.8225416666666666,
      "grad_norm": 0.8248627185821533,
      "learning_rate": 2.2898543597225494e-05,
      "loss": 3.2005,
      "step": 394820
    },
    {
      "epoch": 0.8225625,
      "grad_norm": 0.8888737559318542,
      "learning_rate": 2.289330852668791e-05,
      "loss": 3.2852,
      "step": 394830
    },
    {
      "epoch": 0.8225833333333333,
      "grad_norm": 0.9143326282501221,
      "learning_rate": 2.2888074005200946e-05,
      "loss": 3.3041,
      "step": 394840
    },
    {
      "epoch": 0.8226041666666667,
      "grad_norm": 0.9378246665000916,
      "learning_rate": 2.2882840032787168e-05,
      "loss": 3.2627,
      "step": 394850
    },
    {
      "epoch": 0.822625,
      "grad_norm": 0.8905236124992371,
      "learning_rate": 2.2877606609469214e-05,
      "loss": 3.3109,
      "step": 394860
    },
    {
      "epoch": 0.8226458333333333,
      "grad_norm": 0.8779861927032471,
      "learning_rate": 2.287237373526967e-05,
      "loss": 3.3495,
      "step": 394870
    },
    {
      "epoch": 0.8226666666666667,
      "grad_norm": 0.8922891616821289,
      "learning_rate": 2.2867141410211164e-05,
      "loss": 3.317,
      "step": 394880
    },
    {
      "epoch": 0.8226875,
      "grad_norm": 0.9599598050117493,
      "learning_rate": 2.286190963431629e-05,
      "loss": 3.4368,
      "step": 394890
    },
    {
      "epoch": 0.8227083333333334,
      "grad_norm": 0.9649102687835693,
      "learning_rate": 2.2856678407607627e-05,
      "loss": 3.3367,
      "step": 394900
    },
    {
      "epoch": 0.8227291666666666,
      "grad_norm": 0.9545250535011292,
      "learning_rate": 2.2851447730107792e-05,
      "loss": 3.2971,
      "step": 394910
    },
    {
      "epoch": 0.82275,
      "grad_norm": 0.9619786143302917,
      "learning_rate": 2.2846217601839367e-05,
      "loss": 3.3981,
      "step": 394920
    },
    {
      "epoch": 0.8227708333333333,
      "grad_norm": 0.8339223265647888,
      "learning_rate": 2.2840988022824967e-05,
      "loss": 3.4387,
      "step": 394930
    },
    {
      "epoch": 0.8227916666666667,
      "grad_norm": 0.9510552287101746,
      "learning_rate": 2.2835758993087144e-05,
      "loss": 3.234,
      "step": 394940
    },
    {
      "epoch": 0.8228125,
      "grad_norm": 0.8892874121665955,
      "learning_rate": 2.2830530512648527e-05,
      "loss": 3.347,
      "step": 394950
    },
    {
      "epoch": 0.8228333333333333,
      "grad_norm": 0.9043594002723694,
      "learning_rate": 2.2825302581531678e-05,
      "loss": 3.3497,
      "step": 394960
    },
    {
      "epoch": 0.8228541666666667,
      "grad_norm": 1.0569151639938354,
      "learning_rate": 2.2820075199759168e-05,
      "loss": 3.2652,
      "step": 394970
    },
    {
      "epoch": 0.822875,
      "grad_norm": 0.9217829704284668,
      "learning_rate": 2.281484836735361e-05,
      "loss": 3.4432,
      "step": 394980
    },
    {
      "epoch": 0.8228958333333334,
      "grad_norm": 0.8534002900123596,
      "learning_rate": 2.2809622084337552e-05,
      "loss": 3.334,
      "step": 394990
    },
    {
      "epoch": 0.8229166666666666,
      "grad_norm": 0.935750424861908,
      "learning_rate": 2.280439635073358e-05,
      "loss": 3.3517,
      "step": 395000
    },
    {
      "epoch": 0.8229166666666666,
      "eval_loss": 4.035944938659668,
      "eval_runtime": 8.7094,
      "eval_samples_per_second": 1.148,
      "eval_steps_per_second": 0.344,
      "step": 395000
    },
    {
      "epoch": 0.8229375,
      "grad_norm": 0.9068551063537598,
      "learning_rate": 2.2799171166564283e-05,
      "loss": 3.3542,
      "step": 395010
    },
    {
      "epoch": 0.8229583333333333,
      "grad_norm": 0.8636670708656311,
      "learning_rate": 2.2793946531852202e-05,
      "loss": 3.3257,
      "step": 395020
    },
    {
      "epoch": 0.8229791666666667,
      "grad_norm": 0.8714840412139893,
      "learning_rate": 2.278872244661992e-05,
      "loss": 3.4617,
      "step": 395030
    },
    {
      "epoch": 0.823,
      "grad_norm": 0.879609227180481,
      "learning_rate": 2.2783498910890006e-05,
      "loss": 3.1732,
      "step": 395040
    },
    {
      "epoch": 0.8230208333333333,
      "grad_norm": 0.9644381999969482,
      "learning_rate": 2.2778275924685025e-05,
      "loss": 3.2682,
      "step": 395050
    },
    {
      "epoch": 0.8230416666666667,
      "grad_norm": 0.8810518980026245,
      "learning_rate": 2.277305348802753e-05,
      "loss": 3.3564,
      "step": 395060
    },
    {
      "epoch": 0.8230625,
      "grad_norm": 0.8832144737243652,
      "learning_rate": 2.276783160094013e-05,
      "loss": 3.2955,
      "step": 395070
    },
    {
      "epoch": 0.8230833333333333,
      "grad_norm": 0.9873343110084534,
      "learning_rate": 2.2762610263445246e-05,
      "loss": 3.3008,
      "step": 395080
    },
    {
      "epoch": 0.8231041666666666,
      "grad_norm": 0.9464292526245117,
      "learning_rate": 2.2757389475565567e-05,
      "loss": 3.3677,
      "step": 395090
    },
    {
      "epoch": 0.823125,
      "grad_norm": 1.116565227508545,
      "learning_rate": 2.2752169237323643e-05,
      "loss": 3.2585,
      "step": 395100
    },
    {
      "epoch": 0.8231458333333334,
      "grad_norm": 0.8418278098106384,
      "learning_rate": 2.2746949548741934e-05,
      "loss": 3.3209,
      "step": 395110
    },
    {
      "epoch": 0.8231666666666667,
      "grad_norm": 0.9577288031578064,
      "learning_rate": 2.2741730409843005e-05,
      "loss": 3.426,
      "step": 395120
    },
    {
      "epoch": 0.8231875,
      "grad_norm": 0.9541369080543518,
      "learning_rate": 2.2736511820649496e-05,
      "loss": 3.288,
      "step": 395130
    },
    {
      "epoch": 0.8232083333333333,
      "grad_norm": 1.0724073648452759,
      "learning_rate": 2.2731293781183845e-05,
      "loss": 3.2698,
      "step": 395140
    },
    {
      "epoch": 0.8232291666666667,
      "grad_norm": 0.8784468770027161,
      "learning_rate": 2.272607629146859e-05,
      "loss": 3.2935,
      "step": 395150
    },
    {
      "epoch": 0.82325,
      "grad_norm": 0.8383782505989075,
      "learning_rate": 2.2720859351526384e-05,
      "loss": 3.3306,
      "step": 395160
    },
    {
      "epoch": 0.8232708333333333,
      "grad_norm": 1.033009648323059,
      "learning_rate": 2.2715642961379632e-05,
      "loss": 3.3878,
      "step": 395170
    },
    {
      "epoch": 0.8232916666666666,
      "grad_norm": 0.9007429480552673,
      "learning_rate": 2.2710427121050907e-05,
      "loss": 3.3185,
      "step": 395180
    },
    {
      "epoch": 0.8233125,
      "grad_norm": 0.8767390251159668,
      "learning_rate": 2.2705211830562802e-05,
      "loss": 3.262,
      "step": 395190
    },
    {
      "epoch": 0.8233333333333334,
      "grad_norm": 0.8875526785850525,
      "learning_rate": 2.2699997089937787e-05,
      "loss": 3.3997,
      "step": 395200
    },
    {
      "epoch": 0.8233541666666667,
      "grad_norm": 0.9218924641609192,
      "learning_rate": 2.269478289919838e-05,
      "loss": 3.3327,
      "step": 395210
    },
    {
      "epoch": 0.823375,
      "grad_norm": 0.8345848917961121,
      "learning_rate": 2.2689569258367118e-05,
      "loss": 3.327,
      "step": 395220
    },
    {
      "epoch": 0.8233958333333333,
      "grad_norm": 0.9360889792442322,
      "learning_rate": 2.2684356167466527e-05,
      "loss": 3.2721,
      "step": 395230
    },
    {
      "epoch": 0.8234166666666667,
      "grad_norm": 0.8733054995536804,
      "learning_rate": 2.267914362651912e-05,
      "loss": 3.3379,
      "step": 395240
    },
    {
      "epoch": 0.8234375,
      "grad_norm": 0.8466218113899231,
      "learning_rate": 2.267393163554741e-05,
      "loss": 3.3296,
      "step": 395250
    },
    {
      "epoch": 0.8234583333333333,
      "grad_norm": 1.0848283767700195,
      "learning_rate": 2.266872019457393e-05,
      "loss": 3.321,
      "step": 395260
    },
    {
      "epoch": 0.8234791666666667,
      "grad_norm": 0.9603836536407471,
      "learning_rate": 2.2663509303621164e-05,
      "loss": 3.3977,
      "step": 395270
    },
    {
      "epoch": 0.8235,
      "grad_norm": 0.8710581660270691,
      "learning_rate": 2.265829896271164e-05,
      "loss": 3.2526,
      "step": 395280
    },
    {
      "epoch": 0.8235208333333334,
      "grad_norm": 0.8068819046020508,
      "learning_rate": 2.2653089171867862e-05,
      "loss": 3.3672,
      "step": 395290
    },
    {
      "epoch": 0.8235416666666666,
      "grad_norm": 0.9162508249282837,
      "learning_rate": 2.2647879931112324e-05,
      "loss": 3.3274,
      "step": 395300
    },
    {
      "epoch": 0.8235625,
      "grad_norm": 1.0448404550552368,
      "learning_rate": 2.264267124046754e-05,
      "loss": 3.3362,
      "step": 395310
    },
    {
      "epoch": 0.8235833333333333,
      "grad_norm": 1.0029445886611938,
      "learning_rate": 2.2637463099956017e-05,
      "loss": 3.3971,
      "step": 395320
    },
    {
      "epoch": 0.8236041666666667,
      "grad_norm": 0.870820939540863,
      "learning_rate": 2.263225550960023e-05,
      "loss": 3.3056,
      "step": 395330
    },
    {
      "epoch": 0.823625,
      "grad_norm": 0.851878821849823,
      "learning_rate": 2.2627048469422678e-05,
      "loss": 3.3309,
      "step": 395340
    },
    {
      "epoch": 0.8236458333333333,
      "grad_norm": 0.8641520738601685,
      "learning_rate": 2.262184197944586e-05,
      "loss": 3.4321,
      "step": 395350
    },
    {
      "epoch": 0.8236666666666667,
      "grad_norm": 0.9445785284042358,
      "learning_rate": 2.261663603969226e-05,
      "loss": 3.3161,
      "step": 395360
    },
    {
      "epoch": 0.8236875,
      "grad_norm": 0.9433298707008362,
      "learning_rate": 2.261143065018439e-05,
      "loss": 3.3432,
      "step": 395370
    },
    {
      "epoch": 0.8237083333333334,
      "grad_norm": 0.8101110458374023,
      "learning_rate": 2.2606225810944704e-05,
      "loss": 3.3942,
      "step": 395380
    },
    {
      "epoch": 0.8237291666666666,
      "grad_norm": 0.9771103858947754,
      "learning_rate": 2.2601021521995733e-05,
      "loss": 3.3421,
      "step": 395390
    },
    {
      "epoch": 0.82375,
      "grad_norm": 0.8567893505096436,
      "learning_rate": 2.259581778335984e-05,
      "loss": 3.2903,
      "step": 395400
    },
    {
      "epoch": 0.8237708333333333,
      "grad_norm": 0.8857850432395935,
      "learning_rate": 2.2590614595059638e-05,
      "loss": 3.2437,
      "step": 395410
    },
    {
      "epoch": 0.8237916666666667,
      "grad_norm": 0.9872257113456726,
      "learning_rate": 2.258541195711756e-05,
      "loss": 3.2877,
      "step": 395420
    },
    {
      "epoch": 0.8238125,
      "grad_norm": 0.8647459745407104,
      "learning_rate": 2.2580209869556027e-05,
      "loss": 3.3017,
      "step": 395430
    },
    {
      "epoch": 0.8238333333333333,
      "grad_norm": 0.8828576803207397,
      "learning_rate": 2.2575008332397563e-05,
      "loss": 3.4535,
      "step": 395440
    },
    {
      "epoch": 0.8238541666666667,
      "grad_norm": 1.2067432403564453,
      "learning_rate": 2.2569807345664677e-05,
      "loss": 3.3411,
      "step": 395450
    },
    {
      "epoch": 0.823875,
      "grad_norm": 0.88858962059021,
      "learning_rate": 2.256460690937969e-05,
      "loss": 3.2939,
      "step": 395460
    },
    {
      "epoch": 0.8238958333333334,
      "grad_norm": 0.9100978374481201,
      "learning_rate": 2.2559407023565258e-05,
      "loss": 3.3267,
      "step": 395470
    },
    {
      "epoch": 0.8239166666666666,
      "grad_norm": 1.0515623092651367,
      "learning_rate": 2.2554207688243693e-05,
      "loss": 3.256,
      "step": 395480
    },
    {
      "epoch": 0.8239375,
      "grad_norm": 0.8846070170402527,
      "learning_rate": 2.254900890343746e-05,
      "loss": 3.3111,
      "step": 395490
    },
    {
      "epoch": 0.8239583333333333,
      "grad_norm": 0.9004543423652649,
      "learning_rate": 2.2543810669169144e-05,
      "loss": 3.3607,
      "step": 395500
    },
    {
      "epoch": 0.8239791666666667,
      "grad_norm": 0.9615350365638733,
      "learning_rate": 2.2538612985461073e-05,
      "loss": 3.3994,
      "step": 395510
    },
    {
      "epoch": 0.824,
      "grad_norm": 0.918832540512085,
      "learning_rate": 2.25334158523357e-05,
      "loss": 3.4407,
      "step": 395520
    },
    {
      "epoch": 0.8240208333333333,
      "grad_norm": 0.9280019402503967,
      "learning_rate": 2.2528219269815607e-05,
      "loss": 3.3171,
      "step": 395530
    },
    {
      "epoch": 0.8240416666666667,
      "grad_norm": 0.9945452213287354,
      "learning_rate": 2.252302323792309e-05,
      "loss": 3.2367,
      "step": 395540
    },
    {
      "epoch": 0.8240625,
      "grad_norm": 1.080465316772461,
      "learning_rate": 2.2517827756680627e-05,
      "loss": 3.3585,
      "step": 395550
    },
    {
      "epoch": 0.8240833333333333,
      "grad_norm": 0.8727798461914062,
      "learning_rate": 2.2512632826110775e-05,
      "loss": 3.3462,
      "step": 395560
    },
    {
      "epoch": 0.8241041666666666,
      "grad_norm": 0.9061965346336365,
      "learning_rate": 2.250743844623583e-05,
      "loss": 3.356,
      "step": 395570
    },
    {
      "epoch": 0.824125,
      "grad_norm": 1.0682542324066162,
      "learning_rate": 2.2502244617078257e-05,
      "loss": 3.3803,
      "step": 395580
    },
    {
      "epoch": 0.8241458333333334,
      "grad_norm": 0.9256566166877747,
      "learning_rate": 2.249705133866059e-05,
      "loss": 3.2895,
      "step": 395590
    },
    {
      "epoch": 0.8241666666666667,
      "grad_norm": 1.1208261251449585,
      "learning_rate": 2.249185861100517e-05,
      "loss": 3.2646,
      "step": 395600
    },
    {
      "epoch": 0.8241875,
      "grad_norm": 0.7942366003990173,
      "learning_rate": 2.2486666434134438e-05,
      "loss": 3.2476,
      "step": 395610
    },
    {
      "epoch": 0.8242083333333333,
      "grad_norm": 0.9249190092086792,
      "learning_rate": 2.248147480807082e-05,
      "loss": 3.4021,
      "step": 395620
    },
    {
      "epoch": 0.8242291666666667,
      "grad_norm": 1.139208197593689,
      "learning_rate": 2.247628373283677e-05,
      "loss": 3.3892,
      "step": 395630
    },
    {
      "epoch": 0.82425,
      "grad_norm": 0.9138697981834412,
      "learning_rate": 2.24710932084547e-05,
      "loss": 3.3327,
      "step": 395640
    },
    {
      "epoch": 0.8242708333333333,
      "grad_norm": 1.1498883962631226,
      "learning_rate": 2.2465903234947023e-05,
      "loss": 3.2253,
      "step": 395650
    },
    {
      "epoch": 0.8242916666666666,
      "grad_norm": 1.073805809020996,
      "learning_rate": 2.2460713812336162e-05,
      "loss": 3.235,
      "step": 395660
    },
    {
      "epoch": 0.8243125,
      "grad_norm": 0.9692981839179993,
      "learning_rate": 2.2455524940644543e-05,
      "loss": 3.4153,
      "step": 395670
    },
    {
      "epoch": 0.8243333333333334,
      "grad_norm": 0.9023609161376953,
      "learning_rate": 2.2450336619894567e-05,
      "loss": 3.3389,
      "step": 395680
    },
    {
      "epoch": 0.8243541666666667,
      "grad_norm": 1.0041847229003906,
      "learning_rate": 2.244514885010863e-05,
      "loss": 3.3877,
      "step": 395690
    },
    {
      "epoch": 0.824375,
      "grad_norm": 0.9507150053977966,
      "learning_rate": 2.2439961631309216e-05,
      "loss": 3.1983,
      "step": 395700
    },
    {
      "epoch": 0.8243958333333333,
      "grad_norm": 0.8166800737380981,
      "learning_rate": 2.243477496351859e-05,
      "loss": 3.3004,
      "step": 395710
    },
    {
      "epoch": 0.8244166666666667,
      "grad_norm": 0.8584404587745667,
      "learning_rate": 2.2429588846759305e-05,
      "loss": 3.2658,
      "step": 395720
    },
    {
      "epoch": 0.8244375,
      "grad_norm": 0.8856201171875,
      "learning_rate": 2.2424403281053704e-05,
      "loss": 3.3432,
      "step": 395730
    },
    {
      "epoch": 0.8244583333333333,
      "grad_norm": 0.912103533744812,
      "learning_rate": 2.2419218266424137e-05,
      "loss": 3.3662,
      "step": 395740
    },
    {
      "epoch": 0.8244791666666667,
      "grad_norm": 0.9196786284446716,
      "learning_rate": 2.241403380289307e-05,
      "loss": 3.275,
      "step": 395750
    },
    {
      "epoch": 0.8245,
      "grad_norm": 0.855340838432312,
      "learning_rate": 2.2408849890482904e-05,
      "loss": 3.3021,
      "step": 395760
    },
    {
      "epoch": 0.8245208333333334,
      "grad_norm": 0.9611815214157104,
      "learning_rate": 2.2403666529215954e-05,
      "loss": 3.4608,
      "step": 395770
    },
    {
      "epoch": 0.8245416666666666,
      "grad_norm": 0.9096021056175232,
      "learning_rate": 2.2398483719114678e-05,
      "loss": 3.3944,
      "step": 395780
    },
    {
      "epoch": 0.8245625,
      "grad_norm": 1.10598886013031,
      "learning_rate": 2.2393301460201468e-05,
      "loss": 3.4114,
      "step": 395790
    },
    {
      "epoch": 0.8245833333333333,
      "grad_norm": 0.9296151995658875,
      "learning_rate": 2.2388119752498634e-05,
      "loss": 3.224,
      "step": 395800
    },
    {
      "epoch": 0.8246041666666667,
      "grad_norm": 0.9674739241600037,
      "learning_rate": 2.2382938596028644e-05,
      "loss": 3.3447,
      "step": 395810
    },
    {
      "epoch": 0.824625,
      "grad_norm": 0.8378639221191406,
      "learning_rate": 2.2377757990813876e-05,
      "loss": 3.3458,
      "step": 395820
    },
    {
      "epoch": 0.8246458333333333,
      "grad_norm": 0.8345359563827515,
      "learning_rate": 2.23725779368766e-05,
      "loss": 3.2972,
      "step": 395830
    },
    {
      "epoch": 0.8246666666666667,
      "grad_norm": 0.9179379343986511,
      "learning_rate": 2.2367398434239348e-05,
      "loss": 3.3847,
      "step": 395840
    },
    {
      "epoch": 0.8246875,
      "grad_norm": 0.9511038064956665,
      "learning_rate": 2.2362219482924382e-05,
      "loss": 3.3039,
      "step": 395850
    },
    {
      "epoch": 0.8247083333333334,
      "grad_norm": 0.8525265455245972,
      "learning_rate": 2.235704108295405e-05,
      "loss": 3.2546,
      "step": 395860
    },
    {
      "epoch": 0.8247291666666666,
      "grad_norm": 0.8752754926681519,
      "learning_rate": 2.2351863234350876e-05,
      "loss": 3.396,
      "step": 395870
    },
    {
      "epoch": 0.82475,
      "grad_norm": 0.8311477899551392,
      "learning_rate": 2.2346685937137066e-05,
      "loss": 3.5004,
      "step": 395880
    },
    {
      "epoch": 0.8247708333333333,
      "grad_norm": 0.9267185926437378,
      "learning_rate": 2.2341509191335023e-05,
      "loss": 3.2603,
      "step": 395890
    },
    {
      "epoch": 0.8247916666666667,
      "grad_norm": 1.0833041667938232,
      "learning_rate": 2.2336332996967194e-05,
      "loss": 3.4075,
      "step": 395900
    },
    {
      "epoch": 0.8248125,
      "grad_norm": 0.9204386472702026,
      "learning_rate": 2.2331157354055845e-05,
      "loss": 3.4025,
      "step": 395910
    },
    {
      "epoch": 0.8248333333333333,
      "grad_norm": 0.9116014242172241,
      "learning_rate": 2.2325982262623328e-05,
      "loss": 3.28,
      "step": 395920
    },
    {
      "epoch": 0.8248541666666667,
      "grad_norm": 0.9336071610450745,
      "learning_rate": 2.2320807722692086e-05,
      "loss": 3.3191,
      "step": 395930
    },
    {
      "epoch": 0.824875,
      "grad_norm": 0.9228547811508179,
      "learning_rate": 2.231563373428439e-05,
      "loss": 3.1947,
      "step": 395940
    },
    {
      "epoch": 0.8248958333333334,
      "grad_norm": 0.9058964848518372,
      "learning_rate": 2.2310460297422582e-05,
      "loss": 3.423,
      "step": 395950
    },
    {
      "epoch": 0.8249166666666666,
      "grad_norm": 0.8875118494033813,
      "learning_rate": 2.2305287412129104e-05,
      "loss": 3.2284,
      "step": 395960
    },
    {
      "epoch": 0.8249375,
      "grad_norm": 0.8616126775741577,
      "learning_rate": 2.2300115078426213e-05,
      "loss": 3.3229,
      "step": 395970
    },
    {
      "epoch": 0.8249583333333333,
      "grad_norm": 0.8339927792549133,
      "learning_rate": 2.2294943296336276e-05,
      "loss": 3.3165,
      "step": 395980
    },
    {
      "epoch": 0.8249791666666667,
      "grad_norm": 0.8441157937049866,
      "learning_rate": 2.2289772065881628e-05,
      "loss": 3.2896,
      "step": 395990
    },
    {
      "epoch": 0.825,
      "grad_norm": 0.8729690313339233,
      "learning_rate": 2.2284601387084617e-05,
      "loss": 3.3818,
      "step": 396000
    },
    {
      "epoch": 0.825,
      "eval_loss": 4.035498142242432,
      "eval_runtime": 9.0705,
      "eval_samples_per_second": 1.102,
      "eval_steps_per_second": 0.331,
      "step": 396000
    },
    {
      "epoch": 0.8250208333333333,
      "grad_norm": 0.9720967411994934,
      "learning_rate": 2.2279431259967588e-05,
      "loss": 3.2905,
      "step": 396010
    },
    {
      "epoch": 0.8250416666666667,
      "grad_norm": 0.8491872549057007,
      "learning_rate": 2.2274261684552846e-05,
      "loss": 3.4018,
      "step": 396020
    },
    {
      "epoch": 0.8250625,
      "grad_norm": 0.8982589244842529,
      "learning_rate": 2.2269092660862737e-05,
      "loss": 3.2512,
      "step": 396030
    },
    {
      "epoch": 0.8250833333333333,
      "grad_norm": 0.9456663727760315,
      "learning_rate": 2.226392418891959e-05,
      "loss": 3.2375,
      "step": 396040
    },
    {
      "epoch": 0.8251041666666666,
      "grad_norm": 0.8825422525405884,
      "learning_rate": 2.2258756268745743e-05,
      "loss": 3.3464,
      "step": 396050
    },
    {
      "epoch": 0.825125,
      "grad_norm": 0.87306809425354,
      "learning_rate": 2.225358890036349e-05,
      "loss": 3.2835,
      "step": 396060
    },
    {
      "epoch": 0.8251458333333334,
      "grad_norm": 0.8873811960220337,
      "learning_rate": 2.2248422083795196e-05,
      "loss": 3.281,
      "step": 396070
    },
    {
      "epoch": 0.8251666666666667,
      "grad_norm": 0.9429522752761841,
      "learning_rate": 2.22432558190631e-05,
      "loss": 3.2392,
      "step": 396080
    },
    {
      "epoch": 0.8251875,
      "grad_norm": 0.874457597732544,
      "learning_rate": 2.2238090106189592e-05,
      "loss": 3.2521,
      "step": 396090
    },
    {
      "epoch": 0.8252083333333333,
      "grad_norm": 0.8647744655609131,
      "learning_rate": 2.2232924945196996e-05,
      "loss": 3.276,
      "step": 396100
    },
    {
      "epoch": 0.8252291666666667,
      "grad_norm": 1.0047687292099,
      "learning_rate": 2.222776033610752e-05,
      "loss": 3.2983,
      "step": 396110
    },
    {
      "epoch": 0.82525,
      "grad_norm": 1.0030540227890015,
      "learning_rate": 2.2222596278943584e-05,
      "loss": 3.3539,
      "step": 396120
    },
    {
      "epoch": 0.8252708333333333,
      "grad_norm": 0.905301570892334,
      "learning_rate": 2.22174327737275e-05,
      "loss": 3.3539,
      "step": 396130
    },
    {
      "epoch": 0.8252916666666666,
      "grad_norm": 0.8531820774078369,
      "learning_rate": 2.221226982048144e-05,
      "loss": 3.2748,
      "step": 396140
    },
    {
      "epoch": 0.8253125,
      "grad_norm": 0.9458247423171997,
      "learning_rate": 2.2207107419227826e-05,
      "loss": 3.2607,
      "step": 396150
    },
    {
      "epoch": 0.8253333333333334,
      "grad_norm": 0.9054700136184692,
      "learning_rate": 2.2201945569988966e-05,
      "loss": 3.3495,
      "step": 396160
    },
    {
      "epoch": 0.8253541666666667,
      "grad_norm": 0.9120960831642151,
      "learning_rate": 2.2196784272787056e-05,
      "loss": 3.3626,
      "step": 396170
    },
    {
      "epoch": 0.825375,
      "grad_norm": 0.8158831000328064,
      "learning_rate": 2.219162352764446e-05,
      "loss": 3.2504,
      "step": 396180
    },
    {
      "epoch": 0.8253958333333333,
      "grad_norm": 0.8722785711288452,
      "learning_rate": 2.218646333458351e-05,
      "loss": 3.1758,
      "step": 396190
    },
    {
      "epoch": 0.8254166666666667,
      "grad_norm": 0.918441116809845,
      "learning_rate": 2.2181303693626372e-05,
      "loss": 3.2707,
      "step": 396200
    },
    {
      "epoch": 0.8254375,
      "grad_norm": 1.1018962860107422,
      "learning_rate": 2.2176144604795497e-05,
      "loss": 3.2095,
      "step": 396210
    },
    {
      "epoch": 0.8254583333333333,
      "grad_norm": 0.9328114986419678,
      "learning_rate": 2.2170986068113016e-05,
      "loss": 3.3029,
      "step": 396220
    },
    {
      "epoch": 0.8254791666666667,
      "grad_norm": 0.9193496108055115,
      "learning_rate": 2.216582808360126e-05,
      "loss": 3.2586,
      "step": 396230
    },
    {
      "epoch": 0.8255,
      "grad_norm": 0.7998388409614563,
      "learning_rate": 2.2160670651282597e-05,
      "loss": 3.2954,
      "step": 396240
    },
    {
      "epoch": 0.8255208333333334,
      "grad_norm": 0.9797714948654175,
      "learning_rate": 2.215551377117919e-05,
      "loss": 3.3205,
      "step": 396250
    },
    {
      "epoch": 0.8255416666666666,
      "grad_norm": 0.8440269231796265,
      "learning_rate": 2.2150357443313337e-05,
      "loss": 3.1996,
      "step": 396260
    },
    {
      "epoch": 0.8255625,
      "grad_norm": 0.8750796318054199,
      "learning_rate": 2.214520166770739e-05,
      "loss": 3.1733,
      "step": 396270
    },
    {
      "epoch": 0.8255833333333333,
      "grad_norm": 0.8696662187576294,
      "learning_rate": 2.214004644438353e-05,
      "loss": 3.322,
      "step": 396280
    },
    {
      "epoch": 0.8256041666666667,
      "grad_norm": 0.8742624521255493,
      "learning_rate": 2.2134891773364072e-05,
      "loss": 3.2326,
      "step": 396290
    },
    {
      "epoch": 0.825625,
      "grad_norm": 0.9505536556243896,
      "learning_rate": 2.2129737654671264e-05,
      "loss": 3.3087,
      "step": 396300
    },
    {
      "epoch": 0.8256458333333333,
      "grad_norm": 1.059494137763977,
      "learning_rate": 2.2124584088327374e-05,
      "loss": 3.2525,
      "step": 396310
    },
    {
      "epoch": 0.8256666666666667,
      "grad_norm": 0.8917345404624939,
      "learning_rate": 2.2119431074354648e-05,
      "loss": 3.2738,
      "step": 396320
    },
    {
      "epoch": 0.8256875,
      "grad_norm": 0.8398576974868774,
      "learning_rate": 2.211427861277537e-05,
      "loss": 3.3802,
      "step": 396330
    },
    {
      "epoch": 0.8257083333333334,
      "grad_norm": 0.8608868718147278,
      "learning_rate": 2.2109126703611807e-05,
      "loss": 3.4208,
      "step": 396340
    },
    {
      "epoch": 0.8257291666666666,
      "grad_norm": 0.8470295667648315,
      "learning_rate": 2.210397534688617e-05,
      "loss": 3.3524,
      "step": 396350
    },
    {
      "epoch": 0.82575,
      "grad_norm": 0.8681371212005615,
      "learning_rate": 2.2098824542620746e-05,
      "loss": 3.332,
      "step": 396360
    },
    {
      "epoch": 0.8257708333333333,
      "grad_norm": 0.879040002822876,
      "learning_rate": 2.2093674290837765e-05,
      "loss": 3.4464,
      "step": 396370
    },
    {
      "epoch": 0.8257916666666667,
      "grad_norm": 0.9007675647735596,
      "learning_rate": 2.2088524591559492e-05,
      "loss": 3.3295,
      "step": 396380
    },
    {
      "epoch": 0.8258125,
      "grad_norm": 0.866859495639801,
      "learning_rate": 2.208337544480816e-05,
      "loss": 3.4762,
      "step": 396390
    },
    {
      "epoch": 0.8258333333333333,
      "grad_norm": 0.9347805380821228,
      "learning_rate": 2.207822685060602e-05,
      "loss": 3.43,
      "step": 396400
    },
    {
      "epoch": 0.8258541666666667,
      "grad_norm": 0.9024280309677124,
      "learning_rate": 2.207307880897528e-05,
      "loss": 3.3519,
      "step": 396410
    },
    {
      "epoch": 0.825875,
      "grad_norm": 0.9155291318893433,
      "learning_rate": 2.2067931319938233e-05,
      "loss": 3.3661,
      "step": 396420
    },
    {
      "epoch": 0.8258958333333334,
      "grad_norm": 0.854206919670105,
      "learning_rate": 2.206278438351707e-05,
      "loss": 3.2868,
      "step": 396430
    },
    {
      "epoch": 0.8259166666666666,
      "grad_norm": 0.9741173386573792,
      "learning_rate": 2.2057637999734022e-05,
      "loss": 3.296,
      "step": 396440
    },
    {
      "epoch": 0.8259375,
      "grad_norm": 1.0088564157485962,
      "learning_rate": 2.2052492168611362e-05,
      "loss": 3.3317,
      "step": 396450
    },
    {
      "epoch": 0.8259583333333333,
      "grad_norm": 0.9331778287887573,
      "learning_rate": 2.204734689017127e-05,
      "loss": 3.2654,
      "step": 396460
    },
    {
      "epoch": 0.8259791666666667,
      "grad_norm": 0.9643788933753967,
      "learning_rate": 2.204220216443604e-05,
      "loss": 3.2792,
      "step": 396470
    },
    {
      "epoch": 0.826,
      "grad_norm": 1.1127163171768188,
      "learning_rate": 2.2037057991427777e-05,
      "loss": 3.3453,
      "step": 396480
    },
    {
      "epoch": 0.8260208333333333,
      "grad_norm": 0.933366060256958,
      "learning_rate": 2.203191437116879e-05,
      "loss": 3.3078,
      "step": 396490
    },
    {
      "epoch": 0.8260416666666667,
      "grad_norm": 0.8428170084953308,
      "learning_rate": 2.2026771303681333e-05,
      "loss": 3.4038,
      "step": 396500
    },
    {
      "epoch": 0.8260625,
      "grad_norm": 0.9320735335350037,
      "learning_rate": 2.202162878898749e-05,
      "loss": 3.1263,
      "step": 396510
    },
    {
      "epoch": 0.8260833333333333,
      "grad_norm": 0.882901132106781,
      "learning_rate": 2.2016486827109587e-05,
      "loss": 3.296,
      "step": 396520
    },
    {
      "epoch": 0.8261041666666666,
      "grad_norm": 0.8472270369529724,
      "learning_rate": 2.2011345418069842e-05,
      "loss": 3.2941,
      "step": 396530
    },
    {
      "epoch": 0.826125,
      "grad_norm": 0.8759918212890625,
      "learning_rate": 2.2006204561890355e-05,
      "loss": 3.1927,
      "step": 396540
    },
    {
      "epoch": 0.8261458333333334,
      "grad_norm": 0.9230870008468628,
      "learning_rate": 2.2001064258593443e-05,
      "loss": 3.506,
      "step": 396550
    },
    {
      "epoch": 0.8261666666666667,
      "grad_norm": 0.8853581547737122,
      "learning_rate": 2.1995924508201286e-05,
      "loss": 3.3233,
      "step": 396560
    },
    {
      "epoch": 0.8261875,
      "grad_norm": 0.9147340655326843,
      "learning_rate": 2.1990785310736048e-05,
      "loss": 3.4141,
      "step": 396570
    },
    {
      "epoch": 0.8262083333333333,
      "grad_norm": 0.881568193435669,
      "learning_rate": 2.1985646666219932e-05,
      "loss": 3.3308,
      "step": 396580
    },
    {
      "epoch": 0.8262291666666667,
      "grad_norm": 0.9349356293678284,
      "learning_rate": 2.1980508574675164e-05,
      "loss": 3.2883,
      "step": 396590
    },
    {
      "epoch": 0.82625,
      "grad_norm": 0.9668529033660889,
      "learning_rate": 2.197537103612392e-05,
      "loss": 3.3571,
      "step": 396600
    },
    {
      "epoch": 0.8262708333333333,
      "grad_norm": 0.9277377724647522,
      "learning_rate": 2.1970234050588387e-05,
      "loss": 3.2463,
      "step": 396610
    },
    {
      "epoch": 0.8262916666666666,
      "grad_norm": 0.874929666519165,
      "learning_rate": 2.1965097618090786e-05,
      "loss": 3.2633,
      "step": 396620
    },
    {
      "epoch": 0.8263125,
      "grad_norm": 0.8819857239723206,
      "learning_rate": 2.195996173865327e-05,
      "loss": 3.3339,
      "step": 396630
    },
    {
      "epoch": 0.8263333333333334,
      "grad_norm": 0.9358614683151245,
      "learning_rate": 2.1954826412298034e-05,
      "loss": 3.2673,
      "step": 396640
    },
    {
      "epoch": 0.8263541666666666,
      "grad_norm": 0.9823087453842163,
      "learning_rate": 2.1949691639047273e-05,
      "loss": 3.394,
      "step": 396650
    },
    {
      "epoch": 0.826375,
      "grad_norm": 0.8438934087753296,
      "learning_rate": 2.194455741892316e-05,
      "loss": 3.2762,
      "step": 396660
    },
    {
      "epoch": 0.8263958333333333,
      "grad_norm": 0.9225041270256042,
      "learning_rate": 2.193942375194787e-05,
      "loss": 3.29,
      "step": 396670
    },
    {
      "epoch": 0.8264166666666667,
      "grad_norm": 0.9485125541687012,
      "learning_rate": 2.1934290638143574e-05,
      "loss": 3.3345,
      "step": 396680
    },
    {
      "epoch": 0.8264375,
      "grad_norm": 0.9677355289459229,
      "learning_rate": 2.1929158077532455e-05,
      "loss": 3.2766,
      "step": 396690
    },
    {
      "epoch": 0.8264583333333333,
      "grad_norm": 0.8882603645324707,
      "learning_rate": 2.1924026070136676e-05,
      "loss": 3.303,
      "step": 396700
    },
    {
      "epoch": 0.8264791666666667,
      "grad_norm": 1.0002930164337158,
      "learning_rate": 2.19188946159784e-05,
      "loss": 3.4422,
      "step": 396710
    },
    {
      "epoch": 0.8265,
      "grad_norm": 0.8386539220809937,
      "learning_rate": 2.1913763715079812e-05,
      "loss": 3.4062,
      "step": 396720
    },
    {
      "epoch": 0.8265208333333334,
      "grad_norm": 1.0279126167297363,
      "learning_rate": 2.1908633367463065e-05,
      "loss": 3.2909,
      "step": 396730
    },
    {
      "epoch": 0.8265416666666666,
      "grad_norm": 0.8462621569633484,
      "learning_rate": 2.1903503573150315e-05,
      "loss": 3.3117,
      "step": 396740
    },
    {
      "epoch": 0.8265625,
      "grad_norm": 0.8968335390090942,
      "learning_rate": 2.1898374332163736e-05,
      "loss": 3.2952,
      "step": 396750
    },
    {
      "epoch": 0.8265833333333333,
      "grad_norm": 0.8260624408721924,
      "learning_rate": 2.1893245644525458e-05,
      "loss": 3.2811,
      "step": 396760
    },
    {
      "epoch": 0.8266041666666667,
      "grad_norm": 1.0261224508285522,
      "learning_rate": 2.1888117510257663e-05,
      "loss": 3.2859,
      "step": 396770
    },
    {
      "epoch": 0.826625,
      "grad_norm": 0.8771134614944458,
      "learning_rate": 2.1882989929382483e-05,
      "loss": 3.2335,
      "step": 396780
    },
    {
      "epoch": 0.8266458333333333,
      "grad_norm": 0.9040361642837524,
      "learning_rate": 2.1877862901922084e-05,
      "loss": 3.2957,
      "step": 396790
    },
    {
      "epoch": 0.8266666666666667,
      "grad_norm": 0.9118483662605286,
      "learning_rate": 2.1872736427898595e-05,
      "loss": 3.3741,
      "step": 396800
    },
    {
      "epoch": 0.8266875,
      "grad_norm": 0.9482872486114502,
      "learning_rate": 2.1867610507334173e-05,
      "loss": 3.297,
      "step": 396810
    },
    {
      "epoch": 0.8267083333333334,
      "grad_norm": 0.8591993451118469,
      "learning_rate": 2.1862485140250958e-05,
      "loss": 3.2097,
      "step": 396820
    },
    {
      "epoch": 0.8267291666666666,
      "grad_norm": 0.9506357908248901,
      "learning_rate": 2.185736032667107e-05,
      "loss": 3.2881,
      "step": 396830
    },
    {
      "epoch": 0.82675,
      "grad_norm": 1.134146809577942,
      "learning_rate": 2.1852236066616708e-05,
      "loss": 3.3083,
      "step": 396840
    },
    {
      "epoch": 0.8267708333333333,
      "grad_norm": 0.8693796396255493,
      "learning_rate": 2.1847112360109904e-05,
      "loss": 3.2238,
      "step": 396850
    },
    {
      "epoch": 0.8267916666666667,
      "grad_norm": 0.9011862277984619,
      "learning_rate": 2.1841989207172873e-05,
      "loss": 3.3405,
      "step": 396860
    },
    {
      "epoch": 0.8268125,
      "grad_norm": 0.8590922951698303,
      "learning_rate": 2.1836866607827747e-05,
      "loss": 3.2645,
      "step": 396870
    },
    {
      "epoch": 0.8268333333333333,
      "grad_norm": 0.9055674076080322,
      "learning_rate": 2.1831744562096593e-05,
      "loss": 3.2125,
      "step": 396880
    },
    {
      "epoch": 0.8268541666666667,
      "grad_norm": 0.9342041611671448,
      "learning_rate": 2.1826623070001542e-05,
      "loss": 3.4317,
      "step": 396890
    },
    {
      "epoch": 0.826875,
      "grad_norm": 0.9540355801582336,
      "learning_rate": 2.182150213156481e-05,
      "loss": 3.3575,
      "step": 396900
    },
    {
      "epoch": 0.8268958333333334,
      "grad_norm": 0.8540716767311096,
      "learning_rate": 2.1816381746808432e-05,
      "loss": 3.3021,
      "step": 396910
    },
    {
      "epoch": 0.8269166666666666,
      "grad_norm": 0.9479213953018188,
      "learning_rate": 2.18112619157545e-05,
      "loss": 3.5509,
      "step": 396920
    },
    {
      "epoch": 0.8269375,
      "grad_norm": 0.9202166199684143,
      "learning_rate": 2.180614263842524e-05,
      "loss": 3.4348,
      "step": 396930
    },
    {
      "epoch": 0.8269583333333334,
      "grad_norm": 0.9227930903434753,
      "learning_rate": 2.1801023914842674e-05,
      "loss": 3.353,
      "step": 396940
    },
    {
      "epoch": 0.8269791666666667,
      "grad_norm": 0.8270360827445984,
      "learning_rate": 2.179590574502891e-05,
      "loss": 3.2473,
      "step": 396950
    },
    {
      "epoch": 0.827,
      "grad_norm": 0.9176756143569946,
      "learning_rate": 2.179078812900614e-05,
      "loss": 3.4112,
      "step": 396960
    },
    {
      "epoch": 0.8270208333333333,
      "grad_norm": 0.8513506650924683,
      "learning_rate": 2.1785671066796396e-05,
      "loss": 3.4145,
      "step": 396970
    },
    {
      "epoch": 0.8270416666666667,
      "grad_norm": 0.8609222769737244,
      "learning_rate": 2.17805545584218e-05,
      "loss": 3.3053,
      "step": 396980
    },
    {
      "epoch": 0.8270625,
      "grad_norm": 1.0642824172973633,
      "learning_rate": 2.1775438603904444e-05,
      "loss": 3.4,
      "step": 396990
    },
    {
      "epoch": 0.8270833333333333,
      "grad_norm": 0.8564159870147705,
      "learning_rate": 2.1770323203266447e-05,
      "loss": 3.4573,
      "step": 397000
    },
    {
      "epoch": 0.8270833333333333,
      "eval_loss": 4.034206390380859,
      "eval_runtime": 8.6218,
      "eval_samples_per_second": 1.16,
      "eval_steps_per_second": 0.348,
      "step": 397000
    },
    {
      "epoch": 0.8271041666666666,
      "grad_norm": 0.89987713098526,
      "learning_rate": 2.1765208356529894e-05,
      "loss": 3.5008,
      "step": 397010
    },
    {
      "epoch": 0.827125,
      "grad_norm": 0.8177706599235535,
      "learning_rate": 2.1760094063716897e-05,
      "loss": 3.2946,
      "step": 397020
    },
    {
      "epoch": 0.8271458333333334,
      "grad_norm": 0.9433069825172424,
      "learning_rate": 2.1754980324849508e-05,
      "loss": 3.447,
      "step": 397030
    },
    {
      "epoch": 0.8271666666666667,
      "grad_norm": 0.8869596719741821,
      "learning_rate": 2.1749867139949856e-05,
      "loss": 3.2414,
      "step": 397040
    },
    {
      "epoch": 0.8271875,
      "grad_norm": 0.8849629759788513,
      "learning_rate": 2.1744754509040025e-05,
      "loss": 3.3091,
      "step": 397050
    },
    {
      "epoch": 0.8272083333333333,
      "grad_norm": 0.8579713702201843,
      "learning_rate": 2.1739642432142063e-05,
      "loss": 3.2473,
      "step": 397060
    },
    {
      "epoch": 0.8272291666666667,
      "grad_norm": 1.121238112449646,
      "learning_rate": 2.1734530909278087e-05,
      "loss": 3.3207,
      "step": 397070
    },
    {
      "epoch": 0.82725,
      "grad_norm": 0.9155274629592896,
      "learning_rate": 2.1729419940470176e-05,
      "loss": 3.3333,
      "step": 397080
    },
    {
      "epoch": 0.8272708333333333,
      "grad_norm": 1.1112192869186401,
      "learning_rate": 2.1724309525740387e-05,
      "loss": 3.2492,
      "step": 397090
    },
    {
      "epoch": 0.8272916666666666,
      "grad_norm": 0.9174372553825378,
      "learning_rate": 2.171919966511081e-05,
      "loss": 3.2758,
      "step": 397100
    },
    {
      "epoch": 0.8273125,
      "grad_norm": 0.9750714302062988,
      "learning_rate": 2.1714090358603496e-05,
      "loss": 3.3302,
      "step": 397110
    },
    {
      "epoch": 0.8273333333333334,
      "grad_norm": 1.0033584833145142,
      "learning_rate": 2.170898160624055e-05,
      "loss": 3.3058,
      "step": 397120
    },
    {
      "epoch": 0.8273541666666666,
      "grad_norm": 0.9892624020576477,
      "learning_rate": 2.170387340804403e-05,
      "loss": 3.5119,
      "step": 397130
    },
    {
      "epoch": 0.827375,
      "grad_norm": 0.778649628162384,
      "learning_rate": 2.1698765764035974e-05,
      "loss": 3.2261,
      "step": 397140
    },
    {
      "epoch": 0.8273958333333333,
      "grad_norm": 1.1175657510757446,
      "learning_rate": 2.1693658674238477e-05,
      "loss": 3.2639,
      "step": 397150
    },
    {
      "epoch": 0.8274166666666667,
      "grad_norm": 0.928108811378479,
      "learning_rate": 2.1688552138673625e-05,
      "loss": 3.2528,
      "step": 397160
    },
    {
      "epoch": 0.8274375,
      "grad_norm": 0.9962259531021118,
      "learning_rate": 2.1683446157363366e-05,
      "loss": 3.3032,
      "step": 397170
    },
    {
      "epoch": 0.8274583333333333,
      "grad_norm": 0.9484003782272339,
      "learning_rate": 2.1678340730329864e-05,
      "loss": 3.3899,
      "step": 397180
    },
    {
      "epoch": 0.8274791666666667,
      "grad_norm": 0.9991487264633179,
      "learning_rate": 2.1673235857595167e-05,
      "loss": 3.3498,
      "step": 397190
    },
    {
      "epoch": 0.8275,
      "grad_norm": 0.9533663988113403,
      "learning_rate": 2.1668131539181226e-05,
      "loss": 3.2869,
      "step": 397200
    },
    {
      "epoch": 0.8275208333333334,
      "grad_norm": 0.9345154762268066,
      "learning_rate": 2.1663027775110224e-05,
      "loss": 3.2547,
      "step": 397210
    },
    {
      "epoch": 0.8275416666666666,
      "grad_norm": 1.0751981735229492,
      "learning_rate": 2.165792456540411e-05,
      "loss": 3.3339,
      "step": 397220
    },
    {
      "epoch": 0.8275625,
      "grad_norm": 0.8560449481010437,
      "learning_rate": 2.1652821910084933e-05,
      "loss": 3.2985,
      "step": 397230
    },
    {
      "epoch": 0.8275833333333333,
      "grad_norm": 0.9225929379463196,
      "learning_rate": 2.164771980917484e-05,
      "loss": 3.2544,
      "step": 397240
    },
    {
      "epoch": 0.8276041666666667,
      "grad_norm": 0.9879710078239441,
      "learning_rate": 2.1642618262695733e-05,
      "loss": 3.2658,
      "step": 397250
    },
    {
      "epoch": 0.827625,
      "grad_norm": 0.9631031155586243,
      "learning_rate": 2.163751727066969e-05,
      "loss": 3.471,
      "step": 397260
    },
    {
      "epoch": 0.8276458333333333,
      "grad_norm": 0.8205394744873047,
      "learning_rate": 2.1632416833118832e-05,
      "loss": 3.2769,
      "step": 397270
    },
    {
      "epoch": 0.8276666666666667,
      "grad_norm": 1.0002367496490479,
      "learning_rate": 2.162731695006509e-05,
      "loss": 3.268,
      "step": 397280
    },
    {
      "epoch": 0.8276875,
      "grad_norm": 0.963187038898468,
      "learning_rate": 2.1622217621530474e-05,
      "loss": 3.4237,
      "step": 397290
    },
    {
      "epoch": 0.8277083333333334,
      "grad_norm": 0.9206113219261169,
      "learning_rate": 2.161711884753714e-05,
      "loss": 3.3252,
      "step": 397300
    },
    {
      "epoch": 0.8277291666666666,
      "grad_norm": 1.0248448848724365,
      "learning_rate": 2.1612020628107003e-05,
      "loss": 3.2959,
      "step": 397310
    },
    {
      "epoch": 0.82775,
      "grad_norm": 0.9356474280357361,
      "learning_rate": 2.160692296326209e-05,
      "loss": 3.3039,
      "step": 397320
    },
    {
      "epoch": 0.8277708333333333,
      "grad_norm": 0.9160583019256592,
      "learning_rate": 2.1601825853024508e-05,
      "loss": 3.3172,
      "step": 397330
    },
    {
      "epoch": 0.8277916666666667,
      "grad_norm": 0.8524765372276306,
      "learning_rate": 2.159672929741618e-05,
      "loss": 3.3901,
      "step": 397340
    },
    {
      "epoch": 0.8278125,
      "grad_norm": 0.8897398114204407,
      "learning_rate": 2.1591633296459165e-05,
      "loss": 3.2987,
      "step": 397350
    },
    {
      "epoch": 0.8278333333333333,
      "grad_norm": 1.01547372341156,
      "learning_rate": 2.1586537850175455e-05,
      "loss": 3.3175,
      "step": 397360
    },
    {
      "epoch": 0.8278541666666667,
      "grad_norm": 0.9782421588897705,
      "learning_rate": 2.158144295858707e-05,
      "loss": 3.3193,
      "step": 397370
    },
    {
      "epoch": 0.827875,
      "grad_norm": 0.8932893872261047,
      "learning_rate": 2.1576348621716037e-05,
      "loss": 3.1697,
      "step": 397380
    },
    {
      "epoch": 0.8278958333333334,
      "grad_norm": 1.0485278367996216,
      "learning_rate": 2.1571254839584328e-05,
      "loss": 3.1904,
      "step": 397390
    },
    {
      "epoch": 0.8279166666666666,
      "grad_norm": 0.9359040856361389,
      "learning_rate": 2.156616161221397e-05,
      "loss": 3.389,
      "step": 397400
    },
    {
      "epoch": 0.8279375,
      "grad_norm": 0.9385156631469727,
      "learning_rate": 2.1561068939626952e-05,
      "loss": 3.3194,
      "step": 397410
    },
    {
      "epoch": 0.8279583333333334,
      "grad_norm": 0.9639328718185425,
      "learning_rate": 2.1555976821845283e-05,
      "loss": 3.2823,
      "step": 397420
    },
    {
      "epoch": 0.8279791666666667,
      "grad_norm": 1.0587283372879028,
      "learning_rate": 2.1550885258890948e-05,
      "loss": 3.4761,
      "step": 397430
    },
    {
      "epoch": 0.828,
      "grad_norm": 0.8719498515129089,
      "learning_rate": 2.1545794250785947e-05,
      "loss": 3.3629,
      "step": 397440
    },
    {
      "epoch": 0.8280208333333333,
      "grad_norm": 0.933237612247467,
      "learning_rate": 2.154070379755226e-05,
      "loss": 3.2501,
      "step": 397450
    },
    {
      "epoch": 0.8280416666666667,
      "grad_norm": 0.983903169631958,
      "learning_rate": 2.153561389921189e-05,
      "loss": 3.3281,
      "step": 397460
    },
    {
      "epoch": 0.8280625,
      "grad_norm": 0.8461723327636719,
      "learning_rate": 2.1530524555786864e-05,
      "loss": 3.3575,
      "step": 397470
    },
    {
      "epoch": 0.8280833333333333,
      "grad_norm": 0.9633099436759949,
      "learning_rate": 2.1525435767299037e-05,
      "loss": 3.4121,
      "step": 397480
    },
    {
      "epoch": 0.8281041666666666,
      "grad_norm": 0.8763436675071716,
      "learning_rate": 2.152034753377052e-05,
      "loss": 3.4268,
      "step": 397490
    },
    {
      "epoch": 0.828125,
      "grad_norm": 0.9496301412582397,
      "learning_rate": 2.1515259855223266e-05,
      "loss": 3.2858,
      "step": 397500
    },
    {
      "epoch": 0.8281458333333334,
      "grad_norm": 0.9417312145233154,
      "learning_rate": 2.1510172731679172e-05,
      "loss": 3.2706,
      "step": 397510
    },
    {
      "epoch": 0.8281666666666667,
      "grad_norm": 0.8446092009544373,
      "learning_rate": 2.15050861631603e-05,
      "loss": 3.3907,
      "step": 397520
    },
    {
      "epoch": 0.8281875,
      "grad_norm": 1.0376492738723755,
      "learning_rate": 2.150000014968864e-05,
      "loss": 3.3382,
      "step": 397530
    },
    {
      "epoch": 0.8282083333333333,
      "grad_norm": 1.0308259725570679,
      "learning_rate": 2.1494914691286036e-05,
      "loss": 3.2303,
      "step": 397540
    },
    {
      "epoch": 0.8282291666666667,
      "grad_norm": 1.346218466758728,
      "learning_rate": 2.1489829787974573e-05,
      "loss": 3.1217,
      "step": 397550
    },
    {
      "epoch": 0.82825,
      "grad_norm": 0.9093993902206421,
      "learning_rate": 2.1484745439776214e-05,
      "loss": 3.3097,
      "step": 397560
    },
    {
      "epoch": 0.8282708333333333,
      "grad_norm": 0.9243031740188599,
      "learning_rate": 2.147966164671281e-05,
      "loss": 3.3226,
      "step": 397570
    },
    {
      "epoch": 0.8282916666666666,
      "grad_norm": 0.9078361988067627,
      "learning_rate": 2.1474578408806475e-05,
      "loss": 3.3583,
      "step": 397580
    },
    {
      "epoch": 0.8283125,
      "grad_norm": 0.8535898327827454,
      "learning_rate": 2.1469495726079046e-05,
      "loss": 3.3262,
      "step": 397590
    },
    {
      "epoch": 0.8283333333333334,
      "grad_norm": 0.8815448880195618,
      "learning_rate": 2.146441359855248e-05,
      "loss": 3.2553,
      "step": 397600
    },
    {
      "epoch": 0.8283541666666666,
      "grad_norm": 0.9093023538589478,
      "learning_rate": 2.1459332026248854e-05,
      "loss": 3.3792,
      "step": 397610
    },
    {
      "epoch": 0.828375,
      "grad_norm": 0.823437511920929,
      "learning_rate": 2.1454251009189977e-05,
      "loss": 3.2156,
      "step": 397620
    },
    {
      "epoch": 0.8283958333333333,
      "grad_norm": 0.9712414145469666,
      "learning_rate": 2.1449170547397833e-05,
      "loss": 3.181,
      "step": 397630
    },
    {
      "epoch": 0.8284166666666667,
      "grad_norm": 0.9707297682762146,
      "learning_rate": 2.144409064089447e-05,
      "loss": 3.343,
      "step": 397640
    },
    {
      "epoch": 0.8284375,
      "grad_norm": 1.0425161123275757,
      "learning_rate": 2.1439011289701686e-05,
      "loss": 3.4244,
      "step": 397650
    },
    {
      "epoch": 0.8284583333333333,
      "grad_norm": 0.9103507995605469,
      "learning_rate": 2.1433932493841464e-05,
      "loss": 3.3602,
      "step": 397660
    },
    {
      "epoch": 0.8284791666666667,
      "grad_norm": 1.1096986532211304,
      "learning_rate": 2.1428854253335843e-05,
      "loss": 3.3178,
      "step": 397670
    },
    {
      "epoch": 0.8285,
      "grad_norm": 0.9796882271766663,
      "learning_rate": 2.142377656820663e-05,
      "loss": 3.3172,
      "step": 397680
    },
    {
      "epoch": 0.8285208333333334,
      "grad_norm": 0.9110751748085022,
      "learning_rate": 2.141869943847578e-05,
      "loss": 3.2995,
      "step": 397690
    },
    {
      "epoch": 0.8285416666666666,
      "grad_norm": 0.9968171119689941,
      "learning_rate": 2.1413622864165318e-05,
      "loss": 3.2155,
      "step": 397700
    },
    {
      "epoch": 0.8285625,
      "grad_norm": 0.9485485553741455,
      "learning_rate": 2.1408546845297088e-05,
      "loss": 3.3148,
      "step": 397710
    },
    {
      "epoch": 0.8285833333333333,
      "grad_norm": 1.0219143629074097,
      "learning_rate": 2.140347138189301e-05,
      "loss": 3.3078,
      "step": 397720
    },
    {
      "epoch": 0.8286041666666667,
      "grad_norm": 0.8632441163063049,
      "learning_rate": 2.139839647397506e-05,
      "loss": 3.2618,
      "step": 397730
    },
    {
      "epoch": 0.828625,
      "grad_norm": 1.0458102226257324,
      "learning_rate": 2.1393322121565116e-05,
      "loss": 3.3365,
      "step": 397740
    },
    {
      "epoch": 0.8286458333333333,
      "grad_norm": 0.805348813533783,
      "learning_rate": 2.1388248324685124e-05,
      "loss": 3.2643,
      "step": 397750
    },
    {
      "epoch": 0.8286666666666667,
      "grad_norm": 0.8909056186676025,
      "learning_rate": 2.1383175083356974e-05,
      "loss": 3.1981,
      "step": 397760
    },
    {
      "epoch": 0.8286875,
      "grad_norm": 0.8319076895713806,
      "learning_rate": 2.137810239760261e-05,
      "loss": 3.3146,
      "step": 397770
    },
    {
      "epoch": 0.8287083333333334,
      "grad_norm": 1.0942126512527466,
      "learning_rate": 2.137303026744393e-05,
      "loss": 3.2949,
      "step": 397780
    },
    {
      "epoch": 0.8287291666666666,
      "grad_norm": 0.869700014591217,
      "learning_rate": 2.1367958692902852e-05,
      "loss": 3.376,
      "step": 397790
    },
    {
      "epoch": 0.82875,
      "grad_norm": 0.8665849566459656,
      "learning_rate": 2.1362887674001277e-05,
      "loss": 3.4413,
      "step": 397800
    },
    {
      "epoch": 0.8287708333333333,
      "grad_norm": 0.8422814011573792,
      "learning_rate": 2.1357817210761103e-05,
      "loss": 3.3443,
      "step": 397810
    },
    {
      "epoch": 0.8287916666666667,
      "grad_norm": 0.8401220440864563,
      "learning_rate": 2.1352747303204227e-05,
      "loss": 3.2875,
      "step": 397820
    },
    {
      "epoch": 0.8288125,
      "grad_norm": 0.9586203098297119,
      "learning_rate": 2.1347677951352582e-05,
      "loss": 3.2662,
      "step": 397830
    },
    {
      "epoch": 0.8288333333333333,
      "grad_norm": 1.0338643789291382,
      "learning_rate": 2.134260915522807e-05,
      "loss": 3.2288,
      "step": 397840
    },
    {
      "epoch": 0.8288541666666667,
      "grad_norm": 1.0779750347137451,
      "learning_rate": 2.1337540914852486e-05,
      "loss": 3.314,
      "step": 397850
    },
    {
      "epoch": 0.828875,
      "grad_norm": 0.8810096383094788,
      "learning_rate": 2.1332473230247833e-05,
      "loss": 3.301,
      "step": 397860
    },
    {
      "epoch": 0.8288958333333334,
      "grad_norm": 0.887473464012146,
      "learning_rate": 2.1327406101436005e-05,
      "loss": 3.3065,
      "step": 397870
    },
    {
      "epoch": 0.8289166666666666,
      "grad_norm": 0.9460650086402893,
      "learning_rate": 2.1322339528438774e-05,
      "loss": 3.2101,
      "step": 397880
    },
    {
      "epoch": 0.8289375,
      "grad_norm": 0.8622790575027466,
      "learning_rate": 2.131727351127814e-05,
      "loss": 3.3115,
      "step": 397890
    },
    {
      "epoch": 0.8289583333333334,
      "grad_norm": 1.0242546796798706,
      "learning_rate": 2.1312208049975992e-05,
      "loss": 3.3876,
      "step": 397900
    },
    {
      "epoch": 0.8289791666666667,
      "grad_norm": 0.8957011103630066,
      "learning_rate": 2.130714314455409e-05,
      "loss": 3.2467,
      "step": 397910
    },
    {
      "epoch": 0.829,
      "grad_norm": 1.0041894912719727,
      "learning_rate": 2.130207879503443e-05,
      "loss": 3.2144,
      "step": 397920
    },
    {
      "epoch": 0.8290208333333333,
      "grad_norm": 0.8896881937980652,
      "learning_rate": 2.1297015001438872e-05,
      "loss": 3.191,
      "step": 397930
    },
    {
      "epoch": 0.8290416666666667,
      "grad_norm": 0.8477869033813477,
      "learning_rate": 2.129195176378919e-05,
      "loss": 3.3101,
      "step": 397940
    },
    {
      "epoch": 0.8290625,
      "grad_norm": 0.9999691843986511,
      "learning_rate": 2.1286889082107377e-05,
      "loss": 3.2446,
      "step": 397950
    },
    {
      "epoch": 0.8290833333333333,
      "grad_norm": 0.8642666339874268,
      "learning_rate": 2.1281826956415287e-05,
      "loss": 3.3118,
      "step": 397960
    },
    {
      "epoch": 0.8291041666666666,
      "grad_norm": 0.9539960026741028,
      "learning_rate": 2.1276765386734685e-05,
      "loss": 3.1945,
      "step": 397970
    },
    {
      "epoch": 0.829125,
      "grad_norm": 0.966801106929779,
      "learning_rate": 2.1271704373087584e-05,
      "loss": 3.3076,
      "step": 397980
    },
    {
      "epoch": 0.8291458333333334,
      "grad_norm": 0.9101202487945557,
      "learning_rate": 2.126664391549572e-05,
      "loss": 3.2671,
      "step": 397990
    },
    {
      "epoch": 0.8291666666666667,
      "grad_norm": 1.0078641176223755,
      "learning_rate": 2.1261584013980952e-05,
      "loss": 3.4271,
      "step": 398000
    },
    {
      "epoch": 0.8291666666666667,
      "eval_loss": 4.036738872528076,
      "eval_runtime": 9.0871,
      "eval_samples_per_second": 1.1,
      "eval_steps_per_second": 0.33,
      "step": 398000
    },
    {
      "epoch": 0.8291875,
      "grad_norm": 1.0271397829055786,
      "learning_rate": 2.125652466856527e-05,
      "loss": 3.4398,
      "step": 398010
    },
    {
      "epoch": 0.8292083333333333,
      "grad_norm": 0.8246040940284729,
      "learning_rate": 2.1251465879270407e-05,
      "loss": 3.1719,
      "step": 398020
    },
    {
      "epoch": 0.8292291666666667,
      "grad_norm": 0.9710471630096436,
      "learning_rate": 2.124640764611824e-05,
      "loss": 3.2933,
      "step": 398030
    },
    {
      "epoch": 0.82925,
      "grad_norm": 0.841238796710968,
      "learning_rate": 2.124134996913064e-05,
      "loss": 3.2914,
      "step": 398040
    },
    {
      "epoch": 0.8292708333333333,
      "grad_norm": 0.8853036165237427,
      "learning_rate": 2.1236292848329416e-05,
      "loss": 3.292,
      "step": 398050
    },
    {
      "epoch": 0.8292916666666666,
      "grad_norm": 0.8460136651992798,
      "learning_rate": 2.1231236283736457e-05,
      "loss": 3.3848,
      "step": 398060
    },
    {
      "epoch": 0.8293125,
      "grad_norm": 0.9077083468437195,
      "learning_rate": 2.1226180275373595e-05,
      "loss": 3.3527,
      "step": 398070
    },
    {
      "epoch": 0.8293333333333334,
      "grad_norm": 1.0810837745666504,
      "learning_rate": 2.122112482326266e-05,
      "loss": 3.523,
      "step": 398080
    },
    {
      "epoch": 0.8293541666666666,
      "grad_norm": 1.077487587928772,
      "learning_rate": 2.121606992742548e-05,
      "loss": 3.2317,
      "step": 398090
    },
    {
      "epoch": 0.829375,
      "grad_norm": 0.8533161878585815,
      "learning_rate": 2.12110155878839e-05,
      "loss": 3.3877,
      "step": 398100
    },
    {
      "epoch": 0.8293958333333333,
      "grad_norm": 0.8819344639778137,
      "learning_rate": 2.120596180465976e-05,
      "loss": 3.5189,
      "step": 398110
    },
    {
      "epoch": 0.8294166666666667,
      "grad_norm": 0.9675014615058899,
      "learning_rate": 2.1200908577774896e-05,
      "loss": 3.2949,
      "step": 398120
    },
    {
      "epoch": 0.8294375,
      "grad_norm": 0.9586844444274902,
      "learning_rate": 2.1195855907251103e-05,
      "loss": 3.2898,
      "step": 398130
    },
    {
      "epoch": 0.8294583333333333,
      "grad_norm": 1.0701693296432495,
      "learning_rate": 2.119080379311025e-05,
      "loss": 3.3827,
      "step": 398140
    },
    {
      "epoch": 0.8294791666666667,
      "grad_norm": 0.932709276676178,
      "learning_rate": 2.118575223537412e-05,
      "loss": 3.3981,
      "step": 398150
    },
    {
      "epoch": 0.8295,
      "grad_norm": 0.9400794506072998,
      "learning_rate": 2.1180701234064563e-05,
      "loss": 3.3115,
      "step": 398160
    },
    {
      "epoch": 0.8295208333333334,
      "grad_norm": 0.8884777426719666,
      "learning_rate": 2.117565078920339e-05,
      "loss": 3.3704,
      "step": 398170
    },
    {
      "epoch": 0.8295416666666666,
      "grad_norm": 1.092220664024353,
      "learning_rate": 2.1170600900812408e-05,
      "loss": 3.2976,
      "step": 398180
    },
    {
      "epoch": 0.8295625,
      "grad_norm": 0.9678323864936829,
      "learning_rate": 2.1165551568913425e-05,
      "loss": 3.3604,
      "step": 398190
    },
    {
      "epoch": 0.8295833333333333,
      "grad_norm": 0.8839089274406433,
      "learning_rate": 2.116050279352828e-05,
      "loss": 3.3992,
      "step": 398200
    },
    {
      "epoch": 0.8296041666666667,
      "grad_norm": 0.8996791839599609,
      "learning_rate": 2.115545457467878e-05,
      "loss": 3.2874,
      "step": 398210
    },
    {
      "epoch": 0.829625,
      "grad_norm": 0.9284313321113586,
      "learning_rate": 2.115040691238667e-05,
      "loss": 3.263,
      "step": 398220
    },
    {
      "epoch": 0.8296458333333333,
      "grad_norm": 0.9493001699447632,
      "learning_rate": 2.1145359806673823e-05,
      "loss": 3.3715,
      "step": 398230
    },
    {
      "epoch": 0.8296666666666667,
      "grad_norm": 1.0131354331970215,
      "learning_rate": 2.1140313257562042e-05,
      "loss": 3.3969,
      "step": 398240
    },
    {
      "epoch": 0.8296875,
      "grad_norm": 0.925822913646698,
      "learning_rate": 2.1135267265073042e-05,
      "loss": 3.473,
      "step": 398250
    },
    {
      "epoch": 0.8297083333333334,
      "grad_norm": 0.8545864820480347,
      "learning_rate": 2.1130221829228722e-05,
      "loss": 3.2949,
      "step": 398260
    },
    {
      "epoch": 0.8297291666666666,
      "grad_norm": 0.8524496555328369,
      "learning_rate": 2.1125176950050866e-05,
      "loss": 3.34,
      "step": 398270
    },
    {
      "epoch": 0.82975,
      "grad_norm": 0.9188015460968018,
      "learning_rate": 2.1120132627561153e-05,
      "loss": 3.4347,
      "step": 398280
    },
    {
      "epoch": 0.8297708333333333,
      "grad_norm": 0.9135106205940247,
      "learning_rate": 2.1115088861781486e-05,
      "loss": 3.312,
      "step": 398290
    },
    {
      "epoch": 0.8297916666666667,
      "grad_norm": 0.9562931060791016,
      "learning_rate": 2.1110045652733665e-05,
      "loss": 3.2827,
      "step": 398300
    },
    {
      "epoch": 0.8298125,
      "grad_norm": 0.910545825958252,
      "learning_rate": 2.1105003000439353e-05,
      "loss": 3.2642,
      "step": 398310
    },
    {
      "epoch": 0.8298333333333333,
      "grad_norm": 0.9199851155281067,
      "learning_rate": 2.1099960904920448e-05,
      "loss": 3.3616,
      "step": 398320
    },
    {
      "epoch": 0.8298541666666667,
      "grad_norm": 1.0012481212615967,
      "learning_rate": 2.1094919366198722e-05,
      "loss": 3.3652,
      "step": 398330
    },
    {
      "epoch": 0.829875,
      "grad_norm": 0.9343912601470947,
      "learning_rate": 2.1089878384295883e-05,
      "loss": 3.4075,
      "step": 398340
    },
    {
      "epoch": 0.8298958333333334,
      "grad_norm": 1.0890007019042969,
      "learning_rate": 2.1084837959233753e-05,
      "loss": 3.3145,
      "step": 398350
    },
    {
      "epoch": 0.8299166666666666,
      "grad_norm": 0.8673299551010132,
      "learning_rate": 2.107979809103408e-05,
      "loss": 3.3427,
      "step": 398360
    },
    {
      "epoch": 0.8299375,
      "grad_norm": 0.8748282790184021,
      "learning_rate": 2.1074758779718658e-05,
      "loss": 3.3236,
      "step": 398370
    },
    {
      "epoch": 0.8299583333333334,
      "grad_norm": 0.9459072351455688,
      "learning_rate": 2.1069720025309243e-05,
      "loss": 3.4411,
      "step": 398380
    },
    {
      "epoch": 0.8299791666666667,
      "grad_norm": 1.002266526222229,
      "learning_rate": 2.10646818278276e-05,
      "loss": 3.2568,
      "step": 398390
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8478426933288574,
      "learning_rate": 2.105964418729551e-05,
      "loss": 3.2317,
      "step": 398400
    },
    {
      "epoch": 0.8300208333333333,
      "grad_norm": 0.9135891199111938,
      "learning_rate": 2.1054607103734705e-05,
      "loss": 3.4598,
      "step": 398410
    },
    {
      "epoch": 0.8300416666666667,
      "grad_norm": 0.9198884963989258,
      "learning_rate": 2.1049570577166953e-05,
      "loss": 3.4048,
      "step": 398420
    },
    {
      "epoch": 0.8300625,
      "grad_norm": 0.9679428339004517,
      "learning_rate": 2.1044534607614034e-05,
      "loss": 3.31,
      "step": 398430
    },
    {
      "epoch": 0.8300833333333333,
      "grad_norm": 1.047682285308838,
      "learning_rate": 2.1039499195097666e-05,
      "loss": 3.2641,
      "step": 398440
    },
    {
      "epoch": 0.8301041666666666,
      "grad_norm": 0.9324231147766113,
      "learning_rate": 2.103446433963961e-05,
      "loss": 3.2563,
      "step": 398450
    },
    {
      "epoch": 0.830125,
      "grad_norm": 1.097754716873169,
      "learning_rate": 2.1029430041261625e-05,
      "loss": 3.1513,
      "step": 398460
    },
    {
      "epoch": 0.8301458333333334,
      "grad_norm": 0.8380573987960815,
      "learning_rate": 2.102439629998547e-05,
      "loss": 3.277,
      "step": 398470
    },
    {
      "epoch": 0.8301666666666667,
      "grad_norm": 0.8965771198272705,
      "learning_rate": 2.1019363115832843e-05,
      "loss": 3.4165,
      "step": 398480
    },
    {
      "epoch": 0.8301875,
      "grad_norm": 0.9428110122680664,
      "learning_rate": 2.101433048882553e-05,
      "loss": 3.2368,
      "step": 398490
    },
    {
      "epoch": 0.8302083333333333,
      "grad_norm": 0.8222525715827942,
      "learning_rate": 2.1009298418985247e-05,
      "loss": 3.3298,
      "step": 398500
    },
    {
      "epoch": 0.8302291666666667,
      "grad_norm": 1.1228766441345215,
      "learning_rate": 2.1004266906333743e-05,
      "loss": 3.3358,
      "step": 398510
    },
    {
      "epoch": 0.83025,
      "grad_norm": 0.9710432887077332,
      "learning_rate": 2.0999235950892752e-05,
      "loss": 3.2502,
      "step": 398520
    },
    {
      "epoch": 0.8302708333333333,
      "grad_norm": 0.9681896567344666,
      "learning_rate": 2.0994205552683984e-05,
      "loss": 3.327,
      "step": 398530
    },
    {
      "epoch": 0.8302916666666667,
      "grad_norm": 0.8292662501335144,
      "learning_rate": 2.0989175711729196e-05,
      "loss": 3.3914,
      "step": 398540
    },
    {
      "epoch": 0.8303125,
      "grad_norm": 0.9236736297607422,
      "learning_rate": 2.0984146428050096e-05,
      "loss": 3.3421,
      "step": 398550
    },
    {
      "epoch": 0.8303333333333334,
      "grad_norm": 0.8552318215370178,
      "learning_rate": 2.097911770166841e-05,
      "loss": 3.3746,
      "step": 398560
    },
    {
      "epoch": 0.8303541666666666,
      "grad_norm": 0.9782954454421997,
      "learning_rate": 2.0974089532605877e-05,
      "loss": 3.3171,
      "step": 398570
    },
    {
      "epoch": 0.830375,
      "grad_norm": 1.0103185176849365,
      "learning_rate": 2.0969061920884234e-05,
      "loss": 3.4114,
      "step": 398580
    },
    {
      "epoch": 0.8303958333333333,
      "grad_norm": 0.8580466508865356,
      "learning_rate": 2.0964034866525097e-05,
      "loss": 3.2931,
      "step": 398590
    },
    {
      "epoch": 0.8304166666666667,
      "grad_norm": 0.9400057792663574,
      "learning_rate": 2.0959008369550286e-05,
      "loss": 3.2913,
      "step": 398600
    },
    {
      "epoch": 0.8304375,
      "grad_norm": 0.8743100762367249,
      "learning_rate": 2.0953982429981524e-05,
      "loss": 3.3489,
      "step": 398610
    },
    {
      "epoch": 0.8304583333333333,
      "grad_norm": 0.8719377517700195,
      "learning_rate": 2.0948957047840436e-05,
      "loss": 3.3211,
      "step": 398620
    },
    {
      "epoch": 0.8304791666666667,
      "grad_norm": 0.8471319675445557,
      "learning_rate": 2.0943932223148752e-05,
      "loss": 3.4984,
      "step": 398630
    },
    {
      "epoch": 0.8305,
      "grad_norm": 0.8957396149635315,
      "learning_rate": 2.093890795592825e-05,
      "loss": 3.3101,
      "step": 398640
    },
    {
      "epoch": 0.8305208333333334,
      "grad_norm": 0.8791009187698364,
      "learning_rate": 2.0933884246200554e-05,
      "loss": 3.3009,
      "step": 398650
    },
    {
      "epoch": 0.8305416666666666,
      "grad_norm": 1.0061063766479492,
      "learning_rate": 2.092886109398736e-05,
      "loss": 3.4382,
      "step": 398660
    },
    {
      "epoch": 0.8305625,
      "grad_norm": 1.0251879692077637,
      "learning_rate": 2.0923838499310447e-05,
      "loss": 3.3757,
      "step": 398670
    },
    {
      "epoch": 0.8305833333333333,
      "grad_norm": 0.9356551170349121,
      "learning_rate": 2.0918816462191433e-05,
      "loss": 3.2966,
      "step": 398680
    },
    {
      "epoch": 0.8306041666666667,
      "grad_norm": 0.9228790402412415,
      "learning_rate": 2.0913794982652022e-05,
      "loss": 3.335,
      "step": 398690
    },
    {
      "epoch": 0.830625,
      "grad_norm": 0.8339381814002991,
      "learning_rate": 2.0908774060713974e-05,
      "loss": 3.221,
      "step": 398700
    },
    {
      "epoch": 0.8306458333333333,
      "grad_norm": 0.9728519320487976,
      "learning_rate": 2.090375369639889e-05,
      "loss": 3.3766,
      "step": 398710
    },
    {
      "epoch": 0.8306666666666667,
      "grad_norm": 0.9219954609870911,
      "learning_rate": 2.0898733889728487e-05,
      "loss": 3.3245,
      "step": 398720
    },
    {
      "epoch": 0.8306875,
      "grad_norm": 0.9487457275390625,
      "learning_rate": 2.0893714640724447e-05,
      "loss": 3.3121,
      "step": 398730
    },
    {
      "epoch": 0.8307083333333334,
      "grad_norm": 0.9275767207145691,
      "learning_rate": 2.0888695949408468e-05,
      "loss": 3.2748,
      "step": 398740
    },
    {
      "epoch": 0.8307291666666666,
      "grad_norm": 0.8784077763557434,
      "learning_rate": 2.0883677815802217e-05,
      "loss": 3.4551,
      "step": 398750
    },
    {
      "epoch": 0.83075,
      "grad_norm": 1.0352323055267334,
      "learning_rate": 2.0878660239927366e-05,
      "loss": 3.2386,
      "step": 398760
    },
    {
      "epoch": 0.8307708333333333,
      "grad_norm": 0.925933301448822,
      "learning_rate": 2.0873643221805586e-05,
      "loss": 3.3458,
      "step": 398770
    },
    {
      "epoch": 0.8307916666666667,
      "grad_norm": 0.8443614840507507,
      "learning_rate": 2.0868626761458567e-05,
      "loss": 3.362,
      "step": 398780
    },
    {
      "epoch": 0.8308125,
      "grad_norm": 0.8432688117027283,
      "learning_rate": 2.0863610858907958e-05,
      "loss": 3.3595,
      "step": 398790
    },
    {
      "epoch": 0.8308333333333333,
      "grad_norm": 0.9216845631599426,
      "learning_rate": 2.085859551417544e-05,
      "loss": 3.3032,
      "step": 398800
    },
    {
      "epoch": 0.8308541666666667,
      "grad_norm": 0.9118191599845886,
      "learning_rate": 2.0853580727282667e-05,
      "loss": 3.3632,
      "step": 398810
    },
    {
      "epoch": 0.830875,
      "grad_norm": 0.8864718675613403,
      "learning_rate": 2.084856649825131e-05,
      "loss": 3.2675,
      "step": 398820
    },
    {
      "epoch": 0.8308958333333333,
      "grad_norm": 1.1731597185134888,
      "learning_rate": 2.0843552827103018e-05,
      "loss": 3.3662,
      "step": 398830
    },
    {
      "epoch": 0.8309166666666666,
      "grad_norm": 0.9626576900482178,
      "learning_rate": 2.083853971385946e-05,
      "loss": 3.227,
      "step": 398840
    },
    {
      "epoch": 0.8309375,
      "grad_norm": 0.8526912331581116,
      "learning_rate": 2.083352715854229e-05,
      "loss": 3.3735,
      "step": 398850
    },
    {
      "epoch": 0.8309583333333334,
      "grad_norm": 0.8635541200637817,
      "learning_rate": 2.082851516117314e-05,
      "loss": 3.4041,
      "step": 398860
    },
    {
      "epoch": 0.8309791666666667,
      "grad_norm": 0.9229515790939331,
      "learning_rate": 2.082350372177368e-05,
      "loss": 3.3513,
      "step": 398870
    },
    {
      "epoch": 0.831,
      "grad_norm": 0.8713104724884033,
      "learning_rate": 2.0818492840365557e-05,
      "loss": 3.2188,
      "step": 398880
    },
    {
      "epoch": 0.8310208333333333,
      "grad_norm": 0.9369199872016907,
      "learning_rate": 2.081348251697042e-05,
      "loss": 3.2739,
      "step": 398890
    },
    {
      "epoch": 0.8310416666666667,
      "grad_norm": 0.9320578575134277,
      "learning_rate": 2.0808472751609884e-05,
      "loss": 3.238,
      "step": 398900
    },
    {
      "epoch": 0.8310625,
      "grad_norm": 0.9699115753173828,
      "learning_rate": 2.0803463544305615e-05,
      "loss": 3.2869,
      "step": 398910
    },
    {
      "epoch": 0.8310833333333333,
      "grad_norm": 0.9885960221290588,
      "learning_rate": 2.0798454895079246e-05,
      "loss": 3.3247,
      "step": 398920
    },
    {
      "epoch": 0.8311041666666666,
      "grad_norm": 0.8489440679550171,
      "learning_rate": 2.0793446803952447e-05,
      "loss": 3.2935,
      "step": 398930
    },
    {
      "epoch": 0.831125,
      "grad_norm": 0.8916841745376587,
      "learning_rate": 2.0788439270946743e-05,
      "loss": 3.3209,
      "step": 398940
    },
    {
      "epoch": 0.8311458333333334,
      "grad_norm": 0.9310533404350281,
      "learning_rate": 2.0783432296083873e-05,
      "loss": 3.3411,
      "step": 398950
    },
    {
      "epoch": 0.8311666666666667,
      "grad_norm": 0.9141501784324646,
      "learning_rate": 2.0778425879385468e-05,
      "loss": 3.3682,
      "step": 398960
    },
    {
      "epoch": 0.8311875,
      "grad_norm": 0.9258843660354614,
      "learning_rate": 2.0773420020873028e-05,
      "loss": 3.2748,
      "step": 398970
    },
    {
      "epoch": 0.8312083333333333,
      "grad_norm": 0.9777654409408569,
      "learning_rate": 2.076841472056835e-05,
      "loss": 3.2893,
      "step": 398980
    },
    {
      "epoch": 0.8312291666666667,
      "grad_norm": 0.9446349143981934,
      "learning_rate": 2.0763409978492918e-05,
      "loss": 3.4584,
      "step": 398990
    },
    {
      "epoch": 0.83125,
      "grad_norm": 0.9460268616676331,
      "learning_rate": 2.0758405794668366e-05,
      "loss": 3.3829,
      "step": 399000
    },
    {
      "epoch": 0.83125,
      "eval_loss": 4.031574726104736,
      "eval_runtime": 8.5708,
      "eval_samples_per_second": 1.167,
      "eval_steps_per_second": 0.35,
      "step": 399000
    },
    {
      "epoch": 0.8312708333333333,
      "grad_norm": 1.2106585502624512,
      "learning_rate": 2.0753402169116422e-05,
      "loss": 3.1915,
      "step": 399010
    },
    {
      "epoch": 0.8312916666666667,
      "grad_norm": 0.835996150970459,
      "learning_rate": 2.0748399101858575e-05,
      "loss": 3.2816,
      "step": 399020
    },
    {
      "epoch": 0.8313125,
      "grad_norm": 0.8457305431365967,
      "learning_rate": 2.0743396592916457e-05,
      "loss": 3.3125,
      "step": 399030
    },
    {
      "epoch": 0.8313333333333334,
      "grad_norm": 0.9165366291999817,
      "learning_rate": 2.0738394642311763e-05,
      "loss": 3.2266,
      "step": 399040
    },
    {
      "epoch": 0.8313541666666666,
      "grad_norm": 0.8907355070114136,
      "learning_rate": 2.073339325006601e-05,
      "loss": 3.3949,
      "step": 399050
    },
    {
      "epoch": 0.831375,
      "grad_norm": 0.8495990037918091,
      "learning_rate": 2.07283924162008e-05,
      "loss": 3.3142,
      "step": 399060
    },
    {
      "epoch": 0.8313958333333333,
      "grad_norm": 0.9146240949630737,
      "learning_rate": 2.072339214073783e-05,
      "loss": 3.3463,
      "step": 399070
    },
    {
      "epoch": 0.8314166666666667,
      "grad_norm": 0.9856200814247131,
      "learning_rate": 2.0718392423698606e-05,
      "loss": 3.3472,
      "step": 399080
    },
    {
      "epoch": 0.8314375,
      "grad_norm": 0.9544689059257507,
      "learning_rate": 2.071339326510475e-05,
      "loss": 3.2828,
      "step": 399090
    },
    {
      "epoch": 0.8314583333333333,
      "grad_norm": 0.8714247941970825,
      "learning_rate": 2.0708394664977852e-05,
      "loss": 3.4251,
      "step": 399100
    },
    {
      "epoch": 0.8314791666666667,
      "grad_norm": 0.8888150453567505,
      "learning_rate": 2.0703396623339506e-05,
      "loss": 3.3223,
      "step": 399110
    },
    {
      "epoch": 0.8315,
      "grad_norm": 0.8608171939849854,
      "learning_rate": 2.0698399140211334e-05,
      "loss": 3.4096,
      "step": 399120
    },
    {
      "epoch": 0.8315208333333334,
      "grad_norm": 0.876940906047821,
      "learning_rate": 2.0693402215614886e-05,
      "loss": 3.398,
      "step": 399130
    },
    {
      "epoch": 0.8315416666666666,
      "grad_norm": 0.9446678757667542,
      "learning_rate": 2.068840584957174e-05,
      "loss": 3.3207,
      "step": 399140
    },
    {
      "epoch": 0.8315625,
      "grad_norm": 0.8586062788963318,
      "learning_rate": 2.068341004210351e-05,
      "loss": 3.3181,
      "step": 399150
    },
    {
      "epoch": 0.8315833333333333,
      "grad_norm": 0.9204961657524109,
      "learning_rate": 2.067841479323177e-05,
      "loss": 3.2296,
      "step": 399160
    },
    {
      "epoch": 0.8316041666666667,
      "grad_norm": 0.8625474572181702,
      "learning_rate": 2.0673420102978077e-05,
      "loss": 3.306,
      "step": 399170
    },
    {
      "epoch": 0.831625,
      "grad_norm": 1.0544501543045044,
      "learning_rate": 2.0668425971364023e-05,
      "loss": 3.1409,
      "step": 399180
    },
    {
      "epoch": 0.8316458333333333,
      "grad_norm": 0.9047821760177612,
      "learning_rate": 2.0663432398411166e-05,
      "loss": 3.3652,
      "step": 399190
    },
    {
      "epoch": 0.8316666666666667,
      "grad_norm": 0.9068716764450073,
      "learning_rate": 2.0658439384141095e-05,
      "loss": 3.3213,
      "step": 399200
    },
    {
      "epoch": 0.8316875,
      "grad_norm": 0.9086458086967468,
      "learning_rate": 2.0653446928575407e-05,
      "loss": 3.3508,
      "step": 399210
    },
    {
      "epoch": 0.8317083333333334,
      "grad_norm": 0.8613697290420532,
      "learning_rate": 2.064845503173555e-05,
      "loss": 3.2476,
      "step": 399220
    },
    {
      "epoch": 0.8317291666666666,
      "grad_norm": 0.936858057975769,
      "learning_rate": 2.0643463693643207e-05,
      "loss": 3.364,
      "step": 399230
    },
    {
      "epoch": 0.83175,
      "grad_norm": 0.9414169788360596,
      "learning_rate": 2.0638472914319932e-05,
      "loss": 3.3512,
      "step": 399240
    },
    {
      "epoch": 0.8317708333333333,
      "grad_norm": 0.8515409231185913,
      "learning_rate": 2.0633482693787183e-05,
      "loss": 3.332,
      "step": 399250
    },
    {
      "epoch": 0.8317916666666667,
      "grad_norm": 0.9258291721343994,
      "learning_rate": 2.062849303206662e-05,
      "loss": 3.3937,
      "step": 399260
    },
    {
      "epoch": 0.8318125,
      "grad_norm": 0.8133825659751892,
      "learning_rate": 2.062350392917978e-05,
      "loss": 3.2557,
      "step": 399270
    },
    {
      "epoch": 0.8318333333333333,
      "grad_norm": 0.8879064321517944,
      "learning_rate": 2.061851538514812e-05,
      "loss": 3.3808,
      "step": 399280
    },
    {
      "epoch": 0.8318541666666667,
      "grad_norm": 0.8906822800636292,
      "learning_rate": 2.0613527399993307e-05,
      "loss": 3.3037,
      "step": 399290
    },
    {
      "epoch": 0.831875,
      "grad_norm": 0.878669798374176,
      "learning_rate": 2.060853997373687e-05,
      "loss": 3.3699,
      "step": 399300
    },
    {
      "epoch": 0.8318958333333333,
      "grad_norm": 0.995356023311615,
      "learning_rate": 2.0603553106400262e-05,
      "loss": 3.2616,
      "step": 399310
    },
    {
      "epoch": 0.8319166666666666,
      "grad_norm": 0.8877710103988647,
      "learning_rate": 2.059856679800511e-05,
      "loss": 3.2791,
      "step": 399320
    },
    {
      "epoch": 0.8319375,
      "grad_norm": 0.8293231129646301,
      "learning_rate": 2.0593581048572972e-05,
      "loss": 3.4107,
      "step": 399330
    },
    {
      "epoch": 0.8319583333333334,
      "grad_norm": 0.8687400817871094,
      "learning_rate": 2.058859585812527e-05,
      "loss": 3.3105,
      "step": 399340
    },
    {
      "epoch": 0.8319791666666667,
      "grad_norm": 0.8699147701263428,
      "learning_rate": 2.0583611226683683e-05,
      "loss": 3.4459,
      "step": 399350
    },
    {
      "epoch": 0.832,
      "grad_norm": 1.0533756017684937,
      "learning_rate": 2.0578627154269633e-05,
      "loss": 3.2441,
      "step": 399360
    },
    {
      "epoch": 0.8320208333333333,
      "grad_norm": 0.8741229772567749,
      "learning_rate": 2.057364364090464e-05,
      "loss": 3.2653,
      "step": 399370
    },
    {
      "epoch": 0.8320416666666667,
      "grad_norm": 0.8732215166091919,
      "learning_rate": 2.0568660686610354e-05,
      "loss": 3.4574,
      "step": 399380
    },
    {
      "epoch": 0.8320625,
      "grad_norm": 1.0552603006362915,
      "learning_rate": 2.056367829140819e-05,
      "loss": 3.3886,
      "step": 399390
    },
    {
      "epoch": 0.8320833333333333,
      "grad_norm": 0.85491943359375,
      "learning_rate": 2.055869645531965e-05,
      "loss": 3.3164,
      "step": 399400
    },
    {
      "epoch": 0.8321041666666666,
      "grad_norm": 0.875433623790741,
      "learning_rate": 2.05537151783664e-05,
      "loss": 3.3127,
      "step": 399410
    },
    {
      "epoch": 0.832125,
      "grad_norm": 0.917542576789856,
      "learning_rate": 2.05487344605698e-05,
      "loss": 3.3698,
      "step": 399420
    },
    {
      "epoch": 0.8321458333333334,
      "grad_norm": 0.918530285358429,
      "learning_rate": 2.0543754301951405e-05,
      "loss": 3.377,
      "step": 399430
    },
    {
      "epoch": 0.8321666666666667,
      "grad_norm": 0.8265271782875061,
      "learning_rate": 2.053877470253283e-05,
      "loss": 3.2113,
      "step": 399440
    },
    {
      "epoch": 0.8321875,
      "grad_norm": 0.8545219302177429,
      "learning_rate": 2.0533795662335458e-05,
      "loss": 3.3672,
      "step": 399450
    },
    {
      "epoch": 0.8322083333333333,
      "grad_norm": 0.9258900284767151,
      "learning_rate": 2.05288171813808e-05,
      "loss": 3.41,
      "step": 399460
    },
    {
      "epoch": 0.8322291666666667,
      "grad_norm": 0.8746870160102844,
      "learning_rate": 2.0523839259690484e-05,
      "loss": 3.359,
      "step": 399470
    },
    {
      "epoch": 0.83225,
      "grad_norm": 0.9677040576934814,
      "learning_rate": 2.05188618972859e-05,
      "loss": 3.4158,
      "step": 399480
    },
    {
      "epoch": 0.8322708333333333,
      "grad_norm": 0.8982545137405396,
      "learning_rate": 2.0513885094188565e-05,
      "loss": 3.2328,
      "step": 399490
    },
    {
      "epoch": 0.8322916666666667,
      "grad_norm": 0.9308115839958191,
      "learning_rate": 2.0508908850419996e-05,
      "loss": 3.3617,
      "step": 399500
    },
    {
      "epoch": 0.8323125,
      "grad_norm": 0.8849378824234009,
      "learning_rate": 2.0503933166001695e-05,
      "loss": 3.3647,
      "step": 399510
    },
    {
      "epoch": 0.8323333333333334,
      "grad_norm": 0.9054679274559021,
      "learning_rate": 2.0498958040955144e-05,
      "loss": 3.2412,
      "step": 399520
    },
    {
      "epoch": 0.8323541666666666,
      "grad_norm": 0.9184256792068481,
      "learning_rate": 2.0493983475301822e-05,
      "loss": 3.3795,
      "step": 399530
    },
    {
      "epoch": 0.832375,
      "grad_norm": 0.9317251443862915,
      "learning_rate": 2.048900946906325e-05,
      "loss": 3.2244,
      "step": 399540
    },
    {
      "epoch": 0.8323958333333333,
      "grad_norm": 0.9699982404708862,
      "learning_rate": 2.0484036022260874e-05,
      "loss": 3.3171,
      "step": 399550
    },
    {
      "epoch": 0.8324166666666667,
      "grad_norm": 0.9100257158279419,
      "learning_rate": 2.0479063134916194e-05,
      "loss": 3.4728,
      "step": 399560
    },
    {
      "epoch": 0.8324375,
      "grad_norm": 0.851794421672821,
      "learning_rate": 2.0474090807050712e-05,
      "loss": 3.3595,
      "step": 399570
    },
    {
      "epoch": 0.8324583333333333,
      "grad_norm": 0.9707114696502686,
      "learning_rate": 2.046911903868591e-05,
      "loss": 3.3584,
      "step": 399580
    },
    {
      "epoch": 0.8324791666666667,
      "grad_norm": 0.9184306859970093,
      "learning_rate": 2.046414782984317e-05,
      "loss": 3.2816,
      "step": 399590
    },
    {
      "epoch": 0.8325,
      "grad_norm": 1.1019911766052246,
      "learning_rate": 2.045917718054409e-05,
      "loss": 3.3107,
      "step": 399600
    },
    {
      "epoch": 0.8325208333333334,
      "grad_norm": 0.8344943523406982,
      "learning_rate": 2.0454207090810105e-05,
      "loss": 3.43,
      "step": 399610
    },
    {
      "epoch": 0.8325416666666666,
      "grad_norm": 0.9818997383117676,
      "learning_rate": 2.0449237560662612e-05,
      "loss": 3.3984,
      "step": 399620
    },
    {
      "epoch": 0.8325625,
      "grad_norm": 0.9435957670211792,
      "learning_rate": 2.0444268590123147e-05,
      "loss": 3.2949,
      "step": 399630
    },
    {
      "epoch": 0.8325833333333333,
      "grad_norm": 0.894320011138916,
      "learning_rate": 2.0439300179213208e-05,
      "loss": 3.2947,
      "step": 399640
    },
    {
      "epoch": 0.8326041666666667,
      "grad_norm": 0.8654700517654419,
      "learning_rate": 2.0434332327954145e-05,
      "loss": 3.1758,
      "step": 399650
    },
    {
      "epoch": 0.832625,
      "grad_norm": 0.9494001865386963,
      "learning_rate": 2.0429365036367508e-05,
      "loss": 3.333,
      "step": 399660
    },
    {
      "epoch": 0.8326458333333333,
      "grad_norm": 0.988292396068573,
      "learning_rate": 2.042439830447476e-05,
      "loss": 3.2876,
      "step": 399670
    },
    {
      "epoch": 0.8326666666666667,
      "grad_norm": 0.8613815903663635,
      "learning_rate": 2.0419432132297253e-05,
      "loss": 3.3026,
      "step": 399680
    },
    {
      "epoch": 0.8326875,
      "grad_norm": 0.919876217842102,
      "learning_rate": 2.0414466519856554e-05,
      "loss": 3.3666,
      "step": 399690
    },
    {
      "epoch": 0.8327083333333334,
      "grad_norm": 0.9257748126983643,
      "learning_rate": 2.0409501467174077e-05,
      "loss": 3.2929,
      "step": 399700
    },
    {
      "epoch": 0.8327291666666666,
      "grad_norm": 0.9570916891098022,
      "learning_rate": 2.0404536974271207e-05,
      "loss": 3.2522,
      "step": 399710
    },
    {
      "epoch": 0.83275,
      "grad_norm": 1.091268539428711,
      "learning_rate": 2.0399573041169508e-05,
      "loss": 3.1808,
      "step": 399720
    },
    {
      "epoch": 0.8327708333333333,
      "grad_norm": 0.9543401002883911,
      "learning_rate": 2.0394609667890315e-05,
      "loss": 3.3271,
      "step": 399730
    },
    {
      "epoch": 0.8327916666666667,
      "grad_norm": 0.8574138283729553,
      "learning_rate": 2.0389646854455078e-05,
      "loss": 3.4203,
      "step": 399740
    },
    {
      "epoch": 0.8328125,
      "grad_norm": 0.821548342704773,
      "learning_rate": 2.0384684600885326e-05,
      "loss": 3.3667,
      "step": 399750
    },
    {
      "epoch": 0.8328333333333333,
      "grad_norm": 1.005232334136963,
      "learning_rate": 2.0379722907202394e-05,
      "loss": 3.3427,
      "step": 399760
    },
    {
      "epoch": 0.8328541666666667,
      "grad_norm": 0.9184018969535828,
      "learning_rate": 2.0374761773427716e-05,
      "loss": 3.3369,
      "step": 399770
    },
    {
      "epoch": 0.832875,
      "grad_norm": 0.8427731394767761,
      "learning_rate": 2.036980119958284e-05,
      "loss": 3.3545,
      "step": 399780
    },
    {
      "epoch": 0.8328958333333333,
      "grad_norm": 0.8318173289299011,
      "learning_rate": 2.0364841185689067e-05,
      "loss": 3.3366,
      "step": 399790
    },
    {
      "epoch": 0.8329166666666666,
      "grad_norm": 0.9728811979293823,
      "learning_rate": 2.0359881731767863e-05,
      "loss": 3.3378,
      "step": 399800
    },
    {
      "epoch": 0.8329375,
      "grad_norm": 0.8604098558425903,
      "learning_rate": 2.0354922837840675e-05,
      "loss": 3.3742,
      "step": 399810
    },
    {
      "epoch": 0.8329583333333334,
      "grad_norm": 0.8635321855545044,
      "learning_rate": 2.034996450392889e-05,
      "loss": 3.3187,
      "step": 399820
    },
    {
      "epoch": 0.8329791666666667,
      "grad_norm": 0.8503840565681458,
      "learning_rate": 2.0345006730053935e-05,
      "loss": 3.2771,
      "step": 399830
    },
    {
      "epoch": 0.833,
      "grad_norm": 0.8431901931762695,
      "learning_rate": 2.0340049516237232e-05,
      "loss": 3.4618,
      "step": 399840
    },
    {
      "epoch": 0.8330208333333333,
      "grad_norm": 0.9853339195251465,
      "learning_rate": 2.0335092862500195e-05,
      "loss": 3.2938,
      "step": 399850
    },
    {
      "epoch": 0.8330416666666667,
      "grad_norm": 0.8463383913040161,
      "learning_rate": 2.0330136768864226e-05,
      "loss": 3.3103,
      "step": 399860
    },
    {
      "epoch": 0.8330625,
      "grad_norm": 0.9312532544136047,
      "learning_rate": 2.0325181235350752e-05,
      "loss": 3.3941,
      "step": 399870
    },
    {
      "epoch": 0.8330833333333333,
      "grad_norm": 0.8986914157867432,
      "learning_rate": 2.0320226261981158e-05,
      "loss": 3.2627,
      "step": 399880
    },
    {
      "epoch": 0.8331041666666666,
      "grad_norm": 0.9774033427238464,
      "learning_rate": 2.0315271848776848e-05,
      "loss": 3.3163,
      "step": 399890
    },
    {
      "epoch": 0.833125,
      "grad_norm": 0.9043499827384949,
      "learning_rate": 2.0310317995759235e-05,
      "loss": 3.3083,
      "step": 399900
    },
    {
      "epoch": 0.8331458333333334,
      "grad_norm": 0.9306114912033081,
      "learning_rate": 2.0305364702949718e-05,
      "loss": 3.3333,
      "step": 399910
    },
    {
      "epoch": 0.8331666666666667,
      "grad_norm": 0.9107261300086975,
      "learning_rate": 2.0300411970369696e-05,
      "loss": 3.3678,
      "step": 399920
    },
    {
      "epoch": 0.8331875,
      "grad_norm": 0.9294725656509399,
      "learning_rate": 2.029545979804055e-05,
      "loss": 3.3923,
      "step": 399930
    },
    {
      "epoch": 0.8332083333333333,
      "grad_norm": 0.9335750937461853,
      "learning_rate": 2.029050818598367e-05,
      "loss": 3.427,
      "step": 399940
    },
    {
      "epoch": 0.8332291666666667,
      "grad_norm": 0.962681770324707,
      "learning_rate": 2.0285557134220455e-05,
      "loss": 3.341,
      "step": 399950
    },
    {
      "epoch": 0.83325,
      "grad_norm": 0.9639328718185425,
      "learning_rate": 2.0280606642772297e-05,
      "loss": 3.3291,
      "step": 399960
    },
    {
      "epoch": 0.8332708333333333,
      "grad_norm": 0.9344916939735413,
      "learning_rate": 2.0275656711660564e-05,
      "loss": 3.3648,
      "step": 399970
    },
    {
      "epoch": 0.8332916666666667,
      "grad_norm": 0.9153516292572021,
      "learning_rate": 2.0270707340906676e-05,
      "loss": 3.3746,
      "step": 399980
    },
    {
      "epoch": 0.8333125,
      "grad_norm": 1.2783007621765137,
      "learning_rate": 2.0265758530531917e-05,
      "loss": 3.272,
      "step": 399990
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.8840639591217041,
      "learning_rate": 2.0260810280557764e-05,
      "loss": 3.3357,
      "step": 400000
    },
    {
      "epoch": 0.8333333333333334,
      "eval_loss": 4.033688545227051,
      "eval_runtime": 9.0854,
      "eval_samples_per_second": 1.101,
      "eval_steps_per_second": 0.33,
      "step": 400000
    },
    {
      "epoch": 0.8333541666666666,
      "grad_norm": 1.0100923776626587,
      "learning_rate": 2.025586259100559e-05,
      "loss": 3.3241,
      "step": 400010
    },
    {
      "epoch": 0.833375,
      "grad_norm": 0.871995210647583,
      "learning_rate": 2.0250915461896672e-05,
      "loss": 3.2559,
      "step": 400020
    },
    {
      "epoch": 0.8333958333333333,
      "grad_norm": 0.9338164329528809,
      "learning_rate": 2.0245968893252464e-05,
      "loss": 3.3926,
      "step": 400030
    },
    {
      "epoch": 0.8334166666666667,
      "grad_norm": 0.9913740158081055,
      "learning_rate": 2.024102288509436e-05,
      "loss": 3.3613,
      "step": 400040
    },
    {
      "epoch": 0.8334375,
      "grad_norm": 0.9880717992782593,
      "learning_rate": 2.0236077437443597e-05,
      "loss": 3.3854,
      "step": 400050
    },
    {
      "epoch": 0.8334583333333333,
      "grad_norm": 0.9822794795036316,
      "learning_rate": 2.0231132550321644e-05,
      "loss": 3.4217,
      "step": 400060
    },
    {
      "epoch": 0.8334791666666667,
      "grad_norm": 0.8443319201469421,
      "learning_rate": 2.0226188223749862e-05,
      "loss": 3.183,
      "step": 400070
    },
    {
      "epoch": 0.8335,
      "grad_norm": 1.047999620437622,
      "learning_rate": 2.022124445774952e-05,
      "loss": 3.3645,
      "step": 400080
    },
    {
      "epoch": 0.8335208333333334,
      "grad_norm": 0.9676343202590942,
      "learning_rate": 2.02163012523421e-05,
      "loss": 3.2685,
      "step": 400090
    },
    {
      "epoch": 0.8335416666666666,
      "grad_norm": 0.839959979057312,
      "learning_rate": 2.0211358607548848e-05,
      "loss": 3.2889,
      "step": 400100
    },
    {
      "epoch": 0.8335625,
      "grad_norm": 0.8331395387649536,
      "learning_rate": 2.0206416523391173e-05,
      "loss": 3.2533,
      "step": 400110
    },
    {
      "epoch": 0.8335833333333333,
      "grad_norm": 0.8673651814460754,
      "learning_rate": 2.020147499989038e-05,
      "loss": 3.3106,
      "step": 400120
    },
    {
      "epoch": 0.8336041666666667,
      "grad_norm": 0.9554328918457031,
      "learning_rate": 2.0196534037067848e-05,
      "loss": 3.3097,
      "step": 400130
    },
    {
      "epoch": 0.833625,
      "grad_norm": 0.8661232590675354,
      "learning_rate": 2.01915936349449e-05,
      "loss": 3.2434,
      "step": 400140
    },
    {
      "epoch": 0.8336458333333333,
      "grad_norm": 0.9020918011665344,
      "learning_rate": 2.01866537935429e-05,
      "loss": 3.2587,
      "step": 400150
    },
    {
      "epoch": 0.8336666666666667,
      "grad_norm": 0.8592920899391174,
      "learning_rate": 2.0181714512883158e-05,
      "loss": 3.2626,
      "step": 400160
    },
    {
      "epoch": 0.8336875,
      "grad_norm": 0.9946399927139282,
      "learning_rate": 2.0176775792987032e-05,
      "loss": 3.4228,
      "step": 400170
    },
    {
      "epoch": 0.8337083333333334,
      "grad_norm": 0.8449692726135254,
      "learning_rate": 2.0171837633875842e-05,
      "loss": 3.4839,
      "step": 400180
    },
    {
      "epoch": 0.8337291666666666,
      "grad_norm": 0.9590668082237244,
      "learning_rate": 2.016690003557092e-05,
      "loss": 3.4144,
      "step": 400190
    },
    {
      "epoch": 0.83375,
      "grad_norm": 0.8890369534492493,
      "learning_rate": 2.01619629980936e-05,
      "loss": 3.3227,
      "step": 400200
    },
    {
      "epoch": 0.8337708333333333,
      "grad_norm": 0.905083954334259,
      "learning_rate": 2.0157026521465214e-05,
      "loss": 3.3951,
      "step": 400210
    },
    {
      "epoch": 0.8337916666666667,
      "grad_norm": 0.9554361701011658,
      "learning_rate": 2.0152090605707076e-05,
      "loss": 3.3987,
      "step": 400220
    },
    {
      "epoch": 0.8338125,
      "grad_norm": 1.0234882831573486,
      "learning_rate": 2.014715525084051e-05,
      "loss": 3.2515,
      "step": 400230
    },
    {
      "epoch": 0.8338333333333333,
      "grad_norm": 0.8339526653289795,
      "learning_rate": 2.014222045688682e-05,
      "loss": 3.322,
      "step": 400240
    },
    {
      "epoch": 0.8338541666666667,
      "grad_norm": 0.930001974105835,
      "learning_rate": 2.0137286223867348e-05,
      "loss": 3.2887,
      "step": 400250
    },
    {
      "epoch": 0.833875,
      "grad_norm": 0.8673486709594727,
      "learning_rate": 2.013235255180341e-05,
      "loss": 3.3315,
      "step": 400260
    },
    {
      "epoch": 0.8338958333333333,
      "grad_norm": 0.8811918497085571,
      "learning_rate": 2.0127419440716286e-05,
      "loss": 3.2519,
      "step": 400270
    },
    {
      "epoch": 0.8339166666666666,
      "grad_norm": 0.9687458872795105,
      "learning_rate": 2.0122486890627308e-05,
      "loss": 3.3722,
      "step": 400280
    },
    {
      "epoch": 0.8339375,
      "grad_norm": 0.9362326264381409,
      "learning_rate": 2.0117554901557782e-05,
      "loss": 3.1635,
      "step": 400290
    },
    {
      "epoch": 0.8339583333333334,
      "grad_norm": 0.9641947746276855,
      "learning_rate": 2.0112623473529e-05,
      "loss": 3.3822,
      "step": 400300
    },
    {
      "epoch": 0.8339791666666667,
      "grad_norm": 0.9004189968109131,
      "learning_rate": 2.0107692606562264e-05,
      "loss": 3.404,
      "step": 400310
    },
    {
      "epoch": 0.834,
      "grad_norm": 0.8923709988594055,
      "learning_rate": 2.0102762300678894e-05,
      "loss": 3.3178,
      "step": 400320
    },
    {
      "epoch": 0.8340208333333333,
      "grad_norm": 0.9205445051193237,
      "learning_rate": 2.0097832555900168e-05,
      "loss": 3.311,
      "step": 400330
    },
    {
      "epoch": 0.8340416666666667,
      "grad_norm": 0.901445746421814,
      "learning_rate": 2.009290337224739e-05,
      "loss": 3.3418,
      "step": 400340
    },
    {
      "epoch": 0.8340625,
      "grad_norm": 0.9622148871421814,
      "learning_rate": 2.0087974749741886e-05,
      "loss": 3.3488,
      "step": 400350
    },
    {
      "epoch": 0.8340833333333333,
      "grad_norm": 0.960893452167511,
      "learning_rate": 2.008304668840483e-05,
      "loss": 3.2629,
      "step": 400360
    },
    {
      "epoch": 0.8341041666666666,
      "grad_norm": 0.9686224460601807,
      "learning_rate": 2.0078119188257635e-05,
      "loss": 3.4232,
      "step": 400370
    },
    {
      "epoch": 0.834125,
      "grad_norm": 0.9425014853477478,
      "learning_rate": 2.007319224932155e-05,
      "loss": 3.2551,
      "step": 400380
    },
    {
      "epoch": 0.8341458333333334,
      "grad_norm": 0.9784823656082153,
      "learning_rate": 2.0068265871617828e-05,
      "loss": 3.4176,
      "step": 400390
    },
    {
      "epoch": 0.8341666666666666,
      "grad_norm": 0.9979742169380188,
      "learning_rate": 2.0063340055167748e-05,
      "loss": 3.3907,
      "step": 400400
    },
    {
      "epoch": 0.8341875,
      "grad_norm": 0.9553130269050598,
      "learning_rate": 2.0058414799992643e-05,
      "loss": 3.33,
      "step": 400410
    },
    {
      "epoch": 0.8342083333333333,
      "grad_norm": 1.0040483474731445,
      "learning_rate": 2.0053490106113733e-05,
      "loss": 3.4259,
      "step": 400420
    },
    {
      "epoch": 0.8342291666666667,
      "grad_norm": 0.9092333316802979,
      "learning_rate": 2.0048565973552284e-05,
      "loss": 3.3509,
      "step": 400430
    },
    {
      "epoch": 0.83425,
      "grad_norm": 1.1541608572006226,
      "learning_rate": 2.0043642402329656e-05,
      "loss": 3.3481,
      "step": 400440
    },
    {
      "epoch": 0.8342708333333333,
      "grad_norm": 0.9055963158607483,
      "learning_rate": 2.0038719392467008e-05,
      "loss": 3.3107,
      "step": 400450
    },
    {
      "epoch": 0.8342916666666667,
      "grad_norm": 0.8868159651756287,
      "learning_rate": 2.0033796943985613e-05,
      "loss": 3.293,
      "step": 400460
    },
    {
      "epoch": 0.8343125,
      "grad_norm": 0.8291367888450623,
      "learning_rate": 2.0028875056906864e-05,
      "loss": 3.2515,
      "step": 400470
    },
    {
      "epoch": 0.8343333333333334,
      "grad_norm": 1.023663878440857,
      "learning_rate": 2.002395373125187e-05,
      "loss": 3.242,
      "step": 400480
    },
    {
      "epoch": 0.8343541666666666,
      "grad_norm": 0.925679624080658,
      "learning_rate": 2.0019032967041948e-05,
      "loss": 3.238,
      "step": 400490
    },
    {
      "epoch": 0.834375,
      "grad_norm": 0.7618257999420166,
      "learning_rate": 2.001411276429837e-05,
      "loss": 3.3937,
      "step": 400500
    },
    {
      "epoch": 0.8343958333333333,
      "grad_norm": 0.9163391590118408,
      "learning_rate": 2.000919312304236e-05,
      "loss": 3.3293,
      "step": 400510
    },
    {
      "epoch": 0.8344166666666667,
      "grad_norm": 0.8645464777946472,
      "learning_rate": 2.0004274043295194e-05,
      "loss": 3.4172,
      "step": 400520
    },
    {
      "epoch": 0.8344375,
      "grad_norm": 0.9020833373069763,
      "learning_rate": 1.9999355525078096e-05,
      "loss": 3.3921,
      "step": 400530
    },
    {
      "epoch": 0.8344583333333333,
      "grad_norm": 0.9316038489341736,
      "learning_rate": 1.9994437568412326e-05,
      "loss": 3.2177,
      "step": 400540
    },
    {
      "epoch": 0.8344791666666667,
      "grad_norm": 0.8362439870834351,
      "learning_rate": 1.9989520173319123e-05,
      "loss": 3.3386,
      "step": 400550
    },
    {
      "epoch": 0.8345,
      "grad_norm": 0.8880971074104309,
      "learning_rate": 1.9984603339819742e-05,
      "loss": 3.2429,
      "step": 400560
    },
    {
      "epoch": 0.8345208333333334,
      "grad_norm": 0.8994527459144592,
      "learning_rate": 1.9979687067935402e-05,
      "loss": 3.3874,
      "step": 400570
    },
    {
      "epoch": 0.8345416666666666,
      "grad_norm": 0.9013848304748535,
      "learning_rate": 1.9974771357687365e-05,
      "loss": 3.2955,
      "step": 400580
    },
    {
      "epoch": 0.8345625,
      "grad_norm": 0.9752044081687927,
      "learning_rate": 1.996985620909683e-05,
      "loss": 3.4009,
      "step": 400590
    },
    {
      "epoch": 0.8345833333333333,
      "grad_norm": 0.9401760697364807,
      "learning_rate": 1.9964941622185048e-05,
      "loss": 3.3728,
      "step": 400600
    },
    {
      "epoch": 0.8346041666666667,
      "grad_norm": 0.8831101655960083,
      "learning_rate": 1.9960027596973255e-05,
      "loss": 3.3869,
      "step": 400610
    },
    {
      "epoch": 0.834625,
      "grad_norm": 0.9630772471427917,
      "learning_rate": 1.9955114133482665e-05,
      "loss": 3.3529,
      "step": 400620
    },
    {
      "epoch": 0.8346458333333333,
      "grad_norm": 0.829363226890564,
      "learning_rate": 1.995020123173451e-05,
      "loss": 3.2492,
      "step": 400630
    },
    {
      "epoch": 0.8346666666666667,
      "grad_norm": 1.0175801515579224,
      "learning_rate": 1.994528889174999e-05,
      "loss": 3.3807,
      "step": 400640
    },
    {
      "epoch": 0.8346875,
      "grad_norm": 0.9713059067726135,
      "learning_rate": 1.994037711355037e-05,
      "loss": 3.1987,
      "step": 400650
    },
    {
      "epoch": 0.8347083333333334,
      "grad_norm": 0.8486278653144836,
      "learning_rate": 1.993546589715682e-05,
      "loss": 3.411,
      "step": 400660
    },
    {
      "epoch": 0.8347291666666666,
      "grad_norm": 0.9869992136955261,
      "learning_rate": 1.993055524259059e-05,
      "loss": 3.3826,
      "step": 400670
    },
    {
      "epoch": 0.83475,
      "grad_norm": 0.9528147578239441,
      "learning_rate": 1.992564514987286e-05,
      "loss": 3.2777,
      "step": 400680
    },
    {
      "epoch": 0.8347708333333334,
      "grad_norm": 0.9313539862632751,
      "learning_rate": 1.9920735619024864e-05,
      "loss": 3.379,
      "step": 400690
    },
    {
      "epoch": 0.8347916666666667,
      "grad_norm": 0.864367663860321,
      "learning_rate": 1.9915826650067834e-05,
      "loss": 3.2633,
      "step": 400700
    },
    {
      "epoch": 0.8348125,
      "grad_norm": 0.9729491472244263,
      "learning_rate": 1.9910918243022872e-05,
      "loss": 3.3659,
      "step": 400710
    },
    {
      "epoch": 0.8348333333333333,
      "grad_norm": 0.8769678473472595,
      "learning_rate": 1.9906010397911324e-05,
      "loss": 3.3135,
      "step": 400720
    },
    {
      "epoch": 0.8348541666666667,
      "grad_norm": 0.8236876726150513,
      "learning_rate": 1.990110311475428e-05,
      "loss": 3.3255,
      "step": 400730
    },
    {
      "epoch": 0.834875,
      "grad_norm": 1.0658044815063477,
      "learning_rate": 1.9896196393572934e-05,
      "loss": 3.3728,
      "step": 400740
    },
    {
      "epoch": 0.8348958333333333,
      "grad_norm": 1.0010874271392822,
      "learning_rate": 1.9891290234388602e-05,
      "loss": 3.2521,
      "step": 400750
    },
    {
      "epoch": 0.8349166666666666,
      "grad_norm": 0.8565593957901001,
      "learning_rate": 1.9886384637222354e-05,
      "loss": 3.351,
      "step": 400760
    },
    {
      "epoch": 0.8349375,
      "grad_norm": 0.9713777303695679,
      "learning_rate": 1.9881479602095385e-05,
      "loss": 3.4074,
      "step": 400770
    },
    {
      "epoch": 0.8349583333333334,
      "grad_norm": 0.9798322916030884,
      "learning_rate": 1.9876575129028983e-05,
      "loss": 3.3209,
      "step": 400780
    },
    {
      "epoch": 0.8349791666666667,
      "grad_norm": 0.8611880540847778,
      "learning_rate": 1.9871671218044243e-05,
      "loss": 3.3534,
      "step": 400790
    },
    {
      "epoch": 0.835,
      "grad_norm": 0.9916124939918518,
      "learning_rate": 1.9866767869162355e-05,
      "loss": 3.3289,
      "step": 400800
    },
    {
      "epoch": 0.8350208333333333,
      "grad_norm": 0.8424253463745117,
      "learning_rate": 1.986186508240456e-05,
      "loss": 3.353,
      "step": 400810
    },
    {
      "epoch": 0.8350416666666667,
      "grad_norm": 0.8428680896759033,
      "learning_rate": 1.985696285779198e-05,
      "loss": 3.3538,
      "step": 400820
    },
    {
      "epoch": 0.8350625,
      "grad_norm": 0.8849138021469116,
      "learning_rate": 1.9852061195345763e-05,
      "loss": 3.4081,
      "step": 400830
    },
    {
      "epoch": 0.8350833333333333,
      "grad_norm": 0.8357686400413513,
      "learning_rate": 1.984716009508721e-05,
      "loss": 3.1957,
      "step": 400840
    },
    {
      "epoch": 0.8351041666666666,
      "grad_norm": 0.9187623262405396,
      "learning_rate": 1.9842259557037353e-05,
      "loss": 3.2825,
      "step": 400850
    },
    {
      "epoch": 0.835125,
      "grad_norm": 0.9717064499855042,
      "learning_rate": 1.9837359581217426e-05,
      "loss": 3.3275,
      "step": 400860
    },
    {
      "epoch": 0.8351458333333334,
      "grad_norm": 0.853671133518219,
      "learning_rate": 1.9832460167648577e-05,
      "loss": 3.3707,
      "step": 400870
    },
    {
      "epoch": 0.8351666666666666,
      "grad_norm": 1.0484111309051514,
      "learning_rate": 1.9827561316351993e-05,
      "loss": 3.2177,
      "step": 400880
    },
    {
      "epoch": 0.8351875,
      "grad_norm": 0.8830204010009766,
      "learning_rate": 1.98226630273488e-05,
      "loss": 3.4037,
      "step": 400890
    },
    {
      "epoch": 0.8352083333333333,
      "grad_norm": 0.8787611126899719,
      "learning_rate": 1.981776530066017e-05,
      "loss": 3.2187,
      "step": 400900
    },
    {
      "epoch": 0.8352291666666667,
      "grad_norm": 0.8584559559822083,
      "learning_rate": 1.9812868136307287e-05,
      "loss": 3.361,
      "step": 400910
    },
    {
      "epoch": 0.83525,
      "grad_norm": 1.0365395545959473,
      "learning_rate": 1.980797153431126e-05,
      "loss": 3.3919,
      "step": 400920
    },
    {
      "epoch": 0.8352708333333333,
      "grad_norm": 0.8853563666343689,
      "learning_rate": 1.980307549469328e-05,
      "loss": 3.2895,
      "step": 400930
    },
    {
      "epoch": 0.8352916666666667,
      "grad_norm": 0.8056484460830688,
      "learning_rate": 1.9798180017474464e-05,
      "loss": 3.2765,
      "step": 400940
    },
    {
      "epoch": 0.8353125,
      "grad_norm": 0.9053714871406555,
      "learning_rate": 1.9793285102675987e-05,
      "loss": 3.3424,
      "step": 400950
    },
    {
      "epoch": 0.8353333333333334,
      "grad_norm": 1.0865325927734375,
      "learning_rate": 1.978839075031897e-05,
      "loss": 3.4479,
      "step": 400960
    },
    {
      "epoch": 0.8353541666666666,
      "grad_norm": 0.8843129873275757,
      "learning_rate": 1.9783496960424567e-05,
      "loss": 3.3595,
      "step": 400970
    },
    {
      "epoch": 0.835375,
      "grad_norm": 0.8640203475952148,
      "learning_rate": 1.9778603733013936e-05,
      "loss": 3.3931,
      "step": 400980
    },
    {
      "epoch": 0.8353958333333333,
      "grad_norm": 1.0247095823287964,
      "learning_rate": 1.9773711068108134e-05,
      "loss": 3.3567,
      "step": 400990
    },
    {
      "epoch": 0.8354166666666667,
      "grad_norm": 0.9649096131324768,
      "learning_rate": 1.9768818965728388e-05,
      "loss": 3.2081,
      "step": 401000
    },
    {
      "epoch": 0.8354166666666667,
      "eval_loss": 4.034616947174072,
      "eval_runtime": 8.6893,
      "eval_samples_per_second": 1.151,
      "eval_steps_per_second": 0.345,
      "step": 401000
    },
    {
      "epoch": 0.8354375,
      "grad_norm": 0.8546829223632812,
      "learning_rate": 1.976392742589582e-05,
      "loss": 3.2539,
      "step": 401010
    },
    {
      "epoch": 0.8354583333333333,
      "grad_norm": 0.9809659719467163,
      "learning_rate": 1.9759036448631475e-05,
      "loss": 3.4886,
      "step": 401020
    },
    {
      "epoch": 0.8354791666666667,
      "grad_norm": 0.8738001585006714,
      "learning_rate": 1.9754146033956575e-05,
      "loss": 3.3046,
      "step": 401030
    },
    {
      "epoch": 0.8355,
      "grad_norm": 0.8981820940971375,
      "learning_rate": 1.974925618189225e-05,
      "loss": 3.3193,
      "step": 401040
    },
    {
      "epoch": 0.8355208333333334,
      "grad_norm": 0.9153851866722107,
      "learning_rate": 1.9744366892459494e-05,
      "loss": 3.4508,
      "step": 401050
    },
    {
      "epoch": 0.8355416666666666,
      "grad_norm": 0.8949646353721619,
      "learning_rate": 1.9739478165679566e-05,
      "loss": 3.2691,
      "step": 401060
    },
    {
      "epoch": 0.8355625,
      "grad_norm": 0.8302321434020996,
      "learning_rate": 1.973459000157355e-05,
      "loss": 3.4386,
      "step": 401070
    },
    {
      "epoch": 0.8355833333333333,
      "grad_norm": 0.907456636428833,
      "learning_rate": 1.9729702400162485e-05,
      "loss": 3.2356,
      "step": 401080
    },
    {
      "epoch": 0.8356041666666667,
      "grad_norm": 0.8441352844238281,
      "learning_rate": 1.972481536146761e-05,
      "loss": 3.4237,
      "step": 401090
    },
    {
      "epoch": 0.835625,
      "grad_norm": 0.9930428266525269,
      "learning_rate": 1.9719928885509928e-05,
      "loss": 3.335,
      "step": 401100
    },
    {
      "epoch": 0.8356458333333333,
      "grad_norm": 0.8451253771781921,
      "learning_rate": 1.971504297231055e-05,
      "loss": 3.2173,
      "step": 401110
    },
    {
      "epoch": 0.8356666666666667,
      "grad_norm": 0.8770171999931335,
      "learning_rate": 1.971015762189068e-05,
      "loss": 3.2659,
      "step": 401120
    },
    {
      "epoch": 0.8356875,
      "grad_norm": 0.8976735472679138,
      "learning_rate": 1.9705272834271335e-05,
      "loss": 3.2209,
      "step": 401130
    },
    {
      "epoch": 0.8357083333333334,
      "grad_norm": 0.9815821051597595,
      "learning_rate": 1.9700388609473595e-05,
      "loss": 3.449,
      "step": 401140
    },
    {
      "epoch": 0.8357291666666666,
      "grad_norm": 0.8750779032707214,
      "learning_rate": 1.9695504947518674e-05,
      "loss": 3.5257,
      "step": 401150
    },
    {
      "epoch": 0.83575,
      "grad_norm": 1.1004586219787598,
      "learning_rate": 1.9690621848427545e-05,
      "loss": 3.3537,
      "step": 401160
    },
    {
      "epoch": 0.8357708333333334,
      "grad_norm": 0.8114908933639526,
      "learning_rate": 1.968573931222134e-05,
      "loss": 3.3991,
      "step": 401170
    },
    {
      "epoch": 0.8357916666666667,
      "grad_norm": 0.9284403324127197,
      "learning_rate": 1.96808573389212e-05,
      "loss": 3.2473,
      "step": 401180
    },
    {
      "epoch": 0.8358125,
      "grad_norm": 0.9128553867340088,
      "learning_rate": 1.9675975928548153e-05,
      "loss": 3.5064,
      "step": 401190
    },
    {
      "epoch": 0.8358333333333333,
      "grad_norm": 0.9343529343605042,
      "learning_rate": 1.967109508112326e-05,
      "loss": 3.275,
      "step": 401200
    },
    {
      "epoch": 0.8358541666666667,
      "grad_norm": 0.9225119948387146,
      "learning_rate": 1.966621479666774e-05,
      "loss": 3.287,
      "step": 401210
    },
    {
      "epoch": 0.835875,
      "grad_norm": 1.0067698955535889,
      "learning_rate": 1.9661335075202523e-05,
      "loss": 3.3926,
      "step": 401220
    },
    {
      "epoch": 0.8358958333333333,
      "grad_norm": 0.8591704964637756,
      "learning_rate": 1.965645591674876e-05,
      "loss": 3.4107,
      "step": 401230
    },
    {
      "epoch": 0.8359166666666666,
      "grad_norm": 0.928403913974762,
      "learning_rate": 1.9651577321327516e-05,
      "loss": 3.3111,
      "step": 401240
    },
    {
      "epoch": 0.8359375,
      "grad_norm": 0.9644652605056763,
      "learning_rate": 1.9646699288959845e-05,
      "loss": 3.3395,
      "step": 401250
    },
    {
      "epoch": 0.8359583333333334,
      "grad_norm": 0.9243149161338806,
      "learning_rate": 1.9641821819666857e-05,
      "loss": 3.3605,
      "step": 401260
    },
    {
      "epoch": 0.8359791666666667,
      "grad_norm": 1.0390435457229614,
      "learning_rate": 1.9636944913469592e-05,
      "loss": 3.3502,
      "step": 401270
    },
    {
      "epoch": 0.836,
      "grad_norm": 0.8699669241905212,
      "learning_rate": 1.9632068570389114e-05,
      "loss": 3.329,
      "step": 401280
    },
    {
      "epoch": 0.8360208333333333,
      "grad_norm": 0.8992085456848145,
      "learning_rate": 1.9627192790446507e-05,
      "loss": 3.3615,
      "step": 401290
    },
    {
      "epoch": 0.8360416666666667,
      "grad_norm": 0.8286911249160767,
      "learning_rate": 1.9622317573662815e-05,
      "loss": 3.3012,
      "step": 401300
    },
    {
      "epoch": 0.8360625,
      "grad_norm": 0.824496865272522,
      "learning_rate": 1.961744292005911e-05,
      "loss": 3.105,
      "step": 401310
    },
    {
      "epoch": 0.8360833333333333,
      "grad_norm": 0.8996418118476868,
      "learning_rate": 1.9612568829656444e-05,
      "loss": 3.2596,
      "step": 401320
    },
    {
      "epoch": 0.8361041666666666,
      "grad_norm": 0.935474157333374,
      "learning_rate": 1.9607695302475864e-05,
      "loss": 3.2314,
      "step": 401330
    },
    {
      "epoch": 0.836125,
      "grad_norm": 0.8504863381385803,
      "learning_rate": 1.9602822338538434e-05,
      "loss": 3.3053,
      "step": 401340
    },
    {
      "epoch": 0.8361458333333334,
      "grad_norm": 0.967536211013794,
      "learning_rate": 1.959794993786522e-05,
      "loss": 3.2889,
      "step": 401350
    },
    {
      "epoch": 0.8361666666666666,
      "grad_norm": 0.8998039960861206,
      "learning_rate": 1.9593078100477193e-05,
      "loss": 3.2767,
      "step": 401360
    },
    {
      "epoch": 0.8361875,
      "grad_norm": 0.8893704414367676,
      "learning_rate": 1.958820682639547e-05,
      "loss": 3.3821,
      "step": 401370
    },
    {
      "epoch": 0.8362083333333333,
      "grad_norm": 0.9555784463882446,
      "learning_rate": 1.9583336115641113e-05,
      "loss": 3.2826,
      "step": 401380
    },
    {
      "epoch": 0.8362291666666667,
      "grad_norm": 0.9419907927513123,
      "learning_rate": 1.9578465968235058e-05,
      "loss": 3.3575,
      "step": 401390
    },
    {
      "epoch": 0.83625,
      "grad_norm": 0.8918277025222778,
      "learning_rate": 1.957359638419844e-05,
      "loss": 3.1935,
      "step": 401400
    },
    {
      "epoch": 0.8362708333333333,
      "grad_norm": 0.8708764910697937,
      "learning_rate": 1.9568727363552282e-05,
      "loss": 3.34,
      "step": 401410
    },
    {
      "epoch": 0.8362916666666667,
      "grad_norm": 0.9636567234992981,
      "learning_rate": 1.956385890631753e-05,
      "loss": 3.409,
      "step": 401420
    },
    {
      "epoch": 0.8363125,
      "grad_norm": 0.9418388605117798,
      "learning_rate": 1.9558991012515314e-05,
      "loss": 3.3584,
      "step": 401430
    },
    {
      "epoch": 0.8363333333333334,
      "grad_norm": 0.887165904045105,
      "learning_rate": 1.955412368216666e-05,
      "loss": 3.4105,
      "step": 401440
    },
    {
      "epoch": 0.8363541666666666,
      "grad_norm": 0.8940587639808655,
      "learning_rate": 1.9549256915292492e-05,
      "loss": 3.2951,
      "step": 401450
    },
    {
      "epoch": 0.836375,
      "grad_norm": 0.9852892160415649,
      "learning_rate": 1.9544390711913928e-05,
      "loss": 3.2705,
      "step": 401460
    },
    {
      "epoch": 0.8363958333333333,
      "grad_norm": 0.8331546187400818,
      "learning_rate": 1.9539525072051977e-05,
      "loss": 3.3279,
      "step": 401470
    },
    {
      "epoch": 0.8364166666666667,
      "grad_norm": 0.896099865436554,
      "learning_rate": 1.953465999572759e-05,
      "loss": 3.2846,
      "step": 401480
    },
    {
      "epoch": 0.8364375,
      "grad_norm": 0.9035989046096802,
      "learning_rate": 1.952979548296189e-05,
      "loss": 3.3274,
      "step": 401490
    },
    {
      "epoch": 0.8364583333333333,
      "grad_norm": 0.9075231552124023,
      "learning_rate": 1.9524931533775808e-05,
      "loss": 3.3449,
      "step": 401500
    },
    {
      "epoch": 0.8364791666666667,
      "grad_norm": 0.8566175699234009,
      "learning_rate": 1.952006814819032e-05,
      "loss": 3.2795,
      "step": 401510
    },
    {
      "epoch": 0.8365,
      "grad_norm": 1.0136839151382446,
      "learning_rate": 1.9515205326226567e-05,
      "loss": 3.3101,
      "step": 401520
    },
    {
      "epoch": 0.8365208333333334,
      "grad_norm": 0.9079105257987976,
      "learning_rate": 1.951034306790545e-05,
      "loss": 3.3458,
      "step": 401530
    },
    {
      "epoch": 0.8365416666666666,
      "grad_norm": 0.8870792984962463,
      "learning_rate": 1.950548137324796e-05,
      "loss": 3.4079,
      "step": 401540
    },
    {
      "epoch": 0.8365625,
      "grad_norm": 0.826797604560852,
      "learning_rate": 1.9500620242275224e-05,
      "loss": 3.3537,
      "step": 401550
    },
    {
      "epoch": 0.8365833333333333,
      "grad_norm": 0.9052225351333618,
      "learning_rate": 1.94957596750081e-05,
      "loss": 3.3527,
      "step": 401560
    },
    {
      "epoch": 0.8366041666666667,
      "grad_norm": 0.9113252758979797,
      "learning_rate": 1.9490899671467643e-05,
      "loss": 3.3768,
      "step": 401570
    },
    {
      "epoch": 0.836625,
      "grad_norm": 0.9099579453468323,
      "learning_rate": 1.9486040231674833e-05,
      "loss": 3.3642,
      "step": 401580
    },
    {
      "epoch": 0.8366458333333333,
      "grad_norm": 0.9586467742919922,
      "learning_rate": 1.948118135565067e-05,
      "loss": 3.3092,
      "step": 401590
    },
    {
      "epoch": 0.8366666666666667,
      "grad_norm": 0.8635492324829102,
      "learning_rate": 1.9476323043416142e-05,
      "loss": 3.4249,
      "step": 401600
    },
    {
      "epoch": 0.8366875,
      "grad_norm": 0.8678703904151917,
      "learning_rate": 1.9471465294992227e-05,
      "loss": 3.3114,
      "step": 401610
    },
    {
      "epoch": 0.8367083333333334,
      "grad_norm": 0.9583662748336792,
      "learning_rate": 1.946660811039993e-05,
      "loss": 3.2809,
      "step": 401620
    },
    {
      "epoch": 0.8367291666666666,
      "grad_norm": 1.1162432432174683,
      "learning_rate": 1.946175148966021e-05,
      "loss": 3.2545,
      "step": 401630
    },
    {
      "epoch": 0.83675,
      "grad_norm": 0.864226758480072,
      "learning_rate": 1.9456895432794056e-05,
      "loss": 3.3072,
      "step": 401640
    },
    {
      "epoch": 0.8367708333333334,
      "grad_norm": 0.9691360592842102,
      "learning_rate": 1.9452039939822435e-05,
      "loss": 3.351,
      "step": 401650
    },
    {
      "epoch": 0.8367916666666667,
      "grad_norm": 0.9404044151306152,
      "learning_rate": 1.9447185010766325e-05,
      "loss": 3.459,
      "step": 401660
    },
    {
      "epoch": 0.8368125,
      "grad_norm": 0.9271334409713745,
      "learning_rate": 1.9442330645646714e-05,
      "loss": 3.32,
      "step": 401670
    },
    {
      "epoch": 0.8368333333333333,
      "grad_norm": 0.9734601378440857,
      "learning_rate": 1.9437476844484533e-05,
      "loss": 3.3939,
      "step": 401680
    },
    {
      "epoch": 0.8368541666666667,
      "grad_norm": 0.8872528076171875,
      "learning_rate": 1.94326236073008e-05,
      "loss": 3.3128,
      "step": 401690
    },
    {
      "epoch": 0.836875,
      "grad_norm": 0.8925927877426147,
      "learning_rate": 1.9427770934116434e-05,
      "loss": 3.3782,
      "step": 401700
    },
    {
      "epoch": 0.8368958333333333,
      "grad_norm": 0.9117823839187622,
      "learning_rate": 1.942291882495241e-05,
      "loss": 3.4518,
      "step": 401710
    },
    {
      "epoch": 0.8369166666666666,
      "grad_norm": 1.0155671834945679,
      "learning_rate": 1.9418067279829734e-05,
      "loss": 3.3795,
      "step": 401720
    },
    {
      "epoch": 0.8369375,
      "grad_norm": 0.9501909613609314,
      "learning_rate": 1.9413216298769242e-05,
      "loss": 3.2699,
      "step": 401730
    },
    {
      "epoch": 0.8369583333333334,
      "grad_norm": 0.9359685182571411,
      "learning_rate": 1.940836588179201e-05,
      "loss": 3.4422,
      "step": 401740
    },
    {
      "epoch": 0.8369791666666667,
      "grad_norm": 1.0470223426818848,
      "learning_rate": 1.9403516028918974e-05,
      "loss": 3.4139,
      "step": 401750
    },
    {
      "epoch": 0.837,
      "grad_norm": 0.9459607601165771,
      "learning_rate": 1.9398666740170987e-05,
      "loss": 3.2937,
      "step": 401760
    },
    {
      "epoch": 0.8370208333333333,
      "grad_norm": 0.9984844923019409,
      "learning_rate": 1.9393818015569096e-05,
      "loss": 3.3528,
      "step": 401770
    },
    {
      "epoch": 0.8370416666666667,
      "grad_norm": 0.894939661026001,
      "learning_rate": 1.938896985513425e-05,
      "loss": 3.1947,
      "step": 401780
    },
    {
      "epoch": 0.8370625,
      "grad_norm": 0.8808718323707581,
      "learning_rate": 1.9384122258887302e-05,
      "loss": 3.2169,
      "step": 401790
    },
    {
      "epoch": 0.8370833333333333,
      "grad_norm": 0.9549112915992737,
      "learning_rate": 1.9379275226849268e-05,
      "loss": 3.2696,
      "step": 401800
    },
    {
      "epoch": 0.8371041666666666,
      "grad_norm": 1.0524876117706299,
      "learning_rate": 1.9374428759041076e-05,
      "loss": 3.2983,
      "step": 401810
    },
    {
      "epoch": 0.837125,
      "grad_norm": 0.8759270906448364,
      "learning_rate": 1.93695828554836e-05,
      "loss": 3.335,
      "step": 401820
    },
    {
      "epoch": 0.8371458333333334,
      "grad_norm": 0.8909215331077576,
      "learning_rate": 1.9364737516197852e-05,
      "loss": 3.1787,
      "step": 401830
    },
    {
      "epoch": 0.8371666666666666,
      "grad_norm": 0.8804571628570557,
      "learning_rate": 1.935989274120475e-05,
      "loss": 3.3179,
      "step": 401840
    },
    {
      "epoch": 0.8371875,
      "grad_norm": 0.943261981010437,
      "learning_rate": 1.9355048530525146e-05,
      "loss": 3.2732,
      "step": 401850
    },
    {
      "epoch": 0.8372083333333333,
      "grad_norm": 0.8394222259521484,
      "learning_rate": 1.9350204884180086e-05,
      "loss": 3.2194,
      "step": 401860
    },
    {
      "epoch": 0.8372291666666667,
      "grad_norm": 0.9333431720733643,
      "learning_rate": 1.934536180219039e-05,
      "loss": 3.362,
      "step": 401870
    },
    {
      "epoch": 0.83725,
      "grad_norm": 0.8802396655082703,
      "learning_rate": 1.9340519284577006e-05,
      "loss": 3.4258,
      "step": 401880
    },
    {
      "epoch": 0.8372708333333333,
      "grad_norm": 0.8031928539276123,
      "learning_rate": 1.9335677331360867e-05,
      "loss": 3.3409,
      "step": 401890
    },
    {
      "epoch": 0.8372916666666667,
      "grad_norm": 0.925844669342041,
      "learning_rate": 1.933083594256289e-05,
      "loss": 3.287,
      "step": 401900
    },
    {
      "epoch": 0.8373125,
      "grad_norm": 0.9082682728767395,
      "learning_rate": 1.9325995118203957e-05,
      "loss": 3.3909,
      "step": 401910
    },
    {
      "epoch": 0.8373333333333334,
      "grad_norm": 1.0544513463974,
      "learning_rate": 1.9321154858305023e-05,
      "loss": 3.2808,
      "step": 401920
    },
    {
      "epoch": 0.8373541666666666,
      "grad_norm": 0.930972158908844,
      "learning_rate": 1.9316315162886964e-05,
      "loss": 3.2214,
      "step": 401930
    },
    {
      "epoch": 0.837375,
      "grad_norm": 1.041789174079895,
      "learning_rate": 1.93114760319707e-05,
      "loss": 3.2859,
      "step": 401940
    },
    {
      "epoch": 0.8373958333333333,
      "grad_norm": 0.8435291647911072,
      "learning_rate": 1.9306637465577118e-05,
      "loss": 3.4683,
      "step": 401950
    },
    {
      "epoch": 0.8374166666666667,
      "grad_norm": 0.8544617891311646,
      "learning_rate": 1.9301799463727146e-05,
      "loss": 3.3116,
      "step": 401960
    },
    {
      "epoch": 0.8374375,
      "grad_norm": 0.8783939480781555,
      "learning_rate": 1.9296962026441652e-05,
      "loss": 3.3113,
      "step": 401970
    },
    {
      "epoch": 0.8374583333333333,
      "grad_norm": 0.9336197972297668,
      "learning_rate": 1.9292125153741555e-05,
      "loss": 3.3323,
      "step": 401980
    },
    {
      "epoch": 0.8374791666666667,
      "grad_norm": 1.0131303071975708,
      "learning_rate": 1.9287288845647735e-05,
      "loss": 3.3828,
      "step": 401990
    },
    {
      "epoch": 0.8375,
      "grad_norm": 1.0287413597106934,
      "learning_rate": 1.9282453102181093e-05,
      "loss": 3.3231,
      "step": 402000
    },
    {
      "epoch": 0.8375,
      "eval_loss": 4.0315446853637695,
      "eval_runtime": 9.0831,
      "eval_samples_per_second": 1.101,
      "eval_steps_per_second": 0.33,
      "step": 402000
    },
    {
      "epoch": 0.8375208333333334,
      "grad_norm": 0.9000398516654968,
      "learning_rate": 1.9277617923362515e-05,
      "loss": 3.3606,
      "step": 402010
    },
    {
      "epoch": 0.8375416666666666,
      "grad_norm": 0.9177122712135315,
      "learning_rate": 1.927278330921288e-05,
      "loss": 3.2349,
      "step": 402020
    },
    {
      "epoch": 0.8375625,
      "grad_norm": 0.8354646563529968,
      "learning_rate": 1.9267949259753075e-05,
      "loss": 3.3467,
      "step": 402030
    },
    {
      "epoch": 0.8375833333333333,
      "grad_norm": 0.9514551758766174,
      "learning_rate": 1.926311577500398e-05,
      "loss": 3.2497,
      "step": 402040
    },
    {
      "epoch": 0.8376041666666667,
      "grad_norm": 0.9774094820022583,
      "learning_rate": 1.9258282854986464e-05,
      "loss": 3.4552,
      "step": 402050
    },
    {
      "epoch": 0.837625,
      "grad_norm": 0.84833824634552,
      "learning_rate": 1.9253450499721424e-05,
      "loss": 3.3776,
      "step": 402060
    },
    {
      "epoch": 0.8376458333333333,
      "grad_norm": 1.0392481088638306,
      "learning_rate": 1.924861870922973e-05,
      "loss": 3.4679,
      "step": 402070
    },
    {
      "epoch": 0.8376666666666667,
      "grad_norm": 0.9371193647384644,
      "learning_rate": 1.9243787483532246e-05,
      "loss": 3.4236,
      "step": 402080
    },
    {
      "epoch": 0.8376875,
      "grad_norm": 0.9829968214035034,
      "learning_rate": 1.9238956822649877e-05,
      "loss": 3.373,
      "step": 402090
    },
    {
      "epoch": 0.8377083333333334,
      "grad_norm": 0.9421303868293762,
      "learning_rate": 1.92341267266034e-05,
      "loss": 3.3594,
      "step": 402100
    },
    {
      "epoch": 0.8377291666666666,
      "grad_norm": 1.0188395977020264,
      "learning_rate": 1.922929719541375e-05,
      "loss": 3.2917,
      "step": 402110
    },
    {
      "epoch": 0.83775,
      "grad_norm": 0.8868695497512817,
      "learning_rate": 1.9224468229101814e-05,
      "loss": 3.276,
      "step": 402120
    },
    {
      "epoch": 0.8377708333333334,
      "grad_norm": 0.8973007798194885,
      "learning_rate": 1.921963982768834e-05,
      "loss": 3.3037,
      "step": 402130
    },
    {
      "epoch": 0.8377916666666667,
      "grad_norm": 0.9414737820625305,
      "learning_rate": 1.921481199119429e-05,
      "loss": 3.2921,
      "step": 402140
    },
    {
      "epoch": 0.8378125,
      "grad_norm": 0.860645055770874,
      "learning_rate": 1.920998471964052e-05,
      "loss": 3.3732,
      "step": 402150
    },
    {
      "epoch": 0.8378333333333333,
      "grad_norm": 0.8592146039009094,
      "learning_rate": 1.920515801304781e-05,
      "loss": 3.3911,
      "step": 402160
    },
    {
      "epoch": 0.8378541666666667,
      "grad_norm": 1.0598137378692627,
      "learning_rate": 1.9200331871437015e-05,
      "loss": 3.3426,
      "step": 402170
    },
    {
      "epoch": 0.837875,
      "grad_norm": 0.933165431022644,
      "learning_rate": 1.9195506294829078e-05,
      "loss": 3.2248,
      "step": 402180
    },
    {
      "epoch": 0.8378958333333333,
      "grad_norm": 0.8489751219749451,
      "learning_rate": 1.9190681283244752e-05,
      "loss": 3.4817,
      "step": 402190
    },
    {
      "epoch": 0.8379166666666666,
      "grad_norm": 0.9237064123153687,
      "learning_rate": 1.9185856836704856e-05,
      "loss": 3.3062,
      "step": 402200
    },
    {
      "epoch": 0.8379375,
      "grad_norm": 0.9181270599365234,
      "learning_rate": 1.9181032955230353e-05,
      "loss": 3.1761,
      "step": 402210
    },
    {
      "epoch": 0.8379583333333334,
      "grad_norm": 1.0474156141281128,
      "learning_rate": 1.917620963884198e-05,
      "loss": 3.4556,
      "step": 402220
    },
    {
      "epoch": 0.8379791666666667,
      "grad_norm": 0.8731299638748169,
      "learning_rate": 1.917138688756058e-05,
      "loss": 3.3375,
      "step": 402230
    },
    {
      "epoch": 0.838,
      "grad_norm": 0.9066022634506226,
      "learning_rate": 1.916656470140701e-05,
      "loss": 3.3559,
      "step": 402240
    },
    {
      "epoch": 0.8380208333333333,
      "grad_norm": 0.9544389843940735,
      "learning_rate": 1.9161743080402103e-05,
      "loss": 3.3436,
      "step": 402250
    },
    {
      "epoch": 0.8380416666666667,
      "grad_norm": 0.9169885516166687,
      "learning_rate": 1.9156922024566672e-05,
      "loss": 3.4037,
      "step": 402260
    },
    {
      "epoch": 0.8380625,
      "grad_norm": 0.8948508501052856,
      "learning_rate": 1.915210153392154e-05,
      "loss": 3.313,
      "step": 402270
    },
    {
      "epoch": 0.8380833333333333,
      "grad_norm": 1.0298246145248413,
      "learning_rate": 1.9147281608487548e-05,
      "loss": 3.2724,
      "step": 402280
    },
    {
      "epoch": 0.8381041666666667,
      "grad_norm": 0.8733676671981812,
      "learning_rate": 1.9142462248285484e-05,
      "loss": 3.2321,
      "step": 402290
    },
    {
      "epoch": 0.838125,
      "grad_norm": 1.0765553712844849,
      "learning_rate": 1.91376434533362e-05,
      "loss": 3.476,
      "step": 402300
    },
    {
      "epoch": 0.8381458333333334,
      "grad_norm": 0.9333398938179016,
      "learning_rate": 1.913282522366051e-05,
      "loss": 3.3456,
      "step": 402310
    },
    {
      "epoch": 0.8381666666666666,
      "grad_norm": 0.9318583607673645,
      "learning_rate": 1.9128007559279195e-05,
      "loss": 3.2931,
      "step": 402320
    },
    {
      "epoch": 0.8381875,
      "grad_norm": 0.979733943939209,
      "learning_rate": 1.9123190460213095e-05,
      "loss": 3.3834,
      "step": 402330
    },
    {
      "epoch": 0.8382083333333333,
      "grad_norm": 1.0020889043807983,
      "learning_rate": 1.9118373926482987e-05,
      "loss": 3.4938,
      "step": 402340
    },
    {
      "epoch": 0.8382291666666667,
      "grad_norm": 0.9025121331214905,
      "learning_rate": 1.9113557958109726e-05,
      "loss": 3.3444,
      "step": 402350
    },
    {
      "epoch": 0.83825,
      "grad_norm": 0.8604888916015625,
      "learning_rate": 1.910874255511406e-05,
      "loss": 3.2811,
      "step": 402360
    },
    {
      "epoch": 0.8382708333333333,
      "grad_norm": 0.8769691586494446,
      "learning_rate": 1.9103927717516838e-05,
      "loss": 3.3224,
      "step": 402370
    },
    {
      "epoch": 0.8382916666666667,
      "grad_norm": 0.9348462224006653,
      "learning_rate": 1.9099113445338828e-05,
      "loss": 3.3762,
      "step": 402380
    },
    {
      "epoch": 0.8383125,
      "grad_norm": 0.9184036254882812,
      "learning_rate": 1.9094299738600826e-05,
      "loss": 3.3687,
      "step": 402390
    },
    {
      "epoch": 0.8383333333333334,
      "grad_norm": 0.9155829548835754,
      "learning_rate": 1.908948659732364e-05,
      "loss": 3.415,
      "step": 402400
    },
    {
      "epoch": 0.8383541666666666,
      "grad_norm": 0.8613936901092529,
      "learning_rate": 1.9084674021528063e-05,
      "loss": 3.3976,
      "step": 402410
    },
    {
      "epoch": 0.838375,
      "grad_norm": 0.9605003595352173,
      "learning_rate": 1.9079862011234865e-05,
      "loss": 3.4072,
      "step": 402420
    },
    {
      "epoch": 0.8383958333333333,
      "grad_norm": 0.9030373692512512,
      "learning_rate": 1.9075050566464826e-05,
      "loss": 3.442,
      "step": 402430
    },
    {
      "epoch": 0.8384166666666667,
      "grad_norm": 0.8178304433822632,
      "learning_rate": 1.9070239687238768e-05,
      "loss": 3.3217,
      "step": 402440
    },
    {
      "epoch": 0.8384375,
      "grad_norm": 0.993766188621521,
      "learning_rate": 1.906542937357744e-05,
      "loss": 3.2682,
      "step": 402450
    },
    {
      "epoch": 0.8384583333333333,
      "grad_norm": 0.94074547290802,
      "learning_rate": 1.9060619625501638e-05,
      "loss": 3.3138,
      "step": 402460
    },
    {
      "epoch": 0.8384791666666667,
      "grad_norm": 0.99680095911026,
      "learning_rate": 1.905581044303215e-05,
      "loss": 3.4018,
      "step": 402470
    },
    {
      "epoch": 0.8385,
      "grad_norm": 0.9269281625747681,
      "learning_rate": 1.9051001826189673e-05,
      "loss": 3.5315,
      "step": 402480
    },
    {
      "epoch": 0.8385208333333334,
      "grad_norm": 0.8496794104576111,
      "learning_rate": 1.904619377499509e-05,
      "loss": 3.1998,
      "step": 402490
    },
    {
      "epoch": 0.8385416666666666,
      "grad_norm": 1.0134449005126953,
      "learning_rate": 1.9041386289469084e-05,
      "loss": 3.2776,
      "step": 402500
    },
    {
      "epoch": 0.8385625,
      "grad_norm": 0.9488767981529236,
      "learning_rate": 1.9036579369632428e-05,
      "loss": 3.3172,
      "step": 402510
    },
    {
      "epoch": 0.8385833333333333,
      "grad_norm": 0.8835818767547607,
      "learning_rate": 1.903177301550598e-05,
      "loss": 3.209,
      "step": 402520
    },
    {
      "epoch": 0.8386041666666667,
      "grad_norm": 0.8969939351081848,
      "learning_rate": 1.902696722711038e-05,
      "loss": 3.3998,
      "step": 402530
    },
    {
      "epoch": 0.838625,
      "grad_norm": 0.8390608429908752,
      "learning_rate": 1.9022162004466423e-05,
      "loss": 3.2923,
      "step": 402540
    },
    {
      "epoch": 0.8386458333333333,
      "grad_norm": 0.8829876780509949,
      "learning_rate": 1.9017357347594946e-05,
      "loss": 3.2937,
      "step": 402550
    },
    {
      "epoch": 0.8386666666666667,
      "grad_norm": 1.115454077720642,
      "learning_rate": 1.90125532565166e-05,
      "loss": 3.3356,
      "step": 402560
    },
    {
      "epoch": 0.8386875,
      "grad_norm": 0.986530065536499,
      "learning_rate": 1.900774973125213e-05,
      "loss": 3.3057,
      "step": 402570
    },
    {
      "epoch": 0.8387083333333333,
      "grad_norm": 0.8815562725067139,
      "learning_rate": 1.9002946771822425e-05,
      "loss": 3.3248,
      "step": 402580
    },
    {
      "epoch": 0.8387291666666666,
      "grad_norm": 0.8580002188682556,
      "learning_rate": 1.8998144378248082e-05,
      "loss": 3.3756,
      "step": 402590
    },
    {
      "epoch": 0.83875,
      "grad_norm": 0.9728588461875916,
      "learning_rate": 1.8993342550549916e-05,
      "loss": 3.3611,
      "step": 402600
    },
    {
      "epoch": 0.8387708333333334,
      "grad_norm": 0.8620745539665222,
      "learning_rate": 1.8988541288748648e-05,
      "loss": 3.3384,
      "step": 402610
    },
    {
      "epoch": 0.8387916666666667,
      "grad_norm": 0.9800752401351929,
      "learning_rate": 1.898374059286501e-05,
      "loss": 3.4477,
      "step": 402620
    },
    {
      "epoch": 0.8388125,
      "grad_norm": 1.0317397117614746,
      "learning_rate": 1.8978940462919767e-05,
      "loss": 3.2939,
      "step": 402630
    },
    {
      "epoch": 0.8388333333333333,
      "grad_norm": 0.9214864373207092,
      "learning_rate": 1.897414089893364e-05,
      "loss": 3.3354,
      "step": 402640
    },
    {
      "epoch": 0.8388541666666667,
      "grad_norm": 0.8957672715187073,
      "learning_rate": 1.8969341900927353e-05,
      "loss": 3.2936,
      "step": 402650
    },
    {
      "epoch": 0.838875,
      "grad_norm": 1.0315889120101929,
      "learning_rate": 1.896454346892165e-05,
      "loss": 3.2631,
      "step": 402660
    },
    {
      "epoch": 0.8388958333333333,
      "grad_norm": 0.9391798973083496,
      "learning_rate": 1.895974560293726e-05,
      "loss": 3.2913,
      "step": 402670
    },
    {
      "epoch": 0.8389166666666666,
      "grad_norm": 1.106811285018921,
      "learning_rate": 1.895494830299488e-05,
      "loss": 3.5581,
      "step": 402680
    },
    {
      "epoch": 0.8389375,
      "grad_norm": 0.8636461496353149,
      "learning_rate": 1.8950151569115267e-05,
      "loss": 3.4282,
      "step": 402690
    },
    {
      "epoch": 0.8389583333333334,
      "grad_norm": 0.8454961180686951,
      "learning_rate": 1.8945355401319135e-05,
      "loss": 3.3005,
      "step": 402700
    },
    {
      "epoch": 0.8389791666666667,
      "grad_norm": 0.8315040469169617,
      "learning_rate": 1.8940559799627163e-05,
      "loss": 3.3525,
      "step": 402710
    },
    {
      "epoch": 0.839,
      "grad_norm": 0.878197968006134,
      "learning_rate": 1.8935764764060125e-05,
      "loss": 3.4041,
      "step": 402720
    },
    {
      "epoch": 0.8390208333333333,
      "grad_norm": 0.8284345269203186,
      "learning_rate": 1.893097029463868e-05,
      "loss": 3.279,
      "step": 402730
    },
    {
      "epoch": 0.8390416666666667,
      "grad_norm": 0.8519514203071594,
      "learning_rate": 1.8926176391383584e-05,
      "loss": 3.26,
      "step": 402740
    },
    {
      "epoch": 0.8390625,
      "grad_norm": 0.9724224209785461,
      "learning_rate": 1.8921383054315535e-05,
      "loss": 3.3228,
      "step": 402750
    },
    {
      "epoch": 0.8390833333333333,
      "grad_norm": 0.9570343494415283,
      "learning_rate": 1.8916590283455185e-05,
      "loss": 3.3466,
      "step": 402760
    },
    {
      "epoch": 0.8391041666666667,
      "grad_norm": 0.8650256395339966,
      "learning_rate": 1.89117980788233e-05,
      "loss": 3.372,
      "step": 402770
    },
    {
      "epoch": 0.839125,
      "grad_norm": 0.9187758564949036,
      "learning_rate": 1.8907006440440592e-05,
      "loss": 3.3332,
      "step": 402780
    },
    {
      "epoch": 0.8391458333333334,
      "grad_norm": 0.9406300187110901,
      "learning_rate": 1.890221536832765e-05,
      "loss": 3.3747,
      "step": 402790
    },
    {
      "epoch": 0.8391666666666666,
      "grad_norm": 0.9127790927886963,
      "learning_rate": 1.889742486250529e-05,
      "loss": 3.4025,
      "step": 402800
    },
    {
      "epoch": 0.8391875,
      "grad_norm": 1.0148520469665527,
      "learning_rate": 1.8892634922994194e-05,
      "loss": 3.3648,
      "step": 402810
    },
    {
      "epoch": 0.8392083333333333,
      "grad_norm": 0.9454180002212524,
      "learning_rate": 1.8887845549814946e-05,
      "loss": 3.3053,
      "step": 402820
    },
    {
      "epoch": 0.8392291666666667,
      "grad_norm": 0.8612052202224731,
      "learning_rate": 1.8883056742988345e-05,
      "loss": 3.3617,
      "step": 402830
    },
    {
      "epoch": 0.83925,
      "grad_norm": 0.956237256526947,
      "learning_rate": 1.8878268502535077e-05,
      "loss": 3.4144,
      "step": 402840
    },
    {
      "epoch": 0.8392708333333333,
      "grad_norm": 0.903070867061615,
      "learning_rate": 1.8873480828475706e-05,
      "loss": 3.2897,
      "step": 402850
    },
    {
      "epoch": 0.8392916666666667,
      "grad_norm": 0.9033176302909851,
      "learning_rate": 1.8868693720831068e-05,
      "loss": 3.2831,
      "step": 402860
    },
    {
      "epoch": 0.8393125,
      "grad_norm": 0.9793075919151306,
      "learning_rate": 1.8863907179621746e-05,
      "loss": 3.3269,
      "step": 402870
    },
    {
      "epoch": 0.8393333333333334,
      "grad_norm": 0.9231159090995789,
      "learning_rate": 1.8859121204868404e-05,
      "loss": 3.238,
      "step": 402880
    },
    {
      "epoch": 0.8393541666666666,
      "grad_norm": 0.8219699859619141,
      "learning_rate": 1.8854335796591796e-05,
      "loss": 3.3886,
      "step": 402890
    },
    {
      "epoch": 0.839375,
      "grad_norm": 0.8659297823905945,
      "learning_rate": 1.884955095481252e-05,
      "loss": 3.3476,
      "step": 402900
    },
    {
      "epoch": 0.8393958333333333,
      "grad_norm": 0.9416595697402954,
      "learning_rate": 1.8844766679551243e-05,
      "loss": 3.3984,
      "step": 402910
    },
    {
      "epoch": 0.8394166666666667,
      "grad_norm": 0.8825905919075012,
      "learning_rate": 1.8839982970828734e-05,
      "loss": 3.2561,
      "step": 402920
    },
    {
      "epoch": 0.8394375,
      "grad_norm": 0.8613882660865784,
      "learning_rate": 1.883519982866554e-05,
      "loss": 3.2332,
      "step": 402930
    },
    {
      "epoch": 0.8394583333333333,
      "grad_norm": 0.9094610214233398,
      "learning_rate": 1.8830417253082326e-05,
      "loss": 3.3817,
      "step": 402940
    },
    {
      "epoch": 0.8394791666666667,
      "grad_norm": 0.8397777080535889,
      "learning_rate": 1.8825635244099863e-05,
      "loss": 3.344,
      "step": 402950
    },
    {
      "epoch": 0.8395,
      "grad_norm": 1.020401954650879,
      "learning_rate": 1.88208538017387e-05,
      "loss": 3.3519,
      "step": 402960
    },
    {
      "epoch": 0.8395208333333334,
      "grad_norm": 0.8461822271347046,
      "learning_rate": 1.881607292601949e-05,
      "loss": 3.2545,
      "step": 402970
    },
    {
      "epoch": 0.8395416666666666,
      "grad_norm": 0.9128211140632629,
      "learning_rate": 1.8811292616962975e-05,
      "loss": 3.2383,
      "step": 402980
    },
    {
      "epoch": 0.8395625,
      "grad_norm": 0.8743642568588257,
      "learning_rate": 1.880651287458973e-05,
      "loss": 3.4051,
      "step": 402990
    },
    {
      "epoch": 0.8395833333333333,
      "grad_norm": 0.8992775082588196,
      "learning_rate": 1.88017336989204e-05,
      "loss": 3.3298,
      "step": 403000
    },
    {
      "epoch": 0.8395833333333333,
      "eval_loss": 4.033769607543945,
      "eval_runtime": 8.0249,
      "eval_samples_per_second": 1.246,
      "eval_steps_per_second": 0.374,
      "step": 403000
    },
    {
      "epoch": 0.8396041666666667,
      "grad_norm": 0.8798145055770874,
      "learning_rate": 1.8796955089975675e-05,
      "loss": 3.3546,
      "step": 403010
    },
    {
      "epoch": 0.839625,
      "grad_norm": 0.9155245423316956,
      "learning_rate": 1.8792177047776148e-05,
      "loss": 3.4001,
      "step": 403020
    },
    {
      "epoch": 0.8396458333333333,
      "grad_norm": 1.0034692287445068,
      "learning_rate": 1.8787399572342486e-05,
      "loss": 3.2572,
      "step": 403030
    },
    {
      "epoch": 0.8396666666666667,
      "grad_norm": 0.8710973858833313,
      "learning_rate": 1.8782622663695328e-05,
      "loss": 3.3822,
      "step": 403040
    },
    {
      "epoch": 0.8396875,
      "grad_norm": 0.8364653587341309,
      "learning_rate": 1.877784632185529e-05,
      "loss": 3.3793,
      "step": 403050
    },
    {
      "epoch": 0.8397083333333333,
      "grad_norm": 0.8603622913360596,
      "learning_rate": 1.8773070546843017e-05,
      "loss": 3.3509,
      "step": 403060
    },
    {
      "epoch": 0.8397291666666666,
      "grad_norm": 0.8894107937812805,
      "learning_rate": 1.8768295338679145e-05,
      "loss": 3.2951,
      "step": 403070
    },
    {
      "epoch": 0.83975,
      "grad_norm": 0.9602834582328796,
      "learning_rate": 1.8763520697384278e-05,
      "loss": 3.3062,
      "step": 403080
    },
    {
      "epoch": 0.8397708333333334,
      "grad_norm": 0.8558270931243896,
      "learning_rate": 1.875874662297911e-05,
      "loss": 3.3217,
      "step": 403090
    },
    {
      "epoch": 0.8397916666666667,
      "grad_norm": 0.9033423066139221,
      "learning_rate": 1.8753973115484113e-05,
      "loss": 3.3513,
      "step": 403100
    },
    {
      "epoch": 0.8398125,
      "grad_norm": 0.9101985096931458,
      "learning_rate": 1.874920017492005e-05,
      "loss": 3.3777,
      "step": 403110
    },
    {
      "epoch": 0.8398333333333333,
      "grad_norm": 1.3051822185516357,
      "learning_rate": 1.874442780130752e-05,
      "loss": 3.3382,
      "step": 403120
    },
    {
      "epoch": 0.8398541666666667,
      "grad_norm": 0.9739718437194824,
      "learning_rate": 1.8739655994667046e-05,
      "loss": 3.349,
      "step": 403130
    },
    {
      "epoch": 0.839875,
      "grad_norm": 0.8743062019348145,
      "learning_rate": 1.873488475501934e-05,
      "loss": 3.4196,
      "step": 403140
    },
    {
      "epoch": 0.8398958333333333,
      "grad_norm": 0.8507559299468994,
      "learning_rate": 1.873011408238499e-05,
      "loss": 3.2335,
      "step": 403150
    },
    {
      "epoch": 0.8399166666666666,
      "grad_norm": 0.8385907411575317,
      "learning_rate": 1.8725343976784523e-05,
      "loss": 3.2794,
      "step": 403160
    },
    {
      "epoch": 0.8399375,
      "grad_norm": 0.9984268546104431,
      "learning_rate": 1.8720574438238645e-05,
      "loss": 3.2037,
      "step": 403170
    },
    {
      "epoch": 0.8399583333333334,
      "grad_norm": 0.8392367362976074,
      "learning_rate": 1.871580546676797e-05,
      "loss": 3.3701,
      "step": 403180
    },
    {
      "epoch": 0.8399791666666667,
      "grad_norm": 0.9381882548332214,
      "learning_rate": 1.8711037062392964e-05,
      "loss": 3.3666,
      "step": 403190
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0433671474456787,
      "learning_rate": 1.8706269225134347e-05,
      "loss": 3.3177,
      "step": 403200
    },
    {
      "epoch": 0.8400208333333333,
      "grad_norm": 0.8646520376205444,
      "learning_rate": 1.8701501955012714e-05,
      "loss": 3.2929,
      "step": 403210
    },
    {
      "epoch": 0.8400416666666667,
      "grad_norm": 0.8752370476722717,
      "learning_rate": 1.8696735252048557e-05,
      "loss": 3.2915,
      "step": 403220
    },
    {
      "epoch": 0.8400625,
      "grad_norm": 0.9387830495834351,
      "learning_rate": 1.8691969116262585e-05,
      "loss": 3.2046,
      "step": 403230
    },
    {
      "epoch": 0.8400833333333333,
      "grad_norm": 0.8173462152481079,
      "learning_rate": 1.86872035476753e-05,
      "loss": 3.3048,
      "step": 403240
    },
    {
      "epoch": 0.8401041666666667,
      "grad_norm": 0.9319809079170227,
      "learning_rate": 1.8682438546307306e-05,
      "loss": 3.2949,
      "step": 403250
    },
    {
      "epoch": 0.840125,
      "grad_norm": 1.0478631258010864,
      "learning_rate": 1.8677674112179232e-05,
      "loss": 3.3773,
      "step": 403260
    },
    {
      "epoch": 0.8401458333333334,
      "grad_norm": 0.8864938616752625,
      "learning_rate": 1.8672910245311613e-05,
      "loss": 3.1983,
      "step": 403270
    },
    {
      "epoch": 0.8401666666666666,
      "grad_norm": 0.883528470993042,
      "learning_rate": 1.8668146945725e-05,
      "loss": 3.3536,
      "step": 403280
    },
    {
      "epoch": 0.8401875,
      "grad_norm": 1.0295631885528564,
      "learning_rate": 1.8663384213440076e-05,
      "loss": 3.3806,
      "step": 403290
    },
    {
      "epoch": 0.8402083333333333,
      "grad_norm": 0.9062504768371582,
      "learning_rate": 1.8658622048477323e-05,
      "loss": 3.401,
      "step": 403300
    },
    {
      "epoch": 0.8402291666666667,
      "grad_norm": 1.0121886730194092,
      "learning_rate": 1.865386045085728e-05,
      "loss": 3.4255,
      "step": 403310
    },
    {
      "epoch": 0.84025,
      "grad_norm": 0.8968626260757446,
      "learning_rate": 1.8649099420600656e-05,
      "loss": 3.319,
      "step": 403320
    },
    {
      "epoch": 0.8402708333333333,
      "grad_norm": 0.9629144072532654,
      "learning_rate": 1.8644338957727872e-05,
      "loss": 3.3338,
      "step": 403330
    },
    {
      "epoch": 0.8402916666666667,
      "grad_norm": 0.8154228329658508,
      "learning_rate": 1.8639579062259564e-05,
      "loss": 3.2806,
      "step": 403340
    },
    {
      "epoch": 0.8403125,
      "grad_norm": 0.8627896308898926,
      "learning_rate": 1.863481973421628e-05,
      "loss": 3.2681,
      "step": 403350
    },
    {
      "epoch": 0.8403333333333334,
      "grad_norm": 0.9083333611488342,
      "learning_rate": 1.8630060973618583e-05,
      "loss": 3.3375,
      "step": 403360
    },
    {
      "epoch": 0.8403541666666666,
      "grad_norm": 1.054666519165039,
      "learning_rate": 1.862530278048701e-05,
      "loss": 3.3095,
      "step": 403370
    },
    {
      "epoch": 0.840375,
      "grad_norm": 0.905297040939331,
      "learning_rate": 1.862054515484213e-05,
      "loss": 3.3496,
      "step": 403380
    },
    {
      "epoch": 0.8403958333333333,
      "grad_norm": 0.9294458627700806,
      "learning_rate": 1.8615788096704494e-05,
      "loss": 3.5222,
      "step": 403390
    },
    {
      "epoch": 0.8404166666666667,
      "grad_norm": 0.8695787787437439,
      "learning_rate": 1.8611031606094646e-05,
      "loss": 3.3789,
      "step": 403400
    },
    {
      "epoch": 0.8404375,
      "grad_norm": 0.8896695375442505,
      "learning_rate": 1.860627568303314e-05,
      "loss": 3.2567,
      "step": 403410
    },
    {
      "epoch": 0.8404583333333333,
      "grad_norm": 0.8635447025299072,
      "learning_rate": 1.8601520327540508e-05,
      "loss": 3.272,
      "step": 403420
    },
    {
      "epoch": 0.8404791666666667,
      "grad_norm": 0.8229804039001465,
      "learning_rate": 1.8596765539637303e-05,
      "loss": 3.325,
      "step": 403430
    },
    {
      "epoch": 0.8405,
      "grad_norm": 0.8565951585769653,
      "learning_rate": 1.8592011319344056e-05,
      "loss": 3.3828,
      "step": 403440
    },
    {
      "epoch": 0.8405208333333334,
      "grad_norm": 0.9144446849822998,
      "learning_rate": 1.8587257666681303e-05,
      "loss": 3.2581,
      "step": 403450
    },
    {
      "epoch": 0.8405416666666666,
      "grad_norm": 0.9915410280227661,
      "learning_rate": 1.858250458166961e-05,
      "loss": 3.431,
      "step": 403460
    },
    {
      "epoch": 0.8405625,
      "grad_norm": 0.9280823469161987,
      "learning_rate": 1.857775206432941e-05,
      "loss": 3.285,
      "step": 403470
    },
    {
      "epoch": 0.8405833333333333,
      "grad_norm": 0.9582579731941223,
      "learning_rate": 1.8573000114681336e-05,
      "loss": 3.2409,
      "step": 403480
    },
    {
      "epoch": 0.8406041666666667,
      "grad_norm": 0.8878750205039978,
      "learning_rate": 1.8568248732745923e-05,
      "loss": 3.1723,
      "step": 403490
    },
    {
      "epoch": 0.840625,
      "grad_norm": 0.8951900005340576,
      "learning_rate": 1.856349791854357e-05,
      "loss": 3.4144,
      "step": 403500
    },
    {
      "epoch": 0.8406458333333333,
      "grad_norm": 0.9177601933479309,
      "learning_rate": 1.8558747672094925e-05,
      "loss": 3.2306,
      "step": 403510
    },
    {
      "epoch": 0.8406666666666667,
      "grad_norm": 0.9027993679046631,
      "learning_rate": 1.8553997993420495e-05,
      "loss": 3.3114,
      "step": 403520
    },
    {
      "epoch": 0.8406875,
      "grad_norm": 0.8939453363418579,
      "learning_rate": 1.854924888254069e-05,
      "loss": 3.2895,
      "step": 403530
    },
    {
      "epoch": 0.8407083333333333,
      "grad_norm": 0.9750493168830872,
      "learning_rate": 1.8544500339476133e-05,
      "loss": 3.376,
      "step": 403540
    },
    {
      "epoch": 0.8407291666666666,
      "grad_norm": 0.8892871737480164,
      "learning_rate": 1.8539752364247336e-05,
      "loss": 3.397,
      "step": 403550
    },
    {
      "epoch": 0.84075,
      "grad_norm": 0.9244698286056519,
      "learning_rate": 1.8535004956874698e-05,
      "loss": 3.2856,
      "step": 403560
    },
    {
      "epoch": 0.8407708333333334,
      "grad_norm": 0.9891796112060547,
      "learning_rate": 1.8530258117378844e-05,
      "loss": 3.3451,
      "step": 403570
    },
    {
      "epoch": 0.8407916666666667,
      "grad_norm": 0.939807653427124,
      "learning_rate": 1.8525511845780268e-05,
      "loss": 3.233,
      "step": 403580
    },
    {
      "epoch": 0.8408125,
      "grad_norm": 0.8767879605293274,
      "learning_rate": 1.852076614209937e-05,
      "loss": 3.3056,
      "step": 403590
    },
    {
      "epoch": 0.8408333333333333,
      "grad_norm": 1.1498183012008667,
      "learning_rate": 1.8516021006356783e-05,
      "loss": 3.3465,
      "step": 403600
    },
    {
      "epoch": 0.8408541666666667,
      "grad_norm": 0.8303945660591125,
      "learning_rate": 1.8511276438572912e-05,
      "loss": 3.3475,
      "step": 403610
    },
    {
      "epoch": 0.840875,
      "grad_norm": 0.9800007343292236,
      "learning_rate": 1.8506532438768258e-05,
      "loss": 3.4235,
      "step": 403620
    },
    {
      "epoch": 0.8408958333333333,
      "grad_norm": 0.8409579992294312,
      "learning_rate": 1.850178900696338e-05,
      "loss": 3.4112,
      "step": 403630
    },
    {
      "epoch": 0.8409166666666666,
      "grad_norm": 0.8294390439987183,
      "learning_rate": 1.84970461431787e-05,
      "loss": 3.2306,
      "step": 403640
    },
    {
      "epoch": 0.8409375,
      "grad_norm": 0.9283778071403503,
      "learning_rate": 1.849230384743472e-05,
      "loss": 3.3083,
      "step": 403650
    },
    {
      "epoch": 0.8409583333333334,
      "grad_norm": 0.9507520794868469,
      "learning_rate": 1.8487562119751955e-05,
      "loss": 3.2871,
      "step": 403660
    },
    {
      "epoch": 0.8409791666666667,
      "grad_norm": 0.8897015452384949,
      "learning_rate": 1.848282096015085e-05,
      "loss": 3.3293,
      "step": 403670
    },
    {
      "epoch": 0.841,
      "grad_norm": 0.9088177680969238,
      "learning_rate": 1.8478080368651897e-05,
      "loss": 3.3253,
      "step": 403680
    },
    {
      "epoch": 0.8410208333333333,
      "grad_norm": 0.97852623462677,
      "learning_rate": 1.8473340345275577e-05,
      "loss": 3.2974,
      "step": 403690
    },
    {
      "epoch": 0.8410416666666667,
      "grad_norm": 0.8114220499992371,
      "learning_rate": 1.8468600890042375e-05,
      "loss": 3.2797,
      "step": 403700
    },
    {
      "epoch": 0.8410625,
      "grad_norm": 0.8922566771507263,
      "learning_rate": 1.846386200297275e-05,
      "loss": 3.321,
      "step": 403710
    },
    {
      "epoch": 0.8410833333333333,
      "grad_norm": 0.9075955748558044,
      "learning_rate": 1.8459123684087163e-05,
      "loss": 3.3045,
      "step": 403720
    },
    {
      "epoch": 0.8411041666666667,
      "grad_norm": 0.8594468235969543,
      "learning_rate": 1.8454385933406106e-05,
      "loss": 3.2868,
      "step": 403730
    },
    {
      "epoch": 0.841125,
      "grad_norm": 0.8566935658454895,
      "learning_rate": 1.8449648750950034e-05,
      "loss": 3.3175,
      "step": 403740
    },
    {
      "epoch": 0.8411458333333334,
      "grad_norm": 0.9364056587219238,
      "learning_rate": 1.8444912136739398e-05,
      "loss": 3.4359,
      "step": 403750
    },
    {
      "epoch": 0.8411666666666666,
      "grad_norm": 0.9238017797470093,
      "learning_rate": 1.844017609079468e-05,
      "loss": 3.2868,
      "step": 403760
    },
    {
      "epoch": 0.8411875,
      "grad_norm": 0.9213955402374268,
      "learning_rate": 1.8435440613136328e-05,
      "loss": 3.3672,
      "step": 403770
    },
    {
      "epoch": 0.8412083333333333,
      "grad_norm": 0.8077483177185059,
      "learning_rate": 1.8430705703784775e-05,
      "loss": 3.4002,
      "step": 403780
    },
    {
      "epoch": 0.8412291666666667,
      "grad_norm": 0.8723940849304199,
      "learning_rate": 1.842597136276051e-05,
      "loss": 3.2786,
      "step": 403790
    },
    {
      "epoch": 0.84125,
      "grad_norm": 0.855778694152832,
      "learning_rate": 1.8421237590083965e-05,
      "loss": 3.2128,
      "step": 403800
    },
    {
      "epoch": 0.8412708333333333,
      "grad_norm": 0.9655709862709045,
      "learning_rate": 1.8416504385775606e-05,
      "loss": 3.3499,
      "step": 403810
    },
    {
      "epoch": 0.8412916666666667,
      "grad_norm": 0.8942710161209106,
      "learning_rate": 1.841177174985585e-05,
      "loss": 3.2852,
      "step": 403820
    },
    {
      "epoch": 0.8413125,
      "grad_norm": 0.9021614193916321,
      "learning_rate": 1.8407039682345143e-05,
      "loss": 3.2013,
      "step": 403830
    },
    {
      "epoch": 0.8413333333333334,
      "grad_norm": 0.9555585980415344,
      "learning_rate": 1.8402308183263957e-05,
      "loss": 3.2708,
      "step": 403840
    },
    {
      "epoch": 0.8413541666666666,
      "grad_norm": 0.9911291003227234,
      "learning_rate": 1.8397577252632695e-05,
      "loss": 3.423,
      "step": 403850
    },
    {
      "epoch": 0.841375,
      "grad_norm": 0.8935394883155823,
      "learning_rate": 1.8392846890471853e-05,
      "loss": 3.2653,
      "step": 403860
    },
    {
      "epoch": 0.8413958333333333,
      "grad_norm": 0.8963102102279663,
      "learning_rate": 1.8388117096801745e-05,
      "loss": 3.3432,
      "step": 403870
    },
    {
      "epoch": 0.8414166666666667,
      "grad_norm": 0.9183666706085205,
      "learning_rate": 1.8383387871642912e-05,
      "loss": 3.2686,
      "step": 403880
    },
    {
      "epoch": 0.8414375,
      "grad_norm": 0.8715510964393616,
      "learning_rate": 1.8378659215015768e-05,
      "loss": 3.4017,
      "step": 403890
    },
    {
      "epoch": 0.8414583333333333,
      "grad_norm": 0.8405354022979736,
      "learning_rate": 1.8373931126940662e-05,
      "loss": 3.3234,
      "step": 403900
    },
    {
      "epoch": 0.8414791666666667,
      "grad_norm": 0.8743472099304199,
      "learning_rate": 1.8369203607438093e-05,
      "loss": 3.4289,
      "step": 403910
    },
    {
      "epoch": 0.8415,
      "grad_norm": 0.8762883543968201,
      "learning_rate": 1.8364476656528516e-05,
      "loss": 3.3221,
      "step": 403920
    },
    {
      "epoch": 0.8415208333333334,
      "grad_norm": 0.9014413952827454,
      "learning_rate": 1.8359750274232243e-05,
      "loss": 3.1912,
      "step": 403930
    },
    {
      "epoch": 0.8415416666666666,
      "grad_norm": 0.8638067841529846,
      "learning_rate": 1.835502446056971e-05,
      "loss": 3.2609,
      "step": 403940
    },
    {
      "epoch": 0.8415625,
      "grad_norm": 0.8935192227363586,
      "learning_rate": 1.835029921556144e-05,
      "loss": 3.3407,
      "step": 403950
    },
    {
      "epoch": 0.8415833333333333,
      "grad_norm": 0.8712415099143982,
      "learning_rate": 1.8345574539227718e-05,
      "loss": 3.3385,
      "step": 403960
    },
    {
      "epoch": 0.8416041666666667,
      "grad_norm": 1.1089900732040405,
      "learning_rate": 1.8340850431588995e-05,
      "loss": 3.2144,
      "step": 403970
    },
    {
      "epoch": 0.841625,
      "grad_norm": 0.8665861487388611,
      "learning_rate": 1.8336126892665726e-05,
      "loss": 3.4066,
      "step": 403980
    },
    {
      "epoch": 0.8416458333333333,
      "grad_norm": 0.8479862809181213,
      "learning_rate": 1.833140392247825e-05,
      "loss": 3.3829,
      "step": 403990
    },
    {
      "epoch": 0.8416666666666667,
      "grad_norm": 0.8812345862388611,
      "learning_rate": 1.832668152104698e-05,
      "loss": 3.3668,
      "step": 404000
    },
    {
      "epoch": 0.8416666666666667,
      "eval_loss": 4.0367045402526855,
      "eval_runtime": 8.4758,
      "eval_samples_per_second": 1.18,
      "eval_steps_per_second": 0.354,
      "step": 404000
    },
    {
      "epoch": 0.8416875,
      "grad_norm": 0.8875923156738281,
      "learning_rate": 1.832195968839234e-05,
      "loss": 3.2786,
      "step": 404010
    },
    {
      "epoch": 0.8417083333333333,
      "grad_norm": 0.978444516658783,
      "learning_rate": 1.8317238424534708e-05,
      "loss": 3.3958,
      "step": 404020
    },
    {
      "epoch": 0.8417291666666666,
      "grad_norm": 0.8911983966827393,
      "learning_rate": 1.8312517729494486e-05,
      "loss": 3.4594,
      "step": 404030
    },
    {
      "epoch": 0.84175,
      "grad_norm": 0.8986635804176331,
      "learning_rate": 1.830779760329204e-05,
      "loss": 3.3011,
      "step": 404040
    },
    {
      "epoch": 0.8417708333333334,
      "grad_norm": 1.2183924913406372,
      "learning_rate": 1.8303078045947804e-05,
      "loss": 3.2347,
      "step": 404050
    },
    {
      "epoch": 0.8417916666666667,
      "grad_norm": 0.9227842092514038,
      "learning_rate": 1.829835905748213e-05,
      "loss": 3.2841,
      "step": 404060
    },
    {
      "epoch": 0.8418125,
      "grad_norm": 1.0227100849151611,
      "learning_rate": 1.829364063791542e-05,
      "loss": 3.3378,
      "step": 404070
    },
    {
      "epoch": 0.8418333333333333,
      "grad_norm": 0.9106154441833496,
      "learning_rate": 1.828892278726805e-05,
      "loss": 3.4433,
      "step": 404080
    },
    {
      "epoch": 0.8418541666666667,
      "grad_norm": 1.0007176399230957,
      "learning_rate": 1.8284205505560394e-05,
      "loss": 3.2525,
      "step": 404090
    },
    {
      "epoch": 0.841875,
      "grad_norm": 1.0250455141067505,
      "learning_rate": 1.8279488792812834e-05,
      "loss": 3.2905,
      "step": 404100
    },
    {
      "epoch": 0.8418958333333333,
      "grad_norm": 0.9794201254844666,
      "learning_rate": 1.8274772649045755e-05,
      "loss": 3.3854,
      "step": 404110
    },
    {
      "epoch": 0.8419166666666666,
      "grad_norm": 0.878574550151825,
      "learning_rate": 1.8270057074279503e-05,
      "loss": 3.2741,
      "step": 404120
    },
    {
      "epoch": 0.8419375,
      "grad_norm": 0.9534706473350525,
      "learning_rate": 1.8265342068534467e-05,
      "loss": 3.2994,
      "step": 404130
    },
    {
      "epoch": 0.8419583333333334,
      "grad_norm": 0.9155153036117554,
      "learning_rate": 1.826062763183101e-05,
      "loss": 3.3559,
      "step": 404140
    },
    {
      "epoch": 0.8419791666666666,
      "grad_norm": 0.8831952214241028,
      "learning_rate": 1.82559137641895e-05,
      "loss": 3.3023,
      "step": 404150
    },
    {
      "epoch": 0.842,
      "grad_norm": 0.9248984456062317,
      "learning_rate": 1.825120046563029e-05,
      "loss": 3.3531,
      "step": 404160
    },
    {
      "epoch": 0.8420208333333333,
      "grad_norm": 1.0494282245635986,
      "learning_rate": 1.8246487736173743e-05,
      "loss": 3.4018,
      "step": 404170
    },
    {
      "epoch": 0.8420416666666667,
      "grad_norm": 1.0786081552505493,
      "learning_rate": 1.824177557584023e-05,
      "loss": 3.3333,
      "step": 404180
    },
    {
      "epoch": 0.8420625,
      "grad_norm": 0.8764228820800781,
      "learning_rate": 1.823706398465008e-05,
      "loss": 3.357,
      "step": 404190
    },
    {
      "epoch": 0.8420833333333333,
      "grad_norm": 0.8524531126022339,
      "learning_rate": 1.8232352962623648e-05,
      "loss": 3.4264,
      "step": 404200
    },
    {
      "epoch": 0.8421041666666667,
      "grad_norm": 0.9129629731178284,
      "learning_rate": 1.8227642509781348e-05,
      "loss": 3.2578,
      "step": 404210
    },
    {
      "epoch": 0.842125,
      "grad_norm": 0.8938161730766296,
      "learning_rate": 1.82229326261434e-05,
      "loss": 3.2713,
      "step": 404220
    },
    {
      "epoch": 0.8421458333333334,
      "grad_norm": 0.835895299911499,
      "learning_rate": 1.8218223311730284e-05,
      "loss": 3.3318,
      "step": 404230
    },
    {
      "epoch": 0.8421666666666666,
      "grad_norm": 1.0064932107925415,
      "learning_rate": 1.8213514566562255e-05,
      "loss": 3.3221,
      "step": 404240
    },
    {
      "epoch": 0.8421875,
      "grad_norm": 0.8526664972305298,
      "learning_rate": 1.8208806390659626e-05,
      "loss": 3.3361,
      "step": 404250
    },
    {
      "epoch": 0.8422083333333333,
      "grad_norm": 0.8922517895698547,
      "learning_rate": 1.8204098784042863e-05,
      "loss": 3.3182,
      "step": 404260
    },
    {
      "epoch": 0.8422291666666667,
      "grad_norm": 0.9790794253349304,
      "learning_rate": 1.8199391746732208e-05,
      "loss": 3.4004,
      "step": 404270
    },
    {
      "epoch": 0.84225,
      "grad_norm": 0.8994150757789612,
      "learning_rate": 1.8194685278747968e-05,
      "loss": 3.3356,
      "step": 404280
    },
    {
      "epoch": 0.8422708333333333,
      "grad_norm": 0.8964838981628418,
      "learning_rate": 1.8189979380110565e-05,
      "loss": 3.3292,
      "step": 404290
    },
    {
      "epoch": 0.8422916666666667,
      "grad_norm": 0.8972299098968506,
      "learning_rate": 1.8185274050840265e-05,
      "loss": 3.3516,
      "step": 404300
    },
    {
      "epoch": 0.8423125,
      "grad_norm": 0.8875898718833923,
      "learning_rate": 1.818056929095737e-05,
      "loss": 3.3363,
      "step": 404310
    },
    {
      "epoch": 0.8423333333333334,
      "grad_norm": 0.9033803343772888,
      "learning_rate": 1.8175865100482296e-05,
      "loss": 3.3846,
      "step": 404320
    },
    {
      "epoch": 0.8423541666666666,
      "grad_norm": 0.8625153303146362,
      "learning_rate": 1.8171161479435274e-05,
      "loss": 3.3079,
      "step": 404330
    },
    {
      "epoch": 0.842375,
      "grad_norm": 0.9879311919212341,
      "learning_rate": 1.816645842783661e-05,
      "loss": 3.3313,
      "step": 404340
    },
    {
      "epoch": 0.8423958333333333,
      "grad_norm": 0.8539635539054871,
      "learning_rate": 1.8161755945706753e-05,
      "loss": 3.3443,
      "step": 404350
    },
    {
      "epoch": 0.8424166666666667,
      "grad_norm": 0.8835728168487549,
      "learning_rate": 1.8157054033065866e-05,
      "loss": 3.3695,
      "step": 404360
    },
    {
      "epoch": 0.8424375,
      "grad_norm": 0.9818773865699768,
      "learning_rate": 1.8152352689934334e-05,
      "loss": 3.248,
      "step": 404370
    },
    {
      "epoch": 0.8424583333333333,
      "grad_norm": 0.8619369864463806,
      "learning_rate": 1.8147651916332445e-05,
      "loss": 3.344,
      "step": 404380
    },
    {
      "epoch": 0.8424791666666667,
      "grad_norm": 0.8941659927368164,
      "learning_rate": 1.8142951712280514e-05,
      "loss": 3.3623,
      "step": 404390
    },
    {
      "epoch": 0.8425,
      "grad_norm": 0.89559406042099,
      "learning_rate": 1.813825207779884e-05,
      "loss": 3.2158,
      "step": 404400
    },
    {
      "epoch": 0.8425208333333334,
      "grad_norm": 0.835625946521759,
      "learning_rate": 1.8133553012907705e-05,
      "loss": 3.3017,
      "step": 404410
    },
    {
      "epoch": 0.8425416666666666,
      "grad_norm": 0.8357416987419128,
      "learning_rate": 1.8128854517627444e-05,
      "loss": 3.2875,
      "step": 404420
    },
    {
      "epoch": 0.8425625,
      "grad_norm": 0.855271577835083,
      "learning_rate": 1.8124156591978328e-05,
      "loss": 3.3012,
      "step": 404430
    },
    {
      "epoch": 0.8425833333333334,
      "grad_norm": 0.8507074117660522,
      "learning_rate": 1.8119459235980654e-05,
      "loss": 3.2792,
      "step": 404440
    },
    {
      "epoch": 0.8426041666666667,
      "grad_norm": 0.9375810623168945,
      "learning_rate": 1.811476244965471e-05,
      "loss": 3.2948,
      "step": 404450
    },
    {
      "epoch": 0.842625,
      "grad_norm": 0.8491790294647217,
      "learning_rate": 1.8110066233020788e-05,
      "loss": 3.2866,
      "step": 404460
    },
    {
      "epoch": 0.8426458333333333,
      "grad_norm": 1.0514804124832153,
      "learning_rate": 1.810537058609918e-05,
      "loss": 3.3115,
      "step": 404470
    },
    {
      "epoch": 0.8426666666666667,
      "grad_norm": 0.869515061378479,
      "learning_rate": 1.810067550891016e-05,
      "loss": 3.3216,
      "step": 404480
    },
    {
      "epoch": 0.8426875,
      "grad_norm": 0.8447674512863159,
      "learning_rate": 1.8095981001474026e-05,
      "loss": 3.2691,
      "step": 404490
    },
    {
      "epoch": 0.8427083333333333,
      "grad_norm": 0.9232801198959351,
      "learning_rate": 1.8091287063811032e-05,
      "loss": 3.3058,
      "step": 404500
    },
    {
      "epoch": 0.8427291666666666,
      "grad_norm": 1.0148687362670898,
      "learning_rate": 1.8086593695941455e-05,
      "loss": 3.3936,
      "step": 404510
    },
    {
      "epoch": 0.84275,
      "grad_norm": 1.0436947345733643,
      "learning_rate": 1.808190089788562e-05,
      "loss": 3.3348,
      "step": 404520
    },
    {
      "epoch": 0.8427708333333334,
      "grad_norm": 0.8884282112121582,
      "learning_rate": 1.80772086696637e-05,
      "loss": 3.4056,
      "step": 404530
    },
    {
      "epoch": 0.8427916666666667,
      "grad_norm": 0.9197036027908325,
      "learning_rate": 1.8072517011296045e-05,
      "loss": 3.3942,
      "step": 404540
    },
    {
      "epoch": 0.8428125,
      "grad_norm": 0.9448195099830627,
      "learning_rate": 1.806782592280292e-05,
      "loss": 3.3783,
      "step": 404550
    },
    {
      "epoch": 0.8428333333333333,
      "grad_norm": 0.9001633524894714,
      "learning_rate": 1.806313540420451e-05,
      "loss": 3.3782,
      "step": 404560
    },
    {
      "epoch": 0.8428541666666667,
      "grad_norm": 0.9507899284362793,
      "learning_rate": 1.805844545552115e-05,
      "loss": 3.3447,
      "step": 404570
    },
    {
      "epoch": 0.842875,
      "grad_norm": 0.8917282819747925,
      "learning_rate": 1.8053756076773135e-05,
      "loss": 3.3842,
      "step": 404580
    },
    {
      "epoch": 0.8428958333333333,
      "grad_norm": 0.835955023765564,
      "learning_rate": 1.8049067267980587e-05,
      "loss": 3.282,
      "step": 404590
    },
    {
      "epoch": 0.8429166666666666,
      "grad_norm": 0.9114214777946472,
      "learning_rate": 1.8044379029163892e-05,
      "loss": 3.3335,
      "step": 404600
    },
    {
      "epoch": 0.8429375,
      "grad_norm": 0.9586820006370544,
      "learning_rate": 1.8039691360343226e-05,
      "loss": 3.2539,
      "step": 404610
    },
    {
      "epoch": 0.8429583333333334,
      "grad_norm": 0.8025141358375549,
      "learning_rate": 1.803500426153883e-05,
      "loss": 3.3493,
      "step": 404620
    },
    {
      "epoch": 0.8429791666666666,
      "grad_norm": 0.8693351149559021,
      "learning_rate": 1.8030317732771054e-05,
      "loss": 3.2064,
      "step": 404630
    },
    {
      "epoch": 0.843,
      "grad_norm": 0.9399251341819763,
      "learning_rate": 1.802563177406003e-05,
      "loss": 3.3249,
      "step": 404640
    },
    {
      "epoch": 0.8430208333333333,
      "grad_norm": 0.9168503880500793,
      "learning_rate": 1.802094638542599e-05,
      "loss": 3.1715,
      "step": 404650
    },
    {
      "epoch": 0.8430416666666667,
      "grad_norm": 0.917950451374054,
      "learning_rate": 1.80162615668893e-05,
      "loss": 3.3091,
      "step": 404660
    },
    {
      "epoch": 0.8430625,
      "grad_norm": 0.8561285734176636,
      "learning_rate": 1.8011577318470083e-05,
      "loss": 3.3529,
      "step": 404670
    },
    {
      "epoch": 0.8430833333333333,
      "grad_norm": 1.0751469135284424,
      "learning_rate": 1.800689364018857e-05,
      "loss": 3.2822,
      "step": 404680
    },
    {
      "epoch": 0.8431041666666667,
      "grad_norm": 1.0604194402694702,
      "learning_rate": 1.800221053206511e-05,
      "loss": 3.3547,
      "step": 404690
    },
    {
      "epoch": 0.843125,
      "grad_norm": 0.8827577233314514,
      "learning_rate": 1.7997527994119804e-05,
      "loss": 3.2891,
      "step": 404700
    },
    {
      "epoch": 0.8431458333333334,
      "grad_norm": 0.8771843910217285,
      "learning_rate": 1.7992846026372904e-05,
      "loss": 3.2966,
      "step": 404710
    },
    {
      "epoch": 0.8431666666666666,
      "grad_norm": 0.8936190605163574,
      "learning_rate": 1.798816462884471e-05,
      "loss": 3.3124,
      "step": 404720
    },
    {
      "epoch": 0.8431875,
      "grad_norm": 0.9377099871635437,
      "learning_rate": 1.7983483801555354e-05,
      "loss": 3.3671,
      "step": 404730
    },
    {
      "epoch": 0.8432083333333333,
      "grad_norm": 0.859208345413208,
      "learning_rate": 1.7978803544525104e-05,
      "loss": 3.314,
      "step": 404740
    },
    {
      "epoch": 0.8432291666666667,
      "grad_norm": 0.9071096777915955,
      "learning_rate": 1.7974123857774163e-05,
      "loss": 3.3904,
      "step": 404750
    },
    {
      "epoch": 0.84325,
      "grad_norm": 1.1233489513397217,
      "learning_rate": 1.7969444741322763e-05,
      "loss": 3.2698,
      "step": 404760
    },
    {
      "epoch": 0.8432708333333333,
      "grad_norm": 1.0613839626312256,
      "learning_rate": 1.7964766195191087e-05,
      "loss": 3.3802,
      "step": 404770
    },
    {
      "epoch": 0.8432916666666667,
      "grad_norm": 0.7873402833938599,
      "learning_rate": 1.7960088219399353e-05,
      "loss": 3.2362,
      "step": 404780
    },
    {
      "epoch": 0.8433125,
      "grad_norm": 0.953088641166687,
      "learning_rate": 1.795541081396778e-05,
      "loss": 3.3076,
      "step": 404790
    },
    {
      "epoch": 0.8433333333333334,
      "grad_norm": 0.8876579999923706,
      "learning_rate": 1.7950733978916547e-05,
      "loss": 3.3405,
      "step": 404800
    },
    {
      "epoch": 0.8433541666666666,
      "grad_norm": 0.9143792390823364,
      "learning_rate": 1.7946057714265893e-05,
      "loss": 3.1814,
      "step": 404810
    },
    {
      "epoch": 0.843375,
      "grad_norm": 0.9190245866775513,
      "learning_rate": 1.7941382020036e-05,
      "loss": 3.2117,
      "step": 404820
    },
    {
      "epoch": 0.8433958333333333,
      "grad_norm": 1.0096709728240967,
      "learning_rate": 1.7936706896247066e-05,
      "loss": 3.3108,
      "step": 404830
    },
    {
      "epoch": 0.8434166666666667,
      "grad_norm": 0.9634454846382141,
      "learning_rate": 1.7932032342919277e-05,
      "loss": 3.2827,
      "step": 404840
    },
    {
      "epoch": 0.8434375,
      "grad_norm": 0.9476338028907776,
      "learning_rate": 1.7927358360072834e-05,
      "loss": 3.2846,
      "step": 404850
    },
    {
      "epoch": 0.8434583333333333,
      "grad_norm": 0.8184555172920227,
      "learning_rate": 1.7922684947727956e-05,
      "loss": 3.3837,
      "step": 404860
    },
    {
      "epoch": 0.8434791666666667,
      "grad_norm": 0.8073471188545227,
      "learning_rate": 1.791801210590474e-05,
      "loss": 3.1994,
      "step": 404870
    },
    {
      "epoch": 0.8435,
      "grad_norm": 0.81241774559021,
      "learning_rate": 1.7913339834623454e-05,
      "loss": 3.2922,
      "step": 404880
    },
    {
      "epoch": 0.8435208333333334,
      "grad_norm": 0.8642331957817078,
      "learning_rate": 1.790866813390428e-05,
      "loss": 3.1332,
      "step": 404890
    },
    {
      "epoch": 0.8435416666666666,
      "grad_norm": 0.872148871421814,
      "learning_rate": 1.7903997003767323e-05,
      "loss": 3.3345,
      "step": 404900
    },
    {
      "epoch": 0.8435625,
      "grad_norm": 0.9768427014350891,
      "learning_rate": 1.7899326444232847e-05,
      "loss": 3.333,
      "step": 404910
    },
    {
      "epoch": 0.8435833333333334,
      "grad_norm": 0.8395380973815918,
      "learning_rate": 1.7894656455321022e-05,
      "loss": 3.3091,
      "step": 404920
    },
    {
      "epoch": 0.8436041666666667,
      "grad_norm": 0.8914748430252075,
      "learning_rate": 1.788998703705193e-05,
      "loss": 3.3295,
      "step": 404930
    },
    {
      "epoch": 0.843625,
      "grad_norm": 0.9849197864532471,
      "learning_rate": 1.788531818944582e-05,
      "loss": 3.2824,
      "step": 404940
    },
    {
      "epoch": 0.8436458333333333,
      "grad_norm": 0.9172397255897522,
      "learning_rate": 1.7880649912522875e-05,
      "loss": 3.2358,
      "step": 404950
    },
    {
      "epoch": 0.8436666666666667,
      "grad_norm": 0.962641716003418,
      "learning_rate": 1.787598220630317e-05,
      "loss": 3.2165,
      "step": 404960
    },
    {
      "epoch": 0.8436875,
      "grad_norm": 0.930557370185852,
      "learning_rate": 1.787131507080698e-05,
      "loss": 3.2389,
      "step": 404970
    },
    {
      "epoch": 0.8437083333333333,
      "grad_norm": 0.9334651827812195,
      "learning_rate": 1.7866648506054377e-05,
      "loss": 3.3577,
      "step": 404980
    },
    {
      "epoch": 0.8437291666666666,
      "grad_norm": 0.9161532521247864,
      "learning_rate": 1.7861982512065525e-05,
      "loss": 3.3647,
      "step": 404990
    },
    {
      "epoch": 0.84375,
      "grad_norm": 1.0870636701583862,
      "learning_rate": 1.7857317088860664e-05,
      "loss": 3.4354,
      "step": 405000
    },
    {
      "epoch": 0.84375,
      "eval_loss": 4.035029411315918,
      "eval_runtime": 8.4113,
      "eval_samples_per_second": 1.189,
      "eval_steps_per_second": 0.357,
      "step": 405000
    },
    {
      "epoch": 0.8437708333333334,
      "grad_norm": 0.8493337035179138,
      "learning_rate": 1.785265223645987e-05,
      "loss": 3.2914,
      "step": 405010
    },
    {
      "epoch": 0.8437916666666667,
      "grad_norm": 0.8589099049568176,
      "learning_rate": 1.7847987954883264e-05,
      "loss": 3.3392,
      "step": 405020
    },
    {
      "epoch": 0.8438125,
      "grad_norm": 0.8892259001731873,
      "learning_rate": 1.7843324244151096e-05,
      "loss": 3.3708,
      "step": 405030
    },
    {
      "epoch": 0.8438333333333333,
      "grad_norm": 0.8315858244895935,
      "learning_rate": 1.7838661104283436e-05,
      "loss": 3.2882,
      "step": 405040
    },
    {
      "epoch": 0.8438541666666667,
      "grad_norm": 0.9569675326347351,
      "learning_rate": 1.7833998535300415e-05,
      "loss": 3.2521,
      "step": 405050
    },
    {
      "epoch": 0.843875,
      "grad_norm": 0.9352561235427856,
      "learning_rate": 1.7829336537222265e-05,
      "loss": 3.2736,
      "step": 405060
    },
    {
      "epoch": 0.8438958333333333,
      "grad_norm": 0.9012337923049927,
      "learning_rate": 1.7824675110069042e-05,
      "loss": 3.4029,
      "step": 405070
    },
    {
      "epoch": 0.8439166666666666,
      "grad_norm": 0.9430738091468811,
      "learning_rate": 1.782001425386086e-05,
      "loss": 3.3591,
      "step": 405080
    },
    {
      "epoch": 0.8439375,
      "grad_norm": 1.0685583353042603,
      "learning_rate": 1.7815353968617968e-05,
      "loss": 3.3321,
      "step": 405090
    },
    {
      "epoch": 0.8439583333333334,
      "grad_norm": 0.9046267867088318,
      "learning_rate": 1.7810694254360385e-05,
      "loss": 3.4217,
      "step": 405100
    },
    {
      "epoch": 0.8439791666666666,
      "grad_norm": 1.016834020614624,
      "learning_rate": 1.7806035111108298e-05,
      "loss": 3.292,
      "step": 405110
    },
    {
      "epoch": 0.844,
      "grad_norm": 0.8844017386436462,
      "learning_rate": 1.7801376538881785e-05,
      "loss": 3.3179,
      "step": 405120
    },
    {
      "epoch": 0.8440208333333333,
      "grad_norm": 0.7876415252685547,
      "learning_rate": 1.7796718537701015e-05,
      "loss": 3.1676,
      "step": 405130
    },
    {
      "epoch": 0.8440416666666667,
      "grad_norm": 0.8426104784011841,
      "learning_rate": 1.779206110758609e-05,
      "loss": 3.6115,
      "step": 405140
    },
    {
      "epoch": 0.8440625,
      "grad_norm": 1.0601880550384521,
      "learning_rate": 1.778740424855713e-05,
      "loss": 3.1721,
      "step": 405150
    },
    {
      "epoch": 0.8440833333333333,
      "grad_norm": 0.9878596067428589,
      "learning_rate": 1.778274796063425e-05,
      "loss": 3.2659,
      "step": 405160
    },
    {
      "epoch": 0.8441041666666667,
      "grad_norm": 0.8738600015640259,
      "learning_rate": 1.777809224383756e-05,
      "loss": 3.398,
      "step": 405170
    },
    {
      "epoch": 0.844125,
      "grad_norm": 0.994840145111084,
      "learning_rate": 1.777343709818717e-05,
      "loss": 3.279,
      "step": 405180
    },
    {
      "epoch": 0.8441458333333334,
      "grad_norm": 1.0914205312728882,
      "learning_rate": 1.7768782523703194e-05,
      "loss": 3.2457,
      "step": 405190
    },
    {
      "epoch": 0.8441666666666666,
      "grad_norm": 0.8839395642280579,
      "learning_rate": 1.776412852040575e-05,
      "loss": 3.1918,
      "step": 405200
    },
    {
      "epoch": 0.8441875,
      "grad_norm": 0.8804904222488403,
      "learning_rate": 1.775947508831492e-05,
      "loss": 3.4056,
      "step": 405210
    },
    {
      "epoch": 0.8442083333333333,
      "grad_norm": 1.006220817565918,
      "learning_rate": 1.775482222745081e-05,
      "loss": 3.2205,
      "step": 405220
    },
    {
      "epoch": 0.8442291666666667,
      "grad_norm": 0.8988212943077087,
      "learning_rate": 1.7750169937833548e-05,
      "loss": 3.2685,
      "step": 405230
    },
    {
      "epoch": 0.84425,
      "grad_norm": 0.9114400744438171,
      "learning_rate": 1.774551821948315e-05,
      "loss": 3.1848,
      "step": 405240
    },
    {
      "epoch": 0.8442708333333333,
      "grad_norm": 0.8671515583992004,
      "learning_rate": 1.774086707241979e-05,
      "loss": 3.263,
      "step": 405250
    },
    {
      "epoch": 0.8442916666666667,
      "grad_norm": 0.9487338066101074,
      "learning_rate": 1.773621649666358e-05,
      "loss": 3.3074,
      "step": 405260
    },
    {
      "epoch": 0.8443125,
      "grad_norm": 0.9190863370895386,
      "learning_rate": 1.7731566492234473e-05,
      "loss": 3.2966,
      "step": 405270
    },
    {
      "epoch": 0.8443333333333334,
      "grad_norm": 0.8662018775939941,
      "learning_rate": 1.77269170591527e-05,
      "loss": 3.2599,
      "step": 405280
    },
    {
      "epoch": 0.8443541666666666,
      "grad_norm": 0.9344261288642883,
      "learning_rate": 1.77222681974383e-05,
      "loss": 3.4208,
      "step": 405290
    },
    {
      "epoch": 0.844375,
      "grad_norm": 0.8576046228408813,
      "learning_rate": 1.7717619907111286e-05,
      "loss": 3.2152,
      "step": 405300
    },
    {
      "epoch": 0.8443958333333333,
      "grad_norm": 0.9043947458267212,
      "learning_rate": 1.7712972188191827e-05,
      "loss": 3.3687,
      "step": 405310
    },
    {
      "epoch": 0.8444166666666667,
      "grad_norm": 0.8938323855400085,
      "learning_rate": 1.770832504069999e-05,
      "loss": 3.2244,
      "step": 405320
    },
    {
      "epoch": 0.8444375,
      "grad_norm": 0.8514825701713562,
      "learning_rate": 1.7703678464655757e-05,
      "loss": 3.4098,
      "step": 405330
    },
    {
      "epoch": 0.8444583333333333,
      "grad_norm": 0.8715847134590149,
      "learning_rate": 1.7699032460079317e-05,
      "loss": 3.3523,
      "step": 405340
    },
    {
      "epoch": 0.8444791666666667,
      "grad_norm": 0.9151997566223145,
      "learning_rate": 1.7694387026990714e-05,
      "loss": 3.279,
      "step": 405350
    },
    {
      "epoch": 0.8445,
      "grad_norm": 0.9405792355537415,
      "learning_rate": 1.768974216540992e-05,
      "loss": 3.3124,
      "step": 405360
    },
    {
      "epoch": 0.8445208333333334,
      "grad_norm": 0.9323202967643738,
      "learning_rate": 1.768509787535712e-05,
      "loss": 3.4166,
      "step": 405370
    },
    {
      "epoch": 0.8445416666666666,
      "grad_norm": 0.973838746547699,
      "learning_rate": 1.768045415685231e-05,
      "loss": 3.2802,
      "step": 405380
    },
    {
      "epoch": 0.8445625,
      "grad_norm": 0.9006964564323425,
      "learning_rate": 1.767581100991556e-05,
      "loss": 3.2644,
      "step": 405390
    },
    {
      "epoch": 0.8445833333333334,
      "grad_norm": 1.0125285387039185,
      "learning_rate": 1.7671168434566917e-05,
      "loss": 3.3217,
      "step": 405400
    },
    {
      "epoch": 0.8446041666666667,
      "grad_norm": 0.8377715945243835,
      "learning_rate": 1.7666526430826455e-05,
      "loss": 3.2419,
      "step": 405410
    },
    {
      "epoch": 0.844625,
      "grad_norm": 0.9440029263496399,
      "learning_rate": 1.766188499871422e-05,
      "loss": 3.2252,
      "step": 405420
    },
    {
      "epoch": 0.8446458333333333,
      "grad_norm": 0.8809649348258972,
      "learning_rate": 1.765724413825025e-05,
      "loss": 3.271,
      "step": 405430
    },
    {
      "epoch": 0.8446666666666667,
      "grad_norm": 0.8372998833656311,
      "learning_rate": 1.7652603849454604e-05,
      "loss": 3.284,
      "step": 405440
    },
    {
      "epoch": 0.8446875,
      "grad_norm": 0.9299437403678894,
      "learning_rate": 1.7647964132347325e-05,
      "loss": 3.4337,
      "step": 405450
    },
    {
      "epoch": 0.8447083333333333,
      "grad_norm": 0.8711047172546387,
      "learning_rate": 1.7643324986948458e-05,
      "loss": 3.2648,
      "step": 405460
    },
    {
      "epoch": 0.8447291666666666,
      "grad_norm": 0.9548378586769104,
      "learning_rate": 1.7638686413278023e-05,
      "loss": 3.363,
      "step": 405470
    },
    {
      "epoch": 0.84475,
      "grad_norm": 0.8951603770256042,
      "learning_rate": 1.7634048411356088e-05,
      "loss": 3.2939,
      "step": 405480
    },
    {
      "epoch": 0.8447708333333334,
      "grad_norm": 0.9327202439308167,
      "learning_rate": 1.762941098120267e-05,
      "loss": 3.381,
      "step": 405490
    },
    {
      "epoch": 0.8447916666666667,
      "grad_norm": 0.9037318229675293,
      "learning_rate": 1.7624774122837782e-05,
      "loss": 3.3431,
      "step": 405500
    },
    {
      "epoch": 0.8448125,
      "grad_norm": 0.8536298274993896,
      "learning_rate": 1.762013783628148e-05,
      "loss": 3.4384,
      "step": 405510
    },
    {
      "epoch": 0.8448333333333333,
      "grad_norm": 0.898749053478241,
      "learning_rate": 1.7615502121553775e-05,
      "loss": 3.3916,
      "step": 405520
    },
    {
      "epoch": 0.8448541666666667,
      "grad_norm": 0.8221784234046936,
      "learning_rate": 1.7610866978674727e-05,
      "loss": 3.2265,
      "step": 405530
    },
    {
      "epoch": 0.844875,
      "grad_norm": 0.9906280636787415,
      "learning_rate": 1.7606232407664295e-05,
      "loss": 3.467,
      "step": 405540
    },
    {
      "epoch": 0.8448958333333333,
      "grad_norm": 0.8764371871948242,
      "learning_rate": 1.760159840854255e-05,
      "loss": 3.2935,
      "step": 405550
    },
    {
      "epoch": 0.8449166666666666,
      "grad_norm": 0.9191372990608215,
      "learning_rate": 1.759696498132951e-05,
      "loss": 3.3676,
      "step": 405560
    },
    {
      "epoch": 0.8449375,
      "grad_norm": 1.1021547317504883,
      "learning_rate": 1.7592332126045155e-05,
      "loss": 3.2647,
      "step": 405570
    },
    {
      "epoch": 0.8449583333333334,
      "grad_norm": 0.9754992723464966,
      "learning_rate": 1.7587699842709506e-05,
      "loss": 3.1874,
      "step": 405580
    },
    {
      "epoch": 0.8449791666666666,
      "grad_norm": 1.0634175539016724,
      "learning_rate": 1.75830681313426e-05,
      "loss": 3.229,
      "step": 405590
    },
    {
      "epoch": 0.845,
      "grad_norm": 0.883381724357605,
      "learning_rate": 1.7578436991964445e-05,
      "loss": 3.434,
      "step": 405600
    },
    {
      "epoch": 0.8450208333333333,
      "grad_norm": 0.9831398129463196,
      "learning_rate": 1.7573806424594968e-05,
      "loss": 3.3734,
      "step": 405610
    },
    {
      "epoch": 0.8450416666666667,
      "grad_norm": 1.0129191875457764,
      "learning_rate": 1.756917642925426e-05,
      "loss": 3.3396,
      "step": 405620
    },
    {
      "epoch": 0.8450625,
      "grad_norm": 0.8866066932678223,
      "learning_rate": 1.7564547005962315e-05,
      "loss": 3.3314,
      "step": 405630
    },
    {
      "epoch": 0.8450833333333333,
      "grad_norm": 0.8711477518081665,
      "learning_rate": 1.7559918154739045e-05,
      "loss": 3.3369,
      "step": 405640
    },
    {
      "epoch": 0.8451041666666667,
      "grad_norm": 1.0292096138000488,
      "learning_rate": 1.7555289875604535e-05,
      "loss": 3.3085,
      "step": 405650
    },
    {
      "epoch": 0.845125,
      "grad_norm": 0.9522799849510193,
      "learning_rate": 1.755066216857878e-05,
      "loss": 3.2883,
      "step": 405660
    },
    {
      "epoch": 0.8451458333333334,
      "grad_norm": 1.0557820796966553,
      "learning_rate": 1.7546035033681693e-05,
      "loss": 3.2897,
      "step": 405670
    },
    {
      "epoch": 0.8451666666666666,
      "grad_norm": 1.0965324640274048,
      "learning_rate": 1.7541408470933317e-05,
      "loss": 3.332,
      "step": 405680
    },
    {
      "epoch": 0.8451875,
      "grad_norm": 0.8987728953361511,
      "learning_rate": 1.7536782480353667e-05,
      "loss": 3.4289,
      "step": 405690
    },
    {
      "epoch": 0.8452083333333333,
      "grad_norm": 1.0610743761062622,
      "learning_rate": 1.753215706196265e-05,
      "loss": 3.2841,
      "step": 405700
    },
    {
      "epoch": 0.8452291666666667,
      "grad_norm": 0.9562522768974304,
      "learning_rate": 1.7527532215780243e-05,
      "loss": 3.3505,
      "step": 405710
    },
    {
      "epoch": 0.84525,
      "grad_norm": 0.9127064347267151,
      "learning_rate": 1.752290794182652e-05,
      "loss": 3.4482,
      "step": 405720
    },
    {
      "epoch": 0.8452708333333333,
      "grad_norm": 0.9762172698974609,
      "learning_rate": 1.7518284240121376e-05,
      "loss": 3.2069,
      "step": 405730
    },
    {
      "epoch": 0.8452916666666667,
      "grad_norm": 0.8764079213142395,
      "learning_rate": 1.7513661110684802e-05,
      "loss": 3.2809,
      "step": 405740
    },
    {
      "epoch": 0.8453125,
      "grad_norm": 0.8317264914512634,
      "learning_rate": 1.7509038553536758e-05,
      "loss": 3.2811,
      "step": 405750
    },
    {
      "epoch": 0.8453333333333334,
      "grad_norm": 0.9679436087608337,
      "learning_rate": 1.750441656869723e-05,
      "loss": 3.2989,
      "step": 405760
    },
    {
      "epoch": 0.8453541666666666,
      "grad_norm": 0.9671027660369873,
      "learning_rate": 1.7499795156186192e-05,
      "loss": 3.2372,
      "step": 405770
    },
    {
      "epoch": 0.845375,
      "grad_norm": 0.9118821024894714,
      "learning_rate": 1.7495174316023585e-05,
      "loss": 3.2235,
      "step": 405780
    },
    {
      "epoch": 0.8453958333333333,
      "grad_norm": 0.8804432153701782,
      "learning_rate": 1.7490554048229367e-05,
      "loss": 3.227,
      "step": 405790
    },
    {
      "epoch": 0.8454166666666667,
      "grad_norm": 0.9893503785133362,
      "learning_rate": 1.7485934352823515e-05,
      "loss": 3.3963,
      "step": 405800
    },
    {
      "epoch": 0.8454375,
      "grad_norm": 0.8731245398521423,
      "learning_rate": 1.748131522982597e-05,
      "loss": 3.3858,
      "step": 405810
    },
    {
      "epoch": 0.8454583333333333,
      "grad_norm": 0.9577020406723022,
      "learning_rate": 1.747669667925668e-05,
      "loss": 3.1928,
      "step": 405820
    },
    {
      "epoch": 0.8454791666666667,
      "grad_norm": 0.8687913417816162,
      "learning_rate": 1.747207870113561e-05,
      "loss": 3.2332,
      "step": 405830
    },
    {
      "epoch": 0.8455,
      "grad_norm": 1.0039012432098389,
      "learning_rate": 1.74674612954827e-05,
      "loss": 3.2854,
      "step": 405840
    },
    {
      "epoch": 0.8455208333333334,
      "grad_norm": 0.9031534194946289,
      "learning_rate": 1.746284446231791e-05,
      "loss": 3.3908,
      "step": 405850
    },
    {
      "epoch": 0.8455416666666666,
      "grad_norm": 0.908017098903656,
      "learning_rate": 1.7458228201661162e-05,
      "loss": 3.2788,
      "step": 405860
    },
    {
      "epoch": 0.8455625,
      "grad_norm": 0.9186555743217468,
      "learning_rate": 1.7453612513532387e-05,
      "loss": 3.2365,
      "step": 405870
    },
    {
      "epoch": 0.8455833333333334,
      "grad_norm": 0.9330607652664185,
      "learning_rate": 1.744899739795156e-05,
      "loss": 3.4142,
      "step": 405880
    },
    {
      "epoch": 0.8456041666666667,
      "grad_norm": 0.9174643754959106,
      "learning_rate": 1.7444382854938603e-05,
      "loss": 3.4035,
      "step": 405890
    },
    {
      "epoch": 0.845625,
      "grad_norm": 0.889108419418335,
      "learning_rate": 1.7439768884513428e-05,
      "loss": 3.3403,
      "step": 405900
    },
    {
      "epoch": 0.8456458333333333,
      "grad_norm": 0.9445504546165466,
      "learning_rate": 1.743515548669598e-05,
      "loss": 3.3187,
      "step": 405910
    },
    {
      "epoch": 0.8456666666666667,
      "grad_norm": 1.0819504261016846,
      "learning_rate": 1.7430542661506193e-05,
      "loss": 3.3551,
      "step": 405920
    },
    {
      "epoch": 0.8456875,
      "grad_norm": 0.8944256901741028,
      "learning_rate": 1.7425930408964e-05,
      "loss": 3.4476,
      "step": 405930
    },
    {
      "epoch": 0.8457083333333333,
      "grad_norm": 0.9339374303817749,
      "learning_rate": 1.742131872908929e-05,
      "loss": 3.4202,
      "step": 405940
    },
    {
      "epoch": 0.8457291666666666,
      "grad_norm": 0.8229924440383911,
      "learning_rate": 1.741670762190201e-05,
      "loss": 3.1857,
      "step": 405950
    },
    {
      "epoch": 0.84575,
      "grad_norm": 0.9366022348403931,
      "learning_rate": 1.7412097087422078e-05,
      "loss": 3.2101,
      "step": 405960
    },
    {
      "epoch": 0.8457708333333334,
      "grad_norm": 0.9315693974494934,
      "learning_rate": 1.7407487125669427e-05,
      "loss": 3.3078,
      "step": 405970
    },
    {
      "epoch": 0.8457916666666667,
      "grad_norm": 0.9462783336639404,
      "learning_rate": 1.7402877736663927e-05,
      "loss": 3.2691,
      "step": 405980
    },
    {
      "epoch": 0.8458125,
      "grad_norm": 0.8351881504058838,
      "learning_rate": 1.7398268920425477e-05,
      "loss": 3.2899,
      "step": 405990
    },
    {
      "epoch": 0.8458333333333333,
      "grad_norm": 0.8624592423439026,
      "learning_rate": 1.739366067697408e-05,
      "loss": 3.2523,
      "step": 406000
    },
    {
      "epoch": 0.8458333333333333,
      "eval_loss": 4.033862113952637,
      "eval_runtime": 8.2603,
      "eval_samples_per_second": 1.211,
      "eval_steps_per_second": 0.363,
      "step": 406000
    },
    {
      "epoch": 0.8458541666666667,
      "grad_norm": 0.8951988220214844,
      "learning_rate": 1.738905300632955e-05,
      "loss": 3.291,
      "step": 406010
    },
    {
      "epoch": 0.845875,
      "grad_norm": 0.9367369413375854,
      "learning_rate": 1.738444590851179e-05,
      "loss": 3.3968,
      "step": 406020
    },
    {
      "epoch": 0.8458958333333333,
      "grad_norm": 0.9620095491409302,
      "learning_rate": 1.7379839383540783e-05,
      "loss": 3.3277,
      "step": 406030
    },
    {
      "epoch": 0.8459166666666667,
      "grad_norm": 0.8471510410308838,
      "learning_rate": 1.7375233431436346e-05,
      "loss": 3.3659,
      "step": 406040
    },
    {
      "epoch": 0.8459375,
      "grad_norm": 1.0729013681411743,
      "learning_rate": 1.737062805221838e-05,
      "loss": 3.3304,
      "step": 406050
    },
    {
      "epoch": 0.8459583333333334,
      "grad_norm": 0.8962579965591431,
      "learning_rate": 1.7366023245906857e-05,
      "loss": 3.2696,
      "step": 406060
    },
    {
      "epoch": 0.8459791666666666,
      "grad_norm": 0.951134204864502,
      "learning_rate": 1.7361419012521588e-05,
      "loss": 3.1834,
      "step": 406070
    },
    {
      "epoch": 0.846,
      "grad_norm": 0.8659958243370056,
      "learning_rate": 1.735681535208246e-05,
      "loss": 3.3845,
      "step": 406080
    },
    {
      "epoch": 0.8460208333333333,
      "grad_norm": 0.9451859593391418,
      "learning_rate": 1.735221226460944e-05,
      "loss": 3.3405,
      "step": 406090
    },
    {
      "epoch": 0.8460416666666667,
      "grad_norm": 0.9971162676811218,
      "learning_rate": 1.7347609750122327e-05,
      "loss": 3.3783,
      "step": 406100
    },
    {
      "epoch": 0.8460625,
      "grad_norm": 0.8338291645050049,
      "learning_rate": 1.7343007808641025e-05,
      "loss": 3.2317,
      "step": 406110
    },
    {
      "epoch": 0.8460833333333333,
      "grad_norm": 0.8836367726325989,
      "learning_rate": 1.733840644018543e-05,
      "loss": 3.3793,
      "step": 406120
    },
    {
      "epoch": 0.8461041666666667,
      "grad_norm": 0.9111729264259338,
      "learning_rate": 1.733380564477542e-05,
      "loss": 3.2014,
      "step": 406130
    },
    {
      "epoch": 0.846125,
      "grad_norm": 1.095322847366333,
      "learning_rate": 1.7329205422430832e-05,
      "loss": 3.2638,
      "step": 406140
    },
    {
      "epoch": 0.8461458333333334,
      "grad_norm": 0.8017205595970154,
      "learning_rate": 1.7324605773171573e-05,
      "loss": 3.2119,
      "step": 406150
    },
    {
      "epoch": 0.8461666666666666,
      "grad_norm": 0.9305264949798584,
      "learning_rate": 1.7320006697017497e-05,
      "loss": 3.2932,
      "step": 406160
    },
    {
      "epoch": 0.8461875,
      "grad_norm": 0.9003027677536011,
      "learning_rate": 1.7315408193988484e-05,
      "loss": 3.3343,
      "step": 406170
    },
    {
      "epoch": 0.8462083333333333,
      "grad_norm": 0.8763832449913025,
      "learning_rate": 1.7310810264104386e-05,
      "loss": 3.3207,
      "step": 406180
    },
    {
      "epoch": 0.8462291666666667,
      "grad_norm": 0.8391202688217163,
      "learning_rate": 1.7306212907385054e-05,
      "loss": 3.253,
      "step": 406190
    },
    {
      "epoch": 0.84625,
      "grad_norm": 0.9678258895874023,
      "learning_rate": 1.730161612385037e-05,
      "loss": 3.2522,
      "step": 406200
    },
    {
      "epoch": 0.8462708333333333,
      "grad_norm": 0.9621428847312927,
      "learning_rate": 1.729701991352017e-05,
      "loss": 3.2818,
      "step": 406210
    },
    {
      "epoch": 0.8462916666666667,
      "grad_norm": 1.059395432472229,
      "learning_rate": 1.7292424276414325e-05,
      "loss": 3.3576,
      "step": 406220
    },
    {
      "epoch": 0.8463125,
      "grad_norm": 0.9023827910423279,
      "learning_rate": 1.7287829212552662e-05,
      "loss": 3.305,
      "step": 406230
    },
    {
      "epoch": 0.8463333333333334,
      "grad_norm": 0.9541283249855042,
      "learning_rate": 1.728323472195507e-05,
      "loss": 3.3204,
      "step": 406240
    },
    {
      "epoch": 0.8463541666666666,
      "grad_norm": 0.968065083026886,
      "learning_rate": 1.7278640804641347e-05,
      "loss": 3.2523,
      "step": 406250
    },
    {
      "epoch": 0.846375,
      "grad_norm": 0.9995151162147522,
      "learning_rate": 1.727404746063138e-05,
      "loss": 3.313,
      "step": 406260
    },
    {
      "epoch": 0.8463958333333333,
      "grad_norm": 1.0906493663787842,
      "learning_rate": 1.7269454689944984e-05,
      "loss": 3.245,
      "step": 406270
    },
    {
      "epoch": 0.8464166666666667,
      "grad_norm": 0.9595280885696411,
      "learning_rate": 1.7264862492601993e-05,
      "loss": 3.3493,
      "step": 406280
    },
    {
      "epoch": 0.8464375,
      "grad_norm": 1.0518583059310913,
      "learning_rate": 1.7260270868622312e-05,
      "loss": 3.3278,
      "step": 406290
    },
    {
      "epoch": 0.8464583333333333,
      "grad_norm": 0.911433219909668,
      "learning_rate": 1.7255679818025637e-05,
      "loss": 3.4602,
      "step": 406300
    },
    {
      "epoch": 0.8464791666666667,
      "grad_norm": 0.9515034556388855,
      "learning_rate": 1.725108934083192e-05,
      "loss": 3.3611,
      "step": 406310
    },
    {
      "epoch": 0.8465,
      "grad_norm": 1.0296432971954346,
      "learning_rate": 1.724649943706098e-05,
      "loss": 3.3021,
      "step": 406320
    },
    {
      "epoch": 0.8465208333333333,
      "grad_norm": 0.97688227891922,
      "learning_rate": 1.7241910106732547e-05,
      "loss": 3.39,
      "step": 406330
    },
    {
      "epoch": 0.8465416666666666,
      "grad_norm": 0.9507673382759094,
      "learning_rate": 1.723732134986656e-05,
      "loss": 3.3049,
      "step": 406340
    },
    {
      "epoch": 0.8465625,
      "grad_norm": 0.9287930130958557,
      "learning_rate": 1.7232733166482803e-05,
      "loss": 3.1705,
      "step": 406350
    },
    {
      "epoch": 0.8465833333333334,
      "grad_norm": 0.9396238923072815,
      "learning_rate": 1.7228145556601042e-05,
      "loss": 3.3586,
      "step": 406360
    },
    {
      "epoch": 0.8466041666666667,
      "grad_norm": 0.8954923152923584,
      "learning_rate": 1.7223558520241193e-05,
      "loss": 3.3412,
      "step": 406370
    },
    {
      "epoch": 0.846625,
      "grad_norm": 0.9394437074661255,
      "learning_rate": 1.7218972057422992e-05,
      "loss": 3.2892,
      "step": 406380
    },
    {
      "epoch": 0.8466458333333333,
      "grad_norm": 0.9363065958023071,
      "learning_rate": 1.721438616816624e-05,
      "loss": 3.2891,
      "step": 406390
    },
    {
      "epoch": 0.8466666666666667,
      "grad_norm": 1.0321978330612183,
      "learning_rate": 1.7209800852490834e-05,
      "loss": 3.4524,
      "step": 406400
    },
    {
      "epoch": 0.8466875,
      "grad_norm": 1.0244576930999756,
      "learning_rate": 1.7205216110416497e-05,
      "loss": 3.4233,
      "step": 406410
    },
    {
      "epoch": 0.8467083333333333,
      "grad_norm": 0.9162651896476746,
      "learning_rate": 1.7200631941963027e-05,
      "loss": 3.4006,
      "step": 406420
    },
    {
      "epoch": 0.8467291666666666,
      "grad_norm": 0.9500580430030823,
      "learning_rate": 1.7196048347150325e-05,
      "loss": 3.2794,
      "step": 406430
    },
    {
      "epoch": 0.84675,
      "grad_norm": 0.8666133284568787,
      "learning_rate": 1.7191465325998093e-05,
      "loss": 3.3662,
      "step": 406440
    },
    {
      "epoch": 0.8467708333333334,
      "grad_norm": 0.9010729789733887,
      "learning_rate": 1.7186882878526148e-05,
      "loss": 3.2936,
      "step": 406450
    },
    {
      "epoch": 0.8467916666666667,
      "grad_norm": 0.9221460819244385,
      "learning_rate": 1.718230100475434e-05,
      "loss": 3.3244,
      "step": 406460
    },
    {
      "epoch": 0.8468125,
      "grad_norm": 1.0916067361831665,
      "learning_rate": 1.71777197047024e-05,
      "loss": 3.2596,
      "step": 406470
    },
    {
      "epoch": 0.8468333333333333,
      "grad_norm": 1.0579569339752197,
      "learning_rate": 1.717313897839014e-05,
      "loss": 3.213,
      "step": 406480
    },
    {
      "epoch": 0.8468541666666667,
      "grad_norm": 0.881607174873352,
      "learning_rate": 1.7168558825837332e-05,
      "loss": 3.4867,
      "step": 406490
    },
    {
      "epoch": 0.846875,
      "grad_norm": 0.9314523935317993,
      "learning_rate": 1.716397924706378e-05,
      "loss": 3.2626,
      "step": 406500
    },
    {
      "epoch": 0.8468958333333333,
      "grad_norm": 1.017694354057312,
      "learning_rate": 1.7159400242089237e-05,
      "loss": 3.3598,
      "step": 406510
    },
    {
      "epoch": 0.8469166666666667,
      "grad_norm": 0.9114155769348145,
      "learning_rate": 1.7154821810933522e-05,
      "loss": 3.3564,
      "step": 406520
    },
    {
      "epoch": 0.8469375,
      "grad_norm": 0.9329136610031128,
      "learning_rate": 1.71502439536164e-05,
      "loss": 3.2358,
      "step": 406530
    },
    {
      "epoch": 0.8469583333333334,
      "grad_norm": 0.8776552677154541,
      "learning_rate": 1.7145666670157622e-05,
      "loss": 3.2911,
      "step": 406540
    },
    {
      "epoch": 0.8469791666666666,
      "grad_norm": 0.9130805730819702,
      "learning_rate": 1.7141089960576986e-05,
      "loss": 3.2922,
      "step": 406550
    },
    {
      "epoch": 0.847,
      "grad_norm": 1.0223802328109741,
      "learning_rate": 1.713651382489425e-05,
      "loss": 3.2886,
      "step": 406560
    },
    {
      "epoch": 0.8470208333333333,
      "grad_norm": 0.922407329082489,
      "learning_rate": 1.7131938263129174e-05,
      "loss": 3.3302,
      "step": 406570
    },
    {
      "epoch": 0.8470416666666667,
      "grad_norm": 0.9042912125587463,
      "learning_rate": 1.7127363275301548e-05,
      "loss": 3.2658,
      "step": 406580
    },
    {
      "epoch": 0.8470625,
      "grad_norm": 0.8330494165420532,
      "learning_rate": 1.7122788861431103e-05,
      "loss": 3.3157,
      "step": 406590
    },
    {
      "epoch": 0.8470833333333333,
      "grad_norm": 0.9630439877510071,
      "learning_rate": 1.711821502153766e-05,
      "loss": 3.4231,
      "step": 406600
    },
    {
      "epoch": 0.8471041666666667,
      "grad_norm": 0.9404621124267578,
      "learning_rate": 1.711364175564086e-05,
      "loss": 3.4305,
      "step": 406610
    },
    {
      "epoch": 0.847125,
      "grad_norm": 0.8695203065872192,
      "learning_rate": 1.710906906376055e-05,
      "loss": 3.3215,
      "step": 406620
    },
    {
      "epoch": 0.8471458333333334,
      "grad_norm": 0.9187250733375549,
      "learning_rate": 1.7104496945916506e-05,
      "loss": 3.1827,
      "step": 406630
    },
    {
      "epoch": 0.8471666666666666,
      "grad_norm": 0.9120715856552124,
      "learning_rate": 1.709992540212835e-05,
      "loss": 3.3309,
      "step": 406640
    },
    {
      "epoch": 0.8471875,
      "grad_norm": 0.8648773431777954,
      "learning_rate": 1.7095354432415964e-05,
      "loss": 3.5111,
      "step": 406650
    },
    {
      "epoch": 0.8472083333333333,
      "grad_norm": 1.0071502923965454,
      "learning_rate": 1.7090784036799067e-05,
      "loss": 3.3304,
      "step": 406660
    },
    {
      "epoch": 0.8472291666666667,
      "grad_norm": 0.8841750025749207,
      "learning_rate": 1.708621421529729e-05,
      "loss": 3.4078,
      "step": 406670
    },
    {
      "epoch": 0.84725,
      "grad_norm": 0.8221297264099121,
      "learning_rate": 1.70816449679305e-05,
      "loss": 3.3179,
      "step": 406680
    },
    {
      "epoch": 0.8472708333333333,
      "grad_norm": 0.8774623870849609,
      "learning_rate": 1.707707629471844e-05,
      "loss": 3.2209,
      "step": 406690
    },
    {
      "epoch": 0.8472916666666667,
      "grad_norm": 0.8879702091217041,
      "learning_rate": 1.7072508195680716e-05,
      "loss": 3.3574,
      "step": 406700
    },
    {
      "epoch": 0.8473125,
      "grad_norm": 0.8813453316688538,
      "learning_rate": 1.706794067083717e-05,
      "loss": 3.2841,
      "step": 406710
    },
    {
      "epoch": 0.8473333333333334,
      "grad_norm": 0.9386454224586487,
      "learning_rate": 1.7063373720207534e-05,
      "loss": 3.3174,
      "step": 406720
    },
    {
      "epoch": 0.8473541666666666,
      "grad_norm": 0.8734825253486633,
      "learning_rate": 1.705880734381144e-05,
      "loss": 3.4859,
      "step": 406730
    },
    {
      "epoch": 0.847375,
      "grad_norm": 0.9460329413414001,
      "learning_rate": 1.7054241541668763e-05,
      "loss": 3.3981,
      "step": 406740
    },
    {
      "epoch": 0.8473958333333333,
      "grad_norm": 0.8319509625434875,
      "learning_rate": 1.7049676313799078e-05,
      "loss": 3.3069,
      "step": 406750
    },
    {
      "epoch": 0.8474166666666667,
      "grad_norm": 0.8528735637664795,
      "learning_rate": 1.7045111660222156e-05,
      "loss": 3.2923,
      "step": 406760
    },
    {
      "epoch": 0.8474375,
      "grad_norm": 0.9115998148918152,
      "learning_rate": 1.7040547580957763e-05,
      "loss": 3.2199,
      "step": 406770
    },
    {
      "epoch": 0.8474583333333333,
      "grad_norm": 0.8861672878265381,
      "learning_rate": 1.7035984076025554e-05,
      "loss": 3.324,
      "step": 406780
    },
    {
      "epoch": 0.8474791666666667,
      "grad_norm": 0.8780245184898376,
      "learning_rate": 1.7031421145445245e-05,
      "loss": 3.3385,
      "step": 406790
    },
    {
      "epoch": 0.8475,
      "grad_norm": 0.874544620513916,
      "learning_rate": 1.702685878923662e-05,
      "loss": 3.2202,
      "step": 406800
    },
    {
      "epoch": 0.8475208333333333,
      "grad_norm": 0.893048107624054,
      "learning_rate": 1.7022297007419293e-05,
      "loss": 3.2505,
      "step": 406810
    },
    {
      "epoch": 0.8475416666666666,
      "grad_norm": 0.9702434539794922,
      "learning_rate": 1.7017735800012973e-05,
      "loss": 3.3837,
      "step": 406820
    },
    {
      "epoch": 0.8475625,
      "grad_norm": 0.870983362197876,
      "learning_rate": 1.701317516703747e-05,
      "loss": 3.3607,
      "step": 406830
    },
    {
      "epoch": 0.8475833333333334,
      "grad_norm": 0.9704145789146423,
      "learning_rate": 1.700861510851237e-05,
      "loss": 3.3388,
      "step": 406840
    },
    {
      "epoch": 0.8476041666666667,
      "grad_norm": 0.8760274052619934,
      "learning_rate": 1.7004055624457374e-05,
      "loss": 3.3513,
      "step": 406850
    },
    {
      "epoch": 0.847625,
      "grad_norm": 0.8560920357704163,
      "learning_rate": 1.6999496714892285e-05,
      "loss": 3.3384,
      "step": 406860
    },
    {
      "epoch": 0.8476458333333333,
      "grad_norm": 0.9242892861366272,
      "learning_rate": 1.6994938379836702e-05,
      "loss": 3.4338,
      "step": 406870
    },
    {
      "epoch": 0.8476666666666667,
      "grad_norm": 0.8768956661224365,
      "learning_rate": 1.699038061931033e-05,
      "loss": 3.2556,
      "step": 406880
    },
    {
      "epoch": 0.8476875,
      "grad_norm": 0.9972609877586365,
      "learning_rate": 1.6985823433332863e-05,
      "loss": 3.3719,
      "step": 406890
    },
    {
      "epoch": 0.8477083333333333,
      "grad_norm": 0.8689739108085632,
      "learning_rate": 1.698126682192399e-05,
      "loss": 3.3486,
      "step": 406900
    },
    {
      "epoch": 0.8477291666666666,
      "grad_norm": 0.9066858291625977,
      "learning_rate": 1.6976710785103394e-05,
      "loss": 3.3173,
      "step": 406910
    },
    {
      "epoch": 0.84775,
      "grad_norm": 0.9298992156982422,
      "learning_rate": 1.6972155322890755e-05,
      "loss": 3.2,
      "step": 406920
    },
    {
      "epoch": 0.8477708333333334,
      "grad_norm": 0.9868159890174866,
      "learning_rate": 1.696760043530575e-05,
      "loss": 3.3345,
      "step": 406930
    },
    {
      "epoch": 0.8477916666666667,
      "grad_norm": 0.8684136867523193,
      "learning_rate": 1.696304612236804e-05,
      "loss": 3.3575,
      "step": 406940
    },
    {
      "epoch": 0.8478125,
      "grad_norm": 0.8924649953842163,
      "learning_rate": 1.6958492384097327e-05,
      "loss": 3.3165,
      "step": 406950
    },
    {
      "epoch": 0.8478333333333333,
      "grad_norm": 0.8851130604743958,
      "learning_rate": 1.695393922051326e-05,
      "loss": 3.4376,
      "step": 406960
    },
    {
      "epoch": 0.8478541666666667,
      "grad_norm": 0.8086035847663879,
      "learning_rate": 1.694938663163553e-05,
      "loss": 3.2051,
      "step": 406970
    },
    {
      "epoch": 0.847875,
      "grad_norm": 0.9305436611175537,
      "learning_rate": 1.694483461748375e-05,
      "loss": 3.4279,
      "step": 406980
    },
    {
      "epoch": 0.8478958333333333,
      "grad_norm": 1.0222378969192505,
      "learning_rate": 1.694028317807762e-05,
      "loss": 3.3102,
      "step": 406990
    },
    {
      "epoch": 0.8479166666666667,
      "grad_norm": 0.870087742805481,
      "learning_rate": 1.693573231343684e-05,
      "loss": 3.3122,
      "step": 407000
    },
    {
      "epoch": 0.8479166666666667,
      "eval_loss": 4.033524990081787,
      "eval_runtime": 9.1142,
      "eval_samples_per_second": 1.097,
      "eval_steps_per_second": 0.329,
      "step": 407000
    },
    {
      "epoch": 0.8479375,
      "grad_norm": 0.8961478471755981,
      "learning_rate": 1.6931182023580962e-05,
      "loss": 3.4069,
      "step": 407010
    },
    {
      "epoch": 0.8479583333333334,
      "grad_norm": 0.9941747188568115,
      "learning_rate": 1.692663230852974e-05,
      "loss": 3.3819,
      "step": 407020
    },
    {
      "epoch": 0.8479791666666666,
      "grad_norm": 0.9855793118476868,
      "learning_rate": 1.6922083168302826e-05,
      "loss": 3.424,
      "step": 407030
    },
    {
      "epoch": 0.848,
      "grad_norm": 0.7972818613052368,
      "learning_rate": 1.691753460291978e-05,
      "loss": 3.3587,
      "step": 407040
    },
    {
      "epoch": 0.8480208333333333,
      "grad_norm": 0.8736767768859863,
      "learning_rate": 1.6912986612400325e-05,
      "loss": 3.3175,
      "step": 407050
    },
    {
      "epoch": 0.8480416666666667,
      "grad_norm": 0.8790647983551025,
      "learning_rate": 1.690843919676413e-05,
      "loss": 3.1325,
      "step": 407060
    },
    {
      "epoch": 0.8480625,
      "grad_norm": 0.9372788667678833,
      "learning_rate": 1.6903892356030723e-05,
      "loss": 3.252,
      "step": 407070
    },
    {
      "epoch": 0.8480833333333333,
      "grad_norm": 1.0131460428237915,
      "learning_rate": 1.6899346090219863e-05,
      "loss": 3.265,
      "step": 407080
    },
    {
      "epoch": 0.8481041666666667,
      "grad_norm": 0.8930538892745972,
      "learning_rate": 1.6894800399351162e-05,
      "loss": 3.327,
      "step": 407090
    },
    {
      "epoch": 0.848125,
      "grad_norm": 0.9764561057090759,
      "learning_rate": 1.689025528344417e-05,
      "loss": 3.3127,
      "step": 407100
    },
    {
      "epoch": 0.8481458333333334,
      "grad_norm": 0.9261360764503479,
      "learning_rate": 1.688571074251866e-05,
      "loss": 3.2662,
      "step": 407110
    },
    {
      "epoch": 0.8481666666666666,
      "grad_norm": 0.9133134484291077,
      "learning_rate": 1.6881166776594162e-05,
      "loss": 3.2704,
      "step": 407120
    },
    {
      "epoch": 0.8481875,
      "grad_norm": 0.8483044505119324,
      "learning_rate": 1.6876623385690296e-05,
      "loss": 3.4305,
      "step": 407130
    },
    {
      "epoch": 0.8482083333333333,
      "grad_norm": 1.0209267139434814,
      "learning_rate": 1.6872080569826778e-05,
      "loss": 3.3037,
      "step": 407140
    },
    {
      "epoch": 0.8482291666666667,
      "grad_norm": 0.8593109250068665,
      "learning_rate": 1.6867538329023146e-05,
      "loss": 3.3998,
      "step": 407150
    },
    {
      "epoch": 0.84825,
      "grad_norm": 1.1357450485229492,
      "learning_rate": 1.686299666329906e-05,
      "loss": 3.4216,
      "step": 407160
    },
    {
      "epoch": 0.8482708333333333,
      "grad_norm": 0.8669121265411377,
      "learning_rate": 1.685845557267413e-05,
      "loss": 3.2054,
      "step": 407170
    },
    {
      "epoch": 0.8482916666666667,
      "grad_norm": 0.9211549162864685,
      "learning_rate": 1.685391505716795e-05,
      "loss": 3.3726,
      "step": 407180
    },
    {
      "epoch": 0.8483125,
      "grad_norm": 0.9860745072364807,
      "learning_rate": 1.6849375116800175e-05,
      "loss": 3.3398,
      "step": 407190
    },
    {
      "epoch": 0.8483333333333334,
      "grad_norm": 0.8865860104560852,
      "learning_rate": 1.6844835751590387e-05,
      "loss": 3.2123,
      "step": 407200
    },
    {
      "epoch": 0.8483541666666666,
      "grad_norm": 1.1778050661087036,
      "learning_rate": 1.6840296961558203e-05,
      "loss": 3.1927,
      "step": 407210
    },
    {
      "epoch": 0.848375,
      "grad_norm": 0.921528160572052,
      "learning_rate": 1.6835758746723227e-05,
      "loss": 3.2321,
      "step": 407220
    },
    {
      "epoch": 0.8483958333333333,
      "grad_norm": 0.8495367765426636,
      "learning_rate": 1.6831221107105076e-05,
      "loss": 3.2391,
      "step": 407230
    },
    {
      "epoch": 0.8484166666666667,
      "grad_norm": 0.9229371547698975,
      "learning_rate": 1.6826684042723314e-05,
      "loss": 3.3283,
      "step": 407240
    },
    {
      "epoch": 0.8484375,
      "grad_norm": 0.9108325839042664,
      "learning_rate": 1.682214755359758e-05,
      "loss": 3.3875,
      "step": 407250
    },
    {
      "epoch": 0.8484583333333333,
      "grad_norm": 1.014737844467163,
      "learning_rate": 1.6817611639747458e-05,
      "loss": 3.2906,
      "step": 407260
    },
    {
      "epoch": 0.8484791666666667,
      "grad_norm": 0.9644749760627747,
      "learning_rate": 1.681307630119253e-05,
      "loss": 3.3701,
      "step": 407270
    },
    {
      "epoch": 0.8485,
      "grad_norm": 0.9448233246803284,
      "learning_rate": 1.680854153795238e-05,
      "loss": 3.4308,
      "step": 407280
    },
    {
      "epoch": 0.8485208333333333,
      "grad_norm": 0.8748141527175903,
      "learning_rate": 1.6804007350046628e-05,
      "loss": 3.2987,
      "step": 407290
    },
    {
      "epoch": 0.8485416666666666,
      "grad_norm": 1.0162498950958252,
      "learning_rate": 1.6799473737494823e-05,
      "loss": 3.461,
      "step": 407300
    },
    {
      "epoch": 0.8485625,
      "grad_norm": 0.9089449644088745,
      "learning_rate": 1.6794940700316585e-05,
      "loss": 3.3596,
      "step": 407310
    },
    {
      "epoch": 0.8485833333333334,
      "grad_norm": 0.9465680718421936,
      "learning_rate": 1.6790408238531477e-05,
      "loss": 3.3447,
      "step": 407320
    },
    {
      "epoch": 0.8486041666666667,
      "grad_norm": 0.9508733153343201,
      "learning_rate": 1.6785876352159073e-05,
      "loss": 3.3226,
      "step": 407330
    },
    {
      "epoch": 0.848625,
      "grad_norm": 0.9555960893630981,
      "learning_rate": 1.6781345041218935e-05,
      "loss": 3.3099,
      "step": 407340
    },
    {
      "epoch": 0.8486458333333333,
      "grad_norm": 0.9121854305267334,
      "learning_rate": 1.6776814305730684e-05,
      "loss": 3.4551,
      "step": 407350
    },
    {
      "epoch": 0.8486666666666667,
      "grad_norm": 0.9070643782615662,
      "learning_rate": 1.677228414571384e-05,
      "loss": 3.3028,
      "step": 407360
    },
    {
      "epoch": 0.8486875,
      "grad_norm": 0.9106423854827881,
      "learning_rate": 1.6767754561188028e-05,
      "loss": 3.2463,
      "step": 407370
    },
    {
      "epoch": 0.8487083333333333,
      "grad_norm": 0.9318082928657532,
      "learning_rate": 1.6763225552172725e-05,
      "loss": 3.3653,
      "step": 407380
    },
    {
      "epoch": 0.8487291666666666,
      "grad_norm": 0.871374785900116,
      "learning_rate": 1.675869711868758e-05,
      "loss": 3.2914,
      "step": 407390
    },
    {
      "epoch": 0.84875,
      "grad_norm": 0.8412633538246155,
      "learning_rate": 1.675416926075216e-05,
      "loss": 3.3556,
      "step": 407400
    },
    {
      "epoch": 0.8487708333333334,
      "grad_norm": 0.980560839176178,
      "learning_rate": 1.6749641978385913e-05,
      "loss": 3.3162,
      "step": 407410
    },
    {
      "epoch": 0.8487916666666667,
      "grad_norm": 0.9690594673156738,
      "learning_rate": 1.6745115271608495e-05,
      "loss": 3.2253,
      "step": 407420
    },
    {
      "epoch": 0.8488125,
      "grad_norm": 0.8322911262512207,
      "learning_rate": 1.674058914043947e-05,
      "loss": 3.2897,
      "step": 407430
    },
    {
      "epoch": 0.8488333333333333,
      "grad_norm": 0.9084240794181824,
      "learning_rate": 1.673606358489829e-05,
      "loss": 3.294,
      "step": 407440
    },
    {
      "epoch": 0.8488541666666667,
      "grad_norm": 0.954049289226532,
      "learning_rate": 1.6731538605004607e-05,
      "loss": 3.3384,
      "step": 407450
    },
    {
      "epoch": 0.848875,
      "grad_norm": 0.9472965598106384,
      "learning_rate": 1.6727014200777938e-05,
      "loss": 3.2835,
      "step": 407460
    },
    {
      "epoch": 0.8488958333333333,
      "grad_norm": 0.8847028613090515,
      "learning_rate": 1.67224903722378e-05,
      "loss": 3.2978,
      "step": 407470
    },
    {
      "epoch": 0.8489166666666667,
      "grad_norm": 0.876293957233429,
      "learning_rate": 1.6717967119403746e-05,
      "loss": 3.3112,
      "step": 407480
    },
    {
      "epoch": 0.8489375,
      "grad_norm": 0.8400631546974182,
      "learning_rate": 1.6713444442295308e-05,
      "loss": 3.3903,
      "step": 407490
    },
    {
      "epoch": 0.8489583333333334,
      "grad_norm": 0.8394258618354797,
      "learning_rate": 1.670892234093204e-05,
      "loss": 3.3419,
      "step": 407500
    },
    {
      "epoch": 0.8489791666666666,
      "grad_norm": 0.9155400991439819,
      "learning_rate": 1.6704400815333456e-05,
      "loss": 3.43,
      "step": 407510
    },
    {
      "epoch": 0.849,
      "grad_norm": 0.8825749158859253,
      "learning_rate": 1.669987986551911e-05,
      "loss": 3.4394,
      "step": 407520
    },
    {
      "epoch": 0.8490208333333333,
      "grad_norm": 1.0823673009872437,
      "learning_rate": 1.669535949150852e-05,
      "loss": 3.2765,
      "step": 407530
    },
    {
      "epoch": 0.8490416666666667,
      "grad_norm": 0.9219459295272827,
      "learning_rate": 1.66908396933212e-05,
      "loss": 3.3577,
      "step": 407540
    },
    {
      "epoch": 0.8490625,
      "grad_norm": 0.9730713367462158,
      "learning_rate": 1.6686320470976707e-05,
      "loss": 3.2466,
      "step": 407550
    },
    {
      "epoch": 0.8490833333333333,
      "grad_norm": 1.0590910911560059,
      "learning_rate": 1.6681801824494518e-05,
      "loss": 3.4423,
      "step": 407560
    },
    {
      "epoch": 0.8491041666666667,
      "grad_norm": 0.9541657567024231,
      "learning_rate": 1.667728375389417e-05,
      "loss": 3.3189,
      "step": 407570
    },
    {
      "epoch": 0.849125,
      "grad_norm": 0.9236176609992981,
      "learning_rate": 1.6672766259195203e-05,
      "loss": 3.3006,
      "step": 407580
    },
    {
      "epoch": 0.8491458333333334,
      "grad_norm": 0.9506387710571289,
      "learning_rate": 1.6668249340417112e-05,
      "loss": 3.2591,
      "step": 407590
    },
    {
      "epoch": 0.8491666666666666,
      "grad_norm": 0.973301887512207,
      "learning_rate": 1.6663732997579398e-05,
      "loss": 3.313,
      "step": 407600
    },
    {
      "epoch": 0.8491875,
      "grad_norm": 0.995421290397644,
      "learning_rate": 1.6659217230701567e-05,
      "loss": 3.343,
      "step": 407610
    },
    {
      "epoch": 0.8492083333333333,
      "grad_norm": 0.8941064476966858,
      "learning_rate": 1.6654702039803163e-05,
      "loss": 3.3096,
      "step": 407620
    },
    {
      "epoch": 0.8492291666666667,
      "grad_norm": 1.0340274572372437,
      "learning_rate": 1.6650187424903642e-05,
      "loss": 3.266,
      "step": 407630
    },
    {
      "epoch": 0.84925,
      "grad_norm": 0.8767980933189392,
      "learning_rate": 1.664567338602254e-05,
      "loss": 3.248,
      "step": 407640
    },
    {
      "epoch": 0.8492708333333333,
      "grad_norm": 0.9774177074432373,
      "learning_rate": 1.6641159923179336e-05,
      "loss": 3.3544,
      "step": 407650
    },
    {
      "epoch": 0.8492916666666667,
      "grad_norm": 1.0200164318084717,
      "learning_rate": 1.663664703639355e-05,
      "loss": 3.307,
      "step": 407660
    },
    {
      "epoch": 0.8493125,
      "grad_norm": 1.0507577657699585,
      "learning_rate": 1.6632134725684655e-05,
      "loss": 3.2815,
      "step": 407670
    },
    {
      "epoch": 0.8493333333333334,
      "grad_norm": 0.9055041074752808,
      "learning_rate": 1.6627622991072126e-05,
      "loss": 3.4669,
      "step": 407680
    },
    {
      "epoch": 0.8493541666666666,
      "grad_norm": 0.9127364754676819,
      "learning_rate": 1.6623111832575505e-05,
      "loss": 3.3461,
      "step": 407690
    },
    {
      "epoch": 0.849375,
      "grad_norm": 0.8950684666633606,
      "learning_rate": 1.661860125021422e-05,
      "loss": 3.3234,
      "step": 407700
    },
    {
      "epoch": 0.8493958333333333,
      "grad_norm": 0.8215551972389221,
      "learning_rate": 1.6614091244007793e-05,
      "loss": 3.3367,
      "step": 407710
    },
    {
      "epoch": 0.8494166666666667,
      "grad_norm": 0.9825294017791748,
      "learning_rate": 1.6609581813975693e-05,
      "loss": 3.3127,
      "step": 407720
    },
    {
      "epoch": 0.8494375,
      "grad_norm": 0.9887974262237549,
      "learning_rate": 1.66050729601374e-05,
      "loss": 3.3933,
      "step": 407730
    },
    {
      "epoch": 0.8494583333333333,
      "grad_norm": 0.8957287669181824,
      "learning_rate": 1.660056468251242e-05,
      "loss": 3.3459,
      "step": 407740
    },
    {
      "epoch": 0.8494791666666667,
      "grad_norm": 0.9451850652694702,
      "learning_rate": 1.6596056981120165e-05,
      "loss": 3.0785,
      "step": 407750
    },
    {
      "epoch": 0.8495,
      "grad_norm": 0.8811672329902649,
      "learning_rate": 1.6591549855980125e-05,
      "loss": 3.3285,
      "step": 407760
    },
    {
      "epoch": 0.8495208333333333,
      "grad_norm": 0.9602962136268616,
      "learning_rate": 1.658704330711183e-05,
      "loss": 3.3399,
      "step": 407770
    },
    {
      "epoch": 0.8495416666666666,
      "grad_norm": 0.9777340292930603,
      "learning_rate": 1.6582537334534667e-05,
      "loss": 3.4826,
      "step": 407780
    },
    {
      "epoch": 0.8495625,
      "grad_norm": 0.8797018527984619,
      "learning_rate": 1.6578031938268104e-05,
      "loss": 3.3941,
      "step": 407790
    },
    {
      "epoch": 0.8495833333333334,
      "grad_norm": 0.9778756499290466,
      "learning_rate": 1.6573527118331692e-05,
      "loss": 3.2942,
      "step": 407800
    },
    {
      "epoch": 0.8496041666666667,
      "grad_norm": 0.933385968208313,
      "learning_rate": 1.6569022874744796e-05,
      "loss": 3.3248,
      "step": 407810
    },
    {
      "epoch": 0.849625,
      "grad_norm": 0.992121160030365,
      "learning_rate": 1.6564519207526873e-05,
      "loss": 3.3713,
      "step": 407820
    },
    {
      "epoch": 0.8496458333333333,
      "grad_norm": 0.9100407958030701,
      "learning_rate": 1.6560016116697482e-05,
      "loss": 3.3006,
      "step": 407830
    },
    {
      "epoch": 0.8496666666666667,
      "grad_norm": 0.8919318914413452,
      "learning_rate": 1.6555513602275967e-05,
      "loss": 3.3102,
      "step": 407840
    },
    {
      "epoch": 0.8496875,
      "grad_norm": 0.9094343185424805,
      "learning_rate": 1.6551011664281772e-05,
      "loss": 3.344,
      "step": 407850
    },
    {
      "epoch": 0.8497083333333333,
      "grad_norm": 0.9929554462432861,
      "learning_rate": 1.654651030273445e-05,
      "loss": 3.4113,
      "step": 407860
    },
    {
      "epoch": 0.8497291666666666,
      "grad_norm": 1.0226236581802368,
      "learning_rate": 1.6542009517653354e-05,
      "loss": 3.2613,
      "step": 407870
    },
    {
      "epoch": 0.84975,
      "grad_norm": 0.862618088722229,
      "learning_rate": 1.6537509309057952e-05,
      "loss": 3.2095,
      "step": 407880
    },
    {
      "epoch": 0.8497708333333334,
      "grad_norm": 1.0053021907806396,
      "learning_rate": 1.6533009676967675e-05,
      "loss": 3.311,
      "step": 407890
    },
    {
      "epoch": 0.8497916666666666,
      "grad_norm": 0.9204972386360168,
      "learning_rate": 1.6528510621401974e-05,
      "loss": 3.4044,
      "step": 407900
    },
    {
      "epoch": 0.8498125,
      "grad_norm": 0.8759803175926208,
      "learning_rate": 1.6524012142380254e-05,
      "loss": 3.3045,
      "step": 407910
    },
    {
      "epoch": 0.8498333333333333,
      "grad_norm": 0.8559549450874329,
      "learning_rate": 1.6519514239922e-05,
      "loss": 3.4307,
      "step": 407920
    },
    {
      "epoch": 0.8498541666666667,
      "grad_norm": 0.8571702837944031,
      "learning_rate": 1.6515016914046593e-05,
      "loss": 3.3479,
      "step": 407930
    },
    {
      "epoch": 0.849875,
      "grad_norm": 1.2454633712768555,
      "learning_rate": 1.6510520164773467e-05,
      "loss": 3.3841,
      "step": 407940
    },
    {
      "epoch": 0.8498958333333333,
      "grad_norm": 0.9886059165000916,
      "learning_rate": 1.6506023992122058e-05,
      "loss": 3.259,
      "step": 407950
    },
    {
      "epoch": 0.8499166666666667,
      "grad_norm": 0.8885347843170166,
      "learning_rate": 1.65015283961118e-05,
      "loss": 3.4103,
      "step": 407960
    },
    {
      "epoch": 0.8499375,
      "grad_norm": 0.8608855605125427,
      "learning_rate": 1.649703337676208e-05,
      "loss": 3.2312,
      "step": 407970
    },
    {
      "epoch": 0.8499583333333334,
      "grad_norm": 0.8742076754570007,
      "learning_rate": 1.6492538934092348e-05,
      "loss": 3.2603,
      "step": 407980
    },
    {
      "epoch": 0.8499791666666666,
      "grad_norm": 0.9224897027015686,
      "learning_rate": 1.6488045068121986e-05,
      "loss": 3.2614,
      "step": 407990
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.8144477009773254,
      "learning_rate": 1.648355177887043e-05,
      "loss": 3.394,
      "step": 408000
    },
    {
      "epoch": 0.85,
      "eval_loss": 4.030434608459473,
      "eval_runtime": 9.0301,
      "eval_samples_per_second": 1.107,
      "eval_steps_per_second": 0.332,
      "step": 408000
    },
    {
      "epoch": 0.8500208333333333,
      "grad_norm": 0.8933042883872986,
      "learning_rate": 1.647905906635708e-05,
      "loss": 3.1359,
      "step": 408010
    },
    {
      "epoch": 0.8500416666666667,
      "grad_norm": 0.8894155621528625,
      "learning_rate": 1.647456693060134e-05,
      "loss": 3.2528,
      "step": 408020
    },
    {
      "epoch": 0.8500625,
      "grad_norm": 0.8739853501319885,
      "learning_rate": 1.6470075371622626e-05,
      "loss": 3.295,
      "step": 408030
    },
    {
      "epoch": 0.8500833333333333,
      "grad_norm": 0.8872179388999939,
      "learning_rate": 1.646558438944032e-05,
      "loss": 3.4785,
      "step": 408040
    },
    {
      "epoch": 0.8501041666666667,
      "grad_norm": 0.8115959167480469,
      "learning_rate": 1.6461093984073847e-05,
      "loss": 3.2781,
      "step": 408050
    },
    {
      "epoch": 0.850125,
      "grad_norm": 0.9247994422912598,
      "learning_rate": 1.645660415554262e-05,
      "loss": 3.3111,
      "step": 408060
    },
    {
      "epoch": 0.8501458333333334,
      "grad_norm": 0.9672229290008545,
      "learning_rate": 1.6452114903865937e-05,
      "loss": 3.3131,
      "step": 408070
    },
    {
      "epoch": 0.8501666666666666,
      "grad_norm": 0.9432587623596191,
      "learning_rate": 1.6447626229063272e-05,
      "loss": 3.3644,
      "step": 408080
    },
    {
      "epoch": 0.8501875,
      "grad_norm": 0.9913710951805115,
      "learning_rate": 1.6443138131154055e-05,
      "loss": 3.1781,
      "step": 408090
    },
    {
      "epoch": 0.8502083333333333,
      "grad_norm": 0.8452352285385132,
      "learning_rate": 1.643865061015754e-05,
      "loss": 3.3824,
      "step": 408100
    },
    {
      "epoch": 0.8502291666666667,
      "grad_norm": 1.0078257322311401,
      "learning_rate": 1.6434163666093243e-05,
      "loss": 3.2415,
      "step": 408110
    },
    {
      "epoch": 0.85025,
      "grad_norm": 0.9256672263145447,
      "learning_rate": 1.6429677298980465e-05,
      "loss": 3.3093,
      "step": 408120
    },
    {
      "epoch": 0.8502708333333333,
      "grad_norm": 0.8875957131385803,
      "learning_rate": 1.6425191508838575e-05,
      "loss": 3.2386,
      "step": 408130
    },
    {
      "epoch": 0.8502916666666667,
      "grad_norm": 0.9370529651641846,
      "learning_rate": 1.642070629568706e-05,
      "loss": 3.2993,
      "step": 408140
    },
    {
      "epoch": 0.8503125,
      "grad_norm": 0.931843101978302,
      "learning_rate": 1.6416221659545163e-05,
      "loss": 3.3657,
      "step": 408150
    },
    {
      "epoch": 0.8503333333333334,
      "grad_norm": 0.8067312240600586,
      "learning_rate": 1.641173760043231e-05,
      "loss": 3.3086,
      "step": 408160
    },
    {
      "epoch": 0.8503541666666666,
      "grad_norm": 0.872654378414154,
      "learning_rate": 1.640725411836792e-05,
      "loss": 3.3809,
      "step": 408170
    },
    {
      "epoch": 0.850375,
      "grad_norm": 0.8710906505584717,
      "learning_rate": 1.6402771213371285e-05,
      "loss": 3.3347,
      "step": 408180
    },
    {
      "epoch": 0.8503958333333334,
      "grad_norm": 0.905561625957489,
      "learning_rate": 1.6398288885461764e-05,
      "loss": 3.3072,
      "step": 408190
    },
    {
      "epoch": 0.8504166666666667,
      "grad_norm": 0.8647662401199341,
      "learning_rate": 1.639380713465882e-05,
      "loss": 3.3179,
      "step": 408200
    },
    {
      "epoch": 0.8504375,
      "grad_norm": 0.962670087814331,
      "learning_rate": 1.638932596098171e-05,
      "loss": 3.2613,
      "step": 408210
    },
    {
      "epoch": 0.8504583333333333,
      "grad_norm": 1.014741063117981,
      "learning_rate": 1.638484536444978e-05,
      "loss": 3.3791,
      "step": 408220
    },
    {
      "epoch": 0.8504791666666667,
      "grad_norm": 0.8421186804771423,
      "learning_rate": 1.6380365345082514e-05,
      "loss": 3.4409,
      "step": 408230
    },
    {
      "epoch": 0.8505,
      "grad_norm": 0.9456385970115662,
      "learning_rate": 1.6375885902899133e-05,
      "loss": 3.1741,
      "step": 408240
    },
    {
      "epoch": 0.8505208333333333,
      "grad_norm": 0.8253656029701233,
      "learning_rate": 1.637140703791904e-05,
      "loss": 3.3311,
      "step": 408250
    },
    {
      "epoch": 0.8505416666666666,
      "grad_norm": 0.90404212474823,
      "learning_rate": 1.636692875016156e-05,
      "loss": 3.338,
      "step": 408260
    },
    {
      "epoch": 0.8505625,
      "grad_norm": 1.037914514541626,
      "learning_rate": 1.6362451039646076e-05,
      "loss": 3.314,
      "step": 408270
    },
    {
      "epoch": 0.8505833333333334,
      "grad_norm": 0.8790812492370605,
      "learning_rate": 1.6357973906391892e-05,
      "loss": 3.2704,
      "step": 408280
    },
    {
      "epoch": 0.8506041666666667,
      "grad_norm": 1.137407660484314,
      "learning_rate": 1.6353497350418364e-05,
      "loss": 3.3644,
      "step": 408290
    },
    {
      "epoch": 0.850625,
      "grad_norm": 1.0480793714523315,
      "learning_rate": 1.634902137174483e-05,
      "loss": 3.3213,
      "step": 408300
    },
    {
      "epoch": 0.8506458333333333,
      "grad_norm": 0.8652169108390808,
      "learning_rate": 1.634454597039062e-05,
      "loss": 3.268,
      "step": 408310
    },
    {
      "epoch": 0.8506666666666667,
      "grad_norm": 0.8876988291740417,
      "learning_rate": 1.6340071146375056e-05,
      "loss": 3.3388,
      "step": 408320
    },
    {
      "epoch": 0.8506875,
      "grad_norm": 0.878214418888092,
      "learning_rate": 1.6335596899717484e-05,
      "loss": 3.3031,
      "step": 408330
    },
    {
      "epoch": 0.8507083333333333,
      "grad_norm": 0.844542384147644,
      "learning_rate": 1.6331123230437227e-05,
      "loss": 3.3251,
      "step": 408340
    },
    {
      "epoch": 0.8507291666666666,
      "grad_norm": 0.930751383304596,
      "learning_rate": 1.6326650138553615e-05,
      "loss": 3.3392,
      "step": 408350
    },
    {
      "epoch": 0.85075,
      "grad_norm": 0.9012635350227356,
      "learning_rate": 1.6322177624085952e-05,
      "loss": 3.2535,
      "step": 408360
    },
    {
      "epoch": 0.8507708333333334,
      "grad_norm": 0.9234603643417358,
      "learning_rate": 1.6317705687053606e-05,
      "loss": 3.2871,
      "step": 408370
    },
    {
      "epoch": 0.8507916666666666,
      "grad_norm": 0.9258829355239868,
      "learning_rate": 1.6313234327475793e-05,
      "loss": 3.2682,
      "step": 408380
    },
    {
      "epoch": 0.8508125,
      "grad_norm": 0.9059538245201111,
      "learning_rate": 1.630876354537192e-05,
      "loss": 3.2687,
      "step": 408390
    },
    {
      "epoch": 0.8508333333333333,
      "grad_norm": 0.97911536693573,
      "learning_rate": 1.630429334076131e-05,
      "loss": 3.1131,
      "step": 408400
    },
    {
      "epoch": 0.8508541666666667,
      "grad_norm": 0.8581123948097229,
      "learning_rate": 1.6299823713663157e-05,
      "loss": 3.4201,
      "step": 408410
    },
    {
      "epoch": 0.850875,
      "grad_norm": 0.9073445796966553,
      "learning_rate": 1.6295354664096877e-05,
      "loss": 3.3022,
      "step": 408420
    },
    {
      "epoch": 0.8508958333333333,
      "grad_norm": 0.9086573719978333,
      "learning_rate": 1.6290886192081785e-05,
      "loss": 3.3824,
      "step": 408430
    },
    {
      "epoch": 0.8509166666666667,
      "grad_norm": 0.8331096172332764,
      "learning_rate": 1.6286418297637054e-05,
      "loss": 3.3684,
      "step": 408440
    },
    {
      "epoch": 0.8509375,
      "grad_norm": 0.8731088638305664,
      "learning_rate": 1.6281950980782117e-05,
      "loss": 3.4141,
      "step": 408450
    },
    {
      "epoch": 0.8509583333333334,
      "grad_norm": 0.8964857459068298,
      "learning_rate": 1.6277484241536254e-05,
      "loss": 3.4872,
      "step": 408460
    },
    {
      "epoch": 0.8509791666666666,
      "grad_norm": 0.994124710559845,
      "learning_rate": 1.6273018079918654e-05,
      "loss": 3.1764,
      "step": 408470
    },
    {
      "epoch": 0.851,
      "grad_norm": 0.8971103429794312,
      "learning_rate": 1.626855249594875e-05,
      "loss": 3.2305,
      "step": 408480
    },
    {
      "epoch": 0.8510208333333333,
      "grad_norm": 0.8349786400794983,
      "learning_rate": 1.6264087489645745e-05,
      "loss": 3.2286,
      "step": 408490
    },
    {
      "epoch": 0.8510416666666667,
      "grad_norm": 0.8763259053230286,
      "learning_rate": 1.6259623061028902e-05,
      "loss": 3.2183,
      "step": 408500
    },
    {
      "epoch": 0.8510625,
      "grad_norm": 0.8787969946861267,
      "learning_rate": 1.6255159210117613e-05,
      "loss": 3.408,
      "step": 408510
    },
    {
      "epoch": 0.8510833333333333,
      "grad_norm": 1.001182198524475,
      "learning_rate": 1.6250695936931058e-05,
      "loss": 3.267,
      "step": 408520
    },
    {
      "epoch": 0.8511041666666667,
      "grad_norm": 0.9836047291755676,
      "learning_rate": 1.6246233241488538e-05,
      "loss": 3.2878,
      "step": 408530
    },
    {
      "epoch": 0.851125,
      "grad_norm": 0.8276132345199585,
      "learning_rate": 1.6241771123809405e-05,
      "loss": 3.3041,
      "step": 408540
    },
    {
      "epoch": 0.8511458333333334,
      "grad_norm": 1.020642876625061,
      "learning_rate": 1.6237309583912844e-05,
      "loss": 3.243,
      "step": 408550
    },
    {
      "epoch": 0.8511666666666666,
      "grad_norm": 0.9460735321044922,
      "learning_rate": 1.6232848621818124e-05,
      "loss": 3.3064,
      "step": 408560
    },
    {
      "epoch": 0.8511875,
      "grad_norm": 0.867146372795105,
      "learning_rate": 1.622838823754461e-05,
      "loss": 3.2995,
      "step": 408570
    },
    {
      "epoch": 0.8512083333333333,
      "grad_norm": 0.9337644577026367,
      "learning_rate": 1.6223928431111488e-05,
      "loss": 3.3723,
      "step": 408580
    },
    {
      "epoch": 0.8512291666666667,
      "grad_norm": 0.9695897102355957,
      "learning_rate": 1.621946920253801e-05,
      "loss": 3.2583,
      "step": 408590
    },
    {
      "epoch": 0.85125,
      "grad_norm": 0.9048900008201599,
      "learning_rate": 1.6215010551843528e-05,
      "loss": 3.3866,
      "step": 408600
    },
    {
      "epoch": 0.8512708333333333,
      "grad_norm": 0.969474196434021,
      "learning_rate": 1.6210552479047207e-05,
      "loss": 3.2559,
      "step": 408610
    },
    {
      "epoch": 0.8512916666666667,
      "grad_norm": 0.919542670249939,
      "learning_rate": 1.6206094984168348e-05,
      "loss": 3.3346,
      "step": 408620
    },
    {
      "epoch": 0.8513125,
      "grad_norm": 0.9945253133773804,
      "learning_rate": 1.6201638067226208e-05,
      "loss": 3.2862,
      "step": 408630
    },
    {
      "epoch": 0.8513333333333334,
      "grad_norm": 0.9805783629417419,
      "learning_rate": 1.6197181728240015e-05,
      "loss": 3.3278,
      "step": 408640
    },
    {
      "epoch": 0.8513541666666666,
      "grad_norm": 0.9605818390846252,
      "learning_rate": 1.6192725967229043e-05,
      "loss": 3.4055,
      "step": 408650
    },
    {
      "epoch": 0.851375,
      "grad_norm": 0.8936700820922852,
      "learning_rate": 1.6188270784212535e-05,
      "loss": 3.3183,
      "step": 408660
    },
    {
      "epoch": 0.8513958333333334,
      "grad_norm": 0.8872653841972351,
      "learning_rate": 1.6183816179209718e-05,
      "loss": 3.2888,
      "step": 408670
    },
    {
      "epoch": 0.8514166666666667,
      "grad_norm": 0.9440921545028687,
      "learning_rate": 1.6179362152239856e-05,
      "loss": 3.2707,
      "step": 408680
    },
    {
      "epoch": 0.8514375,
      "grad_norm": 0.8793714642524719,
      "learning_rate": 1.617490870332218e-05,
      "loss": 3.2745,
      "step": 408690
    },
    {
      "epoch": 0.8514583333333333,
      "grad_norm": 0.878656804561615,
      "learning_rate": 1.6170455832475914e-05,
      "loss": 3.2968,
      "step": 408700
    },
    {
      "epoch": 0.8514791666666667,
      "grad_norm": 0.8417083621025085,
      "learning_rate": 1.6166003539720323e-05,
      "loss": 3.3731,
      "step": 408710
    },
    {
      "epoch": 0.8515,
      "grad_norm": 0.9337121844291687,
      "learning_rate": 1.6161551825074608e-05,
      "loss": 3.2744,
      "step": 408720
    },
    {
      "epoch": 0.8515208333333333,
      "grad_norm": 0.8789265155792236,
      "learning_rate": 1.615710068855802e-05,
      "loss": 3.2745,
      "step": 408730
    },
    {
      "epoch": 0.8515416666666666,
      "grad_norm": 0.9237823486328125,
      "learning_rate": 1.6152650130189816e-05,
      "loss": 3.1873,
      "step": 408740
    },
    {
      "epoch": 0.8515625,
      "grad_norm": 0.9011048674583435,
      "learning_rate": 1.6148200149989103e-05,
      "loss": 3.1924,
      "step": 408750
    },
    {
      "epoch": 0.8515833333333334,
      "grad_norm": 0.9011549353599548,
      "learning_rate": 1.6143750747975225e-05,
      "loss": 3.3652,
      "step": 408760
    },
    {
      "epoch": 0.8516041666666667,
      "grad_norm": 1.0333682298660278,
      "learning_rate": 1.61393019241674e-05,
      "loss": 3.2707,
      "step": 408770
    },
    {
      "epoch": 0.851625,
      "grad_norm": 0.9902291893959045,
      "learning_rate": 1.613485367858472e-05,
      "loss": 3.3162,
      "step": 408780
    },
    {
      "epoch": 0.8516458333333333,
      "grad_norm": 0.9924106597900391,
      "learning_rate": 1.6130406011246528e-05,
      "loss": 3.3035,
      "step": 408790
    },
    {
      "epoch": 0.8516666666666667,
      "grad_norm": 0.9337709546089172,
      "learning_rate": 1.6125958922172023e-05,
      "loss": 3.2429,
      "step": 408800
    },
    {
      "epoch": 0.8516875,
      "grad_norm": 0.898707389831543,
      "learning_rate": 1.6121512411380322e-05,
      "loss": 3.1775,
      "step": 408810
    },
    {
      "epoch": 0.8517083333333333,
      "grad_norm": 0.9483426809310913,
      "learning_rate": 1.6117066478890726e-05,
      "loss": 3.2157,
      "step": 408820
    },
    {
      "epoch": 0.8517291666666666,
      "grad_norm": 1.1970078945159912,
      "learning_rate": 1.611262112472244e-05,
      "loss": 3.2334,
      "step": 408830
    },
    {
      "epoch": 0.85175,
      "grad_norm": 0.9011502861976624,
      "learning_rate": 1.610817634889458e-05,
      "loss": 3.2851,
      "step": 408840
    },
    {
      "epoch": 0.8517708333333334,
      "grad_norm": 0.9986084699630737,
      "learning_rate": 1.610373215142641e-05,
      "loss": 3.3188,
      "step": 408850
    },
    {
      "epoch": 0.8517916666666666,
      "grad_norm": 0.8621888160705566,
      "learning_rate": 1.6099288532337172e-05,
      "loss": 3.2957,
      "step": 408860
    },
    {
      "epoch": 0.8518125,
      "grad_norm": 0.8899734616279602,
      "learning_rate": 1.609484549164593e-05,
      "loss": 3.2664,
      "step": 408870
    },
    {
      "epoch": 0.8518333333333333,
      "grad_norm": 1.1735248565673828,
      "learning_rate": 1.609040302937202e-05,
      "loss": 3.2448,
      "step": 408880
    },
    {
      "epoch": 0.8518541666666667,
      "grad_norm": 0.9772714972496033,
      "learning_rate": 1.6085961145534536e-05,
      "loss": 3.2572,
      "step": 408890
    },
    {
      "epoch": 0.851875,
      "grad_norm": 0.906937837600708,
      "learning_rate": 1.6081519840152658e-05,
      "loss": 3.2197,
      "step": 408900
    },
    {
      "epoch": 0.8518958333333333,
      "grad_norm": 0.9483988881111145,
      "learning_rate": 1.607707911324566e-05,
      "loss": 3.3996,
      "step": 408910
    },
    {
      "epoch": 0.8519166666666667,
      "grad_norm": 0.8209399580955505,
      "learning_rate": 1.607263896483265e-05,
      "loss": 3.3547,
      "step": 408920
    },
    {
      "epoch": 0.8519375,
      "grad_norm": 0.8550791144371033,
      "learning_rate": 1.6068199394932812e-05,
      "loss": 3.5147,
      "step": 408930
    },
    {
      "epoch": 0.8519583333333334,
      "grad_norm": 0.8994134068489075,
      "learning_rate": 1.6063760403565362e-05,
      "loss": 3.429,
      "step": 408940
    },
    {
      "epoch": 0.8519791666666666,
      "grad_norm": 0.882194995880127,
      "learning_rate": 1.6059321990749435e-05,
      "loss": 3.3292,
      "step": 408950
    },
    {
      "epoch": 0.852,
      "grad_norm": 0.9260977506637573,
      "learning_rate": 1.6054884156504215e-05,
      "loss": 3.3663,
      "step": 408960
    },
    {
      "epoch": 0.8520208333333333,
      "grad_norm": 0.9092889428138733,
      "learning_rate": 1.605044690084889e-05,
      "loss": 3.3124,
      "step": 408970
    },
    {
      "epoch": 0.8520416666666667,
      "grad_norm": 0.9933841228485107,
      "learning_rate": 1.6046010223802607e-05,
      "loss": 3.2133,
      "step": 408980
    },
    {
      "epoch": 0.8520625,
      "grad_norm": 0.8511165976524353,
      "learning_rate": 1.6041574125384537e-05,
      "loss": 3.2623,
      "step": 408990
    },
    {
      "epoch": 0.8520833333333333,
      "grad_norm": 0.8799132108688354,
      "learning_rate": 1.6037138605613846e-05,
      "loss": 3.3952,
      "step": 409000
    },
    {
      "epoch": 0.8520833333333333,
      "eval_loss": 4.030892372131348,
      "eval_runtime": 8.7165,
      "eval_samples_per_second": 1.147,
      "eval_steps_per_second": 0.344,
      "step": 409000
    },
    {
      "epoch": 0.8521041666666667,
      "grad_norm": 0.8601468205451965,
      "learning_rate": 1.6032703664509688e-05,
      "loss": 3.3609,
      "step": 409010
    },
    {
      "epoch": 0.852125,
      "grad_norm": 0.9759520888328552,
      "learning_rate": 1.602826930209123e-05,
      "loss": 3.2162,
      "step": 409020
    },
    {
      "epoch": 0.8521458333333334,
      "grad_norm": 0.9296388030052185,
      "learning_rate": 1.6023835518377604e-05,
      "loss": 3.1519,
      "step": 409030
    },
    {
      "epoch": 0.8521666666666666,
      "grad_norm": 0.9300744533538818,
      "learning_rate": 1.601940231338798e-05,
      "loss": 3.2439,
      "step": 409040
    },
    {
      "epoch": 0.8521875,
      "grad_norm": 1.0022801160812378,
      "learning_rate": 1.601496968714151e-05,
      "loss": 3.202,
      "step": 409050
    },
    {
      "epoch": 0.8522083333333333,
      "grad_norm": 0.8380441665649414,
      "learning_rate": 1.6010537639657343e-05,
      "loss": 3.3175,
      "step": 409060
    },
    {
      "epoch": 0.8522291666666667,
      "grad_norm": 0.9035881757736206,
      "learning_rate": 1.6006106170954602e-05,
      "loss": 3.3234,
      "step": 409070
    },
    {
      "epoch": 0.85225,
      "grad_norm": 0.922244131565094,
      "learning_rate": 1.6001675281052452e-05,
      "loss": 3.2613,
      "step": 409080
    },
    {
      "epoch": 0.8522708333333333,
      "grad_norm": 0.9592396020889282,
      "learning_rate": 1.5997244969970025e-05,
      "loss": 3.3634,
      "step": 409090
    },
    {
      "epoch": 0.8522916666666667,
      "grad_norm": 0.8324118256568909,
      "learning_rate": 1.599281523772646e-05,
      "loss": 3.2606,
      "step": 409100
    },
    {
      "epoch": 0.8523125,
      "grad_norm": 0.8747652173042297,
      "learning_rate": 1.5988386084340903e-05,
      "loss": 3.3251,
      "step": 409110
    },
    {
      "epoch": 0.8523333333333334,
      "grad_norm": 0.9414547681808472,
      "learning_rate": 1.5983957509832428e-05,
      "loss": 3.3279,
      "step": 409120
    },
    {
      "epoch": 0.8523541666666666,
      "grad_norm": 0.8857280015945435,
      "learning_rate": 1.5979529514220236e-05,
      "loss": 3.3521,
      "step": 409130
    },
    {
      "epoch": 0.852375,
      "grad_norm": 0.8841804265975952,
      "learning_rate": 1.5975102097523458e-05,
      "loss": 3.4638,
      "step": 409140
    },
    {
      "epoch": 0.8523958333333334,
      "grad_norm": 0.9072614312171936,
      "learning_rate": 1.597067525976113e-05,
      "loss": 3.3087,
      "step": 409150
    },
    {
      "epoch": 0.8524166666666667,
      "grad_norm": 0.9442706108093262,
      "learning_rate": 1.5966249000952452e-05,
      "loss": 3.3056,
      "step": 409160
    },
    {
      "epoch": 0.8524375,
      "grad_norm": 0.9497605562210083,
      "learning_rate": 1.5961823321116563e-05,
      "loss": 3.3678,
      "step": 409170
    },
    {
      "epoch": 0.8524583333333333,
      "grad_norm": 0.880325198173523,
      "learning_rate": 1.5957398220272495e-05,
      "loss": 3.4343,
      "step": 409180
    },
    {
      "epoch": 0.8524791666666667,
      "grad_norm": 1.0865727663040161,
      "learning_rate": 1.5952973698439415e-05,
      "loss": 3.27,
      "step": 409190
    },
    {
      "epoch": 0.8525,
      "grad_norm": 0.9892227053642273,
      "learning_rate": 1.5948549755636475e-05,
      "loss": 3.3921,
      "step": 409200
    },
    {
      "epoch": 0.8525208333333333,
      "grad_norm": 0.8940852880477905,
      "learning_rate": 1.5944126391882663e-05,
      "loss": 3.288,
      "step": 409210
    },
    {
      "epoch": 0.8525416666666666,
      "grad_norm": 0.9361666440963745,
      "learning_rate": 1.593970360719721e-05,
      "loss": 3.3389,
      "step": 409220
    },
    {
      "epoch": 0.8525625,
      "grad_norm": 0.94902104139328,
      "learning_rate": 1.59352814015992e-05,
      "loss": 3.1374,
      "step": 409230
    },
    {
      "epoch": 0.8525833333333334,
      "grad_norm": 0.9318168759346008,
      "learning_rate": 1.5930859775107668e-05,
      "loss": 3.2699,
      "step": 409240
    },
    {
      "epoch": 0.8526041666666667,
      "grad_norm": 1.0211011171340942,
      "learning_rate": 1.592643872774175e-05,
      "loss": 3.3445,
      "step": 409250
    },
    {
      "epoch": 0.852625,
      "grad_norm": 0.9046006798744202,
      "learning_rate": 1.592201825952055e-05,
      "loss": 3.194,
      "step": 409260
    },
    {
      "epoch": 0.8526458333333333,
      "grad_norm": 0.923969566822052,
      "learning_rate": 1.591759837046317e-05,
      "loss": 3.294,
      "step": 409270
    },
    {
      "epoch": 0.8526666666666667,
      "grad_norm": 0.9151684045791626,
      "learning_rate": 1.5913179060588688e-05,
      "loss": 3.2731,
      "step": 409280
    },
    {
      "epoch": 0.8526875,
      "grad_norm": 0.9100649356842041,
      "learning_rate": 1.5908760329916192e-05,
      "loss": 3.4428,
      "step": 409290
    },
    {
      "epoch": 0.8527083333333333,
      "grad_norm": 0.9056405425071716,
      "learning_rate": 1.5904342178464768e-05,
      "loss": 3.4293,
      "step": 409300
    },
    {
      "epoch": 0.8527291666666666,
      "grad_norm": 0.8703182339668274,
      "learning_rate": 1.5899924606253518e-05,
      "loss": 3.3394,
      "step": 409310
    },
    {
      "epoch": 0.85275,
      "grad_norm": 1.0119578838348389,
      "learning_rate": 1.5895507613301523e-05,
      "loss": 3.3341,
      "step": 409320
    },
    {
      "epoch": 0.8527708333333334,
      "grad_norm": 0.9840509295463562,
      "learning_rate": 1.5891091199627837e-05,
      "loss": 3.3037,
      "step": 409330
    },
    {
      "epoch": 0.8527916666666666,
      "grad_norm": 0.8672363758087158,
      "learning_rate": 1.588667536525156e-05,
      "loss": 3.3108,
      "step": 409340
    },
    {
      "epoch": 0.8528125,
      "grad_norm": 0.9474684000015259,
      "learning_rate": 1.5882260110191745e-05,
      "loss": 3.2785,
      "step": 409350
    },
    {
      "epoch": 0.8528333333333333,
      "grad_norm": 0.818485677242279,
      "learning_rate": 1.5877845434467497e-05,
      "loss": 3.2411,
      "step": 409360
    },
    {
      "epoch": 0.8528541666666667,
      "grad_norm": 0.8776128888130188,
      "learning_rate": 1.5873431338097857e-05,
      "loss": 3.3252,
      "step": 409370
    },
    {
      "epoch": 0.852875,
      "grad_norm": 1.11241614818573,
      "learning_rate": 1.5869017821101904e-05,
      "loss": 3.2834,
      "step": 409380
    },
    {
      "epoch": 0.8528958333333333,
      "grad_norm": 0.8968879580497742,
      "learning_rate": 1.5864604883498717e-05,
      "loss": 3.4422,
      "step": 409390
    },
    {
      "epoch": 0.8529166666666667,
      "grad_norm": 0.8959246277809143,
      "learning_rate": 1.5860192525307312e-05,
      "loss": 3.2632,
      "step": 409400
    },
    {
      "epoch": 0.8529375,
      "grad_norm": 0.8562499284744263,
      "learning_rate": 1.5855780746546796e-05,
      "loss": 3.2518,
      "step": 409410
    },
    {
      "epoch": 0.8529583333333334,
      "grad_norm": 1.273409366607666,
      "learning_rate": 1.585136954723622e-05,
      "loss": 3.3834,
      "step": 409420
    },
    {
      "epoch": 0.8529791666666666,
      "grad_norm": 0.8763440847396851,
      "learning_rate": 1.5846958927394616e-05,
      "loss": 3.3575,
      "step": 409430
    },
    {
      "epoch": 0.853,
      "grad_norm": 1.246039628982544,
      "learning_rate": 1.5842548887041052e-05,
      "loss": 3.2698,
      "step": 409440
    },
    {
      "epoch": 0.8530208333333333,
      "grad_norm": 1.0052274465560913,
      "learning_rate": 1.583813942619456e-05,
      "loss": 3.3228,
      "step": 409450
    },
    {
      "epoch": 0.8530416666666667,
      "grad_norm": 0.9286748170852661,
      "learning_rate": 1.5833730544874217e-05,
      "loss": 3.3166,
      "step": 409460
    },
    {
      "epoch": 0.8530625,
      "grad_norm": 0.9000791907310486,
      "learning_rate": 1.5829322243099053e-05,
      "loss": 3.333,
      "step": 409470
    },
    {
      "epoch": 0.8530833333333333,
      "grad_norm": 1.0045106410980225,
      "learning_rate": 1.5824914520888132e-05,
      "loss": 3.4294,
      "step": 409480
    },
    {
      "epoch": 0.8531041666666667,
      "grad_norm": 0.902448296546936,
      "learning_rate": 1.5820507378260413e-05,
      "loss": 3.2828,
      "step": 409490
    },
    {
      "epoch": 0.853125,
      "grad_norm": 0.8762593865394592,
      "learning_rate": 1.5816100815235004e-05,
      "loss": 3.3548,
      "step": 409500
    },
    {
      "epoch": 0.8531458333333334,
      "grad_norm": 0.8634992241859436,
      "learning_rate": 1.581169483183097e-05,
      "loss": 3.4167,
      "step": 409510
    },
    {
      "epoch": 0.8531666666666666,
      "grad_norm": 0.9979822635650635,
      "learning_rate": 1.5807289428067267e-05,
      "loss": 3.2878,
      "step": 409520
    },
    {
      "epoch": 0.8531875,
      "grad_norm": 0.9003627300262451,
      "learning_rate": 1.5802884603962935e-05,
      "loss": 3.2067,
      "step": 409530
    },
    {
      "epoch": 0.8532083333333333,
      "grad_norm": 0.9768593311309814,
      "learning_rate": 1.5798480359537073e-05,
      "loss": 3.3049,
      "step": 409540
    },
    {
      "epoch": 0.8532291666666667,
      "grad_norm": 0.9866031408309937,
      "learning_rate": 1.579407669480862e-05,
      "loss": 3.2248,
      "step": 409550
    },
    {
      "epoch": 0.85325,
      "grad_norm": 1.054659128189087,
      "learning_rate": 1.5789673609796612e-05,
      "loss": 3.2466,
      "step": 409560
    },
    {
      "epoch": 0.8532708333333333,
      "grad_norm": 0.9818835258483887,
      "learning_rate": 1.5785271104520142e-05,
      "loss": 3.373,
      "step": 409570
    },
    {
      "epoch": 0.8532916666666667,
      "grad_norm": 0.8969146013259888,
      "learning_rate": 1.5780869178998152e-05,
      "loss": 3.3246,
      "step": 409580
    },
    {
      "epoch": 0.8533125,
      "grad_norm": 0.9717727303504944,
      "learning_rate": 1.5776467833249658e-05,
      "loss": 3.3464,
      "step": 409590
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 0.8244693875312805,
      "learning_rate": 1.5772067067293743e-05,
      "loss": 3.3217,
      "step": 409600
    },
    {
      "epoch": 0.8533541666666666,
      "grad_norm": 0.8159148097038269,
      "learning_rate": 1.5767666881149342e-05,
      "loss": 3.1982,
      "step": 409610
    },
    {
      "epoch": 0.853375,
      "grad_norm": 0.9279877543449402,
      "learning_rate": 1.5763267274835478e-05,
      "loss": 3.2423,
      "step": 409620
    },
    {
      "epoch": 0.8533958333333334,
      "grad_norm": 1.0960971117019653,
      "learning_rate": 1.5758868248371166e-05,
      "loss": 3.3058,
      "step": 409630
    },
    {
      "epoch": 0.8534166666666667,
      "grad_norm": 0.9116817712783813,
      "learning_rate": 1.5754469801775423e-05,
      "loss": 3.3532,
      "step": 409640
    },
    {
      "epoch": 0.8534375,
      "grad_norm": 0.885131299495697,
      "learning_rate": 1.5750071935067217e-05,
      "loss": 3.3714,
      "step": 409650
    },
    {
      "epoch": 0.8534583333333333,
      "grad_norm": 0.817680299282074,
      "learning_rate": 1.5745674648265566e-05,
      "loss": 3.4,
      "step": 409660
    },
    {
      "epoch": 0.8534791666666667,
      "grad_norm": 0.9515905976295471,
      "learning_rate": 1.574127794138944e-05,
      "loss": 3.4011,
      "step": 409670
    },
    {
      "epoch": 0.8535,
      "grad_norm": 0.9270544052124023,
      "learning_rate": 1.5736881814457876e-05,
      "loss": 3.2878,
      "step": 409680
    },
    {
      "epoch": 0.8535208333333333,
      "grad_norm": 0.8901513814926147,
      "learning_rate": 1.5732486267489834e-05,
      "loss": 3.2396,
      "step": 409690
    },
    {
      "epoch": 0.8535416666666666,
      "grad_norm": 0.9877291917800903,
      "learning_rate": 1.5728091300504293e-05,
      "loss": 3.2829,
      "step": 409700
    },
    {
      "epoch": 0.8535625,
      "grad_norm": 0.8771663904190063,
      "learning_rate": 1.5723696913520262e-05,
      "loss": 3.4648,
      "step": 409710
    },
    {
      "epoch": 0.8535833333333334,
      "grad_norm": 1.0108009576797485,
      "learning_rate": 1.5719303106556696e-05,
      "loss": 3.3286,
      "step": 409720
    },
    {
      "epoch": 0.8536041666666667,
      "grad_norm": 1.0640863180160522,
      "learning_rate": 1.5714909879632598e-05,
      "loss": 3.41,
      "step": 409730
    },
    {
      "epoch": 0.853625,
      "grad_norm": 0.9688571095466614,
      "learning_rate": 1.5710517232766935e-05,
      "loss": 3.3983,
      "step": 409740
    },
    {
      "epoch": 0.8536458333333333,
      "grad_norm": 0.8152250051498413,
      "learning_rate": 1.570612516597867e-05,
      "loss": 3.2544,
      "step": 409750
    },
    {
      "epoch": 0.8536666666666667,
      "grad_norm": 1.0097395181655884,
      "learning_rate": 1.57017336792868e-05,
      "loss": 3.2931,
      "step": 409760
    },
    {
      "epoch": 0.8536875,
      "grad_norm": 0.8652053475379944,
      "learning_rate": 1.569734277271028e-05,
      "loss": 3.4419,
      "step": 409770
    },
    {
      "epoch": 0.8537083333333333,
      "grad_norm": 1.1859492063522339,
      "learning_rate": 1.5692952446268086e-05,
      "loss": 3.2256,
      "step": 409780
    },
    {
      "epoch": 0.8537291666666667,
      "grad_norm": 0.8195043206214905,
      "learning_rate": 1.568856269997915e-05,
      "loss": 3.2675,
      "step": 409790
    },
    {
      "epoch": 0.85375,
      "grad_norm": 0.872809648513794,
      "learning_rate": 1.5684173533862492e-05,
      "loss": 3.2952,
      "step": 409800
    },
    {
      "epoch": 0.8537708333333334,
      "grad_norm": 1.0174751281738281,
      "learning_rate": 1.5679784947937012e-05,
      "loss": 3.3934,
      "step": 409810
    },
    {
      "epoch": 0.8537916666666666,
      "grad_norm": 0.9138556122779846,
      "learning_rate": 1.5675396942221712e-05,
      "loss": 3.266,
      "step": 409820
    },
    {
      "epoch": 0.8538125,
      "grad_norm": 0.8872126340866089,
      "learning_rate": 1.5671009516735544e-05,
      "loss": 3.3677,
      "step": 409830
    },
    {
      "epoch": 0.8538333333333333,
      "grad_norm": 0.962100625038147,
      "learning_rate": 1.566662267149739e-05,
      "loss": 3.293,
      "step": 409840
    },
    {
      "epoch": 0.8538541666666667,
      "grad_norm": 0.8889883756637573,
      "learning_rate": 1.5662236406526272e-05,
      "loss": 3.2768,
      "step": 409850
    },
    {
      "epoch": 0.853875,
      "grad_norm": 0.9203457832336426,
      "learning_rate": 1.5657850721841157e-05,
      "loss": 3.2835,
      "step": 409860
    },
    {
      "epoch": 0.8538958333333333,
      "grad_norm": 0.9822987914085388,
      "learning_rate": 1.56534656174609e-05,
      "loss": 3.3139,
      "step": 409870
    },
    {
      "epoch": 0.8539166666666667,
      "grad_norm": 1.0828254222869873,
      "learning_rate": 1.5649081093404543e-05,
      "loss": 3.2802,
      "step": 409880
    },
    {
      "epoch": 0.8539375,
      "grad_norm": 0.9512618780136108,
      "learning_rate": 1.5644697149690943e-05,
      "loss": 3.2907,
      "step": 409890
    },
    {
      "epoch": 0.8539583333333334,
      "grad_norm": 0.8416099548339844,
      "learning_rate": 1.5640313786339054e-05,
      "loss": 3.3192,
      "step": 409900
    },
    {
      "epoch": 0.8539791666666666,
      "grad_norm": 0.9044085741043091,
      "learning_rate": 1.5635931003367873e-05,
      "loss": 3.3656,
      "step": 409910
    },
    {
      "epoch": 0.854,
      "grad_norm": 1.0322948694229126,
      "learning_rate": 1.5631548800796257e-05,
      "loss": 3.4019,
      "step": 409920
    },
    {
      "epoch": 0.8540208333333333,
      "grad_norm": 0.926773726940155,
      "learning_rate": 1.5627167178643136e-05,
      "loss": 3.339,
      "step": 409930
    },
    {
      "epoch": 0.8540416666666667,
      "grad_norm": 1.033173680305481,
      "learning_rate": 1.562278613692753e-05,
      "loss": 3.3402,
      "step": 409940
    },
    {
      "epoch": 0.8540625,
      "grad_norm": 0.9064496159553528,
      "learning_rate": 1.5618405675668255e-05,
      "loss": 3.2563,
      "step": 409950
    },
    {
      "epoch": 0.8540833333333333,
      "grad_norm": 0.8842994570732117,
      "learning_rate": 1.5614025794884268e-05,
      "loss": 3.238,
      "step": 409960
    },
    {
      "epoch": 0.8541041666666667,
      "grad_norm": 0.9165002107620239,
      "learning_rate": 1.560964649459453e-05,
      "loss": 3.3505,
      "step": 409970
    },
    {
      "epoch": 0.854125,
      "grad_norm": 0.897986650466919,
      "learning_rate": 1.5605267774817897e-05,
      "loss": 3.3874,
      "step": 409980
    },
    {
      "epoch": 0.8541458333333334,
      "grad_norm": 0.9009047150611877,
      "learning_rate": 1.560088963557332e-05,
      "loss": 3.3938,
      "step": 409990
    },
    {
      "epoch": 0.8541666666666666,
      "grad_norm": 0.8746108412742615,
      "learning_rate": 1.5596512076879704e-05,
      "loss": 3.2627,
      "step": 410000
    },
    {
      "epoch": 0.8541666666666666,
      "eval_loss": 4.030333518981934,
      "eval_runtime": 9.082,
      "eval_samples_per_second": 1.101,
      "eval_steps_per_second": 0.33,
      "step": 410000
    },
    {
      "epoch": 0.8541875,
      "grad_norm": 1.1178150177001953,
      "learning_rate": 1.5592135098755942e-05,
      "loss": 3.3708,
      "step": 410010
    },
    {
      "epoch": 0.8542083333333333,
      "grad_norm": 0.8703755140304565,
      "learning_rate": 1.558775870122096e-05,
      "loss": 3.3651,
      "step": 410020
    },
    {
      "epoch": 0.8542291666666667,
      "grad_norm": 0.9203765988349915,
      "learning_rate": 1.558338288429367e-05,
      "loss": 3.4035,
      "step": 410030
    },
    {
      "epoch": 0.85425,
      "grad_norm": 0.9539493918418884,
      "learning_rate": 1.5579007647992948e-05,
      "loss": 3.417,
      "step": 410040
    },
    {
      "epoch": 0.8542708333333333,
      "grad_norm": 0.9273943305015564,
      "learning_rate": 1.5574632992337705e-05,
      "loss": 3.3359,
      "step": 410050
    },
    {
      "epoch": 0.8542916666666667,
      "grad_norm": 0.9279006719589233,
      "learning_rate": 1.5570258917346827e-05,
      "loss": 3.1496,
      "step": 410060
    },
    {
      "epoch": 0.8543125,
      "grad_norm": 0.8615635633468628,
      "learning_rate": 1.5565885423039237e-05,
      "loss": 3.3338,
      "step": 410070
    },
    {
      "epoch": 0.8543333333333333,
      "grad_norm": 0.8297247886657715,
      "learning_rate": 1.55615125094338e-05,
      "loss": 3.3558,
      "step": 410080
    },
    {
      "epoch": 0.8543541666666666,
      "grad_norm": 0.91448575258255,
      "learning_rate": 1.5557140176549415e-05,
      "loss": 3.3934,
      "step": 410090
    },
    {
      "epoch": 0.854375,
      "grad_norm": 0.9988251328468323,
      "learning_rate": 1.555276842440497e-05,
      "loss": 3.3601,
      "step": 410100
    },
    {
      "epoch": 0.8543958333333334,
      "grad_norm": 0.8818158507347107,
      "learning_rate": 1.5548397253019384e-05,
      "loss": 3.4518,
      "step": 410110
    },
    {
      "epoch": 0.8544166666666667,
      "grad_norm": 0.9311453104019165,
      "learning_rate": 1.554402666241144e-05,
      "loss": 3.4203,
      "step": 410120
    },
    {
      "epoch": 0.8544375,
      "grad_norm": 0.8750687837600708,
      "learning_rate": 1.5539656652600108e-05,
      "loss": 3.2575,
      "step": 410130
    },
    {
      "epoch": 0.8544583333333333,
      "grad_norm": 0.830360472202301,
      "learning_rate": 1.5535287223604255e-05,
      "loss": 3.3848,
      "step": 410140
    },
    {
      "epoch": 0.8544791666666667,
      "grad_norm": 0.9189900755882263,
      "learning_rate": 1.55309183754427e-05,
      "loss": 3.31,
      "step": 410150
    },
    {
      "epoch": 0.8545,
      "grad_norm": 0.9480959177017212,
      "learning_rate": 1.5526550108134355e-05,
      "loss": 3.3143,
      "step": 410160
    },
    {
      "epoch": 0.8545208333333333,
      "grad_norm": 0.9511632919311523,
      "learning_rate": 1.552218242169813e-05,
      "loss": 3.42,
      "step": 410170
    },
    {
      "epoch": 0.8545416666666666,
      "grad_norm": 0.8519609570503235,
      "learning_rate": 1.5517815316152778e-05,
      "loss": 3.2104,
      "step": 410180
    },
    {
      "epoch": 0.8545625,
      "grad_norm": 0.9449944496154785,
      "learning_rate": 1.5513448791517274e-05,
      "loss": 3.392,
      "step": 410190
    },
    {
      "epoch": 0.8545833333333334,
      "grad_norm": 0.8812671303749084,
      "learning_rate": 1.550908284781046e-05,
      "loss": 3.1605,
      "step": 410200
    },
    {
      "epoch": 0.8546041666666667,
      "grad_norm": 0.955598771572113,
      "learning_rate": 1.550471748505112e-05,
      "loss": 3.2937,
      "step": 410210
    },
    {
      "epoch": 0.854625,
      "grad_norm": 0.9101765751838684,
      "learning_rate": 1.5500352703258175e-05,
      "loss": 3.3572,
      "step": 410220
    },
    {
      "epoch": 0.8546458333333333,
      "grad_norm": 0.9053611755371094,
      "learning_rate": 1.5495988502450518e-05,
      "loss": 3.2778,
      "step": 410230
    },
    {
      "epoch": 0.8546666666666667,
      "grad_norm": 0.9186862111091614,
      "learning_rate": 1.5491624882646876e-05,
      "loss": 3.2999,
      "step": 410240
    },
    {
      "epoch": 0.8546875,
      "grad_norm": 0.8637946248054504,
      "learning_rate": 1.5487261843866243e-05,
      "loss": 3.345,
      "step": 410250
    },
    {
      "epoch": 0.8547083333333333,
      "grad_norm": 0.9460798501968384,
      "learning_rate": 1.5482899386127363e-05,
      "loss": 3.2239,
      "step": 410260
    },
    {
      "epoch": 0.8547291666666667,
      "grad_norm": 0.9411976933479309,
      "learning_rate": 1.547853750944908e-05,
      "loss": 3.2287,
      "step": 410270
    },
    {
      "epoch": 0.85475,
      "grad_norm": 0.9294676780700684,
      "learning_rate": 1.547417621385033e-05,
      "loss": 3.3166,
      "step": 410280
    },
    {
      "epoch": 0.8547708333333334,
      "grad_norm": 0.8951395153999329,
      "learning_rate": 1.5469815499349853e-05,
      "loss": 3.292,
      "step": 410290
    },
    {
      "epoch": 0.8547916666666666,
      "grad_norm": 0.9972067475318909,
      "learning_rate": 1.5465455365966494e-05,
      "loss": 3.2901,
      "step": 410300
    },
    {
      "epoch": 0.8548125,
      "grad_norm": 0.8157297372817993,
      "learning_rate": 1.5461095813719192e-05,
      "loss": 3.2109,
      "step": 410310
    },
    {
      "epoch": 0.8548333333333333,
      "grad_norm": 0.8858174681663513,
      "learning_rate": 1.545673684262665e-05,
      "loss": 3.2443,
      "step": 410320
    },
    {
      "epoch": 0.8548541666666667,
      "grad_norm": 0.9382322430610657,
      "learning_rate": 1.545237845270773e-05,
      "loss": 3.485,
      "step": 410330
    },
    {
      "epoch": 0.854875,
      "grad_norm": 1.036391258239746,
      "learning_rate": 1.544802064398134e-05,
      "loss": 3.2594,
      "step": 410340
    },
    {
      "epoch": 0.8548958333333333,
      "grad_norm": 0.8830726146697998,
      "learning_rate": 1.5443663416466196e-05,
      "loss": 3.3423,
      "step": 410350
    },
    {
      "epoch": 0.8549166666666667,
      "grad_norm": 0.8839289546012878,
      "learning_rate": 1.543930677018115e-05,
      "loss": 3.5348,
      "step": 410360
    },
    {
      "epoch": 0.8549375,
      "grad_norm": 0.9995368719100952,
      "learning_rate": 1.5434950705145083e-05,
      "loss": 3.2943,
      "step": 410370
    },
    {
      "epoch": 0.8549583333333334,
      "grad_norm": 0.9310003519058228,
      "learning_rate": 1.543059522137675e-05,
      "loss": 3.2723,
      "step": 410380
    },
    {
      "epoch": 0.8549791666666666,
      "grad_norm": 0.992791473865509,
      "learning_rate": 1.5426240318894973e-05,
      "loss": 3.3065,
      "step": 410390
    },
    {
      "epoch": 0.855,
      "grad_norm": 0.9363125562667847,
      "learning_rate": 1.5421885997718565e-05,
      "loss": 3.3432,
      "step": 410400
    },
    {
      "epoch": 0.8550208333333333,
      "grad_norm": 0.8853567242622375,
      "learning_rate": 1.5417532257866343e-05,
      "loss": 3.3864,
      "step": 410410
    },
    {
      "epoch": 0.8550416666666667,
      "grad_norm": 0.940645158290863,
      "learning_rate": 1.5413179099357113e-05,
      "loss": 3.3367,
      "step": 410420
    },
    {
      "epoch": 0.8550625,
      "grad_norm": 0.920976996421814,
      "learning_rate": 1.5408826522209678e-05,
      "loss": 3.3628,
      "step": 410430
    },
    {
      "epoch": 0.8550833333333333,
      "grad_norm": 0.9178150296211243,
      "learning_rate": 1.5404474526442835e-05,
      "loss": 3.2922,
      "step": 410440
    },
    {
      "epoch": 0.8551041666666667,
      "grad_norm": 0.8927701711654663,
      "learning_rate": 1.5400123112075386e-05,
      "loss": 3.254,
      "step": 410450
    },
    {
      "epoch": 0.855125,
      "grad_norm": 0.9293103218078613,
      "learning_rate": 1.5395772279126117e-05,
      "loss": 3.3714,
      "step": 410460
    },
    {
      "epoch": 0.8551458333333334,
      "grad_norm": 0.9473876357078552,
      "learning_rate": 1.5391422027613847e-05,
      "loss": 3.4165,
      "step": 410470
    },
    {
      "epoch": 0.8551666666666666,
      "grad_norm": 0.8192557096481323,
      "learning_rate": 1.538707235755736e-05,
      "loss": 3.3055,
      "step": 410480
    },
    {
      "epoch": 0.8551875,
      "grad_norm": 0.9104254841804504,
      "learning_rate": 1.5382723268975394e-05,
      "loss": 3.3177,
      "step": 410490
    },
    {
      "epoch": 0.8552083333333333,
      "grad_norm": 0.8831132054328918,
      "learning_rate": 1.5378374761886814e-05,
      "loss": 3.2598,
      "step": 410500
    },
    {
      "epoch": 0.8552291666666667,
      "grad_norm": 0.8518304228782654,
      "learning_rate": 1.5374026836310388e-05,
      "loss": 3.3034,
      "step": 410510
    },
    {
      "epoch": 0.85525,
      "grad_norm": 0.9072185158729553,
      "learning_rate": 1.536967949226482e-05,
      "loss": 3.257,
      "step": 410520
    },
    {
      "epoch": 0.8552708333333333,
      "grad_norm": 0.8587242364883423,
      "learning_rate": 1.5365332729768975e-05,
      "loss": 3.2788,
      "step": 410530
    },
    {
      "epoch": 0.8552916666666667,
      "grad_norm": 0.916982889175415,
      "learning_rate": 1.5360986548841625e-05,
      "loss": 3.2733,
      "step": 410540
    },
    {
      "epoch": 0.8553125,
      "grad_norm": 0.9290499091148376,
      "learning_rate": 1.535664094950147e-05,
      "loss": 3.2633,
      "step": 410550
    },
    {
      "epoch": 0.8553333333333333,
      "grad_norm": 1.0745909214019775,
      "learning_rate": 1.535229593176736e-05,
      "loss": 3.2843,
      "step": 410560
    },
    {
      "epoch": 0.8553541666666666,
      "grad_norm": 0.9052137732505798,
      "learning_rate": 1.534795149565805e-05,
      "loss": 3.329,
      "step": 410570
    },
    {
      "epoch": 0.855375,
      "grad_norm": 0.890773355960846,
      "learning_rate": 1.534360764119224e-05,
      "loss": 3.2599,
      "step": 410580
    },
    {
      "epoch": 0.8553958333333334,
      "grad_norm": 0.832283616065979,
      "learning_rate": 1.5339264368388783e-05,
      "loss": 3.3434,
      "step": 410590
    },
    {
      "epoch": 0.8554166666666667,
      "grad_norm": 0.8750407099723816,
      "learning_rate": 1.5334921677266425e-05,
      "loss": 3.4454,
      "step": 410600
    },
    {
      "epoch": 0.8554375,
      "grad_norm": 0.8852245211601257,
      "learning_rate": 1.5330579567843825e-05,
      "loss": 3.4356,
      "step": 410610
    },
    {
      "epoch": 0.8554583333333333,
      "grad_norm": 0.9762241244316101,
      "learning_rate": 1.53262380401399e-05,
      "loss": 3.3551,
      "step": 410620
    },
    {
      "epoch": 0.8554791666666667,
      "grad_norm": 1.0030561685562134,
      "learning_rate": 1.532189709417328e-05,
      "loss": 3.4007,
      "step": 410630
    },
    {
      "epoch": 0.8555,
      "grad_norm": 0.9268066883087158,
      "learning_rate": 1.531755672996272e-05,
      "loss": 3.2575,
      "step": 410640
    },
    {
      "epoch": 0.8555208333333333,
      "grad_norm": 0.970198392868042,
      "learning_rate": 1.5313216947527076e-05,
      "loss": 3.1698,
      "step": 410650
    },
    {
      "epoch": 0.8555416666666666,
      "grad_norm": 1.167480230331421,
      "learning_rate": 1.5308877746884975e-05,
      "loss": 3.2452,
      "step": 410660
    },
    {
      "epoch": 0.8555625,
      "grad_norm": 0.9271262288093567,
      "learning_rate": 1.530453912805519e-05,
      "loss": 3.3432,
      "step": 410670
    },
    {
      "epoch": 0.8555833333333334,
      "grad_norm": 0.8807514905929565,
      "learning_rate": 1.5300201091056536e-05,
      "loss": 3.2244,
      "step": 410680
    },
    {
      "epoch": 0.8556041666666667,
      "grad_norm": 0.7983294725418091,
      "learning_rate": 1.5295863635907667e-05,
      "loss": 3.1969,
      "step": 410690
    },
    {
      "epoch": 0.855625,
      "grad_norm": 0.8639308214187622,
      "learning_rate": 1.5291526762627353e-05,
      "loss": 3.2823,
      "step": 410700
    },
    {
      "epoch": 0.8556458333333333,
      "grad_norm": 0.8284416794776917,
      "learning_rate": 1.5287190471234313e-05,
      "loss": 3.2576,
      "step": 410710
    },
    {
      "epoch": 0.8556666666666667,
      "grad_norm": 0.9368662238121033,
      "learning_rate": 1.5282854761747293e-05,
      "loss": 3.3407,
      "step": 410720
    },
    {
      "epoch": 0.8556875,
      "grad_norm": 0.8999203443527222,
      "learning_rate": 1.5278519634185e-05,
      "loss": 3.3659,
      "step": 410730
    },
    {
      "epoch": 0.8557083333333333,
      "grad_norm": 0.9846906661987305,
      "learning_rate": 1.5274185088566198e-05,
      "loss": 3.3397,
      "step": 410740
    },
    {
      "epoch": 0.8557291666666667,
      "grad_norm": 0.9949609637260437,
      "learning_rate": 1.5269851124909577e-05,
      "loss": 3.3544,
      "step": 410750
    },
    {
      "epoch": 0.85575,
      "grad_norm": 0.8506806492805481,
      "learning_rate": 1.526551774323387e-05,
      "loss": 3.2726,
      "step": 410760
    },
    {
      "epoch": 0.8557708333333334,
      "grad_norm": 0.9424275159835815,
      "learning_rate": 1.526118494355779e-05,
      "loss": 3.3143,
      "step": 410770
    },
    {
      "epoch": 0.8557916666666666,
      "grad_norm": 0.926214873790741,
      "learning_rate": 1.5256852725900065e-05,
      "loss": 3.3542,
      "step": 410780
    },
    {
      "epoch": 0.8558125,
      "grad_norm": 1.0200554132461548,
      "learning_rate": 1.5252521090279407e-05,
      "loss": 3.302,
      "step": 410790
    },
    {
      "epoch": 0.8558333333333333,
      "grad_norm": 0.8709489107131958,
      "learning_rate": 1.5248190036714503e-05,
      "loss": 3.2691,
      "step": 410800
    },
    {
      "epoch": 0.8558541666666667,
      "grad_norm": 0.8480200171470642,
      "learning_rate": 1.5243859565224087e-05,
      "loss": 3.2564,
      "step": 410810
    },
    {
      "epoch": 0.855875,
      "grad_norm": 0.975727379322052,
      "learning_rate": 1.5239529675826861e-05,
      "loss": 3.3124,
      "step": 410820
    },
    {
      "epoch": 0.8558958333333333,
      "grad_norm": 1.2011390924453735,
      "learning_rate": 1.5235200368541528e-05,
      "loss": 3.2553,
      "step": 410830
    },
    {
      "epoch": 0.8559166666666667,
      "grad_norm": 0.9914430975914001,
      "learning_rate": 1.5230871643386788e-05,
      "loss": 3.3595,
      "step": 410840
    },
    {
      "epoch": 0.8559375,
      "grad_norm": 0.9340153336524963,
      "learning_rate": 1.5226543500381361e-05,
      "loss": 3.3283,
      "step": 410850
    },
    {
      "epoch": 0.8559583333333334,
      "grad_norm": 0.8834471106529236,
      "learning_rate": 1.5222215939543864e-05,
      "loss": 3.2875,
      "step": 410860
    },
    {
      "epoch": 0.8559791666666666,
      "grad_norm": 0.9269254207611084,
      "learning_rate": 1.5217888960893065e-05,
      "loss": 3.339,
      "step": 410870
    },
    {
      "epoch": 0.856,
      "grad_norm": 0.9226285219192505,
      "learning_rate": 1.5213562564447668e-05,
      "loss": 3.3184,
      "step": 410880
    },
    {
      "epoch": 0.8560208333333333,
      "grad_norm": 1.0602381229400635,
      "learning_rate": 1.5209236750226272e-05,
      "loss": 3.3551,
      "step": 410890
    },
    {
      "epoch": 0.8560416666666667,
      "grad_norm": 0.9275984764099121,
      "learning_rate": 1.5204911518247648e-05,
      "loss": 3.209,
      "step": 410900
    },
    {
      "epoch": 0.8560625,
      "grad_norm": 1.037000298500061,
      "learning_rate": 1.5200586868530479e-05,
      "loss": 3.2979,
      "step": 410910
    },
    {
      "epoch": 0.8560833333333333,
      "grad_norm": 0.9177566766738892,
      "learning_rate": 1.5196262801093368e-05,
      "loss": 3.3847,
      "step": 410920
    },
    {
      "epoch": 0.8561041666666667,
      "grad_norm": 0.9062131643295288,
      "learning_rate": 1.5191939315955066e-05,
      "loss": 3.4487,
      "step": 410930
    },
    {
      "epoch": 0.856125,
      "grad_norm": 1.0085670948028564,
      "learning_rate": 1.5187616413134257e-05,
      "loss": 3.2178,
      "step": 410940
    },
    {
      "epoch": 0.8561458333333334,
      "grad_norm": 0.9150115251541138,
      "learning_rate": 1.5183294092649512e-05,
      "loss": 3.3302,
      "step": 410950
    },
    {
      "epoch": 0.8561666666666666,
      "grad_norm": 0.933927059173584,
      "learning_rate": 1.5178972354519614e-05,
      "loss": 3.3176,
      "step": 410960
    },
    {
      "epoch": 0.8561875,
      "grad_norm": 0.898633599281311,
      "learning_rate": 1.5174651198763216e-05,
      "loss": 3.3184,
      "step": 410970
    },
    {
      "epoch": 0.8562083333333333,
      "grad_norm": 0.9712179899215698,
      "learning_rate": 1.517033062539892e-05,
      "loss": 3.242,
      "step": 410980
    },
    {
      "epoch": 0.8562291666666667,
      "grad_norm": 0.8497375845909119,
      "learning_rate": 1.516601063444544e-05,
      "loss": 3.1762,
      "step": 410990
    },
    {
      "epoch": 0.85625,
      "grad_norm": 0.9904640913009644,
      "learning_rate": 1.5161691225921418e-05,
      "loss": 3.3738,
      "step": 411000
    },
    {
      "epoch": 0.85625,
      "eval_loss": 4.029301643371582,
      "eval_runtime": 9.0964,
      "eval_samples_per_second": 1.099,
      "eval_steps_per_second": 0.33,
      "step": 411000
    },
    {
      "epoch": 0.8562708333333333,
      "grad_norm": 0.8561744689941406,
      "learning_rate": 1.515737239984552e-05,
      "loss": 3.2971,
      "step": 411010
    },
    {
      "epoch": 0.8562916666666667,
      "grad_norm": 0.8606657385826111,
      "learning_rate": 1.5153054156236394e-05,
      "loss": 3.2218,
      "step": 411020
    },
    {
      "epoch": 0.8563125,
      "grad_norm": 1.0516269207000732,
      "learning_rate": 1.5148736495112695e-05,
      "loss": 3.3525,
      "step": 411030
    },
    {
      "epoch": 0.8563333333333333,
      "grad_norm": 0.994887113571167,
      "learning_rate": 1.5144419416493075e-05,
      "loss": 3.2061,
      "step": 411040
    },
    {
      "epoch": 0.8563541666666666,
      "grad_norm": 0.877495527267456,
      "learning_rate": 1.5140102920396185e-05,
      "loss": 3.2899,
      "step": 411050
    },
    {
      "epoch": 0.856375,
      "grad_norm": 0.8839102983474731,
      "learning_rate": 1.5135787006840676e-05,
      "loss": 3.3211,
      "step": 411060
    },
    {
      "epoch": 0.8563958333333334,
      "grad_norm": 0.9314282536506653,
      "learning_rate": 1.5131471675845186e-05,
      "loss": 3.3746,
      "step": 411070
    },
    {
      "epoch": 0.8564166666666667,
      "grad_norm": 0.8322178721427917,
      "learning_rate": 1.5127156927428347e-05,
      "loss": 3.282,
      "step": 411080
    },
    {
      "epoch": 0.8564375,
      "grad_norm": 0.9444776177406311,
      "learning_rate": 1.5122842761608794e-05,
      "loss": 3.5371,
      "step": 411090
    },
    {
      "epoch": 0.8564583333333333,
      "grad_norm": 1.1764057874679565,
      "learning_rate": 1.5118529178405197e-05,
      "loss": 3.4013,
      "step": 411100
    },
    {
      "epoch": 0.8564791666666667,
      "grad_norm": 0.8850257396697998,
      "learning_rate": 1.5114216177836142e-05,
      "loss": 3.3923,
      "step": 411110
    },
    {
      "epoch": 0.8565,
      "grad_norm": 0.9371107816696167,
      "learning_rate": 1.5109903759920295e-05,
      "loss": 3.3187,
      "step": 411120
    },
    {
      "epoch": 0.8565208333333333,
      "grad_norm": 0.9901924133300781,
      "learning_rate": 1.5105591924676258e-05,
      "loss": 3.3436,
      "step": 411130
    },
    {
      "epoch": 0.8565416666666666,
      "grad_norm": 0.935250997543335,
      "learning_rate": 1.5101280672122684e-05,
      "loss": 3.2702,
      "step": 411140
    },
    {
      "epoch": 0.8565625,
      "grad_norm": 1.2111388444900513,
      "learning_rate": 1.5096970002278174e-05,
      "loss": 3.3962,
      "step": 411150
    },
    {
      "epoch": 0.8565833333333334,
      "grad_norm": 0.8613773584365845,
      "learning_rate": 1.5092659915161349e-05,
      "loss": 3.2605,
      "step": 411160
    },
    {
      "epoch": 0.8566041666666667,
      "grad_norm": 0.9720436334609985,
      "learning_rate": 1.508835041079084e-05,
      "loss": 3.2898,
      "step": 411170
    },
    {
      "epoch": 0.856625,
      "grad_norm": 0.8873430490493774,
      "learning_rate": 1.508404148918525e-05,
      "loss": 3.3779,
      "step": 411180
    },
    {
      "epoch": 0.8566458333333333,
      "grad_norm": 0.9033031463623047,
      "learning_rate": 1.5079733150363216e-05,
      "loss": 3.323,
      "step": 411190
    },
    {
      "epoch": 0.8566666666666667,
      "grad_norm": 0.9931400418281555,
      "learning_rate": 1.5075425394343305e-05,
      "loss": 3.283,
      "step": 411200
    },
    {
      "epoch": 0.8566875,
      "grad_norm": 0.8071047067642212,
      "learning_rate": 1.5071118221144168e-05,
      "loss": 3.3161,
      "step": 411210
    },
    {
      "epoch": 0.8567083333333333,
      "grad_norm": 0.8759964108467102,
      "learning_rate": 1.5066811630784375e-05,
      "loss": 3.3438,
      "step": 411220
    },
    {
      "epoch": 0.8567291666666667,
      "grad_norm": 0.8639105558395386,
      "learning_rate": 1.506250562328256e-05,
      "loss": 3.3411,
      "step": 411230
    },
    {
      "epoch": 0.85675,
      "grad_norm": 1.0197995901107788,
      "learning_rate": 1.5058200198657294e-05,
      "loss": 3.3012,
      "step": 411240
    },
    {
      "epoch": 0.8567708333333334,
      "grad_norm": 0.8824160695075989,
      "learning_rate": 1.5053895356927225e-05,
      "loss": 3.3432,
      "step": 411250
    },
    {
      "epoch": 0.8567916666666666,
      "grad_norm": 1.0557475090026855,
      "learning_rate": 1.5049591098110858e-05,
      "loss": 3.2468,
      "step": 411260
    },
    {
      "epoch": 0.8568125,
      "grad_norm": 0.9059878587722778,
      "learning_rate": 1.5045287422226875e-05,
      "loss": 3.4375,
      "step": 411270
    },
    {
      "epoch": 0.8568333333333333,
      "grad_norm": 0.9943142533302307,
      "learning_rate": 1.5040984329293848e-05,
      "loss": 3.2348,
      "step": 411280
    },
    {
      "epoch": 0.8568541666666667,
      "grad_norm": 0.8373780846595764,
      "learning_rate": 1.5036681819330326e-05,
      "loss": 3.2745,
      "step": 411290
    },
    {
      "epoch": 0.856875,
      "grad_norm": 0.8602074980735779,
      "learning_rate": 1.5032379892354895e-05,
      "loss": 3.3709,
      "step": 411300
    },
    {
      "epoch": 0.8568958333333333,
      "grad_norm": 0.8950887322425842,
      "learning_rate": 1.5028078548386207e-05,
      "loss": 3.3312,
      "step": 411310
    },
    {
      "epoch": 0.8569166666666667,
      "grad_norm": 1.001963496208191,
      "learning_rate": 1.5023777787442765e-05,
      "loss": 3.2449,
      "step": 411320
    },
    {
      "epoch": 0.8569375,
      "grad_norm": 1.048704981803894,
      "learning_rate": 1.5019477609543152e-05,
      "loss": 3.3904,
      "step": 411330
    },
    {
      "epoch": 0.8569583333333334,
      "grad_norm": 0.8939390778541565,
      "learning_rate": 1.501517801470602e-05,
      "loss": 3.3203,
      "step": 411340
    },
    {
      "epoch": 0.8569791666666666,
      "grad_norm": 0.8890627026557922,
      "learning_rate": 1.5010879002949855e-05,
      "loss": 3.4493,
      "step": 411350
    },
    {
      "epoch": 0.857,
      "grad_norm": 1.1766732931137085,
      "learning_rate": 1.5006580574293242e-05,
      "loss": 3.4077,
      "step": 411360
    },
    {
      "epoch": 0.8570208333333333,
      "grad_norm": 1.0459349155426025,
      "learning_rate": 1.5002282728754816e-05,
      "loss": 3.5004,
      "step": 411370
    },
    {
      "epoch": 0.8570416666666667,
      "grad_norm": 0.9694874286651611,
      "learning_rate": 1.4997985466353063e-05,
      "loss": 3.2811,
      "step": 411380
    },
    {
      "epoch": 0.8570625,
      "grad_norm": 0.893591046333313,
      "learning_rate": 1.4993688787106583e-05,
      "loss": 3.2695,
      "step": 411390
    },
    {
      "epoch": 0.8570833333333333,
      "grad_norm": 0.9799438714981079,
      "learning_rate": 1.498939269103393e-05,
      "loss": 3.2021,
      "step": 411400
    },
    {
      "epoch": 0.8571041666666667,
      "grad_norm": 0.9197788238525391,
      "learning_rate": 1.4985097178153655e-05,
      "loss": 3.3869,
      "step": 411410
    },
    {
      "epoch": 0.857125,
      "grad_norm": 0.8961200714111328,
      "learning_rate": 1.4980802248484307e-05,
      "loss": 3.2606,
      "step": 411420
    },
    {
      "epoch": 0.8571458333333334,
      "grad_norm": 0.8922246098518372,
      "learning_rate": 1.497650790204446e-05,
      "loss": 3.3207,
      "step": 411430
    },
    {
      "epoch": 0.8571666666666666,
      "grad_norm": 0.8890056014060974,
      "learning_rate": 1.4972214138852644e-05,
      "loss": 3.4392,
      "step": 411440
    },
    {
      "epoch": 0.8571875,
      "grad_norm": 1.0940035581588745,
      "learning_rate": 1.4967920958927432e-05,
      "loss": 3.3318,
      "step": 411450
    },
    {
      "epoch": 0.8572083333333333,
      "grad_norm": 0.9504305124282837,
      "learning_rate": 1.4963628362287339e-05,
      "loss": 3.281,
      "step": 411460
    },
    {
      "epoch": 0.8572291666666667,
      "grad_norm": 0.9621713161468506,
      "learning_rate": 1.4959336348950934e-05,
      "loss": 3.3747,
      "step": 411470
    },
    {
      "epoch": 0.85725,
      "grad_norm": 0.8334458470344543,
      "learning_rate": 1.495504491893672e-05,
      "loss": 3.3297,
      "step": 411480
    },
    {
      "epoch": 0.8572708333333333,
      "grad_norm": 0.8359363675117493,
      "learning_rate": 1.4950754072263283e-05,
      "loss": 3.2764,
      "step": 411490
    },
    {
      "epoch": 0.8572916666666667,
      "grad_norm": 0.9908011555671692,
      "learning_rate": 1.4946463808949122e-05,
      "loss": 3.3204,
      "step": 411500
    },
    {
      "epoch": 0.8573125,
      "grad_norm": 0.867682158946991,
      "learning_rate": 1.4942174129012774e-05,
      "loss": 3.2291,
      "step": 411510
    },
    {
      "epoch": 0.8573333333333333,
      "grad_norm": 0.8931668996810913,
      "learning_rate": 1.4937885032472774e-05,
      "loss": 3.2924,
      "step": 411520
    },
    {
      "epoch": 0.8573541666666666,
      "grad_norm": 0.8679425716400146,
      "learning_rate": 1.4933596519347656e-05,
      "loss": 3.3833,
      "step": 411530
    },
    {
      "epoch": 0.857375,
      "grad_norm": 0.8627950549125671,
      "learning_rate": 1.4929308589655925e-05,
      "loss": 3.3743,
      "step": 411540
    },
    {
      "epoch": 0.8573958333333334,
      "grad_norm": 0.937822163105011,
      "learning_rate": 1.492502124341613e-05,
      "loss": 3.3245,
      "step": 411550
    },
    {
      "epoch": 0.8574166666666667,
      "grad_norm": 0.9729442000389099,
      "learning_rate": 1.4920734480646773e-05,
      "loss": 3.1465,
      "step": 411560
    },
    {
      "epoch": 0.8574375,
      "grad_norm": 0.9718732237815857,
      "learning_rate": 1.4916448301366408e-05,
      "loss": 3.3337,
      "step": 411570
    },
    {
      "epoch": 0.8574583333333333,
      "grad_norm": 1.0333489179611206,
      "learning_rate": 1.491216270559345e-05,
      "loss": 3.2683,
      "step": 411580
    },
    {
      "epoch": 0.8574791666666667,
      "grad_norm": 0.9324893355369568,
      "learning_rate": 1.490787769334652e-05,
      "loss": 3.3111,
      "step": 411590
    },
    {
      "epoch": 0.8575,
      "grad_norm": 1.0047539472579956,
      "learning_rate": 1.4903593264644104e-05,
      "loss": 3.2714,
      "step": 411600
    },
    {
      "epoch": 0.8575208333333333,
      "grad_norm": 0.8946481347084045,
      "learning_rate": 1.4899309419504635e-05,
      "loss": 3.3738,
      "step": 411610
    },
    {
      "epoch": 0.8575416666666666,
      "grad_norm": 1.1467506885528564,
      "learning_rate": 1.4895026157946715e-05,
      "loss": 3.4181,
      "step": 411620
    },
    {
      "epoch": 0.8575625,
      "grad_norm": 0.9122675657272339,
      "learning_rate": 1.4890743479988798e-05,
      "loss": 3.2759,
      "step": 411630
    },
    {
      "epoch": 0.8575833333333334,
      "grad_norm": 0.9439598321914673,
      "learning_rate": 1.4886461385649351e-05,
      "loss": 3.428,
      "step": 411640
    },
    {
      "epoch": 0.8576041666666666,
      "grad_norm": 0.9868917465209961,
      "learning_rate": 1.4882179874946976e-05,
      "loss": 3.237,
      "step": 411650
    },
    {
      "epoch": 0.857625,
      "grad_norm": 0.9552887678146362,
      "learning_rate": 1.4877898947900058e-05,
      "loss": 3.3124,
      "step": 411660
    },
    {
      "epoch": 0.8576458333333333,
      "grad_norm": 0.8791046738624573,
      "learning_rate": 1.48736186045271e-05,
      "loss": 3.3436,
      "step": 411670
    },
    {
      "epoch": 0.8576666666666667,
      "grad_norm": 0.9163551330566406,
      "learning_rate": 1.4869338844846685e-05,
      "loss": 3.3721,
      "step": 411680
    },
    {
      "epoch": 0.8576875,
      "grad_norm": 0.9521233439445496,
      "learning_rate": 1.4865059668877216e-05,
      "loss": 3.453,
      "step": 411690
    },
    {
      "epoch": 0.8577083333333333,
      "grad_norm": 0.8506338596343994,
      "learning_rate": 1.4860781076637162e-05,
      "loss": 3.2249,
      "step": 411700
    },
    {
      "epoch": 0.8577291666666667,
      "grad_norm": 0.9302632212638855,
      "learning_rate": 1.4856503068145109e-05,
      "loss": 3.2401,
      "step": 411710
    },
    {
      "epoch": 0.85775,
      "grad_norm": 0.9450346231460571,
      "learning_rate": 1.485222564341944e-05,
      "loss": 3.4134,
      "step": 411720
    },
    {
      "epoch": 0.8577708333333334,
      "grad_norm": 0.9538524150848389,
      "learning_rate": 1.4847948802478627e-05,
      "loss": 3.3446,
      "step": 411730
    },
    {
      "epoch": 0.8577916666666666,
      "grad_norm": 0.947716236114502,
      "learning_rate": 1.4843672545341235e-05,
      "loss": 3.3578,
      "step": 411740
    },
    {
      "epoch": 0.8578125,
      "grad_norm": 1.0788238048553467,
      "learning_rate": 1.483939687202565e-05,
      "loss": 3.4518,
      "step": 411750
    },
    {
      "epoch": 0.8578333333333333,
      "grad_norm": 0.8933810591697693,
      "learning_rate": 1.4835121782550374e-05,
      "loss": 3.2245,
      "step": 411760
    },
    {
      "epoch": 0.8578541666666667,
      "grad_norm": 1.0032485723495483,
      "learning_rate": 1.4830847276933877e-05,
      "loss": 3.3057,
      "step": 411770
    },
    {
      "epoch": 0.857875,
      "grad_norm": 0.8937394022941589,
      "learning_rate": 1.4826573355194594e-05,
      "loss": 3.3471,
      "step": 411780
    },
    {
      "epoch": 0.8578958333333333,
      "grad_norm": 0.9523688554763794,
      "learning_rate": 1.4822300017351025e-05,
      "loss": 3.4357,
      "step": 411790
    },
    {
      "epoch": 0.8579166666666667,
      "grad_norm": 0.9003770351409912,
      "learning_rate": 1.4818027263421605e-05,
      "loss": 3.4292,
      "step": 411800
    },
    {
      "epoch": 0.8579375,
      "grad_norm": 0.8961474299430847,
      "learning_rate": 1.4813755093424806e-05,
      "loss": 3.3412,
      "step": 411810
    },
    {
      "epoch": 0.8579583333333334,
      "grad_norm": 0.9112842679023743,
      "learning_rate": 1.4809483507379078e-05,
      "loss": 3.3677,
      "step": 411820
    },
    {
      "epoch": 0.8579791666666666,
      "grad_norm": 0.8573698997497559,
      "learning_rate": 1.4805212505302854e-05,
      "loss": 3.2679,
      "step": 411830
    },
    {
      "epoch": 0.858,
      "grad_norm": 0.8433783054351807,
      "learning_rate": 1.4800942087214606e-05,
      "loss": 3.3139,
      "step": 411840
    },
    {
      "epoch": 0.8580208333333333,
      "grad_norm": 0.9505580067634583,
      "learning_rate": 1.4796672253132784e-05,
      "loss": 3.2104,
      "step": 411850
    },
    {
      "epoch": 0.8580416666666667,
      "grad_norm": 0.9362143874168396,
      "learning_rate": 1.479240300307581e-05,
      "loss": 3.2607,
      "step": 411860
    },
    {
      "epoch": 0.8580625,
      "grad_norm": 0.8519418239593506,
      "learning_rate": 1.478813433706213e-05,
      "loss": 3.4308,
      "step": 411870
    },
    {
      "epoch": 0.8580833333333333,
      "grad_norm": 0.8581119179725647,
      "learning_rate": 1.4783866255110233e-05,
      "loss": 3.3229,
      "step": 411880
    },
    {
      "epoch": 0.8581041666666667,
      "grad_norm": 1.0293123722076416,
      "learning_rate": 1.4779598757238437e-05,
      "loss": 3.3358,
      "step": 411890
    },
    {
      "epoch": 0.858125,
      "grad_norm": 0.8869291543960571,
      "learning_rate": 1.4775331843465294e-05,
      "loss": 3.3543,
      "step": 411900
    },
    {
      "epoch": 0.8581458333333334,
      "grad_norm": 1.0052435398101807,
      "learning_rate": 1.4771065513809204e-05,
      "loss": 3.3288,
      "step": 411910
    },
    {
      "epoch": 0.8581666666666666,
      "grad_norm": 0.9195424914360046,
      "learning_rate": 1.4766799768288539e-05,
      "loss": 3.2852,
      "step": 411920
    },
    {
      "epoch": 0.8581875,
      "grad_norm": 0.917820394039154,
      "learning_rate": 1.47625346069218e-05,
      "loss": 3.3217,
      "step": 411930
    },
    {
      "epoch": 0.8582083333333334,
      "grad_norm": 0.8983293175697327,
      "learning_rate": 1.4758270029727404e-05,
      "loss": 3.3001,
      "step": 411940
    },
    {
      "epoch": 0.8582291666666667,
      "grad_norm": 0.8908705711364746,
      "learning_rate": 1.4754006036723704e-05,
      "loss": 3.2321,
      "step": 411950
    },
    {
      "epoch": 0.85825,
      "grad_norm": 0.9360069036483765,
      "learning_rate": 1.4749742627929168e-05,
      "loss": 3.3927,
      "step": 411960
    },
    {
      "epoch": 0.8582708333333333,
      "grad_norm": 0.9388381838798523,
      "learning_rate": 1.4745479803362265e-05,
      "loss": 3.3514,
      "step": 411970
    },
    {
      "epoch": 0.8582916666666667,
      "grad_norm": 0.926124632358551,
      "learning_rate": 1.4741217563041264e-05,
      "loss": 3.307,
      "step": 411980
    },
    {
      "epoch": 0.8583125,
      "grad_norm": 0.9038388729095459,
      "learning_rate": 1.4736955906984748e-05,
      "loss": 3.133,
      "step": 411990
    },
    {
      "epoch": 0.8583333333333333,
      "grad_norm": 0.870919406414032,
      "learning_rate": 1.4732694835211006e-05,
      "loss": 3.2511,
      "step": 412000
    },
    {
      "epoch": 0.8583333333333333,
      "eval_loss": 4.031342029571533,
      "eval_runtime": 8.8759,
      "eval_samples_per_second": 1.127,
      "eval_steps_per_second": 0.338,
      "step": 412000
    },
    {
      "epoch": 0.8583541666666666,
      "grad_norm": 0.8591935634613037,
      "learning_rate": 1.4728434347738439e-05,
      "loss": 3.3831,
      "step": 412010
    },
    {
      "epoch": 0.858375,
      "grad_norm": 0.9110187888145447,
      "learning_rate": 1.4724174444585562e-05,
      "loss": 3.2229,
      "step": 412020
    },
    {
      "epoch": 0.8583958333333334,
      "grad_norm": 1.041488766670227,
      "learning_rate": 1.4719915125770664e-05,
      "loss": 3.2714,
      "step": 412030
    },
    {
      "epoch": 0.8584166666666667,
      "grad_norm": 0.9051733016967773,
      "learning_rate": 1.4715656391312164e-05,
      "loss": 3.4246,
      "step": 412040
    },
    {
      "epoch": 0.8584375,
      "grad_norm": 0.928292989730835,
      "learning_rate": 1.4711398241228545e-05,
      "loss": 3.3089,
      "step": 412050
    },
    {
      "epoch": 0.8584583333333333,
      "grad_norm": 0.914665162563324,
      "learning_rate": 1.4707140675538093e-05,
      "loss": 3.2648,
      "step": 412060
    },
    {
      "epoch": 0.8584791666666667,
      "grad_norm": 0.8560755848884583,
      "learning_rate": 1.470288369425921e-05,
      "loss": 3.1758,
      "step": 412070
    },
    {
      "epoch": 0.8585,
      "grad_norm": 1.003602147102356,
      "learning_rate": 1.4698627297410382e-05,
      "loss": 3.3179,
      "step": 412080
    },
    {
      "epoch": 0.8585208333333333,
      "grad_norm": 0.9067563414573669,
      "learning_rate": 1.4694371485009909e-05,
      "loss": 3.3777,
      "step": 412090
    },
    {
      "epoch": 0.8585416666666666,
      "grad_norm": 0.8432499170303345,
      "learning_rate": 1.4690116257076145e-05,
      "loss": 3.364,
      "step": 412100
    },
    {
      "epoch": 0.8585625,
      "grad_norm": 0.993081271648407,
      "learning_rate": 1.4685861613627592e-05,
      "loss": 3.3163,
      "step": 412110
    },
    {
      "epoch": 0.8585833333333334,
      "grad_norm": 0.9251875281333923,
      "learning_rate": 1.4681607554682517e-05,
      "loss": 3.435,
      "step": 412120
    },
    {
      "epoch": 0.8586041666666666,
      "grad_norm": 0.973804771900177,
      "learning_rate": 1.467735408025934e-05,
      "loss": 3.3303,
      "step": 412130
    },
    {
      "epoch": 0.858625,
      "grad_norm": 0.9469642639160156,
      "learning_rate": 1.4673101190376413e-05,
      "loss": 3.2719,
      "step": 412140
    },
    {
      "epoch": 0.8586458333333333,
      "grad_norm": 0.8919909000396729,
      "learning_rate": 1.4668848885052137e-05,
      "loss": 3.3595,
      "step": 412150
    },
    {
      "epoch": 0.8586666666666667,
      "grad_norm": 0.9157511591911316,
      "learning_rate": 1.4664597164304865e-05,
      "loss": 3.3225,
      "step": 412160
    },
    {
      "epoch": 0.8586875,
      "grad_norm": 0.8625450134277344,
      "learning_rate": 1.4660346028152965e-05,
      "loss": 3.2465,
      "step": 412170
    },
    {
      "epoch": 0.8587083333333333,
      "grad_norm": 0.9970179796218872,
      "learning_rate": 1.4656095476614804e-05,
      "loss": 3.3522,
      "step": 412180
    },
    {
      "epoch": 0.8587291666666667,
      "grad_norm": 0.8785483837127686,
      "learning_rate": 1.465184550970872e-05,
      "loss": 3.2822,
      "step": 412190
    },
    {
      "epoch": 0.85875,
      "grad_norm": 0.8791062235832214,
      "learning_rate": 1.4647596127453098e-05,
      "loss": 3.2743,
      "step": 412200
    },
    {
      "epoch": 0.8587708333333334,
      "grad_norm": 1.0116817951202393,
      "learning_rate": 1.464334732986629e-05,
      "loss": 3.2142,
      "step": 412210
    },
    {
      "epoch": 0.8587916666666666,
      "grad_norm": 0.8732779622077942,
      "learning_rate": 1.4639099116966647e-05,
      "loss": 3.2101,
      "step": 412220
    },
    {
      "epoch": 0.8588125,
      "grad_norm": 0.8455748558044434,
      "learning_rate": 1.4634851488772504e-05,
      "loss": 3.2199,
      "step": 412230
    },
    {
      "epoch": 0.8588333333333333,
      "grad_norm": 1.0182527303695679,
      "learning_rate": 1.463060444530223e-05,
      "loss": 3.3069,
      "step": 412240
    },
    {
      "epoch": 0.8588541666666667,
      "grad_norm": 0.916288435459137,
      "learning_rate": 1.4626357986574194e-05,
      "loss": 3.3979,
      "step": 412250
    },
    {
      "epoch": 0.858875,
      "grad_norm": 0.9208124876022339,
      "learning_rate": 1.4622112112606631e-05,
      "loss": 3.2328,
      "step": 412260
    },
    {
      "epoch": 0.8588958333333333,
      "grad_norm": 0.9306381344795227,
      "learning_rate": 1.4617866823418012e-05,
      "loss": 3.2889,
      "step": 412270
    },
    {
      "epoch": 0.8589166666666667,
      "grad_norm": 0.9878990650177002,
      "learning_rate": 1.4613622119026618e-05,
      "loss": 3.3546,
      "step": 412280
    },
    {
      "epoch": 0.8589375,
      "grad_norm": 0.9212223887443542,
      "learning_rate": 1.4609377999450756e-05,
      "loss": 3.2838,
      "step": 412290
    },
    {
      "epoch": 0.8589583333333334,
      "grad_norm": 0.9116700887680054,
      "learning_rate": 1.4605134464708807e-05,
      "loss": 3.3539,
      "step": 412300
    },
    {
      "epoch": 0.8589791666666666,
      "grad_norm": 0.8468179702758789,
      "learning_rate": 1.4600891514819124e-05,
      "loss": 3.4311,
      "step": 412310
    },
    {
      "epoch": 0.859,
      "grad_norm": 0.9321748614311218,
      "learning_rate": 1.4596649149799927e-05,
      "loss": 3.3984,
      "step": 412320
    },
    {
      "epoch": 0.8590208333333333,
      "grad_norm": 0.9256091117858887,
      "learning_rate": 1.4592407369669634e-05,
      "loss": 3.2529,
      "step": 412330
    },
    {
      "epoch": 0.8590416666666667,
      "grad_norm": 1.0522747039794922,
      "learning_rate": 1.458816617444658e-05,
      "loss": 3.3079,
      "step": 412340
    },
    {
      "epoch": 0.8590625,
      "grad_norm": 0.8871105313301086,
      "learning_rate": 1.4583925564148986e-05,
      "loss": 3.3048,
      "step": 412350
    },
    {
      "epoch": 0.8590833333333333,
      "grad_norm": 0.8980634212493896,
      "learning_rate": 1.4579685538795282e-05,
      "loss": 3.3026,
      "step": 412360
    },
    {
      "epoch": 0.8591041666666667,
      "grad_norm": 0.9617665410041809,
      "learning_rate": 1.4575446098403726e-05,
      "loss": 3.3609,
      "step": 412370
    },
    {
      "epoch": 0.859125,
      "grad_norm": 0.92033451795578,
      "learning_rate": 1.45712072429926e-05,
      "loss": 3.3833,
      "step": 412380
    },
    {
      "epoch": 0.8591458333333334,
      "grad_norm": 1.0046132802963257,
      "learning_rate": 1.4566968972580307e-05,
      "loss": 3.3248,
      "step": 412390
    },
    {
      "epoch": 0.8591666666666666,
      "grad_norm": 0.8708430528640747,
      "learning_rate": 1.4562731287185064e-05,
      "loss": 3.3004,
      "step": 412400
    },
    {
      "epoch": 0.8591875,
      "grad_norm": 0.8490047454833984,
      "learning_rate": 1.4558494186825192e-05,
      "loss": 3.2598,
      "step": 412410
    },
    {
      "epoch": 0.8592083333333334,
      "grad_norm": 0.9083726406097412,
      "learning_rate": 1.4554257671519075e-05,
      "loss": 3.2421,
      "step": 412420
    },
    {
      "epoch": 0.8592291666666667,
      "grad_norm": 0.9095578789710999,
      "learning_rate": 1.4550021741284918e-05,
      "loss": 3.3057,
      "step": 412430
    },
    {
      "epoch": 0.85925,
      "grad_norm": 0.9652021527290344,
      "learning_rate": 1.4545786396141018e-05,
      "loss": 3.292,
      "step": 412440
    },
    {
      "epoch": 0.8592708333333333,
      "grad_norm": 0.9845292568206787,
      "learning_rate": 1.4541551636105764e-05,
      "loss": 3.2684,
      "step": 412450
    },
    {
      "epoch": 0.8592916666666667,
      "grad_norm": 0.896206259727478,
      "learning_rate": 1.4537317461197373e-05,
      "loss": 3.2415,
      "step": 412460
    },
    {
      "epoch": 0.8593125,
      "grad_norm": 0.9121288657188416,
      "learning_rate": 1.4533083871434132e-05,
      "loss": 3.407,
      "step": 412470
    },
    {
      "epoch": 0.8593333333333333,
      "grad_norm": 0.860227108001709,
      "learning_rate": 1.4528850866834357e-05,
      "loss": 3.3589,
      "step": 412480
    },
    {
      "epoch": 0.8593541666666666,
      "grad_norm": 0.8809110522270203,
      "learning_rate": 1.452461844741632e-05,
      "loss": 3.2578,
      "step": 412490
    },
    {
      "epoch": 0.859375,
      "grad_norm": 1.0637863874435425,
      "learning_rate": 1.452038661319832e-05,
      "loss": 3.3918,
      "step": 412500
    },
    {
      "epoch": 0.8593958333333334,
      "grad_norm": 0.8754253387451172,
      "learning_rate": 1.4516155364198611e-05,
      "loss": 3.2945,
      "step": 412510
    },
    {
      "epoch": 0.8594166666666667,
      "grad_norm": 0.845859706401825,
      "learning_rate": 1.451192470043548e-05,
      "loss": 3.3996,
      "step": 412520
    },
    {
      "epoch": 0.8594375,
      "grad_norm": 0.8760747909545898,
      "learning_rate": 1.4507694621927208e-05,
      "loss": 3.2772,
      "step": 412530
    },
    {
      "epoch": 0.8594583333333333,
      "grad_norm": 1.022400140762329,
      "learning_rate": 1.4503465128692066e-05,
      "loss": 3.1738,
      "step": 412540
    },
    {
      "epoch": 0.8594791666666667,
      "grad_norm": 0.9385805726051331,
      "learning_rate": 1.4499236220748306e-05,
      "loss": 3.3471,
      "step": 412550
    },
    {
      "epoch": 0.8595,
      "grad_norm": 0.9030095338821411,
      "learning_rate": 1.449500789811423e-05,
      "loss": 3.3242,
      "step": 412560
    },
    {
      "epoch": 0.8595208333333333,
      "grad_norm": 0.9680935144424438,
      "learning_rate": 1.4490780160808074e-05,
      "loss": 3.2325,
      "step": 412570
    },
    {
      "epoch": 0.8595416666666666,
      "grad_norm": 1.0633783340454102,
      "learning_rate": 1.4486553008848122e-05,
      "loss": 3.3729,
      "step": 412580
    },
    {
      "epoch": 0.8595625,
      "grad_norm": 0.8834559321403503,
      "learning_rate": 1.4482326442252612e-05,
      "loss": 3.2659,
      "step": 412590
    },
    {
      "epoch": 0.8595833333333334,
      "grad_norm": 0.8964488506317139,
      "learning_rate": 1.4478100461039809e-05,
      "loss": 3.2999,
      "step": 412600
    },
    {
      "epoch": 0.8596041666666666,
      "grad_norm": 0.8911338448524475,
      "learning_rate": 1.447387506522797e-05,
      "loss": 3.2458,
      "step": 412610
    },
    {
      "epoch": 0.859625,
      "grad_norm": 0.896578311920166,
      "learning_rate": 1.4469650254835357e-05,
      "loss": 3.2392,
      "step": 412620
    },
    {
      "epoch": 0.8596458333333333,
      "grad_norm": 0.9750808477401733,
      "learning_rate": 1.4465426029880178e-05,
      "loss": 3.3472,
      "step": 412630
    },
    {
      "epoch": 0.8596666666666667,
      "grad_norm": 1.190915584564209,
      "learning_rate": 1.4461202390380733e-05,
      "loss": 3.4047,
      "step": 412640
    },
    {
      "epoch": 0.8596875,
      "grad_norm": 1.056258201599121,
      "learning_rate": 1.4456979336355257e-05,
      "loss": 3.385,
      "step": 412650
    },
    {
      "epoch": 0.8597083333333333,
      "grad_norm": 0.9299790859222412,
      "learning_rate": 1.4452756867821936e-05,
      "loss": 3.1825,
      "step": 412660
    },
    {
      "epoch": 0.8597291666666667,
      "grad_norm": 1.0622612237930298,
      "learning_rate": 1.444853498479907e-05,
      "loss": 3.3775,
      "step": 412670
    },
    {
      "epoch": 0.85975,
      "grad_norm": 0.9654786586761475,
      "learning_rate": 1.4444313687304914e-05,
      "loss": 3.3456,
      "step": 412680
    },
    {
      "epoch": 0.8597708333333334,
      "grad_norm": 0.9904826283454895,
      "learning_rate": 1.444009297535762e-05,
      "loss": 3.3487,
      "step": 412690
    },
    {
      "epoch": 0.8597916666666666,
      "grad_norm": 0.958695113658905,
      "learning_rate": 1.4435872848975472e-05,
      "loss": 3.3321,
      "step": 412700
    },
    {
      "epoch": 0.8598125,
      "grad_norm": 0.8348928093910217,
      "learning_rate": 1.4431653308176738e-05,
      "loss": 3.2683,
      "step": 412710
    },
    {
      "epoch": 0.8598333333333333,
      "grad_norm": 0.8931222558021545,
      "learning_rate": 1.4427434352979539e-05,
      "loss": 3.4586,
      "step": 412720
    },
    {
      "epoch": 0.8598541666666667,
      "grad_norm": 0.8856151103973389,
      "learning_rate": 1.4423215983402193e-05,
      "loss": 3.3497,
      "step": 412730
    },
    {
      "epoch": 0.859875,
      "grad_norm": 0.8812591433525085,
      "learning_rate": 1.44189981994629e-05,
      "loss": 3.1879,
      "step": 412740
    },
    {
      "epoch": 0.8598958333333333,
      "grad_norm": 0.9936874508857727,
      "learning_rate": 1.4414781001179848e-05,
      "loss": 3.3398,
      "step": 412750
    },
    {
      "epoch": 0.8599166666666667,
      "grad_norm": 0.8893241286277771,
      "learning_rate": 1.4410564388571288e-05,
      "loss": 3.2541,
      "step": 412760
    },
    {
      "epoch": 0.8599375,
      "grad_norm": 0.8552584648132324,
      "learning_rate": 1.4406348361655407e-05,
      "loss": 3.3738,
      "step": 412770
    },
    {
      "epoch": 0.8599583333333334,
      "grad_norm": 0.8634827733039856,
      "learning_rate": 1.4402132920450437e-05,
      "loss": 3.2216,
      "step": 412780
    },
    {
      "epoch": 0.8599791666666666,
      "grad_norm": 0.9041245579719543,
      "learning_rate": 1.4397918064974567e-05,
      "loss": 3.2313,
      "step": 412790
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.8713536858558655,
      "learning_rate": 1.4393703795246014e-05,
      "loss": 3.3302,
      "step": 412800
    },
    {
      "epoch": 0.8600208333333333,
      "grad_norm": 0.8350232839584351,
      "learning_rate": 1.4389490111282998e-05,
      "loss": 3.2317,
      "step": 412810
    },
    {
      "epoch": 0.8600416666666667,
      "grad_norm": 1.0090643167495728,
      "learning_rate": 1.4385277013103703e-05,
      "loss": 3.3697,
      "step": 412820
    },
    {
      "epoch": 0.8600625,
      "grad_norm": 1.3460972309112549,
      "learning_rate": 1.438106450072633e-05,
      "loss": 3.384,
      "step": 412830
    },
    {
      "epoch": 0.8600833333333333,
      "grad_norm": 0.8737094402313232,
      "learning_rate": 1.4376852574169067e-05,
      "loss": 3.1985,
      "step": 412840
    },
    {
      "epoch": 0.8601041666666667,
      "grad_norm": 0.9093769192695618,
      "learning_rate": 1.4372641233450133e-05,
      "loss": 3.345,
      "step": 412850
    },
    {
      "epoch": 0.860125,
      "grad_norm": 0.9146518707275391,
      "learning_rate": 1.4368430478587695e-05,
      "loss": 3.2862,
      "step": 412860
    },
    {
      "epoch": 0.8601458333333334,
      "grad_norm": 0.977282702922821,
      "learning_rate": 1.4364220309599955e-05,
      "loss": 3.4005,
      "step": 412870
    },
    {
      "epoch": 0.8601666666666666,
      "grad_norm": 0.9288221001625061,
      "learning_rate": 1.4360010726505101e-05,
      "loss": 3.4416,
      "step": 412880
    },
    {
      "epoch": 0.8601875,
      "grad_norm": 0.8851423859596252,
      "learning_rate": 1.4355801729321299e-05,
      "loss": 3.3827,
      "step": 412890
    },
    {
      "epoch": 0.8602083333333334,
      "grad_norm": 0.8990126848220825,
      "learning_rate": 1.4351593318066734e-05,
      "loss": 3.3254,
      "step": 412900
    },
    {
      "epoch": 0.8602291666666667,
      "grad_norm": 0.9408935904502869,
      "learning_rate": 1.4347385492759611e-05,
      "loss": 3.3465,
      "step": 412910
    },
    {
      "epoch": 0.86025,
      "grad_norm": 0.8568747639656067,
      "learning_rate": 1.434317825341808e-05,
      "loss": 3.3031,
      "step": 412920
    },
    {
      "epoch": 0.8602708333333333,
      "grad_norm": 0.940229594707489,
      "learning_rate": 1.4338971600060329e-05,
      "loss": 3.419,
      "step": 412930
    },
    {
      "epoch": 0.8602916666666667,
      "grad_norm": 0.9131957292556763,
      "learning_rate": 1.4334765532704506e-05,
      "loss": 3.2951,
      "step": 412940
    },
    {
      "epoch": 0.8603125,
      "grad_norm": 1.1345767974853516,
      "learning_rate": 1.4330560051368816e-05,
      "loss": 3.341,
      "step": 412950
    },
    {
      "epoch": 0.8603333333333333,
      "grad_norm": 0.9019594192504883,
      "learning_rate": 1.4326355156071395e-05,
      "loss": 3.3923,
      "step": 412960
    },
    {
      "epoch": 0.8603541666666666,
      "grad_norm": 0.9166568517684937,
      "learning_rate": 1.432215084683041e-05,
      "loss": 3.3872,
      "step": 412970
    },
    {
      "epoch": 0.860375,
      "grad_norm": 0.9562461972236633,
      "learning_rate": 1.4317947123664031e-05,
      "loss": 3.3506,
      "step": 412980
    },
    {
      "epoch": 0.8603958333333334,
      "grad_norm": 0.8902491331100464,
      "learning_rate": 1.4313743986590442e-05,
      "loss": 3.3486,
      "step": 412990
    },
    {
      "epoch": 0.8604166666666667,
      "grad_norm": 0.897706151008606,
      "learning_rate": 1.430954143562773e-05,
      "loss": 3.2491,
      "step": 413000
    },
    {
      "epoch": 0.8604166666666667,
      "eval_loss": 4.028180122375488,
      "eval_runtime": 9.0413,
      "eval_samples_per_second": 1.106,
      "eval_steps_per_second": 0.332,
      "step": 413000
    },
    {
      "epoch": 0.8604375,
      "grad_norm": 0.8422538042068481,
      "learning_rate": 1.4305339470794097e-05,
      "loss": 3.3498,
      "step": 413010
    },
    {
      "epoch": 0.8604583333333333,
      "grad_norm": 0.8655410408973694,
      "learning_rate": 1.4301138092107728e-05,
      "loss": 3.3882,
      "step": 413020
    },
    {
      "epoch": 0.8604791666666667,
      "grad_norm": 0.9360826015472412,
      "learning_rate": 1.4296937299586658e-05,
      "loss": 3.3298,
      "step": 413030
    },
    {
      "epoch": 0.8605,
      "grad_norm": 0.96815425157547,
      "learning_rate": 1.429273709324914e-05,
      "loss": 3.3381,
      "step": 413040
    },
    {
      "epoch": 0.8605208333333333,
      "grad_norm": 0.9962058663368225,
      "learning_rate": 1.4288537473113309e-05,
      "loss": 3.3535,
      "step": 413050
    },
    {
      "epoch": 0.8605416666666666,
      "grad_norm": 0.9144077301025391,
      "learning_rate": 1.4284338439197251e-05,
      "loss": 3.4065,
      "step": 413060
    },
    {
      "epoch": 0.8605625,
      "grad_norm": 0.9458073377609253,
      "learning_rate": 1.4280139991519101e-05,
      "loss": 3.2873,
      "step": 413070
    },
    {
      "epoch": 0.8605833333333334,
      "grad_norm": 0.9642215967178345,
      "learning_rate": 1.4275942130097096e-05,
      "loss": 3.2463,
      "step": 413080
    },
    {
      "epoch": 0.8606041666666666,
      "grad_norm": 0.8402129411697388,
      "learning_rate": 1.4271744854949252e-05,
      "loss": 3.2704,
      "step": 413090
    },
    {
      "epoch": 0.860625,
      "grad_norm": 0.9885989427566528,
      "learning_rate": 1.4267548166093723e-05,
      "loss": 3.374,
      "step": 413100
    },
    {
      "epoch": 0.8606458333333333,
      "grad_norm": 0.8973814249038696,
      "learning_rate": 1.4263352063548711e-05,
      "loss": 3.4147,
      "step": 413110
    },
    {
      "epoch": 0.8606666666666667,
      "grad_norm": 1.0018247365951538,
      "learning_rate": 1.4259156547332252e-05,
      "loss": 3.3192,
      "step": 413120
    },
    {
      "epoch": 0.8606875,
      "grad_norm": 0.865929126739502,
      "learning_rate": 1.4254961617462529e-05,
      "loss": 3.201,
      "step": 413130
    },
    {
      "epoch": 0.8607083333333333,
      "grad_norm": 0.9182952046394348,
      "learning_rate": 1.425076727395763e-05,
      "loss": 3.294,
      "step": 413140
    },
    {
      "epoch": 0.8607291666666667,
      "grad_norm": 0.8672419190406799,
      "learning_rate": 1.4246573516835674e-05,
      "loss": 3.2692,
      "step": 413150
    },
    {
      "epoch": 0.86075,
      "grad_norm": 0.9052144885063171,
      "learning_rate": 1.4242380346114796e-05,
      "loss": 3.3127,
      "step": 413160
    },
    {
      "epoch": 0.8607708333333334,
      "grad_norm": 0.8571807742118835,
      "learning_rate": 1.4238187761813096e-05,
      "loss": 3.3808,
      "step": 413170
    },
    {
      "epoch": 0.8607916666666666,
      "grad_norm": 0.9970406293869019,
      "learning_rate": 1.4233995763948696e-05,
      "loss": 3.4109,
      "step": 413180
    },
    {
      "epoch": 0.8608125,
      "grad_norm": 0.9369333982467651,
      "learning_rate": 1.4229804352539681e-05,
      "loss": 3.2911,
      "step": 413190
    },
    {
      "epoch": 0.8608333333333333,
      "grad_norm": 0.89349764585495,
      "learning_rate": 1.4225613527604169e-05,
      "loss": 3.2177,
      "step": 413200
    },
    {
      "epoch": 0.8608541666666667,
      "grad_norm": 0.941901683807373,
      "learning_rate": 1.4221423289160277e-05,
      "loss": 3.3107,
      "step": 413210
    },
    {
      "epoch": 0.860875,
      "grad_norm": 0.9339006543159485,
      "learning_rate": 1.4217233637226078e-05,
      "loss": 3.3574,
      "step": 413220
    },
    {
      "epoch": 0.8608958333333333,
      "grad_norm": 0.8508821129798889,
      "learning_rate": 1.4213044571819687e-05,
      "loss": 3.2822,
      "step": 413230
    },
    {
      "epoch": 0.8609166666666667,
      "grad_norm": 0.8520115613937378,
      "learning_rate": 1.4208856092959208e-05,
      "loss": 3.1775,
      "step": 413240
    },
    {
      "epoch": 0.8609375,
      "grad_norm": 0.9387598633766174,
      "learning_rate": 1.4204668200662694e-05,
      "loss": 3.2063,
      "step": 413250
    },
    {
      "epoch": 0.8609583333333334,
      "grad_norm": 0.9477206468582153,
      "learning_rate": 1.4200480894948279e-05,
      "loss": 3.4106,
      "step": 413260
    },
    {
      "epoch": 0.8609791666666666,
      "grad_norm": 0.9282547235488892,
      "learning_rate": 1.4196294175834033e-05,
      "loss": 3.3514,
      "step": 413270
    },
    {
      "epoch": 0.861,
      "grad_norm": 0.926893949508667,
      "learning_rate": 1.419210804333804e-05,
      "loss": 3.5238,
      "step": 413280
    },
    {
      "epoch": 0.8610208333333333,
      "grad_norm": 0.8583877682685852,
      "learning_rate": 1.4187922497478388e-05,
      "loss": 3.1945,
      "step": 413290
    },
    {
      "epoch": 0.8610416666666667,
      "grad_norm": 0.8526053428649902,
      "learning_rate": 1.4183737538273143e-05,
      "loss": 3.2903,
      "step": 413300
    },
    {
      "epoch": 0.8610625,
      "grad_norm": 0.8285396695137024,
      "learning_rate": 1.417955316574041e-05,
      "loss": 3.3406,
      "step": 413310
    },
    {
      "epoch": 0.8610833333333333,
      "grad_norm": 0.9554474949836731,
      "learning_rate": 1.4175369379898222e-05,
      "loss": 3.4592,
      "step": 413320
    },
    {
      "epoch": 0.8611041666666667,
      "grad_norm": 1.1172395944595337,
      "learning_rate": 1.4171186180764682e-05,
      "loss": 3.4183,
      "step": 413330
    },
    {
      "epoch": 0.861125,
      "grad_norm": 0.9001939296722412,
      "learning_rate": 1.4167003568357893e-05,
      "loss": 3.2326,
      "step": 413340
    },
    {
      "epoch": 0.8611458333333334,
      "grad_norm": 0.8423312902450562,
      "learning_rate": 1.4162821542695824e-05,
      "loss": 3.1966,
      "step": 413350
    },
    {
      "epoch": 0.8611666666666666,
      "grad_norm": 0.9512588977813721,
      "learning_rate": 1.4158640103796642e-05,
      "loss": 3.3679,
      "step": 413360
    },
    {
      "epoch": 0.8611875,
      "grad_norm": 0.884246826171875,
      "learning_rate": 1.4154459251678352e-05,
      "loss": 3.3523,
      "step": 413370
    },
    {
      "epoch": 0.8612083333333334,
      "grad_norm": 0.9018608927726746,
      "learning_rate": 1.4150278986358987e-05,
      "loss": 3.2677,
      "step": 413380
    },
    {
      "epoch": 0.8612291666666667,
      "grad_norm": 0.8593451380729675,
      "learning_rate": 1.41460993078567e-05,
      "loss": 3.279,
      "step": 413390
    },
    {
      "epoch": 0.86125,
      "grad_norm": 0.8863718509674072,
      "learning_rate": 1.4141920216189462e-05,
      "loss": 3.4473,
      "step": 413400
    },
    {
      "epoch": 0.8612708333333333,
      "grad_norm": 0.8690428733825684,
      "learning_rate": 1.4137741711375322e-05,
      "loss": 3.311,
      "step": 413410
    },
    {
      "epoch": 0.8612916666666667,
      "grad_norm": 0.9230018854141235,
      "learning_rate": 1.4133563793432418e-05,
      "loss": 3.2679,
      "step": 413420
    },
    {
      "epoch": 0.8613125,
      "grad_norm": 0.9019661545753479,
      "learning_rate": 1.4129386462378717e-05,
      "loss": 3.3789,
      "step": 413430
    },
    {
      "epoch": 0.8613333333333333,
      "grad_norm": 0.9841128587722778,
      "learning_rate": 1.4125209718232256e-05,
      "loss": 3.313,
      "step": 413440
    },
    {
      "epoch": 0.8613541666666666,
      "grad_norm": 0.9683120250701904,
      "learning_rate": 1.4121033561011152e-05,
      "loss": 3.3582,
      "step": 413450
    },
    {
      "epoch": 0.861375,
      "grad_norm": 0.9676965475082397,
      "learning_rate": 1.4116857990733377e-05,
      "loss": 3.3485,
      "step": 413460
    },
    {
      "epoch": 0.8613958333333334,
      "grad_norm": 1.0889899730682373,
      "learning_rate": 1.4112683007416964e-05,
      "loss": 3.2888,
      "step": 413470
    },
    {
      "epoch": 0.8614166666666667,
      "grad_norm": 0.9246730804443359,
      "learning_rate": 1.4108508611080033e-05,
      "loss": 3.4291,
      "step": 413480
    },
    {
      "epoch": 0.8614375,
      "grad_norm": 0.8977163434028625,
      "learning_rate": 1.410433480174052e-05,
      "loss": 3.3665,
      "step": 413490
    },
    {
      "epoch": 0.8614583333333333,
      "grad_norm": 0.8472195863723755,
      "learning_rate": 1.4100161579416492e-05,
      "loss": 3.1922,
      "step": 413500
    },
    {
      "epoch": 0.8614791666666667,
      "grad_norm": 1.0875871181488037,
      "learning_rate": 1.4095988944125968e-05,
      "loss": 3.2951,
      "step": 413510
    },
    {
      "epoch": 0.8615,
      "grad_norm": 0.8326234221458435,
      "learning_rate": 1.409181689588697e-05,
      "loss": 3.3264,
      "step": 413520
    },
    {
      "epoch": 0.8615208333333333,
      "grad_norm": 0.8974258899688721,
      "learning_rate": 1.4087645434717548e-05,
      "loss": 3.197,
      "step": 413530
    },
    {
      "epoch": 0.8615416666666667,
      "grad_norm": 1.0090974569320679,
      "learning_rate": 1.4083474560635687e-05,
      "loss": 3.4153,
      "step": 413540
    },
    {
      "epoch": 0.8615625,
      "grad_norm": 0.948377788066864,
      "learning_rate": 1.4079304273659408e-05,
      "loss": 3.3907,
      "step": 413550
    },
    {
      "epoch": 0.8615833333333334,
      "grad_norm": 0.917482852935791,
      "learning_rate": 1.4075134573806746e-05,
      "loss": 3.2916,
      "step": 413560
    },
    {
      "epoch": 0.8616041666666666,
      "grad_norm": 0.8871159553527832,
      "learning_rate": 1.40709654610957e-05,
      "loss": 3.3976,
      "step": 413570
    },
    {
      "epoch": 0.861625,
      "grad_norm": 0.9554778933525085,
      "learning_rate": 1.4066796935544278e-05,
      "loss": 3.3763,
      "step": 413580
    },
    {
      "epoch": 0.8616458333333333,
      "grad_norm": 0.8381202220916748,
      "learning_rate": 1.4062628997170477e-05,
      "loss": 3.3775,
      "step": 413590
    },
    {
      "epoch": 0.8616666666666667,
      "grad_norm": 0.888278067111969,
      "learning_rate": 1.4058461645992336e-05,
      "loss": 3.3139,
      "step": 413600
    },
    {
      "epoch": 0.8616875,
      "grad_norm": 0.913122296333313,
      "learning_rate": 1.4054294882027806e-05,
      "loss": 3.4232,
      "step": 413610
    },
    {
      "epoch": 0.8617083333333333,
      "grad_norm": 0.9192406535148621,
      "learning_rate": 1.4050128705294922e-05,
      "loss": 3.3433,
      "step": 413620
    },
    {
      "epoch": 0.8617291666666667,
      "grad_norm": 0.8893155455589294,
      "learning_rate": 1.404596311581167e-05,
      "loss": 3.462,
      "step": 413630
    },
    {
      "epoch": 0.86175,
      "grad_norm": 0.9059468507766724,
      "learning_rate": 1.4041798113596037e-05,
      "loss": 3.3446,
      "step": 413640
    },
    {
      "epoch": 0.8617708333333334,
      "grad_norm": 0.9765476584434509,
      "learning_rate": 1.4037633698666056e-05,
      "loss": 3.2215,
      "step": 413650
    },
    {
      "epoch": 0.8617916666666666,
      "grad_norm": 0.8769835829734802,
      "learning_rate": 1.4033469871039615e-05,
      "loss": 3.2992,
      "step": 413660
    },
    {
      "epoch": 0.8618125,
      "grad_norm": 0.8954147100448608,
      "learning_rate": 1.40293066307348e-05,
      "loss": 3.2812,
      "step": 413670
    },
    {
      "epoch": 0.8618333333333333,
      "grad_norm": 0.8994112610816956,
      "learning_rate": 1.4025143977769576e-05,
      "loss": 3.5069,
      "step": 413680
    },
    {
      "epoch": 0.8618541666666667,
      "grad_norm": 0.8587175011634827,
      "learning_rate": 1.4020981912161866e-05,
      "loss": 3.3769,
      "step": 413690
    },
    {
      "epoch": 0.861875,
      "grad_norm": 0.8303648829460144,
      "learning_rate": 1.4016820433929704e-05,
      "loss": 3.2729,
      "step": 413700
    },
    {
      "epoch": 0.8618958333333333,
      "grad_norm": 1.0093636512756348,
      "learning_rate": 1.4012659543091093e-05,
      "loss": 3.2756,
      "step": 413710
    },
    {
      "epoch": 0.8619166666666667,
      "grad_norm": 0.9249027967453003,
      "learning_rate": 1.40084992396639e-05,
      "loss": 3.1742,
      "step": 413720
    },
    {
      "epoch": 0.8619375,
      "grad_norm": 0.9864616990089417,
      "learning_rate": 1.4004339523666198e-05,
      "loss": 3.2407,
      "step": 413730
    },
    {
      "epoch": 0.8619583333333334,
      "grad_norm": 0.8293068408966064,
      "learning_rate": 1.4000180395115934e-05,
      "loss": 3.2906,
      "step": 413740
    },
    {
      "epoch": 0.8619791666666666,
      "grad_norm": 0.8235490918159485,
      "learning_rate": 1.3996021854031013e-05,
      "loss": 3.3459,
      "step": 413750
    },
    {
      "epoch": 0.862,
      "grad_norm": 1.0258632898330688,
      "learning_rate": 1.399186390042949e-05,
      "loss": 3.4141,
      "step": 413760
    },
    {
      "epoch": 0.8620208333333333,
      "grad_norm": 0.9128567576408386,
      "learning_rate": 1.3987706534329262e-05,
      "loss": 3.4158,
      "step": 413770
    },
    {
      "epoch": 0.8620416666666667,
      "grad_norm": 0.900926947593689,
      "learning_rate": 1.3983549755748269e-05,
      "loss": 3.2151,
      "step": 413780
    },
    {
      "epoch": 0.8620625,
      "grad_norm": 0.9036511182785034,
      "learning_rate": 1.3979393564704561e-05,
      "loss": 3.3728,
      "step": 413790
    },
    {
      "epoch": 0.8620833333333333,
      "grad_norm": 0.9002803564071655,
      "learning_rate": 1.3975237961216007e-05,
      "loss": 3.224,
      "step": 413800
    },
    {
      "epoch": 0.8621041666666667,
      "grad_norm": 0.9496155977249146,
      "learning_rate": 1.3971082945300543e-05,
      "loss": 3.3896,
      "step": 413810
    },
    {
      "epoch": 0.862125,
      "grad_norm": 0.8588433861732483,
      "learning_rate": 1.3966928516976222e-05,
      "loss": 3.3041,
      "step": 413820
    },
    {
      "epoch": 0.8621458333333333,
      "grad_norm": 0.8645724058151245,
      "learning_rate": 1.3962774676260897e-05,
      "loss": 3.2779,
      "step": 413830
    },
    {
      "epoch": 0.8621666666666666,
      "grad_norm": 0.8984191417694092,
      "learning_rate": 1.3958621423172517e-05,
      "loss": 3.312,
      "step": 413840
    },
    {
      "epoch": 0.8621875,
      "grad_norm": 0.9542708992958069,
      "learning_rate": 1.3954468757729087e-05,
      "loss": 3.277,
      "step": 413850
    },
    {
      "epoch": 0.8622083333333334,
      "grad_norm": 0.8974427580833435,
      "learning_rate": 1.3950316679948476e-05,
      "loss": 3.3247,
      "step": 413860
    },
    {
      "epoch": 0.8622291666666667,
      "grad_norm": 0.862150251865387,
      "learning_rate": 1.3946165189848635e-05,
      "loss": 3.2383,
      "step": 413870
    },
    {
      "epoch": 0.86225,
      "grad_norm": 1.0017486810684204,
      "learning_rate": 1.3942014287447517e-05,
      "loss": 3.3249,
      "step": 413880
    },
    {
      "epoch": 0.8622708333333333,
      "grad_norm": 0.9160705208778381,
      "learning_rate": 1.3937863972763041e-05,
      "loss": 3.5026,
      "step": 413890
    },
    {
      "epoch": 0.8622916666666667,
      "grad_norm": 0.928972065448761,
      "learning_rate": 1.3933714245813144e-05,
      "loss": 3.2044,
      "step": 413900
    },
    {
      "epoch": 0.8623125,
      "grad_norm": 0.8624940514564514,
      "learning_rate": 1.3929565106615743e-05,
      "loss": 3.1701,
      "step": 413910
    },
    {
      "epoch": 0.8623333333333333,
      "grad_norm": 0.9590782523155212,
      "learning_rate": 1.3925416555188739e-05,
      "loss": 3.1539,
      "step": 413920
    },
    {
      "epoch": 0.8623541666666666,
      "grad_norm": 1.097158670425415,
      "learning_rate": 1.392126859155009e-05,
      "loss": 3.3328,
      "step": 413930
    },
    {
      "epoch": 0.862375,
      "grad_norm": 0.9490500688552856,
      "learning_rate": 1.391712121571769e-05,
      "loss": 3.2294,
      "step": 413940
    },
    {
      "epoch": 0.8623958333333334,
      "grad_norm": 0.935810923576355,
      "learning_rate": 1.3912974427709467e-05,
      "loss": 3.3346,
      "step": 413950
    },
    {
      "epoch": 0.8624166666666667,
      "grad_norm": 0.9658960103988647,
      "learning_rate": 1.3908828227543334e-05,
      "loss": 3.2872,
      "step": 413960
    },
    {
      "epoch": 0.8624375,
      "grad_norm": 0.9174297451972961,
      "learning_rate": 1.3904682615237179e-05,
      "loss": 3.3238,
      "step": 413970
    },
    {
      "epoch": 0.8624583333333333,
      "grad_norm": 0.9586959481239319,
      "learning_rate": 1.3900537590808936e-05,
      "loss": 3.232,
      "step": 413980
    },
    {
      "epoch": 0.8624791666666667,
      "grad_norm": 0.8773332834243774,
      "learning_rate": 1.3896393154276525e-05,
      "loss": 3.3642,
      "step": 413990
    },
    {
      "epoch": 0.8625,
      "grad_norm": 0.9568866491317749,
      "learning_rate": 1.3892249305657766e-05,
      "loss": 3.3731,
      "step": 414000
    },
    {
      "epoch": 0.8625,
      "eval_loss": 4.028822898864746,
      "eval_runtime": 9.1437,
      "eval_samples_per_second": 1.094,
      "eval_steps_per_second": 0.328,
      "step": 414000
    },
    {
      "epoch": 0.8625208333333333,
      "grad_norm": 0.8881596922874451,
      "learning_rate": 1.3888106044970643e-05,
      "loss": 3.2761,
      "step": 414010
    },
    {
      "epoch": 0.8625416666666667,
      "grad_norm": 0.9463328719139099,
      "learning_rate": 1.3883963372233042e-05,
      "loss": 3.2975,
      "step": 414020
    },
    {
      "epoch": 0.8625625,
      "grad_norm": 0.8944197297096252,
      "learning_rate": 1.38798212874628e-05,
      "loss": 3.3185,
      "step": 414030
    },
    {
      "epoch": 0.8625833333333334,
      "grad_norm": 0.9334986805915833,
      "learning_rate": 1.3875679790677867e-05,
      "loss": 3.35,
      "step": 414040
    },
    {
      "epoch": 0.8626041666666666,
      "grad_norm": 0.8941580057144165,
      "learning_rate": 1.3871538881896149e-05,
      "loss": 3.2134,
      "step": 414050
    },
    {
      "epoch": 0.862625,
      "grad_norm": 0.9146210551261902,
      "learning_rate": 1.3867398561135446e-05,
      "loss": 3.3259,
      "step": 414060
    },
    {
      "epoch": 0.8626458333333333,
      "grad_norm": 0.9789772629737854,
      "learning_rate": 1.386325882841371e-05,
      "loss": 3.2584,
      "step": 414070
    },
    {
      "epoch": 0.8626666666666667,
      "grad_norm": 0.9022834300994873,
      "learning_rate": 1.3859119683748844e-05,
      "loss": 3.2392,
      "step": 414080
    },
    {
      "epoch": 0.8626875,
      "grad_norm": 0.9941772222518921,
      "learning_rate": 1.385498112715865e-05,
      "loss": 3.2978,
      "step": 414090
    },
    {
      "epoch": 0.8627083333333333,
      "grad_norm": 0.8502348065376282,
      "learning_rate": 1.3850843158661062e-05,
      "loss": 3.3371,
      "step": 414100
    },
    {
      "epoch": 0.8627291666666667,
      "grad_norm": 1.098551630973816,
      "learning_rate": 1.384670577827397e-05,
      "loss": 3.3318,
      "step": 414110
    },
    {
      "epoch": 0.86275,
      "grad_norm": 0.8424402475357056,
      "learning_rate": 1.3842568986015156e-05,
      "loss": 3.2564,
      "step": 414120
    },
    {
      "epoch": 0.8627708333333334,
      "grad_norm": 0.9613716006278992,
      "learning_rate": 1.3838432781902626e-05,
      "loss": 3.2649,
      "step": 414130
    },
    {
      "epoch": 0.8627916666666666,
      "grad_norm": 0.9249587059020996,
      "learning_rate": 1.3834297165954111e-05,
      "loss": 3.5231,
      "step": 414140
    },
    {
      "epoch": 0.8628125,
      "grad_norm": 0.9104211330413818,
      "learning_rate": 1.3830162138187535e-05,
      "loss": 3.3021,
      "step": 414150
    },
    {
      "epoch": 0.8628333333333333,
      "grad_norm": 0.9516535997390747,
      "learning_rate": 1.3826027698620794e-05,
      "loss": 3.2728,
      "step": 414160
    },
    {
      "epoch": 0.8628541666666667,
      "grad_norm": 0.8559409976005554,
      "learning_rate": 1.3821893847271699e-05,
      "loss": 3.3744,
      "step": 414170
    },
    {
      "epoch": 0.862875,
      "grad_norm": 0.9345107674598694,
      "learning_rate": 1.3817760584158077e-05,
      "loss": 3.2953,
      "step": 414180
    },
    {
      "epoch": 0.8628958333333333,
      "grad_norm": 0.8254532217979431,
      "learning_rate": 1.3813627909297887e-05,
      "loss": 3.3779,
      "step": 414190
    },
    {
      "epoch": 0.8629166666666667,
      "grad_norm": 0.8241159915924072,
      "learning_rate": 1.3809495822708894e-05,
      "loss": 3.349,
      "step": 414200
    },
    {
      "epoch": 0.8629375,
      "grad_norm": 0.9120858907699585,
      "learning_rate": 1.3805364324408935e-05,
      "loss": 3.3087,
      "step": 414210
    },
    {
      "epoch": 0.8629583333333334,
      "grad_norm": 0.9701438546180725,
      "learning_rate": 1.3801233414415963e-05,
      "loss": 3.2679,
      "step": 414220
    },
    {
      "epoch": 0.8629791666666666,
      "grad_norm": 0.9248546361923218,
      "learning_rate": 1.3797103092747713e-05,
      "loss": 3.3008,
      "step": 414230
    },
    {
      "epoch": 0.863,
      "grad_norm": 0.8888271450996399,
      "learning_rate": 1.3792973359422054e-05,
      "loss": 3.343,
      "step": 414240
    },
    {
      "epoch": 0.8630208333333333,
      "grad_norm": 1.0034106969833374,
      "learning_rate": 1.3788844214456856e-05,
      "loss": 3.3189,
      "step": 414250
    },
    {
      "epoch": 0.8630416666666667,
      "grad_norm": 0.9064784646034241,
      "learning_rate": 1.3784715657869922e-05,
      "loss": 3.2602,
      "step": 414260
    },
    {
      "epoch": 0.8630625,
      "grad_norm": 1.033368706703186,
      "learning_rate": 1.37805876896791e-05,
      "loss": 3.3243,
      "step": 414270
    },
    {
      "epoch": 0.8630833333333333,
      "grad_norm": 0.9852601885795593,
      "learning_rate": 1.3776460309902232e-05,
      "loss": 3.3388,
      "step": 414280
    },
    {
      "epoch": 0.8631041666666667,
      "grad_norm": 0.8942635655403137,
      "learning_rate": 1.3772333518557117e-05,
      "loss": 3.3458,
      "step": 414290
    },
    {
      "epoch": 0.863125,
      "grad_norm": 0.9354501962661743,
      "learning_rate": 1.3768207315661606e-05,
      "loss": 3.3283,
      "step": 414300
    },
    {
      "epoch": 0.8631458333333333,
      "grad_norm": 0.9286839962005615,
      "learning_rate": 1.376408170123352e-05,
      "loss": 3.3193,
      "step": 414310
    },
    {
      "epoch": 0.8631666666666666,
      "grad_norm": 0.9215210676193237,
      "learning_rate": 1.3759956675290678e-05,
      "loss": 3.307,
      "step": 414320
    },
    {
      "epoch": 0.8631875,
      "grad_norm": 0.934766948223114,
      "learning_rate": 1.3755832237850884e-05,
      "loss": 3.2725,
      "step": 414330
    },
    {
      "epoch": 0.8632083333333334,
      "grad_norm": 0.9267837405204773,
      "learning_rate": 1.375170838893197e-05,
      "loss": 3.3012,
      "step": 414340
    },
    {
      "epoch": 0.8632291666666667,
      "grad_norm": 0.9194074869155884,
      "learning_rate": 1.3747585128551742e-05,
      "loss": 3.258,
      "step": 414350
    },
    {
      "epoch": 0.86325,
      "grad_norm": 0.871938943862915,
      "learning_rate": 1.374346245672805e-05,
      "loss": 3.4607,
      "step": 414360
    },
    {
      "epoch": 0.8632708333333333,
      "grad_norm": 0.8560096025466919,
      "learning_rate": 1.3739340373478597e-05,
      "loss": 3.274,
      "step": 414370
    },
    {
      "epoch": 0.8632916666666667,
      "grad_norm": 0.8997587561607361,
      "learning_rate": 1.3735218878821302e-05,
      "loss": 3.2116,
      "step": 414380
    },
    {
      "epoch": 0.8633125,
      "grad_norm": 0.9288784861564636,
      "learning_rate": 1.3731097972773936e-05,
      "loss": 3.3502,
      "step": 414390
    },
    {
      "epoch": 0.8633333333333333,
      "grad_norm": 0.8780729174613953,
      "learning_rate": 1.372697765535425e-05,
      "loss": 3.3082,
      "step": 414400
    },
    {
      "epoch": 0.8633541666666666,
      "grad_norm": 0.8795004487037659,
      "learning_rate": 1.3722857926580094e-05,
      "loss": 3.2502,
      "step": 414410
    },
    {
      "epoch": 0.863375,
      "grad_norm": 0.9866104125976562,
      "learning_rate": 1.3718738786469274e-05,
      "loss": 3.3577,
      "step": 414420
    },
    {
      "epoch": 0.8633958333333334,
      "grad_norm": 0.9952054619789124,
      "learning_rate": 1.3714620235039509e-05,
      "loss": 3.2666,
      "step": 414430
    },
    {
      "epoch": 0.8634166666666667,
      "grad_norm": 0.973499596118927,
      "learning_rate": 1.3710502272308666e-05,
      "loss": 3.2829,
      "step": 414440
    },
    {
      "epoch": 0.8634375,
      "grad_norm": 0.8634296655654907,
      "learning_rate": 1.3706384898294547e-05,
      "loss": 3.2453,
      "step": 414450
    },
    {
      "epoch": 0.8634583333333333,
      "grad_norm": 0.9770928621292114,
      "learning_rate": 1.3702268113014826e-05,
      "loss": 3.3051,
      "step": 414460
    },
    {
      "epoch": 0.8634791666666667,
      "grad_norm": 0.9771832823753357,
      "learning_rate": 1.3698151916487382e-05,
      "loss": 3.3319,
      "step": 414470
    },
    {
      "epoch": 0.8635,
      "grad_norm": 0.9327616691589355,
      "learning_rate": 1.3694036308730006e-05,
      "loss": 3.2729,
      "step": 414480
    },
    {
      "epoch": 0.8635208333333333,
      "grad_norm": 0.8464496731758118,
      "learning_rate": 1.3689921289760381e-05,
      "loss": 3.1283,
      "step": 414490
    },
    {
      "epoch": 0.8635416666666667,
      "grad_norm": 1.0374547243118286,
      "learning_rate": 1.3685806859596392e-05,
      "loss": 3.4033,
      "step": 414500
    },
    {
      "epoch": 0.8635625,
      "grad_norm": 1.0294530391693115,
      "learning_rate": 1.3681693018255746e-05,
      "loss": 3.3329,
      "step": 414510
    },
    {
      "epoch": 0.8635833333333334,
      "grad_norm": 0.9675534963607788,
      "learning_rate": 1.3677579765756208e-05,
      "loss": 3.4155,
      "step": 414520
    },
    {
      "epoch": 0.8636041666666666,
      "grad_norm": 0.8931553959846497,
      "learning_rate": 1.3673467102115582e-05,
      "loss": 3.341,
      "step": 414530
    },
    {
      "epoch": 0.863625,
      "grad_norm": 0.9436144828796387,
      "learning_rate": 1.3669355027351602e-05,
      "loss": 3.2872,
      "step": 414540
    },
    {
      "epoch": 0.8636458333333333,
      "grad_norm": 1.174520492553711,
      "learning_rate": 1.3665243541482058e-05,
      "loss": 3.356,
      "step": 414550
    },
    {
      "epoch": 0.8636666666666667,
      "grad_norm": 0.920452356338501,
      "learning_rate": 1.3661132644524698e-05,
      "loss": 3.2093,
      "step": 414560
    },
    {
      "epoch": 0.8636875,
      "grad_norm": 0.955367922782898,
      "learning_rate": 1.3657022336497276e-05,
      "loss": 3.4911,
      "step": 414570
    },
    {
      "epoch": 0.8637083333333333,
      "grad_norm": 0.8783766031265259,
      "learning_rate": 1.3652912617417544e-05,
      "loss": 3.4454,
      "step": 414580
    },
    {
      "epoch": 0.8637291666666667,
      "grad_norm": 0.9971980452537537,
      "learning_rate": 1.3648803487303256e-05,
      "loss": 3.2598,
      "step": 414590
    },
    {
      "epoch": 0.86375,
      "grad_norm": 0.9301257729530334,
      "learning_rate": 1.3644694946172164e-05,
      "loss": 3.3463,
      "step": 414600
    },
    {
      "epoch": 0.8637708333333334,
      "grad_norm": 0.9034663438796997,
      "learning_rate": 1.3640586994042035e-05,
      "loss": 3.1855,
      "step": 414610
    },
    {
      "epoch": 0.8637916666666666,
      "grad_norm": 0.8849588632583618,
      "learning_rate": 1.3636479630930575e-05,
      "loss": 3.3644,
      "step": 414620
    },
    {
      "epoch": 0.8638125,
      "grad_norm": 1.03559148311615,
      "learning_rate": 1.363237285685555e-05,
      "loss": 3.3835,
      "step": 414630
    },
    {
      "epoch": 0.8638333333333333,
      "grad_norm": 0.8977930545806885,
      "learning_rate": 1.3628266671834714e-05,
      "loss": 3.3722,
      "step": 414640
    },
    {
      "epoch": 0.8638541666666667,
      "grad_norm": 0.9077038168907166,
      "learning_rate": 1.362416107588577e-05,
      "loss": 3.2957,
      "step": 414650
    },
    {
      "epoch": 0.863875,
      "grad_norm": 0.869997501373291,
      "learning_rate": 1.362005606902647e-05,
      "loss": 3.3202,
      "step": 414660
    },
    {
      "epoch": 0.8638958333333333,
      "grad_norm": 0.9829104542732239,
      "learning_rate": 1.3615951651274549e-05,
      "loss": 3.214,
      "step": 414670
    },
    {
      "epoch": 0.8639166666666667,
      "grad_norm": 0.9486599564552307,
      "learning_rate": 1.3611847822647725e-05,
      "loss": 3.2203,
      "step": 414680
    },
    {
      "epoch": 0.8639375,
      "grad_norm": 0.9296461343765259,
      "learning_rate": 1.3607744583163738e-05,
      "loss": 3.3298,
      "step": 414690
    },
    {
      "epoch": 0.8639583333333334,
      "grad_norm": 0.8795763850212097,
      "learning_rate": 1.3603641932840304e-05,
      "loss": 3.3157,
      "step": 414700
    },
    {
      "epoch": 0.8639791666666666,
      "grad_norm": 0.9629772901535034,
      "learning_rate": 1.359953987169516e-05,
      "loss": 3.2608,
      "step": 414710
    },
    {
      "epoch": 0.864,
      "grad_norm": 0.9268683791160583,
      "learning_rate": 1.3595438399745989e-05,
      "loss": 3.2968,
      "step": 414720
    },
    {
      "epoch": 0.8640208333333333,
      "grad_norm": 0.9227906465530396,
      "learning_rate": 1.3591337517010548e-05,
      "loss": 3.2355,
      "step": 414730
    },
    {
      "epoch": 0.8640416666666667,
      "grad_norm": 0.9438158869743347,
      "learning_rate": 1.3587237223506537e-05,
      "loss": 3.3705,
      "step": 414740
    },
    {
      "epoch": 0.8640625,
      "grad_norm": 0.8904505968093872,
      "learning_rate": 1.3583137519251658e-05,
      "loss": 3.226,
      "step": 414750
    },
    {
      "epoch": 0.8640833333333333,
      "grad_norm": 1.0097626447677612,
      "learning_rate": 1.3579038404263664e-05,
      "loss": 3.4033,
      "step": 414760
    },
    {
      "epoch": 0.8641041666666667,
      "grad_norm": 0.9567359685897827,
      "learning_rate": 1.357493987856016e-05,
      "loss": 3.2943,
      "step": 414770
    },
    {
      "epoch": 0.864125,
      "grad_norm": 0.9560108184814453,
      "learning_rate": 1.3570841942158945e-05,
      "loss": 3.3842,
      "step": 414780
    },
    {
      "epoch": 0.8641458333333333,
      "grad_norm": 0.9127772450447083,
      "learning_rate": 1.3566744595077722e-05,
      "loss": 3.3104,
      "step": 414790
    },
    {
      "epoch": 0.8641666666666666,
      "grad_norm": 1.011610507965088,
      "learning_rate": 1.3562647837334095e-05,
      "loss": 3.3149,
      "step": 414800
    },
    {
      "epoch": 0.8641875,
      "grad_norm": 0.8781833648681641,
      "learning_rate": 1.355855166894585e-05,
      "loss": 3.1453,
      "step": 414810
    },
    {
      "epoch": 0.8642083333333334,
      "grad_norm": 0.9284349083900452,
      "learning_rate": 1.3554456089930687e-05,
      "loss": 3.3129,
      "step": 414820
    },
    {
      "epoch": 0.8642291666666667,
      "grad_norm": 0.9094966650009155,
      "learning_rate": 1.3550361100306245e-05,
      "loss": 3.279,
      "step": 414830
    },
    {
      "epoch": 0.86425,
      "grad_norm": 0.8787464499473572,
      "learning_rate": 1.3546266700090191e-05,
      "loss": 3.311,
      "step": 414840
    },
    {
      "epoch": 0.8642708333333333,
      "grad_norm": 0.8861634135246277,
      "learning_rate": 1.3542172889300312e-05,
      "loss": 3.3244,
      "step": 414850
    },
    {
      "epoch": 0.8642916666666667,
      "grad_norm": 0.9403349161148071,
      "learning_rate": 1.353807966795421e-05,
      "loss": 3.4442,
      "step": 414860
    },
    {
      "epoch": 0.8643125,
      "grad_norm": 0.8913243412971497,
      "learning_rate": 1.3533987036069587e-05,
      "loss": 3.2981,
      "step": 414870
    },
    {
      "epoch": 0.8643333333333333,
      "grad_norm": 0.7860476970672607,
      "learning_rate": 1.3529894993664131e-05,
      "loss": 3.2715,
      "step": 414880
    },
    {
      "epoch": 0.8643541666666666,
      "grad_norm": 1.0201292037963867,
      "learning_rate": 1.3525803540755491e-05,
      "loss": 3.2855,
      "step": 414890
    },
    {
      "epoch": 0.864375,
      "grad_norm": 0.979457676410675,
      "learning_rate": 1.3521712677361375e-05,
      "loss": 3.3434,
      "step": 414900
    },
    {
      "epoch": 0.8643958333333334,
      "grad_norm": 0.9125730991363525,
      "learning_rate": 1.351762240349943e-05,
      "loss": 3.3109,
      "step": 414910
    },
    {
      "epoch": 0.8644166666666667,
      "grad_norm": 1.0189908742904663,
      "learning_rate": 1.3513532719187342e-05,
      "loss": 3.3531,
      "step": 414920
    },
    {
      "epoch": 0.8644375,
      "grad_norm": 0.957311749458313,
      "learning_rate": 1.350944362444275e-05,
      "loss": 3.2246,
      "step": 414930
    },
    {
      "epoch": 0.8644583333333333,
      "grad_norm": 0.9284705519676208,
      "learning_rate": 1.3505355119283357e-05,
      "loss": 3.302,
      "step": 414940
    },
    {
      "epoch": 0.8644791666666667,
      "grad_norm": 0.8922687768936157,
      "learning_rate": 1.350126720372678e-05,
      "loss": 3.389,
      "step": 414950
    },
    {
      "epoch": 0.8645,
      "grad_norm": 1.043257474899292,
      "learning_rate": 1.3497179877790703e-05,
      "loss": 3.3971,
      "step": 414960
    },
    {
      "epoch": 0.8645208333333333,
      "grad_norm": 0.9515479207038879,
      "learning_rate": 1.3493093141492783e-05,
      "loss": 3.1808,
      "step": 414970
    },
    {
      "epoch": 0.8645416666666667,
      "grad_norm": 0.8028587102890015,
      "learning_rate": 1.3489006994850671e-05,
      "loss": 3.255,
      "step": 414980
    },
    {
      "epoch": 0.8645625,
      "grad_norm": 0.9448115229606628,
      "learning_rate": 1.3484921437882018e-05,
      "loss": 3.3744,
      "step": 414990
    },
    {
      "epoch": 0.8645833333333334,
      "grad_norm": 0.9434217214584351,
      "learning_rate": 1.3480836470604461e-05,
      "loss": 3.2801,
      "step": 415000
    },
    {
      "epoch": 0.8645833333333334,
      "eval_loss": 4.0293684005737305,
      "eval_runtime": 9.4933,
      "eval_samples_per_second": 1.053,
      "eval_steps_per_second": 0.316,
      "step": 415000
    },
    {
      "epoch": 0.8646041666666666,
      "grad_norm": 0.9984036684036255,
      "learning_rate": 1.3476752093035653e-05,
      "loss": 3.2584,
      "step": 415010
    },
    {
      "epoch": 0.864625,
      "grad_norm": 0.8853250741958618,
      "learning_rate": 1.347266830519323e-05,
      "loss": 3.3464,
      "step": 415020
    },
    {
      "epoch": 0.8646458333333333,
      "grad_norm": 0.9278931617736816,
      "learning_rate": 1.3468585107094842e-05,
      "loss": 3.0913,
      "step": 415030
    },
    {
      "epoch": 0.8646666666666667,
      "grad_norm": 1.011984944343567,
      "learning_rate": 1.346450249875813e-05,
      "loss": 3.3606,
      "step": 415040
    },
    {
      "epoch": 0.8646875,
      "grad_norm": 0.9554116725921631,
      "learning_rate": 1.3460420480200724e-05,
      "loss": 3.4312,
      "step": 415050
    },
    {
      "epoch": 0.8647083333333333,
      "grad_norm": 0.9758755564689636,
      "learning_rate": 1.3456339051440245e-05,
      "loss": 3.3773,
      "step": 415060
    },
    {
      "epoch": 0.8647291666666667,
      "grad_norm": 1.0297492742538452,
      "learning_rate": 1.3452258212494332e-05,
      "loss": 3.2083,
      "step": 415070
    },
    {
      "epoch": 0.86475,
      "grad_norm": 0.8998156189918518,
      "learning_rate": 1.3448177963380619e-05,
      "loss": 3.2618,
      "step": 415080
    },
    {
      "epoch": 0.8647708333333334,
      "grad_norm": 0.9244309067726135,
      "learning_rate": 1.3444098304116741e-05,
      "loss": 3.383,
      "step": 415090
    },
    {
      "epoch": 0.8647916666666666,
      "grad_norm": 0.9742933511734009,
      "learning_rate": 1.3440019234720284e-05,
      "loss": 3.3812,
      "step": 415100
    },
    {
      "epoch": 0.8648125,
      "grad_norm": 0.8196019530296326,
      "learning_rate": 1.3435940755208935e-05,
      "loss": 3.412,
      "step": 415110
    },
    {
      "epoch": 0.8648333333333333,
      "grad_norm": 0.9658882021903992,
      "learning_rate": 1.3431862865600196e-05,
      "loss": 3.2008,
      "step": 415120
    },
    {
      "epoch": 0.8648541666666667,
      "grad_norm": 1.0053386688232422,
      "learning_rate": 1.3427785565911819e-05,
      "loss": 3.1578,
      "step": 415130
    },
    {
      "epoch": 0.864875,
      "grad_norm": 0.9829089045524597,
      "learning_rate": 1.3423708856161308e-05,
      "loss": 3.3029,
      "step": 415140
    },
    {
      "epoch": 0.8648958333333333,
      "grad_norm": 0.9474571347236633,
      "learning_rate": 1.3419632736366297e-05,
      "loss": 3.2784,
      "step": 415150
    },
    {
      "epoch": 0.8649166666666667,
      "grad_norm": 1.0196336507797241,
      "learning_rate": 1.3415557206544459e-05,
      "loss": 3.227,
      "step": 415160
    },
    {
      "epoch": 0.8649375,
      "grad_norm": 0.8886761665344238,
      "learning_rate": 1.3411482266713325e-05,
      "loss": 3.2168,
      "step": 415170
    },
    {
      "epoch": 0.8649583333333334,
      "grad_norm": 1.073064923286438,
      "learning_rate": 1.34074079168905e-05,
      "loss": 3.4,
      "step": 415180
    },
    {
      "epoch": 0.8649791666666666,
      "grad_norm": 0.8793472051620483,
      "learning_rate": 1.3403334157093653e-05,
      "loss": 3.3471,
      "step": 415190
    },
    {
      "epoch": 0.865,
      "grad_norm": 1.0309422016143799,
      "learning_rate": 1.3399260987340304e-05,
      "loss": 3.3011,
      "step": 415200
    },
    {
      "epoch": 0.8650208333333333,
      "grad_norm": 0.9081389307975769,
      "learning_rate": 1.3395188407648056e-05,
      "loss": 3.3719,
      "step": 415210
    },
    {
      "epoch": 0.8650416666666667,
      "grad_norm": 0.8712488412857056,
      "learning_rate": 1.3391116418034575e-05,
      "loss": 3.2423,
      "step": 415220
    },
    {
      "epoch": 0.8650625,
      "grad_norm": 0.9843816757202148,
      "learning_rate": 1.3387045018517384e-05,
      "loss": 3.4199,
      "step": 415230
    },
    {
      "epoch": 0.8650833333333333,
      "grad_norm": 0.9370156526565552,
      "learning_rate": 1.3382974209114033e-05,
      "loss": 3.3826,
      "step": 415240
    },
    {
      "epoch": 0.8651041666666667,
      "grad_norm": 0.9198037385940552,
      "learning_rate": 1.3378903989842228e-05,
      "loss": 3.2776,
      "step": 415250
    },
    {
      "epoch": 0.865125,
      "grad_norm": 0.8767856955528259,
      "learning_rate": 1.3374834360719449e-05,
      "loss": 3.1987,
      "step": 415260
    },
    {
      "epoch": 0.8651458333333333,
      "grad_norm": 0.9017828106880188,
      "learning_rate": 1.3370765321763305e-05,
      "loss": 3.3418,
      "step": 415270
    },
    {
      "epoch": 0.8651666666666666,
      "grad_norm": 0.8421855568885803,
      "learning_rate": 1.3366696872991362e-05,
      "loss": 3.1673,
      "step": 415280
    },
    {
      "epoch": 0.8651875,
      "grad_norm": 0.9093286991119385,
      "learning_rate": 1.3362629014421223e-05,
      "loss": 3.3236,
      "step": 415290
    },
    {
      "epoch": 0.8652083333333334,
      "grad_norm": 0.8750469088554382,
      "learning_rate": 1.3358561746070423e-05,
      "loss": 3.2889,
      "step": 415300
    },
    {
      "epoch": 0.8652291666666667,
      "grad_norm": 0.9368340373039246,
      "learning_rate": 1.3354495067956566e-05,
      "loss": 3.3754,
      "step": 415310
    },
    {
      "epoch": 0.86525,
      "grad_norm": 0.9297963380813599,
      "learning_rate": 1.3350428980097188e-05,
      "loss": 3.2896,
      "step": 415320
    },
    {
      "epoch": 0.8652708333333333,
      "grad_norm": 0.9559040069580078,
      "learning_rate": 1.3346363482509876e-05,
      "loss": 3.2868,
      "step": 415330
    },
    {
      "epoch": 0.8652916666666667,
      "grad_norm": 0.8825442790985107,
      "learning_rate": 1.3342298575212179e-05,
      "loss": 3.3506,
      "step": 415340
    },
    {
      "epoch": 0.8653125,
      "grad_norm": 0.9503673911094666,
      "learning_rate": 1.333823425822167e-05,
      "loss": 3.2373,
      "step": 415350
    },
    {
      "epoch": 0.8653333333333333,
      "grad_norm": 0.8482322096824646,
      "learning_rate": 1.3334170531555882e-05,
      "loss": 3.2385,
      "step": 415360
    },
    {
      "epoch": 0.8653541666666666,
      "grad_norm": 0.8867946267127991,
      "learning_rate": 1.3330107395232387e-05,
      "loss": 3.2364,
      "step": 415370
    },
    {
      "epoch": 0.865375,
      "grad_norm": 0.8978540301322937,
      "learning_rate": 1.3326044849268736e-05,
      "loss": 3.3123,
      "step": 415380
    },
    {
      "epoch": 0.8653958333333334,
      "grad_norm": 0.9653271436691284,
      "learning_rate": 1.3321982893682465e-05,
      "loss": 3.313,
      "step": 415390
    },
    {
      "epoch": 0.8654166666666666,
      "grad_norm": 0.9860028028488159,
      "learning_rate": 1.3317921528491126e-05,
      "loss": 3.3359,
      "step": 415400
    },
    {
      "epoch": 0.8654375,
      "grad_norm": 0.9660003781318665,
      "learning_rate": 1.3313860753712258e-05,
      "loss": 3.2985,
      "step": 415410
    },
    {
      "epoch": 0.8654583333333333,
      "grad_norm": 0.9395172595977783,
      "learning_rate": 1.3309800569363444e-05,
      "loss": 3.3716,
      "step": 415420
    },
    {
      "epoch": 0.8654791666666667,
      "grad_norm": 0.9152044057846069,
      "learning_rate": 1.330574097546212e-05,
      "loss": 3.2944,
      "step": 415430
    },
    {
      "epoch": 0.8655,
      "grad_norm": 1.0089548826217651,
      "learning_rate": 1.3301681972025925e-05,
      "loss": 3.4299,
      "step": 415440
    },
    {
      "epoch": 0.8655208333333333,
      "grad_norm": 0.9154258966445923,
      "learning_rate": 1.329762355907239e-05,
      "loss": 3.4712,
      "step": 415450
    },
    {
      "epoch": 0.8655416666666667,
      "grad_norm": 0.93166583776474,
      "learning_rate": 1.3293565736618938e-05,
      "loss": 3.3422,
      "step": 415460
    },
    {
      "epoch": 0.8655625,
      "grad_norm": 1.0447068214416504,
      "learning_rate": 1.3289508504683205e-05,
      "loss": 3.3958,
      "step": 415470
    },
    {
      "epoch": 0.8655833333333334,
      "grad_norm": 0.8790192008018494,
      "learning_rate": 1.328545186328271e-05,
      "loss": 3.2828,
      "step": 415480
    },
    {
      "epoch": 0.8656041666666666,
      "grad_norm": 0.8555981516838074,
      "learning_rate": 1.3281395812434886e-05,
      "loss": 3.3727,
      "step": 415490
    },
    {
      "epoch": 0.865625,
      "grad_norm": 0.89532071352005,
      "learning_rate": 1.327734035215739e-05,
      "loss": 3.2361,
      "step": 415500
    },
    {
      "epoch": 0.8656458333333333,
      "grad_norm": 0.9897014498710632,
      "learning_rate": 1.3273285482467622e-05,
      "loss": 3.3324,
      "step": 415510
    },
    {
      "epoch": 0.8656666666666667,
      "grad_norm": 0.9769577383995056,
      "learning_rate": 1.3269231203383119e-05,
      "loss": 3.2448,
      "step": 415520
    },
    {
      "epoch": 0.8656875,
      "grad_norm": 1.042807936668396,
      "learning_rate": 1.3265177514921466e-05,
      "loss": 3.3599,
      "step": 415530
    },
    {
      "epoch": 0.8657083333333333,
      "grad_norm": 0.9687469601631165,
      "learning_rate": 1.3261124417100084e-05,
      "loss": 3.3834,
      "step": 415540
    },
    {
      "epoch": 0.8657291666666667,
      "grad_norm": 0.9231772422790527,
      "learning_rate": 1.3257071909936507e-05,
      "loss": 3.3864,
      "step": 415550
    },
    {
      "epoch": 0.86575,
      "grad_norm": 0.9938895106315613,
      "learning_rate": 1.3253019993448305e-05,
      "loss": 3.3868,
      "step": 415560
    },
    {
      "epoch": 0.8657708333333334,
      "grad_norm": 0.8746855854988098,
      "learning_rate": 1.3248968667652898e-05,
      "loss": 3.1947,
      "step": 415570
    },
    {
      "epoch": 0.8657916666666666,
      "grad_norm": 0.8984413146972656,
      "learning_rate": 1.3244917932567788e-05,
      "loss": 3.2796,
      "step": 415580
    },
    {
      "epoch": 0.8658125,
      "grad_norm": 0.9412203431129456,
      "learning_rate": 1.3240867788210563e-05,
      "loss": 3.4453,
      "step": 415590
    },
    {
      "epoch": 0.8658333333333333,
      "grad_norm": 1.0254896879196167,
      "learning_rate": 1.3236818234598624e-05,
      "loss": 3.3326,
      "step": 415600
    },
    {
      "epoch": 0.8658541666666667,
      "grad_norm": 1.0142959356307983,
      "learning_rate": 1.3232769271749472e-05,
      "loss": 3.329,
      "step": 415610
    },
    {
      "epoch": 0.865875,
      "grad_norm": 0.9554171562194824,
      "learning_rate": 1.3228720899680679e-05,
      "loss": 3.3552,
      "step": 415620
    },
    {
      "epoch": 0.8658958333333333,
      "grad_norm": 0.8941788077354431,
      "learning_rate": 1.322467311840963e-05,
      "loss": 3.306,
      "step": 415630
    },
    {
      "epoch": 0.8659166666666667,
      "grad_norm": 0.8780674934387207,
      "learning_rate": 1.3220625927953859e-05,
      "loss": 3.3687,
      "step": 415640
    },
    {
      "epoch": 0.8659375,
      "grad_norm": 0.9982718229293823,
      "learning_rate": 1.3216579328330856e-05,
      "loss": 3.3702,
      "step": 415650
    },
    {
      "epoch": 0.8659583333333334,
      "grad_norm": 0.8687008619308472,
      "learning_rate": 1.3212533319558071e-05,
      "loss": 3.3127,
      "step": 415660
    },
    {
      "epoch": 0.8659791666666666,
      "grad_norm": 0.9488338232040405,
      "learning_rate": 1.3208487901653008e-05,
      "loss": 3.3232,
      "step": 415670
    },
    {
      "epoch": 0.866,
      "grad_norm": 0.9365277886390686,
      "learning_rate": 1.3204443074633136e-05,
      "loss": 3.237,
      "step": 415680
    },
    {
      "epoch": 0.8660208333333334,
      "grad_norm": 1.00057852268219,
      "learning_rate": 1.3200398838515908e-05,
      "loss": 3.3502,
      "step": 415690
    },
    {
      "epoch": 0.8660416666666667,
      "grad_norm": 1.0045746564865112,
      "learning_rate": 1.3196355193318826e-05,
      "loss": 3.3118,
      "step": 415700
    },
    {
      "epoch": 0.8660625,
      "grad_norm": 0.9153136610984802,
      "learning_rate": 1.3192312139059325e-05,
      "loss": 3.283,
      "step": 415710
    },
    {
      "epoch": 0.8660833333333333,
      "grad_norm": 1.1779335737228394,
      "learning_rate": 1.3188269675754892e-05,
      "loss": 3.3274,
      "step": 415720
    },
    {
      "epoch": 0.8661041666666667,
      "grad_norm": 0.8842315077781677,
      "learning_rate": 1.3184227803422963e-05,
      "loss": 3.3007,
      "step": 415730
    },
    {
      "epoch": 0.866125,
      "grad_norm": 0.9450229406356812,
      "learning_rate": 1.3180186522081027e-05,
      "loss": 3.2422,
      "step": 415740
    },
    {
      "epoch": 0.8661458333333333,
      "grad_norm": 0.8336546421051025,
      "learning_rate": 1.3176145831746532e-05,
      "loss": 3.2264,
      "step": 415750
    },
    {
      "epoch": 0.8661666666666666,
      "grad_norm": 0.8810592889785767,
      "learning_rate": 1.317210573243695e-05,
      "loss": 3.533,
      "step": 415760
    },
    {
      "epoch": 0.8661875,
      "grad_norm": 0.8285347819328308,
      "learning_rate": 1.3168066224169665e-05,
      "loss": 3.2123,
      "step": 415770
    },
    {
      "epoch": 0.8662083333333334,
      "grad_norm": 0.9090907573699951,
      "learning_rate": 1.3164027306962182e-05,
      "loss": 3.2979,
      "step": 415780
    },
    {
      "epoch": 0.8662291666666667,
      "grad_norm": 0.858833372592926,
      "learning_rate": 1.3159988980831988e-05,
      "loss": 3.2318,
      "step": 415790
    },
    {
      "epoch": 0.86625,
      "grad_norm": 0.9080284833908081,
      "learning_rate": 1.3155951245796398e-05,
      "loss": 3.3502,
      "step": 415800
    },
    {
      "epoch": 0.8662708333333333,
      "grad_norm": 0.9157121777534485,
      "learning_rate": 1.3151914101872985e-05,
      "loss": 3.4165,
      "step": 415810
    },
    {
      "epoch": 0.8662916666666667,
      "grad_norm": 0.9645477533340454,
      "learning_rate": 1.3147877549079134e-05,
      "loss": 3.4385,
      "step": 415820
    },
    {
      "epoch": 0.8663125,
      "grad_norm": 0.8659422397613525,
      "learning_rate": 1.3143841587432246e-05,
      "loss": 3.4513,
      "step": 415830
    },
    {
      "epoch": 0.8663333333333333,
      "grad_norm": 1.1757465600967407,
      "learning_rate": 1.313980621694981e-05,
      "loss": 3.2748,
      "step": 415840
    },
    {
      "epoch": 0.8663541666666666,
      "grad_norm": 0.9483975172042847,
      "learning_rate": 1.3135771437649279e-05,
      "loss": 3.2782,
      "step": 415850
    },
    {
      "epoch": 0.866375,
      "grad_norm": 0.8862847685813904,
      "learning_rate": 1.313173724954797e-05,
      "loss": 3.2731,
      "step": 415860
    },
    {
      "epoch": 0.8663958333333334,
      "grad_norm": 0.8961704969406128,
      "learning_rate": 1.3127703652663434e-05,
      "loss": 3.3745,
      "step": 415870
    },
    {
      "epoch": 0.8664166666666666,
      "grad_norm": 0.9497511386871338,
      "learning_rate": 1.312367064701303e-05,
      "loss": 3.3722,
      "step": 415880
    },
    {
      "epoch": 0.8664375,
      "grad_norm": 0.8819893002510071,
      "learning_rate": 1.3119638232614154e-05,
      "loss": 3.4341,
      "step": 415890
    },
    {
      "epoch": 0.8664583333333333,
      "grad_norm": 0.8900219798088074,
      "learning_rate": 1.3115606409484314e-05,
      "loss": 3.3123,
      "step": 415900
    },
    {
      "epoch": 0.8664791666666667,
      "grad_norm": 0.8708232045173645,
      "learning_rate": 1.3111575177640827e-05,
      "loss": 3.2793,
      "step": 415910
    },
    {
      "epoch": 0.8665,
      "grad_norm": 0.9164153933525085,
      "learning_rate": 1.3107544537101144e-05,
      "loss": 3.4556,
      "step": 415920
    },
    {
      "epoch": 0.8665208333333333,
      "grad_norm": 0.9167661070823669,
      "learning_rate": 1.3103514487882738e-05,
      "loss": 3.2466,
      "step": 415930
    },
    {
      "epoch": 0.8665416666666667,
      "grad_norm": 0.9707700610160828,
      "learning_rate": 1.3099485030002926e-05,
      "loss": 3.4247,
      "step": 415940
    },
    {
      "epoch": 0.8665625,
      "grad_norm": 0.8750565052032471,
      "learning_rate": 1.3095456163479129e-05,
      "loss": 3.2332,
      "step": 415950
    },
    {
      "epoch": 0.8665833333333334,
      "grad_norm": 1.0806063413619995,
      "learning_rate": 1.3091427888328814e-05,
      "loss": 3.3813,
      "step": 415960
    },
    {
      "epoch": 0.8666041666666666,
      "grad_norm": 0.9220053553581238,
      "learning_rate": 1.308740020456932e-05,
      "loss": 3.2939,
      "step": 415970
    },
    {
      "epoch": 0.866625,
      "grad_norm": 0.9955006241798401,
      "learning_rate": 1.3083373112218049e-05,
      "loss": 3.4348,
      "step": 415980
    },
    {
      "epoch": 0.8666458333333333,
      "grad_norm": 0.981425940990448,
      "learning_rate": 1.3079346611292436e-05,
      "loss": 3.3403,
      "step": 415990
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 0.8612378239631653,
      "learning_rate": 1.307532070180985e-05,
      "loss": 3.4429,
      "step": 416000
    },
    {
      "epoch": 0.8666666666666667,
      "eval_loss": 4.029803276062012,
      "eval_runtime": 9.3991,
      "eval_samples_per_second": 1.064,
      "eval_steps_per_second": 0.319,
      "step": 416000
    },
    {
      "epoch": 0.8666875,
      "grad_norm": 0.8859725594520569,
      "learning_rate": 1.3071295383787661e-05,
      "loss": 3.3309,
      "step": 416010
    },
    {
      "epoch": 0.8667083333333333,
      "grad_norm": 0.918495237827301,
      "learning_rate": 1.306727065724329e-05,
      "loss": 3.3302,
      "step": 416020
    },
    {
      "epoch": 0.8667291666666667,
      "grad_norm": 0.9613009095191956,
      "learning_rate": 1.3063246522194087e-05,
      "loss": 3.3496,
      "step": 416030
    },
    {
      "epoch": 0.86675,
      "grad_norm": 1.067611575126648,
      "learning_rate": 1.3059222978657475e-05,
      "loss": 3.3659,
      "step": 416040
    },
    {
      "epoch": 0.8667708333333334,
      "grad_norm": 0.9493352174758911,
      "learning_rate": 1.3055200026650802e-05,
      "loss": 3.3512,
      "step": 416050
    },
    {
      "epoch": 0.8667916666666666,
      "grad_norm": 0.8458285927772522,
      "learning_rate": 1.3051177666191476e-05,
      "loss": 3.188,
      "step": 416060
    },
    {
      "epoch": 0.8668125,
      "grad_norm": 0.8808125853538513,
      "learning_rate": 1.3047155897296829e-05,
      "loss": 3.3479,
      "step": 416070
    },
    {
      "epoch": 0.8668333333333333,
      "grad_norm": 0.8624593615531921,
      "learning_rate": 1.3043134719984284e-05,
      "loss": 3.3354,
      "step": 416080
    },
    {
      "epoch": 0.8668541666666667,
      "grad_norm": 0.8736845850944519,
      "learning_rate": 1.3039114134271172e-05,
      "loss": 3.4065,
      "step": 416090
    },
    {
      "epoch": 0.866875,
      "grad_norm": 0.8849251866340637,
      "learning_rate": 1.3035094140174868e-05,
      "loss": 3.2899,
      "step": 416100
    },
    {
      "epoch": 0.8668958333333333,
      "grad_norm": 0.9091044664382935,
      "learning_rate": 1.3031074737712754e-05,
      "loss": 3.311,
      "step": 416110
    },
    {
      "epoch": 0.8669166666666667,
      "grad_norm": 0.8571170568466187,
      "learning_rate": 1.3027055926902186e-05,
      "loss": 3.1925,
      "step": 416120
    },
    {
      "epoch": 0.8669375,
      "grad_norm": 0.8938393592834473,
      "learning_rate": 1.302303770776053e-05,
      "loss": 3.2769,
      "step": 416130
    },
    {
      "epoch": 0.8669583333333334,
      "grad_norm": 0.8192761540412903,
      "learning_rate": 1.3019020080305093e-05,
      "loss": 3.3198,
      "step": 416140
    },
    {
      "epoch": 0.8669791666666666,
      "grad_norm": 0.9440276622772217,
      "learning_rate": 1.301500304455329e-05,
      "loss": 3.3492,
      "step": 416150
    },
    {
      "epoch": 0.867,
      "grad_norm": 0.9350035190582275,
      "learning_rate": 1.3010986600522478e-05,
      "loss": 3.2232,
      "step": 416160
    },
    {
      "epoch": 0.8670208333333334,
      "grad_norm": 0.9579013586044312,
      "learning_rate": 1.3006970748229922e-05,
      "loss": 3.2383,
      "step": 416170
    },
    {
      "epoch": 0.8670416666666667,
      "grad_norm": 1.057202696800232,
      "learning_rate": 1.3002955487693063e-05,
      "loss": 3.355,
      "step": 416180
    },
    {
      "epoch": 0.8670625,
      "grad_norm": 0.9170066118240356,
      "learning_rate": 1.2998940818929215e-05,
      "loss": 3.4031,
      "step": 416190
    },
    {
      "epoch": 0.8670833333333333,
      "grad_norm": 0.986427903175354,
      "learning_rate": 1.2994926741955685e-05,
      "loss": 3.3273,
      "step": 416200
    },
    {
      "epoch": 0.8671041666666667,
      "grad_norm": 0.9957655072212219,
      "learning_rate": 1.299091325678986e-05,
      "loss": 3.2163,
      "step": 416210
    },
    {
      "epoch": 0.867125,
      "grad_norm": 0.8535170555114746,
      "learning_rate": 1.298690036344907e-05,
      "loss": 3.228,
      "step": 416220
    },
    {
      "epoch": 0.8671458333333333,
      "grad_norm": 0.8193522691726685,
      "learning_rate": 1.2982888061950609e-05,
      "loss": 3.3718,
      "step": 416230
    },
    {
      "epoch": 0.8671666666666666,
      "grad_norm": 0.8919802904129028,
      "learning_rate": 1.297887635231184e-05,
      "loss": 3.3631,
      "step": 416240
    },
    {
      "epoch": 0.8671875,
      "grad_norm": 0.9367939829826355,
      "learning_rate": 1.2974865234550136e-05,
      "loss": 3.2127,
      "step": 416250
    },
    {
      "epoch": 0.8672083333333334,
      "grad_norm": 0.9317852258682251,
      "learning_rate": 1.2970854708682698e-05,
      "loss": 3.3172,
      "step": 416260
    },
    {
      "epoch": 0.8672291666666667,
      "grad_norm": 0.9337208271026611,
      "learning_rate": 1.2966844774726997e-05,
      "loss": 3.2758,
      "step": 416270
    },
    {
      "epoch": 0.86725,
      "grad_norm": 0.8614266514778137,
      "learning_rate": 1.2962835432700269e-05,
      "loss": 3.3112,
      "step": 416280
    },
    {
      "epoch": 0.8672708333333333,
      "grad_norm": 0.9227311015129089,
      "learning_rate": 1.2958826682619834e-05,
      "loss": 3.3594,
      "step": 416290
    },
    {
      "epoch": 0.8672916666666667,
      "grad_norm": 0.885577380657196,
      "learning_rate": 1.2954818524503024e-05,
      "loss": 3.2591,
      "step": 416300
    },
    {
      "epoch": 0.8673125,
      "grad_norm": 0.8718514442443848,
      "learning_rate": 1.2950810958367146e-05,
      "loss": 3.4387,
      "step": 416310
    },
    {
      "epoch": 0.8673333333333333,
      "grad_norm": 0.8416198492050171,
      "learning_rate": 1.2946803984229521e-05,
      "loss": 3.2879,
      "step": 416320
    },
    {
      "epoch": 0.8673541666666666,
      "grad_norm": 0.877499520778656,
      "learning_rate": 1.2942797602107463e-05,
      "loss": 3.281,
      "step": 416330
    },
    {
      "epoch": 0.867375,
      "grad_norm": 0.9558711647987366,
      "learning_rate": 1.2938791812018263e-05,
      "loss": 3.3797,
      "step": 416340
    },
    {
      "epoch": 0.8673958333333334,
      "grad_norm": 0.8887619376182556,
      "learning_rate": 1.293478661397922e-05,
      "loss": 3.2891,
      "step": 416350
    },
    {
      "epoch": 0.8674166666666666,
      "grad_norm": 0.9892974495887756,
      "learning_rate": 1.2930782008007657e-05,
      "loss": 3.2448,
      "step": 416360
    },
    {
      "epoch": 0.8674375,
      "grad_norm": 0.8472349643707275,
      "learning_rate": 1.2926777994120857e-05,
      "loss": 3.3343,
      "step": 416370
    },
    {
      "epoch": 0.8674583333333333,
      "grad_norm": 0.8431563973426819,
      "learning_rate": 1.2922774572336108e-05,
      "loss": 3.3257,
      "step": 416380
    },
    {
      "epoch": 0.8674791666666667,
      "grad_norm": 0.8408195972442627,
      "learning_rate": 1.291877174267073e-05,
      "loss": 3.3047,
      "step": 416390
    },
    {
      "epoch": 0.8675,
      "grad_norm": 0.8649152517318726,
      "learning_rate": 1.2914769505141992e-05,
      "loss": 3.4159,
      "step": 416400
    },
    {
      "epoch": 0.8675208333333333,
      "grad_norm": 1.1148573160171509,
      "learning_rate": 1.291076785976718e-05,
      "loss": 3.3859,
      "step": 416410
    },
    {
      "epoch": 0.8675416666666667,
      "grad_norm": 1.1815094947814941,
      "learning_rate": 1.2906766806563595e-05,
      "loss": 3.3105,
      "step": 416420
    },
    {
      "epoch": 0.8675625,
      "grad_norm": 0.9162148237228394,
      "learning_rate": 1.290276634554851e-05,
      "loss": 3.2951,
      "step": 416430
    },
    {
      "epoch": 0.8675833333333334,
      "grad_norm": 0.8567878603935242,
      "learning_rate": 1.2898766476739209e-05,
      "loss": 3.3657,
      "step": 416440
    },
    {
      "epoch": 0.8676041666666666,
      "grad_norm": 0.928178608417511,
      "learning_rate": 1.2894767200152978e-05,
      "loss": 3.37,
      "step": 416450
    },
    {
      "epoch": 0.867625,
      "grad_norm": 0.9110236167907715,
      "learning_rate": 1.289076851580707e-05,
      "loss": 3.3122,
      "step": 416460
    },
    {
      "epoch": 0.8676458333333333,
      "grad_norm": 0.9086153507232666,
      "learning_rate": 1.2886770423718774e-05,
      "loss": 3.3042,
      "step": 416470
    },
    {
      "epoch": 0.8676666666666667,
      "grad_norm": 1.0073446035385132,
      "learning_rate": 1.2882772923905354e-05,
      "loss": 3.4413,
      "step": 416480
    },
    {
      "epoch": 0.8676875,
      "grad_norm": 0.9918051958084106,
      "learning_rate": 1.2878776016384084e-05,
      "loss": 3.3215,
      "step": 416490
    },
    {
      "epoch": 0.8677083333333333,
      "grad_norm": 0.9107540845870972,
      "learning_rate": 1.2874779701172249e-05,
      "loss": 3.3762,
      "step": 416500
    },
    {
      "epoch": 0.8677291666666667,
      "grad_norm": 1.027500033378601,
      "learning_rate": 1.2870783978287036e-05,
      "loss": 3.2808,
      "step": 416510
    },
    {
      "epoch": 0.86775,
      "grad_norm": 0.8586277365684509,
      "learning_rate": 1.2866788847745779e-05,
      "loss": 3.2953,
      "step": 416520
    },
    {
      "epoch": 0.8677708333333334,
      "grad_norm": 0.9540216326713562,
      "learning_rate": 1.2862794309565733e-05,
      "loss": 3.2544,
      "step": 416530
    },
    {
      "epoch": 0.8677916666666666,
      "grad_norm": 0.8486348390579224,
      "learning_rate": 1.28588003637641e-05,
      "loss": 3.2258,
      "step": 416540
    },
    {
      "epoch": 0.8678125,
      "grad_norm": 0.8908677101135254,
      "learning_rate": 1.2854807010358181e-05,
      "loss": 3.1903,
      "step": 416550
    },
    {
      "epoch": 0.8678333333333333,
      "grad_norm": 0.9785041809082031,
      "learning_rate": 1.2850814249365231e-05,
      "loss": 3.3275,
      "step": 416560
    },
    {
      "epoch": 0.8678541666666667,
      "grad_norm": 0.9120123386383057,
      "learning_rate": 1.2846822080802438e-05,
      "loss": 3.2938,
      "step": 416570
    },
    {
      "epoch": 0.867875,
      "grad_norm": 0.8874004483222961,
      "learning_rate": 1.2842830504687101e-05,
      "loss": 3.2697,
      "step": 416580
    },
    {
      "epoch": 0.8678958333333333,
      "grad_norm": 0.9318050742149353,
      "learning_rate": 1.283883952103646e-05,
      "loss": 3.3838,
      "step": 416590
    },
    {
      "epoch": 0.8679166666666667,
      "grad_norm": 1.0322819948196411,
      "learning_rate": 1.283484912986773e-05,
      "loss": 3.2037,
      "step": 416600
    },
    {
      "epoch": 0.8679375,
      "grad_norm": 0.8862630128860474,
      "learning_rate": 1.2830859331198135e-05,
      "loss": 3.3639,
      "step": 416610
    },
    {
      "epoch": 0.8679583333333334,
      "grad_norm": 0.9662190079689026,
      "learning_rate": 1.2826870125044974e-05,
      "loss": 3.3752,
      "step": 416620
    },
    {
      "epoch": 0.8679791666666666,
      "grad_norm": 0.8550382852554321,
      "learning_rate": 1.282288151142542e-05,
      "loss": 3.3971,
      "step": 416630
    },
    {
      "epoch": 0.868,
      "grad_norm": 1.0037065744400024,
      "learning_rate": 1.2818893490356707e-05,
      "loss": 3.3327,
      "step": 416640
    },
    {
      "epoch": 0.8680208333333334,
      "grad_norm": 0.8226780295372009,
      "learning_rate": 1.281490606185609e-05,
      "loss": 3.3582,
      "step": 416650
    },
    {
      "epoch": 0.8680416666666667,
      "grad_norm": 0.8537465929985046,
      "learning_rate": 1.2810919225940768e-05,
      "loss": 3.3606,
      "step": 416660
    },
    {
      "epoch": 0.8680625,
      "grad_norm": 0.9649222493171692,
      "learning_rate": 1.2806932982627965e-05,
      "loss": 3.3016,
      "step": 416670
    },
    {
      "epoch": 0.8680833333333333,
      "grad_norm": 0.9553518295288086,
      "learning_rate": 1.2802947331934915e-05,
      "loss": 3.2668,
      "step": 416680
    },
    {
      "epoch": 0.8681041666666667,
      "grad_norm": 0.9136705994606018,
      "learning_rate": 1.2798962273878822e-05,
      "loss": 3.2333,
      "step": 416690
    },
    {
      "epoch": 0.868125,
      "grad_norm": 0.8899170160293579,
      "learning_rate": 1.279497780847692e-05,
      "loss": 3.3216,
      "step": 416700
    },
    {
      "epoch": 0.8681458333333333,
      "grad_norm": 0.8794779777526855,
      "learning_rate": 1.279099393574638e-05,
      "loss": 3.3541,
      "step": 416710
    },
    {
      "epoch": 0.8681666666666666,
      "grad_norm": 0.8453952670097351,
      "learning_rate": 1.2787010655704454e-05,
      "loss": 3.34,
      "step": 416720
    },
    {
      "epoch": 0.8681875,
      "grad_norm": 0.9473769068717957,
      "learning_rate": 1.2783027968368315e-05,
      "loss": 3.4507,
      "step": 416730
    },
    {
      "epoch": 0.8682083333333334,
      "grad_norm": 0.9092108011245728,
      "learning_rate": 1.2779045873755194e-05,
      "loss": 3.3405,
      "step": 416740
    },
    {
      "epoch": 0.8682291666666667,
      "grad_norm": 0.9436666965484619,
      "learning_rate": 1.2775064371882266e-05,
      "loss": 3.3,
      "step": 416750
    },
    {
      "epoch": 0.86825,
      "grad_norm": 0.9532052874565125,
      "learning_rate": 1.2771083462766763e-05,
      "loss": 3.3093,
      "step": 416760
    },
    {
      "epoch": 0.8682708333333333,
      "grad_norm": 0.8653039336204529,
      "learning_rate": 1.2767103146425839e-05,
      "loss": 3.3983,
      "step": 416770
    },
    {
      "epoch": 0.8682916666666667,
      "grad_norm": 0.9043494462966919,
      "learning_rate": 1.2763123422876714e-05,
      "loss": 3.4819,
      "step": 416780
    },
    {
      "epoch": 0.8683125,
      "grad_norm": 0.884335458278656,
      "learning_rate": 1.2759144292136574e-05,
      "loss": 3.2575,
      "step": 416790
    },
    {
      "epoch": 0.8683333333333333,
      "grad_norm": 0.9045892953872681,
      "learning_rate": 1.2755165754222624e-05,
      "loss": 3.2922,
      "step": 416800
    },
    {
      "epoch": 0.8683541666666666,
      "grad_norm": 0.8468255996704102,
      "learning_rate": 1.2751187809152013e-05,
      "loss": 3.3502,
      "step": 416810
    },
    {
      "epoch": 0.868375,
      "grad_norm": 0.8935129642486572,
      "learning_rate": 1.2747210456941947e-05,
      "loss": 3.341,
      "step": 416820
    },
    {
      "epoch": 0.8683958333333334,
      "grad_norm": 1.116747260093689,
      "learning_rate": 1.2743233697609612e-05,
      "loss": 3.3095,
      "step": 416830
    },
    {
      "epoch": 0.8684166666666666,
      "grad_norm": 0.8625553846359253,
      "learning_rate": 1.273925753117216e-05,
      "loss": 3.2759,
      "step": 416840
    },
    {
      "epoch": 0.8684375,
      "grad_norm": 0.8681895136833191,
      "learning_rate": 1.2735281957646793e-05,
      "loss": 3.414,
      "step": 416850
    },
    {
      "epoch": 0.8684583333333333,
      "grad_norm": 0.9028452634811401,
      "learning_rate": 1.2731306977050681e-05,
      "loss": 3.4493,
      "step": 416860
    },
    {
      "epoch": 0.8684791666666667,
      "grad_norm": 1.009190559387207,
      "learning_rate": 1.2727332589401012e-05,
      "loss": 3.3272,
      "step": 416870
    },
    {
      "epoch": 0.8685,
      "grad_norm": 0.9724252223968506,
      "learning_rate": 1.2723358794714905e-05,
      "loss": 3.4638,
      "step": 416880
    },
    {
      "epoch": 0.8685208333333333,
      "grad_norm": 0.8871845006942749,
      "learning_rate": 1.2719385593009512e-05,
      "loss": 3.184,
      "step": 416890
    },
    {
      "epoch": 0.8685416666666667,
      "grad_norm": 0.9628865122795105,
      "learning_rate": 1.2715412984302104e-05,
      "loss": 3.3503,
      "step": 416900
    },
    {
      "epoch": 0.8685625,
      "grad_norm": 0.8839403390884399,
      "learning_rate": 1.2711440968609732e-05,
      "loss": 3.4138,
      "step": 416910
    },
    {
      "epoch": 0.8685833333333334,
      "grad_norm": 0.921872079372406,
      "learning_rate": 1.2707469545949567e-05,
      "loss": 3.2383,
      "step": 416920
    },
    {
      "epoch": 0.8686041666666666,
      "grad_norm": 0.9193345308303833,
      "learning_rate": 1.2703498716338844e-05,
      "loss": 3.3558,
      "step": 416930
    },
    {
      "epoch": 0.868625,
      "grad_norm": 0.8381980657577515,
      "learning_rate": 1.2699528479794634e-05,
      "loss": 3.1934,
      "step": 416940
    },
    {
      "epoch": 0.8686458333333333,
      "grad_norm": 0.8650227785110474,
      "learning_rate": 1.269555883633409e-05,
      "loss": 3.2781,
      "step": 416950
    },
    {
      "epoch": 0.8686666666666667,
      "grad_norm": 0.9623699188232422,
      "learning_rate": 1.2691589785974432e-05,
      "loss": 3.3774,
      "step": 416960
    },
    {
      "epoch": 0.8686875,
      "grad_norm": 0.8584555983543396,
      "learning_rate": 1.2687621328732744e-05,
      "loss": 3.3841,
      "step": 416970
    },
    {
      "epoch": 0.8687083333333333,
      "grad_norm": 0.9016307592391968,
      "learning_rate": 1.2683653464626132e-05,
      "loss": 3.3185,
      "step": 416980
    },
    {
      "epoch": 0.8687291666666667,
      "grad_norm": 0.8973815441131592,
      "learning_rate": 1.2679686193671845e-05,
      "loss": 3.3936,
      "step": 416990
    },
    {
      "epoch": 0.86875,
      "grad_norm": 0.9626555442810059,
      "learning_rate": 1.267571951588694e-05,
      "loss": 3.4543,
      "step": 417000
    },
    {
      "epoch": 0.86875,
      "eval_loss": 4.026240348815918,
      "eval_runtime": 9.113,
      "eval_samples_per_second": 1.097,
      "eval_steps_per_second": 0.329,
      "step": 417000
    },
    {
      "epoch": 0.8687708333333334,
      "grad_norm": 0.8501762747764587,
      "learning_rate": 1.267175343128855e-05,
      "loss": 3.2712,
      "step": 417010
    },
    {
      "epoch": 0.8687916666666666,
      "grad_norm": 0.8908589482307434,
      "learning_rate": 1.2667787939893847e-05,
      "loss": 3.232,
      "step": 417020
    },
    {
      "epoch": 0.8688125,
      "grad_norm": 0.8665461540222168,
      "learning_rate": 1.2663823041719934e-05,
      "loss": 3.3565,
      "step": 417030
    },
    {
      "epoch": 0.8688333333333333,
      "grad_norm": 0.8791587352752686,
      "learning_rate": 1.2659858736783946e-05,
      "loss": 3.24,
      "step": 417040
    },
    {
      "epoch": 0.8688541666666667,
      "grad_norm": 0.9222468733787537,
      "learning_rate": 1.2655895025103002e-05,
      "loss": 3.3504,
      "step": 417050
    },
    {
      "epoch": 0.868875,
      "grad_norm": 0.8845358490943909,
      "learning_rate": 1.2651931906694224e-05,
      "loss": 3.2863,
      "step": 417060
    },
    {
      "epoch": 0.8688958333333333,
      "grad_norm": 0.9171793460845947,
      "learning_rate": 1.264796938157473e-05,
      "loss": 3.3223,
      "step": 417070
    },
    {
      "epoch": 0.8689166666666667,
      "grad_norm": 0.9052973389625549,
      "learning_rate": 1.2644007449761656e-05,
      "loss": 3.2548,
      "step": 417080
    },
    {
      "epoch": 0.8689375,
      "grad_norm": 0.9362566471099854,
      "learning_rate": 1.264004611127209e-05,
      "loss": 3.2113,
      "step": 417090
    },
    {
      "epoch": 0.8689583333333334,
      "grad_norm": 0.8939321041107178,
      "learning_rate": 1.263608536612315e-05,
      "loss": 3.3193,
      "step": 417100
    },
    {
      "epoch": 0.8689791666666666,
      "grad_norm": 1.021173357963562,
      "learning_rate": 1.2632125214331956e-05,
      "loss": 3.4579,
      "step": 417110
    },
    {
      "epoch": 0.869,
      "grad_norm": 0.9597458243370056,
      "learning_rate": 1.2628165655915612e-05,
      "loss": 3.3634,
      "step": 417120
    },
    {
      "epoch": 0.8690208333333334,
      "grad_norm": 1.0447173118591309,
      "learning_rate": 1.2624206690891204e-05,
      "loss": 3.3067,
      "step": 417130
    },
    {
      "epoch": 0.8690416666666667,
      "grad_norm": 1.0086443424224854,
      "learning_rate": 1.262024831927585e-05,
      "loss": 3.3007,
      "step": 417140
    },
    {
      "epoch": 0.8690625,
      "grad_norm": 1.0051506757736206,
      "learning_rate": 1.2616290541086655e-05,
      "loss": 3.3275,
      "step": 417150
    },
    {
      "epoch": 0.8690833333333333,
      "grad_norm": 0.9359279870986938,
      "learning_rate": 1.261233335634072e-05,
      "loss": 3.2435,
      "step": 417160
    },
    {
      "epoch": 0.8691041666666667,
      "grad_norm": 0.8747330904006958,
      "learning_rate": 1.2608376765055068e-05,
      "loss": 3.4045,
      "step": 417170
    },
    {
      "epoch": 0.869125,
      "grad_norm": 1.1927640438079834,
      "learning_rate": 1.2604420767246881e-05,
      "loss": 3.247,
      "step": 417180
    },
    {
      "epoch": 0.8691458333333333,
      "grad_norm": 0.9167889356613159,
      "learning_rate": 1.2600465362933231e-05,
      "loss": 3.3418,
      "step": 417190
    },
    {
      "epoch": 0.8691666666666666,
      "grad_norm": 0.936646044254303,
      "learning_rate": 1.259651055213114e-05,
      "loss": 3.3213,
      "step": 417200
    },
    {
      "epoch": 0.8691875,
      "grad_norm": 0.8631662726402283,
      "learning_rate": 1.2592556334857757e-05,
      "loss": 3.2539,
      "step": 417210
    },
    {
      "epoch": 0.8692083333333334,
      "grad_norm": 1.027299165725708,
      "learning_rate": 1.2588602711130152e-05,
      "loss": 3.3619,
      "step": 417220
    },
    {
      "epoch": 0.8692291666666667,
      "grad_norm": 0.8336063027381897,
      "learning_rate": 1.2584649680965364e-05,
      "loss": 3.2423,
      "step": 417230
    },
    {
      "epoch": 0.86925,
      "grad_norm": 0.9933956861495972,
      "learning_rate": 1.2580697244380511e-05,
      "loss": 3.3734,
      "step": 417240
    },
    {
      "epoch": 0.8692708333333333,
      "grad_norm": 0.9415614008903503,
      "learning_rate": 1.2576745401392679e-05,
      "loss": 3.3736,
      "step": 417250
    },
    {
      "epoch": 0.8692916666666667,
      "grad_norm": 0.8938773274421692,
      "learning_rate": 1.2572794152018856e-05,
      "loss": 3.4148,
      "step": 417260
    },
    {
      "epoch": 0.8693125,
      "grad_norm": 0.9136589169502258,
      "learning_rate": 1.2568843496276226e-05,
      "loss": 3.3342,
      "step": 417270
    },
    {
      "epoch": 0.8693333333333333,
      "grad_norm": 0.8841398358345032,
      "learning_rate": 1.2564893434181762e-05,
      "loss": 3.4686,
      "step": 417280
    },
    {
      "epoch": 0.8693541666666667,
      "grad_norm": 0.8195738792419434,
      "learning_rate": 1.2560943965752529e-05,
      "loss": 3.2939,
      "step": 417290
    },
    {
      "epoch": 0.869375,
      "grad_norm": 1.0570263862609863,
      "learning_rate": 1.2556995091005667e-05,
      "loss": 3.391,
      "step": 417300
    },
    {
      "epoch": 0.8693958333333334,
      "grad_norm": 0.8505844473838806,
      "learning_rate": 1.2553046809958162e-05,
      "loss": 3.3506,
      "step": 417310
    },
    {
      "epoch": 0.8694166666666666,
      "grad_norm": 0.8454286456108093,
      "learning_rate": 1.2549099122627049e-05,
      "loss": 3.3971,
      "step": 417320
    },
    {
      "epoch": 0.8694375,
      "grad_norm": 1.013386607170105,
      "learning_rate": 1.2545152029029481e-05,
      "loss": 3.4503,
      "step": 417330
    },
    {
      "epoch": 0.8694583333333333,
      "grad_norm": 0.8770570158958435,
      "learning_rate": 1.254120552918243e-05,
      "loss": 3.298,
      "step": 417340
    },
    {
      "epoch": 0.8694791666666667,
      "grad_norm": 0.9343573451042175,
      "learning_rate": 1.253725962310293e-05,
      "loss": 3.3005,
      "step": 417350
    },
    {
      "epoch": 0.8695,
      "grad_norm": 0.9404030442237854,
      "learning_rate": 1.2533314310808117e-05,
      "loss": 3.3705,
      "step": 417360
    },
    {
      "epoch": 0.8695208333333333,
      "grad_norm": 0.9188410639762878,
      "learning_rate": 1.252936959231493e-05,
      "loss": 3.3643,
      "step": 417370
    },
    {
      "epoch": 0.8695416666666667,
      "grad_norm": 0.9172703623771667,
      "learning_rate": 1.252542546764047e-05,
      "loss": 3.313,
      "step": 417380
    },
    {
      "epoch": 0.8695625,
      "grad_norm": 0.8863224983215332,
      "learning_rate": 1.2521481936801741e-05,
      "loss": 3.2999,
      "step": 417390
    },
    {
      "epoch": 0.8695833333333334,
      "grad_norm": 0.9202490448951721,
      "learning_rate": 1.2517538999815796e-05,
      "loss": 3.3394,
      "step": 417400
    },
    {
      "epoch": 0.8696041666666666,
      "grad_norm": 0.9216828942298889,
      "learning_rate": 1.2513596656699671e-05,
      "loss": 3.2907,
      "step": 417410
    },
    {
      "epoch": 0.869625,
      "grad_norm": 0.8644475340843201,
      "learning_rate": 1.2509654907470385e-05,
      "loss": 3.369,
      "step": 417420
    },
    {
      "epoch": 0.8696458333333333,
      "grad_norm": 0.8818796277046204,
      "learning_rate": 1.2505713752144957e-05,
      "loss": 3.3718,
      "step": 417430
    },
    {
      "epoch": 0.8696666666666667,
      "grad_norm": 0.9088193774223328,
      "learning_rate": 1.2501773190740428e-05,
      "loss": 3.451,
      "step": 417440
    },
    {
      "epoch": 0.8696875,
      "grad_norm": 1.1138463020324707,
      "learning_rate": 1.2497833223273812e-05,
      "loss": 3.2359,
      "step": 417450
    },
    {
      "epoch": 0.8697083333333333,
      "grad_norm": 0.9673191905021667,
      "learning_rate": 1.2493893849762131e-05,
      "loss": 3.3201,
      "step": 417460
    },
    {
      "epoch": 0.8697291666666667,
      "grad_norm": 0.8666940331459045,
      "learning_rate": 1.2489955070222407e-05,
      "loss": 3.1886,
      "step": 417470
    },
    {
      "epoch": 0.86975,
      "grad_norm": 0.8635453581809998,
      "learning_rate": 1.248601688467164e-05,
      "loss": 3.2874,
      "step": 417480
    },
    {
      "epoch": 0.8697708333333334,
      "grad_norm": 0.9671840667724609,
      "learning_rate": 1.2482079293126833e-05,
      "loss": 3.3321,
      "step": 417490
    },
    {
      "epoch": 0.8697916666666666,
      "grad_norm": 0.8566207885742188,
      "learning_rate": 1.247814229560506e-05,
      "loss": 3.3629,
      "step": 417500
    },
    {
      "epoch": 0.8698125,
      "grad_norm": 0.9584859609603882,
      "learning_rate": 1.2474205892123218e-05,
      "loss": 3.1991,
      "step": 417510
    },
    {
      "epoch": 0.8698333333333333,
      "grad_norm": 0.933299720287323,
      "learning_rate": 1.2470270082698398e-05,
      "loss": 3.252,
      "step": 417520
    },
    {
      "epoch": 0.8698541666666667,
      "grad_norm": 1.137161135673523,
      "learning_rate": 1.2466334867347599e-05,
      "loss": 3.3738,
      "step": 417530
    },
    {
      "epoch": 0.869875,
      "grad_norm": 0.8957718014717102,
      "learning_rate": 1.2462400246087728e-05,
      "loss": 3.2189,
      "step": 417540
    },
    {
      "epoch": 0.8698958333333333,
      "grad_norm": 0.9055410623550415,
      "learning_rate": 1.2458466218935887e-05,
      "loss": 3.1465,
      "step": 417550
    },
    {
      "epoch": 0.8699166666666667,
      "grad_norm": 0.9558637738227844,
      "learning_rate": 1.2454532785909044e-05,
      "loss": 3.4322,
      "step": 417560
    },
    {
      "epoch": 0.8699375,
      "grad_norm": 0.9351374506950378,
      "learning_rate": 1.2450599947024138e-05,
      "loss": 3.3491,
      "step": 417570
    },
    {
      "epoch": 0.8699583333333333,
      "grad_norm": 0.986176609992981,
      "learning_rate": 1.2446667702298219e-05,
      "loss": 3.3999,
      "step": 417580
    },
    {
      "epoch": 0.8699791666666666,
      "grad_norm": 0.9048421382904053,
      "learning_rate": 1.2442736051748259e-05,
      "loss": 3.3308,
      "step": 417590
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8654739260673523,
      "learning_rate": 1.2438804995391194e-05,
      "loss": 3.3137,
      "step": 417600
    },
    {
      "epoch": 0.8700208333333334,
      "grad_norm": 0.9282333850860596,
      "learning_rate": 1.243487453324406e-05,
      "loss": 3.4048,
      "step": 417610
    },
    {
      "epoch": 0.8700416666666667,
      "grad_norm": 1.0271615982055664,
      "learning_rate": 1.2430944665323845e-05,
      "loss": 3.3479,
      "step": 417620
    },
    {
      "epoch": 0.8700625,
      "grad_norm": 0.8367030024528503,
      "learning_rate": 1.2427015391647432e-05,
      "loss": 3.4347,
      "step": 417630
    },
    {
      "epoch": 0.8700833333333333,
      "grad_norm": 0.8668698072433472,
      "learning_rate": 1.2423086712231928e-05,
      "loss": 3.2885,
      "step": 417640
    },
    {
      "epoch": 0.8701041666666667,
      "grad_norm": 1.2221424579620361,
      "learning_rate": 1.2419158627094183e-05,
      "loss": 3.4036,
      "step": 417650
    },
    {
      "epoch": 0.870125,
      "grad_norm": 1.0022677183151245,
      "learning_rate": 1.2415231136251203e-05,
      "loss": 3.2023,
      "step": 417660
    },
    {
      "epoch": 0.8701458333333333,
      "grad_norm": 0.9902697205543518,
      "learning_rate": 1.2411304239720021e-05,
      "loss": 3.4111,
      "step": 417670
    },
    {
      "epoch": 0.8701666666666666,
      "grad_norm": 0.8868106007575989,
      "learning_rate": 1.2407377937517509e-05,
      "loss": 3.3549,
      "step": 417680
    },
    {
      "epoch": 0.8701875,
      "grad_norm": 0.8487545251846313,
      "learning_rate": 1.2403452229660637e-05,
      "loss": 3.2778,
      "step": 417690
    },
    {
      "epoch": 0.8702083333333334,
      "grad_norm": 0.996642529964447,
      "learning_rate": 1.2399527116166441e-05,
      "loss": 3.3065,
      "step": 417700
    },
    {
      "epoch": 0.8702291666666667,
      "grad_norm": 0.9194850921630859,
      "learning_rate": 1.2395602597051807e-05,
      "loss": 3.1848,
      "step": 417710
    },
    {
      "epoch": 0.87025,
      "grad_norm": 0.9064453840255737,
      "learning_rate": 1.2391678672333654e-05,
      "loss": 3.3051,
      "step": 417720
    },
    {
      "epoch": 0.8702708333333333,
      "grad_norm": 0.9828397631645203,
      "learning_rate": 1.2387755342029038e-05,
      "loss": 3.3514,
      "step": 417730
    },
    {
      "epoch": 0.8702916666666667,
      "grad_norm": 0.9263717532157898,
      "learning_rate": 1.2383832606154825e-05,
      "loss": 3.3666,
      "step": 417740
    },
    {
      "epoch": 0.8703125,
      "grad_norm": 0.9777417778968811,
      "learning_rate": 1.2379910464727988e-05,
      "loss": 3.3095,
      "step": 417750
    },
    {
      "epoch": 0.8703333333333333,
      "grad_norm": 0.9197156429290771,
      "learning_rate": 1.2375988917765462e-05,
      "loss": 3.2032,
      "step": 417760
    },
    {
      "epoch": 0.8703541666666667,
      "grad_norm": 0.971655547618866,
      "learning_rate": 1.2372067965284182e-05,
      "loss": 3.4323,
      "step": 417770
    },
    {
      "epoch": 0.870375,
      "grad_norm": 0.9332928657531738,
      "learning_rate": 1.2368147607301105e-05,
      "loss": 3.2876,
      "step": 417780
    },
    {
      "epoch": 0.8703958333333334,
      "grad_norm": 0.8347910642623901,
      "learning_rate": 1.2364227843833146e-05,
      "loss": 3.2881,
      "step": 417790
    },
    {
      "epoch": 0.8704166666666666,
      "grad_norm": 1.0176374912261963,
      "learning_rate": 1.2360308674897229e-05,
      "loss": 3.2712,
      "step": 417800
    },
    {
      "epoch": 0.8704375,
      "grad_norm": 0.8709937334060669,
      "learning_rate": 1.2356390100510322e-05,
      "loss": 3.1567,
      "step": 417810
    },
    {
      "epoch": 0.8704583333333333,
      "grad_norm": 0.8892356157302856,
      "learning_rate": 1.235247212068931e-05,
      "loss": 3.1396,
      "step": 417820
    },
    {
      "epoch": 0.8704791666666667,
      "grad_norm": 0.8279915452003479,
      "learning_rate": 1.2348554735451132e-05,
      "loss": 3.3679,
      "step": 417830
    },
    {
      "epoch": 0.8705,
      "grad_norm": 0.7924716472625732,
      "learning_rate": 1.2344637944812725e-05,
      "loss": 3.1959,
      "step": 417840
    },
    {
      "epoch": 0.8705208333333333,
      "grad_norm": 0.9682709574699402,
      "learning_rate": 1.2340721748790972e-05,
      "loss": 3.5361,
      "step": 417850
    },
    {
      "epoch": 0.8705416666666667,
      "grad_norm": 0.9852749705314636,
      "learning_rate": 1.2336806147402828e-05,
      "loss": 3.4194,
      "step": 417860
    },
    {
      "epoch": 0.8705625,
      "grad_norm": 0.8641023635864258,
      "learning_rate": 1.2332891140665214e-05,
      "loss": 3.2969,
      "step": 417870
    },
    {
      "epoch": 0.8705833333333334,
      "grad_norm": 0.925553023815155,
      "learning_rate": 1.2328976728594964e-05,
      "loss": 3.5597,
      "step": 417880
    },
    {
      "epoch": 0.8706041666666666,
      "grad_norm": 0.9114239811897278,
      "learning_rate": 1.2325062911209065e-05,
      "loss": 3.3248,
      "step": 417890
    },
    {
      "epoch": 0.870625,
      "grad_norm": 0.9967707395553589,
      "learning_rate": 1.232114968852444e-05,
      "loss": 3.4059,
      "step": 417900
    },
    {
      "epoch": 0.8706458333333333,
      "grad_norm": 0.850665271282196,
      "learning_rate": 1.2317237060557873e-05,
      "loss": 3.3069,
      "step": 417910
    },
    {
      "epoch": 0.8706666666666667,
      "grad_norm": 0.9145627021789551,
      "learning_rate": 1.2313325027326382e-05,
      "loss": 3.2769,
      "step": 417920
    },
    {
      "epoch": 0.8706875,
      "grad_norm": 0.9421676993370056,
      "learning_rate": 1.2309413588846856e-05,
      "loss": 3.3533,
      "step": 417930
    },
    {
      "epoch": 0.8707083333333333,
      "grad_norm": 0.9793686270713806,
      "learning_rate": 1.2305502745136115e-05,
      "loss": 3.3795,
      "step": 417940
    },
    {
      "epoch": 0.8707291666666667,
      "grad_norm": 1.028839111328125,
      "learning_rate": 1.230159249621111e-05,
      "loss": 3.3975,
      "step": 417950
    },
    {
      "epoch": 0.87075,
      "grad_norm": 0.8837195038795471,
      "learning_rate": 1.2297682842088763e-05,
      "loss": 3.3168,
      "step": 417960
    },
    {
      "epoch": 0.8707708333333334,
      "grad_norm": 0.8540741205215454,
      "learning_rate": 1.229377378278586e-05,
      "loss": 3.3318,
      "step": 417970
    },
    {
      "epoch": 0.8707916666666666,
      "grad_norm": 0.9293777942657471,
      "learning_rate": 1.2289865318319369e-05,
      "loss": 3.3698,
      "step": 417980
    },
    {
      "epoch": 0.8708125,
      "grad_norm": 0.8475801944732666,
      "learning_rate": 1.228595744870618e-05,
      "loss": 3.1334,
      "step": 417990
    },
    {
      "epoch": 0.8708333333333333,
      "grad_norm": 0.9255877733230591,
      "learning_rate": 1.2282050173963077e-05,
      "loss": 3.3252,
      "step": 418000
    },
    {
      "epoch": 0.8708333333333333,
      "eval_loss": 4.026591777801514,
      "eval_runtime": 9.057,
      "eval_samples_per_second": 1.104,
      "eval_steps_per_second": 0.331,
      "step": 418000
    },
    {
      "epoch": 0.8708541666666667,
      "grad_norm": 0.8760936260223389,
      "learning_rate": 1.227814349410708e-05,
      "loss": 3.3625,
      "step": 418010
    },
    {
      "epoch": 0.870875,
      "grad_norm": 0.856867790222168,
      "learning_rate": 1.2274237409154942e-05,
      "loss": 3.3481,
      "step": 418020
    },
    {
      "epoch": 0.8708958333333333,
      "grad_norm": 0.8762417435646057,
      "learning_rate": 1.2270331919123566e-05,
      "loss": 3.299,
      "step": 418030
    },
    {
      "epoch": 0.8709166666666667,
      "grad_norm": 0.9383173584938049,
      "learning_rate": 1.2266427024029907e-05,
      "loss": 3.2281,
      "step": 418040
    },
    {
      "epoch": 0.8709375,
      "grad_norm": 0.9022029042243958,
      "learning_rate": 1.2262522723890716e-05,
      "loss": 3.3319,
      "step": 418050
    },
    {
      "epoch": 0.8709583333333333,
      "grad_norm": 0.9143997430801392,
      "learning_rate": 1.2258619018722915e-05,
      "loss": 3.3616,
      "step": 418060
    },
    {
      "epoch": 0.8709791666666666,
      "grad_norm": 0.8694013953208923,
      "learning_rate": 1.2254715908543356e-05,
      "loss": 3.3805,
      "step": 418070
    },
    {
      "epoch": 0.871,
      "grad_norm": 1.1266127824783325,
      "learning_rate": 1.2250813393368908e-05,
      "loss": 3.3645,
      "step": 418080
    },
    {
      "epoch": 0.8710208333333334,
      "grad_norm": 0.9444018602371216,
      "learning_rate": 1.224691147321641e-05,
      "loss": 3.3141,
      "step": 418090
    },
    {
      "epoch": 0.8710416666666667,
      "grad_norm": 0.9543774724006653,
      "learning_rate": 1.2243010148102727e-05,
      "loss": 3.4678,
      "step": 418100
    },
    {
      "epoch": 0.8710625,
      "grad_norm": 0.8888171911239624,
      "learning_rate": 1.2239109418044718e-05,
      "loss": 3.4228,
      "step": 418110
    },
    {
      "epoch": 0.8710833333333333,
      "grad_norm": 0.8779789805412292,
      "learning_rate": 1.2235209283059233e-05,
      "loss": 3.3263,
      "step": 418120
    },
    {
      "epoch": 0.8711041666666667,
      "grad_norm": 0.8576496839523315,
      "learning_rate": 1.2231309743163108e-05,
      "loss": 3.2899,
      "step": 418130
    },
    {
      "epoch": 0.871125,
      "grad_norm": 0.8758989572525024,
      "learning_rate": 1.22274107983732e-05,
      "loss": 3.1415,
      "step": 418140
    },
    {
      "epoch": 0.8711458333333333,
      "grad_norm": 1.1116020679473877,
      "learning_rate": 1.2223512448706324e-05,
      "loss": 3.3705,
      "step": 418150
    },
    {
      "epoch": 0.8711666666666666,
      "grad_norm": 0.9968195557594299,
      "learning_rate": 1.2219614694179352e-05,
      "loss": 3.2615,
      "step": 418160
    },
    {
      "epoch": 0.8711875,
      "grad_norm": 0.9195261001586914,
      "learning_rate": 1.2215717534809105e-05,
      "loss": 3.4806,
      "step": 418170
    },
    {
      "epoch": 0.8712083333333334,
      "grad_norm": 0.8794392347335815,
      "learning_rate": 1.2211820970612419e-05,
      "loss": 3.3284,
      "step": 418180
    },
    {
      "epoch": 0.8712291666666667,
      "grad_norm": 0.8306825757026672,
      "learning_rate": 1.2207925001606127e-05,
      "loss": 3.1694,
      "step": 418190
    },
    {
      "epoch": 0.87125,
      "grad_norm": 0.8464546799659729,
      "learning_rate": 1.2204029627807054e-05,
      "loss": 3.3933,
      "step": 418200
    },
    {
      "epoch": 0.8712708333333333,
      "grad_norm": 0.9639231562614441,
      "learning_rate": 1.2200134849232034e-05,
      "loss": 3.3228,
      "step": 418210
    },
    {
      "epoch": 0.8712916666666667,
      "grad_norm": 1.0184166431427002,
      "learning_rate": 1.2196240665897889e-05,
      "loss": 3.3275,
      "step": 418220
    },
    {
      "epoch": 0.8713125,
      "grad_norm": 0.9090571999549866,
      "learning_rate": 1.2192347077821435e-05,
      "loss": 3.345,
      "step": 418230
    },
    {
      "epoch": 0.8713333333333333,
      "grad_norm": 0.9048311710357666,
      "learning_rate": 1.2188454085019478e-05,
      "loss": 3.3927,
      "step": 418240
    },
    {
      "epoch": 0.8713541666666667,
      "grad_norm": 0.8650519847869873,
      "learning_rate": 1.2184561687508871e-05,
      "loss": 3.3108,
      "step": 418250
    },
    {
      "epoch": 0.871375,
      "grad_norm": 0.9911454916000366,
      "learning_rate": 1.2180669885306399e-05,
      "loss": 3.3591,
      "step": 418260
    },
    {
      "epoch": 0.8713958333333334,
      "grad_norm": 1.0143303871154785,
      "learning_rate": 1.21767786784289e-05,
      "loss": 3.3897,
      "step": 418270
    },
    {
      "epoch": 0.8714166666666666,
      "grad_norm": 0.9034553170204163,
      "learning_rate": 1.2172888066893126e-05,
      "loss": 3.2781,
      "step": 418280
    },
    {
      "epoch": 0.8714375,
      "grad_norm": 0.8626359701156616,
      "learning_rate": 1.2168998050715933e-05,
      "loss": 3.2453,
      "step": 418290
    },
    {
      "epoch": 0.8714583333333333,
      "grad_norm": 0.9332521557807922,
      "learning_rate": 1.2165108629914139e-05,
      "loss": 3.3542,
      "step": 418300
    },
    {
      "epoch": 0.8714791666666667,
      "grad_norm": 0.9851740002632141,
      "learning_rate": 1.2161219804504463e-05,
      "loss": 3.3563,
      "step": 418310
    },
    {
      "epoch": 0.8715,
      "grad_norm": 0.9006169438362122,
      "learning_rate": 1.2157331574503792e-05,
      "loss": 3.3596,
      "step": 418320
    },
    {
      "epoch": 0.8715208333333333,
      "grad_norm": 0.9474412202835083,
      "learning_rate": 1.2153443939928915e-05,
      "loss": 3.3781,
      "step": 418330
    },
    {
      "epoch": 0.8715416666666667,
      "grad_norm": 0.9786456227302551,
      "learning_rate": 1.2149556900796547e-05,
      "loss": 3.4445,
      "step": 418340
    },
    {
      "epoch": 0.8715625,
      "grad_norm": 0.9551665186882019,
      "learning_rate": 1.214567045712353e-05,
      "loss": 3.2762,
      "step": 418350
    },
    {
      "epoch": 0.8715833333333334,
      "grad_norm": 0.8880124092102051,
      "learning_rate": 1.214178460892668e-05,
      "loss": 3.4049,
      "step": 418360
    },
    {
      "epoch": 0.8716041666666666,
      "grad_norm": 0.973536491394043,
      "learning_rate": 1.2137899356222735e-05,
      "loss": 3.3579,
      "step": 418370
    },
    {
      "epoch": 0.871625,
      "grad_norm": 0.9088783264160156,
      "learning_rate": 1.21340146990285e-05,
      "loss": 3.1179,
      "step": 418380
    },
    {
      "epoch": 0.8716458333333333,
      "grad_norm": 0.9585227370262146,
      "learning_rate": 1.2130130637360757e-05,
      "loss": 3.315,
      "step": 418390
    },
    {
      "epoch": 0.8716666666666667,
      "grad_norm": 0.8624446988105774,
      "learning_rate": 1.2126247171236265e-05,
      "loss": 3.3194,
      "step": 418400
    },
    {
      "epoch": 0.8716875,
      "grad_norm": 0.9994344115257263,
      "learning_rate": 1.2122364300671805e-05,
      "loss": 3.2718,
      "step": 418410
    },
    {
      "epoch": 0.8717083333333333,
      "grad_norm": 1.065278172492981,
      "learning_rate": 1.2118482025684167e-05,
      "loss": 3.3363,
      "step": 418420
    },
    {
      "epoch": 0.8717291666666667,
      "grad_norm": 0.9649592041969299,
      "learning_rate": 1.2114600346290104e-05,
      "loss": 3.2953,
      "step": 418430
    },
    {
      "epoch": 0.87175,
      "grad_norm": 1.019421100616455,
      "learning_rate": 1.2110719262506403e-05,
      "loss": 3.3511,
      "step": 418440
    },
    {
      "epoch": 0.8717708333333334,
      "grad_norm": 0.9719187021255493,
      "learning_rate": 1.2106838774349797e-05,
      "loss": 3.2261,
      "step": 418450
    },
    {
      "epoch": 0.8717916666666666,
      "grad_norm": 0.9140286445617676,
      "learning_rate": 1.2102958881837076e-05,
      "loss": 3.4017,
      "step": 418460
    },
    {
      "epoch": 0.8718125,
      "grad_norm": 0.9465994238853455,
      "learning_rate": 1.2099079584984977e-05,
      "loss": 3.3368,
      "step": 418470
    },
    {
      "epoch": 0.8718333333333333,
      "grad_norm": 1.0218347311019897,
      "learning_rate": 1.2095200883810285e-05,
      "loss": 3.2839,
      "step": 418480
    },
    {
      "epoch": 0.8718541666666667,
      "grad_norm": 0.8552094101905823,
      "learning_rate": 1.2091322778329721e-05,
      "loss": 3.2848,
      "step": 418490
    },
    {
      "epoch": 0.871875,
      "grad_norm": 0.8843907713890076,
      "learning_rate": 1.208744526856007e-05,
      "loss": 3.3836,
      "step": 418500
    },
    {
      "epoch": 0.8718958333333333,
      "grad_norm": 0.8782050609588623,
      "learning_rate": 1.2083568354518052e-05,
      "loss": 3.3233,
      "step": 418510
    },
    {
      "epoch": 0.8719166666666667,
      "grad_norm": 0.8581669926643372,
      "learning_rate": 1.207969203622044e-05,
      "loss": 3.3355,
      "step": 418520
    },
    {
      "epoch": 0.8719375,
      "grad_norm": 0.9620727896690369,
      "learning_rate": 1.2075816313683967e-05,
      "loss": 3.3255,
      "step": 418530
    },
    {
      "epoch": 0.8719583333333333,
      "grad_norm": 1.0113427639007568,
      "learning_rate": 1.2071941186925354e-05,
      "loss": 3.3965,
      "step": 418540
    },
    {
      "epoch": 0.8719791666666666,
      "grad_norm": 0.9714967608451843,
      "learning_rate": 1.2068066655961372e-05,
      "loss": 3.3722,
      "step": 418550
    },
    {
      "epoch": 0.872,
      "grad_norm": 0.8265007138252258,
      "learning_rate": 1.2064192720808757e-05,
      "loss": 3.2996,
      "step": 418560
    },
    {
      "epoch": 0.8720208333333334,
      "grad_norm": 0.96104496717453,
      "learning_rate": 1.2060319381484213e-05,
      "loss": 3.3016,
      "step": 418570
    },
    {
      "epoch": 0.8720416666666667,
      "grad_norm": 0.9472646713256836,
      "learning_rate": 1.205644663800449e-05,
      "loss": 3.3043,
      "step": 418580
    },
    {
      "epoch": 0.8720625,
      "grad_norm": 0.8684751391410828,
      "learning_rate": 1.205257449038633e-05,
      "loss": 3.265,
      "step": 418590
    },
    {
      "epoch": 0.8720833333333333,
      "grad_norm": 0.9613684415817261,
      "learning_rate": 1.2048702938646432e-05,
      "loss": 3.3887,
      "step": 418600
    },
    {
      "epoch": 0.8721041666666667,
      "grad_norm": 0.870825469493866,
      "learning_rate": 1.2044831982801534e-05,
      "loss": 3.2861,
      "step": 418610
    },
    {
      "epoch": 0.872125,
      "grad_norm": 0.909577488899231,
      "learning_rate": 1.2040961622868356e-05,
      "loss": 3.3719,
      "step": 418620
    },
    {
      "epoch": 0.8721458333333333,
      "grad_norm": 0.9249967932701111,
      "learning_rate": 1.2037091858863618e-05,
      "loss": 3.2655,
      "step": 418630
    },
    {
      "epoch": 0.8721666666666666,
      "grad_norm": 0.8744245171546936,
      "learning_rate": 1.2033222690804056e-05,
      "loss": 3.2692,
      "step": 418640
    },
    {
      "epoch": 0.8721875,
      "grad_norm": 0.9135447144508362,
      "learning_rate": 1.2029354118706341e-05,
      "loss": 3.3417,
      "step": 418650
    },
    {
      "epoch": 0.8722083333333334,
      "grad_norm": 0.9187390208244324,
      "learning_rate": 1.2025486142587177e-05,
      "loss": 3.3311,
      "step": 418660
    },
    {
      "epoch": 0.8722291666666667,
      "grad_norm": 0.8293079137802124,
      "learning_rate": 1.2021618762463348e-05,
      "loss": 3.3962,
      "step": 418670
    },
    {
      "epoch": 0.87225,
      "grad_norm": 0.8944874405860901,
      "learning_rate": 1.2017751978351475e-05,
      "loss": 3.212,
      "step": 418680
    },
    {
      "epoch": 0.8722708333333333,
      "grad_norm": 0.8624376654624939,
      "learning_rate": 1.201388579026828e-05,
      "loss": 3.1894,
      "step": 418690
    },
    {
      "epoch": 0.8722916666666667,
      "grad_norm": 0.9871164560317993,
      "learning_rate": 1.201002019823053e-05,
      "loss": 3.2873,
      "step": 418700
    },
    {
      "epoch": 0.8723125,
      "grad_norm": 1.139952540397644,
      "learning_rate": 1.2006155202254846e-05,
      "loss": 3.1483,
      "step": 418710
    },
    {
      "epoch": 0.8723333333333333,
      "grad_norm": 0.8667632937431335,
      "learning_rate": 1.2002290802357934e-05,
      "loss": 3.3158,
      "step": 418720
    },
    {
      "epoch": 0.8723541666666667,
      "grad_norm": 1.0193901062011719,
      "learning_rate": 1.1998426998556543e-05,
      "loss": 3.3396,
      "step": 418730
    },
    {
      "epoch": 0.872375,
      "grad_norm": 0.8438540697097778,
      "learning_rate": 1.1994563790867296e-05,
      "loss": 3.4059,
      "step": 418740
    },
    {
      "epoch": 0.8723958333333334,
      "grad_norm": 0.8756232261657715,
      "learning_rate": 1.1990701179306895e-05,
      "loss": 3.3896,
      "step": 418750
    },
    {
      "epoch": 0.8724166666666666,
      "grad_norm": 0.9918276071548462,
      "learning_rate": 1.1986839163892076e-05,
      "loss": 3.3258,
      "step": 418760
    },
    {
      "epoch": 0.8724375,
      "grad_norm": 0.8522899150848389,
      "learning_rate": 1.198297774463946e-05,
      "loss": 3.3273,
      "step": 418770
    },
    {
      "epoch": 0.8724583333333333,
      "grad_norm": 0.9769870638847351,
      "learning_rate": 1.1979116921565752e-05,
      "loss": 3.3472,
      "step": 418780
    },
    {
      "epoch": 0.8724791666666667,
      "grad_norm": 0.9539784789085388,
      "learning_rate": 1.1975256694687619e-05,
      "loss": 3.2887,
      "step": 418790
    },
    {
      "epoch": 0.8725,
      "grad_norm": 0.9422597885131836,
      "learning_rate": 1.1971397064021749e-05,
      "loss": 3.4481,
      "step": 418800
    },
    {
      "epoch": 0.8725208333333333,
      "grad_norm": 0.9651722311973572,
      "learning_rate": 1.1967538029584795e-05,
      "loss": 3.3552,
      "step": 418810
    },
    {
      "epoch": 0.8725416666666667,
      "grad_norm": 0.9644333720207214,
      "learning_rate": 1.196367959139346e-05,
      "loss": 3.3286,
      "step": 418820
    },
    {
      "epoch": 0.8725625,
      "grad_norm": 0.8903180360794067,
      "learning_rate": 1.1959821749464382e-05,
      "loss": 3.2708,
      "step": 418830
    },
    {
      "epoch": 0.8725833333333334,
      "grad_norm": 0.9444581270217896,
      "learning_rate": 1.195596450381423e-05,
      "loss": 3.3725,
      "step": 418840
    },
    {
      "epoch": 0.8726041666666666,
      "grad_norm": 0.852096676826477,
      "learning_rate": 1.1952107854459676e-05,
      "loss": 3.3585,
      "step": 418850
    },
    {
      "epoch": 0.872625,
      "grad_norm": 0.9352052211761475,
      "learning_rate": 1.1948251801417368e-05,
      "loss": 3.2607,
      "step": 418860
    },
    {
      "epoch": 0.8726458333333333,
      "grad_norm": 0.8988687992095947,
      "learning_rate": 1.1944396344703965e-05,
      "loss": 3.2833,
      "step": 418870
    },
    {
      "epoch": 0.8726666666666667,
      "grad_norm": 1.360838532447815,
      "learning_rate": 1.1940541484336135e-05,
      "loss": 3.2575,
      "step": 418880
    },
    {
      "epoch": 0.8726875,
      "grad_norm": 1.1111912727355957,
      "learning_rate": 1.1936687220330498e-05,
      "loss": 3.3438,
      "step": 418890
    },
    {
      "epoch": 0.8727083333333333,
      "grad_norm": 0.9819286465644836,
      "learning_rate": 1.193283355270374e-05,
      "loss": 3.3887,
      "step": 418900
    },
    {
      "epoch": 0.8727291666666667,
      "grad_norm": 0.8679108023643494,
      "learning_rate": 1.1928980481472483e-05,
      "loss": 3.447,
      "step": 418910
    },
    {
      "epoch": 0.87275,
      "grad_norm": 0.9257659316062927,
      "learning_rate": 1.1925128006653395e-05,
      "loss": 3.3551,
      "step": 418920
    },
    {
      "epoch": 0.8727708333333334,
      "grad_norm": 0.9333348870277405,
      "learning_rate": 1.1921276128263112e-05,
      "loss": 3.3536,
      "step": 418930
    },
    {
      "epoch": 0.8727916666666666,
      "grad_norm": 0.9321014285087585,
      "learning_rate": 1.1917424846318208e-05,
      "loss": 3.2201,
      "step": 418940
    },
    {
      "epoch": 0.8728125,
      "grad_norm": 0.8484694361686707,
      "learning_rate": 1.1913574160835398e-05,
      "loss": 3.2936,
      "step": 418950
    },
    {
      "epoch": 0.8728333333333333,
      "grad_norm": 1.055446982383728,
      "learning_rate": 1.1909724071831306e-05,
      "loss": 3.3537,
      "step": 418960
    },
    {
      "epoch": 0.8728541666666667,
      "grad_norm": 0.9038081169128418,
      "learning_rate": 1.1905874579322517e-05,
      "loss": 3.3694,
      "step": 418970
    },
    {
      "epoch": 0.872875,
      "grad_norm": 0.9317293763160706,
      "learning_rate": 1.19020256833257e-05,
      "loss": 3.3571,
      "step": 418980
    },
    {
      "epoch": 0.8728958333333333,
      "grad_norm": 0.8973261117935181,
      "learning_rate": 1.1898177383857493e-05,
      "loss": 3.299,
      "step": 418990
    },
    {
      "epoch": 0.8729166666666667,
      "grad_norm": 0.9343116283416748,
      "learning_rate": 1.189432968093445e-05,
      "loss": 3.3625,
      "step": 419000
    },
    {
      "epoch": 0.8729166666666667,
      "eval_loss": 4.024571418762207,
      "eval_runtime": 8.653,
      "eval_samples_per_second": 1.156,
      "eval_steps_per_second": 0.347,
      "step": 419000
    },
    {
      "epoch": 0.8729375,
      "grad_norm": 0.898635983467102,
      "learning_rate": 1.189048257457329e-05,
      "loss": 3.3085,
      "step": 419010
    },
    {
      "epoch": 0.8729583333333333,
      "grad_norm": 0.9417799115180969,
      "learning_rate": 1.1886636064790534e-05,
      "loss": 3.389,
      "step": 419020
    },
    {
      "epoch": 0.8729791666666666,
      "grad_norm": 1.0337468385696411,
      "learning_rate": 1.1882790151602833e-05,
      "loss": 3.3466,
      "step": 419030
    },
    {
      "epoch": 0.873,
      "grad_norm": 0.8769568800926208,
      "learning_rate": 1.187894483502686e-05,
      "loss": 3.3466,
      "step": 419040
    },
    {
      "epoch": 0.8730208333333334,
      "grad_norm": 0.9629459381103516,
      "learning_rate": 1.1875100115079134e-05,
      "loss": 3.288,
      "step": 419050
    },
    {
      "epoch": 0.8730416666666667,
      "grad_norm": 1.0627673864364624,
      "learning_rate": 1.187125599177629e-05,
      "loss": 3.3384,
      "step": 419060
    },
    {
      "epoch": 0.8730625,
      "grad_norm": 0.891370415687561,
      "learning_rate": 1.1867412465134984e-05,
      "loss": 3.3961,
      "step": 419070
    },
    {
      "epoch": 0.8730833333333333,
      "grad_norm": 0.9503651857376099,
      "learning_rate": 1.1863569535171768e-05,
      "loss": 3.4885,
      "step": 419080
    },
    {
      "epoch": 0.8731041666666667,
      "grad_norm": 0.8907284736633301,
      "learning_rate": 1.185972720190323e-05,
      "loss": 3.3414,
      "step": 419090
    },
    {
      "epoch": 0.873125,
      "grad_norm": 0.898223340511322,
      "learning_rate": 1.1855885465346022e-05,
      "loss": 3.3111,
      "step": 419100
    },
    {
      "epoch": 0.8731458333333333,
      "grad_norm": 0.9663313031196594,
      "learning_rate": 1.1852044325516696e-05,
      "loss": 3.2905,
      "step": 419110
    },
    {
      "epoch": 0.8731666666666666,
      "grad_norm": 0.8973429799079895,
      "learning_rate": 1.1848203782431826e-05,
      "loss": 3.0945,
      "step": 419120
    },
    {
      "epoch": 0.8731875,
      "grad_norm": 1.0226160287857056,
      "learning_rate": 1.1844363836108079e-05,
      "loss": 3.3729,
      "step": 419130
    },
    {
      "epoch": 0.8732083333333334,
      "grad_norm": 0.8488437533378601,
      "learning_rate": 1.1840524486561975e-05,
      "loss": 3.4588,
      "step": 419140
    },
    {
      "epoch": 0.8732291666666666,
      "grad_norm": 1.1846474409103394,
      "learning_rate": 1.183668573381012e-05,
      "loss": 3.2465,
      "step": 419150
    },
    {
      "epoch": 0.87325,
      "grad_norm": 1.0870460271835327,
      "learning_rate": 1.1832847577869099e-05,
      "loss": 3.428,
      "step": 419160
    },
    {
      "epoch": 0.8732708333333333,
      "grad_norm": 0.8538022041320801,
      "learning_rate": 1.1829010018755463e-05,
      "loss": 3.3803,
      "step": 419170
    },
    {
      "epoch": 0.8732916666666667,
      "grad_norm": 0.8433274626731873,
      "learning_rate": 1.1825173056485836e-05,
      "loss": 3.3436,
      "step": 419180
    },
    {
      "epoch": 0.8733125,
      "grad_norm": 0.8758842945098877,
      "learning_rate": 1.1821336691076755e-05,
      "loss": 3.47,
      "step": 419190
    },
    {
      "epoch": 0.8733333333333333,
      "grad_norm": 0.9128531217575073,
      "learning_rate": 1.1817500922544803e-05,
      "loss": 3.4628,
      "step": 419200
    },
    {
      "epoch": 0.8733541666666667,
      "grad_norm": 0.8270384073257446,
      "learning_rate": 1.1813665750906554e-05,
      "loss": 3.3376,
      "step": 419210
    },
    {
      "epoch": 0.873375,
      "grad_norm": 1.026153802871704,
      "learning_rate": 1.1809831176178575e-05,
      "loss": 3.3777,
      "step": 419220
    },
    {
      "epoch": 0.8733958333333334,
      "grad_norm": 0.847733199596405,
      "learning_rate": 1.180599719837742e-05,
      "loss": 3.3281,
      "step": 419230
    },
    {
      "epoch": 0.8734166666666666,
      "grad_norm": 0.9589976072311401,
      "learning_rate": 1.1802163817519694e-05,
      "loss": 3.3202,
      "step": 419240
    },
    {
      "epoch": 0.8734375,
      "grad_norm": 0.9874561429023743,
      "learning_rate": 1.179833103362185e-05,
      "loss": 3.4082,
      "step": 419250
    },
    {
      "epoch": 0.8734583333333333,
      "grad_norm": 0.9162489175796509,
      "learning_rate": 1.179449884670054e-05,
      "loss": 3.3183,
      "step": 419260
    },
    {
      "epoch": 0.8734791666666667,
      "grad_norm": 1.0221576690673828,
      "learning_rate": 1.1790667256772334e-05,
      "loss": 3.2996,
      "step": 419270
    },
    {
      "epoch": 0.8735,
      "grad_norm": 0.8630713820457458,
      "learning_rate": 1.1786836263853672e-05,
      "loss": 3.279,
      "step": 419280
    },
    {
      "epoch": 0.8735208333333333,
      "grad_norm": 0.9590628147125244,
      "learning_rate": 1.1783005867961187e-05,
      "loss": 3.3792,
      "step": 419290
    },
    {
      "epoch": 0.8735416666666667,
      "grad_norm": 0.9061657190322876,
      "learning_rate": 1.1779176069111451e-05,
      "loss": 3.3525,
      "step": 419300
    },
    {
      "epoch": 0.8735625,
      "grad_norm": 0.9545002579689026,
      "learning_rate": 1.17753468673209e-05,
      "loss": 3.3474,
      "step": 419310
    },
    {
      "epoch": 0.8735833333333334,
      "grad_norm": 0.8666282892227173,
      "learning_rate": 1.1771518262606155e-05,
      "loss": 3.4672,
      "step": 419320
    },
    {
      "epoch": 0.8736041666666666,
      "grad_norm": 1.0582517385482788,
      "learning_rate": 1.176769025498377e-05,
      "loss": 3.4299,
      "step": 419330
    },
    {
      "epoch": 0.873625,
      "grad_norm": 0.8612776398658752,
      "learning_rate": 1.1763862844470195e-05,
      "loss": 3.3478,
      "step": 419340
    },
    {
      "epoch": 0.8736458333333333,
      "grad_norm": 0.8886415362358093,
      "learning_rate": 1.1760036031082055e-05,
      "loss": 3.3158,
      "step": 419350
    },
    {
      "epoch": 0.8736666666666667,
      "grad_norm": 0.9028657078742981,
      "learning_rate": 1.1756209814835848e-05,
      "loss": 3.4179,
      "step": 419360
    },
    {
      "epoch": 0.8736875,
      "grad_norm": 0.9136543273925781,
      "learning_rate": 1.175238419574805e-05,
      "loss": 3.4227,
      "step": 419370
    },
    {
      "epoch": 0.8737083333333333,
      "grad_norm": 1.0503565073013306,
      "learning_rate": 1.1748559173835277e-05,
      "loss": 3.3234,
      "step": 419380
    },
    {
      "epoch": 0.8737291666666667,
      "grad_norm": 0.8592416644096375,
      "learning_rate": 1.1744734749113983e-05,
      "loss": 3.3343,
      "step": 419390
    },
    {
      "epoch": 0.87375,
      "grad_norm": 0.9429386854171753,
      "learning_rate": 1.1740910921600688e-05,
      "loss": 3.2941,
      "step": 419400
    },
    {
      "epoch": 0.8737708333333334,
      "grad_norm": 0.8319576978683472,
      "learning_rate": 1.1737087691311963e-05,
      "loss": 3.2971,
      "step": 419410
    },
    {
      "epoch": 0.8737916666666666,
      "grad_norm": 1.016920804977417,
      "learning_rate": 1.173326505826428e-05,
      "loss": 3.3802,
      "step": 419420
    },
    {
      "epoch": 0.8738125,
      "grad_norm": 0.9568497538566589,
      "learning_rate": 1.1729443022474138e-05,
      "loss": 3.1404,
      "step": 419430
    },
    {
      "epoch": 0.8738333333333334,
      "grad_norm": 0.9624415636062622,
      "learning_rate": 1.1725621583958128e-05,
      "loss": 3.2469,
      "step": 419440
    },
    {
      "epoch": 0.8738541666666667,
      "grad_norm": 0.9532812833786011,
      "learning_rate": 1.1721800742732668e-05,
      "loss": 3.2664,
      "step": 419450
    },
    {
      "epoch": 0.873875,
      "grad_norm": 1.066757321357727,
      "learning_rate": 1.1717980498814261e-05,
      "loss": 3.3207,
      "step": 419460
    },
    {
      "epoch": 0.8738958333333333,
      "grad_norm": 1.2197438478469849,
      "learning_rate": 1.1714160852219495e-05,
      "loss": 3.3752,
      "step": 419470
    },
    {
      "epoch": 0.8739166666666667,
      "grad_norm": 0.8419149518013,
      "learning_rate": 1.171034180296479e-05,
      "loss": 3.2858,
      "step": 419480
    },
    {
      "epoch": 0.8739375,
      "grad_norm": 1.1438082456588745,
      "learning_rate": 1.1706523351066666e-05,
      "loss": 3.3188,
      "step": 419490
    },
    {
      "epoch": 0.8739583333333333,
      "grad_norm": 0.9005630612373352,
      "learning_rate": 1.1702705496541643e-05,
      "loss": 3.3393,
      "step": 419500
    },
    {
      "epoch": 0.8739791666666666,
      "grad_norm": 0.9056373834609985,
      "learning_rate": 1.1698888239406173e-05,
      "loss": 3.3694,
      "step": 419510
    },
    {
      "epoch": 0.874,
      "grad_norm": 1.04864501953125,
      "learning_rate": 1.1695071579676779e-05,
      "loss": 3.2986,
      "step": 419520
    },
    {
      "epoch": 0.8740208333333334,
      "grad_norm": 1.0301374197006226,
      "learning_rate": 1.1691255517369913e-05,
      "loss": 3.3009,
      "step": 419530
    },
    {
      "epoch": 0.8740416666666667,
      "grad_norm": 0.8685756921768188,
      "learning_rate": 1.1687440052502079e-05,
      "loss": 3.4415,
      "step": 419540
    },
    {
      "epoch": 0.8740625,
      "grad_norm": 0.9253591299057007,
      "learning_rate": 1.1683625185089761e-05,
      "loss": 3.2678,
      "step": 419550
    },
    {
      "epoch": 0.8740833333333333,
      "grad_norm": 1.0136743783950806,
      "learning_rate": 1.1679810915149435e-05,
      "loss": 3.3075,
      "step": 419560
    },
    {
      "epoch": 0.8741041666666667,
      "grad_norm": 0.9633033871650696,
      "learning_rate": 1.1675997242697565e-05,
      "loss": 3.3892,
      "step": 419570
    },
    {
      "epoch": 0.874125,
      "grad_norm": 1.0288074016571045,
      "learning_rate": 1.1672184167750643e-05,
      "loss": 3.3157,
      "step": 419580
    },
    {
      "epoch": 0.8741458333333333,
      "grad_norm": 0.8669437170028687,
      "learning_rate": 1.1668371690325134e-05,
      "loss": 3.2929,
      "step": 419590
    },
    {
      "epoch": 0.8741666666666666,
      "grad_norm": 0.9653518199920654,
      "learning_rate": 1.1664559810437497e-05,
      "loss": 3.2798,
      "step": 419600
    },
    {
      "epoch": 0.8741875,
      "grad_norm": 1.0209717750549316,
      "learning_rate": 1.1660748528104214e-05,
      "loss": 3.4002,
      "step": 419610
    },
    {
      "epoch": 0.8742083333333334,
      "grad_norm": 0.8654362559318542,
      "learning_rate": 1.1656937843341723e-05,
      "loss": 3.3021,
      "step": 419620
    },
    {
      "epoch": 0.8742291666666666,
      "grad_norm": 0.8764209747314453,
      "learning_rate": 1.1653127756166515e-05,
      "loss": 3.2833,
      "step": 419630
    },
    {
      "epoch": 0.87425,
      "grad_norm": 0.9702630043029785,
      "learning_rate": 1.1649318266595053e-05,
      "loss": 3.3542,
      "step": 419640
    },
    {
      "epoch": 0.8742708333333333,
      "grad_norm": 1.0319702625274658,
      "learning_rate": 1.1645509374643713e-05,
      "loss": 3.3743,
      "step": 419650
    },
    {
      "epoch": 0.8742916666666667,
      "grad_norm": 0.9153870940208435,
      "learning_rate": 1.1641701080329047e-05,
      "loss": 3.2922,
      "step": 419660
    },
    {
      "epoch": 0.8743125,
      "grad_norm": 0.9236322641372681,
      "learning_rate": 1.163789338366749e-05,
      "loss": 3.3624,
      "step": 419670
    },
    {
      "epoch": 0.8743333333333333,
      "grad_norm": 0.9131112694740295,
      "learning_rate": 1.1634086284675415e-05,
      "loss": 3.2093,
      "step": 419680
    },
    {
      "epoch": 0.8743541666666667,
      "grad_norm": 0.8769671320915222,
      "learning_rate": 1.163027978336934e-05,
      "loss": 3.315,
      "step": 419690
    },
    {
      "epoch": 0.874375,
      "grad_norm": 0.8661177754402161,
      "learning_rate": 1.1626473879765703e-05,
      "loss": 3.3027,
      "step": 419700
    },
    {
      "epoch": 0.8743958333333334,
      "grad_norm": 0.8823810815811157,
      "learning_rate": 1.1622668573880889e-05,
      "loss": 3.1905,
      "step": 419710
    },
    {
      "epoch": 0.8744166666666666,
      "grad_norm": 0.9686219692230225,
      "learning_rate": 1.1618863865731403e-05,
      "loss": 3.2585,
      "step": 419720
    },
    {
      "epoch": 0.8744375,
      "grad_norm": 0.9008939266204834,
      "learning_rate": 1.1615059755333666e-05,
      "loss": 3.2675,
      "step": 419730
    },
    {
      "epoch": 0.8744583333333333,
      "grad_norm": 1.02953040599823,
      "learning_rate": 1.1611256242704048e-05,
      "loss": 3.3819,
      "step": 419740
    },
    {
      "epoch": 0.8744791666666667,
      "grad_norm": 1.0560593605041504,
      "learning_rate": 1.1607453327859034e-05,
      "loss": 3.3689,
      "step": 419750
    },
    {
      "epoch": 0.8745,
      "grad_norm": 0.9120668172836304,
      "learning_rate": 1.1603651010815096e-05,
      "loss": 3.4058,
      "step": 419760
    },
    {
      "epoch": 0.8745208333333333,
      "grad_norm": 0.9269906878471375,
      "learning_rate": 1.1599849291588537e-05,
      "loss": 3.4676,
      "step": 419770
    },
    {
      "epoch": 0.8745416666666667,
      "grad_norm": 0.8913159966468811,
      "learning_rate": 1.1596048170195892e-05,
      "loss": 3.1946,
      "step": 419780
    },
    {
      "epoch": 0.8745625,
      "grad_norm": 0.8635621666908264,
      "learning_rate": 1.1592247646653518e-05,
      "loss": 3.3472,
      "step": 419790
    },
    {
      "epoch": 0.8745833333333334,
      "grad_norm": 0.9542017579078674,
      "learning_rate": 1.1588447720977817e-05,
      "loss": 3.3404,
      "step": 419800
    },
    {
      "epoch": 0.8746041666666666,
      "grad_norm": 0.9364405274391174,
      "learning_rate": 1.1584648393185292e-05,
      "loss": 3.1906,
      "step": 419810
    },
    {
      "epoch": 0.874625,
      "grad_norm": 0.9061858654022217,
      "learning_rate": 1.158084966329228e-05,
      "loss": 3.3625,
      "step": 419820
    },
    {
      "epoch": 0.8746458333333333,
      "grad_norm": 0.9508902430534363,
      "learning_rate": 1.1577051531315184e-05,
      "loss": 3.2948,
      "step": 419830
    },
    {
      "epoch": 0.8746666666666667,
      "grad_norm": 0.8560450077056885,
      "learning_rate": 1.1573253997270459e-05,
      "loss": 3.2865,
      "step": 419840
    },
    {
      "epoch": 0.8746875,
      "grad_norm": 0.8693901896476746,
      "learning_rate": 1.1569457061174458e-05,
      "loss": 3.2754,
      "step": 419850
    },
    {
      "epoch": 0.8747083333333333,
      "grad_norm": 0.9720810651779175,
      "learning_rate": 1.1565660723043635e-05,
      "loss": 3.2617,
      "step": 419860
    },
    {
      "epoch": 0.8747291666666667,
      "grad_norm": 0.9159421920776367,
      "learning_rate": 1.1561864982894342e-05,
      "loss": 3.4608,
      "step": 419870
    },
    {
      "epoch": 0.87475,
      "grad_norm": 0.9659398794174194,
      "learning_rate": 1.1558069840743001e-05,
      "loss": 3.3772,
      "step": 419880
    },
    {
      "epoch": 0.8747708333333334,
      "grad_norm": 1.0115714073181152,
      "learning_rate": 1.1554275296605997e-05,
      "loss": 3.2324,
      "step": 419890
    },
    {
      "epoch": 0.8747916666666666,
      "grad_norm": 0.9241708517074585,
      "learning_rate": 1.1550481350499718e-05,
      "loss": 3.43,
      "step": 419900
    },
    {
      "epoch": 0.8748125,
      "grad_norm": 0.9210185408592224,
      "learning_rate": 1.154668800244057e-05,
      "loss": 3.2743,
      "step": 419910
    },
    {
      "epoch": 0.8748333333333334,
      "grad_norm": 0.9577282071113586,
      "learning_rate": 1.1542895252444918e-05,
      "loss": 3.3818,
      "step": 419920
    },
    {
      "epoch": 0.8748541666666667,
      "grad_norm": 0.8879714012145996,
      "learning_rate": 1.1539103100529168e-05,
      "loss": 3.4136,
      "step": 419930
    },
    {
      "epoch": 0.874875,
      "grad_norm": 0.9307562112808228,
      "learning_rate": 1.1535311546709675e-05,
      "loss": 3.2302,
      "step": 419940
    },
    {
      "epoch": 0.8748958333333333,
      "grad_norm": 0.8990373611450195,
      "learning_rate": 1.1531520591002823e-05,
      "loss": 3.317,
      "step": 419950
    },
    {
      "epoch": 0.8749166666666667,
      "grad_norm": 0.9379454255104065,
      "learning_rate": 1.1527730233424987e-05,
      "loss": 3.321,
      "step": 419960
    },
    {
      "epoch": 0.8749375,
      "grad_norm": 0.9058350324630737,
      "learning_rate": 1.1523940473992566e-05,
      "loss": 3.3048,
      "step": 419970
    },
    {
      "epoch": 0.8749583333333333,
      "grad_norm": 0.8369696736335754,
      "learning_rate": 1.1520151312721899e-05,
      "loss": 3.3523,
      "step": 419980
    },
    {
      "epoch": 0.8749791666666666,
      "grad_norm": 0.9509515762329102,
      "learning_rate": 1.1516362749629354e-05,
      "loss": 3.3845,
      "step": 419990
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.8547903299331665,
      "learning_rate": 1.151257478473132e-05,
      "loss": 3.2972,
      "step": 420000
    },
    {
      "epoch": 0.875,
      "eval_loss": 4.024284839630127,
      "eval_runtime": 9.0778,
      "eval_samples_per_second": 1.102,
      "eval_steps_per_second": 0.33,
      "step": 420000
    },
    {
      "epoch": 0.8750208333333334,
      "grad_norm": 0.907752513885498,
      "learning_rate": 1.1508787418044168e-05,
      "loss": 3.3863,
      "step": 420010
    },
    {
      "epoch": 0.8750416666666667,
      "grad_norm": 0.9289435148239136,
      "learning_rate": 1.1505000649584184e-05,
      "loss": 3.2935,
      "step": 420020
    },
    {
      "epoch": 0.8750625,
      "grad_norm": 1.0028868913650513,
      "learning_rate": 1.1501214479367804e-05,
      "loss": 3.2777,
      "step": 420030
    },
    {
      "epoch": 0.8750833333333333,
      "grad_norm": 0.9366282820701599,
      "learning_rate": 1.1497428907411383e-05,
      "loss": 3.3075,
      "step": 420040
    },
    {
      "epoch": 0.8751041666666667,
      "grad_norm": 0.8681809306144714,
      "learning_rate": 1.149364393373119e-05,
      "loss": 3.3583,
      "step": 420050
    },
    {
      "epoch": 0.875125,
      "grad_norm": 0.969702422618866,
      "learning_rate": 1.1489859558343645e-05,
      "loss": 3.3157,
      "step": 420060
    },
    {
      "epoch": 0.8751458333333333,
      "grad_norm": 1.0549777746200562,
      "learning_rate": 1.148607578126512e-05,
      "loss": 3.2992,
      "step": 420070
    },
    {
      "epoch": 0.8751666666666666,
      "grad_norm": 0.8767113089561462,
      "learning_rate": 1.1482292602511867e-05,
      "loss": 3.3236,
      "step": 420080
    },
    {
      "epoch": 0.8751875,
      "grad_norm": 0.9177035689353943,
      "learning_rate": 1.1478510022100307e-05,
      "loss": 3.3477,
      "step": 420090
    },
    {
      "epoch": 0.8752083333333334,
      "grad_norm": 0.8619503974914551,
      "learning_rate": 1.1474728040046793e-05,
      "loss": 3.3601,
      "step": 420100
    },
    {
      "epoch": 0.8752291666666666,
      "grad_norm": 0.9632483720779419,
      "learning_rate": 1.147094665636758e-05,
      "loss": 3.4326,
      "step": 420110
    },
    {
      "epoch": 0.87525,
      "grad_norm": 0.932029128074646,
      "learning_rate": 1.146716587107902e-05,
      "loss": 3.3109,
      "step": 420120
    },
    {
      "epoch": 0.8752708333333333,
      "grad_norm": 0.8952990770339966,
      "learning_rate": 1.1463385684197517e-05,
      "loss": 3.3988,
      "step": 420130
    },
    {
      "epoch": 0.8752916666666667,
      "grad_norm": 0.9001737833023071,
      "learning_rate": 1.1459606095739327e-05,
      "loss": 3.3132,
      "step": 420140
    },
    {
      "epoch": 0.8753125,
      "grad_norm": 0.8054328560829163,
      "learning_rate": 1.14558271057208e-05,
      "loss": 3.3342,
      "step": 420150
    },
    {
      "epoch": 0.8753333333333333,
      "grad_norm": 0.9746589064598083,
      "learning_rate": 1.1452048714158258e-05,
      "loss": 3.4086,
      "step": 420160
    },
    {
      "epoch": 0.8753541666666667,
      "grad_norm": 1.0460838079452515,
      "learning_rate": 1.1448270921068036e-05,
      "loss": 3.3275,
      "step": 420170
    },
    {
      "epoch": 0.875375,
      "grad_norm": 0.9268831014633179,
      "learning_rate": 1.1444493726466424e-05,
      "loss": 3.2453,
      "step": 420180
    },
    {
      "epoch": 0.8753958333333334,
      "grad_norm": 0.8680039644241333,
      "learning_rate": 1.1440717130369775e-05,
      "loss": 3.3626,
      "step": 420190
    },
    {
      "epoch": 0.8754166666666666,
      "grad_norm": 0.9338256120681763,
      "learning_rate": 1.1436941132794376e-05,
      "loss": 3.3327,
      "step": 420200
    },
    {
      "epoch": 0.8754375,
      "grad_norm": 0.9482969045639038,
      "learning_rate": 1.1433165733756528e-05,
      "loss": 3.1972,
      "step": 420210
    },
    {
      "epoch": 0.8754583333333333,
      "grad_norm": 0.9931498169898987,
      "learning_rate": 1.142939093327257e-05,
      "loss": 3.2559,
      "step": 420220
    },
    {
      "epoch": 0.8754791666666667,
      "grad_norm": 0.8590227365493774,
      "learning_rate": 1.1425616731358789e-05,
      "loss": 3.4893,
      "step": 420230
    },
    {
      "epoch": 0.8755,
      "grad_norm": 0.929966390132904,
      "learning_rate": 1.1421843128031506e-05,
      "loss": 3.4002,
      "step": 420240
    },
    {
      "epoch": 0.8755208333333333,
      "grad_norm": 0.8886005282402039,
      "learning_rate": 1.1418070123306989e-05,
      "loss": 3.3648,
      "step": 420250
    },
    {
      "epoch": 0.8755416666666667,
      "grad_norm": 0.957037627696991,
      "learning_rate": 1.1414297717201558e-05,
      "loss": 3.2997,
      "step": 420260
    },
    {
      "epoch": 0.8755625,
      "grad_norm": 0.8777784109115601,
      "learning_rate": 1.1410525909731522e-05,
      "loss": 3.2864,
      "step": 420270
    },
    {
      "epoch": 0.8755833333333334,
      "grad_norm": 0.9285388588905334,
      "learning_rate": 1.1406754700913128e-05,
      "loss": 3.3548,
      "step": 420280
    },
    {
      "epoch": 0.8756041666666666,
      "grad_norm": 0.9760700464248657,
      "learning_rate": 1.1402984090762718e-05,
      "loss": 3.2608,
      "step": 420290
    },
    {
      "epoch": 0.875625,
      "grad_norm": 0.953649640083313,
      "learning_rate": 1.1399214079296542e-05,
      "loss": 3.3058,
      "step": 420300
    },
    {
      "epoch": 0.8756458333333333,
      "grad_norm": 0.9205203652381897,
      "learning_rate": 1.1395444666530907e-05,
      "loss": 3.3617,
      "step": 420310
    },
    {
      "epoch": 0.8756666666666667,
      "grad_norm": 1.04463529586792,
      "learning_rate": 1.1391675852482096e-05,
      "loss": 3.2191,
      "step": 420320
    },
    {
      "epoch": 0.8756875,
      "grad_norm": 0.8950717449188232,
      "learning_rate": 1.1387907637166366e-05,
      "loss": 3.2671,
      "step": 420330
    },
    {
      "epoch": 0.8757083333333333,
      "grad_norm": 0.8346956372261047,
      "learning_rate": 1.1384140020600002e-05,
      "loss": 3.3529,
      "step": 420340
    },
    {
      "epoch": 0.8757291666666667,
      "grad_norm": 0.9286437034606934,
      "learning_rate": 1.1380373002799308e-05,
      "loss": 3.3357,
      "step": 420350
    },
    {
      "epoch": 0.87575,
      "grad_norm": 0.9732617735862732,
      "learning_rate": 1.1376606583780506e-05,
      "loss": 3.3293,
      "step": 420360
    },
    {
      "epoch": 0.8757708333333334,
      "grad_norm": 0.9163236021995544,
      "learning_rate": 1.1372840763559915e-05,
      "loss": 3.3246,
      "step": 420370
    },
    {
      "epoch": 0.8757916666666666,
      "grad_norm": 0.9959788918495178,
      "learning_rate": 1.1369075542153805e-05,
      "loss": 3.2945,
      "step": 420380
    },
    {
      "epoch": 0.8758125,
      "grad_norm": 0.8194898366928101,
      "learning_rate": 1.1365310919578346e-05,
      "loss": 3.3365,
      "step": 420390
    },
    {
      "epoch": 0.8758333333333334,
      "grad_norm": 0.8775756359100342,
      "learning_rate": 1.136154689584991e-05,
      "loss": 3.2133,
      "step": 420400
    },
    {
      "epoch": 0.8758541666666667,
      "grad_norm": 0.9644669890403748,
      "learning_rate": 1.1357783470984732e-05,
      "loss": 3.3507,
      "step": 420410
    },
    {
      "epoch": 0.875875,
      "grad_norm": 0.9104843735694885,
      "learning_rate": 1.1354020644999018e-05,
      "loss": 3.3546,
      "step": 420420
    },
    {
      "epoch": 0.8758958333333333,
      "grad_norm": 0.9726676344871521,
      "learning_rate": 1.1350258417909053e-05,
      "loss": 3.3495,
      "step": 420430
    },
    {
      "epoch": 0.8759166666666667,
      "grad_norm": 0.8960525989532471,
      "learning_rate": 1.1346496789731124e-05,
      "loss": 3.3544,
      "step": 420440
    },
    {
      "epoch": 0.8759375,
      "grad_norm": 0.9532904624938965,
      "learning_rate": 1.134273576048142e-05,
      "loss": 3.2656,
      "step": 420450
    },
    {
      "epoch": 0.8759583333333333,
      "grad_norm": 0.8974460959434509,
      "learning_rate": 1.1338975330176192e-05,
      "loss": 3.372,
      "step": 420460
    },
    {
      "epoch": 0.8759791666666666,
      "grad_norm": 1.0181299448013306,
      "learning_rate": 1.1335215498831762e-05,
      "loss": 3.3196,
      "step": 420470
    },
    {
      "epoch": 0.876,
      "grad_norm": 0.9957629442214966,
      "learning_rate": 1.1331456266464267e-05,
      "loss": 3.3365,
      "step": 420480
    },
    {
      "epoch": 0.8760208333333334,
      "grad_norm": 0.8839883208274841,
      "learning_rate": 1.1327697633089994e-05,
      "loss": 3.3362,
      "step": 420490
    },
    {
      "epoch": 0.8760416666666667,
      "grad_norm": 0.9658220410346985,
      "learning_rate": 1.1323939598725212e-05,
      "loss": 3.1695,
      "step": 420500
    },
    {
      "epoch": 0.8760625,
      "grad_norm": 0.9061911106109619,
      "learning_rate": 1.1320182163386094e-05,
      "loss": 3.3922,
      "step": 420510
    },
    {
      "epoch": 0.8760833333333333,
      "grad_norm": 1.086672067642212,
      "learning_rate": 1.131642532708889e-05,
      "loss": 3.2982,
      "step": 420520
    },
    {
      "epoch": 0.8761041666666667,
      "grad_norm": 0.893513023853302,
      "learning_rate": 1.1312669089849841e-05,
      "loss": 3.3712,
      "step": 420530
    },
    {
      "epoch": 0.876125,
      "grad_norm": 0.9394099116325378,
      "learning_rate": 1.1308913451685181e-05,
      "loss": 3.3909,
      "step": 420540
    },
    {
      "epoch": 0.8761458333333333,
      "grad_norm": 1.101454734802246,
      "learning_rate": 1.1305158412611099e-05,
      "loss": 3.4019,
      "step": 420550
    },
    {
      "epoch": 0.8761666666666666,
      "grad_norm": 0.9255398511886597,
      "learning_rate": 1.130140397264383e-05,
      "loss": 3.3492,
      "step": 420560
    },
    {
      "epoch": 0.8761875,
      "grad_norm": 0.873246431350708,
      "learning_rate": 1.1297650131799596e-05,
      "loss": 3.3473,
      "step": 420570
    },
    {
      "epoch": 0.8762083333333334,
      "grad_norm": 0.8966213464736938,
      "learning_rate": 1.1293896890094618e-05,
      "loss": 3.3359,
      "step": 420580
    },
    {
      "epoch": 0.8762291666666666,
      "grad_norm": 0.8610509037971497,
      "learning_rate": 1.1290144247545114e-05,
      "loss": 3.1407,
      "step": 420590
    },
    {
      "epoch": 0.87625,
      "grad_norm": 0.9198509454727173,
      "learning_rate": 1.1286392204167255e-05,
      "loss": 3.3935,
      "step": 420600
    },
    {
      "epoch": 0.8762708333333333,
      "grad_norm": 1.0717461109161377,
      "learning_rate": 1.1282640759977297e-05,
      "loss": 3.3482,
      "step": 420610
    },
    {
      "epoch": 0.8762916666666667,
      "grad_norm": 0.8926819562911987,
      "learning_rate": 1.1278889914991406e-05,
      "loss": 3.2951,
      "step": 420620
    },
    {
      "epoch": 0.8763125,
      "grad_norm": 0.9530931711196899,
      "learning_rate": 1.1275139669225824e-05,
      "loss": 3.221,
      "step": 420630
    },
    {
      "epoch": 0.8763333333333333,
      "grad_norm": 0.8718176484107971,
      "learning_rate": 1.1271390022696703e-05,
      "loss": 3.3827,
      "step": 420640
    },
    {
      "epoch": 0.8763541666666667,
      "grad_norm": 0.9971186518669128,
      "learning_rate": 1.1267640975420279e-05,
      "loss": 3.2504,
      "step": 420650
    },
    {
      "epoch": 0.876375,
      "grad_norm": 0.9486767053604126,
      "learning_rate": 1.126389252741272e-05,
      "loss": 3.3831,
      "step": 420660
    },
    {
      "epoch": 0.8763958333333334,
      "grad_norm": 0.9958714842796326,
      "learning_rate": 1.1260144678690236e-05,
      "loss": 3.3499,
      "step": 420670
    },
    {
      "epoch": 0.8764166666666666,
      "grad_norm": 0.9479525089263916,
      "learning_rate": 1.125639742926901e-05,
      "loss": 3.3097,
      "step": 420680
    },
    {
      "epoch": 0.8764375,
      "grad_norm": 0.9195025563240051,
      "learning_rate": 1.1252650779165228e-05,
      "loss": 3.2944,
      "step": 420690
    },
    {
      "epoch": 0.8764583333333333,
      "grad_norm": 0.902553915977478,
      "learning_rate": 1.1248904728395113e-05,
      "loss": 3.2654,
      "step": 420700
    },
    {
      "epoch": 0.8764791666666667,
      "grad_norm": 0.879740834236145,
      "learning_rate": 1.1245159276974735e-05,
      "loss": 3.3051,
      "step": 420710
    },
    {
      "epoch": 0.8765,
      "grad_norm": 0.9589451551437378,
      "learning_rate": 1.124141442492038e-05,
      "loss": 3.2781,
      "step": 420720
    },
    {
      "epoch": 0.8765208333333333,
      "grad_norm": 0.9462689161300659,
      "learning_rate": 1.123767017224822e-05,
      "loss": 3.2612,
      "step": 420730
    },
    {
      "epoch": 0.8765416666666667,
      "grad_norm": 0.9992049336433411,
      "learning_rate": 1.1233926518974356e-05,
      "loss": 3.4009,
      "step": 420740
    },
    {
      "epoch": 0.8765625,
      "grad_norm": 1.0837604999542236,
      "learning_rate": 1.1230183465115044e-05,
      "loss": 3.3931,
      "step": 420750
    },
    {
      "epoch": 0.8765833333333334,
      "grad_norm": 1.469931721687317,
      "learning_rate": 1.1226441010686371e-05,
      "loss": 3.2593,
      "step": 420760
    },
    {
      "epoch": 0.8766041666666666,
      "grad_norm": 0.8730196356773376,
      "learning_rate": 1.122269915570454e-05,
      "loss": 3.2897,
      "step": 420770
    },
    {
      "epoch": 0.876625,
      "grad_norm": 0.8742278218269348,
      "learning_rate": 1.1218957900185755e-05,
      "loss": 3.2383,
      "step": 420780
    },
    {
      "epoch": 0.8766458333333333,
      "grad_norm": 1.007838487625122,
      "learning_rate": 1.121521724414612e-05,
      "loss": 3.3293,
      "step": 420790
    },
    {
      "epoch": 0.8766666666666667,
      "grad_norm": 0.9363805651664734,
      "learning_rate": 1.121147718760177e-05,
      "loss": 3.3903,
      "step": 420800
    },
    {
      "epoch": 0.8766875,
      "grad_norm": 0.9077547192573547,
      "learning_rate": 1.1207737730568977e-05,
      "loss": 3.2907,
      "step": 420810
    },
    {
      "epoch": 0.8767083333333333,
      "grad_norm": 1.0285835266113281,
      "learning_rate": 1.120399887306378e-05,
      "loss": 3.3467,
      "step": 420820
    },
    {
      "epoch": 0.8767291666666667,
      "grad_norm": 0.9952120184898376,
      "learning_rate": 1.1200260615102347e-05,
      "loss": 3.3481,
      "step": 420830
    },
    {
      "epoch": 0.87675,
      "grad_norm": 0.8580331206321716,
      "learning_rate": 1.1196522956700882e-05,
      "loss": 3.3852,
      "step": 420840
    },
    {
      "epoch": 0.8767708333333334,
      "grad_norm": 0.8619383573532104,
      "learning_rate": 1.119278589787549e-05,
      "loss": 3.3362,
      "step": 420850
    },
    {
      "epoch": 0.8767916666666666,
      "grad_norm": 0.9407385587692261,
      "learning_rate": 1.118904943864229e-05,
      "loss": 3.2635,
      "step": 420860
    },
    {
      "epoch": 0.8768125,
      "grad_norm": 0.929874062538147,
      "learning_rate": 1.1185313579017501e-05,
      "loss": 3.3362,
      "step": 420870
    },
    {
      "epoch": 0.8768333333333334,
      "grad_norm": 0.8436155319213867,
      "learning_rate": 1.1181578319017182e-05,
      "loss": 3.3291,
      "step": 420880
    },
    {
      "epoch": 0.8768541666666667,
      "grad_norm": 0.9344823360443115,
      "learning_rate": 1.1177843658657498e-05,
      "loss": 3.3446,
      "step": 420890
    },
    {
      "epoch": 0.876875,
      "grad_norm": 0.9598256349563599,
      "learning_rate": 1.117410959795459e-05,
      "loss": 3.2885,
      "step": 420900
    },
    {
      "epoch": 0.8768958333333333,
      "grad_norm": 0.9155840277671814,
      "learning_rate": 1.1170376136924558e-05,
      "loss": 3.271,
      "step": 420910
    },
    {
      "epoch": 0.8769166666666667,
      "grad_norm": 1.1416308879852295,
      "learning_rate": 1.1166643275583559e-05,
      "loss": 3.4294,
      "step": 420920
    },
    {
      "epoch": 0.8769375,
      "grad_norm": 1.0416291952133179,
      "learning_rate": 1.1162911013947712e-05,
      "loss": 3.3667,
      "step": 420930
    },
    {
      "epoch": 0.8769583333333333,
      "grad_norm": 0.9024123549461365,
      "learning_rate": 1.1159179352033121e-05,
      "loss": 3.3021,
      "step": 420940
    },
    {
      "epoch": 0.8769791666666666,
      "grad_norm": 0.8566741347312927,
      "learning_rate": 1.1155448289855923e-05,
      "loss": 3.294,
      "step": 420950
    },
    {
      "epoch": 0.877,
      "grad_norm": 0.9075872898101807,
      "learning_rate": 1.1151717827432239e-05,
      "loss": 3.2086,
      "step": 420960
    },
    {
      "epoch": 0.8770208333333334,
      "grad_norm": 0.897685170173645,
      "learning_rate": 1.114798796477817e-05,
      "loss": 3.4423,
      "step": 420970
    },
    {
      "epoch": 0.8770416666666667,
      "grad_norm": 0.89717698097229,
      "learning_rate": 1.1144258701909825e-05,
      "loss": 3.3857,
      "step": 420980
    },
    {
      "epoch": 0.8770625,
      "grad_norm": 0.8319090008735657,
      "learning_rate": 1.114053003884332e-05,
      "loss": 3.2436,
      "step": 420990
    },
    {
      "epoch": 0.8770833333333333,
      "grad_norm": 0.9548026323318481,
      "learning_rate": 1.1136801975594777e-05,
      "loss": 3.3973,
      "step": 421000
    },
    {
      "epoch": 0.8770833333333333,
      "eval_loss": 4.026528835296631,
      "eval_runtime": 9.1548,
      "eval_samples_per_second": 1.092,
      "eval_steps_per_second": 0.328,
      "step": 421000
    },
    {
      "epoch": 0.8771041666666667,
      "grad_norm": 0.9369730353355408,
      "learning_rate": 1.1133074512180285e-05,
      "loss": 3.2826,
      "step": 421010
    },
    {
      "epoch": 0.877125,
      "grad_norm": 0.9129489660263062,
      "learning_rate": 1.112934764861591e-05,
      "loss": 3.3466,
      "step": 421020
    },
    {
      "epoch": 0.8771458333333333,
      "grad_norm": 0.8636208772659302,
      "learning_rate": 1.112562138491781e-05,
      "loss": 3.4526,
      "step": 421030
    },
    {
      "epoch": 0.8771666666666667,
      "grad_norm": 0.9880372285842896,
      "learning_rate": 1.112189572110207e-05,
      "loss": 3.374,
      "step": 421040
    },
    {
      "epoch": 0.8771875,
      "grad_norm": 0.8961732983589172,
      "learning_rate": 1.1118170657184728e-05,
      "loss": 3.3251,
      "step": 421050
    },
    {
      "epoch": 0.8772083333333334,
      "grad_norm": 0.9965574741363525,
      "learning_rate": 1.1114446193181936e-05,
      "loss": 3.4691,
      "step": 421060
    },
    {
      "epoch": 0.8772291666666666,
      "grad_norm": 1.0190483331680298,
      "learning_rate": 1.1110722329109783e-05,
      "loss": 3.2848,
      "step": 421070
    },
    {
      "epoch": 0.87725,
      "grad_norm": 0.9108985662460327,
      "learning_rate": 1.110699906498429e-05,
      "loss": 3.4037,
      "step": 421080
    },
    {
      "epoch": 0.8772708333333333,
      "grad_norm": 0.8812892436981201,
      "learning_rate": 1.1103276400821593e-05,
      "loss": 3.2422,
      "step": 421090
    },
    {
      "epoch": 0.8772916666666667,
      "grad_norm": 0.9300718903541565,
      "learning_rate": 1.109955433663781e-05,
      "loss": 3.3123,
      "step": 421100
    },
    {
      "epoch": 0.8773125,
      "grad_norm": 0.9319646954536438,
      "learning_rate": 1.1095832872448902e-05,
      "loss": 3.3232,
      "step": 421110
    },
    {
      "epoch": 0.8773333333333333,
      "grad_norm": 0.9558539986610413,
      "learning_rate": 1.1092112008271048e-05,
      "loss": 3.3603,
      "step": 421120
    },
    {
      "epoch": 0.8773541666666667,
      "grad_norm": 0.9213929772377014,
      "learning_rate": 1.1088391744120324e-05,
      "loss": 3.32,
      "step": 421130
    },
    {
      "epoch": 0.877375,
      "grad_norm": 0.8586142659187317,
      "learning_rate": 1.1084672080012696e-05,
      "loss": 3.2944,
      "step": 421140
    },
    {
      "epoch": 0.8773958333333334,
      "grad_norm": 1.0159425735473633,
      "learning_rate": 1.1080953015964356e-05,
      "loss": 3.3179,
      "step": 421150
    },
    {
      "epoch": 0.8774166666666666,
      "grad_norm": 1.010988473892212,
      "learning_rate": 1.1077234551991271e-05,
      "loss": 3.2421,
      "step": 421160
    },
    {
      "epoch": 0.8774375,
      "grad_norm": 0.8831099271774292,
      "learning_rate": 1.107351668810953e-05,
      "loss": 3.2142,
      "step": 421170
    },
    {
      "epoch": 0.8774583333333333,
      "grad_norm": 0.8659554719924927,
      "learning_rate": 1.1069799424335269e-05,
      "loss": 3.2838,
      "step": 421180
    },
    {
      "epoch": 0.8774791666666667,
      "grad_norm": 0.9373128414154053,
      "learning_rate": 1.1066082760684442e-05,
      "loss": 3.4187,
      "step": 421190
    },
    {
      "epoch": 0.8775,
      "grad_norm": 0.9199735522270203,
      "learning_rate": 1.106236669717312e-05,
      "loss": 3.236,
      "step": 421200
    },
    {
      "epoch": 0.8775208333333333,
      "grad_norm": 0.9432048201560974,
      "learning_rate": 1.1058651233817423e-05,
      "loss": 3.253,
      "step": 421210
    },
    {
      "epoch": 0.8775416666666667,
      "grad_norm": 0.9397255778312683,
      "learning_rate": 1.1054936370633339e-05,
      "loss": 3.3697,
      "step": 421220
    },
    {
      "epoch": 0.8775625,
      "grad_norm": 0.9276628494262695,
      "learning_rate": 1.1051222107636904e-05,
      "loss": 3.1456,
      "step": 421230
    },
    {
      "epoch": 0.8775833333333334,
      "grad_norm": 1.063403606414795,
      "learning_rate": 1.1047508444844239e-05,
      "loss": 3.3442,
      "step": 421240
    },
    {
      "epoch": 0.8776041666666666,
      "grad_norm": 0.8477539420127869,
      "learning_rate": 1.1043795382271314e-05,
      "loss": 3.3489,
      "step": 421250
    },
    {
      "epoch": 0.877625,
      "grad_norm": 0.9323398470878601,
      "learning_rate": 1.1040082919934168e-05,
      "loss": 3.3201,
      "step": 421260
    },
    {
      "epoch": 0.8776458333333333,
      "grad_norm": 0.9445658326148987,
      "learning_rate": 1.1036371057848903e-05,
      "loss": 3.2436,
      "step": 421270
    },
    {
      "epoch": 0.8776666666666667,
      "grad_norm": 0.9514163136482239,
      "learning_rate": 1.103265979603149e-05,
      "loss": 3.3522,
      "step": 421280
    },
    {
      "epoch": 0.8776875,
      "grad_norm": 0.9177753925323486,
      "learning_rate": 1.1028949134497966e-05,
      "loss": 3.3259,
      "step": 421290
    },
    {
      "epoch": 0.8777083333333333,
      "grad_norm": 0.8385031223297119,
      "learning_rate": 1.1025239073264387e-05,
      "loss": 3.3325,
      "step": 421300
    },
    {
      "epoch": 0.8777291666666667,
      "grad_norm": 0.9130829572677612,
      "learning_rate": 1.1021529612346769e-05,
      "loss": 3.1913,
      "step": 421310
    },
    {
      "epoch": 0.87775,
      "grad_norm": 0.8925541043281555,
      "learning_rate": 1.101782075176112e-05,
      "loss": 3.1852,
      "step": 421320
    },
    {
      "epoch": 0.8777708333333333,
      "grad_norm": 0.991283118724823,
      "learning_rate": 1.1014112491523475e-05,
      "loss": 3.3013,
      "step": 421330
    },
    {
      "epoch": 0.8777916666666666,
      "grad_norm": 0.8613530397415161,
      "learning_rate": 1.1010404831649855e-05,
      "loss": 3.2521,
      "step": 421340
    },
    {
      "epoch": 0.8778125,
      "grad_norm": 0.9521580338478088,
      "learning_rate": 1.1006697772156264e-05,
      "loss": 3.3284,
      "step": 421350
    },
    {
      "epoch": 0.8778333333333334,
      "grad_norm": 0.9111487865447998,
      "learning_rate": 1.1002991313058724e-05,
      "loss": 3.3721,
      "step": 421360
    },
    {
      "epoch": 0.8778541666666667,
      "grad_norm": 0.9163678884506226,
      "learning_rate": 1.0999285454373253e-05,
      "loss": 3.3612,
      "step": 421370
    },
    {
      "epoch": 0.877875,
      "grad_norm": 0.9030439257621765,
      "learning_rate": 1.0995580196115855e-05,
      "loss": 3.4554,
      "step": 421380
    },
    {
      "epoch": 0.8778958333333333,
      "grad_norm": 0.9291509985923767,
      "learning_rate": 1.0991875538302486e-05,
      "loss": 3.3759,
      "step": 421390
    },
    {
      "epoch": 0.8779166666666667,
      "grad_norm": 0.9912823438644409,
      "learning_rate": 1.0988171480949216e-05,
      "loss": 3.3412,
      "step": 421400
    },
    {
      "epoch": 0.8779375,
      "grad_norm": 0.9208838939666748,
      "learning_rate": 1.0984468024072047e-05,
      "loss": 3.2939,
      "step": 421410
    },
    {
      "epoch": 0.8779583333333333,
      "grad_norm": 1.0541222095489502,
      "learning_rate": 1.09807651676869e-05,
      "loss": 3.3724,
      "step": 421420
    },
    {
      "epoch": 0.8779791666666666,
      "grad_norm": 1.004246711730957,
      "learning_rate": 1.0977062911809847e-05,
      "loss": 3.5272,
      "step": 421430
    },
    {
      "epoch": 0.878,
      "grad_norm": 1.0726579427719116,
      "learning_rate": 1.0973361256456876e-05,
      "loss": 3.2392,
      "step": 421440
    },
    {
      "epoch": 0.8780208333333334,
      "grad_norm": 0.976159930229187,
      "learning_rate": 1.0969660201643904e-05,
      "loss": 3.2818,
      "step": 421450
    },
    {
      "epoch": 0.8780416666666667,
      "grad_norm": 0.9798802733421326,
      "learning_rate": 1.0965959747386988e-05,
      "loss": 3.3572,
      "step": 421460
    },
    {
      "epoch": 0.8780625,
      "grad_norm": 0.8121815323829651,
      "learning_rate": 1.096225989370213e-05,
      "loss": 3.237,
      "step": 421470
    },
    {
      "epoch": 0.8780833333333333,
      "grad_norm": 0.9176362156867981,
      "learning_rate": 1.0958560640605219e-05,
      "loss": 3.3605,
      "step": 421480
    },
    {
      "epoch": 0.8781041666666667,
      "grad_norm": 0.9905257225036621,
      "learning_rate": 1.0954861988112306e-05,
      "loss": 3.332,
      "step": 421490
    },
    {
      "epoch": 0.878125,
      "grad_norm": 0.8893570899963379,
      "learning_rate": 1.0951163936239382e-05,
      "loss": 3.3373,
      "step": 421500
    },
    {
      "epoch": 0.8781458333333333,
      "grad_norm": 0.8615157008171082,
      "learning_rate": 1.0947466485002348e-05,
      "loss": 3.3226,
      "step": 421510
    },
    {
      "epoch": 0.8781666666666667,
      "grad_norm": 0.9443165063858032,
      "learning_rate": 1.094376963441726e-05,
      "loss": 3.1774,
      "step": 421520
    },
    {
      "epoch": 0.8781875,
      "grad_norm": 0.9208378195762634,
      "learning_rate": 1.094007338450002e-05,
      "loss": 3.3953,
      "step": 421530
    },
    {
      "epoch": 0.8782083333333334,
      "grad_norm": 0.8930758237838745,
      "learning_rate": 1.0936377735266582e-05,
      "loss": 3.2719,
      "step": 421540
    },
    {
      "epoch": 0.8782291666666666,
      "grad_norm": 0.9050414562225342,
      "learning_rate": 1.093268268673302e-05,
      "loss": 3.312,
      "step": 421550
    },
    {
      "epoch": 0.87825,
      "grad_norm": 0.9003444314002991,
      "learning_rate": 1.0928988238915182e-05,
      "loss": 3.2186,
      "step": 421560
    },
    {
      "epoch": 0.8782708333333333,
      "grad_norm": 0.9538983702659607,
      "learning_rate": 1.0925294391829043e-05,
      "loss": 3.3059,
      "step": 421570
    },
    {
      "epoch": 0.8782916666666667,
      "grad_norm": 1.0058612823486328,
      "learning_rate": 1.0921601145490638e-05,
      "loss": 3.3347,
      "step": 421580
    },
    {
      "epoch": 0.8783125,
      "grad_norm": 0.9489616751670837,
      "learning_rate": 1.091790849991584e-05,
      "loss": 3.3452,
      "step": 421590
    },
    {
      "epoch": 0.8783333333333333,
      "grad_norm": 0.9035426378250122,
      "learning_rate": 1.0914216455120633e-05,
      "loss": 3.2571,
      "step": 421600
    },
    {
      "epoch": 0.8783541666666667,
      "grad_norm": 0.9045364260673523,
      "learning_rate": 1.0910525011120941e-05,
      "loss": 3.353,
      "step": 421610
    },
    {
      "epoch": 0.878375,
      "grad_norm": 0.9815192222595215,
      "learning_rate": 1.0906834167932732e-05,
      "loss": 3.2668,
      "step": 421620
    },
    {
      "epoch": 0.8783958333333334,
      "grad_norm": 1.0531980991363525,
      "learning_rate": 1.0903143925571944e-05,
      "loss": 3.3308,
      "step": 421630
    },
    {
      "epoch": 0.8784166666666666,
      "grad_norm": 0.8196666240692139,
      "learning_rate": 1.0899454284054515e-05,
      "loss": 3.3091,
      "step": 421640
    },
    {
      "epoch": 0.8784375,
      "grad_norm": 0.9698554277420044,
      "learning_rate": 1.0895765243396382e-05,
      "loss": 3.4012,
      "step": 421650
    },
    {
      "epoch": 0.8784583333333333,
      "grad_norm": 0.8214666247367859,
      "learning_rate": 1.089207680361348e-05,
      "loss": 3.2286,
      "step": 421660
    },
    {
      "epoch": 0.8784791666666667,
      "grad_norm": 0.8917623162269592,
      "learning_rate": 1.088838896472175e-05,
      "loss": 3.3386,
      "step": 421670
    },
    {
      "epoch": 0.8785,
      "grad_norm": 0.9756645560264587,
      "learning_rate": 1.088470172673711e-05,
      "loss": 3.3137,
      "step": 421680
    },
    {
      "epoch": 0.8785208333333333,
      "grad_norm": 0.9448864459991455,
      "learning_rate": 1.0881015089675482e-05,
      "loss": 3.3897,
      "step": 421690
    },
    {
      "epoch": 0.8785416666666667,
      "grad_norm": 0.8684901595115662,
      "learning_rate": 1.0877329053552819e-05,
      "loss": 3.4415,
      "step": 421700
    },
    {
      "epoch": 0.8785625,
      "grad_norm": 0.8322488069534302,
      "learning_rate": 1.0873643618385026e-05,
      "loss": 3.3652,
      "step": 421710
    },
    {
      "epoch": 0.8785833333333334,
      "grad_norm": 0.9413052201271057,
      "learning_rate": 1.0869958784188022e-05,
      "loss": 3.3078,
      "step": 421720
    },
    {
      "epoch": 0.8786041666666666,
      "grad_norm": 1.052500605583191,
      "learning_rate": 1.086627455097771e-05,
      "loss": 3.3212,
      "step": 421730
    },
    {
      "epoch": 0.878625,
      "grad_norm": 0.8874692916870117,
      "learning_rate": 1.086259091877003e-05,
      "loss": 3.2225,
      "step": 421740
    },
    {
      "epoch": 0.8786458333333333,
      "grad_norm": 1.0398895740509033,
      "learning_rate": 1.0858907887580903e-05,
      "loss": 3.2965,
      "step": 421750
    },
    {
      "epoch": 0.8786666666666667,
      "grad_norm": 0.8674533367156982,
      "learning_rate": 1.0855225457426181e-05,
      "loss": 3.4074,
      "step": 421760
    },
    {
      "epoch": 0.8786875,
      "grad_norm": 0.8520722389221191,
      "learning_rate": 1.0851543628321819e-05,
      "loss": 3.3069,
      "step": 421770
    },
    {
      "epoch": 0.8787083333333333,
      "grad_norm": 0.8874731659889221,
      "learning_rate": 1.0847862400283735e-05,
      "loss": 3.282,
      "step": 421780
    },
    {
      "epoch": 0.8787291666666667,
      "grad_norm": 0.8268316388130188,
      "learning_rate": 1.084418177332777e-05,
      "loss": 3.3719,
      "step": 421790
    },
    {
      "epoch": 0.87875,
      "grad_norm": 0.8628795146942139,
      "learning_rate": 1.084050174746986e-05,
      "loss": 3.1822,
      "step": 421800
    },
    {
      "epoch": 0.8787708333333333,
      "grad_norm": 0.939289927482605,
      "learning_rate": 1.083682232272594e-05,
      "loss": 3.3594,
      "step": 421810
    },
    {
      "epoch": 0.8787916666666666,
      "grad_norm": 0.8780006766319275,
      "learning_rate": 1.0833143499111819e-05,
      "loss": 3.2818,
      "step": 421820
    },
    {
      "epoch": 0.8788125,
      "grad_norm": 0.8784891963005066,
      "learning_rate": 1.0829465276643445e-05,
      "loss": 3.1488,
      "step": 421830
    },
    {
      "epoch": 0.8788333333333334,
      "grad_norm": 0.9586954712867737,
      "learning_rate": 1.0825787655336726e-05,
      "loss": 3.4226,
      "step": 421840
    },
    {
      "epoch": 0.8788541666666667,
      "grad_norm": 0.8912200331687927,
      "learning_rate": 1.0822110635207448e-05,
      "loss": 3.3219,
      "step": 421850
    },
    {
      "epoch": 0.878875,
      "grad_norm": 0.9741220474243164,
      "learning_rate": 1.0818434216271599e-05,
      "loss": 3.3261,
      "step": 421860
    },
    {
      "epoch": 0.8788958333333333,
      "grad_norm": 0.9038577079772949,
      "learning_rate": 1.0814758398545048e-05,
      "loss": 3.3783,
      "step": 421870
    },
    {
      "epoch": 0.8789166666666667,
      "grad_norm": 0.8699303269386292,
      "learning_rate": 1.0811083182043634e-05,
      "loss": 3.2843,
      "step": 421880
    },
    {
      "epoch": 0.8789375,
      "grad_norm": 0.9429382085800171,
      "learning_rate": 1.0807408566783226e-05,
      "loss": 3.342,
      "step": 421890
    },
    {
      "epoch": 0.8789583333333333,
      "grad_norm": 0.9318050742149353,
      "learning_rate": 1.080373455277973e-05,
      "loss": 3.3311,
      "step": 421900
    },
    {
      "epoch": 0.8789791666666666,
      "grad_norm": 0.9917981624603271,
      "learning_rate": 1.0800061140048999e-05,
      "loss": 3.4718,
      "step": 421910
    },
    {
      "epoch": 0.879,
      "grad_norm": 0.9195549488067627,
      "learning_rate": 1.0796388328606904e-05,
      "loss": 3.3327,
      "step": 421920
    },
    {
      "epoch": 0.8790208333333334,
      "grad_norm": 0.958254873752594,
      "learning_rate": 1.0792716118469297e-05,
      "loss": 3.2889,
      "step": 421930
    },
    {
      "epoch": 0.8790416666666667,
      "grad_norm": 0.9274481534957886,
      "learning_rate": 1.0789044509652067e-05,
      "loss": 3.4486,
      "step": 421940
    },
    {
      "epoch": 0.8790625,
      "grad_norm": 1.2431167364120483,
      "learning_rate": 1.0785373502171068e-05,
      "loss": 3.2917,
      "step": 421950
    },
    {
      "epoch": 0.8790833333333333,
      "grad_norm": 0.9192602634429932,
      "learning_rate": 1.0781703096042137e-05,
      "loss": 3.3265,
      "step": 421960
    },
    {
      "epoch": 0.8791041666666667,
      "grad_norm": 0.9108971357345581,
      "learning_rate": 1.0778033291281162e-05,
      "loss": 3.3763,
      "step": 421970
    },
    {
      "epoch": 0.879125,
      "grad_norm": 0.8985552787780762,
      "learning_rate": 1.0774364087903964e-05,
      "loss": 3.1724,
      "step": 421980
    },
    {
      "epoch": 0.8791458333333333,
      "grad_norm": 0.887876570224762,
      "learning_rate": 1.0770695485926395e-05,
      "loss": 3.4154,
      "step": 421990
    },
    {
      "epoch": 0.8791666666666667,
      "grad_norm": 1.0112545490264893,
      "learning_rate": 1.076702748536431e-05,
      "loss": 3.2867,
      "step": 422000
    },
    {
      "epoch": 0.8791666666666667,
      "eval_loss": 4.027313709259033,
      "eval_runtime": 8.651,
      "eval_samples_per_second": 1.156,
      "eval_steps_per_second": 0.347,
      "step": 422000
    },
    {
      "epoch": 0.8791875,
      "grad_norm": 0.8469392657279968,
      "learning_rate": 1.0763360086233563e-05,
      "loss": 3.3975,
      "step": 422010
    },
    {
      "epoch": 0.8792083333333334,
      "grad_norm": 1.0569179058074951,
      "learning_rate": 1.0759693288549992e-05,
      "loss": 3.2657,
      "step": 422020
    },
    {
      "epoch": 0.8792291666666666,
      "grad_norm": 0.9072067141532898,
      "learning_rate": 1.0756027092329433e-05,
      "loss": 3.3574,
      "step": 422030
    },
    {
      "epoch": 0.87925,
      "grad_norm": 0.935165286064148,
      "learning_rate": 1.0752361497587708e-05,
      "loss": 3.3561,
      "step": 422040
    },
    {
      "epoch": 0.8792708333333333,
      "grad_norm": 0.8365034461021423,
      "learning_rate": 1.0748696504340671e-05,
      "loss": 3.2827,
      "step": 422050
    },
    {
      "epoch": 0.8792916666666667,
      "grad_norm": 0.9395799040794373,
      "learning_rate": 1.074503211260414e-05,
      "loss": 3.3745,
      "step": 422060
    },
    {
      "epoch": 0.8793125,
      "grad_norm": 0.911486029624939,
      "learning_rate": 1.074136832239394e-05,
      "loss": 3.2839,
      "step": 422070
    },
    {
      "epoch": 0.8793333333333333,
      "grad_norm": 0.9303265810012817,
      "learning_rate": 1.0737705133725922e-05,
      "loss": 3.295,
      "step": 422080
    },
    {
      "epoch": 0.8793541666666667,
      "grad_norm": 0.9227281212806702,
      "learning_rate": 1.073404254661589e-05,
      "loss": 3.3852,
      "step": 422090
    },
    {
      "epoch": 0.879375,
      "grad_norm": 0.8694488406181335,
      "learning_rate": 1.0730380561079666e-05,
      "loss": 3.2884,
      "step": 422100
    },
    {
      "epoch": 0.8793958333333334,
      "grad_norm": 0.9094423651695251,
      "learning_rate": 1.0726719177133086e-05,
      "loss": 3.3056,
      "step": 422110
    },
    {
      "epoch": 0.8794166666666666,
      "grad_norm": 1.0138946771621704,
      "learning_rate": 1.0723058394791939e-05,
      "loss": 3.2723,
      "step": 422120
    },
    {
      "epoch": 0.8794375,
      "grad_norm": 1.0586707592010498,
      "learning_rate": 1.0719398214072045e-05,
      "loss": 3.3858,
      "step": 422130
    },
    {
      "epoch": 0.8794583333333333,
      "grad_norm": 0.9494470357894897,
      "learning_rate": 1.0715738634989223e-05,
      "loss": 3.3234,
      "step": 422140
    },
    {
      "epoch": 0.8794791666666667,
      "grad_norm": 0.960006594657898,
      "learning_rate": 1.0712079657559296e-05,
      "loss": 3.2057,
      "step": 422150
    },
    {
      "epoch": 0.8795,
      "grad_norm": 0.9331744909286499,
      "learning_rate": 1.0708421281798019e-05,
      "loss": 3.3245,
      "step": 422160
    },
    {
      "epoch": 0.8795208333333333,
      "grad_norm": 1.0587164163589478,
      "learning_rate": 1.0704763507721242e-05,
      "loss": 3.3358,
      "step": 422170
    },
    {
      "epoch": 0.8795416666666667,
      "grad_norm": 0.858690083026886,
      "learning_rate": 1.0701106335344772e-05,
      "loss": 3.3244,
      "step": 422180
    },
    {
      "epoch": 0.8795625,
      "grad_norm": 0.919584333896637,
      "learning_rate": 1.0697449764684363e-05,
      "loss": 3.1903,
      "step": 422190
    },
    {
      "epoch": 0.8795833333333334,
      "grad_norm": 0.916220486164093,
      "learning_rate": 1.06937937957558e-05,
      "loss": 3.3402,
      "step": 422200
    },
    {
      "epoch": 0.8796041666666666,
      "grad_norm": 0.8716253042221069,
      "learning_rate": 1.0690138428574956e-05,
      "loss": 3.2769,
      "step": 422210
    },
    {
      "epoch": 0.879625,
      "grad_norm": 0.9224854111671448,
      "learning_rate": 1.0686483663157553e-05,
      "loss": 3.3828,
      "step": 422220
    },
    {
      "epoch": 0.8796458333333333,
      "grad_norm": 0.9848120212554932,
      "learning_rate": 1.0682829499519374e-05,
      "loss": 3.3773,
      "step": 422230
    },
    {
      "epoch": 0.8796666666666667,
      "grad_norm": 0.8571183085441589,
      "learning_rate": 1.0679175937676277e-05,
      "loss": 3.2104,
      "step": 422240
    },
    {
      "epoch": 0.8796875,
      "grad_norm": 0.9428620338439941,
      "learning_rate": 1.0675522977643964e-05,
      "loss": 3.1448,
      "step": 422250
    },
    {
      "epoch": 0.8797083333333333,
      "grad_norm": 0.9109615087509155,
      "learning_rate": 1.0671870619438238e-05,
      "loss": 3.3764,
      "step": 422260
    },
    {
      "epoch": 0.8797291666666667,
      "grad_norm": 0.9437309503555298,
      "learning_rate": 1.066821886307489e-05,
      "loss": 3.2128,
      "step": 422270
    },
    {
      "epoch": 0.87975,
      "grad_norm": 1.0189123153686523,
      "learning_rate": 1.0664567708569672e-05,
      "loss": 3.248,
      "step": 422280
    },
    {
      "epoch": 0.8797708333333333,
      "grad_norm": 0.9180036783218384,
      "learning_rate": 1.0660917155938386e-05,
      "loss": 3.3255,
      "step": 422290
    },
    {
      "epoch": 0.8797916666666666,
      "grad_norm": 0.8612412214279175,
      "learning_rate": 1.0657267205196774e-05,
      "loss": 3.3695,
      "step": 422300
    },
    {
      "epoch": 0.8798125,
      "grad_norm": 1.0153205394744873,
      "learning_rate": 1.0653617856360602e-05,
      "loss": 3.1957,
      "step": 422310
    },
    {
      "epoch": 0.8798333333333334,
      "grad_norm": 0.8432851433753967,
      "learning_rate": 1.064996910944566e-05,
      "loss": 3.419,
      "step": 422320
    },
    {
      "epoch": 0.8798541666666667,
      "grad_norm": 0.9409263730049133,
      "learning_rate": 1.0646320964467685e-05,
      "loss": 3.228,
      "step": 422330
    },
    {
      "epoch": 0.879875,
      "grad_norm": 0.8855955004692078,
      "learning_rate": 1.064267342144245e-05,
      "loss": 3.3172,
      "step": 422340
    },
    {
      "epoch": 0.8798958333333333,
      "grad_norm": 0.855690062046051,
      "learning_rate": 1.0639026480385704e-05,
      "loss": 3.2361,
      "step": 422350
    },
    {
      "epoch": 0.8799166666666667,
      "grad_norm": 0.9519632458686829,
      "learning_rate": 1.0635380141313188e-05,
      "loss": 3.3852,
      "step": 422360
    },
    {
      "epoch": 0.8799375,
      "grad_norm": 0.9974716901779175,
      "learning_rate": 1.0631734404240689e-05,
      "loss": 3.4816,
      "step": 422370
    },
    {
      "epoch": 0.8799583333333333,
      "grad_norm": 0.8680758476257324,
      "learning_rate": 1.0628089269183909e-05,
      "loss": 3.3204,
      "step": 422380
    },
    {
      "epoch": 0.8799791666666666,
      "grad_norm": 0.9157946705818176,
      "learning_rate": 1.0624444736158621e-05,
      "loss": 3.3402,
      "step": 422390
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9340589046478271,
      "learning_rate": 1.0620800805180563e-05,
      "loss": 3.265,
      "step": 422400
    },
    {
      "epoch": 0.8800208333333334,
      "grad_norm": 0.8857386708259583,
      "learning_rate": 1.0617157476265487e-05,
      "loss": 3.2161,
      "step": 422410
    },
    {
      "epoch": 0.8800416666666667,
      "grad_norm": 1.0992271900177002,
      "learning_rate": 1.0613514749429115e-05,
      "loss": 3.314,
      "step": 422420
    },
    {
      "epoch": 0.8800625,
      "grad_norm": 0.9648388624191284,
      "learning_rate": 1.0609872624687183e-05,
      "loss": 3.3665,
      "step": 422430
    },
    {
      "epoch": 0.8800833333333333,
      "grad_norm": 0.8953074216842651,
      "learning_rate": 1.0606231102055412e-05,
      "loss": 3.295,
      "step": 422440
    },
    {
      "epoch": 0.8801041666666667,
      "grad_norm": 0.8563348650932312,
      "learning_rate": 1.0602590181549574e-05,
      "loss": 3.291,
      "step": 422450
    },
    {
      "epoch": 0.880125,
      "grad_norm": 1.0042921304702759,
      "learning_rate": 1.0598949863185357e-05,
      "loss": 3.3203,
      "step": 422460
    },
    {
      "epoch": 0.8801458333333333,
      "grad_norm": 0.9333533644676208,
      "learning_rate": 1.0595310146978515e-05,
      "loss": 3.3749,
      "step": 422470
    },
    {
      "epoch": 0.8801666666666667,
      "grad_norm": 0.9943293929100037,
      "learning_rate": 1.0591671032944716e-05,
      "loss": 3.328,
      "step": 422480
    },
    {
      "epoch": 0.8801875,
      "grad_norm": 0.9043578505516052,
      "learning_rate": 1.0588032521099731e-05,
      "loss": 3.2752,
      "step": 422490
    },
    {
      "epoch": 0.8802083333333334,
      "grad_norm": 1.0367748737335205,
      "learning_rate": 1.0584394611459285e-05,
      "loss": 3.3363,
      "step": 422500
    },
    {
      "epoch": 0.8802291666666666,
      "grad_norm": 0.9649695158004761,
      "learning_rate": 1.0580757304039028e-05,
      "loss": 3.3256,
      "step": 422510
    },
    {
      "epoch": 0.88025,
      "grad_norm": 0.8695329427719116,
      "learning_rate": 1.0577120598854766e-05,
      "loss": 3.1571,
      "step": 422520
    },
    {
      "epoch": 0.8802708333333333,
      "grad_norm": 0.8752307891845703,
      "learning_rate": 1.0573484495922118e-05,
      "loss": 3.2234,
      "step": 422530
    },
    {
      "epoch": 0.8802916666666667,
      "grad_norm": 1.0666946172714233,
      "learning_rate": 1.0569848995256825e-05,
      "loss": 3.1824,
      "step": 422540
    },
    {
      "epoch": 0.8803125,
      "grad_norm": 1.005021572113037,
      "learning_rate": 1.056621409687462e-05,
      "loss": 3.3114,
      "step": 422550
    },
    {
      "epoch": 0.8803333333333333,
      "grad_norm": 0.9448797106742859,
      "learning_rate": 1.0562579800791159e-05,
      "loss": 3.3294,
      "step": 422560
    },
    {
      "epoch": 0.8803541666666667,
      "grad_norm": 0.8271433711051941,
      "learning_rate": 1.0558946107022148e-05,
      "loss": 3.3616,
      "step": 422570
    },
    {
      "epoch": 0.880375,
      "grad_norm": 0.8871474266052246,
      "learning_rate": 1.0555313015583339e-05,
      "loss": 3.2937,
      "step": 422580
    },
    {
      "epoch": 0.8803958333333334,
      "grad_norm": 0.9644501209259033,
      "learning_rate": 1.0551680526490353e-05,
      "loss": 3.1619,
      "step": 422590
    },
    {
      "epoch": 0.8804166666666666,
      "grad_norm": 0.8369991183280945,
      "learning_rate": 1.0548048639758894e-05,
      "loss": 3.2661,
      "step": 422600
    },
    {
      "epoch": 0.8804375,
      "grad_norm": 0.8939071893692017,
      "learning_rate": 1.05444173554047e-05,
      "loss": 3.333,
      "step": 422610
    },
    {
      "epoch": 0.8804583333333333,
      "grad_norm": 0.9451332092285156,
      "learning_rate": 1.0540786673443408e-05,
      "loss": 3.2031,
      "step": 422620
    },
    {
      "epoch": 0.8804791666666667,
      "grad_norm": 0.9594283103942871,
      "learning_rate": 1.0537156593890689e-05,
      "loss": 3.3981,
      "step": 422630
    },
    {
      "epoch": 0.8805,
      "grad_norm": 0.8985366821289062,
      "learning_rate": 1.0533527116762296e-05,
      "loss": 3.4809,
      "step": 422640
    },
    {
      "epoch": 0.8805208333333333,
      "grad_norm": 0.8765997886657715,
      "learning_rate": 1.0529898242073836e-05,
      "loss": 3.2201,
      "step": 422650
    },
    {
      "epoch": 0.8805416666666667,
      "grad_norm": 0.8658061623573303,
      "learning_rate": 1.0526269969841028e-05,
      "loss": 3.318,
      "step": 422660
    },
    {
      "epoch": 0.8805625,
      "grad_norm": 0.9291631579399109,
      "learning_rate": 1.0522642300079509e-05,
      "loss": 3.4742,
      "step": 422670
    },
    {
      "epoch": 0.8805833333333334,
      "grad_norm": 0.9187220335006714,
      "learning_rate": 1.0519015232804967e-05,
      "loss": 3.2794,
      "step": 422680
    },
    {
      "epoch": 0.8806041666666666,
      "grad_norm": 1.0641727447509766,
      "learning_rate": 1.0515388768033072e-05,
      "loss": 3.4424,
      "step": 422690
    },
    {
      "epoch": 0.880625,
      "grad_norm": 0.8907612562179565,
      "learning_rate": 1.051176290577948e-05,
      "loss": 3.3642,
      "step": 422700
    },
    {
      "epoch": 0.8806458333333333,
      "grad_norm": 0.9126405715942383,
      "learning_rate": 1.050813764605986e-05,
      "loss": 3.31,
      "step": 422710
    },
    {
      "epoch": 0.8806666666666667,
      "grad_norm": 0.9518235325813293,
      "learning_rate": 1.0504512988889885e-05,
      "loss": 3.3077,
      "step": 422720
    },
    {
      "epoch": 0.8806875,
      "grad_norm": 0.898697018623352,
      "learning_rate": 1.050088893428519e-05,
      "loss": 3.2978,
      "step": 422730
    },
    {
      "epoch": 0.8807083333333333,
      "grad_norm": 0.9979826807975769,
      "learning_rate": 1.049726548226143e-05,
      "loss": 3.3399,
      "step": 422740
    },
    {
      "epoch": 0.8807291666666667,
      "grad_norm": 1.1017179489135742,
      "learning_rate": 1.049364263283426e-05,
      "loss": 3.369,
      "step": 422750
    },
    {
      "epoch": 0.88075,
      "grad_norm": 0.8558728098869324,
      "learning_rate": 1.049002038601935e-05,
      "loss": 3.1811,
      "step": 422760
    },
    {
      "epoch": 0.8807708333333333,
      "grad_norm": 0.8782282471656799,
      "learning_rate": 1.0486398741832319e-05,
      "loss": 3.3634,
      "step": 422770
    },
    {
      "epoch": 0.8807916666666666,
      "grad_norm": 0.9712322950363159,
      "learning_rate": 1.0482777700288858e-05,
      "loss": 3.3312,
      "step": 422780
    },
    {
      "epoch": 0.8808125,
      "grad_norm": 1.0087566375732422,
      "learning_rate": 1.0479157261404503e-05,
      "loss": 3.4658,
      "step": 422790
    },
    {
      "epoch": 0.8808333333333334,
      "grad_norm": 0.8665156960487366,
      "learning_rate": 1.0475537425195008e-05,
      "loss": 3.2897,
      "step": 422800
    },
    {
      "epoch": 0.8808541666666667,
      "grad_norm": 1.0159692764282227,
      "learning_rate": 1.0471918191675976e-05,
      "loss": 3.2795,
      "step": 422810
    },
    {
      "epoch": 0.880875,
      "grad_norm": 0.9767606854438782,
      "learning_rate": 1.0468299560862981e-05,
      "loss": 3.3801,
      "step": 422820
    },
    {
      "epoch": 0.8808958333333333,
      "grad_norm": 0.9681037068367004,
      "learning_rate": 1.0464681532771724e-05,
      "loss": 3.3706,
      "step": 422830
    },
    {
      "epoch": 0.8809166666666667,
      "grad_norm": 0.9769601821899414,
      "learning_rate": 1.0461064107417844e-05,
      "loss": 3.4379,
      "step": 422840
    },
    {
      "epoch": 0.8809375,
      "grad_norm": 0.9198617935180664,
      "learning_rate": 1.0457447284816878e-05,
      "loss": 3.4104,
      "step": 422850
    },
    {
      "epoch": 0.8809583333333333,
      "grad_norm": 1.0320872068405151,
      "learning_rate": 1.045383106498453e-05,
      "loss": 3.2384,
      "step": 422860
    },
    {
      "epoch": 0.8809791666666666,
      "grad_norm": 0.8993248343467712,
      "learning_rate": 1.0450215447936421e-05,
      "loss": 3.2544,
      "step": 422870
    },
    {
      "epoch": 0.881,
      "grad_norm": 0.9837703704833984,
      "learning_rate": 1.0446600433688107e-05,
      "loss": 3.2291,
      "step": 422880
    },
    {
      "epoch": 0.8810208333333334,
      "grad_norm": 0.9355766177177429,
      "learning_rate": 1.0442986022255274e-05,
      "loss": 3.261,
      "step": 422890
    },
    {
      "epoch": 0.8810416666666666,
      "grad_norm": 0.976851224899292,
      "learning_rate": 1.0439372213653473e-05,
      "loss": 3.398,
      "step": 422900
    },
    {
      "epoch": 0.8810625,
      "grad_norm": 0.889341413974762,
      "learning_rate": 1.043575900789833e-05,
      "loss": 3.254,
      "step": 422910
    },
    {
      "epoch": 0.8810833333333333,
      "grad_norm": 0.998745322227478,
      "learning_rate": 1.0432146405005497e-05,
      "loss": 3.4526,
      "step": 422920
    },
    {
      "epoch": 0.8811041666666667,
      "grad_norm": 1.0373516082763672,
      "learning_rate": 1.0428534404990547e-05,
      "loss": 3.2615,
      "step": 422930
    },
    {
      "epoch": 0.881125,
      "grad_norm": 1.0846304893493652,
      "learning_rate": 1.042492300786903e-05,
      "loss": 3.3185,
      "step": 422940
    },
    {
      "epoch": 0.8811458333333333,
      "grad_norm": 0.8831701874732971,
      "learning_rate": 1.0421312213656669e-05,
      "loss": 3.2578,
      "step": 422950
    },
    {
      "epoch": 0.8811666666666667,
      "grad_norm": 0.9136513471603394,
      "learning_rate": 1.0417702022368952e-05,
      "loss": 3.3269,
      "step": 422960
    },
    {
      "epoch": 0.8811875,
      "grad_norm": 0.8333404064178467,
      "learning_rate": 1.0414092434021499e-05,
      "loss": 3.4317,
      "step": 422970
    },
    {
      "epoch": 0.8812083333333334,
      "grad_norm": 0.8543227910995483,
      "learning_rate": 1.0410483448629947e-05,
      "loss": 3.3202,
      "step": 422980
    },
    {
      "epoch": 0.8812291666666666,
      "grad_norm": 0.8896128535270691,
      "learning_rate": 1.0406875066209852e-05,
      "loss": 3.3796,
      "step": 422990
    },
    {
      "epoch": 0.88125,
      "grad_norm": 0.9401677250862122,
      "learning_rate": 1.040326728677675e-05,
      "loss": 3.2743,
      "step": 423000
    },
    {
      "epoch": 0.88125,
      "eval_loss": 4.02419376373291,
      "eval_runtime": 8.5865,
      "eval_samples_per_second": 1.165,
      "eval_steps_per_second": 0.349,
      "step": 423000
    },
    {
      "epoch": 0.8812708333333333,
      "grad_norm": 0.9392144680023193,
      "learning_rate": 1.0399660110346347e-05,
      "loss": 3.4856,
      "step": 423010
    },
    {
      "epoch": 0.8812916666666667,
      "grad_norm": 0.9158485531806946,
      "learning_rate": 1.039605353693413e-05,
      "loss": 3.3668,
      "step": 423020
    },
    {
      "epoch": 0.8813125,
      "grad_norm": 0.929699718952179,
      "learning_rate": 1.0392447566555684e-05,
      "loss": 3.2487,
      "step": 423030
    },
    {
      "epoch": 0.8813333333333333,
      "grad_norm": 0.8910328149795532,
      "learning_rate": 1.0388842199226616e-05,
      "loss": 3.4069,
      "step": 423040
    },
    {
      "epoch": 0.8813541666666667,
      "grad_norm": 1.0577995777130127,
      "learning_rate": 1.0385237434962496e-05,
      "loss": 3.371,
      "step": 423050
    },
    {
      "epoch": 0.881375,
      "grad_norm": 0.9848863482475281,
      "learning_rate": 1.0381633273778878e-05,
      "loss": 3.3024,
      "step": 423060
    },
    {
      "epoch": 0.8813958333333334,
      "grad_norm": 0.9052245616912842,
      "learning_rate": 1.0378029715691333e-05,
      "loss": 3.3019,
      "step": 423070
    },
    {
      "epoch": 0.8814166666666666,
      "grad_norm": 1.033914566040039,
      "learning_rate": 1.0374426760715448e-05,
      "loss": 3.1888,
      "step": 423080
    },
    {
      "epoch": 0.8814375,
      "grad_norm": 1.035269021987915,
      "learning_rate": 1.0370824408866762e-05,
      "loss": 3.3701,
      "step": 423090
    },
    {
      "epoch": 0.8814583333333333,
      "grad_norm": 0.8730317950248718,
      "learning_rate": 1.0367222660160845e-05,
      "loss": 3.2774,
      "step": 423100
    },
    {
      "epoch": 0.8814791666666667,
      "grad_norm": 0.9650065898895264,
      "learning_rate": 1.0363621514613269e-05,
      "loss": 3.3248,
      "step": 423110
    },
    {
      "epoch": 0.8815,
      "grad_norm": 0.9677871465682983,
      "learning_rate": 1.0360020972239552e-05,
      "loss": 3.338,
      "step": 423120
    },
    {
      "epoch": 0.8815208333333333,
      "grad_norm": 0.8551022410392761,
      "learning_rate": 1.03564210330553e-05,
      "loss": 3.239,
      "step": 423130
    },
    {
      "epoch": 0.8815416666666667,
      "grad_norm": 1.0797137022018433,
      "learning_rate": 1.0352821697076019e-05,
      "loss": 3.3038,
      "step": 423140
    },
    {
      "epoch": 0.8815625,
      "grad_norm": 0.8482689261436462,
      "learning_rate": 1.0349222964317294e-05,
      "loss": 3.2115,
      "step": 423150
    },
    {
      "epoch": 0.8815833333333334,
      "grad_norm": 1.0142196416854858,
      "learning_rate": 1.0345624834794597e-05,
      "loss": 3.3424,
      "step": 423160
    },
    {
      "epoch": 0.8816041666666666,
      "grad_norm": 0.915629506111145,
      "learning_rate": 1.034202730852355e-05,
      "loss": 3.2353,
      "step": 423170
    },
    {
      "epoch": 0.881625,
      "grad_norm": 0.9951045513153076,
      "learning_rate": 1.0338430385519686e-05,
      "loss": 3.2449,
      "step": 423180
    },
    {
      "epoch": 0.8816458333333334,
      "grad_norm": 0.9391891956329346,
      "learning_rate": 1.0334834065798481e-05,
      "loss": 3.3915,
      "step": 423190
    },
    {
      "epoch": 0.8816666666666667,
      "grad_norm": 0.886809766292572,
      "learning_rate": 1.0331238349375537e-05,
      "loss": 3.3604,
      "step": 423200
    },
    {
      "epoch": 0.8816875,
      "grad_norm": 0.8858762383460999,
      "learning_rate": 1.0327643236266375e-05,
      "loss": 3.3467,
      "step": 423210
    },
    {
      "epoch": 0.8817083333333333,
      "grad_norm": 0.8993565440177917,
      "learning_rate": 1.032404872648645e-05,
      "loss": 3.3519,
      "step": 423220
    },
    {
      "epoch": 0.8817291666666667,
      "grad_norm": 0.9770063757896423,
      "learning_rate": 1.0320454820051383e-05,
      "loss": 3.4106,
      "step": 423230
    },
    {
      "epoch": 0.88175,
      "grad_norm": 0.9085571765899658,
      "learning_rate": 1.0316861516976677e-05,
      "loss": 3.3661,
      "step": 423240
    },
    {
      "epoch": 0.8817708333333333,
      "grad_norm": 0.8986465334892273,
      "learning_rate": 1.0313268817277804e-05,
      "loss": 3.326,
      "step": 423250
    },
    {
      "epoch": 0.8817916666666666,
      "grad_norm": 0.9478760957717896,
      "learning_rate": 1.0309676720970367e-05,
      "loss": 3.4317,
      "step": 423260
    },
    {
      "epoch": 0.8818125,
      "grad_norm": 0.8723692893981934,
      "learning_rate": 1.0306085228069788e-05,
      "loss": 3.3106,
      "step": 423270
    },
    {
      "epoch": 0.8818333333333334,
      "grad_norm": 1.0495535135269165,
      "learning_rate": 1.030249433859162e-05,
      "loss": 3.3909,
      "step": 423280
    },
    {
      "epoch": 0.8818541666666667,
      "grad_norm": 0.9379892945289612,
      "learning_rate": 1.0298904052551421e-05,
      "loss": 3.2013,
      "step": 423290
    },
    {
      "epoch": 0.881875,
      "grad_norm": 0.9028180837631226,
      "learning_rate": 1.0295314369964641e-05,
      "loss": 3.3252,
      "step": 423300
    },
    {
      "epoch": 0.8818958333333333,
      "grad_norm": 0.8848550319671631,
      "learning_rate": 1.0291725290846786e-05,
      "loss": 3.2104,
      "step": 423310
    },
    {
      "epoch": 0.8819166666666667,
      "grad_norm": 0.9750167727470398,
      "learning_rate": 1.028813681521341e-05,
      "loss": 3.3166,
      "step": 423320
    },
    {
      "epoch": 0.8819375,
      "grad_norm": 0.8632057905197144,
      "learning_rate": 1.0284548943079967e-05,
      "loss": 3.2857,
      "step": 423330
    },
    {
      "epoch": 0.8819583333333333,
      "grad_norm": 0.8585737347602844,
      "learning_rate": 1.0280961674461946e-05,
      "loss": 3.4101,
      "step": 423340
    },
    {
      "epoch": 0.8819791666666666,
      "grad_norm": 1.1286436319351196,
      "learning_rate": 1.0277375009374899e-05,
      "loss": 3.3011,
      "step": 423350
    },
    {
      "epoch": 0.882,
      "grad_norm": 0.917778730392456,
      "learning_rate": 1.0273788947834283e-05,
      "loss": 3.2654,
      "step": 423360
    },
    {
      "epoch": 0.8820208333333334,
      "grad_norm": 0.9094762802124023,
      "learning_rate": 1.0270203489855583e-05,
      "loss": 3.2569,
      "step": 423370
    },
    {
      "epoch": 0.8820416666666666,
      "grad_norm": 0.9601770639419556,
      "learning_rate": 1.0266618635454288e-05,
      "loss": 3.2178,
      "step": 423380
    },
    {
      "epoch": 0.8820625,
      "grad_norm": 1.087859869003296,
      "learning_rate": 1.0263034384645886e-05,
      "loss": 3.4107,
      "step": 423390
    },
    {
      "epoch": 0.8820833333333333,
      "grad_norm": 0.9105960130691528,
      "learning_rate": 1.0259450737445878e-05,
      "loss": 3.4838,
      "step": 423400
    },
    {
      "epoch": 0.8821041666666667,
      "grad_norm": 0.8686650395393372,
      "learning_rate": 1.0255867693869723e-05,
      "loss": 3.2393,
      "step": 423410
    },
    {
      "epoch": 0.882125,
      "grad_norm": 0.9440351724624634,
      "learning_rate": 1.0252285253932908e-05,
      "loss": 3.2324,
      "step": 423420
    },
    {
      "epoch": 0.8821458333333333,
      "grad_norm": 0.9267724752426147,
      "learning_rate": 1.02487034176509e-05,
      "loss": 3.3952,
      "step": 423430
    },
    {
      "epoch": 0.8821666666666667,
      "grad_norm": 0.8317778706550598,
      "learning_rate": 1.024512218503919e-05,
      "loss": 3.2875,
      "step": 423440
    },
    {
      "epoch": 0.8821875,
      "grad_norm": 0.9340527653694153,
      "learning_rate": 1.0241541556113214e-05,
      "loss": 3.3979,
      "step": 423450
    },
    {
      "epoch": 0.8822083333333334,
      "grad_norm": 0.9016029834747314,
      "learning_rate": 1.0237961530888478e-05,
      "loss": 3.2687,
      "step": 423460
    },
    {
      "epoch": 0.8822291666666666,
      "grad_norm": 0.8520355224609375,
      "learning_rate": 1.02343821093804e-05,
      "loss": 3.2224,
      "step": 423470
    },
    {
      "epoch": 0.88225,
      "grad_norm": 0.9233881235122681,
      "learning_rate": 1.0230803291604489e-05,
      "loss": 3.3099,
      "step": 423480
    },
    {
      "epoch": 0.8822708333333333,
      "grad_norm": 0.892740786075592,
      "learning_rate": 1.022722507757618e-05,
      "loss": 3.3075,
      "step": 423490
    },
    {
      "epoch": 0.8822916666666667,
      "grad_norm": 0.9109554290771484,
      "learning_rate": 1.0223647467310925e-05,
      "loss": 3.2295,
      "step": 423500
    },
    {
      "epoch": 0.8823125,
      "grad_norm": 0.9721740484237671,
      "learning_rate": 1.0220070460824198e-05,
      "loss": 3.266,
      "step": 423510
    },
    {
      "epoch": 0.8823333333333333,
      "grad_norm": 0.9681236743927002,
      "learning_rate": 1.0216494058131453e-05,
      "loss": 3.3267,
      "step": 423520
    },
    {
      "epoch": 0.8823541666666667,
      "grad_norm": 0.8694334626197815,
      "learning_rate": 1.0212918259248077e-05,
      "loss": 3.3763,
      "step": 423530
    },
    {
      "epoch": 0.882375,
      "grad_norm": 1.004153847694397,
      "learning_rate": 1.020934306418959e-05,
      "loss": 3.323,
      "step": 423540
    },
    {
      "epoch": 0.8823958333333334,
      "grad_norm": 0.9354289174079895,
      "learning_rate": 1.0205768472971431e-05,
      "loss": 3.3191,
      "step": 423550
    },
    {
      "epoch": 0.8824166666666666,
      "grad_norm": 0.9139755368232727,
      "learning_rate": 1.0202194485608972e-05,
      "loss": 3.3113,
      "step": 423560
    },
    {
      "epoch": 0.8824375,
      "grad_norm": 0.8441207408905029,
      "learning_rate": 1.0198621102117716e-05,
      "loss": 3.281,
      "step": 423570
    },
    {
      "epoch": 0.8824583333333333,
      "grad_norm": 0.8804517388343811,
      "learning_rate": 1.01950483225131e-05,
      "loss": 3.3314,
      "step": 423580
    },
    {
      "epoch": 0.8824791666666667,
      "grad_norm": 1.0554234981536865,
      "learning_rate": 1.0191476146810495e-05,
      "loss": 3.2967,
      "step": 423590
    },
    {
      "epoch": 0.8825,
      "grad_norm": 0.8981156349182129,
      "learning_rate": 1.0187904575025391e-05,
      "loss": 3.2621,
      "step": 423600
    },
    {
      "epoch": 0.8825208333333333,
      "grad_norm": 0.894972562789917,
      "learning_rate": 1.0184333607173222e-05,
      "loss": 3.3976,
      "step": 423610
    },
    {
      "epoch": 0.8825416666666667,
      "grad_norm": 0.8847416043281555,
      "learning_rate": 1.0180763243269346e-05,
      "loss": 3.2933,
      "step": 423620
    },
    {
      "epoch": 0.8825625,
      "grad_norm": 1.2511601448059082,
      "learning_rate": 1.0177193483329248e-05,
      "loss": 3.2681,
      "step": 423630
    },
    {
      "epoch": 0.8825833333333334,
      "grad_norm": 0.9722651243209839,
      "learning_rate": 1.0173624327368369e-05,
      "loss": 3.2793,
      "step": 423640
    },
    {
      "epoch": 0.8826041666666666,
      "grad_norm": 0.8684360384941101,
      "learning_rate": 1.0170055775402042e-05,
      "loss": 3.2119,
      "step": 423650
    },
    {
      "epoch": 0.882625,
      "grad_norm": 0.8978828191757202,
      "learning_rate": 1.016648782744574e-05,
      "loss": 3.2464,
      "step": 423660
    },
    {
      "epoch": 0.8826458333333334,
      "grad_norm": 0.842964768409729,
      "learning_rate": 1.0162920483514853e-05,
      "loss": 3.2755,
      "step": 423670
    },
    {
      "epoch": 0.8826666666666667,
      "grad_norm": 0.944389820098877,
      "learning_rate": 1.0159353743624798e-05,
      "loss": 3.353,
      "step": 423680
    },
    {
      "epoch": 0.8826875,
      "grad_norm": 0.9060003161430359,
      "learning_rate": 1.0155787607790983e-05,
      "loss": 3.3016,
      "step": 423690
    },
    {
      "epoch": 0.8827083333333333,
      "grad_norm": 0.9024182558059692,
      "learning_rate": 1.015222207602881e-05,
      "loss": 3.2375,
      "step": 423700
    },
    {
      "epoch": 0.8827291666666667,
      "grad_norm": 0.8766162991523743,
      "learning_rate": 1.0148657148353684e-05,
      "loss": 3.2588,
      "step": 423710
    },
    {
      "epoch": 0.88275,
      "grad_norm": 0.9089559316635132,
      "learning_rate": 1.0145092824780992e-05,
      "loss": 3.4474,
      "step": 423720
    },
    {
      "epoch": 0.8827708333333333,
      "grad_norm": 0.9729745984077454,
      "learning_rate": 1.0141529105326157e-05,
      "loss": 3.2759,
      "step": 423730
    },
    {
      "epoch": 0.8827916666666666,
      "grad_norm": 0.9743500351905823,
      "learning_rate": 1.013796599000455e-05,
      "loss": 3.3293,
      "step": 423740
    },
    {
      "epoch": 0.8828125,
      "grad_norm": 0.9468594193458557,
      "learning_rate": 1.0134403478831554e-05,
      "loss": 3.3757,
      "step": 423750
    },
    {
      "epoch": 0.8828333333333334,
      "grad_norm": 0.9093580842018127,
      "learning_rate": 1.0130841571822595e-05,
      "loss": 3.203,
      "step": 423760
    },
    {
      "epoch": 0.8828541666666667,
      "grad_norm": 0.8731657266616821,
      "learning_rate": 1.0127280268993026e-05,
      "loss": 3.2773,
      "step": 423770
    },
    {
      "epoch": 0.882875,
      "grad_norm": 0.8851611018180847,
      "learning_rate": 1.0123719570358235e-05,
      "loss": 3.3435,
      "step": 423780
    },
    {
      "epoch": 0.8828958333333333,
      "grad_norm": 0.8609182834625244,
      "learning_rate": 1.0120159475933627e-05,
      "loss": 3.3693,
      "step": 423790
    },
    {
      "epoch": 0.8829166666666667,
      "grad_norm": 0.9446471333503723,
      "learning_rate": 1.0116599985734536e-05,
      "loss": 3.3486,
      "step": 423800
    },
    {
      "epoch": 0.8829375,
      "grad_norm": 0.8343223333358765,
      "learning_rate": 1.0113041099776387e-05,
      "loss": 3.2835,
      "step": 423810
    },
    {
      "epoch": 0.8829583333333333,
      "grad_norm": 0.9163921475410461,
      "learning_rate": 1.0109482818074517e-05,
      "loss": 3.3469,
      "step": 423820
    },
    {
      "epoch": 0.8829791666666666,
      "grad_norm": 1.0038100481033325,
      "learning_rate": 1.0105925140644311e-05,
      "loss": 3.2678,
      "step": 423830
    },
    {
      "epoch": 0.883,
      "grad_norm": 1.0204936265945435,
      "learning_rate": 1.0102368067501127e-05,
      "loss": 3.2692,
      "step": 423840
    },
    {
      "epoch": 0.8830208333333334,
      "grad_norm": 0.9553910493850708,
      "learning_rate": 1.009881159866035e-05,
      "loss": 3.3079,
      "step": 423850
    },
    {
      "epoch": 0.8830416666666666,
      "grad_norm": 0.9220901131629944,
      "learning_rate": 1.009525573413732e-05,
      "loss": 3.3277,
      "step": 423860
    },
    {
      "epoch": 0.8830625,
      "grad_norm": 0.8712490200996399,
      "learning_rate": 1.0091700473947423e-05,
      "loss": 3.2527,
      "step": 423870
    },
    {
      "epoch": 0.8830833333333333,
      "grad_norm": 1.0701802968978882,
      "learning_rate": 1.008814581810598e-05,
      "loss": 3.3231,
      "step": 423880
    },
    {
      "epoch": 0.8831041666666667,
      "grad_norm": 0.8714732527732849,
      "learning_rate": 1.0084591766628415e-05,
      "loss": 3.249,
      "step": 423890
    },
    {
      "epoch": 0.883125,
      "grad_norm": 0.896518349647522,
      "learning_rate": 1.008103831952996e-05,
      "loss": 3.3842,
      "step": 423900
    },
    {
      "epoch": 0.8831458333333333,
      "grad_norm": 0.8675446510314941,
      "learning_rate": 1.0077485476826075e-05,
      "loss": 3.442,
      "step": 423910
    },
    {
      "epoch": 0.8831666666666667,
      "grad_norm": 0.8981210589408875,
      "learning_rate": 1.0073933238532078e-05,
      "loss": 3.2802,
      "step": 423920
    },
    {
      "epoch": 0.8831875,
      "grad_norm": 0.8978902697563171,
      "learning_rate": 1.0070381604663291e-05,
      "loss": 3.3142,
      "step": 423930
    },
    {
      "epoch": 0.8832083333333334,
      "grad_norm": 0.8770524859428406,
      "learning_rate": 1.0066830575235035e-05,
      "loss": 3.3255,
      "step": 423940
    },
    {
      "epoch": 0.8832291666666666,
      "grad_norm": 0.9515753388404846,
      "learning_rate": 1.0063280150262731e-05,
      "loss": 3.2354,
      "step": 423950
    },
    {
      "epoch": 0.88325,
      "grad_norm": 0.9178248643875122,
      "learning_rate": 1.0059730329761651e-05,
      "loss": 3.2861,
      "step": 423960
    },
    {
      "epoch": 0.8832708333333333,
      "grad_norm": 0.8550946116447449,
      "learning_rate": 1.0056181113747114e-05,
      "loss": 3.2716,
      "step": 423970
    },
    {
      "epoch": 0.8832916666666667,
      "grad_norm": 0.828612744808197,
      "learning_rate": 1.0052632502234525e-05,
      "loss": 3.2171,
      "step": 423980
    },
    {
      "epoch": 0.8833125,
      "grad_norm": 0.8590706586837769,
      "learning_rate": 1.004908449523914e-05,
      "loss": 3.3178,
      "step": 423990
    },
    {
      "epoch": 0.8833333333333333,
      "grad_norm": 0.9373770952224731,
      "learning_rate": 1.0045537092776296e-05,
      "loss": 3.421,
      "step": 424000
    },
    {
      "epoch": 0.8833333333333333,
      "eval_loss": 4.024933815002441,
      "eval_runtime": 8.2011,
      "eval_samples_per_second": 1.219,
      "eval_steps_per_second": 0.366,
      "step": 424000
    },
    {
      "epoch": 0.8833541666666667,
      "grad_norm": 0.8951435685157776,
      "learning_rate": 1.004199029486138e-05,
      "loss": 3.2511,
      "step": 424010
    },
    {
      "epoch": 0.883375,
      "grad_norm": 0.9432240724563599,
      "learning_rate": 1.0038444101509645e-05,
      "loss": 3.2629,
      "step": 424020
    },
    {
      "epoch": 0.8833958333333334,
      "grad_norm": 0.8603440523147583,
      "learning_rate": 1.0034898512736433e-05,
      "loss": 3.3326,
      "step": 424030
    },
    {
      "epoch": 0.8834166666666666,
      "grad_norm": 1.0257987976074219,
      "learning_rate": 1.0031353528557062e-05,
      "loss": 3.3775,
      "step": 424040
    },
    {
      "epoch": 0.8834375,
      "grad_norm": 0.9174759984016418,
      "learning_rate": 1.0027809148986821e-05,
      "loss": 3.341,
      "step": 424050
    },
    {
      "epoch": 0.8834583333333333,
      "grad_norm": 0.8444969654083252,
      "learning_rate": 1.0024265374041063e-05,
      "loss": 3.2711,
      "step": 424060
    },
    {
      "epoch": 0.8834791666666667,
      "grad_norm": 0.8724287152290344,
      "learning_rate": 1.002072220373506e-05,
      "loss": 3.3324,
      "step": 424070
    },
    {
      "epoch": 0.8835,
      "grad_norm": 0.8473387956619263,
      "learning_rate": 1.0017179638084133e-05,
      "loss": 3.3119,
      "step": 424080
    },
    {
      "epoch": 0.8835208333333333,
      "grad_norm": 0.9419876337051392,
      "learning_rate": 1.001363767710357e-05,
      "loss": 3.3433,
      "step": 424090
    },
    {
      "epoch": 0.8835416666666667,
      "grad_norm": 0.9732499718666077,
      "learning_rate": 1.0010096320808692e-05,
      "loss": 3.3038,
      "step": 424100
    },
    {
      "epoch": 0.8835625,
      "grad_norm": 0.9085878133773804,
      "learning_rate": 1.0006555569214786e-05,
      "loss": 3.3168,
      "step": 424110
    },
    {
      "epoch": 0.8835833333333334,
      "grad_norm": 0.9215046167373657,
      "learning_rate": 1.0003015422337141e-05,
      "loss": 3.3499,
      "step": 424120
    },
    {
      "epoch": 0.8836041666666666,
      "grad_norm": 0.982832670211792,
      "learning_rate": 9.99947588019106e-06,
      "loss": 3.3022,
      "step": 424130
    },
    {
      "epoch": 0.883625,
      "grad_norm": 0.9404163956642151,
      "learning_rate": 9.995936942791832e-06,
      "loss": 3.4114,
      "step": 424140
    },
    {
      "epoch": 0.8836458333333334,
      "grad_norm": 0.9637482762336731,
      "learning_rate": 9.992398610154728e-06,
      "loss": 3.2676,
      "step": 424150
    },
    {
      "epoch": 0.8836666666666667,
      "grad_norm": 0.9269621968269348,
      "learning_rate": 9.988860882295052e-06,
      "loss": 3.4022,
      "step": 424160
    },
    {
      "epoch": 0.8836875,
      "grad_norm": 1.0066213607788086,
      "learning_rate": 9.985323759228076e-06,
      "loss": 3.2096,
      "step": 424170
    },
    {
      "epoch": 0.8837083333333333,
      "grad_norm": 1.0787339210510254,
      "learning_rate": 9.981787240969069e-06,
      "loss": 3.3695,
      "step": 424180
    },
    {
      "epoch": 0.8837291666666667,
      "grad_norm": 0.9110880494117737,
      "learning_rate": 9.978251327533338e-06,
      "loss": 3.3794,
      "step": 424190
    },
    {
      "epoch": 0.88375,
      "grad_norm": 0.9708510637283325,
      "learning_rate": 9.974716018936118e-06,
      "loss": 3.3043,
      "step": 424200
    },
    {
      "epoch": 0.8837708333333333,
      "grad_norm": 1.0192391872406006,
      "learning_rate": 9.9711813151927e-06,
      "loss": 3.4747,
      "step": 424210
    },
    {
      "epoch": 0.8837916666666666,
      "grad_norm": 0.8518852591514587,
      "learning_rate": 9.96764721631837e-06,
      "loss": 3.2679,
      "step": 424220
    },
    {
      "epoch": 0.8838125,
      "grad_norm": 0.9117017984390259,
      "learning_rate": 9.964113722328365e-06,
      "loss": 3.3999,
      "step": 424230
    },
    {
      "epoch": 0.8838333333333334,
      "grad_norm": 0.8697839975357056,
      "learning_rate": 9.960580833237975e-06,
      "loss": 3.2761,
      "step": 424240
    },
    {
      "epoch": 0.8838541666666667,
      "grad_norm": 0.9400105476379395,
      "learning_rate": 9.957048549062402e-06,
      "loss": 3.3249,
      "step": 424250
    },
    {
      "epoch": 0.883875,
      "grad_norm": 0.9454765319824219,
      "learning_rate": 9.953516869816986e-06,
      "loss": 3.3643,
      "step": 424260
    },
    {
      "epoch": 0.8838958333333333,
      "grad_norm": 0.901370644569397,
      "learning_rate": 9.949985795516929e-06,
      "loss": 3.3266,
      "step": 424270
    },
    {
      "epoch": 0.8839166666666667,
      "grad_norm": 1.0078659057617188,
      "learning_rate": 9.946455326177472e-06,
      "loss": 3.3686,
      "step": 424280
    },
    {
      "epoch": 0.8839375,
      "grad_norm": 0.9135193228721619,
      "learning_rate": 9.942925461813933e-06,
      "loss": 3.279,
      "step": 424290
    },
    {
      "epoch": 0.8839583333333333,
      "grad_norm": 0.8813397884368896,
      "learning_rate": 9.939396202441502e-06,
      "loss": 3.2396,
      "step": 424300
    },
    {
      "epoch": 0.8839791666666666,
      "grad_norm": 0.9694684147834778,
      "learning_rate": 9.935867548075415e-06,
      "loss": 3.266,
      "step": 424310
    },
    {
      "epoch": 0.884,
      "grad_norm": 0.8443824648857117,
      "learning_rate": 9.932339498730995e-06,
      "loss": 3.2403,
      "step": 424320
    },
    {
      "epoch": 0.8840208333333334,
      "grad_norm": 0.9164692759513855,
      "learning_rate": 9.92881205442338e-06,
      "loss": 3.2516,
      "step": 424330
    },
    {
      "epoch": 0.8840416666666666,
      "grad_norm": 0.858066201210022,
      "learning_rate": 9.925285215167838e-06,
      "loss": 3.414,
      "step": 424340
    },
    {
      "epoch": 0.8840625,
      "grad_norm": 0.8778783082962036,
      "learning_rate": 9.921758980979677e-06,
      "loss": 3.21,
      "step": 424350
    },
    {
      "epoch": 0.8840833333333333,
      "grad_norm": 0.9122450351715088,
      "learning_rate": 9.918233351874034e-06,
      "loss": 3.4642,
      "step": 424360
    },
    {
      "epoch": 0.8841041666666667,
      "grad_norm": 0.9346694350242615,
      "learning_rate": 9.914708327866161e-06,
      "loss": 3.2435,
      "step": 424370
    },
    {
      "epoch": 0.884125,
      "grad_norm": 0.8761783838272095,
      "learning_rate": 9.911183908971331e-06,
      "loss": 3.2967,
      "step": 424380
    },
    {
      "epoch": 0.8841458333333333,
      "grad_norm": 0.8482958674430847,
      "learning_rate": 9.907660095204734e-06,
      "loss": 3.4265,
      "step": 424390
    },
    {
      "epoch": 0.8841666666666667,
      "grad_norm": 1.007289171218872,
      "learning_rate": 9.90413688658157e-06,
      "loss": 3.2813,
      "step": 424400
    },
    {
      "epoch": 0.8841875,
      "grad_norm": 0.9756982326507568,
      "learning_rate": 9.900614283117098e-06,
      "loss": 3.3288,
      "step": 424410
    },
    {
      "epoch": 0.8842083333333334,
      "grad_norm": 0.8914888501167297,
      "learning_rate": 9.897092284826503e-06,
      "loss": 3.2471,
      "step": 424420
    },
    {
      "epoch": 0.8842291666666666,
      "grad_norm": 0.8736163973808289,
      "learning_rate": 9.893570891725022e-06,
      "loss": 3.3438,
      "step": 424430
    },
    {
      "epoch": 0.88425,
      "grad_norm": 0.8970802426338196,
      "learning_rate": 9.890050103827845e-06,
      "loss": 3.2259,
      "step": 424440
    },
    {
      "epoch": 0.8842708333333333,
      "grad_norm": 0.8751561641693115,
      "learning_rate": 9.88652992115021e-06,
      "loss": 3.2905,
      "step": 424450
    },
    {
      "epoch": 0.8842916666666667,
      "grad_norm": 0.9587212800979614,
      "learning_rate": 9.883010343707287e-06,
      "loss": 3.3085,
      "step": 424460
    },
    {
      "epoch": 0.8843125,
      "grad_norm": 0.8674747347831726,
      "learning_rate": 9.879491371514313e-06,
      "loss": 3.4438,
      "step": 424470
    },
    {
      "epoch": 0.8843333333333333,
      "grad_norm": 0.8786516785621643,
      "learning_rate": 9.875973004586463e-06,
      "loss": 3.2669,
      "step": 424480
    },
    {
      "epoch": 0.8843541666666667,
      "grad_norm": 0.88568514585495,
      "learning_rate": 9.872455242938954e-06,
      "loss": 3.3208,
      "step": 424490
    },
    {
      "epoch": 0.884375,
      "grad_norm": 0.9029054045677185,
      "learning_rate": 9.868938086586959e-06,
      "loss": 3.3995,
      "step": 424500
    },
    {
      "epoch": 0.8843958333333334,
      "grad_norm": 0.8552724719047546,
      "learning_rate": 9.865421535545698e-06,
      "loss": 3.3962,
      "step": 424510
    },
    {
      "epoch": 0.8844166666666666,
      "grad_norm": 0.8980255126953125,
      "learning_rate": 9.86190558983036e-06,
      "loss": 3.2766,
      "step": 424520
    },
    {
      "epoch": 0.8844375,
      "grad_norm": 0.8762463927268982,
      "learning_rate": 9.858390249456083e-06,
      "loss": 3.3687,
      "step": 424530
    },
    {
      "epoch": 0.8844583333333333,
      "grad_norm": 0.8984969854354858,
      "learning_rate": 9.854875514438104e-06,
      "loss": 3.344,
      "step": 424540
    },
    {
      "epoch": 0.8844791666666667,
      "grad_norm": 0.8903142213821411,
      "learning_rate": 9.851361384791612e-06,
      "loss": 3.2827,
      "step": 424550
    },
    {
      "epoch": 0.8845,
      "grad_norm": 0.8685577511787415,
      "learning_rate": 9.847847860531711e-06,
      "loss": 3.2449,
      "step": 424560
    },
    {
      "epoch": 0.8845208333333333,
      "grad_norm": 0.956009566783905,
      "learning_rate": 9.844334941673671e-06,
      "loss": 3.2302,
      "step": 424570
    },
    {
      "epoch": 0.8845416666666667,
      "grad_norm": 0.8659060597419739,
      "learning_rate": 9.84082262823263e-06,
      "loss": 3.3097,
      "step": 424580
    },
    {
      "epoch": 0.8845625,
      "grad_norm": 0.953460693359375,
      "learning_rate": 9.837310920223728e-06,
      "loss": 3.2904,
      "step": 424590
    },
    {
      "epoch": 0.8845833333333334,
      "grad_norm": 0.9357104897499084,
      "learning_rate": 9.833799817662169e-06,
      "loss": 3.4599,
      "step": 424600
    },
    {
      "epoch": 0.8846041666666666,
      "grad_norm": 0.8734197020530701,
      "learning_rate": 9.830289320563156e-06,
      "loss": 3.4239,
      "step": 424610
    },
    {
      "epoch": 0.884625,
      "grad_norm": 0.8742326498031616,
      "learning_rate": 9.826779428941745e-06,
      "loss": 3.387,
      "step": 424620
    },
    {
      "epoch": 0.8846458333333334,
      "grad_norm": 0.8369318842887878,
      "learning_rate": 9.823270142813205e-06,
      "loss": 3.3937,
      "step": 424630
    },
    {
      "epoch": 0.8846666666666667,
      "grad_norm": 0.879127025604248,
      "learning_rate": 9.81976146219266e-06,
      "loss": 3.3426,
      "step": 424640
    },
    {
      "epoch": 0.8846875,
      "grad_norm": 0.9788832664489746,
      "learning_rate": 9.816253387095213e-06,
      "loss": 3.3303,
      "step": 424650
    },
    {
      "epoch": 0.8847083333333333,
      "grad_norm": 0.8881723284721375,
      "learning_rate": 9.812745917536119e-06,
      "loss": 3.296,
      "step": 424660
    },
    {
      "epoch": 0.8847291666666667,
      "grad_norm": 1.0148032903671265,
      "learning_rate": 9.809239053530432e-06,
      "loss": 3.3209,
      "step": 424670
    },
    {
      "epoch": 0.88475,
      "grad_norm": 0.8960170745849609,
      "learning_rate": 9.80573279509334e-06,
      "loss": 3.3583,
      "step": 424680
    },
    {
      "epoch": 0.8847708333333333,
      "grad_norm": 0.8656784892082214,
      "learning_rate": 9.802227142240015e-06,
      "loss": 3.3293,
      "step": 424690
    },
    {
      "epoch": 0.8847916666666666,
      "grad_norm": 1.010317325592041,
      "learning_rate": 9.798722094985562e-06,
      "loss": 3.4752,
      "step": 424700
    },
    {
      "epoch": 0.8848125,
      "grad_norm": 0.8787088394165039,
      "learning_rate": 9.795217653345117e-06,
      "loss": 3.3039,
      "step": 424710
    },
    {
      "epoch": 0.8848333333333334,
      "grad_norm": 0.8921129107475281,
      "learning_rate": 9.791713817333868e-06,
      "loss": 3.36,
      "step": 424720
    },
    {
      "epoch": 0.8848541666666667,
      "grad_norm": 0.886482834815979,
      "learning_rate": 9.788210586966905e-06,
      "loss": 3.2867,
      "step": 424730
    },
    {
      "epoch": 0.884875,
      "grad_norm": 1.0141935348510742,
      "learning_rate": 9.784707962259347e-06,
      "loss": 3.3665,
      "step": 424740
    },
    {
      "epoch": 0.8848958333333333,
      "grad_norm": 1.131200909614563,
      "learning_rate": 9.781205943226384e-06,
      "loss": 3.4149,
      "step": 424750
    },
    {
      "epoch": 0.8849166666666667,
      "grad_norm": 0.8748636245727539,
      "learning_rate": 9.7777045298831e-06,
      "loss": 3.3079,
      "step": 424760
    },
    {
      "epoch": 0.8849375,
      "grad_norm": 0.8647092580795288,
      "learning_rate": 9.774203722244622e-06,
      "loss": 3.4104,
      "step": 424770
    },
    {
      "epoch": 0.8849583333333333,
      "grad_norm": 0.9789034128189087,
      "learning_rate": 9.770703520326084e-06,
      "loss": 3.2473,
      "step": 424780
    },
    {
      "epoch": 0.8849791666666667,
      "grad_norm": 0.919451892375946,
      "learning_rate": 9.767203924142592e-06,
      "loss": 3.2454,
      "step": 424790
    },
    {
      "epoch": 0.885,
      "grad_norm": 0.8337196111679077,
      "learning_rate": 9.763704933709282e-06,
      "loss": 3.2366,
      "step": 424800
    },
    {
      "epoch": 0.8850208333333334,
      "grad_norm": 0.8244891166687012,
      "learning_rate": 9.760206549041244e-06,
      "loss": 3.1424,
      "step": 424810
    },
    {
      "epoch": 0.8850416666666666,
      "grad_norm": 0.9411805868148804,
      "learning_rate": 9.756708770153616e-06,
      "loss": 3.2397,
      "step": 424820
    },
    {
      "epoch": 0.8850625,
      "grad_norm": 0.935832142829895,
      "learning_rate": 9.753211597061483e-06,
      "loss": 3.3995,
      "step": 424830
    },
    {
      "epoch": 0.8850833333333333,
      "grad_norm": 0.987811803817749,
      "learning_rate": 9.74971502977997e-06,
      "loss": 3.3615,
      "step": 424840
    },
    {
      "epoch": 0.8851041666666667,
      "grad_norm": 0.9387402534484863,
      "learning_rate": 9.746219068324163e-06,
      "loss": 3.2134,
      "step": 424850
    },
    {
      "epoch": 0.885125,
      "grad_norm": 0.8702788352966309,
      "learning_rate": 9.742723712709182e-06,
      "loss": 3.3512,
      "step": 424860
    },
    {
      "epoch": 0.8851458333333333,
      "grad_norm": 0.9816576242446899,
      "learning_rate": 9.739228962950119e-06,
      "loss": 3.4658,
      "step": 424870
    },
    {
      "epoch": 0.8851666666666667,
      "grad_norm": 0.9876225590705872,
      "learning_rate": 9.735734819062075e-06,
      "loss": 3.2862,
      "step": 424880
    },
    {
      "epoch": 0.8851875,
      "grad_norm": 0.9514929056167603,
      "learning_rate": 9.732241281060138e-06,
      "loss": 3.2817,
      "step": 424890
    },
    {
      "epoch": 0.8852083333333334,
      "grad_norm": 1.0666866302490234,
      "learning_rate": 9.728748348959365e-06,
      "loss": 3.3773,
      "step": 424900
    },
    {
      "epoch": 0.8852291666666666,
      "grad_norm": 0.847163736820221,
      "learning_rate": 9.725256022774891e-06,
      "loss": 3.4227,
      "step": 424910
    },
    {
      "epoch": 0.88525,
      "grad_norm": 0.8702354431152344,
      "learning_rate": 9.721764302521822e-06,
      "loss": 3.3539,
      "step": 424920
    },
    {
      "epoch": 0.8852708333333333,
      "grad_norm": 1.0265010595321655,
      "learning_rate": 9.718273188215148e-06,
      "loss": 3.2411,
      "step": 424930
    },
    {
      "epoch": 0.8852916666666667,
      "grad_norm": 0.8130460977554321,
      "learning_rate": 9.714782679870038e-06,
      "loss": 3.2757,
      "step": 424940
    },
    {
      "epoch": 0.8853125,
      "grad_norm": 0.9370593428611755,
      "learning_rate": 9.711292777501545e-06,
      "loss": 3.4178,
      "step": 424950
    },
    {
      "epoch": 0.8853333333333333,
      "grad_norm": 0.9009588360786438,
      "learning_rate": 9.70780348112471e-06,
      "loss": 3.3037,
      "step": 424960
    },
    {
      "epoch": 0.8853541666666667,
      "grad_norm": 0.9375626444816589,
      "learning_rate": 9.704314790754636e-06,
      "loss": 3.3919,
      "step": 424970
    },
    {
      "epoch": 0.885375,
      "grad_norm": 0.865041971206665,
      "learning_rate": 9.700826706406428e-06,
      "loss": 3.29,
      "step": 424980
    },
    {
      "epoch": 0.8853958333333334,
      "grad_norm": 0.861868143081665,
      "learning_rate": 9.697339228095057e-06,
      "loss": 3.4249,
      "step": 424990
    },
    {
      "epoch": 0.8854166666666666,
      "grad_norm": 0.9220787882804871,
      "learning_rate": 9.693852355835679e-06,
      "loss": 3.253,
      "step": 425000
    },
    {
      "epoch": 0.8854166666666666,
      "eval_loss": 4.025367259979248,
      "eval_runtime": 8.7174,
      "eval_samples_per_second": 1.147,
      "eval_steps_per_second": 0.344,
      "step": 425000
    },
    {
      "epoch": 0.8854375,
      "grad_norm": 0.8742371797561646,
      "learning_rate": 9.690366089643348e-06,
      "loss": 3.3896,
      "step": 425010
    },
    {
      "epoch": 0.8854583333333333,
      "grad_norm": 1.136515736579895,
      "learning_rate": 9.686880429533034e-06,
      "loss": 3.2928,
      "step": 425020
    },
    {
      "epoch": 0.8854791666666667,
      "grad_norm": 0.8994346857070923,
      "learning_rate": 9.683395375519908e-06,
      "loss": 3.3326,
      "step": 425030
    },
    {
      "epoch": 0.8855,
      "grad_norm": 1.0082513093948364,
      "learning_rate": 9.679910927618961e-06,
      "loss": 3.4379,
      "step": 425040
    },
    {
      "epoch": 0.8855208333333333,
      "grad_norm": 0.8773003220558167,
      "learning_rate": 9.676427085845229e-06,
      "loss": 3.3279,
      "step": 425050
    },
    {
      "epoch": 0.8855416666666667,
      "grad_norm": 1.0447807312011719,
      "learning_rate": 9.672943850213832e-06,
      "loss": 3.2998,
      "step": 425060
    },
    {
      "epoch": 0.8855625,
      "grad_norm": 1.0429081916809082,
      "learning_rate": 9.669461220739743e-06,
      "loss": 3.4214,
      "step": 425070
    },
    {
      "epoch": 0.8855833333333333,
      "grad_norm": 1.0309761762619019,
      "learning_rate": 9.665979197438018e-06,
      "loss": 3.3801,
      "step": 425080
    },
    {
      "epoch": 0.8856041666666666,
      "grad_norm": 0.9175138473510742,
      "learning_rate": 9.662497780323757e-06,
      "loss": 3.2865,
      "step": 425090
    },
    {
      "epoch": 0.885625,
      "grad_norm": 0.9721524715423584,
      "learning_rate": 9.659016969411936e-06,
      "loss": 3.188,
      "step": 425100
    },
    {
      "epoch": 0.8856458333333334,
      "grad_norm": 0.9464914202690125,
      "learning_rate": 9.655536764717609e-06,
      "loss": 3.3158,
      "step": 425110
    },
    {
      "epoch": 0.8856666666666667,
      "grad_norm": 1.0606038570404053,
      "learning_rate": 9.652057166255828e-06,
      "loss": 3.2944,
      "step": 425120
    },
    {
      "epoch": 0.8856875,
      "grad_norm": 0.9155023694038391,
      "learning_rate": 9.648578174041582e-06,
      "loss": 3.2224,
      "step": 425130
    },
    {
      "epoch": 0.8857083333333333,
      "grad_norm": 0.8851309418678284,
      "learning_rate": 9.645099788089928e-06,
      "loss": 3.2389,
      "step": 425140
    },
    {
      "epoch": 0.8857291666666667,
      "grad_norm": 0.929410457611084,
      "learning_rate": 9.6416220084159e-06,
      "loss": 3.262,
      "step": 425150
    },
    {
      "epoch": 0.88575,
      "grad_norm": 0.905699610710144,
      "learning_rate": 9.638144835034489e-06,
      "loss": 3.2398,
      "step": 425160
    },
    {
      "epoch": 0.8857708333333333,
      "grad_norm": 0.9452130794525146,
      "learning_rate": 9.634668267960748e-06,
      "loss": 3.373,
      "step": 425170
    },
    {
      "epoch": 0.8857916666666666,
      "grad_norm": 0.8521796464920044,
      "learning_rate": 9.631192307209683e-06,
      "loss": 3.3033,
      "step": 425180
    },
    {
      "epoch": 0.8858125,
      "grad_norm": 0.9941530823707581,
      "learning_rate": 9.627716952796283e-06,
      "loss": 3.385,
      "step": 425190
    },
    {
      "epoch": 0.8858333333333334,
      "grad_norm": 0.9559707641601562,
      "learning_rate": 9.6242422047356e-06,
      "loss": 3.2972,
      "step": 425200
    },
    {
      "epoch": 0.8858541666666667,
      "grad_norm": 0.9771424531936646,
      "learning_rate": 9.620768063042623e-06,
      "loss": 3.397,
      "step": 425210
    },
    {
      "epoch": 0.885875,
      "grad_norm": 0.9240530133247375,
      "learning_rate": 9.617294527732372e-06,
      "loss": 3.3768,
      "step": 425220
    },
    {
      "epoch": 0.8858958333333333,
      "grad_norm": 1.0278536081314087,
      "learning_rate": 9.61382159881982e-06,
      "loss": 3.2528,
      "step": 425230
    },
    {
      "epoch": 0.8859166666666667,
      "grad_norm": 0.8583450317382812,
      "learning_rate": 9.610349276320007e-06,
      "loss": 3.412,
      "step": 425240
    },
    {
      "epoch": 0.8859375,
      "grad_norm": 0.9306297302246094,
      "learning_rate": 9.6068775602479e-06,
      "loss": 3.3519,
      "step": 425250
    },
    {
      "epoch": 0.8859583333333333,
      "grad_norm": 0.9387745261192322,
      "learning_rate": 9.603406450618557e-06,
      "loss": 3.3497,
      "step": 425260
    },
    {
      "epoch": 0.8859791666666667,
      "grad_norm": 0.939657986164093,
      "learning_rate": 9.599935947446863e-06,
      "loss": 3.1796,
      "step": 425270
    },
    {
      "epoch": 0.886,
      "grad_norm": 0.9460924863815308,
      "learning_rate": 9.596466050747893e-06,
      "loss": 3.3402,
      "step": 425280
    },
    {
      "epoch": 0.8860208333333334,
      "grad_norm": 0.9596766233444214,
      "learning_rate": 9.592996760536631e-06,
      "loss": 3.2486,
      "step": 425290
    },
    {
      "epoch": 0.8860416666666666,
      "grad_norm": 0.869110643863678,
      "learning_rate": 9.589528076828018e-06,
      "loss": 3.3457,
      "step": 425300
    },
    {
      "epoch": 0.8860625,
      "grad_norm": 0.9159508943557739,
      "learning_rate": 9.586059999637075e-06,
      "loss": 3.2546,
      "step": 425310
    },
    {
      "epoch": 0.8860833333333333,
      "grad_norm": 0.8783334493637085,
      "learning_rate": 9.582592528978805e-06,
      "loss": 3.2634,
      "step": 425320
    },
    {
      "epoch": 0.8861041666666667,
      "grad_norm": 0.9640898704528809,
      "learning_rate": 9.579125664868098e-06,
      "loss": 3.327,
      "step": 425330
    },
    {
      "epoch": 0.886125,
      "grad_norm": 0.9312313795089722,
      "learning_rate": 9.575659407320025e-06,
      "loss": 3.3737,
      "step": 425340
    },
    {
      "epoch": 0.8861458333333333,
      "grad_norm": 0.9356796145439148,
      "learning_rate": 9.572193756349522e-06,
      "loss": 3.2224,
      "step": 425350
    },
    {
      "epoch": 0.8861666666666667,
      "grad_norm": 1.0047085285186768,
      "learning_rate": 9.56872871197153e-06,
      "loss": 3.34,
      "step": 425360
    },
    {
      "epoch": 0.8861875,
      "grad_norm": 1.2400904893875122,
      "learning_rate": 9.565264274201051e-06,
      "loss": 3.3995,
      "step": 425370
    },
    {
      "epoch": 0.8862083333333334,
      "grad_norm": 0.9030811786651611,
      "learning_rate": 9.561800443053076e-06,
      "loss": 3.3514,
      "step": 425380
    },
    {
      "epoch": 0.8862291666666666,
      "grad_norm": 0.915308952331543,
      "learning_rate": 9.558337218542489e-06,
      "loss": 3.4253,
      "step": 425390
    },
    {
      "epoch": 0.88625,
      "grad_norm": 0.9170671701431274,
      "learning_rate": 9.55487460068433e-06,
      "loss": 3.282,
      "step": 425400
    },
    {
      "epoch": 0.8862708333333333,
      "grad_norm": 0.9290797114372253,
      "learning_rate": 9.551412589493507e-06,
      "loss": 3.3318,
      "step": 425410
    },
    {
      "epoch": 0.8862916666666667,
      "grad_norm": 0.8685699105262756,
      "learning_rate": 9.547951184984987e-06,
      "loss": 3.2973,
      "step": 425420
    },
    {
      "epoch": 0.8863125,
      "grad_norm": 0.9576357007026672,
      "learning_rate": 9.54449038717371e-06,
      "loss": 3.2695,
      "step": 425430
    },
    {
      "epoch": 0.8863333333333333,
      "grad_norm": 1.0353546142578125,
      "learning_rate": 9.541030196074645e-06,
      "loss": 3.1939,
      "step": 425440
    },
    {
      "epoch": 0.8863541666666667,
      "grad_norm": 0.9700419902801514,
      "learning_rate": 9.537570611702733e-06,
      "loss": 3.3967,
      "step": 425450
    },
    {
      "epoch": 0.886375,
      "grad_norm": 0.9816582202911377,
      "learning_rate": 9.534111634072927e-06,
      "loss": 3.2687,
      "step": 425460
    },
    {
      "epoch": 0.8863958333333334,
      "grad_norm": 0.8602733016014099,
      "learning_rate": 9.53065326320015e-06,
      "loss": 3.3292,
      "step": 425470
    },
    {
      "epoch": 0.8864166666666666,
      "grad_norm": 0.9203218817710876,
      "learning_rate": 9.527195499099355e-06,
      "loss": 3.3715,
      "step": 425480
    },
    {
      "epoch": 0.8864375,
      "grad_norm": 0.8874926567077637,
      "learning_rate": 9.523738341785464e-06,
      "loss": 3.3254,
      "step": 425490
    },
    {
      "epoch": 0.8864583333333333,
      "grad_norm": 0.8799921870231628,
      "learning_rate": 9.520281791273431e-06,
      "loss": 3.2934,
      "step": 425500
    },
    {
      "epoch": 0.8864791666666667,
      "grad_norm": 0.9516031742095947,
      "learning_rate": 9.516825847578164e-06,
      "loss": 3.2506,
      "step": 425510
    },
    {
      "epoch": 0.8865,
      "grad_norm": 0.8311032056808472,
      "learning_rate": 9.513370510714596e-06,
      "loss": 3.3143,
      "step": 425520
    },
    {
      "epoch": 0.8865208333333333,
      "grad_norm": 0.9966689348220825,
      "learning_rate": 9.509915780697668e-06,
      "loss": 3.2785,
      "step": 425530
    },
    {
      "epoch": 0.8865416666666667,
      "grad_norm": 1.0080024003982544,
      "learning_rate": 9.506461657542303e-06,
      "loss": 3.4016,
      "step": 425540
    },
    {
      "epoch": 0.8865625,
      "grad_norm": 1.1282989978790283,
      "learning_rate": 9.503008141263402e-06,
      "loss": 3.2768,
      "step": 425550
    },
    {
      "epoch": 0.8865833333333333,
      "grad_norm": 0.9634182453155518,
      "learning_rate": 9.499555231875888e-06,
      "loss": 3.4841,
      "step": 425560
    },
    {
      "epoch": 0.8866041666666666,
      "grad_norm": 0.9359742999076843,
      "learning_rate": 9.4961029293947e-06,
      "loss": 3.2718,
      "step": 425570
    },
    {
      "epoch": 0.886625,
      "grad_norm": 0.9791062474250793,
      "learning_rate": 9.492651233834708e-06,
      "loss": 3.357,
      "step": 425580
    },
    {
      "epoch": 0.8866458333333334,
      "grad_norm": 0.878682017326355,
      "learning_rate": 9.489200145210869e-06,
      "loss": 3.3087,
      "step": 425590
    },
    {
      "epoch": 0.8866666666666667,
      "grad_norm": 0.9248990416526794,
      "learning_rate": 9.48574966353805e-06,
      "loss": 3.3617,
      "step": 425600
    },
    {
      "epoch": 0.8866875,
      "grad_norm": 0.9818012714385986,
      "learning_rate": 9.482299788831177e-06,
      "loss": 3.1779,
      "step": 425610
    },
    {
      "epoch": 0.8867083333333333,
      "grad_norm": 0.9586427807807922,
      "learning_rate": 9.478850521105152e-06,
      "loss": 3.374,
      "step": 425620
    },
    {
      "epoch": 0.8867291666666667,
      "grad_norm": 0.9308315515518188,
      "learning_rate": 9.475401860374865e-06,
      "loss": 3.3826,
      "step": 425630
    },
    {
      "epoch": 0.88675,
      "grad_norm": 1.0252186059951782,
      "learning_rate": 9.471953806655236e-06,
      "loss": 3.2542,
      "step": 425640
    },
    {
      "epoch": 0.8867708333333333,
      "grad_norm": 1.1633398532867432,
      "learning_rate": 9.46850635996112e-06,
      "loss": 3.2365,
      "step": 425650
    },
    {
      "epoch": 0.8867916666666666,
      "grad_norm": 0.9797679781913757,
      "learning_rate": 9.465059520307455e-06,
      "loss": 3.1953,
      "step": 425660
    },
    {
      "epoch": 0.8868125,
      "grad_norm": 0.9091192483901978,
      "learning_rate": 9.46161328770908e-06,
      "loss": 3.3952,
      "step": 425670
    },
    {
      "epoch": 0.8868333333333334,
      "grad_norm": 0.8941106796264648,
      "learning_rate": 9.458167662180915e-06,
      "loss": 3.2889,
      "step": 425680
    },
    {
      "epoch": 0.8868541666666667,
      "grad_norm": 0.9267675280570984,
      "learning_rate": 9.45472264373785e-06,
      "loss": 3.2651,
      "step": 425690
    },
    {
      "epoch": 0.886875,
      "grad_norm": 0.8668428659439087,
      "learning_rate": 9.451278232394738e-06,
      "loss": 3.3709,
      "step": 425700
    },
    {
      "epoch": 0.8868958333333333,
      "grad_norm": 0.8985303640365601,
      "learning_rate": 9.447834428166452e-06,
      "loss": 3.2481,
      "step": 425710
    },
    {
      "epoch": 0.8869166666666667,
      "grad_norm": 0.8376288414001465,
      "learning_rate": 9.444391231067928e-06,
      "loss": 3.2163,
      "step": 425720
    },
    {
      "epoch": 0.8869375,
      "grad_norm": 1.0281095504760742,
      "learning_rate": 9.440948641113972e-06,
      "loss": 3.3079,
      "step": 425730
    },
    {
      "epoch": 0.8869583333333333,
      "grad_norm": 0.9164977669715881,
      "learning_rate": 9.437506658319472e-06,
      "loss": 3.4051,
      "step": 425740
    },
    {
      "epoch": 0.8869791666666667,
      "grad_norm": 1.0866867303848267,
      "learning_rate": 9.434065282699332e-06,
      "loss": 3.3618,
      "step": 425750
    },
    {
      "epoch": 0.887,
      "grad_norm": 0.8787502646446228,
      "learning_rate": 9.430624514268376e-06,
      "loss": 3.2374,
      "step": 425760
    },
    {
      "epoch": 0.8870208333333334,
      "grad_norm": 0.8680317997932434,
      "learning_rate": 9.427184353041472e-06,
      "loss": 3.3976,
      "step": 425770
    },
    {
      "epoch": 0.8870416666666666,
      "grad_norm": 0.9753739237785339,
      "learning_rate": 9.42374479903351e-06,
      "loss": 3.3042,
      "step": 425780
    },
    {
      "epoch": 0.8870625,
      "grad_norm": 1.0218087434768677,
      "learning_rate": 9.420305852259314e-06,
      "loss": 3.2736,
      "step": 425790
    },
    {
      "epoch": 0.8870833333333333,
      "grad_norm": 0.9731564521789551,
      "learning_rate": 9.41686751273375e-06,
      "loss": 3.2731,
      "step": 425800
    },
    {
      "epoch": 0.8871041666666667,
      "grad_norm": 0.9121178388595581,
      "learning_rate": 9.41342978047166e-06,
      "loss": 3.2887,
      "step": 425810
    },
    {
      "epoch": 0.887125,
      "grad_norm": 0.9657522439956665,
      "learning_rate": 9.40999265548793e-06,
      "loss": 3.3566,
      "step": 425820
    },
    {
      "epoch": 0.8871458333333333,
      "grad_norm": 0.9153281450271606,
      "learning_rate": 9.406556137797367e-06,
      "loss": 3.3165,
      "step": 425830
    },
    {
      "epoch": 0.8871666666666667,
      "grad_norm": 1.044486403465271,
      "learning_rate": 9.403120227414839e-06,
      "loss": 3.0851,
      "step": 425840
    },
    {
      "epoch": 0.8871875,
      "grad_norm": 0.9526510834693909,
      "learning_rate": 9.399684924355172e-06,
      "loss": 3.4223,
      "step": 425850
    },
    {
      "epoch": 0.8872083333333334,
      "grad_norm": 0.9134513139724731,
      "learning_rate": 9.396250228633217e-06,
      "loss": 3.3867,
      "step": 425860
    },
    {
      "epoch": 0.8872291666666666,
      "grad_norm": 0.895139753818512,
      "learning_rate": 9.392816140263799e-06,
      "loss": 3.3003,
      "step": 425870
    },
    {
      "epoch": 0.88725,
      "grad_norm": 0.844115138053894,
      "learning_rate": 9.389382659261768e-06,
      "loss": 3.3374,
      "step": 425880
    },
    {
      "epoch": 0.8872708333333333,
      "grad_norm": 1.0859215259552002,
      "learning_rate": 9.385949785641932e-06,
      "loss": 3.3792,
      "step": 425890
    },
    {
      "epoch": 0.8872916666666667,
      "grad_norm": 0.8808540105819702,
      "learning_rate": 9.382517519419147e-06,
      "loss": 3.3203,
      "step": 425900
    },
    {
      "epoch": 0.8873125,
      "grad_norm": 0.9532549977302551,
      "learning_rate": 9.379085860608231e-06,
      "loss": 3.4025,
      "step": 425910
    },
    {
      "epoch": 0.8873333333333333,
      "grad_norm": 0.9326343536376953,
      "learning_rate": 9.375654809223992e-06,
      "loss": 3.1935,
      "step": 425920
    },
    {
      "epoch": 0.8873541666666667,
      "grad_norm": 1.0154834985733032,
      "learning_rate": 9.372224365281267e-06,
      "loss": 3.3751,
      "step": 425930
    },
    {
      "epoch": 0.887375,
      "grad_norm": 0.9244999289512634,
      "learning_rate": 9.36879452879486e-06,
      "loss": 3.3571,
      "step": 425940
    },
    {
      "epoch": 0.8873958333333334,
      "grad_norm": 0.900147557258606,
      "learning_rate": 9.36536529977961e-06,
      "loss": 3.3224,
      "step": 425950
    },
    {
      "epoch": 0.8874166666666666,
      "grad_norm": 0.9129076600074768,
      "learning_rate": 9.361936678250304e-06,
      "loss": 3.3086,
      "step": 425960
    },
    {
      "epoch": 0.8874375,
      "grad_norm": 0.9089455008506775,
      "learning_rate": 9.358508664221764e-06,
      "loss": 3.299,
      "step": 425970
    },
    {
      "epoch": 0.8874583333333333,
      "grad_norm": 1.002575397491455,
      "learning_rate": 9.355081257708796e-06,
      "loss": 3.2432,
      "step": 425980
    },
    {
      "epoch": 0.8874791666666667,
      "grad_norm": 0.8898441791534424,
      "learning_rate": 9.351654458726205e-06,
      "loss": 3.2903,
      "step": 425990
    },
    {
      "epoch": 0.8875,
      "grad_norm": 0.8928227424621582,
      "learning_rate": 9.348228267288793e-06,
      "loss": 3.2381,
      "step": 426000
    },
    {
      "epoch": 0.8875,
      "eval_loss": 4.024432182312012,
      "eval_runtime": 8.4019,
      "eval_samples_per_second": 1.19,
      "eval_steps_per_second": 0.357,
      "step": 426000
    },
    {
      "epoch": 0.8875208333333333,
      "grad_norm": 0.8934537768363953,
      "learning_rate": 9.344802683411401e-06,
      "loss": 3.3914,
      "step": 426010
    },
    {
      "epoch": 0.8875416666666667,
      "grad_norm": 0.8625638484954834,
      "learning_rate": 9.341377707108716e-06,
      "loss": 3.3304,
      "step": 426020
    },
    {
      "epoch": 0.8875625,
      "grad_norm": 0.9306781888008118,
      "learning_rate": 9.33795333839566e-06,
      "loss": 3.2814,
      "step": 426030
    },
    {
      "epoch": 0.8875833333333333,
      "grad_norm": 1.0263241529464722,
      "learning_rate": 9.334529577286953e-06,
      "loss": 3.1982,
      "step": 426040
    },
    {
      "epoch": 0.8876041666666666,
      "grad_norm": 1.0888229608535767,
      "learning_rate": 9.33110642379737e-06,
      "loss": 3.3097,
      "step": 426050
    },
    {
      "epoch": 0.887625,
      "grad_norm": 1.0318642854690552,
      "learning_rate": 9.327683877941761e-06,
      "loss": 3.2521,
      "step": 426060
    },
    {
      "epoch": 0.8876458333333334,
      "grad_norm": 0.7932854890823364,
      "learning_rate": 9.324261939734867e-06,
      "loss": 3.3487,
      "step": 426070
    },
    {
      "epoch": 0.8876666666666667,
      "grad_norm": 0.9773262143135071,
      "learning_rate": 9.320840609191444e-06,
      "loss": 3.3235,
      "step": 426080
    },
    {
      "epoch": 0.8876875,
      "grad_norm": 0.9077001810073853,
      "learning_rate": 9.31741988632636e-06,
      "loss": 3.238,
      "step": 426090
    },
    {
      "epoch": 0.8877083333333333,
      "grad_norm": 0.9431208968162537,
      "learning_rate": 9.313999771154308e-06,
      "loss": 3.3676,
      "step": 426100
    },
    {
      "epoch": 0.8877291666666667,
      "grad_norm": 1.0164148807525635,
      "learning_rate": 9.310580263690071e-06,
      "loss": 3.2485,
      "step": 426110
    },
    {
      "epoch": 0.88775,
      "grad_norm": 1.0406670570373535,
      "learning_rate": 9.30716136394849e-06,
      "loss": 3.3474,
      "step": 426120
    },
    {
      "epoch": 0.8877708333333333,
      "grad_norm": 0.9553312063217163,
      "learning_rate": 9.303743071944236e-06,
      "loss": 3.3849,
      "step": 426130
    },
    {
      "epoch": 0.8877916666666666,
      "grad_norm": 1.0360006093978882,
      "learning_rate": 9.300325387692114e-06,
      "loss": 3.4898,
      "step": 426140
    },
    {
      "epoch": 0.8878125,
      "grad_norm": 0.935398519039154,
      "learning_rate": 9.296908311206946e-06,
      "loss": 3.3296,
      "step": 426150
    },
    {
      "epoch": 0.8878333333333334,
      "grad_norm": 0.9565302729606628,
      "learning_rate": 9.293491842503403e-06,
      "loss": 3.301,
      "step": 426160
    },
    {
      "epoch": 0.8878541666666667,
      "grad_norm": 0.8346969485282898,
      "learning_rate": 9.29007598159629e-06,
      "loss": 3.4481,
      "step": 426170
    },
    {
      "epoch": 0.887875,
      "grad_norm": 0.8830937743186951,
      "learning_rate": 9.286660728500345e-06,
      "loss": 3.332,
      "step": 426180
    },
    {
      "epoch": 0.8878958333333333,
      "grad_norm": 0.8938921689987183,
      "learning_rate": 9.283246083230339e-06,
      "loss": 3.1888,
      "step": 426190
    },
    {
      "epoch": 0.8879166666666667,
      "grad_norm": 0.9521344900131226,
      "learning_rate": 9.279832045800994e-06,
      "loss": 3.2999,
      "step": 426200
    },
    {
      "epoch": 0.8879375,
      "grad_norm": 0.8666303753852844,
      "learning_rate": 9.276418616227083e-06,
      "loss": 3.3328,
      "step": 426210
    },
    {
      "epoch": 0.8879583333333333,
      "grad_norm": 0.8855603337287903,
      "learning_rate": 9.273005794523341e-06,
      "loss": 3.3208,
      "step": 426220
    },
    {
      "epoch": 0.8879791666666667,
      "grad_norm": 0.9585336446762085,
      "learning_rate": 9.269593580704509e-06,
      "loss": 3.3518,
      "step": 426230
    },
    {
      "epoch": 0.888,
      "grad_norm": 0.8649041056632996,
      "learning_rate": 9.266181974785325e-06,
      "loss": 3.2635,
      "step": 426240
    },
    {
      "epoch": 0.8880208333333334,
      "grad_norm": 0.9243733882904053,
      "learning_rate": 9.262770976780526e-06,
      "loss": 3.3957,
      "step": 426250
    },
    {
      "epoch": 0.8880416666666666,
      "grad_norm": 1.029547095298767,
      "learning_rate": 9.25936058670485e-06,
      "loss": 3.3205,
      "step": 426260
    },
    {
      "epoch": 0.8880625,
      "grad_norm": 0.8513654470443726,
      "learning_rate": 9.255950804573036e-06,
      "loss": 3.2448,
      "step": 426270
    },
    {
      "epoch": 0.8880833333333333,
      "grad_norm": 0.9429562091827393,
      "learning_rate": 9.252541630399808e-06,
      "loss": 3.3623,
      "step": 426280
    },
    {
      "epoch": 0.8881041666666667,
      "grad_norm": 1.0972955226898193,
      "learning_rate": 9.249133064199898e-06,
      "loss": 3.2628,
      "step": 426290
    },
    {
      "epoch": 0.888125,
      "grad_norm": 0.8543022871017456,
      "learning_rate": 9.245725105987966e-06,
      "loss": 3.2964,
      "step": 426300
    },
    {
      "epoch": 0.8881458333333333,
      "grad_norm": 1.0001295804977417,
      "learning_rate": 9.242317755778833e-06,
      "loss": 3.2618,
      "step": 426310
    },
    {
      "epoch": 0.8881666666666667,
      "grad_norm": 0.9678205251693726,
      "learning_rate": 9.238911013587185e-06,
      "loss": 3.2931,
      "step": 426320
    },
    {
      "epoch": 0.8881875,
      "grad_norm": 0.9067596197128296,
      "learning_rate": 9.23550487942768e-06,
      "loss": 3.3205,
      "step": 426330
    },
    {
      "epoch": 0.8882083333333334,
      "grad_norm": 0.9013579487800598,
      "learning_rate": 9.232099353315086e-06,
      "loss": 3.3352,
      "step": 426340
    },
    {
      "epoch": 0.8882291666666666,
      "grad_norm": 0.8279387950897217,
      "learning_rate": 9.228694435264145e-06,
      "loss": 3.1952,
      "step": 426350
    },
    {
      "epoch": 0.88825,
      "grad_norm": 0.9472478032112122,
      "learning_rate": 9.225290125289458e-06,
      "loss": 3.1571,
      "step": 426360
    },
    {
      "epoch": 0.8882708333333333,
      "grad_norm": 0.9649256467819214,
      "learning_rate": 9.221886423405833e-06,
      "loss": 3.3592,
      "step": 426370
    },
    {
      "epoch": 0.8882916666666667,
      "grad_norm": 1.0635493993759155,
      "learning_rate": 9.218483329627957e-06,
      "loss": 3.3319,
      "step": 426380
    },
    {
      "epoch": 0.8883125,
      "grad_norm": 0.8903435468673706,
      "learning_rate": 9.215080843970452e-06,
      "loss": 3.1926,
      "step": 426390
    },
    {
      "epoch": 0.8883333333333333,
      "grad_norm": 0.9495663642883301,
      "learning_rate": 9.211678966448121e-06,
      "loss": 3.225,
      "step": 426400
    },
    {
      "epoch": 0.8883541666666667,
      "grad_norm": 0.952846884727478,
      "learning_rate": 9.20827769707559e-06,
      "loss": 3.2613,
      "step": 426410
    },
    {
      "epoch": 0.888375,
      "grad_norm": 0.8711696267127991,
      "learning_rate": 9.204877035867542e-06,
      "loss": 3.2539,
      "step": 426420
    },
    {
      "epoch": 0.8883958333333334,
      "grad_norm": 1.0147693157196045,
      "learning_rate": 9.201476982838752e-06,
      "loss": 3.3038,
      "step": 426430
    },
    {
      "epoch": 0.8884166666666666,
      "grad_norm": 0.8460808992385864,
      "learning_rate": 9.198077538003806e-06,
      "loss": 3.25,
      "step": 426440
    },
    {
      "epoch": 0.8884375,
      "grad_norm": 0.9673665165901184,
      "learning_rate": 9.194678701377428e-06,
      "loss": 3.1426,
      "step": 426450
    },
    {
      "epoch": 0.8884583333333333,
      "grad_norm": 0.9036915302276611,
      "learning_rate": 9.191280472974338e-06,
      "loss": 3.1659,
      "step": 426460
    },
    {
      "epoch": 0.8884791666666667,
      "grad_norm": 0.8356667160987854,
      "learning_rate": 9.187882852809175e-06,
      "loss": 3.232,
      "step": 426470
    },
    {
      "epoch": 0.8885,
      "grad_norm": 0.8844336271286011,
      "learning_rate": 9.184485840896577e-06,
      "loss": 3.2294,
      "step": 426480
    },
    {
      "epoch": 0.8885208333333333,
      "grad_norm": 0.9018750786781311,
      "learning_rate": 9.181089437251315e-06,
      "loss": 3.3219,
      "step": 426490
    },
    {
      "epoch": 0.8885416666666667,
      "grad_norm": 0.8848786950111389,
      "learning_rate": 9.177693641887979e-06,
      "loss": 3.37,
      "step": 426500
    },
    {
      "epoch": 0.8885625,
      "grad_norm": 0.9536794424057007,
      "learning_rate": 9.174298454821255e-06,
      "loss": 3.4295,
      "step": 426510
    },
    {
      "epoch": 0.8885833333333333,
      "grad_norm": 0.8657742738723755,
      "learning_rate": 9.170903876065849e-06,
      "loss": 3.2221,
      "step": 426520
    },
    {
      "epoch": 0.8886041666666666,
      "grad_norm": 0.848635733127594,
      "learning_rate": 9.167509905636383e-06,
      "loss": 3.2778,
      "step": 426530
    },
    {
      "epoch": 0.888625,
      "grad_norm": 0.8886011242866516,
      "learning_rate": 9.164116543547528e-06,
      "loss": 3.2799,
      "step": 426540
    },
    {
      "epoch": 0.8886458333333334,
      "grad_norm": 0.8541667461395264,
      "learning_rate": 9.16072378981394e-06,
      "loss": 3.3084,
      "step": 426550
    },
    {
      "epoch": 0.8886666666666667,
      "grad_norm": 0.8475945591926575,
      "learning_rate": 9.157331644450272e-06,
      "loss": 3.3508,
      "step": 426560
    },
    {
      "epoch": 0.8886875,
      "grad_norm": 0.8535719513893127,
      "learning_rate": 9.153940107471181e-06,
      "loss": 3.2514,
      "step": 426570
    },
    {
      "epoch": 0.8887083333333333,
      "grad_norm": 0.9282337427139282,
      "learning_rate": 9.150549178891336e-06,
      "loss": 3.3864,
      "step": 426580
    },
    {
      "epoch": 0.8887291666666667,
      "grad_norm": 0.8708221912384033,
      "learning_rate": 9.147158858725346e-06,
      "loss": 3.2547,
      "step": 426590
    },
    {
      "epoch": 0.88875,
      "grad_norm": 0.9712001085281372,
      "learning_rate": 9.143769146987895e-06,
      "loss": 3.2107,
      "step": 426600
    },
    {
      "epoch": 0.8887708333333333,
      "grad_norm": 0.8378775119781494,
      "learning_rate": 9.14038004369359e-06,
      "loss": 3.3397,
      "step": 426610
    },
    {
      "epoch": 0.8887916666666666,
      "grad_norm": 0.9039335250854492,
      "learning_rate": 9.136991548857087e-06,
      "loss": 3.3682,
      "step": 426620
    },
    {
      "epoch": 0.8888125,
      "grad_norm": 0.8861256837844849,
      "learning_rate": 9.133603662493038e-06,
      "loss": 3.2789,
      "step": 426630
    },
    {
      "epoch": 0.8888333333333334,
      "grad_norm": 0.9546520709991455,
      "learning_rate": 9.130216384616052e-06,
      "loss": 3.2755,
      "step": 426640
    },
    {
      "epoch": 0.8888541666666666,
      "grad_norm": 1.1892231702804565,
      "learning_rate": 9.126829715240763e-06,
      "loss": 3.334,
      "step": 426650
    },
    {
      "epoch": 0.888875,
      "grad_norm": 0.9328178763389587,
      "learning_rate": 9.123443654381845e-06,
      "loss": 3.2729,
      "step": 426660
    },
    {
      "epoch": 0.8888958333333333,
      "grad_norm": 0.892576277256012,
      "learning_rate": 9.120058202053837e-06,
      "loss": 3.2869,
      "step": 426670
    },
    {
      "epoch": 0.8889166666666667,
      "grad_norm": 0.9551907777786255,
      "learning_rate": 9.116673358271443e-06,
      "loss": 3.2844,
      "step": 426680
    },
    {
      "epoch": 0.8889375,
      "grad_norm": 0.8748285174369812,
      "learning_rate": 9.113289123049267e-06,
      "loss": 3.1845,
      "step": 426690
    },
    {
      "epoch": 0.8889583333333333,
      "grad_norm": 0.8731364607810974,
      "learning_rate": 9.109905496401881e-06,
      "loss": 3.2949,
      "step": 426700
    },
    {
      "epoch": 0.8889791666666667,
      "grad_norm": 0.9820008873939514,
      "learning_rate": 9.106522478343942e-06,
      "loss": 3.3658,
      "step": 426710
    },
    {
      "epoch": 0.889,
      "grad_norm": 0.8744518160820007,
      "learning_rate": 9.103140068890086e-06,
      "loss": 3.3309,
      "step": 426720
    },
    {
      "epoch": 0.8890208333333334,
      "grad_norm": 0.9041029214859009,
      "learning_rate": 9.099758268054852e-06,
      "loss": 3.2824,
      "step": 426730
    },
    {
      "epoch": 0.8890416666666666,
      "grad_norm": 0.9398523569107056,
      "learning_rate": 9.096377075852912e-06,
      "loss": 3.2927,
      "step": 426740
    },
    {
      "epoch": 0.8890625,
      "grad_norm": 0.9662292003631592,
      "learning_rate": 9.092996492298871e-06,
      "loss": 3.4048,
      "step": 426750
    },
    {
      "epoch": 0.8890833333333333,
      "grad_norm": 0.8302717208862305,
      "learning_rate": 9.089616517407266e-06,
      "loss": 3.3439,
      "step": 426760
    },
    {
      "epoch": 0.8891041666666667,
      "grad_norm": 0.8399964570999146,
      "learning_rate": 9.086237151192788e-06,
      "loss": 3.3368,
      "step": 426770
    },
    {
      "epoch": 0.889125,
      "grad_norm": 0.8744561672210693,
      "learning_rate": 9.082858393669956e-06,
      "loss": 3.3403,
      "step": 426780
    },
    {
      "epoch": 0.8891458333333333,
      "grad_norm": 0.9008981585502625,
      "learning_rate": 9.079480244853393e-06,
      "loss": 3.3349,
      "step": 426790
    },
    {
      "epoch": 0.8891666666666667,
      "grad_norm": 0.9237301349639893,
      "learning_rate": 9.07610270475772e-06,
      "loss": 3.4125,
      "step": 426800
    },
    {
      "epoch": 0.8891875,
      "grad_norm": 1.0067800283432007,
      "learning_rate": 9.072725773397494e-06,
      "loss": 3.1863,
      "step": 426810
    },
    {
      "epoch": 0.8892083333333334,
      "grad_norm": 0.9369430541992188,
      "learning_rate": 9.069349450787283e-06,
      "loss": 3.3135,
      "step": 426820
    },
    {
      "epoch": 0.8892291666666666,
      "grad_norm": 1.0156502723693848,
      "learning_rate": 9.065973736941744e-06,
      "loss": 3.3762,
      "step": 426830
    },
    {
      "epoch": 0.88925,
      "grad_norm": 1.0770771503448486,
      "learning_rate": 9.062598631875384e-06,
      "loss": 3.2371,
      "step": 426840
    },
    {
      "epoch": 0.8892708333333333,
      "grad_norm": 0.8993270397186279,
      "learning_rate": 9.059224135602789e-06,
      "loss": 3.2186,
      "step": 426850
    },
    {
      "epoch": 0.8892916666666667,
      "grad_norm": 0.8830616474151611,
      "learning_rate": 9.055850248138613e-06,
      "loss": 3.279,
      "step": 426860
    },
    {
      "epoch": 0.8893125,
      "grad_norm": 0.8891800045967102,
      "learning_rate": 9.05247696949733e-06,
      "loss": 3.2743,
      "step": 426870
    },
    {
      "epoch": 0.8893333333333333,
      "grad_norm": 0.8777080178260803,
      "learning_rate": 9.049104299693578e-06,
      "loss": 3.2548,
      "step": 426880
    },
    {
      "epoch": 0.8893541666666667,
      "grad_norm": 0.8829777836799622,
      "learning_rate": 9.045732238741892e-06,
      "loss": 3.2951,
      "step": 426890
    },
    {
      "epoch": 0.889375,
      "grad_norm": 0.8989167213439941,
      "learning_rate": 9.04236078665685e-06,
      "loss": 3.2251,
      "step": 426900
    },
    {
      "epoch": 0.8893958333333334,
      "grad_norm": 1.0619293451309204,
      "learning_rate": 9.038989943453018e-06,
      "loss": 3.2489,
      "step": 426910
    },
    {
      "epoch": 0.8894166666666666,
      "grad_norm": 1.0771968364715576,
      "learning_rate": 9.035619709144954e-06,
      "loss": 3.4803,
      "step": 426920
    },
    {
      "epoch": 0.8894375,
      "grad_norm": 0.842039942741394,
      "learning_rate": 9.032250083747211e-06,
      "loss": 3.1962,
      "step": 426930
    },
    {
      "epoch": 0.8894583333333334,
      "grad_norm": 0.9408891797065735,
      "learning_rate": 9.028881067274363e-06,
      "loss": 3.2719,
      "step": 426940
    },
    {
      "epoch": 0.8894791666666667,
      "grad_norm": 0.9419722557067871,
      "learning_rate": 9.02551265974093e-06,
      "loss": 3.363,
      "step": 426950
    },
    {
      "epoch": 0.8895,
      "grad_norm": 1.0346583127975464,
      "learning_rate": 9.022144861161484e-06,
      "loss": 3.3456,
      "step": 426960
    },
    {
      "epoch": 0.8895208333333333,
      "grad_norm": 1.0387686491012573,
      "learning_rate": 9.018777671550582e-06,
      "loss": 3.3712,
      "step": 426970
    },
    {
      "epoch": 0.8895416666666667,
      "grad_norm": 0.9493740797042847,
      "learning_rate": 9.015411090922741e-06,
      "loss": 3.3591,
      "step": 426980
    },
    {
      "epoch": 0.8895625,
      "grad_norm": 1.021079182624817,
      "learning_rate": 9.012045119292521e-06,
      "loss": 3.3604,
      "step": 426990
    },
    {
      "epoch": 0.8895833333333333,
      "grad_norm": 0.912260890007019,
      "learning_rate": 9.008679756674476e-06,
      "loss": 3.3784,
      "step": 427000
    },
    {
      "epoch": 0.8895833333333333,
      "eval_loss": 4.026358604431152,
      "eval_runtime": 8.5601,
      "eval_samples_per_second": 1.168,
      "eval_steps_per_second": 0.35,
      "step": 427000
    },
    {
      "epoch": 0.8896041666666666,
      "grad_norm": 0.8579967021942139,
      "learning_rate": 9.005315003083108e-06,
      "loss": 3.2012,
      "step": 427010
    },
    {
      "epoch": 0.889625,
      "grad_norm": 0.9565133452415466,
      "learning_rate": 9.001950858532974e-06,
      "loss": 3.2115,
      "step": 427020
    },
    {
      "epoch": 0.8896458333333334,
      "grad_norm": 0.9107882976531982,
      "learning_rate": 8.99858732303863e-06,
      "loss": 3.2444,
      "step": 427030
    },
    {
      "epoch": 0.8896666666666667,
      "grad_norm": 0.9120626449584961,
      "learning_rate": 8.995224396614515e-06,
      "loss": 3.1495,
      "step": 427040
    },
    {
      "epoch": 0.8896875,
      "grad_norm": 0.9499434232711792,
      "learning_rate": 8.991862079275264e-06,
      "loss": 3.2882,
      "step": 427050
    },
    {
      "epoch": 0.8897083333333333,
      "grad_norm": 0.9362409114837646,
      "learning_rate": 8.988500371035351e-06,
      "loss": 3.2331,
      "step": 427060
    },
    {
      "epoch": 0.8897291666666667,
      "grad_norm": 0.9087710976600647,
      "learning_rate": 8.985139271909265e-06,
      "loss": 3.2518,
      "step": 427070
    },
    {
      "epoch": 0.88975,
      "grad_norm": 0.9519980549812317,
      "learning_rate": 8.981778781911591e-06,
      "loss": 3.3607,
      "step": 427080
    },
    {
      "epoch": 0.8897708333333333,
      "grad_norm": 0.9655694365501404,
      "learning_rate": 8.978418901056839e-06,
      "loss": 3.2358,
      "step": 427090
    },
    {
      "epoch": 0.8897916666666666,
      "grad_norm": 1.0261578559875488,
      "learning_rate": 8.975059629359426e-06,
      "loss": 3.4189,
      "step": 427100
    },
    {
      "epoch": 0.8898125,
      "grad_norm": 0.9248270392417908,
      "learning_rate": 8.971700966833978e-06,
      "loss": 3.2967,
      "step": 427110
    },
    {
      "epoch": 0.8898333333333334,
      "grad_norm": 0.9282536506652832,
      "learning_rate": 8.968342913494981e-06,
      "loss": 3.3404,
      "step": 427120
    },
    {
      "epoch": 0.8898541666666666,
      "grad_norm": 0.8838360905647278,
      "learning_rate": 8.964985469356872e-06,
      "loss": 3.3264,
      "step": 427130
    },
    {
      "epoch": 0.889875,
      "grad_norm": 0.9079824090003967,
      "learning_rate": 8.961628634434209e-06,
      "loss": 3.337,
      "step": 427140
    },
    {
      "epoch": 0.8898958333333333,
      "grad_norm": 0.8718565702438354,
      "learning_rate": 8.95827240874153e-06,
      "loss": 3.3579,
      "step": 427150
    },
    {
      "epoch": 0.8899166666666667,
      "grad_norm": 0.9415749907493591,
      "learning_rate": 8.954916792293221e-06,
      "loss": 3.3393,
      "step": 427160
    },
    {
      "epoch": 0.8899375,
      "grad_norm": 0.9581157565116882,
      "learning_rate": 8.95156178510389e-06,
      "loss": 3.472,
      "step": 427170
    },
    {
      "epoch": 0.8899583333333333,
      "grad_norm": 0.85162752866745,
      "learning_rate": 8.948207387187972e-06,
      "loss": 3.3717,
      "step": 427180
    },
    {
      "epoch": 0.8899791666666667,
      "grad_norm": 0.9891982674598694,
      "learning_rate": 8.944853598559958e-06,
      "loss": 3.3361,
      "step": 427190
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.930581271648407,
      "learning_rate": 8.941500419234338e-06,
      "loss": 3.266,
      "step": 427200
    },
    {
      "epoch": 0.8900208333333334,
      "grad_norm": 0.9746899008750916,
      "learning_rate": 8.938147849225596e-06,
      "loss": 3.4147,
      "step": 427210
    },
    {
      "epoch": 0.8900416666666666,
      "grad_norm": 1.1229248046875,
      "learning_rate": 8.93479588854824e-06,
      "loss": 3.4027,
      "step": 427220
    },
    {
      "epoch": 0.8900625,
      "grad_norm": 1.0265988111495972,
      "learning_rate": 8.931444537216709e-06,
      "loss": 3.3331,
      "step": 427230
    },
    {
      "epoch": 0.8900833333333333,
      "grad_norm": 0.9141599535942078,
      "learning_rate": 8.928093795245506e-06,
      "loss": 3.3891,
      "step": 427240
    },
    {
      "epoch": 0.8901041666666667,
      "grad_norm": 0.9167348742485046,
      "learning_rate": 8.924743662649103e-06,
      "loss": 3.3307,
      "step": 427250
    },
    {
      "epoch": 0.890125,
      "grad_norm": 0.9149222373962402,
      "learning_rate": 8.921394139441956e-06,
      "loss": 3.2396,
      "step": 427260
    },
    {
      "epoch": 0.8901458333333333,
      "grad_norm": 0.9495297074317932,
      "learning_rate": 8.918045225638554e-06,
      "loss": 3.3007,
      "step": 427270
    },
    {
      "epoch": 0.8901666666666667,
      "grad_norm": 0.9703158140182495,
      "learning_rate": 8.914696921253334e-06,
      "loss": 3.2765,
      "step": 427280
    },
    {
      "epoch": 0.8901875,
      "grad_norm": 0.9222736954689026,
      "learning_rate": 8.911349226300801e-06,
      "loss": 3.3271,
      "step": 427290
    },
    {
      "epoch": 0.8902083333333334,
      "grad_norm": 1.0054274797439575,
      "learning_rate": 8.908002140795379e-06,
      "loss": 3.2464,
      "step": 427300
    },
    {
      "epoch": 0.8902291666666666,
      "grad_norm": 0.9026092290878296,
      "learning_rate": 8.904655664751536e-06,
      "loss": 3.3111,
      "step": 427310
    },
    {
      "epoch": 0.89025,
      "grad_norm": 1.028489351272583,
      "learning_rate": 8.901309798183748e-06,
      "loss": 3.3727,
      "step": 427320
    },
    {
      "epoch": 0.8902708333333333,
      "grad_norm": 0.878899335861206,
      "learning_rate": 8.897964541106434e-06,
      "loss": 3.2775,
      "step": 427330
    },
    {
      "epoch": 0.8902916666666667,
      "grad_norm": 0.9502583742141724,
      "learning_rate": 8.894619893534067e-06,
      "loss": 3.5062,
      "step": 427340
    },
    {
      "epoch": 0.8903125,
      "grad_norm": 0.8831934332847595,
      "learning_rate": 8.8912758554811e-06,
      "loss": 3.2354,
      "step": 427350
    },
    {
      "epoch": 0.8903333333333333,
      "grad_norm": 0.9677065014839172,
      "learning_rate": 8.887932426961942e-06,
      "loss": 3.287,
      "step": 427360
    },
    {
      "epoch": 0.8903541666666667,
      "grad_norm": 0.8844509124755859,
      "learning_rate": 8.884589607991077e-06,
      "loss": 3.3219,
      "step": 427370
    },
    {
      "epoch": 0.890375,
      "grad_norm": 1.113171100616455,
      "learning_rate": 8.88124739858293e-06,
      "loss": 3.1939,
      "step": 427380
    },
    {
      "epoch": 0.8903958333333334,
      "grad_norm": 0.9449504017829895,
      "learning_rate": 8.877905798751922e-06,
      "loss": 3.3358,
      "step": 427390
    },
    {
      "epoch": 0.8904166666666666,
      "grad_norm": 0.8503526449203491,
      "learning_rate": 8.874564808512541e-06,
      "loss": 3.3376,
      "step": 427400
    },
    {
      "epoch": 0.8904375,
      "grad_norm": 0.8756568431854248,
      "learning_rate": 8.871224427879125e-06,
      "loss": 3.3349,
      "step": 427410
    },
    {
      "epoch": 0.8904583333333334,
      "grad_norm": 0.9231885671615601,
      "learning_rate": 8.867884656866181e-06,
      "loss": 3.2799,
      "step": 427420
    },
    {
      "epoch": 0.8904791666666667,
      "grad_norm": 0.8975348472595215,
      "learning_rate": 8.864545495488129e-06,
      "loss": 3.3809,
      "step": 427430
    },
    {
      "epoch": 0.8905,
      "grad_norm": 0.8976439833641052,
      "learning_rate": 8.861206943759325e-06,
      "loss": 3.3093,
      "step": 427440
    },
    {
      "epoch": 0.8905208333333333,
      "grad_norm": 0.9280069470405579,
      "learning_rate": 8.857869001694273e-06,
      "loss": 3.2981,
      "step": 427450
    },
    {
      "epoch": 0.8905416666666667,
      "grad_norm": 1.0031026601791382,
      "learning_rate": 8.854531669307379e-06,
      "loss": 3.2689,
      "step": 427460
    },
    {
      "epoch": 0.8905625,
      "grad_norm": 0.9087669849395752,
      "learning_rate": 8.851194946613017e-06,
      "loss": 3.282,
      "step": 427470
    },
    {
      "epoch": 0.8905833333333333,
      "grad_norm": 0.9485060572624207,
      "learning_rate": 8.847858833625604e-06,
      "loss": 3.4024,
      "step": 427480
    },
    {
      "epoch": 0.8906041666666666,
      "grad_norm": 0.9499607682228088,
      "learning_rate": 8.844523330359598e-06,
      "loss": 3.2449,
      "step": 427490
    },
    {
      "epoch": 0.890625,
      "grad_norm": 0.9260437488555908,
      "learning_rate": 8.841188436829372e-06,
      "loss": 3.2767,
      "step": 427500
    },
    {
      "epoch": 0.8906458333333334,
      "grad_norm": 0.9504463076591492,
      "learning_rate": 8.837854153049312e-06,
      "loss": 3.2735,
      "step": 427510
    },
    {
      "epoch": 0.8906666666666667,
      "grad_norm": 0.9882574081420898,
      "learning_rate": 8.83452047903389e-06,
      "loss": 3.191,
      "step": 427520
    },
    {
      "epoch": 0.8906875,
      "grad_norm": 0.8657745718955994,
      "learning_rate": 8.83118741479743e-06,
      "loss": 3.2773,
      "step": 427530
    },
    {
      "epoch": 0.8907083333333333,
      "grad_norm": 0.8932518362998962,
      "learning_rate": 8.82785496035437e-06,
      "loss": 3.2905,
      "step": 427540
    },
    {
      "epoch": 0.8907291666666667,
      "grad_norm": 0.9201636910438538,
      "learning_rate": 8.824523115719095e-06,
      "loss": 3.3721,
      "step": 427550
    },
    {
      "epoch": 0.89075,
      "grad_norm": 0.9507306218147278,
      "learning_rate": 8.821191880906015e-06,
      "loss": 3.2686,
      "step": 427560
    },
    {
      "epoch": 0.8907708333333333,
      "grad_norm": 0.881585419178009,
      "learning_rate": 8.817861255929481e-06,
      "loss": 3.3281,
      "step": 427570
    },
    {
      "epoch": 0.8907916666666666,
      "grad_norm": 0.9819183945655823,
      "learning_rate": 8.814531240803918e-06,
      "loss": 3.1677,
      "step": 427580
    },
    {
      "epoch": 0.8908125,
      "grad_norm": 0.9516539573669434,
      "learning_rate": 8.81120183554368e-06,
      "loss": 3.3669,
      "step": 427590
    },
    {
      "epoch": 0.8908333333333334,
      "grad_norm": 0.9184141755104065,
      "learning_rate": 8.807873040163172e-06,
      "loss": 3.266,
      "step": 427600
    },
    {
      "epoch": 0.8908541666666666,
      "grad_norm": 0.8949728012084961,
      "learning_rate": 8.804544854676765e-06,
      "loss": 3.2683,
      "step": 427610
    },
    {
      "epoch": 0.890875,
      "grad_norm": 0.9019079804420471,
      "learning_rate": 8.801217279098833e-06,
      "loss": 3.2343,
      "step": 427620
    },
    {
      "epoch": 0.8908958333333333,
      "grad_norm": 1.0817564725875854,
      "learning_rate": 8.797890313443761e-06,
      "loss": 3.4307,
      "step": 427630
    },
    {
      "epoch": 0.8909166666666667,
      "grad_norm": 0.8276983499526978,
      "learning_rate": 8.794563957725909e-06,
      "loss": 3.3885,
      "step": 427640
    },
    {
      "epoch": 0.8909375,
      "grad_norm": 0.94569993019104,
      "learning_rate": 8.791238211959645e-06,
      "loss": 3.3285,
      "step": 427650
    },
    {
      "epoch": 0.8909583333333333,
      "grad_norm": 0.9174912571907043,
      "learning_rate": 8.787913076159326e-06,
      "loss": 3.377,
      "step": 427660
    },
    {
      "epoch": 0.8909791666666667,
      "grad_norm": 0.9659969806671143,
      "learning_rate": 8.784588550339338e-06,
      "loss": 3.2848,
      "step": 427670
    },
    {
      "epoch": 0.891,
      "grad_norm": 0.9415431022644043,
      "learning_rate": 8.781264634514024e-06,
      "loss": 3.339,
      "step": 427680
    },
    {
      "epoch": 0.8910208333333334,
      "grad_norm": 1.0339266061782837,
      "learning_rate": 8.777941328697752e-06,
      "loss": 3.2149,
      "step": 427690
    },
    {
      "epoch": 0.8910416666666666,
      "grad_norm": 0.8701768517494202,
      "learning_rate": 8.774618632904878e-06,
      "loss": 3.2483,
      "step": 427700
    },
    {
      "epoch": 0.8910625,
      "grad_norm": 0.8755974173545837,
      "learning_rate": 8.77129654714976e-06,
      "loss": 3.3156,
      "step": 427710
    },
    {
      "epoch": 0.8910833333333333,
      "grad_norm": 0.938210129737854,
      "learning_rate": 8.767975071446714e-06,
      "loss": 3.3103,
      "step": 427720
    },
    {
      "epoch": 0.8911041666666667,
      "grad_norm": 0.8805497884750366,
      "learning_rate": 8.764654205810134e-06,
      "loss": 3.3445,
      "step": 427730
    },
    {
      "epoch": 0.891125,
      "grad_norm": 0.999632716178894,
      "learning_rate": 8.761333950254324e-06,
      "loss": 3.2989,
      "step": 427740
    },
    {
      "epoch": 0.8911458333333333,
      "grad_norm": 0.9070830345153809,
      "learning_rate": 8.758014304793654e-06,
      "loss": 3.2299,
      "step": 427750
    },
    {
      "epoch": 0.8911666666666667,
      "grad_norm": 0.9956677556037903,
      "learning_rate": 8.754695269442464e-06,
      "loss": 3.2903,
      "step": 427760
    },
    {
      "epoch": 0.8911875,
      "grad_norm": 0.8738853931427002,
      "learning_rate": 8.75137684421509e-06,
      "loss": 3.1948,
      "step": 427770
    },
    {
      "epoch": 0.8912083333333334,
      "grad_norm": 1.0282360315322876,
      "learning_rate": 8.748059029125842e-06,
      "loss": 3.2641,
      "step": 427780
    },
    {
      "epoch": 0.8912291666666666,
      "grad_norm": 0.9128924608230591,
      "learning_rate": 8.74474182418904e-06,
      "loss": 3.4256,
      "step": 427790
    },
    {
      "epoch": 0.89125,
      "grad_norm": 0.916294515132904,
      "learning_rate": 8.741425229419102e-06,
      "loss": 3.276,
      "step": 427800
    },
    {
      "epoch": 0.8912708333333333,
      "grad_norm": 1.2880330085754395,
      "learning_rate": 8.738109244830255e-06,
      "loss": 3.3009,
      "step": 427810
    },
    {
      "epoch": 0.8912916666666667,
      "grad_norm": 0.9381930828094482,
      "learning_rate": 8.734793870436834e-06,
      "loss": 3.345,
      "step": 427820
    },
    {
      "epoch": 0.8913125,
      "grad_norm": 0.9859178066253662,
      "learning_rate": 8.731479106253248e-06,
      "loss": 3.3122,
      "step": 427830
    },
    {
      "epoch": 0.8913333333333333,
      "grad_norm": 0.9538286328315735,
      "learning_rate": 8.728164952293715e-06,
      "loss": 3.3452,
      "step": 427840
    },
    {
      "epoch": 0.8913541666666667,
      "grad_norm": 0.9631528258323669,
      "learning_rate": 8.724851408572576e-06,
      "loss": 3.2545,
      "step": 427850
    },
    {
      "epoch": 0.891375,
      "grad_norm": 0.951339066028595,
      "learning_rate": 8.7215384751042e-06,
      "loss": 3.3347,
      "step": 427860
    },
    {
      "epoch": 0.8913958333333334,
      "grad_norm": 0.8965778946876526,
      "learning_rate": 8.718226151902847e-06,
      "loss": 3.3458,
      "step": 427870
    },
    {
      "epoch": 0.8914166666666666,
      "grad_norm": 0.8919721245765686,
      "learning_rate": 8.7149144389828e-06,
      "loss": 3.3262,
      "step": 427880
    },
    {
      "epoch": 0.8914375,
      "grad_norm": 1.040003776550293,
      "learning_rate": 8.711603336358436e-06,
      "loss": 3.1487,
      "step": 427890
    },
    {
      "epoch": 0.8914583333333334,
      "grad_norm": 1.008811116218567,
      "learning_rate": 8.708292844044008e-06,
      "loss": 3.316,
      "step": 427900
    },
    {
      "epoch": 0.8914791666666667,
      "grad_norm": 0.926490306854248,
      "learning_rate": 8.704982962053836e-06,
      "loss": 3.2467,
      "step": 427910
    },
    {
      "epoch": 0.8915,
      "grad_norm": 0.9161063432693481,
      "learning_rate": 8.701673690402194e-06,
      "loss": 3.1514,
      "step": 427920
    },
    {
      "epoch": 0.8915208333333333,
      "grad_norm": 0.9156050682067871,
      "learning_rate": 8.698365029103389e-06,
      "loss": 3.2976,
      "step": 427930
    },
    {
      "epoch": 0.8915416666666667,
      "grad_norm": 1.0168687105178833,
      "learning_rate": 8.695056978171722e-06,
      "loss": 3.4031,
      "step": 427940
    },
    {
      "epoch": 0.8915625,
      "grad_norm": 0.9650783538818359,
      "learning_rate": 8.691749537621484e-06,
      "loss": 3.3663,
      "step": 427950
    },
    {
      "epoch": 0.8915833333333333,
      "grad_norm": 0.9418346881866455,
      "learning_rate": 8.688442707466947e-06,
      "loss": 3.3723,
      "step": 427960
    },
    {
      "epoch": 0.8916041666666666,
      "grad_norm": 0.8932533264160156,
      "learning_rate": 8.685136487722399e-06,
      "loss": 3.1915,
      "step": 427970
    },
    {
      "epoch": 0.891625,
      "grad_norm": 0.8395508527755737,
      "learning_rate": 8.681830878402129e-06,
      "loss": 3.2111,
      "step": 427980
    },
    {
      "epoch": 0.8916458333333334,
      "grad_norm": 0.8782687187194824,
      "learning_rate": 8.678525879520427e-06,
      "loss": 3.2758,
      "step": 427990
    },
    {
      "epoch": 0.8916666666666667,
      "grad_norm": 0.9512936472892761,
      "learning_rate": 8.675221491091528e-06,
      "loss": 3.3259,
      "step": 428000
    },
    {
      "epoch": 0.8916666666666667,
      "eval_loss": 4.026020050048828,
      "eval_runtime": 8.4841,
      "eval_samples_per_second": 1.179,
      "eval_steps_per_second": 0.354,
      "step": 428000
    },
    {
      "epoch": 0.8916875,
      "grad_norm": 0.9170181751251221,
      "learning_rate": 8.67191771312974e-06,
      "loss": 3.2031,
      "step": 428010
    },
    {
      "epoch": 0.8917083333333333,
      "grad_norm": 0.9700419306755066,
      "learning_rate": 8.668614545649333e-06,
      "loss": 3.4098,
      "step": 428020
    },
    {
      "epoch": 0.8917291666666667,
      "grad_norm": 0.8839998841285706,
      "learning_rate": 8.665311988664564e-06,
      "loss": 3.2775,
      "step": 428030
    },
    {
      "epoch": 0.89175,
      "grad_norm": 0.8993463516235352,
      "learning_rate": 8.662010042189705e-06,
      "loss": 3.4249,
      "step": 428040
    },
    {
      "epoch": 0.8917708333333333,
      "grad_norm": 1.0658146142959595,
      "learning_rate": 8.658708706239027e-06,
      "loss": 3.3424,
      "step": 428050
    },
    {
      "epoch": 0.8917916666666666,
      "grad_norm": 0.9028372764587402,
      "learning_rate": 8.655407980826785e-06,
      "loss": 3.3817,
      "step": 428060
    },
    {
      "epoch": 0.8918125,
      "grad_norm": 0.934177041053772,
      "learning_rate": 8.6521078659672e-06,
      "loss": 3.3308,
      "step": 428070
    },
    {
      "epoch": 0.8918333333333334,
      "grad_norm": 0.9272634983062744,
      "learning_rate": 8.648808361674564e-06,
      "loss": 3.1777,
      "step": 428080
    },
    {
      "epoch": 0.8918541666666666,
      "grad_norm": 0.9348767995834351,
      "learning_rate": 8.645509467963164e-06,
      "loss": 3.2422,
      "step": 428090
    },
    {
      "epoch": 0.891875,
      "grad_norm": 0.8784064054489136,
      "learning_rate": 8.64221118484717e-06,
      "loss": 3.2865,
      "step": 428100
    },
    {
      "epoch": 0.8918958333333333,
      "grad_norm": 0.9748916625976562,
      "learning_rate": 8.638913512340889e-06,
      "loss": 3.246,
      "step": 428110
    },
    {
      "epoch": 0.8919166666666667,
      "grad_norm": 0.9486237168312073,
      "learning_rate": 8.63561645045856e-06,
      "loss": 3.3865,
      "step": 428120
    },
    {
      "epoch": 0.8919375,
      "grad_norm": 0.8646098375320435,
      "learning_rate": 8.63231999921437e-06,
      "loss": 3.3767,
      "step": 428130
    },
    {
      "epoch": 0.8919583333333333,
      "grad_norm": 0.9176231622695923,
      "learning_rate": 8.629024158622627e-06,
      "loss": 3.1517,
      "step": 428140
    },
    {
      "epoch": 0.8919791666666667,
      "grad_norm": 1.0051770210266113,
      "learning_rate": 8.625728928697567e-06,
      "loss": 3.3776,
      "step": 428150
    },
    {
      "epoch": 0.892,
      "grad_norm": 1.0998663902282715,
      "learning_rate": 8.622434309453347e-06,
      "loss": 3.3056,
      "step": 428160
    },
    {
      "epoch": 0.8920208333333334,
      "grad_norm": 0.9036391973495483,
      "learning_rate": 8.619140300904287e-06,
      "loss": 3.3627,
      "step": 428170
    },
    {
      "epoch": 0.8920416666666666,
      "grad_norm": 0.83623206615448,
      "learning_rate": 8.615846903064577e-06,
      "loss": 3.3554,
      "step": 428180
    },
    {
      "epoch": 0.8920625,
      "grad_norm": 0.9680317044258118,
      "learning_rate": 8.612554115948406e-06,
      "loss": 3.3253,
      "step": 428190
    },
    {
      "epoch": 0.8920833333333333,
      "grad_norm": 1.0437592267990112,
      "learning_rate": 8.609261939570095e-06,
      "loss": 3.4454,
      "step": 428200
    },
    {
      "epoch": 0.8921041666666667,
      "grad_norm": 0.9061912894248962,
      "learning_rate": 8.605970373943765e-06,
      "loss": 3.2314,
      "step": 428210
    },
    {
      "epoch": 0.892125,
      "grad_norm": 0.8773567080497742,
      "learning_rate": 8.602679419083658e-06,
      "loss": 3.2722,
      "step": 428220
    },
    {
      "epoch": 0.8921458333333333,
      "grad_norm": 0.9159762859344482,
      "learning_rate": 8.59938907500406e-06,
      "loss": 3.4571,
      "step": 428230
    },
    {
      "epoch": 0.8921666666666667,
      "grad_norm": 0.8750218749046326,
      "learning_rate": 8.59609934171911e-06,
      "loss": 3.4056,
      "step": 428240
    },
    {
      "epoch": 0.8921875,
      "grad_norm": 1.0174504518508911,
      "learning_rate": 8.592810219243012e-06,
      "loss": 3.3495,
      "step": 428250
    },
    {
      "epoch": 0.8922083333333334,
      "grad_norm": 0.8615586161613464,
      "learning_rate": 8.589521707590042e-06,
      "loss": 3.2647,
      "step": 428260
    },
    {
      "epoch": 0.8922291666666666,
      "grad_norm": 0.9109742641448975,
      "learning_rate": 8.58623380677435e-06,
      "loss": 3.3131,
      "step": 428270
    },
    {
      "epoch": 0.89225,
      "grad_norm": 0.9260653257369995,
      "learning_rate": 8.582946516810146e-06,
      "loss": 3.4123,
      "step": 428280
    },
    {
      "epoch": 0.8922708333333333,
      "grad_norm": 0.9643906950950623,
      "learning_rate": 8.579659837711634e-06,
      "loss": 3.3031,
      "step": 428290
    },
    {
      "epoch": 0.8922916666666667,
      "grad_norm": 0.7950177788734436,
      "learning_rate": 8.576373769493016e-06,
      "loss": 3.2829,
      "step": 428300
    },
    {
      "epoch": 0.8923125,
      "grad_norm": 1.0460675954818726,
      "learning_rate": 8.573088312168485e-06,
      "loss": 3.2903,
      "step": 428310
    },
    {
      "epoch": 0.8923333333333333,
      "grad_norm": 0.8350390195846558,
      "learning_rate": 8.569803465752229e-06,
      "loss": 3.2209,
      "step": 428320
    },
    {
      "epoch": 0.8923541666666667,
      "grad_norm": 0.8398368954658508,
      "learning_rate": 8.566519230258451e-06,
      "loss": 3.3282,
      "step": 428330
    },
    {
      "epoch": 0.892375,
      "grad_norm": 0.9534648060798645,
      "learning_rate": 8.563235605701308e-06,
      "loss": 3.2759,
      "step": 428340
    },
    {
      "epoch": 0.8923958333333334,
      "grad_norm": 0.905988872051239,
      "learning_rate": 8.55995259209502e-06,
      "loss": 3.3555,
      "step": 428350
    },
    {
      "epoch": 0.8924166666666666,
      "grad_norm": 0.8517816662788391,
      "learning_rate": 8.556670189453745e-06,
      "loss": 3.2755,
      "step": 428360
    },
    {
      "epoch": 0.8924375,
      "grad_norm": 0.8716747164726257,
      "learning_rate": 8.553388397791672e-06,
      "loss": 3.3195,
      "step": 428370
    },
    {
      "epoch": 0.8924583333333334,
      "grad_norm": 0.9340038895606995,
      "learning_rate": 8.55010721712297e-06,
      "loss": 3.2887,
      "step": 428380
    },
    {
      "epoch": 0.8924791666666667,
      "grad_norm": 0.8771250247955322,
      "learning_rate": 8.546826647461797e-06,
      "loss": 3.3374,
      "step": 428390
    },
    {
      "epoch": 0.8925,
      "grad_norm": 0.8569394946098328,
      "learning_rate": 8.54354668882239e-06,
      "loss": 3.1787,
      "step": 428400
    },
    {
      "epoch": 0.8925208333333333,
      "grad_norm": 0.8949572443962097,
      "learning_rate": 8.540267341218803e-06,
      "loss": 3.3445,
      "step": 428410
    },
    {
      "epoch": 0.8925416666666667,
      "grad_norm": 0.8846717476844788,
      "learning_rate": 8.536988604665312e-06,
      "loss": 3.2987,
      "step": 428420
    },
    {
      "epoch": 0.8925625,
      "grad_norm": 0.8699350953102112,
      "learning_rate": 8.533710479176037e-06,
      "loss": 3.3816,
      "step": 428430
    },
    {
      "epoch": 0.8925833333333333,
      "grad_norm": 0.9306723475456238,
      "learning_rate": 8.530432964765116e-06,
      "loss": 3.3046,
      "step": 428440
    },
    {
      "epoch": 0.8926041666666666,
      "grad_norm": 0.8745843768119812,
      "learning_rate": 8.527156061446721e-06,
      "loss": 3.4016,
      "step": 428450
    },
    {
      "epoch": 0.892625,
      "grad_norm": 0.9893339276313782,
      "learning_rate": 8.523879769235059e-06,
      "loss": 3.1584,
      "step": 428460
    },
    {
      "epoch": 0.8926458333333334,
      "grad_norm": 1.0064266920089722,
      "learning_rate": 8.520604088144183e-06,
      "loss": 3.3057,
      "step": 428470
    },
    {
      "epoch": 0.8926666666666667,
      "grad_norm": 0.8939908146858215,
      "learning_rate": 8.517329018188318e-06,
      "loss": 3.3115,
      "step": 428480
    },
    {
      "epoch": 0.8926875,
      "grad_norm": 0.931919276714325,
      "learning_rate": 8.5140545593816e-06,
      "loss": 3.2783,
      "step": 428490
    },
    {
      "epoch": 0.8927083333333333,
      "grad_norm": 0.8594964146614075,
      "learning_rate": 8.510780711738135e-06,
      "loss": 3.2689,
      "step": 428500
    },
    {
      "epoch": 0.8927291666666667,
      "grad_norm": 1.1786526441574097,
      "learning_rate": 8.507507475272096e-06,
      "loss": 3.2338,
      "step": 428510
    },
    {
      "epoch": 0.89275,
      "grad_norm": 0.9290542602539062,
      "learning_rate": 8.504234849997654e-06,
      "loss": 3.2968,
      "step": 428520
    },
    {
      "epoch": 0.8927708333333333,
      "grad_norm": 1.0076308250427246,
      "learning_rate": 8.500962835928865e-06,
      "loss": 3.3373,
      "step": 428530
    },
    {
      "epoch": 0.8927916666666667,
      "grad_norm": 0.8852335214614868,
      "learning_rate": 8.49769143307995e-06,
      "loss": 3.3044,
      "step": 428540
    },
    {
      "epoch": 0.8928125,
      "grad_norm": 0.9760687351226807,
      "learning_rate": 8.494420641464982e-06,
      "loss": 3.2424,
      "step": 428550
    },
    {
      "epoch": 0.8928333333333334,
      "grad_norm": 0.8777084350585938,
      "learning_rate": 8.491150461098068e-06,
      "loss": 3.3261,
      "step": 428560
    },
    {
      "epoch": 0.8928541666666666,
      "grad_norm": 0.8661715388298035,
      "learning_rate": 8.487880891993426e-06,
      "loss": 3.2487,
      "step": 428570
    },
    {
      "epoch": 0.892875,
      "grad_norm": 0.9348792433738708,
      "learning_rate": 8.484611934165097e-06,
      "loss": 3.4256,
      "step": 428580
    },
    {
      "epoch": 0.8928958333333333,
      "grad_norm": 1.1319875717163086,
      "learning_rate": 8.481343587627204e-06,
      "loss": 3.4205,
      "step": 428590
    },
    {
      "epoch": 0.8929166666666667,
      "grad_norm": 0.8833874464035034,
      "learning_rate": 8.478075852393933e-06,
      "loss": 3.3108,
      "step": 428600
    },
    {
      "epoch": 0.8929375,
      "grad_norm": 1.0453203916549683,
      "learning_rate": 8.474808728479344e-06,
      "loss": 3.3322,
      "step": 428610
    },
    {
      "epoch": 0.8929583333333333,
      "grad_norm": 0.9551239609718323,
      "learning_rate": 8.471542215897536e-06,
      "loss": 3.2822,
      "step": 428620
    },
    {
      "epoch": 0.8929791666666667,
      "grad_norm": 0.9465973973274231,
      "learning_rate": 8.468276314662687e-06,
      "loss": 3.2454,
      "step": 428630
    },
    {
      "epoch": 0.893,
      "grad_norm": 0.9331996440887451,
      "learning_rate": 8.465011024788847e-06,
      "loss": 3.4173,
      "step": 428640
    },
    {
      "epoch": 0.8930208333333334,
      "grad_norm": 1.0193928480148315,
      "learning_rate": 8.461746346290127e-06,
      "loss": 3.1775,
      "step": 428650
    },
    {
      "epoch": 0.8930416666666666,
      "grad_norm": 0.8977814316749573,
      "learning_rate": 8.458482279180644e-06,
      "loss": 3.2119,
      "step": 428660
    },
    {
      "epoch": 0.8930625,
      "grad_norm": 0.8955187797546387,
      "learning_rate": 8.455218823474492e-06,
      "loss": 3.3073,
      "step": 428670
    },
    {
      "epoch": 0.8930833333333333,
      "grad_norm": 0.9050765037536621,
      "learning_rate": 8.451955979185754e-06,
      "loss": 3.3214,
      "step": 428680
    },
    {
      "epoch": 0.8931041666666667,
      "grad_norm": 0.9291210770606995,
      "learning_rate": 8.448693746328555e-06,
      "loss": 3.2904,
      "step": 428690
    },
    {
      "epoch": 0.893125,
      "grad_norm": 0.8931774497032166,
      "learning_rate": 8.445432124916951e-06,
      "loss": 3.129,
      "step": 428700
    },
    {
      "epoch": 0.8931458333333333,
      "grad_norm": 1.0065745115280151,
      "learning_rate": 8.442171114965062e-06,
      "loss": 3.3407,
      "step": 428710
    },
    {
      "epoch": 0.8931666666666667,
      "grad_norm": 1.1134886741638184,
      "learning_rate": 8.438910716486963e-06,
      "loss": 3.34,
      "step": 428720
    },
    {
      "epoch": 0.8931875,
      "grad_norm": 1.0420894622802734,
      "learning_rate": 8.435650929496724e-06,
      "loss": 3.3106,
      "step": 428730
    },
    {
      "epoch": 0.8932083333333334,
      "grad_norm": 0.9157525300979614,
      "learning_rate": 8.43239175400845e-06,
      "loss": 3.2558,
      "step": 428740
    },
    {
      "epoch": 0.8932291666666666,
      "grad_norm": 0.9847012758255005,
      "learning_rate": 8.429133190036213e-06,
      "loss": 3.3419,
      "step": 428750
    },
    {
      "epoch": 0.89325,
      "grad_norm": 0.9601166248321533,
      "learning_rate": 8.425875237594072e-06,
      "loss": 3.3611,
      "step": 428760
    },
    {
      "epoch": 0.8932708333333333,
      "grad_norm": 1.0629130601882935,
      "learning_rate": 8.422617896696127e-06,
      "loss": 3.4598,
      "step": 428770
    },
    {
      "epoch": 0.8932916666666667,
      "grad_norm": 0.7985801696777344,
      "learning_rate": 8.419361167356403e-06,
      "loss": 3.3057,
      "step": 428780
    },
    {
      "epoch": 0.8933125,
      "grad_norm": 0.8999994993209839,
      "learning_rate": 8.416105049589006e-06,
      "loss": 3.3446,
      "step": 428790
    },
    {
      "epoch": 0.8933333333333333,
      "grad_norm": 0.9459721446037292,
      "learning_rate": 8.412849543408023e-06,
      "loss": 3.4355,
      "step": 428800
    },
    {
      "epoch": 0.8933541666666667,
      "grad_norm": 0.8818685412406921,
      "learning_rate": 8.409594648827428e-06,
      "loss": 3.2962,
      "step": 428810
    },
    {
      "epoch": 0.893375,
      "grad_norm": 1.5165146589279175,
      "learning_rate": 8.406340365861374e-06,
      "loss": 3.3622,
      "step": 428820
    },
    {
      "epoch": 0.8933958333333333,
      "grad_norm": 0.902927041053772,
      "learning_rate": 8.403086694523902e-06,
      "loss": 3.2601,
      "step": 428830
    },
    {
      "epoch": 0.8934166666666666,
      "grad_norm": 0.9507250189781189,
      "learning_rate": 8.399833634829018e-06,
      "loss": 3.3981,
      "step": 428840
    },
    {
      "epoch": 0.8934375,
      "grad_norm": 0.9902878999710083,
      "learning_rate": 8.396581186790807e-06,
      "loss": 3.4128,
      "step": 428850
    },
    {
      "epoch": 0.8934583333333334,
      "grad_norm": 1.0052893161773682,
      "learning_rate": 8.393329350423345e-06,
      "loss": 3.3203,
      "step": 428860
    },
    {
      "epoch": 0.8934791666666667,
      "grad_norm": 0.9332523941993713,
      "learning_rate": 8.390078125740585e-06,
      "loss": 3.2786,
      "step": 428870
    },
    {
      "epoch": 0.8935,
      "grad_norm": 0.8891222476959229,
      "learning_rate": 8.386827512756683e-06,
      "loss": 3.3241,
      "step": 428880
    },
    {
      "epoch": 0.8935208333333333,
      "grad_norm": 0.882078230381012,
      "learning_rate": 8.383577511485645e-06,
      "loss": 3.4082,
      "step": 428890
    },
    {
      "epoch": 0.8935416666666667,
      "grad_norm": 0.8760477900505066,
      "learning_rate": 8.380328121941443e-06,
      "loss": 3.2327,
      "step": 428900
    },
    {
      "epoch": 0.8935625,
      "grad_norm": 1.0164916515350342,
      "learning_rate": 8.377079344138215e-06,
      "loss": 3.3011,
      "step": 428910
    },
    {
      "epoch": 0.8935833333333333,
      "grad_norm": 0.9502410292625427,
      "learning_rate": 8.373831178089935e-06,
      "loss": 3.2876,
      "step": 428920
    },
    {
      "epoch": 0.8936041666666666,
      "grad_norm": 0.9259898662567139,
      "learning_rate": 8.370583623810607e-06,
      "loss": 3.2942,
      "step": 428930
    },
    {
      "epoch": 0.893625,
      "grad_norm": 0.8934685587882996,
      "learning_rate": 8.367336681314352e-06,
      "loss": 3.2548,
      "step": 428940
    },
    {
      "epoch": 0.8936458333333334,
      "grad_norm": 0.8616361618041992,
      "learning_rate": 8.36409035061511e-06,
      "loss": 3.3874,
      "step": 428950
    },
    {
      "epoch": 0.8936666666666667,
      "grad_norm": 0.9211568236351013,
      "learning_rate": 8.360844631726954e-06,
      "loss": 3.3913,
      "step": 428960
    },
    {
      "epoch": 0.8936875,
      "grad_norm": 1.1897428035736084,
      "learning_rate": 8.357599524663854e-06,
      "loss": 3.2478,
      "step": 428970
    },
    {
      "epoch": 0.8937083333333333,
      "grad_norm": 1.1624810695648193,
      "learning_rate": 8.354355029439885e-06,
      "loss": 3.3391,
      "step": 428980
    },
    {
      "epoch": 0.8937291666666667,
      "grad_norm": 0.859339714050293,
      "learning_rate": 8.351111146069018e-06,
      "loss": 3.2822,
      "step": 428990
    },
    {
      "epoch": 0.89375,
      "grad_norm": 0.9658145308494568,
      "learning_rate": 8.347867874565289e-06,
      "loss": 3.3907,
      "step": 429000
    },
    {
      "epoch": 0.89375,
      "eval_loss": 4.02447509765625,
      "eval_runtime": 8.429,
      "eval_samples_per_second": 1.186,
      "eval_steps_per_second": 0.356,
      "step": 429000
    },
    {
      "epoch": 0.8937708333333333,
      "grad_norm": 0.8705395460128784,
      "learning_rate": 8.344625214942708e-06,
      "loss": 3.3478,
      "step": 429010
    },
    {
      "epoch": 0.8937916666666667,
      "grad_norm": 0.8974196910858154,
      "learning_rate": 8.34138316721526e-06,
      "loss": 3.3197,
      "step": 429020
    },
    {
      "epoch": 0.8938125,
      "grad_norm": 1.1146624088287354,
      "learning_rate": 8.33814173139697e-06,
      "loss": 3.3886,
      "step": 429030
    },
    {
      "epoch": 0.8938333333333334,
      "grad_norm": 0.9508119225502014,
      "learning_rate": 8.33490090750184e-06,
      "loss": 3.3494,
      "step": 429040
    },
    {
      "epoch": 0.8938541666666666,
      "grad_norm": 0.9187988638877869,
      "learning_rate": 8.331660695543862e-06,
      "loss": 3.3181,
      "step": 429050
    },
    {
      "epoch": 0.893875,
      "grad_norm": 0.8632199168205261,
      "learning_rate": 8.328421095537025e-06,
      "loss": 3.2165,
      "step": 429060
    },
    {
      "epoch": 0.8938958333333333,
      "grad_norm": 0.9218786954879761,
      "learning_rate": 8.325182107495332e-06,
      "loss": 3.3186,
      "step": 429070
    },
    {
      "epoch": 0.8939166666666667,
      "grad_norm": 0.8795723915100098,
      "learning_rate": 8.32194373143279e-06,
      "loss": 3.2882,
      "step": 429080
    },
    {
      "epoch": 0.8939375,
      "grad_norm": 1.0051788091659546,
      "learning_rate": 8.318705967363353e-06,
      "loss": 3.2549,
      "step": 429090
    },
    {
      "epoch": 0.8939583333333333,
      "grad_norm": 0.90980064868927,
      "learning_rate": 8.315468815301029e-06,
      "loss": 3.382,
      "step": 429100
    },
    {
      "epoch": 0.8939791666666667,
      "grad_norm": 0.9557885527610779,
      "learning_rate": 8.312232275259806e-06,
      "loss": 3.3992,
      "step": 429110
    },
    {
      "epoch": 0.894,
      "grad_norm": 0.9281319975852966,
      "learning_rate": 8.308996347253637e-06,
      "loss": 3.3395,
      "step": 429120
    },
    {
      "epoch": 0.8940208333333334,
      "grad_norm": 0.9419598579406738,
      "learning_rate": 8.305761031296532e-06,
      "loss": 3.2311,
      "step": 429130
    },
    {
      "epoch": 0.8940416666666666,
      "grad_norm": 0.9446936249732971,
      "learning_rate": 8.302526327402476e-06,
      "loss": 3.3573,
      "step": 429140
    },
    {
      "epoch": 0.8940625,
      "grad_norm": 0.9165748357772827,
      "learning_rate": 8.299292235585375e-06,
      "loss": 3.3231,
      "step": 429150
    },
    {
      "epoch": 0.8940833333333333,
      "grad_norm": 0.9794240593910217,
      "learning_rate": 8.29605875585927e-06,
      "loss": 3.2915,
      "step": 429160
    },
    {
      "epoch": 0.8941041666666667,
      "grad_norm": 1.0153610706329346,
      "learning_rate": 8.292825888238113e-06,
      "loss": 3.2813,
      "step": 429170
    },
    {
      "epoch": 0.894125,
      "grad_norm": 0.9126980900764465,
      "learning_rate": 8.289593632735814e-06,
      "loss": 3.2457,
      "step": 429180
    },
    {
      "epoch": 0.8941458333333333,
      "grad_norm": 0.9780138731002808,
      "learning_rate": 8.286361989366391e-06,
      "loss": 3.3697,
      "step": 429190
    },
    {
      "epoch": 0.8941666666666667,
      "grad_norm": 1.0255787372589111,
      "learning_rate": 8.283130958143818e-06,
      "loss": 3.2529,
      "step": 429200
    },
    {
      "epoch": 0.8941875,
      "grad_norm": 1.0642619132995605,
      "learning_rate": 8.279900539081985e-06,
      "loss": 3.3411,
      "step": 429210
    },
    {
      "epoch": 0.8942083333333334,
      "grad_norm": 0.9247115254402161,
      "learning_rate": 8.276670732194912e-06,
      "loss": 3.343,
      "step": 429220
    },
    {
      "epoch": 0.8942291666666666,
      "grad_norm": 0.9131156802177429,
      "learning_rate": 8.273441537496539e-06,
      "loss": 3.2448,
      "step": 429230
    },
    {
      "epoch": 0.89425,
      "grad_norm": 1.0279536247253418,
      "learning_rate": 8.270212955000771e-06,
      "loss": 3.0981,
      "step": 429240
    },
    {
      "epoch": 0.8942708333333333,
      "grad_norm": 0.8592818975448608,
      "learning_rate": 8.266984984721565e-06,
      "loss": 3.3585,
      "step": 429250
    },
    {
      "epoch": 0.8942916666666667,
      "grad_norm": 0.890577495098114,
      "learning_rate": 8.263757626672923e-06,
      "loss": 3.2271,
      "step": 429260
    },
    {
      "epoch": 0.8943125,
      "grad_norm": 0.9505274295806885,
      "learning_rate": 8.26053088086872e-06,
      "loss": 3.2554,
      "step": 429270
    },
    {
      "epoch": 0.8943333333333333,
      "grad_norm": 0.9297932386398315,
      "learning_rate": 8.25730474732293e-06,
      "loss": 3.3595,
      "step": 429280
    },
    {
      "epoch": 0.8943541666666667,
      "grad_norm": 0.9107037782669067,
      "learning_rate": 8.25407922604947e-06,
      "loss": 3.2801,
      "step": 429290
    },
    {
      "epoch": 0.894375,
      "grad_norm": 0.8339605927467346,
      "learning_rate": 8.2508543170623e-06,
      "loss": 3.325,
      "step": 429300
    },
    {
      "epoch": 0.8943958333333333,
      "grad_norm": 0.9697685837745667,
      "learning_rate": 8.247630020375307e-06,
      "loss": 3.3213,
      "step": 429310
    },
    {
      "epoch": 0.8944166666666666,
      "grad_norm": 0.8571484088897705,
      "learning_rate": 8.244406336002446e-06,
      "loss": 3.3692,
      "step": 429320
    },
    {
      "epoch": 0.8944375,
      "grad_norm": 0.965211808681488,
      "learning_rate": 8.241183263957657e-06,
      "loss": 3.388,
      "step": 429330
    },
    {
      "epoch": 0.8944583333333334,
      "grad_norm": 0.9220111966133118,
      "learning_rate": 8.237960804254828e-06,
      "loss": 3.2143,
      "step": 429340
    },
    {
      "epoch": 0.8944791666666667,
      "grad_norm": 0.8948395848274231,
      "learning_rate": 8.2347389569079e-06,
      "loss": 3.3526,
      "step": 429350
    },
    {
      "epoch": 0.8945,
      "grad_norm": 0.926673412322998,
      "learning_rate": 8.231517721930774e-06,
      "loss": 3.1882,
      "step": 429360
    },
    {
      "epoch": 0.8945208333333333,
      "grad_norm": 0.9903534054756165,
      "learning_rate": 8.228297099337394e-06,
      "loss": 3.3816,
      "step": 429370
    },
    {
      "epoch": 0.8945416666666667,
      "grad_norm": 0.9147530794143677,
      "learning_rate": 8.225077089141646e-06,
      "loss": 3.1669,
      "step": 429380
    },
    {
      "epoch": 0.8945625,
      "grad_norm": 0.9625859260559082,
      "learning_rate": 8.221857691357437e-06,
      "loss": 3.2341,
      "step": 429390
    },
    {
      "epoch": 0.8945833333333333,
      "grad_norm": 0.8623997569084167,
      "learning_rate": 8.218638905998704e-06,
      "loss": 3.3604,
      "step": 429400
    },
    {
      "epoch": 0.8946041666666666,
      "grad_norm": 1.1413159370422363,
      "learning_rate": 8.215420733079303e-06,
      "loss": 3.3262,
      "step": 429410
    },
    {
      "epoch": 0.894625,
      "grad_norm": 1.0482642650604248,
      "learning_rate": 8.212203172613174e-06,
      "loss": 3.4831,
      "step": 429420
    },
    {
      "epoch": 0.8946458333333334,
      "grad_norm": 0.8794918656349182,
      "learning_rate": 8.208986224614222e-06,
      "loss": 3.2484,
      "step": 429430
    },
    {
      "epoch": 0.8946666666666667,
      "grad_norm": 0.8747050762176514,
      "learning_rate": 8.205769889096302e-06,
      "loss": 3.2885,
      "step": 429440
    },
    {
      "epoch": 0.8946875,
      "grad_norm": 0.9290626645088196,
      "learning_rate": 8.202554166073338e-06,
      "loss": 3.2793,
      "step": 429450
    },
    {
      "epoch": 0.8947083333333333,
      "grad_norm": 0.9222313165664673,
      "learning_rate": 8.199339055559218e-06,
      "loss": 3.2627,
      "step": 429460
    },
    {
      "epoch": 0.8947291666666667,
      "grad_norm": 0.8655211329460144,
      "learning_rate": 8.196124557567813e-06,
      "loss": 3.2695,
      "step": 429470
    },
    {
      "epoch": 0.89475,
      "grad_norm": 0.9072484970092773,
      "learning_rate": 8.192910672113029e-06,
      "loss": 3.3508,
      "step": 429480
    },
    {
      "epoch": 0.8947708333333333,
      "grad_norm": 0.9379712343215942,
      "learning_rate": 8.189697399208723e-06,
      "loss": 3.3716,
      "step": 429490
    },
    {
      "epoch": 0.8947916666666667,
      "grad_norm": 1.0464820861816406,
      "learning_rate": 8.186484738868815e-06,
      "loss": 3.339,
      "step": 429500
    },
    {
      "epoch": 0.8948125,
      "grad_norm": 0.9501482248306274,
      "learning_rate": 8.183272691107145e-06,
      "loss": 3.351,
      "step": 429510
    },
    {
      "epoch": 0.8948333333333334,
      "grad_norm": 0.8710894584655762,
      "learning_rate": 8.180061255937603e-06,
      "loss": 3.4445,
      "step": 429520
    },
    {
      "epoch": 0.8948541666666666,
      "grad_norm": 0.9071996212005615,
      "learning_rate": 8.17685043337406e-06,
      "loss": 3.4001,
      "step": 429530
    },
    {
      "epoch": 0.894875,
      "grad_norm": 0.8702438473701477,
      "learning_rate": 8.173640223430422e-06,
      "loss": 3.2351,
      "step": 429540
    },
    {
      "epoch": 0.8948958333333333,
      "grad_norm": 0.987064778804779,
      "learning_rate": 8.170430626120477e-06,
      "loss": 3.3318,
      "step": 429550
    },
    {
      "epoch": 0.8949166666666667,
      "grad_norm": 0.8981106877326965,
      "learning_rate": 8.167221641458133e-06,
      "loss": 3.2423,
      "step": 429560
    },
    {
      "epoch": 0.8949375,
      "grad_norm": 0.8933358788490295,
      "learning_rate": 8.164013269457277e-06,
      "loss": 3.1444,
      "step": 429570
    },
    {
      "epoch": 0.8949583333333333,
      "grad_norm": 0.9206984639167786,
      "learning_rate": 8.160805510131713e-06,
      "loss": 3.1218,
      "step": 429580
    },
    {
      "epoch": 0.8949791666666667,
      "grad_norm": 0.9282095432281494,
      "learning_rate": 8.157598363495315e-06,
      "loss": 3.3566,
      "step": 429590
    },
    {
      "epoch": 0.895,
      "grad_norm": 1.0865366458892822,
      "learning_rate": 8.15439182956199e-06,
      "loss": 3.4254,
      "step": 429600
    },
    {
      "epoch": 0.8950208333333334,
      "grad_norm": 0.8922834396362305,
      "learning_rate": 8.151185908345525e-06,
      "loss": 3.3001,
      "step": 429610
    },
    {
      "epoch": 0.8950416666666666,
      "grad_norm": 1.0086816549301147,
      "learning_rate": 8.14798059985976e-06,
      "loss": 3.2478,
      "step": 429620
    },
    {
      "epoch": 0.8950625,
      "grad_norm": 1.006098985671997,
      "learning_rate": 8.144775904118616e-06,
      "loss": 3.2268,
      "step": 429630
    },
    {
      "epoch": 0.8950833333333333,
      "grad_norm": 1.0554126501083374,
      "learning_rate": 8.141571821135883e-06,
      "loss": 3.3879,
      "step": 429640
    },
    {
      "epoch": 0.8951041666666667,
      "grad_norm": 0.9097379446029663,
      "learning_rate": 8.138368350925368e-06,
      "loss": 3.2181,
      "step": 429650
    },
    {
      "epoch": 0.895125,
      "grad_norm": 0.8665900230407715,
      "learning_rate": 8.135165493501006e-06,
      "loss": 3.3459,
      "step": 429660
    },
    {
      "epoch": 0.8951458333333333,
      "grad_norm": 0.8858135938644409,
      "learning_rate": 8.131963248876538e-06,
      "loss": 3.3463,
      "step": 429670
    },
    {
      "epoch": 0.8951666666666667,
      "grad_norm": 0.8735895752906799,
      "learning_rate": 8.128761617065837e-06,
      "loss": 3.2537,
      "step": 429680
    },
    {
      "epoch": 0.8951875,
      "grad_norm": 0.964614748954773,
      "learning_rate": 8.125560598082742e-06,
      "loss": 3.2624,
      "step": 429690
    },
    {
      "epoch": 0.8952083333333334,
      "grad_norm": 0.8680818676948547,
      "learning_rate": 8.122360191941057e-06,
      "loss": 3.4303,
      "step": 429700
    },
    {
      "epoch": 0.8952291666666666,
      "grad_norm": 0.8923861980438232,
      "learning_rate": 8.119160398654622e-06,
      "loss": 3.3567,
      "step": 429710
    },
    {
      "epoch": 0.89525,
      "grad_norm": 0.8893939256668091,
      "learning_rate": 8.115961218237244e-06,
      "loss": 3.1707,
      "step": 429720
    },
    {
      "epoch": 0.8952708333333333,
      "grad_norm": 0.9991718530654907,
      "learning_rate": 8.112762650702759e-06,
      "loss": 3.291,
      "step": 429730
    },
    {
      "epoch": 0.8952916666666667,
      "grad_norm": 0.9988667964935303,
      "learning_rate": 8.109564696064973e-06,
      "loss": 3.4336,
      "step": 429740
    },
    {
      "epoch": 0.8953125,
      "grad_norm": 0.8848325610160828,
      "learning_rate": 8.106367354337711e-06,
      "loss": 3.2118,
      "step": 429750
    },
    {
      "epoch": 0.8953333333333333,
      "grad_norm": 0.9176343679428101,
      "learning_rate": 8.103170625534777e-06,
      "loss": 3.2588,
      "step": 429760
    },
    {
      "epoch": 0.8953541666666667,
      "grad_norm": 0.8918637633323669,
      "learning_rate": 8.099974509669976e-06,
      "loss": 3.3664,
      "step": 429770
    },
    {
      "epoch": 0.895375,
      "grad_norm": 0.8283044099807739,
      "learning_rate": 8.096779006757115e-06,
      "loss": 3.314,
      "step": 429780
    },
    {
      "epoch": 0.8953958333333333,
      "grad_norm": 0.9234495162963867,
      "learning_rate": 8.093584116809998e-06,
      "loss": 3.3678,
      "step": 429790
    },
    {
      "epoch": 0.8954166666666666,
      "grad_norm": 0.9095941185951233,
      "learning_rate": 8.090389839842432e-06,
      "loss": 3.2712,
      "step": 429800
    },
    {
      "epoch": 0.8954375,
      "grad_norm": 0.8766167759895325,
      "learning_rate": 8.087196175868204e-06,
      "loss": 3.2274,
      "step": 429810
    },
    {
      "epoch": 0.8954583333333334,
      "grad_norm": 1.1969146728515625,
      "learning_rate": 8.084003124901123e-06,
      "loss": 3.3197,
      "step": 429820
    },
    {
      "epoch": 0.8954791666666667,
      "grad_norm": 0.8775514364242554,
      "learning_rate": 8.080810686954992e-06,
      "loss": 3.2892,
      "step": 429830
    },
    {
      "epoch": 0.8955,
      "grad_norm": 0.9761239886283875,
      "learning_rate": 8.077618862043533e-06,
      "loss": 3.3749,
      "step": 429840
    },
    {
      "epoch": 0.8955208333333333,
      "grad_norm": 0.8888789415359497,
      "learning_rate": 8.07442765018062e-06,
      "loss": 3.356,
      "step": 429850
    },
    {
      "epoch": 0.8955416666666667,
      "grad_norm": 0.8474940061569214,
      "learning_rate": 8.071237051380008e-06,
      "loss": 3.3694,
      "step": 429860
    },
    {
      "epoch": 0.8955625,
      "grad_norm": 0.9029435515403748,
      "learning_rate": 8.068047065655436e-06,
      "loss": 3.2444,
      "step": 429870
    },
    {
      "epoch": 0.8955833333333333,
      "grad_norm": 0.9397668838500977,
      "learning_rate": 8.064857693020743e-06,
      "loss": 3.3603,
      "step": 429880
    },
    {
      "epoch": 0.8956041666666666,
      "grad_norm": 1.0266051292419434,
      "learning_rate": 8.0616689334897e-06,
      "loss": 3.3136,
      "step": 429890
    },
    {
      "epoch": 0.895625,
      "grad_norm": 0.9726813435554504,
      "learning_rate": 8.058480787076033e-06,
      "loss": 3.359,
      "step": 429900
    },
    {
      "epoch": 0.8956458333333334,
      "grad_norm": 0.8806737661361694,
      "learning_rate": 8.055293253793576e-06,
      "loss": 3.3382,
      "step": 429910
    },
    {
      "epoch": 0.8956666666666667,
      "grad_norm": 1.1005477905273438,
      "learning_rate": 8.052106333656056e-06,
      "loss": 3.3516,
      "step": 429920
    },
    {
      "epoch": 0.8956875,
      "grad_norm": 1.0632561445236206,
      "learning_rate": 8.048920026677208e-06,
      "loss": 3.2389,
      "step": 429930
    },
    {
      "epoch": 0.8957083333333333,
      "grad_norm": 0.9346749782562256,
      "learning_rate": 8.045734332870907e-06,
      "loss": 3.299,
      "step": 429940
    },
    {
      "epoch": 0.8957291666666667,
      "grad_norm": 0.966838002204895,
      "learning_rate": 8.042549252250806e-06,
      "loss": 3.4245,
      "step": 429950
    },
    {
      "epoch": 0.89575,
      "grad_norm": 0.9185177683830261,
      "learning_rate": 8.039364784830682e-06,
      "loss": 3.3712,
      "step": 429960
    },
    {
      "epoch": 0.8957708333333333,
      "grad_norm": 0.9320661425590515,
      "learning_rate": 8.036180930624353e-06,
      "loss": 3.2309,
      "step": 429970
    },
    {
      "epoch": 0.8957916666666667,
      "grad_norm": 0.9698118567466736,
      "learning_rate": 8.032997689645509e-06,
      "loss": 3.2486,
      "step": 429980
    },
    {
      "epoch": 0.8958125,
      "grad_norm": 0.8498474359512329,
      "learning_rate": 8.02981506190789e-06,
      "loss": 3.2606,
      "step": 429990
    },
    {
      "epoch": 0.8958333333333334,
      "grad_norm": 0.8551923632621765,
      "learning_rate": 8.026633047425335e-06,
      "loss": 3.3264,
      "step": 430000
    },
    {
      "epoch": 0.8958333333333334,
      "eval_loss": 4.0252909660339355,
      "eval_runtime": 8.2359,
      "eval_samples_per_second": 1.214,
      "eval_steps_per_second": 0.364,
      "step": 430000
    },
    {
      "epoch": 0.8958541666666666,
      "grad_norm": 0.929645836353302,
      "learning_rate": 8.023451646211498e-06,
      "loss": 3.3549,
      "step": 430010
    },
    {
      "epoch": 0.895875,
      "grad_norm": 0.8757272362709045,
      "learning_rate": 8.020270858280137e-06,
      "loss": 3.2462,
      "step": 430020
    },
    {
      "epoch": 0.8958958333333333,
      "grad_norm": 1.2146002054214478,
      "learning_rate": 8.01709068364504e-06,
      "loss": 3.4535,
      "step": 430030
    },
    {
      "epoch": 0.8959166666666667,
      "grad_norm": 1.0383646488189697,
      "learning_rate": 8.013911122319894e-06,
      "loss": 3.2536,
      "step": 430040
    },
    {
      "epoch": 0.8959375,
      "grad_norm": 0.906507134437561,
      "learning_rate": 8.01073217431844e-06,
      "loss": 3.357,
      "step": 430050
    },
    {
      "epoch": 0.8959583333333333,
      "grad_norm": 0.8519516587257385,
      "learning_rate": 8.007553839654436e-06,
      "loss": 3.3123,
      "step": 430060
    },
    {
      "epoch": 0.8959791666666667,
      "grad_norm": 0.8811226487159729,
      "learning_rate": 8.004376118341582e-06,
      "loss": 3.4414,
      "step": 430070
    },
    {
      "epoch": 0.896,
      "grad_norm": 1.0327008962631226,
      "learning_rate": 8.001199010393622e-06,
      "loss": 3.3323,
      "step": 430080
    },
    {
      "epoch": 0.8960208333333334,
      "grad_norm": 0.7850991487503052,
      "learning_rate": 7.998022515824277e-06,
      "loss": 3.2674,
      "step": 430090
    },
    {
      "epoch": 0.8960416666666666,
      "grad_norm": 0.933613121509552,
      "learning_rate": 7.994846634647267e-06,
      "loss": 3.387,
      "step": 430100
    },
    {
      "epoch": 0.8960625,
      "grad_norm": 1.1510140895843506,
      "learning_rate": 7.991671366876301e-06,
      "loss": 3.2956,
      "step": 430110
    },
    {
      "epoch": 0.8960833333333333,
      "grad_norm": 0.9454814195632935,
      "learning_rate": 7.988496712525117e-06,
      "loss": 3.3062,
      "step": 430120
    },
    {
      "epoch": 0.8961041666666667,
      "grad_norm": 0.8507468700408936,
      "learning_rate": 7.985322671607402e-06,
      "loss": 3.178,
      "step": 430130
    },
    {
      "epoch": 0.896125,
      "grad_norm": 0.9035129547119141,
      "learning_rate": 7.982149244136915e-06,
      "loss": 3.3336,
      "step": 430140
    },
    {
      "epoch": 0.8961458333333333,
      "grad_norm": 0.9797266125679016,
      "learning_rate": 7.978976430127276e-06,
      "loss": 3.2598,
      "step": 430150
    },
    {
      "epoch": 0.8961666666666667,
      "grad_norm": 0.883594274520874,
      "learning_rate": 7.975804229592258e-06,
      "loss": 3.3027,
      "step": 430160
    },
    {
      "epoch": 0.8961875,
      "grad_norm": 0.971069872379303,
      "learning_rate": 7.972632642545585e-06,
      "loss": 3.3759,
      "step": 430170
    },
    {
      "epoch": 0.8962083333333334,
      "grad_norm": 1.0258004665374756,
      "learning_rate": 7.969461669000876e-06,
      "loss": 3.4011,
      "step": 430180
    },
    {
      "epoch": 0.8962291666666666,
      "grad_norm": 0.8256661891937256,
      "learning_rate": 7.966291308971889e-06,
      "loss": 3.2865,
      "step": 430190
    },
    {
      "epoch": 0.89625,
      "grad_norm": 0.9356715679168701,
      "learning_rate": 7.963121562472312e-06,
      "loss": 3.2454,
      "step": 430200
    },
    {
      "epoch": 0.8962708333333333,
      "grad_norm": 0.9022916555404663,
      "learning_rate": 7.959952429515803e-06,
      "loss": 3.2288,
      "step": 430210
    },
    {
      "epoch": 0.8962916666666667,
      "grad_norm": 0.9138388633728027,
      "learning_rate": 7.956783910116099e-06,
      "loss": 3.3723,
      "step": 430220
    },
    {
      "epoch": 0.8963125,
      "grad_norm": 0.9530264139175415,
      "learning_rate": 7.953616004286873e-06,
      "loss": 3.3131,
      "step": 430230
    },
    {
      "epoch": 0.8963333333333333,
      "grad_norm": 1.0383212566375732,
      "learning_rate": 7.950448712041763e-06,
      "loss": 3.3983,
      "step": 430240
    },
    {
      "epoch": 0.8963541666666667,
      "grad_norm": 1.0105938911437988,
      "learning_rate": 7.94728203339451e-06,
      "loss": 3.4156,
      "step": 430250
    },
    {
      "epoch": 0.896375,
      "grad_norm": 0.9303656816482544,
      "learning_rate": 7.944115968358799e-06,
      "loss": 3.4285,
      "step": 430260
    },
    {
      "epoch": 0.8963958333333333,
      "grad_norm": 1.1943252086639404,
      "learning_rate": 7.940950516948225e-06,
      "loss": 3.3045,
      "step": 430270
    },
    {
      "epoch": 0.8964166666666666,
      "grad_norm": 0.8994942903518677,
      "learning_rate": 7.937785679176556e-06,
      "loss": 3.3047,
      "step": 430280
    },
    {
      "epoch": 0.8964375,
      "grad_norm": 0.8495973944664001,
      "learning_rate": 7.9346214550574e-06,
      "loss": 3.3074,
      "step": 430290
    },
    {
      "epoch": 0.8964583333333334,
      "grad_norm": 0.9283109903335571,
      "learning_rate": 7.931457844604427e-06,
      "loss": 3.3795,
      "step": 430300
    },
    {
      "epoch": 0.8964791666666667,
      "grad_norm": 0.936576247215271,
      "learning_rate": 7.928294847831362e-06,
      "loss": 3.2199,
      "step": 430310
    },
    {
      "epoch": 0.8965,
      "grad_norm": 0.9574325084686279,
      "learning_rate": 7.92513246475181e-06,
      "loss": 3.3187,
      "step": 430320
    },
    {
      "epoch": 0.8965208333333333,
      "grad_norm": 0.8192561864852905,
      "learning_rate": 7.921970695379426e-06,
      "loss": 3.2315,
      "step": 430330
    },
    {
      "epoch": 0.8965416666666667,
      "grad_norm": 0.9299276471138,
      "learning_rate": 7.918809539727933e-06,
      "loss": 3.3831,
      "step": 430340
    },
    {
      "epoch": 0.8965625,
      "grad_norm": 1.1007874011993408,
      "learning_rate": 7.91564899781092e-06,
      "loss": 3.3131,
      "step": 430350
    },
    {
      "epoch": 0.8965833333333333,
      "grad_norm": 0.9704433679580688,
      "learning_rate": 7.912489069642042e-06,
      "loss": 3.4628,
      "step": 430360
    },
    {
      "epoch": 0.8966041666666666,
      "grad_norm": 0.8967899680137634,
      "learning_rate": 7.909329755235006e-06,
      "loss": 3.3172,
      "step": 430370
    },
    {
      "epoch": 0.896625,
      "grad_norm": 0.894250214099884,
      "learning_rate": 7.9061710546034e-06,
      "loss": 3.3573,
      "step": 430380
    },
    {
      "epoch": 0.8966458333333334,
      "grad_norm": 0.9467838406562805,
      "learning_rate": 7.90301296776088e-06,
      "loss": 3.4269,
      "step": 430390
    },
    {
      "epoch": 0.8966666666666666,
      "grad_norm": 1.0372140407562256,
      "learning_rate": 7.899855494721135e-06,
      "loss": 3.3829,
      "step": 430400
    },
    {
      "epoch": 0.8966875,
      "grad_norm": 0.9233889579772949,
      "learning_rate": 7.896698635497739e-06,
      "loss": 3.3166,
      "step": 430410
    },
    {
      "epoch": 0.8967083333333333,
      "grad_norm": 0.8895859122276306,
      "learning_rate": 7.89354239010438e-06,
      "loss": 3.2442,
      "step": 430420
    },
    {
      "epoch": 0.8967291666666667,
      "grad_norm": 0.8936992287635803,
      "learning_rate": 7.890386758554645e-06,
      "loss": 3.3544,
      "step": 430430
    },
    {
      "epoch": 0.89675,
      "grad_norm": 0.9564586877822876,
      "learning_rate": 7.887231740862193e-06,
      "loss": 3.2875,
      "step": 430440
    },
    {
      "epoch": 0.8967708333333333,
      "grad_norm": 0.9471462965011597,
      "learning_rate": 7.884077337040646e-06,
      "loss": 3.3799,
      "step": 430450
    },
    {
      "epoch": 0.8967916666666667,
      "grad_norm": 0.9741218686103821,
      "learning_rate": 7.88092354710364e-06,
      "loss": 3.2497,
      "step": 430460
    },
    {
      "epoch": 0.8968125,
      "grad_norm": 1.0276427268981934,
      "learning_rate": 7.877770371064784e-06,
      "loss": 3.3443,
      "step": 430470
    },
    {
      "epoch": 0.8968333333333334,
      "grad_norm": 0.8804467916488647,
      "learning_rate": 7.8746178089377e-06,
      "loss": 3.3236,
      "step": 430480
    },
    {
      "epoch": 0.8968541666666666,
      "grad_norm": 0.9645543694496155,
      "learning_rate": 7.871465860736026e-06,
      "loss": 3.318,
      "step": 430490
    },
    {
      "epoch": 0.896875,
      "grad_norm": 0.8889142274856567,
      "learning_rate": 7.868314526473351e-06,
      "loss": 3.372,
      "step": 430500
    },
    {
      "epoch": 0.8968958333333333,
      "grad_norm": 0.8774745464324951,
      "learning_rate": 7.865163806163299e-06,
      "loss": 3.2409,
      "step": 430510
    },
    {
      "epoch": 0.8969166666666667,
      "grad_norm": 0.894834578037262,
      "learning_rate": 7.862013699819476e-06,
      "loss": 3.3567,
      "step": 430520
    },
    {
      "epoch": 0.8969375,
      "grad_norm": 1.068284034729004,
      "learning_rate": 7.858864207455484e-06,
      "loss": 3.3345,
      "step": 430530
    },
    {
      "epoch": 0.8969583333333333,
      "grad_norm": 0.8914594650268555,
      "learning_rate": 7.855715329084966e-06,
      "loss": 3.3959,
      "step": 430540
    },
    {
      "epoch": 0.8969791666666667,
      "grad_norm": 0.9627774953842163,
      "learning_rate": 7.852567064721443e-06,
      "loss": 3.3017,
      "step": 430550
    },
    {
      "epoch": 0.897,
      "grad_norm": 0.9343456029891968,
      "learning_rate": 7.849419414378604e-06,
      "loss": 3.3327,
      "step": 430560
    },
    {
      "epoch": 0.8970208333333334,
      "grad_norm": 0.8542137742042542,
      "learning_rate": 7.846272378070007e-06,
      "loss": 3.3021,
      "step": 430570
    },
    {
      "epoch": 0.8970416666666666,
      "grad_norm": 0.8770484328269958,
      "learning_rate": 7.843125955809221e-06,
      "loss": 3.3383,
      "step": 430580
    },
    {
      "epoch": 0.8970625,
      "grad_norm": 0.8967860341072083,
      "learning_rate": 7.83998014760987e-06,
      "loss": 3.3227,
      "step": 430590
    },
    {
      "epoch": 0.8970833333333333,
      "grad_norm": 0.8594563007354736,
      "learning_rate": 7.83683495348556e-06,
      "loss": 3.283,
      "step": 430600
    },
    {
      "epoch": 0.8971041666666667,
      "grad_norm": 1.018707036972046,
      "learning_rate": 7.833690373449796e-06,
      "loss": 3.304,
      "step": 430610
    },
    {
      "epoch": 0.897125,
      "grad_norm": 0.9455828070640564,
      "learning_rate": 7.830546407516253e-06,
      "loss": 3.3604,
      "step": 430620
    },
    {
      "epoch": 0.8971458333333333,
      "grad_norm": 1.0136871337890625,
      "learning_rate": 7.827403055698483e-06,
      "loss": 3.2686,
      "step": 430630
    },
    {
      "epoch": 0.8971666666666667,
      "grad_norm": 0.898895263671875,
      "learning_rate": 7.824260318010029e-06,
      "loss": 3.362,
      "step": 430640
    },
    {
      "epoch": 0.8971875,
      "grad_norm": 1.002306342124939,
      "learning_rate": 7.821118194464526e-06,
      "loss": 3.2394,
      "step": 430650
    },
    {
      "epoch": 0.8972083333333334,
      "grad_norm": 0.9153207540512085,
      "learning_rate": 7.8179766850755e-06,
      "loss": 3.3074,
      "step": 430660
    },
    {
      "epoch": 0.8972291666666666,
      "grad_norm": 0.9254869222640991,
      "learning_rate": 7.814835789856505e-06,
      "loss": 3.3016,
      "step": 430670
    },
    {
      "epoch": 0.89725,
      "grad_norm": 1.0060162544250488,
      "learning_rate": 7.81169550882118e-06,
      "loss": 3.3064,
      "step": 430680
    },
    {
      "epoch": 0.8972708333333334,
      "grad_norm": 0.9458819031715393,
      "learning_rate": 7.808555841983034e-06,
      "loss": 3.2723,
      "step": 430690
    },
    {
      "epoch": 0.8972916666666667,
      "grad_norm": 1.0168333053588867,
      "learning_rate": 7.80541678935565e-06,
      "loss": 3.4161,
      "step": 430700
    },
    {
      "epoch": 0.8973125,
      "grad_norm": 0.9216095209121704,
      "learning_rate": 7.802278350952574e-06,
      "loss": 3.3308,
      "step": 430710
    },
    {
      "epoch": 0.8973333333333333,
      "grad_norm": 0.9683164358139038,
      "learning_rate": 7.799140526787356e-06,
      "loss": 3.3177,
      "step": 430720
    },
    {
      "epoch": 0.8973541666666667,
      "grad_norm": 0.8989563584327698,
      "learning_rate": 7.796003316873588e-06,
      "loss": 3.2923,
      "step": 430730
    },
    {
      "epoch": 0.897375,
      "grad_norm": 0.9252318739891052,
      "learning_rate": 7.792866721224778e-06,
      "loss": 3.2688,
      "step": 430740
    },
    {
      "epoch": 0.8973958333333333,
      "grad_norm": 0.8747490644454956,
      "learning_rate": 7.78973073985451e-06,
      "loss": 3.3122,
      "step": 430750
    },
    {
      "epoch": 0.8974166666666666,
      "grad_norm": 0.9510211944580078,
      "learning_rate": 7.786595372776294e-06,
      "loss": 3.2993,
      "step": 430760
    },
    {
      "epoch": 0.8974375,
      "grad_norm": 0.8814104795455933,
      "learning_rate": 7.783460620003718e-06,
      "loss": 3.3806,
      "step": 430770
    },
    {
      "epoch": 0.8974583333333334,
      "grad_norm": 0.9797948598861694,
      "learning_rate": 7.780326481550286e-06,
      "loss": 3.3436,
      "step": 430780
    },
    {
      "epoch": 0.8974791666666667,
      "grad_norm": 0.8266197443008423,
      "learning_rate": 7.77719295742954e-06,
      "loss": 3.2217,
      "step": 430790
    },
    {
      "epoch": 0.8975,
      "grad_norm": 0.8868755102157593,
      "learning_rate": 7.774060047655034e-06,
      "loss": 3.3045,
      "step": 430800
    },
    {
      "epoch": 0.8975208333333333,
      "grad_norm": 0.8892271518707275,
      "learning_rate": 7.770927752240292e-06,
      "loss": 3.3829,
      "step": 430810
    },
    {
      "epoch": 0.8975416666666667,
      "grad_norm": 1.1348367929458618,
      "learning_rate": 7.767796071198851e-06,
      "loss": 3.3432,
      "step": 430820
    },
    {
      "epoch": 0.8975625,
      "grad_norm": 0.9577246904373169,
      "learning_rate": 7.764665004544218e-06,
      "loss": 3.3406,
      "step": 430830
    },
    {
      "epoch": 0.8975833333333333,
      "grad_norm": 0.9253336191177368,
      "learning_rate": 7.76153455228995e-06,
      "loss": 3.3066,
      "step": 430840
    },
    {
      "epoch": 0.8976041666666666,
      "grad_norm": 0.8923153281211853,
      "learning_rate": 7.758404714449534e-06,
      "loss": 3.3473,
      "step": 430850
    },
    {
      "epoch": 0.897625,
      "grad_norm": 1.0246634483337402,
      "learning_rate": 7.75527549103651e-06,
      "loss": 3.3927,
      "step": 430860
    },
    {
      "epoch": 0.8976458333333334,
      "grad_norm": 0.9476009607315063,
      "learning_rate": 7.752146882064403e-06,
      "loss": 3.4134,
      "step": 430870
    },
    {
      "epoch": 0.8976666666666666,
      "grad_norm": 0.9548733234405518,
      "learning_rate": 7.749018887546698e-06,
      "loss": 3.3456,
      "step": 430880
    },
    {
      "epoch": 0.8976875,
      "grad_norm": 1.1039292812347412,
      "learning_rate": 7.745891507496938e-06,
      "loss": 3.2844,
      "step": 430890
    },
    {
      "epoch": 0.8977083333333333,
      "grad_norm": 0.9079233407974243,
      "learning_rate": 7.74276474192861e-06,
      "loss": 3.3593,
      "step": 430900
    },
    {
      "epoch": 0.8977291666666667,
      "grad_norm": 0.9829443097114563,
      "learning_rate": 7.739638590855251e-06,
      "loss": 3.3882,
      "step": 430910
    },
    {
      "epoch": 0.89775,
      "grad_norm": 0.8293769359588623,
      "learning_rate": 7.736513054290306e-06,
      "loss": 3.2257,
      "step": 430920
    },
    {
      "epoch": 0.8977708333333333,
      "grad_norm": 0.8650407195091248,
      "learning_rate": 7.733388132247325e-06,
      "loss": 3.3269,
      "step": 430930
    },
    {
      "epoch": 0.8977916666666667,
      "grad_norm": 0.9594933390617371,
      "learning_rate": 7.730263824739835e-06,
      "loss": 3.3367,
      "step": 430940
    },
    {
      "epoch": 0.8978125,
      "grad_norm": 1.1908328533172607,
      "learning_rate": 7.727140131781224e-06,
      "loss": 3.3975,
      "step": 430950
    },
    {
      "epoch": 0.8978333333333334,
      "grad_norm": 0.8369233012199402,
      "learning_rate": 7.724017053385096e-06,
      "loss": 3.3139,
      "step": 430960
    },
    {
      "epoch": 0.8978541666666666,
      "grad_norm": 0.8628782629966736,
      "learning_rate": 7.720894589564907e-06,
      "loss": 3.2178,
      "step": 430970
    },
    {
      "epoch": 0.897875,
      "grad_norm": 0.9045965671539307,
      "learning_rate": 7.717772740334083e-06,
      "loss": 3.3321,
      "step": 430980
    },
    {
      "epoch": 0.8978958333333333,
      "grad_norm": 0.902851402759552,
      "learning_rate": 7.714651505706193e-06,
      "loss": 3.1965,
      "step": 430990
    },
    {
      "epoch": 0.8979166666666667,
      "grad_norm": 0.8861281275749207,
      "learning_rate": 7.711530885694712e-06,
      "loss": 3.3454,
      "step": 431000
    },
    {
      "epoch": 0.8979166666666667,
      "eval_loss": 4.02360200881958,
      "eval_runtime": 8.7675,
      "eval_samples_per_second": 1.141,
      "eval_steps_per_second": 0.342,
      "step": 431000
    },
    {
      "epoch": 0.8979375,
      "grad_norm": 0.9269450306892395,
      "learning_rate": 7.708410880313076e-06,
      "loss": 3.2405,
      "step": 431010
    },
    {
      "epoch": 0.8979583333333333,
      "grad_norm": 0.85676509141922,
      "learning_rate": 7.705291489574761e-06,
      "loss": 3.4033,
      "step": 431020
    },
    {
      "epoch": 0.8979791666666667,
      "grad_norm": 1.1088814735412598,
      "learning_rate": 7.702172713493288e-06,
      "loss": 3.2941,
      "step": 431030
    },
    {
      "epoch": 0.898,
      "grad_norm": 1.0698796510696411,
      "learning_rate": 7.699054552082095e-06,
      "loss": 3.3658,
      "step": 431040
    },
    {
      "epoch": 0.8980208333333334,
      "grad_norm": 0.8807189464569092,
      "learning_rate": 7.695937005354674e-06,
      "loss": 3.2076,
      "step": 431050
    },
    {
      "epoch": 0.8980416666666666,
      "grad_norm": 0.9613004922866821,
      "learning_rate": 7.692820073324462e-06,
      "loss": 3.3574,
      "step": 431060
    },
    {
      "epoch": 0.8980625,
      "grad_norm": 0.8887030482292175,
      "learning_rate": 7.689703756004934e-06,
      "loss": 3.2357,
      "step": 431070
    },
    {
      "epoch": 0.8980833333333333,
      "grad_norm": 0.9583683609962463,
      "learning_rate": 7.68658805340956e-06,
      "loss": 3.4698,
      "step": 431080
    },
    {
      "epoch": 0.8981041666666667,
      "grad_norm": 0.9115185141563416,
      "learning_rate": 7.683472965551797e-06,
      "loss": 3.3633,
      "step": 431090
    },
    {
      "epoch": 0.898125,
      "grad_norm": 0.9341854453086853,
      "learning_rate": 7.6803584924451e-06,
      "loss": 3.4611,
      "step": 431100
    },
    {
      "epoch": 0.8981458333333333,
      "grad_norm": 1.061171293258667,
      "learning_rate": 7.677244634102908e-06,
      "loss": 3.3822,
      "step": 431110
    },
    {
      "epoch": 0.8981666666666667,
      "grad_norm": 0.8920149207115173,
      "learning_rate": 7.674131390538696e-06,
      "loss": 3.3659,
      "step": 431120
    },
    {
      "epoch": 0.8981875,
      "grad_norm": 1.001762866973877,
      "learning_rate": 7.671018761765885e-06,
      "loss": 3.3129,
      "step": 431130
    },
    {
      "epoch": 0.8982083333333334,
      "grad_norm": 0.9134195446968079,
      "learning_rate": 7.667906747797946e-06,
      "loss": 3.3669,
      "step": 431140
    },
    {
      "epoch": 0.8982291666666666,
      "grad_norm": 1.0351414680480957,
      "learning_rate": 7.664795348648322e-06,
      "loss": 3.4491,
      "step": 431150
    },
    {
      "epoch": 0.89825,
      "grad_norm": 0.9488937854766846,
      "learning_rate": 7.661684564330434e-06,
      "loss": 3.3094,
      "step": 431160
    },
    {
      "epoch": 0.8982708333333334,
      "grad_norm": 0.9812660813331604,
      "learning_rate": 7.658574394857719e-06,
      "loss": 3.2578,
      "step": 431170
    },
    {
      "epoch": 0.8982916666666667,
      "grad_norm": 0.9711218476295471,
      "learning_rate": 7.655464840243619e-06,
      "loss": 3.4142,
      "step": 431180
    },
    {
      "epoch": 0.8983125,
      "grad_norm": 1.1518577337265015,
      "learning_rate": 7.652355900501572e-06,
      "loss": 3.309,
      "step": 431190
    },
    {
      "epoch": 0.8983333333333333,
      "grad_norm": 0.8919046521186829,
      "learning_rate": 7.649247575645017e-06,
      "loss": 3.3457,
      "step": 431200
    },
    {
      "epoch": 0.8983541666666667,
      "grad_norm": 0.8367154598236084,
      "learning_rate": 7.646139865687345e-06,
      "loss": 3.2734,
      "step": 431210
    },
    {
      "epoch": 0.898375,
      "grad_norm": 1.0210869312286377,
      "learning_rate": 7.64303277064201e-06,
      "loss": 3.2485,
      "step": 431220
    },
    {
      "epoch": 0.8983958333333333,
      "grad_norm": 0.9633297324180603,
      "learning_rate": 7.639926290522418e-06,
      "loss": 3.3587,
      "step": 431230
    },
    {
      "epoch": 0.8984166666666666,
      "grad_norm": 0.9676986932754517,
      "learning_rate": 7.63682042534201e-06,
      "loss": 3.3447,
      "step": 431240
    },
    {
      "epoch": 0.8984375,
      "grad_norm": 0.935539960861206,
      "learning_rate": 7.633715175114174e-06,
      "loss": 3.3631,
      "step": 431250
    },
    {
      "epoch": 0.8984583333333334,
      "grad_norm": 0.9198585152626038,
      "learning_rate": 7.630610539852332e-06,
      "loss": 3.3491,
      "step": 431260
    },
    {
      "epoch": 0.8984791666666667,
      "grad_norm": 0.9432526230812073,
      "learning_rate": 7.627506519569909e-06,
      "loss": 3.4227,
      "step": 431270
    },
    {
      "epoch": 0.8985,
      "grad_norm": 0.9435690641403198,
      "learning_rate": 7.624403114280325e-06,
      "loss": 3.3037,
      "step": 431280
    },
    {
      "epoch": 0.8985208333333333,
      "grad_norm": 0.9126518368721008,
      "learning_rate": 7.621300323996937e-06,
      "loss": 3.377,
      "step": 431290
    },
    {
      "epoch": 0.8985416666666667,
      "grad_norm": 0.9722163677215576,
      "learning_rate": 7.618198148733151e-06,
      "loss": 3.3461,
      "step": 431300
    },
    {
      "epoch": 0.8985625,
      "grad_norm": 0.917809247970581,
      "learning_rate": 7.61509658850244e-06,
      "loss": 3.4173,
      "step": 431310
    },
    {
      "epoch": 0.8985833333333333,
      "grad_norm": 0.9029720425605774,
      "learning_rate": 7.611995643318125e-06,
      "loss": 3.2316,
      "step": 431320
    },
    {
      "epoch": 0.8986041666666666,
      "grad_norm": 1.1193039417266846,
      "learning_rate": 7.608895313193597e-06,
      "loss": 3.2854,
      "step": 431330
    },
    {
      "epoch": 0.898625,
      "grad_norm": 0.9461135268211365,
      "learning_rate": 7.605795598142344e-06,
      "loss": 3.3203,
      "step": 431340
    },
    {
      "epoch": 0.8986458333333334,
      "grad_norm": 1.2796587944030762,
      "learning_rate": 7.602696498177657e-06,
      "loss": 3.2609,
      "step": 431350
    },
    {
      "epoch": 0.8986666666666666,
      "grad_norm": 0.9459763765335083,
      "learning_rate": 7.599598013312924e-06,
      "loss": 3.3263,
      "step": 431360
    },
    {
      "epoch": 0.8986875,
      "grad_norm": 0.9771915674209595,
      "learning_rate": 7.596500143561618e-06,
      "loss": 3.3465,
      "step": 431370
    },
    {
      "epoch": 0.8987083333333333,
      "grad_norm": 0.9726108312606812,
      "learning_rate": 7.593402888937045e-06,
      "loss": 3.4682,
      "step": 431380
    },
    {
      "epoch": 0.8987291666666667,
      "grad_norm": 0.9070709347724915,
      "learning_rate": 7.590306249452577e-06,
      "loss": 3.3053,
      "step": 431390
    },
    {
      "epoch": 0.89875,
      "grad_norm": 0.9098434448242188,
      "learning_rate": 7.5872102251216535e-06,
      "loss": 3.1999,
      "step": 431400
    },
    {
      "epoch": 0.8987708333333333,
      "grad_norm": 0.9185141921043396,
      "learning_rate": 7.584114815957598e-06,
      "loss": 3.3063,
      "step": 431410
    },
    {
      "epoch": 0.8987916666666667,
      "grad_norm": 0.872707724571228,
      "learning_rate": 7.5810200219737826e-06,
      "loss": 3.2323,
      "step": 431420
    },
    {
      "epoch": 0.8988125,
      "grad_norm": 0.8910345435142517,
      "learning_rate": 7.577925843183597e-06,
      "loss": 3.1641,
      "step": 431430
    },
    {
      "epoch": 0.8988333333333334,
      "grad_norm": 0.9619286060333252,
      "learning_rate": 7.574832279600395e-06,
      "loss": 3.3795,
      "step": 431440
    },
    {
      "epoch": 0.8988541666666666,
      "grad_norm": 0.8676634430885315,
      "learning_rate": 7.571739331237553e-06,
      "loss": 3.2659,
      "step": 431450
    },
    {
      "epoch": 0.898875,
      "grad_norm": 0.90509432554245,
      "learning_rate": 7.568646998108408e-06,
      "loss": 3.425,
      "step": 431460
    },
    {
      "epoch": 0.8988958333333333,
      "grad_norm": 0.8950126767158508,
      "learning_rate": 7.565555280226332e-06,
      "loss": 3.4152,
      "step": 431470
    },
    {
      "epoch": 0.8989166666666667,
      "grad_norm": 0.9479391574859619,
      "learning_rate": 7.562464177604682e-06,
      "loss": 3.3316,
      "step": 431480
    },
    {
      "epoch": 0.8989375,
      "grad_norm": 0.954714834690094,
      "learning_rate": 7.5593736902567984e-06,
      "loss": 3.2467,
      "step": 431490
    },
    {
      "epoch": 0.8989583333333333,
      "grad_norm": 0.8996323943138123,
      "learning_rate": 7.556283818196035e-06,
      "loss": 3.2649,
      "step": 431500
    },
    {
      "epoch": 0.8989791666666667,
      "grad_norm": 0.939726710319519,
      "learning_rate": 7.553194561435749e-06,
      "loss": 3.284,
      "step": 431510
    },
    {
      "epoch": 0.899,
      "grad_norm": 0.9165512919425964,
      "learning_rate": 7.55010591998928e-06,
      "loss": 3.3415,
      "step": 431520
    },
    {
      "epoch": 0.8990208333333334,
      "grad_norm": 0.9094422459602356,
      "learning_rate": 7.547017893869967e-06,
      "loss": 3.3342,
      "step": 431530
    },
    {
      "epoch": 0.8990416666666666,
      "grad_norm": 0.949002206325531,
      "learning_rate": 7.543930483091149e-06,
      "loss": 3.2481,
      "step": 431540
    },
    {
      "epoch": 0.8990625,
      "grad_norm": 1.0917741060256958,
      "learning_rate": 7.540843687666165e-06,
      "loss": 3.2931,
      "step": 431550
    },
    {
      "epoch": 0.8990833333333333,
      "grad_norm": 0.8957457542419434,
      "learning_rate": 7.537757507608338e-06,
      "loss": 3.2754,
      "step": 431560
    },
    {
      "epoch": 0.8991041666666667,
      "grad_norm": 1.1068328619003296,
      "learning_rate": 7.534671942931026e-06,
      "loss": 3.3244,
      "step": 431570
    },
    {
      "epoch": 0.899125,
      "grad_norm": 0.9701982140541077,
      "learning_rate": 7.531586993647532e-06,
      "loss": 3.2805,
      "step": 431580
    },
    {
      "epoch": 0.8991458333333333,
      "grad_norm": 0.9481579661369324,
      "learning_rate": 7.52850265977118e-06,
      "loss": 3.3393,
      "step": 431590
    },
    {
      "epoch": 0.8991666666666667,
      "grad_norm": 0.9413847327232361,
      "learning_rate": 7.525418941315326e-06,
      "loss": 3.3665,
      "step": 431600
    },
    {
      "epoch": 0.8991875,
      "grad_norm": 0.8368446230888367,
      "learning_rate": 7.522335838293226e-06,
      "loss": 3.3309,
      "step": 431610
    },
    {
      "epoch": 0.8992083333333334,
      "grad_norm": 1.147778868675232,
      "learning_rate": 7.519253350718268e-06,
      "loss": 3.3836,
      "step": 431620
    },
    {
      "epoch": 0.8992291666666666,
      "grad_norm": 0.9773212671279907,
      "learning_rate": 7.516171478603761e-06,
      "loss": 3.3704,
      "step": 431630
    },
    {
      "epoch": 0.89925,
      "grad_norm": 1.050270676612854,
      "learning_rate": 7.513090221962942e-06,
      "loss": 3.361,
      "step": 431640
    },
    {
      "epoch": 0.8992708333333334,
      "grad_norm": 0.8738449215888977,
      "learning_rate": 7.510009580809218e-06,
      "loss": 3.2968,
      "step": 431650
    },
    {
      "epoch": 0.8992916666666667,
      "grad_norm": 0.9410582780838013,
      "learning_rate": 7.506929555155828e-06,
      "loss": 3.2849,
      "step": 431660
    },
    {
      "epoch": 0.8993125,
      "grad_norm": 0.9129058122634888,
      "learning_rate": 7.503850145016077e-06,
      "loss": 3.3154,
      "step": 431670
    },
    {
      "epoch": 0.8993333333333333,
      "grad_norm": 0.94756680727005,
      "learning_rate": 7.500771350403339e-06,
      "loss": 3.3173,
      "step": 431680
    },
    {
      "epoch": 0.8993541666666667,
      "grad_norm": 0.9142277836799622,
      "learning_rate": 7.497693171330838e-06,
      "loss": 3.3367,
      "step": 431690
    },
    {
      "epoch": 0.899375,
      "grad_norm": 0.9821266531944275,
      "learning_rate": 7.4946156078118605e-06,
      "loss": 3.3502,
      "step": 431700
    },
    {
      "epoch": 0.8993958333333333,
      "grad_norm": 0.9379687309265137,
      "learning_rate": 7.491538659859797e-06,
      "loss": 3.3916,
      "step": 431710
    },
    {
      "epoch": 0.8994166666666666,
      "grad_norm": 0.9400768876075745,
      "learning_rate": 7.488462327487854e-06,
      "loss": 3.2172,
      "step": 431720
    },
    {
      "epoch": 0.8994375,
      "grad_norm": 1.0352646112442017,
      "learning_rate": 7.4853866107093205e-06,
      "loss": 3.4022,
      "step": 431730
    },
    {
      "epoch": 0.8994583333333334,
      "grad_norm": 0.8620346784591675,
      "learning_rate": 7.482311509537553e-06,
      "loss": 3.3627,
      "step": 431740
    },
    {
      "epoch": 0.8994791666666667,
      "grad_norm": 0.8380326628684998,
      "learning_rate": 7.479237023985757e-06,
      "loss": 3.2034,
      "step": 431750
    },
    {
      "epoch": 0.8995,
      "grad_norm": 1.0898361206054688,
      "learning_rate": 7.476163154067222e-06,
      "loss": 3.3823,
      "step": 431760
    },
    {
      "epoch": 0.8995208333333333,
      "grad_norm": 0.8777881860733032,
      "learning_rate": 7.473089899795303e-06,
      "loss": 3.2512,
      "step": 431770
    },
    {
      "epoch": 0.8995416666666667,
      "grad_norm": 0.913551390171051,
      "learning_rate": 7.470017261183192e-06,
      "loss": 3.3257,
      "step": 431780
    },
    {
      "epoch": 0.8995625,
      "grad_norm": 0.9247709512710571,
      "learning_rate": 7.466945238244176e-06,
      "loss": 3.2294,
      "step": 431790
    },
    {
      "epoch": 0.8995833333333333,
      "grad_norm": 0.8581947684288025,
      "learning_rate": 7.463873830991562e-06,
      "loss": 3.2221,
      "step": 431800
    },
    {
      "epoch": 0.8996041666666666,
      "grad_norm": 0.9986287355422974,
      "learning_rate": 7.460803039438573e-06,
      "loss": 3.3752,
      "step": 431810
    },
    {
      "epoch": 0.899625,
      "grad_norm": 0.9787652492523193,
      "learning_rate": 7.4577328635984975e-06,
      "loss": 3.3198,
      "step": 431820
    },
    {
      "epoch": 0.8996458333333334,
      "grad_norm": 0.9370808601379395,
      "learning_rate": 7.454663303484609e-06,
      "loss": 3.3785,
      "step": 431830
    },
    {
      "epoch": 0.8996666666666666,
      "grad_norm": 0.8749507069587708,
      "learning_rate": 7.45159435911013e-06,
      "loss": 3.2552,
      "step": 431840
    },
    {
      "epoch": 0.8996875,
      "grad_norm": 1.2307285070419312,
      "learning_rate": 7.44852603048835e-06,
      "loss": 3.3221,
      "step": 431850
    },
    {
      "epoch": 0.8997083333333333,
      "grad_norm": 0.9491787552833557,
      "learning_rate": 7.445458317632508e-06,
      "loss": 3.415,
      "step": 431860
    },
    {
      "epoch": 0.8997291666666667,
      "grad_norm": 0.9124323129653931,
      "learning_rate": 7.44239122055586e-06,
      "loss": 3.323,
      "step": 431870
    },
    {
      "epoch": 0.89975,
      "grad_norm": 0.9535431861877441,
      "learning_rate": 7.439324739271662e-06,
      "loss": 3.3005,
      "step": 431880
    },
    {
      "epoch": 0.8997708333333333,
      "grad_norm": 0.8696815967559814,
      "learning_rate": 7.436258873793155e-06,
      "loss": 3.3827,
      "step": 431890
    },
    {
      "epoch": 0.8997916666666667,
      "grad_norm": 0.8757461905479431,
      "learning_rate": 7.43319362413356e-06,
      "loss": 3.32,
      "step": 431900
    },
    {
      "epoch": 0.8998125,
      "grad_norm": 0.942756712436676,
      "learning_rate": 7.4301289903061666e-06,
      "loss": 3.3131,
      "step": 431910
    },
    {
      "epoch": 0.8998333333333334,
      "grad_norm": 0.9496259689331055,
      "learning_rate": 7.4270649723241485e-06,
      "loss": 3.2476,
      "step": 431920
    },
    {
      "epoch": 0.8998541666666666,
      "grad_norm": 0.8939681649208069,
      "learning_rate": 7.424001570200777e-06,
      "loss": 3.2436,
      "step": 431930
    },
    {
      "epoch": 0.899875,
      "grad_norm": 0.8994396924972534,
      "learning_rate": 7.420938783949326e-06,
      "loss": 3.3331,
      "step": 431940
    },
    {
      "epoch": 0.8998958333333333,
      "grad_norm": 0.8722727298736572,
      "learning_rate": 7.417876613582935e-06,
      "loss": 3.2429,
      "step": 431950
    },
    {
      "epoch": 0.8999166666666667,
      "grad_norm": 0.8722510933876038,
      "learning_rate": 7.414815059114893e-06,
      "loss": 3.2809,
      "step": 431960
    },
    {
      "epoch": 0.8999375,
      "grad_norm": 1.0194385051727295,
      "learning_rate": 7.411754120558438e-06,
      "loss": 3.3032,
      "step": 431970
    },
    {
      "epoch": 0.8999583333333333,
      "grad_norm": 0.8875843286514282,
      "learning_rate": 7.408693797926713e-06,
      "loss": 3.2969,
      "step": 431980
    },
    {
      "epoch": 0.8999791666666667,
      "grad_norm": 0.8421249985694885,
      "learning_rate": 7.4056340912330204e-06,
      "loss": 3.4065,
      "step": 431990
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9901559352874756,
      "learning_rate": 7.4025750004905685e-06,
      "loss": 3.3574,
      "step": 432000
    },
    {
      "epoch": 0.9,
      "eval_loss": 4.024481773376465,
      "eval_runtime": 8.5195,
      "eval_samples_per_second": 1.174,
      "eval_steps_per_second": 0.352,
      "step": 432000
    },
    {
      "epoch": 0.9000208333333334,
      "grad_norm": 0.9202590584754944,
      "learning_rate": 7.399516525712496e-06,
      "loss": 3.2964,
      "step": 432010
    },
    {
      "epoch": 0.9000416666666666,
      "grad_norm": 0.8786042332649231,
      "learning_rate": 7.396458666912092e-06,
      "loss": 3.3554,
      "step": 432020
    },
    {
      "epoch": 0.9000625,
      "grad_norm": 0.9705801606178284,
      "learning_rate": 7.393401424102563e-06,
      "loss": 3.2395,
      "step": 432030
    },
    {
      "epoch": 0.9000833333333333,
      "grad_norm": 0.9511631727218628,
      "learning_rate": 7.3903447972970485e-06,
      "loss": 3.2021,
      "step": 432040
    },
    {
      "epoch": 0.9001041666666667,
      "grad_norm": 0.9335175156593323,
      "learning_rate": 7.387288786508838e-06,
      "loss": 3.2425,
      "step": 432050
    },
    {
      "epoch": 0.900125,
      "grad_norm": 0.9724394083023071,
      "learning_rate": 7.384233391751071e-06,
      "loss": 3.3271,
      "step": 432060
    },
    {
      "epoch": 0.9001458333333333,
      "grad_norm": 0.8639225959777832,
      "learning_rate": 7.3811786130369535e-06,
      "loss": 3.349,
      "step": 432070
    },
    {
      "epoch": 0.9001666666666667,
      "grad_norm": 0.8419891595840454,
      "learning_rate": 7.378124450379708e-06,
      "loss": 3.3318,
      "step": 432080
    },
    {
      "epoch": 0.9001875,
      "grad_norm": 0.920161247253418,
      "learning_rate": 7.375070903792507e-06,
      "loss": 3.3505,
      "step": 432090
    },
    {
      "epoch": 0.9002083333333334,
      "grad_norm": 0.92894047498703,
      "learning_rate": 7.372017973288525e-06,
      "loss": 3.352,
      "step": 432100
    },
    {
      "epoch": 0.9002291666666666,
      "grad_norm": 1.0862810611724854,
      "learning_rate": 7.368965658881016e-06,
      "loss": 3.3844,
      "step": 432110
    },
    {
      "epoch": 0.90025,
      "grad_norm": 1.0754151344299316,
      "learning_rate": 7.365913960583086e-06,
      "loss": 3.291,
      "step": 432120
    },
    {
      "epoch": 0.9002708333333334,
      "grad_norm": 0.9128085970878601,
      "learning_rate": 7.3628628784079265e-06,
      "loss": 3.2492,
      "step": 432130
    },
    {
      "epoch": 0.9002916666666667,
      "grad_norm": 0.8656340837478638,
      "learning_rate": 7.359812412368793e-06,
      "loss": 3.333,
      "step": 432140
    },
    {
      "epoch": 0.9003125,
      "grad_norm": 0.8871884942054749,
      "learning_rate": 7.356762562478774e-06,
      "loss": 3.3316,
      "step": 432150
    },
    {
      "epoch": 0.9003333333333333,
      "grad_norm": 0.9387065172195435,
      "learning_rate": 7.353713328751093e-06,
      "loss": 3.3183,
      "step": 432160
    },
    {
      "epoch": 0.9003541666666667,
      "grad_norm": 0.8664108514785767,
      "learning_rate": 7.3506647111989056e-06,
      "loss": 3.3358,
      "step": 432170
    },
    {
      "epoch": 0.900375,
      "grad_norm": 0.8808822631835938,
      "learning_rate": 7.3476167098353686e-06,
      "loss": 3.2197,
      "step": 432180
    },
    {
      "epoch": 0.9003958333333333,
      "grad_norm": 0.9804165363311768,
      "learning_rate": 7.344569324673672e-06,
      "loss": 3.3158,
      "step": 432190
    },
    {
      "epoch": 0.9004166666666666,
      "grad_norm": 0.9757585525512695,
      "learning_rate": 7.34152255572697e-06,
      "loss": 3.3313,
      "step": 432200
    },
    {
      "epoch": 0.9004375,
      "grad_norm": 0.9162045121192932,
      "learning_rate": 7.33847640300842e-06,
      "loss": 3.305,
      "step": 432210
    },
    {
      "epoch": 0.9004583333333334,
      "grad_norm": 0.8330482244491577,
      "learning_rate": 7.335430866531178e-06,
      "loss": 3.2996,
      "step": 432220
    },
    {
      "epoch": 0.9004791666666667,
      "grad_norm": 0.9070208072662354,
      "learning_rate": 7.3323859463084165e-06,
      "loss": 3.2886,
      "step": 432230
    },
    {
      "epoch": 0.9005,
      "grad_norm": 0.9874523878097534,
      "learning_rate": 7.329341642353259e-06,
      "loss": 3.3041,
      "step": 432240
    },
    {
      "epoch": 0.9005208333333333,
      "grad_norm": 0.8976232409477234,
      "learning_rate": 7.326297954678878e-06,
      "loss": 3.3321,
      "step": 432250
    },
    {
      "epoch": 0.9005416666666667,
      "grad_norm": 0.8989315629005432,
      "learning_rate": 7.32325488329843e-06,
      "loss": 3.2259,
      "step": 432260
    },
    {
      "epoch": 0.9005625,
      "grad_norm": 0.9586504101753235,
      "learning_rate": 7.320212428225036e-06,
      "loss": 3.3853,
      "step": 432270
    },
    {
      "epoch": 0.9005833333333333,
      "grad_norm": 0.9147894978523254,
      "learning_rate": 7.317170589471855e-06,
      "loss": 3.3591,
      "step": 432280
    },
    {
      "epoch": 0.9006041666666667,
      "grad_norm": 1.1397628784179688,
      "learning_rate": 7.31412936705199e-06,
      "loss": 3.3172,
      "step": 432290
    },
    {
      "epoch": 0.900625,
      "grad_norm": 0.9390273690223694,
      "learning_rate": 7.311088760978634e-06,
      "loss": 3.3159,
      "step": 432300
    },
    {
      "epoch": 0.9006458333333334,
      "grad_norm": 1.018994927406311,
      "learning_rate": 7.308048771264907e-06,
      "loss": 3.2927,
      "step": 432310
    },
    {
      "epoch": 0.9006666666666666,
      "grad_norm": 0.8651876449584961,
      "learning_rate": 7.305009397923883e-06,
      "loss": 3.3615,
      "step": 432320
    },
    {
      "epoch": 0.9006875,
      "grad_norm": 0.869668185710907,
      "learning_rate": 7.3019706409687685e-06,
      "loss": 3.3389,
      "step": 432330
    },
    {
      "epoch": 0.9007083333333333,
      "grad_norm": 0.8725788593292236,
      "learning_rate": 7.298932500412669e-06,
      "loss": 3.2702,
      "step": 432340
    },
    {
      "epoch": 0.9007291666666667,
      "grad_norm": 0.9052903652191162,
      "learning_rate": 7.295894976268657e-06,
      "loss": 3.3884,
      "step": 432350
    },
    {
      "epoch": 0.90075,
      "grad_norm": 0.9789925217628479,
      "learning_rate": 7.292858068549906e-06,
      "loss": 3.2713,
      "step": 432360
    },
    {
      "epoch": 0.9007708333333333,
      "grad_norm": 0.8561484217643738,
      "learning_rate": 7.289821777269555e-06,
      "loss": 3.35,
      "step": 432370
    },
    {
      "epoch": 0.9007916666666667,
      "grad_norm": 0.8391998410224915,
      "learning_rate": 7.286786102440645e-06,
      "loss": 3.2127,
      "step": 432380
    },
    {
      "epoch": 0.9008125,
      "grad_norm": 0.957585871219635,
      "learning_rate": 7.28375104407633e-06,
      "loss": 3.35,
      "step": 432390
    },
    {
      "epoch": 0.9008333333333334,
      "grad_norm": 0.9836312532424927,
      "learning_rate": 7.280716602189751e-06,
      "loss": 3.2746,
      "step": 432400
    },
    {
      "epoch": 0.9008541666666666,
      "grad_norm": 0.9848201870918274,
      "learning_rate": 7.277682776793947e-06,
      "loss": 3.329,
      "step": 432410
    },
    {
      "epoch": 0.900875,
      "grad_norm": 0.9934231638908386,
      "learning_rate": 7.2746495679021076e-06,
      "loss": 3.3422,
      "step": 432420
    },
    {
      "epoch": 0.9008958333333333,
      "grad_norm": 0.8436607122421265,
      "learning_rate": 7.271616975527255e-06,
      "loss": 3.325,
      "step": 432430
    },
    {
      "epoch": 0.9009166666666667,
      "grad_norm": 0.8580403923988342,
      "learning_rate": 7.268584999682497e-06,
      "loss": 3.2974,
      "step": 432440
    },
    {
      "epoch": 0.9009375,
      "grad_norm": 0.9016692638397217,
      "learning_rate": 7.2655536403810055e-06,
      "loss": 3.4273,
      "step": 432450
    },
    {
      "epoch": 0.9009583333333333,
      "grad_norm": 1.0311347246170044,
      "learning_rate": 7.262522897635803e-06,
      "loss": 3.394,
      "step": 432460
    },
    {
      "epoch": 0.9009791666666667,
      "grad_norm": 0.9533319473266602,
      "learning_rate": 7.259492771459996e-06,
      "loss": 3.3703,
      "step": 432470
    },
    {
      "epoch": 0.901,
      "grad_norm": 0.9114809036254883,
      "learning_rate": 7.25646326186669e-06,
      "loss": 3.3357,
      "step": 432480
    },
    {
      "epoch": 0.9010208333333334,
      "grad_norm": 0.9467506408691406,
      "learning_rate": 7.253434368868943e-06,
      "loss": 3.302,
      "step": 432490
    },
    {
      "epoch": 0.9010416666666666,
      "grad_norm": 0.9350671172142029,
      "learning_rate": 7.250406092479877e-06,
      "loss": 3.3085,
      "step": 432500
    },
    {
      "epoch": 0.9010625,
      "grad_norm": 0.967017412185669,
      "learning_rate": 7.247378432712531e-06,
      "loss": 3.4098,
      "step": 432510
    },
    {
      "epoch": 0.9010833333333333,
      "grad_norm": 1.0231913328170776,
      "learning_rate": 7.244351389580027e-06,
      "loss": 3.3266,
      "step": 432520
    },
    {
      "epoch": 0.9011041666666667,
      "grad_norm": 1.0635349750518799,
      "learning_rate": 7.241324963095408e-06,
      "loss": 3.3749,
      "step": 432530
    },
    {
      "epoch": 0.901125,
      "grad_norm": 0.9068997502326965,
      "learning_rate": 7.238299153271759e-06,
      "loss": 3.3861,
      "step": 432540
    },
    {
      "epoch": 0.9011458333333333,
      "grad_norm": 0.9676494002342224,
      "learning_rate": 7.23527396012214e-06,
      "loss": 3.1719,
      "step": 432550
    },
    {
      "epoch": 0.9011666666666667,
      "grad_norm": 0.9182838797569275,
      "learning_rate": 7.232249383659639e-06,
      "loss": 3.4165,
      "step": 432560
    },
    {
      "epoch": 0.9011875,
      "grad_norm": 0.8757190704345703,
      "learning_rate": 7.229225423897295e-06,
      "loss": 3.2839,
      "step": 432570
    },
    {
      "epoch": 0.9012083333333333,
      "grad_norm": 1.0183665752410889,
      "learning_rate": 7.226202080848198e-06,
      "loss": 3.3148,
      "step": 432580
    },
    {
      "epoch": 0.9012291666666666,
      "grad_norm": 0.9988557696342468,
      "learning_rate": 7.223179354525388e-06,
      "loss": 3.2924,
      "step": 432590
    },
    {
      "epoch": 0.90125,
      "grad_norm": 0.9766150712966919,
      "learning_rate": 7.220157244941937e-06,
      "loss": 3.3249,
      "step": 432600
    },
    {
      "epoch": 0.9012708333333334,
      "grad_norm": 0.8724944591522217,
      "learning_rate": 7.217135752110887e-06,
      "loss": 3.3806,
      "step": 432610
    },
    {
      "epoch": 0.9012916666666667,
      "grad_norm": 0.8868895769119263,
      "learning_rate": 7.21411487604529e-06,
      "loss": 3.2657,
      "step": 432620
    },
    {
      "epoch": 0.9013125,
      "grad_norm": 0.8800627589225769,
      "learning_rate": 7.21109461675819e-06,
      "loss": 3.322,
      "step": 432630
    },
    {
      "epoch": 0.9013333333333333,
      "grad_norm": 0.9193181395530701,
      "learning_rate": 7.208074974262656e-06,
      "loss": 3.3099,
      "step": 432640
    },
    {
      "epoch": 0.9013541666666667,
      "grad_norm": 0.9394127130508423,
      "learning_rate": 7.205055948571731e-06,
      "loss": 3.3324,
      "step": 432650
    },
    {
      "epoch": 0.901375,
      "grad_norm": 0.8575801253318787,
      "learning_rate": 7.202037539698402e-06,
      "loss": 3.2695,
      "step": 432660
    },
    {
      "epoch": 0.9013958333333333,
      "grad_norm": 0.9089811444282532,
      "learning_rate": 7.19901974765576e-06,
      "loss": 3.3375,
      "step": 432670
    },
    {
      "epoch": 0.9014166666666666,
      "grad_norm": 0.8041909337043762,
      "learning_rate": 7.196002572456861e-06,
      "loss": 3.2726,
      "step": 432680
    },
    {
      "epoch": 0.9014375,
      "grad_norm": 0.9374712109565735,
      "learning_rate": 7.19298601411466e-06,
      "loss": 3.311,
      "step": 432690
    },
    {
      "epoch": 0.9014583333333334,
      "grad_norm": 0.913210928440094,
      "learning_rate": 7.189970072642248e-06,
      "loss": 3.4017,
      "step": 432700
    },
    {
      "epoch": 0.9014791666666667,
      "grad_norm": 0.9396729469299316,
      "learning_rate": 7.186954748052665e-06,
      "loss": 3.2154,
      "step": 432710
    },
    {
      "epoch": 0.9015,
      "grad_norm": 0.9155973792076111,
      "learning_rate": 7.183940040358865e-06,
      "loss": 3.3624,
      "step": 432720
    },
    {
      "epoch": 0.9015208333333333,
      "grad_norm": 0.8959214687347412,
      "learning_rate": 7.18092594957394e-06,
      "loss": 3.4501,
      "step": 432730
    },
    {
      "epoch": 0.9015416666666667,
      "grad_norm": 0.8578094840049744,
      "learning_rate": 7.177912475710895e-06,
      "loss": 3.3519,
      "step": 432740
    },
    {
      "epoch": 0.9015625,
      "grad_norm": 0.9075916409492493,
      "learning_rate": 7.174899618782687e-06,
      "loss": 3.3964,
      "step": 432750
    },
    {
      "epoch": 0.9015833333333333,
      "grad_norm": 0.9162461161613464,
      "learning_rate": 7.171887378802404e-06,
      "loss": 3.4796,
      "step": 432760
    },
    {
      "epoch": 0.9016041666666667,
      "grad_norm": 0.9197758436203003,
      "learning_rate": 7.168875755783071e-06,
      "loss": 3.3485,
      "step": 432770
    },
    {
      "epoch": 0.901625,
      "grad_norm": 1.1110851764678955,
      "learning_rate": 7.16586474973761e-06,
      "loss": 3.3219,
      "step": 432780
    },
    {
      "epoch": 0.9016458333333334,
      "grad_norm": 0.9117674231529236,
      "learning_rate": 7.1628543606790935e-06,
      "loss": 3.3475,
      "step": 432790
    },
    {
      "epoch": 0.9016666666666666,
      "grad_norm": 0.8838014602661133,
      "learning_rate": 7.159844588620512e-06,
      "loss": 3.2234,
      "step": 432800
    },
    {
      "epoch": 0.9016875,
      "grad_norm": 0.8662387728691101,
      "learning_rate": 7.156835433574853e-06,
      "loss": 3.3352,
      "step": 432810
    },
    {
      "epoch": 0.9017083333333333,
      "grad_norm": 0.9434695839881897,
      "learning_rate": 7.153826895555109e-06,
      "loss": 3.3848,
      "step": 432820
    },
    {
      "epoch": 0.9017291666666667,
      "grad_norm": 1.04392671585083,
      "learning_rate": 7.150818974574319e-06,
      "loss": 3.4263,
      "step": 432830
    },
    {
      "epoch": 0.90175,
      "grad_norm": 0.8567361235618591,
      "learning_rate": 7.14781167064542e-06,
      "loss": 3.2841,
      "step": 432840
    },
    {
      "epoch": 0.9017708333333333,
      "grad_norm": 0.8734118342399597,
      "learning_rate": 7.1448049837814545e-06,
      "loss": 3.1687,
      "step": 432850
    },
    {
      "epoch": 0.9017916666666667,
      "grad_norm": 0.9159437417984009,
      "learning_rate": 7.141798913995362e-06,
      "loss": 3.283,
      "step": 432860
    },
    {
      "epoch": 0.9018125,
      "grad_norm": 0.9267457127571106,
      "learning_rate": 7.138793461300163e-06,
      "loss": 3.2442,
      "step": 432870
    },
    {
      "epoch": 0.9018333333333334,
      "grad_norm": 0.9248313903808594,
      "learning_rate": 7.135788625708833e-06,
      "loss": 3.2911,
      "step": 432880
    },
    {
      "epoch": 0.9018541666666666,
      "grad_norm": 0.8376855850219727,
      "learning_rate": 7.132784407234343e-06,
      "loss": 3.4097,
      "step": 432890
    },
    {
      "epoch": 0.901875,
      "grad_norm": 0.9228512644767761,
      "learning_rate": 7.129780805889668e-06,
      "loss": 3.3794,
      "step": 432900
    },
    {
      "epoch": 0.9018958333333333,
      "grad_norm": 0.9730762839317322,
      "learning_rate": 7.126777821687796e-06,
      "loss": 3.2545,
      "step": 432910
    },
    {
      "epoch": 0.9019166666666667,
      "grad_norm": 0.8854705095291138,
      "learning_rate": 7.123775454641684e-06,
      "loss": 3.4226,
      "step": 432920
    },
    {
      "epoch": 0.9019375,
      "grad_norm": 0.9757280945777893,
      "learning_rate": 7.120773704764304e-06,
      "loss": 3.3654,
      "step": 432930
    },
    {
      "epoch": 0.9019583333333333,
      "grad_norm": 0.8776150345802307,
      "learning_rate": 7.117772572068648e-06,
      "loss": 3.2843,
      "step": 432940
    },
    {
      "epoch": 0.9019791666666667,
      "grad_norm": 0.9216485023498535,
      "learning_rate": 7.114772056567636e-06,
      "loss": 3.2885,
      "step": 432950
    },
    {
      "epoch": 0.902,
      "grad_norm": 0.9197966456413269,
      "learning_rate": 7.111772158274259e-06,
      "loss": 3.2738,
      "step": 432960
    },
    {
      "epoch": 0.9020208333333334,
      "grad_norm": 0.8696401715278625,
      "learning_rate": 7.108772877201458e-06,
      "loss": 3.4056,
      "step": 432970
    },
    {
      "epoch": 0.9020416666666666,
      "grad_norm": 1.0371547937393188,
      "learning_rate": 7.105774213362203e-06,
      "loss": 3.4593,
      "step": 432980
    },
    {
      "epoch": 0.9020625,
      "grad_norm": 0.8550023436546326,
      "learning_rate": 7.1027761667694525e-06,
      "loss": 3.1489,
      "step": 432990
    },
    {
      "epoch": 0.9020833333333333,
      "grad_norm": 0.8668373823165894,
      "learning_rate": 7.099778737436129e-06,
      "loss": 3.2424,
      "step": 433000
    },
    {
      "epoch": 0.9020833333333333,
      "eval_loss": 4.024097442626953,
      "eval_runtime": 8.6308,
      "eval_samples_per_second": 1.159,
      "eval_steps_per_second": 0.348,
      "step": 433000
    },
    {
      "epoch": 0.9021041666666667,
      "grad_norm": 1.029438853263855,
      "learning_rate": 7.096781925375206e-06,
      "loss": 3.33,
      "step": 433010
    },
    {
      "epoch": 0.902125,
      "grad_norm": 0.8611566424369812,
      "learning_rate": 7.093785730599622e-06,
      "loss": 3.3234,
      "step": 433020
    },
    {
      "epoch": 0.9021458333333333,
      "grad_norm": 0.9903268814086914,
      "learning_rate": 7.090790153122317e-06,
      "loss": 3.2592,
      "step": 433030
    },
    {
      "epoch": 0.9021666666666667,
      "grad_norm": 0.9117621183395386,
      "learning_rate": 7.08779519295623e-06,
      "loss": 3.3097,
      "step": 433040
    },
    {
      "epoch": 0.9021875,
      "grad_norm": 0.9938362836837769,
      "learning_rate": 7.08480085011432e-06,
      "loss": 3.3206,
      "step": 433050
    },
    {
      "epoch": 0.9022083333333333,
      "grad_norm": 0.9856435060501099,
      "learning_rate": 7.08180712460949e-06,
      "loss": 3.312,
      "step": 433060
    },
    {
      "epoch": 0.9022291666666666,
      "grad_norm": 1.0974600315093994,
      "learning_rate": 7.078814016454648e-06,
      "loss": 3.2788,
      "step": 433070
    },
    {
      "epoch": 0.90225,
      "grad_norm": 0.9324122071266174,
      "learning_rate": 7.0758215256628e-06,
      "loss": 3.3858,
      "step": 433080
    },
    {
      "epoch": 0.9022708333333334,
      "grad_norm": 0.8812239766120911,
      "learning_rate": 7.072829652246803e-06,
      "loss": 3.3563,
      "step": 433090
    },
    {
      "epoch": 0.9022916666666667,
      "grad_norm": 1.2433654069900513,
      "learning_rate": 7.069838396219596e-06,
      "loss": 3.3298,
      "step": 433100
    },
    {
      "epoch": 0.9023125,
      "grad_norm": 0.8415387272834778,
      "learning_rate": 7.0668477575941514e-06,
      "loss": 3.3681,
      "step": 433110
    },
    {
      "epoch": 0.9023333333333333,
      "grad_norm": 1.0705974102020264,
      "learning_rate": 7.063857736383327e-06,
      "loss": 3.4275,
      "step": 433120
    },
    {
      "epoch": 0.9023541666666667,
      "grad_norm": 0.9573272466659546,
      "learning_rate": 7.060868332600044e-06,
      "loss": 3.267,
      "step": 433130
    },
    {
      "epoch": 0.902375,
      "grad_norm": 0.8366425037384033,
      "learning_rate": 7.057879546257262e-06,
      "loss": 3.24,
      "step": 433140
    },
    {
      "epoch": 0.9023958333333333,
      "grad_norm": 0.9686071276664734,
      "learning_rate": 7.05489137736785e-06,
      "loss": 3.281,
      "step": 433150
    },
    {
      "epoch": 0.9024166666666666,
      "grad_norm": 0.9290573596954346,
      "learning_rate": 7.051903825944716e-06,
      "loss": 3.4084,
      "step": 433160
    },
    {
      "epoch": 0.9024375,
      "grad_norm": 1.1414525508880615,
      "learning_rate": 7.048916892000783e-06,
      "loss": 3.43,
      "step": 433170
    },
    {
      "epoch": 0.9024583333333334,
      "grad_norm": 0.8903362154960632,
      "learning_rate": 7.045930575548941e-06,
      "loss": 3.2481,
      "step": 433180
    },
    {
      "epoch": 0.9024791666666667,
      "grad_norm": 0.8986040949821472,
      "learning_rate": 7.04294487660208e-06,
      "loss": 3.2039,
      "step": 433190
    },
    {
      "epoch": 0.9025,
      "grad_norm": 1.114255428314209,
      "learning_rate": 7.039959795173122e-06,
      "loss": 3.286,
      "step": 433200
    },
    {
      "epoch": 0.9025208333333333,
      "grad_norm": 0.9536709785461426,
      "learning_rate": 7.036975331274958e-06,
      "loss": 3.294,
      "step": 433210
    },
    {
      "epoch": 0.9025416666666667,
      "grad_norm": 0.9440457224845886,
      "learning_rate": 7.03399148492046e-06,
      "loss": 3.2864,
      "step": 433220
    },
    {
      "epoch": 0.9025625,
      "grad_norm": 0.9338580965995789,
      "learning_rate": 7.03100825612255e-06,
      "loss": 3.4493,
      "step": 433230
    },
    {
      "epoch": 0.9025833333333333,
      "grad_norm": 0.9227746725082397,
      "learning_rate": 7.02802564489407e-06,
      "loss": 3.5096,
      "step": 433240
    },
    {
      "epoch": 0.9026041666666667,
      "grad_norm": 1.0496877431869507,
      "learning_rate": 7.0250436512479415e-06,
      "loss": 3.2739,
      "step": 433250
    },
    {
      "epoch": 0.902625,
      "grad_norm": 0.8878005743026733,
      "learning_rate": 7.022062275197021e-06,
      "loss": 3.2953,
      "step": 433260
    },
    {
      "epoch": 0.9026458333333334,
      "grad_norm": 0.905002772808075,
      "learning_rate": 7.0190815167541995e-06,
      "loss": 3.388,
      "step": 433270
    },
    {
      "epoch": 0.9026666666666666,
      "grad_norm": 0.9173256158828735,
      "learning_rate": 7.016101375932348e-06,
      "loss": 3.4302,
      "step": 433280
    },
    {
      "epoch": 0.9026875,
      "grad_norm": 0.8998829126358032,
      "learning_rate": 7.013121852744341e-06,
      "loss": 3.262,
      "step": 433290
    },
    {
      "epoch": 0.9027083333333333,
      "grad_norm": 0.8237701654434204,
      "learning_rate": 7.010142947203052e-06,
      "loss": 3.3464,
      "step": 433300
    },
    {
      "epoch": 0.9027291666666667,
      "grad_norm": 1.0876266956329346,
      "learning_rate": 7.007164659321352e-06,
      "loss": 3.3857,
      "step": 433310
    },
    {
      "epoch": 0.90275,
      "grad_norm": 0.944218099117279,
      "learning_rate": 7.004186989112098e-06,
      "loss": 3.2879,
      "step": 433320
    },
    {
      "epoch": 0.9027708333333333,
      "grad_norm": 1.1320310831069946,
      "learning_rate": 7.001209936588148e-06,
      "loss": 3.3704,
      "step": 433330
    },
    {
      "epoch": 0.9027916666666667,
      "grad_norm": 0.9100390672683716,
      "learning_rate": 6.998233501762373e-06,
      "loss": 3.3644,
      "step": 433340
    },
    {
      "epoch": 0.9028125,
      "grad_norm": 1.1098774671554565,
      "learning_rate": 6.995257684647615e-06,
      "loss": 3.3584,
      "step": 433350
    },
    {
      "epoch": 0.9028333333333334,
      "grad_norm": 0.9290308952331543,
      "learning_rate": 6.992282485256762e-06,
      "loss": 3.3538,
      "step": 433360
    },
    {
      "epoch": 0.9028541666666666,
      "grad_norm": 1.0916827917099,
      "learning_rate": 6.9893079036026365e-06,
      "loss": 3.3221,
      "step": 433370
    },
    {
      "epoch": 0.902875,
      "grad_norm": 0.8372383117675781,
      "learning_rate": 6.9863339396980635e-06,
      "loss": 3.308,
      "step": 433380
    },
    {
      "epoch": 0.9028958333333333,
      "grad_norm": 0.9802441596984863,
      "learning_rate": 6.983360593555948e-06,
      "loss": 3.3026,
      "step": 433390
    },
    {
      "epoch": 0.9029166666666667,
      "grad_norm": 1.1165374517440796,
      "learning_rate": 6.980387865189113e-06,
      "loss": 3.3369,
      "step": 433400
    },
    {
      "epoch": 0.9029375,
      "grad_norm": 0.9820041656494141,
      "learning_rate": 6.977415754610366e-06,
      "loss": 3.3181,
      "step": 433410
    },
    {
      "epoch": 0.9029583333333333,
      "grad_norm": 0.8751040101051331,
      "learning_rate": 6.974444261832596e-06,
      "loss": 3.3207,
      "step": 433420
    },
    {
      "epoch": 0.9029791666666667,
      "grad_norm": 0.8880162239074707,
      "learning_rate": 6.971473386868592e-06,
      "loss": 3.302,
      "step": 433430
    },
    {
      "epoch": 0.903,
      "grad_norm": 0.904694139957428,
      "learning_rate": 6.968503129731195e-06,
      "loss": 3.2863,
      "step": 433440
    },
    {
      "epoch": 0.9030208333333334,
      "grad_norm": 0.9121969938278198,
      "learning_rate": 6.965533490433295e-06,
      "loss": 3.2659,
      "step": 433450
    },
    {
      "epoch": 0.9030416666666666,
      "grad_norm": 0.9186887741088867,
      "learning_rate": 6.962564468987647e-06,
      "loss": 3.3008,
      "step": 433460
    },
    {
      "epoch": 0.9030625,
      "grad_norm": 0.8871549963951111,
      "learning_rate": 6.9595960654070746e-06,
      "loss": 3.3283,
      "step": 433470
    },
    {
      "epoch": 0.9030833333333333,
      "grad_norm": 0.8672367334365845,
      "learning_rate": 6.956628279704468e-06,
      "loss": 3.355,
      "step": 433480
    },
    {
      "epoch": 0.9031041666666667,
      "grad_norm": 0.9463374614715576,
      "learning_rate": 6.9536611118926e-06,
      "loss": 3.1905,
      "step": 433490
    },
    {
      "epoch": 0.903125,
      "grad_norm": 0.9631438255310059,
      "learning_rate": 6.95069456198426e-06,
      "loss": 3.3237,
      "step": 433500
    },
    {
      "epoch": 0.9031458333333333,
      "grad_norm": 0.8883429765701294,
      "learning_rate": 6.947728629992355e-06,
      "loss": 3.2617,
      "step": 433510
    },
    {
      "epoch": 0.9031666666666667,
      "grad_norm": 1.0232237577438354,
      "learning_rate": 6.944763315929608e-06,
      "loss": 3.4121,
      "step": 433520
    },
    {
      "epoch": 0.9031875,
      "grad_norm": 0.9440697431564331,
      "learning_rate": 6.9417986198088414e-06,
      "loss": 3.3623,
      "step": 433530
    },
    {
      "epoch": 0.9032083333333333,
      "grad_norm": 0.8388860821723938,
      "learning_rate": 6.938834541642913e-06,
      "loss": 3.2113,
      "step": 433540
    },
    {
      "epoch": 0.9032291666666666,
      "grad_norm": 0.8094473481178284,
      "learning_rate": 6.9358710814445606e-06,
      "loss": 3.2519,
      "step": 433550
    },
    {
      "epoch": 0.90325,
      "grad_norm": 1.0887287855148315,
      "learning_rate": 6.932908239226642e-06,
      "loss": 3.2892,
      "step": 433560
    },
    {
      "epoch": 0.9032708333333334,
      "grad_norm": 0.9025335907936096,
      "learning_rate": 6.9299460150019135e-06,
      "loss": 3.4236,
      "step": 433570
    },
    {
      "epoch": 0.9032916666666667,
      "grad_norm": 0.9146512150764465,
      "learning_rate": 6.926984408783198e-06,
      "loss": 3.2563,
      "step": 433580
    },
    {
      "epoch": 0.9033125,
      "grad_norm": 0.8591191172599792,
      "learning_rate": 6.924023420583269e-06,
      "loss": 3.304,
      "step": 433590
    },
    {
      "epoch": 0.9033333333333333,
      "grad_norm": 1.0390493869781494,
      "learning_rate": 6.921063050414916e-06,
      "loss": 3.1611,
      "step": 433600
    },
    {
      "epoch": 0.9033541666666667,
      "grad_norm": 0.9795872569084167,
      "learning_rate": 6.9181032982909615e-06,
      "loss": 3.2533,
      "step": 433610
    },
    {
      "epoch": 0.903375,
      "grad_norm": 0.8910691142082214,
      "learning_rate": 6.915144164224146e-06,
      "loss": 3.3436,
      "step": 433620
    },
    {
      "epoch": 0.9033958333333333,
      "grad_norm": 0.939403235912323,
      "learning_rate": 6.912185648227275e-06,
      "loss": 3.3035,
      "step": 433630
    },
    {
      "epoch": 0.9034166666666666,
      "grad_norm": 1.086846947669983,
      "learning_rate": 6.9092277503131234e-06,
      "loss": 3.2503,
      "step": 433640
    },
    {
      "epoch": 0.9034375,
      "grad_norm": 0.9213762283325195,
      "learning_rate": 6.906270470494479e-06,
      "loss": 3.3972,
      "step": 433650
    },
    {
      "epoch": 0.9034583333333334,
      "grad_norm": 0.8709695339202881,
      "learning_rate": 6.903313808784084e-06,
      "loss": 3.3276,
      "step": 433660
    },
    {
      "epoch": 0.9034791666666667,
      "grad_norm": 0.847665548324585,
      "learning_rate": 6.900357765194741e-06,
      "loss": 3.2365,
      "step": 433670
    },
    {
      "epoch": 0.9035,
      "grad_norm": 1.033048152923584,
      "learning_rate": 6.897402339739244e-06,
      "loss": 3.2695,
      "step": 433680
    },
    {
      "epoch": 0.9035208333333333,
      "grad_norm": 0.8903681635856628,
      "learning_rate": 6.8944475324302636e-06,
      "loss": 3.3122,
      "step": 433690
    },
    {
      "epoch": 0.9035416666666667,
      "grad_norm": 0.9101355671882629,
      "learning_rate": 6.891493343280658e-06,
      "loss": 3.3582,
      "step": 433700
    },
    {
      "epoch": 0.9035625,
      "grad_norm": 0.9713567495346069,
      "learning_rate": 6.888539772303164e-06,
      "loss": 3.3091,
      "step": 433710
    },
    {
      "epoch": 0.9035833333333333,
      "grad_norm": 1.039878249168396,
      "learning_rate": 6.885586819510508e-06,
      "loss": 3.2884,
      "step": 433720
    },
    {
      "epoch": 0.9036041666666667,
      "grad_norm": 0.9015704393386841,
      "learning_rate": 6.8826344849154776e-06,
      "loss": 3.3619,
      "step": 433730
    },
    {
      "epoch": 0.903625,
      "grad_norm": 0.8874524831771851,
      "learning_rate": 6.879682768530831e-06,
      "loss": 3.2971,
      "step": 433740
    },
    {
      "epoch": 0.9036458333333334,
      "grad_norm": 0.9550295472145081,
      "learning_rate": 6.876731670369273e-06,
      "loss": 3.5137,
      "step": 433750
    },
    {
      "epoch": 0.9036666666666666,
      "grad_norm": 0.9433981776237488,
      "learning_rate": 6.873781190443611e-06,
      "loss": 3.3841,
      "step": 433760
    },
    {
      "epoch": 0.9036875,
      "grad_norm": 0.8913452625274658,
      "learning_rate": 6.870831328766569e-06,
      "loss": 3.1616,
      "step": 433770
    },
    {
      "epoch": 0.9037083333333333,
      "grad_norm": 0.936946451663971,
      "learning_rate": 6.867882085350834e-06,
      "loss": 3.2495,
      "step": 433780
    },
    {
      "epoch": 0.9037291666666667,
      "grad_norm": 0.9631946682929993,
      "learning_rate": 6.8649334602092484e-06,
      "loss": 3.2255,
      "step": 433790
    },
    {
      "epoch": 0.90375,
      "grad_norm": 0.9327935576438904,
      "learning_rate": 6.861985453354451e-06,
      "loss": 3.2373,
      "step": 433800
    },
    {
      "epoch": 0.9037708333333333,
      "grad_norm": 0.9143117666244507,
      "learning_rate": 6.859038064799216e-06,
      "loss": 3.3884,
      "step": 433810
    },
    {
      "epoch": 0.9037916666666667,
      "grad_norm": 0.9114590883255005,
      "learning_rate": 6.8560912945563154e-06,
      "loss": 3.2976,
      "step": 433820
    },
    {
      "epoch": 0.9038125,
      "grad_norm": 0.9145932793617249,
      "learning_rate": 6.8531451426384224e-06,
      "loss": 3.4289,
      "step": 433830
    },
    {
      "epoch": 0.9038333333333334,
      "grad_norm": 0.9464877843856812,
      "learning_rate": 6.8501996090582604e-06,
      "loss": 3.401,
      "step": 433840
    },
    {
      "epoch": 0.9038541666666666,
      "grad_norm": 0.8686090111732483,
      "learning_rate": 6.847254693828602e-06,
      "loss": 3.2639,
      "step": 433850
    },
    {
      "epoch": 0.903875,
      "grad_norm": 1.052107334136963,
      "learning_rate": 6.844310396962138e-06,
      "loss": 3.2532,
      "step": 433860
    },
    {
      "epoch": 0.9038958333333333,
      "grad_norm": 0.8890146613121033,
      "learning_rate": 6.8413667184715585e-06,
      "loss": 3.3972,
      "step": 433870
    },
    {
      "epoch": 0.9039166666666667,
      "grad_norm": 0.880190908908844,
      "learning_rate": 6.838423658369652e-06,
      "loss": 3.3509,
      "step": 433880
    },
    {
      "epoch": 0.9039375,
      "grad_norm": 0.8652086853981018,
      "learning_rate": 6.835481216669058e-06,
      "loss": 3.404,
      "step": 433890
    },
    {
      "epoch": 0.9039583333333333,
      "grad_norm": 0.9914078712463379,
      "learning_rate": 6.832539393382503e-06,
      "loss": 3.3273,
      "step": 433900
    },
    {
      "epoch": 0.9039791666666667,
      "grad_norm": 1.0033372640609741,
      "learning_rate": 6.829598188522756e-06,
      "loss": 3.2293,
      "step": 433910
    },
    {
      "epoch": 0.904,
      "grad_norm": 0.9553731679916382,
      "learning_rate": 6.826657602102442e-06,
      "loss": 3.3799,
      "step": 433920
    },
    {
      "epoch": 0.9040208333333334,
      "grad_norm": 0.9405664801597595,
      "learning_rate": 6.823717634134301e-06,
      "loss": 3.2178,
      "step": 433930
    },
    {
      "epoch": 0.9040416666666666,
      "grad_norm": 0.962428867816925,
      "learning_rate": 6.820778284631023e-06,
      "loss": 3.2552,
      "step": 433940
    },
    {
      "epoch": 0.9040625,
      "grad_norm": 0.8779212832450867,
      "learning_rate": 6.817839553605314e-06,
      "loss": 3.5459,
      "step": 433950
    },
    {
      "epoch": 0.9040833333333333,
      "grad_norm": 0.9174221754074097,
      "learning_rate": 6.814901441069864e-06,
      "loss": 3.2474,
      "step": 433960
    },
    {
      "epoch": 0.9041041666666667,
      "grad_norm": 0.9605169296264648,
      "learning_rate": 6.8119639470373465e-06,
      "loss": 3.3078,
      "step": 433970
    },
    {
      "epoch": 0.904125,
      "grad_norm": 0.8810187578201294,
      "learning_rate": 6.809027071520484e-06,
      "loss": 3.3075,
      "step": 433980
    },
    {
      "epoch": 0.9041458333333333,
      "grad_norm": 0.9575801491737366,
      "learning_rate": 6.80609081453195e-06,
      "loss": 3.2495,
      "step": 433990
    },
    {
      "epoch": 0.9041666666666667,
      "grad_norm": 0.8651609420776367,
      "learning_rate": 6.803155176084401e-06,
      "loss": 3.2631,
      "step": 434000
    },
    {
      "epoch": 0.9041666666666667,
      "eval_loss": 4.021995544433594,
      "eval_runtime": 8.6402,
      "eval_samples_per_second": 1.157,
      "eval_steps_per_second": 0.347,
      "step": 434000
    },
    {
      "epoch": 0.9041875,
      "grad_norm": 0.9799482226371765,
      "learning_rate": 6.800220156190561e-06,
      "loss": 3.3149,
      "step": 434010
    },
    {
      "epoch": 0.9042083333333333,
      "grad_norm": 0.908811092376709,
      "learning_rate": 6.797285754863086e-06,
      "loss": 3.3043,
      "step": 434020
    },
    {
      "epoch": 0.9042291666666666,
      "grad_norm": 0.9718113541603088,
      "learning_rate": 6.794351972114648e-06,
      "loss": 3.2967,
      "step": 434030
    },
    {
      "epoch": 0.90425,
      "grad_norm": 0.9358323216438293,
      "learning_rate": 6.7914188079579215e-06,
      "loss": 3.3331,
      "step": 434040
    },
    {
      "epoch": 0.9042708333333334,
      "grad_norm": 0.9376200437545776,
      "learning_rate": 6.788486262405596e-06,
      "loss": 3.2872,
      "step": 434050
    },
    {
      "epoch": 0.9042916666666667,
      "grad_norm": 0.9133090972900391,
      "learning_rate": 6.785554335470295e-06,
      "loss": 3.2892,
      "step": 434060
    },
    {
      "epoch": 0.9043125,
      "grad_norm": 0.9722595810890198,
      "learning_rate": 6.782623027164724e-06,
      "loss": 3.4258,
      "step": 434070
    },
    {
      "epoch": 0.9043333333333333,
      "grad_norm": 0.8834415078163147,
      "learning_rate": 6.779692337501558e-06,
      "loss": 3.3619,
      "step": 434080
    },
    {
      "epoch": 0.9043541666666667,
      "grad_norm": 0.9100184440612793,
      "learning_rate": 6.776762266493385e-06,
      "loss": 3.3631,
      "step": 434090
    },
    {
      "epoch": 0.904375,
      "grad_norm": 0.8708423376083374,
      "learning_rate": 6.773832814152929e-06,
      "loss": 3.3244,
      "step": 434100
    },
    {
      "epoch": 0.9043958333333333,
      "grad_norm": 0.9459971785545349,
      "learning_rate": 6.770903980492831e-06,
      "loss": 3.3183,
      "step": 434110
    },
    {
      "epoch": 0.9044166666666666,
      "grad_norm": 0.8810477256774902,
      "learning_rate": 6.767975765525713e-06,
      "loss": 3.3642,
      "step": 434120
    },
    {
      "epoch": 0.9044375,
      "grad_norm": 0.9333735108375549,
      "learning_rate": 6.765048169264247e-06,
      "loss": 3.3762,
      "step": 434130
    },
    {
      "epoch": 0.9044583333333334,
      "grad_norm": 1.1354918479919434,
      "learning_rate": 6.762121191721109e-06,
      "loss": 3.315,
      "step": 434140
    },
    {
      "epoch": 0.9044791666666666,
      "grad_norm": 1.0144450664520264,
      "learning_rate": 6.759194832908871e-06,
      "loss": 3.3905,
      "step": 434150
    },
    {
      "epoch": 0.9045,
      "grad_norm": 0.9250689744949341,
      "learning_rate": 6.756269092840255e-06,
      "loss": 3.3135,
      "step": 434160
    },
    {
      "epoch": 0.9045208333333333,
      "grad_norm": 0.9064399003982544,
      "learning_rate": 6.753343971527819e-06,
      "loss": 3.218,
      "step": 434170
    },
    {
      "epoch": 0.9045416666666667,
      "grad_norm": 0.9847040772438049,
      "learning_rate": 6.750419468984236e-06,
      "loss": 3.5024,
      "step": 434180
    },
    {
      "epoch": 0.9045625,
      "grad_norm": 0.9493116736412048,
      "learning_rate": 6.747495585222162e-06,
      "loss": 3.3911,
      "step": 434190
    },
    {
      "epoch": 0.9045833333333333,
      "grad_norm": 0.8753901720046997,
      "learning_rate": 6.744572320254205e-06,
      "loss": 3.2884,
      "step": 434200
    },
    {
      "epoch": 0.9046041666666667,
      "grad_norm": 0.9476054906845093,
      "learning_rate": 6.741649674092953e-06,
      "loss": 3.447,
      "step": 434210
    },
    {
      "epoch": 0.904625,
      "grad_norm": 0.9138069748878479,
      "learning_rate": 6.738727646751113e-06,
      "loss": 3.3213,
      "step": 434220
    },
    {
      "epoch": 0.9046458333333334,
      "grad_norm": 0.914205014705658,
      "learning_rate": 6.7358062382412425e-06,
      "loss": 3.3945,
      "step": 434230
    },
    {
      "epoch": 0.9046666666666666,
      "grad_norm": 0.9565215110778809,
      "learning_rate": 6.732885448575981e-06,
      "loss": 3.3297,
      "step": 434240
    },
    {
      "epoch": 0.9046875,
      "grad_norm": 0.9676430821418762,
      "learning_rate": 6.7299652777679515e-06,
      "loss": 3.3289,
      "step": 434250
    },
    {
      "epoch": 0.9047083333333333,
      "grad_norm": 0.9293731451034546,
      "learning_rate": 6.727045725829744e-06,
      "loss": 3.297,
      "step": 434260
    },
    {
      "epoch": 0.9047291666666667,
      "grad_norm": 0.9644721150398254,
      "learning_rate": 6.724126792774015e-06,
      "loss": 3.2835,
      "step": 434270
    },
    {
      "epoch": 0.90475,
      "grad_norm": 0.9254772663116455,
      "learning_rate": 6.721208478613321e-06,
      "loss": 3.2594,
      "step": 434280
    },
    {
      "epoch": 0.9047708333333333,
      "grad_norm": 0.8423371911048889,
      "learning_rate": 6.718290783360303e-06,
      "loss": 3.2658,
      "step": 434290
    },
    {
      "epoch": 0.9047916666666667,
      "grad_norm": 0.9582478404045105,
      "learning_rate": 6.7153737070275495e-06,
      "loss": 3.3672,
      "step": 434300
    },
    {
      "epoch": 0.9048125,
      "grad_norm": 0.8845075964927673,
      "learning_rate": 6.712457249627684e-06,
      "loss": 3.2258,
      "step": 434310
    },
    {
      "epoch": 0.9048333333333334,
      "grad_norm": 0.9642716646194458,
      "learning_rate": 6.709541411173263e-06,
      "loss": 3.3161,
      "step": 434320
    },
    {
      "epoch": 0.9048541666666666,
      "grad_norm": 0.9355606436729431,
      "learning_rate": 6.706626191676912e-06,
      "loss": 3.2782,
      "step": 434330
    },
    {
      "epoch": 0.904875,
      "grad_norm": 0.9241464138031006,
      "learning_rate": 6.7037115911512175e-06,
      "loss": 3.2542,
      "step": 434340
    },
    {
      "epoch": 0.9048958333333333,
      "grad_norm": 1.123979926109314,
      "learning_rate": 6.7007976096087715e-06,
      "loss": 3.3337,
      "step": 434350
    },
    {
      "epoch": 0.9049166666666667,
      "grad_norm": 0.9197055101394653,
      "learning_rate": 6.697884247062163e-06,
      "loss": 3.4726,
      "step": 434360
    },
    {
      "epoch": 0.9049375,
      "grad_norm": 0.9220695495605469,
      "learning_rate": 6.694971503523966e-06,
      "loss": 3.3922,
      "step": 434370
    },
    {
      "epoch": 0.9049583333333333,
      "grad_norm": 0.9678891897201538,
      "learning_rate": 6.692059379006753e-06,
      "loss": 3.3871,
      "step": 434380
    },
    {
      "epoch": 0.9049791666666667,
      "grad_norm": 1.0321204662322998,
      "learning_rate": 6.689147873523132e-06,
      "loss": 3.3632,
      "step": 434390
    },
    {
      "epoch": 0.905,
      "grad_norm": 0.956068754196167,
      "learning_rate": 6.686236987085675e-06,
      "loss": 3.2578,
      "step": 434400
    },
    {
      "epoch": 0.9050208333333334,
      "grad_norm": 1.1025645732879639,
      "learning_rate": 6.683326719706939e-06,
      "loss": 3.2834,
      "step": 434410
    },
    {
      "epoch": 0.9050416666666666,
      "grad_norm": 0.8850895762443542,
      "learning_rate": 6.6804170713995135e-06,
      "loss": 3.2116,
      "step": 434420
    },
    {
      "epoch": 0.9050625,
      "grad_norm": 0.9133878946304321,
      "learning_rate": 6.677508042175922e-06,
      "loss": 3.2379,
      "step": 434430
    },
    {
      "epoch": 0.9050833333333334,
      "grad_norm": 0.8047786951065063,
      "learning_rate": 6.674599632048788e-06,
      "loss": 3.3065,
      "step": 434440
    },
    {
      "epoch": 0.9051041666666667,
      "grad_norm": 0.8848103880882263,
      "learning_rate": 6.671691841030669e-06,
      "loss": 3.2432,
      "step": 434450
    },
    {
      "epoch": 0.905125,
      "grad_norm": 0.8122003674507141,
      "learning_rate": 6.66878466913407e-06,
      "loss": 3.2206,
      "step": 434460
    },
    {
      "epoch": 0.9051458333333333,
      "grad_norm": 0.8905439376831055,
      "learning_rate": 6.665878116371614e-06,
      "loss": 3.2054,
      "step": 434470
    },
    {
      "epoch": 0.9051666666666667,
      "grad_norm": 0.862189531326294,
      "learning_rate": 6.662972182755827e-06,
      "loss": 3.234,
      "step": 434480
    },
    {
      "epoch": 0.9051875,
      "grad_norm": 0.9103912711143494,
      "learning_rate": 6.660066868299246e-06,
      "loss": 3.4157,
      "step": 434490
    },
    {
      "epoch": 0.9052083333333333,
      "grad_norm": 0.9446055889129639,
      "learning_rate": 6.6571621730144464e-06,
      "loss": 3.3385,
      "step": 434500
    },
    {
      "epoch": 0.9052291666666666,
      "grad_norm": 0.8801121711730957,
      "learning_rate": 6.654258096913984e-06,
      "loss": 3.1753,
      "step": 434510
    },
    {
      "epoch": 0.90525,
      "grad_norm": 0.8818964958190918,
      "learning_rate": 6.6513546400103645e-06,
      "loss": 3.3287,
      "step": 434520
    },
    {
      "epoch": 0.9052708333333334,
      "grad_norm": 0.9707880616188049,
      "learning_rate": 6.648451802316163e-06,
      "loss": 3.3406,
      "step": 434530
    },
    {
      "epoch": 0.9052916666666667,
      "grad_norm": 0.9545532464981079,
      "learning_rate": 6.645549583843918e-06,
      "loss": 3.4185,
      "step": 434540
    },
    {
      "epoch": 0.9053125,
      "grad_norm": 0.9779586791992188,
      "learning_rate": 6.642647984606136e-06,
      "loss": 3.1907,
      "step": 434550
    },
    {
      "epoch": 0.9053333333333333,
      "grad_norm": 1.1057403087615967,
      "learning_rate": 6.639747004615375e-06,
      "loss": 3.2426,
      "step": 434560
    },
    {
      "epoch": 0.9053541666666667,
      "grad_norm": 0.903471827507019,
      "learning_rate": 6.636846643884158e-06,
      "loss": 3.4017,
      "step": 434570
    },
    {
      "epoch": 0.905375,
      "grad_norm": 0.9573217034339905,
      "learning_rate": 6.633946902425024e-06,
      "loss": 3.4843,
      "step": 434580
    },
    {
      "epoch": 0.9053958333333333,
      "grad_norm": 0.9395918250083923,
      "learning_rate": 6.631047780250481e-06,
      "loss": 3.3081,
      "step": 434590
    },
    {
      "epoch": 0.9054166666666666,
      "grad_norm": 1.0093272924423218,
      "learning_rate": 6.628149277373068e-06,
      "loss": 3.2884,
      "step": 434600
    },
    {
      "epoch": 0.9054375,
      "grad_norm": 0.9862738847732544,
      "learning_rate": 6.625251393805309e-06,
      "loss": 3.3908,
      "step": 434610
    },
    {
      "epoch": 0.9054583333333334,
      "grad_norm": 0.9040219187736511,
      "learning_rate": 6.6223541295597095e-06,
      "loss": 3.355,
      "step": 434620
    },
    {
      "epoch": 0.9054791666666666,
      "grad_norm": 0.9752997756004333,
      "learning_rate": 6.619457484648777e-06,
      "loss": 3.3566,
      "step": 434630
    },
    {
      "epoch": 0.9055,
      "grad_norm": 0.9753318428993225,
      "learning_rate": 6.616561459085035e-06,
      "loss": 3.3609,
      "step": 434640
    },
    {
      "epoch": 0.9055208333333333,
      "grad_norm": 0.8848928809165955,
      "learning_rate": 6.61366605288099e-06,
      "loss": 3.3209,
      "step": 434650
    },
    {
      "epoch": 0.9055416666666667,
      "grad_norm": 0.9251269102096558,
      "learning_rate": 6.610771266049164e-06,
      "loss": 3.4408,
      "step": 434660
    },
    {
      "epoch": 0.9055625,
      "grad_norm": 0.9352338910102844,
      "learning_rate": 6.6078770986020325e-06,
      "loss": 3.3943,
      "step": 434670
    },
    {
      "epoch": 0.9055833333333333,
      "grad_norm": 0.9172368049621582,
      "learning_rate": 6.604983550552134e-06,
      "loss": 3.3455,
      "step": 434680
    },
    {
      "epoch": 0.9056041666666667,
      "grad_norm": 0.865210771560669,
      "learning_rate": 6.602090621911926e-06,
      "loss": 3.3308,
      "step": 434690
    },
    {
      "epoch": 0.905625,
      "grad_norm": 1.0758665800094604,
      "learning_rate": 6.599198312693932e-06,
      "loss": 3.2722,
      "step": 434700
    },
    {
      "epoch": 0.9056458333333334,
      "grad_norm": 0.9584674835205078,
      "learning_rate": 6.596306622910641e-06,
      "loss": 3.3703,
      "step": 434710
    },
    {
      "epoch": 0.9056666666666666,
      "grad_norm": 0.9321240782737732,
      "learning_rate": 6.593415552574543e-06,
      "loss": 3.1438,
      "step": 434720
    },
    {
      "epoch": 0.9056875,
      "grad_norm": 1.0644418001174927,
      "learning_rate": 6.59052510169813e-06,
      "loss": 3.1811,
      "step": 434730
    },
    {
      "epoch": 0.9057083333333333,
      "grad_norm": 0.9408808350563049,
      "learning_rate": 6.58763527029389e-06,
      "loss": 3.3574,
      "step": 434740
    },
    {
      "epoch": 0.9057291666666667,
      "grad_norm": 0.9010677933692932,
      "learning_rate": 6.584746058374279e-06,
      "loss": 3.2855,
      "step": 434750
    },
    {
      "epoch": 0.90575,
      "grad_norm": 0.880361020565033,
      "learning_rate": 6.5818574659518065e-06,
      "loss": 3.2703,
      "step": 434760
    },
    {
      "epoch": 0.9057708333333333,
      "grad_norm": 0.8986789584159851,
      "learning_rate": 6.578969493038943e-06,
      "loss": 3.1798,
      "step": 434770
    },
    {
      "epoch": 0.9057916666666667,
      "grad_norm": 0.9172016978263855,
      "learning_rate": 6.576082139648164e-06,
      "loss": 3.2239,
      "step": 434780
    },
    {
      "epoch": 0.9058125,
      "grad_norm": 0.8372516632080078,
      "learning_rate": 6.573195405791942e-06,
      "loss": 3.244,
      "step": 434790
    },
    {
      "epoch": 0.9058333333333334,
      "grad_norm": 1.0101608037948608,
      "learning_rate": 6.570309291482717e-06,
      "loss": 3.3232,
      "step": 434800
    },
    {
      "epoch": 0.9058541666666666,
      "grad_norm": 0.9095712304115295,
      "learning_rate": 6.5674237967330125e-06,
      "loss": 3.3203,
      "step": 434810
    },
    {
      "epoch": 0.905875,
      "grad_norm": 1.0632575750350952,
      "learning_rate": 6.564538921555268e-06,
      "loss": 3.3213,
      "step": 434820
    },
    {
      "epoch": 0.9058958333333333,
      "grad_norm": 1.0252636671066284,
      "learning_rate": 6.561654665961924e-06,
      "loss": 3.3199,
      "step": 434830
    },
    {
      "epoch": 0.9059166666666667,
      "grad_norm": 0.9446947574615479,
      "learning_rate": 6.558771029965438e-06,
      "loss": 3.3739,
      "step": 434840
    },
    {
      "epoch": 0.9059375,
      "grad_norm": 1.3659919500350952,
      "learning_rate": 6.555888013578314e-06,
      "loss": 3.3975,
      "step": 434850
    },
    {
      "epoch": 0.9059583333333333,
      "grad_norm": 0.8844103217124939,
      "learning_rate": 6.553005616812962e-06,
      "loss": 3.3272,
      "step": 434860
    },
    {
      "epoch": 0.9059791666666667,
      "grad_norm": 0.8575828671455383,
      "learning_rate": 6.55012383968182e-06,
      "loss": 3.3263,
      "step": 434870
    },
    {
      "epoch": 0.906,
      "grad_norm": 0.9204123020172119,
      "learning_rate": 6.547242682197412e-06,
      "loss": 3.312,
      "step": 434880
    },
    {
      "epoch": 0.9060208333333334,
      "grad_norm": 0.9813330769538879,
      "learning_rate": 6.544362144372095e-06,
      "loss": 3.4423,
      "step": 434890
    },
    {
      "epoch": 0.9060416666666666,
      "grad_norm": 0.9866684675216675,
      "learning_rate": 6.541482226218342e-06,
      "loss": 3.3693,
      "step": 434900
    },
    {
      "epoch": 0.9060625,
      "grad_norm": 0.8769962787628174,
      "learning_rate": 6.538602927748643e-06,
      "loss": 3.2883,
      "step": 434910
    },
    {
      "epoch": 0.9060833333333334,
      "grad_norm": 0.9242112636566162,
      "learning_rate": 6.535724248975372e-06,
      "loss": 3.3166,
      "step": 434920
    },
    {
      "epoch": 0.9061041666666667,
      "grad_norm": 0.9796018600463867,
      "learning_rate": 6.532846189910984e-06,
      "loss": 3.4689,
      "step": 434930
    },
    {
      "epoch": 0.906125,
      "grad_norm": 0.8981704115867615,
      "learning_rate": 6.529968750567905e-06,
      "loss": 3.291,
      "step": 434940
    },
    {
      "epoch": 0.9061458333333333,
      "grad_norm": 0.9085623621940613,
      "learning_rate": 6.527091930958589e-06,
      "loss": 3.3802,
      "step": 434950
    },
    {
      "epoch": 0.9061666666666667,
      "grad_norm": 0.9033504128456116,
      "learning_rate": 6.524215731095428e-06,
      "loss": 3.3413,
      "step": 434960
    },
    {
      "epoch": 0.9061875,
      "grad_norm": 0.9380167722702026,
      "learning_rate": 6.521340150990878e-06,
      "loss": 3.3231,
      "step": 434970
    },
    {
      "epoch": 0.9062083333333333,
      "grad_norm": 0.9238989949226379,
      "learning_rate": 6.518465190657329e-06,
      "loss": 3.2823,
      "step": 434980
    },
    {
      "epoch": 0.9062291666666666,
      "grad_norm": 0.8010801076889038,
      "learning_rate": 6.515590850107222e-06,
      "loss": 3.3398,
      "step": 434990
    },
    {
      "epoch": 0.90625,
      "grad_norm": 0.8683434128761292,
      "learning_rate": 6.512717129352979e-06,
      "loss": 3.2213,
      "step": 435000
    },
    {
      "epoch": 0.90625,
      "eval_loss": 4.02152681350708,
      "eval_runtime": 8.5672,
      "eval_samples_per_second": 1.167,
      "eval_steps_per_second": 0.35,
      "step": 435000
    },
    {
      "epoch": 0.9062708333333334,
      "grad_norm": 0.923143208026886,
      "learning_rate": 6.509844028406991e-06,
      "loss": 3.3109,
      "step": 435010
    },
    {
      "epoch": 0.9062916666666667,
      "grad_norm": 0.9149075746536255,
      "learning_rate": 6.506971547281681e-06,
      "loss": 3.3113,
      "step": 435020
    },
    {
      "epoch": 0.9063125,
      "grad_norm": 0.9050455093383789,
      "learning_rate": 6.504099685989455e-06,
      "loss": 3.3573,
      "step": 435030
    },
    {
      "epoch": 0.9063333333333333,
      "grad_norm": 0.8700425624847412,
      "learning_rate": 6.501228444542722e-06,
      "loss": 3.3874,
      "step": 435040
    },
    {
      "epoch": 0.9063541666666667,
      "grad_norm": 0.858098566532135,
      "learning_rate": 6.49835782295387e-06,
      "loss": 3.2845,
      "step": 435050
    },
    {
      "epoch": 0.906375,
      "grad_norm": 0.9357949495315552,
      "learning_rate": 6.495487821235323e-06,
      "loss": 3.39,
      "step": 435060
    },
    {
      "epoch": 0.9063958333333333,
      "grad_norm": 0.8381306529045105,
      "learning_rate": 6.492618439399472e-06,
      "loss": 3.243,
      "step": 435070
    },
    {
      "epoch": 0.9064166666666666,
      "grad_norm": 0.8849668502807617,
      "learning_rate": 6.489749677458689e-06,
      "loss": 3.3258,
      "step": 435080
    },
    {
      "epoch": 0.9064375,
      "grad_norm": 0.9227784872055054,
      "learning_rate": 6.486881535425398e-06,
      "loss": 3.4484,
      "step": 435090
    },
    {
      "epoch": 0.9064583333333334,
      "grad_norm": 0.8832443952560425,
      "learning_rate": 6.4840140133119555e-06,
      "loss": 3.2581,
      "step": 435100
    },
    {
      "epoch": 0.9064791666666666,
      "grad_norm": 0.9055428504943848,
      "learning_rate": 6.481147111130769e-06,
      "loss": 3.1884,
      "step": 435110
    },
    {
      "epoch": 0.9065,
      "grad_norm": 0.975733757019043,
      "learning_rate": 6.478280828894228e-06,
      "loss": 3.2877,
      "step": 435120
    },
    {
      "epoch": 0.9065208333333333,
      "grad_norm": 1.0017858743667603,
      "learning_rate": 6.475415166614689e-06,
      "loss": 3.327,
      "step": 435130
    },
    {
      "epoch": 0.9065416666666667,
      "grad_norm": 1.0954524278640747,
      "learning_rate": 6.4725501243045765e-06,
      "loss": 3.3792,
      "step": 435140
    },
    {
      "epoch": 0.9065625,
      "grad_norm": 0.823033332824707,
      "learning_rate": 6.469685701976196e-06,
      "loss": 3.3057,
      "step": 435150
    },
    {
      "epoch": 0.9065833333333333,
      "grad_norm": 0.9404721856117249,
      "learning_rate": 6.466821899641989e-06,
      "loss": 3.1776,
      "step": 435160
    },
    {
      "epoch": 0.9066041666666667,
      "grad_norm": 0.8956531286239624,
      "learning_rate": 6.463958717314294e-06,
      "loss": 3.2433,
      "step": 435170
    },
    {
      "epoch": 0.906625,
      "grad_norm": 0.9248053431510925,
      "learning_rate": 6.461096155005452e-06,
      "loss": 3.3335,
      "step": 435180
    },
    {
      "epoch": 0.9066458333333334,
      "grad_norm": 0.9780442714691162,
      "learning_rate": 6.458234212727903e-06,
      "loss": 3.3954,
      "step": 435190
    },
    {
      "epoch": 0.9066666666666666,
      "grad_norm": 0.9352623224258423,
      "learning_rate": 6.455372890493937e-06,
      "loss": 3.3523,
      "step": 435200
    },
    {
      "epoch": 0.9066875,
      "grad_norm": 0.956540584564209,
      "learning_rate": 6.452512188315928e-06,
      "loss": 3.2596,
      "step": 435210
    },
    {
      "epoch": 0.9067083333333333,
      "grad_norm": 0.8642855286598206,
      "learning_rate": 6.449652106206282e-06,
      "loss": 3.3733,
      "step": 435220
    },
    {
      "epoch": 0.9067291666666667,
      "grad_norm": 0.9635078310966492,
      "learning_rate": 6.44679264417729e-06,
      "loss": 3.3104,
      "step": 435230
    },
    {
      "epoch": 0.90675,
      "grad_norm": 0.9170826077461243,
      "learning_rate": 6.443933802241325e-06,
      "loss": 3.2268,
      "step": 435240
    },
    {
      "epoch": 0.9067708333333333,
      "grad_norm": 0.9352152347564697,
      "learning_rate": 6.441075580410776e-06,
      "loss": 3.3987,
      "step": 435250
    },
    {
      "epoch": 0.9067916666666667,
      "grad_norm": 0.9002903699874878,
      "learning_rate": 6.438217978697935e-06,
      "loss": 3.3277,
      "step": 435260
    },
    {
      "epoch": 0.9068125,
      "grad_norm": 0.9747300148010254,
      "learning_rate": 6.435360997115158e-06,
      "loss": 3.3108,
      "step": 435270
    },
    {
      "epoch": 0.9068333333333334,
      "grad_norm": 1.01800537109375,
      "learning_rate": 6.432504635674817e-06,
      "loss": 3.4241,
      "step": 435280
    },
    {
      "epoch": 0.9068541666666666,
      "grad_norm": 0.8994824886322021,
      "learning_rate": 6.429648894389222e-06,
      "loss": 3.2355,
      "step": 435290
    },
    {
      "epoch": 0.906875,
      "grad_norm": 0.9015496969223022,
      "learning_rate": 6.426793773270711e-06,
      "loss": 3.3119,
      "step": 435300
    },
    {
      "epoch": 0.9068958333333333,
      "grad_norm": 0.9279435873031616,
      "learning_rate": 6.423939272331607e-06,
      "loss": 3.3764,
      "step": 435310
    },
    {
      "epoch": 0.9069166666666667,
      "grad_norm": 0.8604496121406555,
      "learning_rate": 6.421085391584268e-06,
      "loss": 3.3647,
      "step": 435320
    },
    {
      "epoch": 0.9069375,
      "grad_norm": 0.8862157464027405,
      "learning_rate": 6.418232131041001e-06,
      "loss": 3.2507,
      "step": 435330
    },
    {
      "epoch": 0.9069583333333333,
      "grad_norm": 0.9181522727012634,
      "learning_rate": 6.415379490714146e-06,
      "loss": 3.2207,
      "step": 435340
    },
    {
      "epoch": 0.9069791666666667,
      "grad_norm": 0.9417202472686768,
      "learning_rate": 6.412527470616025e-06,
      "loss": 3.3574,
      "step": 435350
    },
    {
      "epoch": 0.907,
      "grad_norm": 0.9980327486991882,
      "learning_rate": 6.409676070758929e-06,
      "loss": 3.4766,
      "step": 435360
    },
    {
      "epoch": 0.9070208333333334,
      "grad_norm": 0.9155825972557068,
      "learning_rate": 6.406825291155199e-06,
      "loss": 3.3247,
      "step": 435370
    },
    {
      "epoch": 0.9070416666666666,
      "grad_norm": 0.8747481107711792,
      "learning_rate": 6.403975131817157e-06,
      "loss": 3.4322,
      "step": 435380
    },
    {
      "epoch": 0.9070625,
      "grad_norm": 0.8627986907958984,
      "learning_rate": 6.401125592757095e-06,
      "loss": 3.2232,
      "step": 435390
    },
    {
      "epoch": 0.9070833333333334,
      "grad_norm": 0.927278995513916,
      "learning_rate": 6.398276673987334e-06,
      "loss": 3.3705,
      "step": 435400
    },
    {
      "epoch": 0.9071041666666667,
      "grad_norm": 0.8754043579101562,
      "learning_rate": 6.395428375520167e-06,
      "loss": 3.1987,
      "step": 435410
    },
    {
      "epoch": 0.907125,
      "grad_norm": 0.9591935276985168,
      "learning_rate": 6.392580697367933e-06,
      "loss": 3.2734,
      "step": 435420
    },
    {
      "epoch": 0.9071458333333333,
      "grad_norm": 0.9152054190635681,
      "learning_rate": 6.389733639542871e-06,
      "loss": 3.259,
      "step": 435430
    },
    {
      "epoch": 0.9071666666666667,
      "grad_norm": 0.892794668674469,
      "learning_rate": 6.386887202057339e-06,
      "loss": 3.2394,
      "step": 435440
    },
    {
      "epoch": 0.9071875,
      "grad_norm": 0.8609667420387268,
      "learning_rate": 6.38404138492361e-06,
      "loss": 3.3553,
      "step": 435450
    },
    {
      "epoch": 0.9072083333333333,
      "grad_norm": 0.9639559984207153,
      "learning_rate": 6.3811961881539585e-06,
      "loss": 3.3096,
      "step": 435460
    },
    {
      "epoch": 0.9072291666666666,
      "grad_norm": 0.8631779551506042,
      "learning_rate": 6.37835161176069e-06,
      "loss": 3.4301,
      "step": 435470
    },
    {
      "epoch": 0.90725,
      "grad_norm": 0.9643155932426453,
      "learning_rate": 6.375507655756129e-06,
      "loss": 3.362,
      "step": 435480
    },
    {
      "epoch": 0.9072708333333334,
      "grad_norm": 1.1329673528671265,
      "learning_rate": 6.372664320152465e-06,
      "loss": 3.4023,
      "step": 435490
    },
    {
      "epoch": 0.9072916666666667,
      "grad_norm": 1.028045654296875,
      "learning_rate": 6.369821604962072e-06,
      "loss": 3.1087,
      "step": 435500
    },
    {
      "epoch": 0.9073125,
      "grad_norm": 0.9469560980796814,
      "learning_rate": 6.366979510197223e-06,
      "loss": 3.3724,
      "step": 435510
    },
    {
      "epoch": 0.9073333333333333,
      "grad_norm": 0.9777683019638062,
      "learning_rate": 6.364138035870125e-06,
      "loss": 3.3411,
      "step": 435520
    },
    {
      "epoch": 0.9073541666666667,
      "grad_norm": 0.9262279868125916,
      "learning_rate": 6.361297181993102e-06,
      "loss": 3.2786,
      "step": 435530
    },
    {
      "epoch": 0.907375,
      "grad_norm": 0.8347524404525757,
      "learning_rate": 6.358456948578461e-06,
      "loss": 3.3062,
      "step": 435540
    },
    {
      "epoch": 0.9073958333333333,
      "grad_norm": 0.9050841331481934,
      "learning_rate": 6.3556173356383745e-06,
      "loss": 3.2464,
      "step": 435550
    },
    {
      "epoch": 0.9074166666666666,
      "grad_norm": 0.9345390200614929,
      "learning_rate": 6.3527783431852e-06,
      "loss": 3.3648,
      "step": 435560
    },
    {
      "epoch": 0.9074375,
      "grad_norm": 0.9831988215446472,
      "learning_rate": 6.349939971231144e-06,
      "loss": 3.4127,
      "step": 435570
    },
    {
      "epoch": 0.9074583333333334,
      "grad_norm": 0.9256287813186646,
      "learning_rate": 6.34710221978848e-06,
      "loss": 3.1945,
      "step": 435580
    },
    {
      "epoch": 0.9074791666666666,
      "grad_norm": 0.9622143507003784,
      "learning_rate": 6.344265088869499e-06,
      "loss": 3.249,
      "step": 435590
    },
    {
      "epoch": 0.9075,
      "grad_norm": 0.8448275923728943,
      "learning_rate": 6.341428578486424e-06,
      "loss": 3.2608,
      "step": 435600
    },
    {
      "epoch": 0.9075208333333333,
      "grad_norm": 0.9061552286148071,
      "learning_rate": 6.338592688651478e-06,
      "loss": 3.3322,
      "step": 435610
    },
    {
      "epoch": 0.9075416666666667,
      "grad_norm": 0.9380093216896057,
      "learning_rate": 6.335757419377002e-06,
      "loss": 3.3332,
      "step": 435620
    },
    {
      "epoch": 0.9075625,
      "grad_norm": 0.9231848120689392,
      "learning_rate": 6.332922770675153e-06,
      "loss": 3.3662,
      "step": 435630
    },
    {
      "epoch": 0.9075833333333333,
      "grad_norm": 1.041966438293457,
      "learning_rate": 6.330088742558204e-06,
      "loss": 3.2976,
      "step": 435640
    },
    {
      "epoch": 0.9076041666666667,
      "grad_norm": 0.887937068939209,
      "learning_rate": 6.327255335038428e-06,
      "loss": 3.2569,
      "step": 435650
    },
    {
      "epoch": 0.907625,
      "grad_norm": 0.8998525142669678,
      "learning_rate": 6.324422548128016e-06,
      "loss": 3.3781,
      "step": 435660
    },
    {
      "epoch": 0.9076458333333334,
      "grad_norm": 0.8606697916984558,
      "learning_rate": 6.321590381839242e-06,
      "loss": 3.4322,
      "step": 435670
    },
    {
      "epoch": 0.9076666666666666,
      "grad_norm": 1.0526421070098877,
      "learning_rate": 6.3187588361843285e-06,
      "loss": 3.2768,
      "step": 435680
    },
    {
      "epoch": 0.9076875,
      "grad_norm": 0.9621012210845947,
      "learning_rate": 6.3159279111755e-06,
      "loss": 3.3082,
      "step": 435690
    },
    {
      "epoch": 0.9077083333333333,
      "grad_norm": 0.9616222381591797,
      "learning_rate": 6.313097606824979e-06,
      "loss": 3.3227,
      "step": 435700
    },
    {
      "epoch": 0.9077291666666667,
      "grad_norm": 0.9318376779556274,
      "learning_rate": 6.310267923145007e-06,
      "loss": 3.2889,
      "step": 435710
    },
    {
      "epoch": 0.90775,
      "grad_norm": 0.8867473006248474,
      "learning_rate": 6.307438860147806e-06,
      "loss": 3.3137,
      "step": 435720
    },
    {
      "epoch": 0.9077708333333333,
      "grad_norm": 0.8607016205787659,
      "learning_rate": 6.304610417845585e-06,
      "loss": 3.3824,
      "step": 435730
    },
    {
      "epoch": 0.9077916666666667,
      "grad_norm": 0.8998711109161377,
      "learning_rate": 6.3017825962505815e-06,
      "loss": 3.1874,
      "step": 435740
    },
    {
      "epoch": 0.9078125,
      "grad_norm": 0.974556565284729,
      "learning_rate": 6.2989553953749885e-06,
      "loss": 3.4096,
      "step": 435750
    },
    {
      "epoch": 0.9078333333333334,
      "grad_norm": 0.9350501894950867,
      "learning_rate": 6.296128815231027e-06,
      "loss": 3.2614,
      "step": 435760
    },
    {
      "epoch": 0.9078541666666666,
      "grad_norm": 0.9430268406867981,
      "learning_rate": 6.2933028558309065e-06,
      "loss": 3.2712,
      "step": 435770
    },
    {
      "epoch": 0.907875,
      "grad_norm": 0.9981740117073059,
      "learning_rate": 6.2904775171868316e-06,
      "loss": 3.3414,
      "step": 435780
    },
    {
      "epoch": 0.9078958333333333,
      "grad_norm": 0.9300377368927002,
      "learning_rate": 6.2876527993110275e-06,
      "loss": 3.2029,
      "step": 435790
    },
    {
      "epoch": 0.9079166666666667,
      "grad_norm": 0.9267064929008484,
      "learning_rate": 6.28482870221565e-06,
      "loss": 3.2333,
      "step": 435800
    },
    {
      "epoch": 0.9079375,
      "grad_norm": 0.8753864765167236,
      "learning_rate": 6.28200522591294e-06,
      "loss": 3.2654,
      "step": 435810
    },
    {
      "epoch": 0.9079583333333333,
      "grad_norm": 0.8731638789176941,
      "learning_rate": 6.279182370415087e-06,
      "loss": 3.3958,
      "step": 435820
    },
    {
      "epoch": 0.9079791666666667,
      "grad_norm": 1.029618263244629,
      "learning_rate": 6.276360135734265e-06,
      "loss": 3.2723,
      "step": 435830
    },
    {
      "epoch": 0.908,
      "grad_norm": 1.0992978811264038,
      "learning_rate": 6.273538521882682e-06,
      "loss": 3.2944,
      "step": 435840
    },
    {
      "epoch": 0.9080208333333334,
      "grad_norm": 1.1503269672393799,
      "learning_rate": 6.270717528872526e-06,
      "loss": 3.1728,
      "step": 435850
    },
    {
      "epoch": 0.9080416666666666,
      "grad_norm": 0.930396556854248,
      "learning_rate": 6.267897156715956e-06,
      "loss": 3.4761,
      "step": 435860
    },
    {
      "epoch": 0.9080625,
      "grad_norm": 0.944335401058197,
      "learning_rate": 6.265077405425195e-06,
      "loss": 3.259,
      "step": 435870
    },
    {
      "epoch": 0.9080833333333334,
      "grad_norm": 0.9540866613388062,
      "learning_rate": 6.2622582750124324e-06,
      "loss": 3.3883,
      "step": 435880
    },
    {
      "epoch": 0.9081041666666667,
      "grad_norm": 0.8931268453598022,
      "learning_rate": 6.259439765489776e-06,
      "loss": 3.4432,
      "step": 435890
    },
    {
      "epoch": 0.908125,
      "grad_norm": 0.8828706741333008,
      "learning_rate": 6.25662187686945e-06,
      "loss": 3.3019,
      "step": 435900
    },
    {
      "epoch": 0.9081458333333333,
      "grad_norm": 1.0228781700134277,
      "learning_rate": 6.25380460916366e-06,
      "loss": 3.4043,
      "step": 435910
    },
    {
      "epoch": 0.9081666666666667,
      "grad_norm": 0.8721097707748413,
      "learning_rate": 6.250987962384479e-06,
      "loss": 3.2533,
      "step": 435920
    },
    {
      "epoch": 0.9081875,
      "grad_norm": 0.9576264023780823,
      "learning_rate": 6.248171936544183e-06,
      "loss": 3.4844,
      "step": 435930
    },
    {
      "epoch": 0.9082083333333333,
      "grad_norm": 1.0007970333099365,
      "learning_rate": 6.245356531654844e-06,
      "loss": 3.3205,
      "step": 435940
    },
    {
      "epoch": 0.9082291666666666,
      "grad_norm": 0.9730261564254761,
      "learning_rate": 6.2425417477286684e-06,
      "loss": 3.3877,
      "step": 435950
    },
    {
      "epoch": 0.90825,
      "grad_norm": 0.9037715196609497,
      "learning_rate": 6.239727584777832e-06,
      "loss": 3.3333,
      "step": 435960
    },
    {
      "epoch": 0.9082708333333334,
      "grad_norm": 0.9460398554801941,
      "learning_rate": 6.236914042814456e-06,
      "loss": 3.344,
      "step": 435970
    },
    {
      "epoch": 0.9082916666666667,
      "grad_norm": 0.9310874938964844,
      "learning_rate": 6.234101121850682e-06,
      "loss": 3.2708,
      "step": 435980
    },
    {
      "epoch": 0.9083125,
      "grad_norm": 0.9266085624694824,
      "learning_rate": 6.231288821898716e-06,
      "loss": 3.2764,
      "step": 435990
    },
    {
      "epoch": 0.9083333333333333,
      "grad_norm": 0.8388591408729553,
      "learning_rate": 6.228477142970667e-06,
      "loss": 3.4233,
      "step": 436000
    },
    {
      "epoch": 0.9083333333333333,
      "eval_loss": 4.0215349197387695,
      "eval_runtime": 8.4939,
      "eval_samples_per_second": 1.177,
      "eval_steps_per_second": 0.353,
      "step": 436000
    },
    {
      "epoch": 0.9083541666666667,
      "grad_norm": 0.9181939363479614,
      "learning_rate": 6.22566608507869e-06,
      "loss": 3.3774,
      "step": 436010
    },
    {
      "epoch": 0.908375,
      "grad_norm": 0.9265906810760498,
      "learning_rate": 6.222855648234909e-06,
      "loss": 3.3571,
      "step": 436020
    },
    {
      "epoch": 0.9083958333333333,
      "grad_norm": 0.9487056136131287,
      "learning_rate": 6.220045832451498e-06,
      "loss": 3.3099,
      "step": 436030
    },
    {
      "epoch": 0.9084166666666667,
      "grad_norm": 0.8304054141044617,
      "learning_rate": 6.217236637740564e-06,
      "loss": 3.3103,
      "step": 436040
    },
    {
      "epoch": 0.9084375,
      "grad_norm": 1.0642610788345337,
      "learning_rate": 6.214428064114263e-06,
      "loss": 3.2856,
      "step": 436050
    },
    {
      "epoch": 0.9084583333333334,
      "grad_norm": 0.9602444767951965,
      "learning_rate": 6.21162011158472e-06,
      "loss": 3.2083,
      "step": 436060
    },
    {
      "epoch": 0.9084791666666666,
      "grad_norm": 1.0230416059494019,
      "learning_rate": 6.2088127801640575e-06,
      "loss": 3.2811,
      "step": 436070
    },
    {
      "epoch": 0.9085,
      "grad_norm": 0.9561672210693359,
      "learning_rate": 6.206006069864417e-06,
      "loss": 3.2828,
      "step": 436080
    },
    {
      "epoch": 0.9085208333333333,
      "grad_norm": 0.8966888785362244,
      "learning_rate": 6.203199980697904e-06,
      "loss": 3.2743,
      "step": 436090
    },
    {
      "epoch": 0.9085416666666667,
      "grad_norm": 0.8388901948928833,
      "learning_rate": 6.200394512676643e-06,
      "loss": 3.218,
      "step": 436100
    },
    {
      "epoch": 0.9085625,
      "grad_norm": 0.9468029141426086,
      "learning_rate": 6.197589665812758e-06,
      "loss": 3.2876,
      "step": 436110
    },
    {
      "epoch": 0.9085833333333333,
      "grad_norm": 0.9459859132766724,
      "learning_rate": 6.194785440118371e-06,
      "loss": 3.2302,
      "step": 436120
    },
    {
      "epoch": 0.9086041666666667,
      "grad_norm": 0.8854359984397888,
      "learning_rate": 6.191981835605592e-06,
      "loss": 3.3436,
      "step": 436130
    },
    {
      "epoch": 0.908625,
      "grad_norm": 0.8698440194129944,
      "learning_rate": 6.189178852286525e-06,
      "loss": 3.3528,
      "step": 436140
    },
    {
      "epoch": 0.9086458333333334,
      "grad_norm": 1.0353082418441772,
      "learning_rate": 6.186376490173278e-06,
      "loss": 3.3002,
      "step": 436150
    },
    {
      "epoch": 0.9086666666666666,
      "grad_norm": 0.8834729790687561,
      "learning_rate": 6.183574749277992e-06,
      "loss": 3.2654,
      "step": 436160
    },
    {
      "epoch": 0.9086875,
      "grad_norm": 0.9398674368858337,
      "learning_rate": 6.1807736296126896e-06,
      "loss": 3.4032,
      "step": 436170
    },
    {
      "epoch": 0.9087083333333333,
      "grad_norm": 0.9373579025268555,
      "learning_rate": 6.177973131189529e-06,
      "loss": 3.3259,
      "step": 436180
    },
    {
      "epoch": 0.9087291666666667,
      "grad_norm": 0.8464142084121704,
      "learning_rate": 6.1751732540206154e-06,
      "loss": 3.4094,
      "step": 436190
    },
    {
      "epoch": 0.90875,
      "grad_norm": 1.058767557144165,
      "learning_rate": 6.172373998117991e-06,
      "loss": 3.3318,
      "step": 436200
    },
    {
      "epoch": 0.9087708333333333,
      "grad_norm": 1.0421900749206543,
      "learning_rate": 6.169575363493795e-06,
      "loss": 3.4146,
      "step": 436210
    },
    {
      "epoch": 0.9087916666666667,
      "grad_norm": 0.9909707307815552,
      "learning_rate": 6.166777350160135e-06,
      "loss": 3.2648,
      "step": 436220
    },
    {
      "epoch": 0.9088125,
      "grad_norm": 0.9264198541641235,
      "learning_rate": 6.163979958129018e-06,
      "loss": 3.3672,
      "step": 436230
    },
    {
      "epoch": 0.9088333333333334,
      "grad_norm": 0.9643059968948364,
      "learning_rate": 6.161183187412583e-06,
      "loss": 3.3333,
      "step": 436240
    },
    {
      "epoch": 0.9088541666666666,
      "grad_norm": 0.9058620929718018,
      "learning_rate": 6.1583870380229215e-06,
      "loss": 3.3493,
      "step": 436250
    },
    {
      "epoch": 0.908875,
      "grad_norm": 0.9418743848800659,
      "learning_rate": 6.155591509972058e-06,
      "loss": 3.3079,
      "step": 436260
    },
    {
      "epoch": 0.9088958333333333,
      "grad_norm": 0.9392768144607544,
      "learning_rate": 6.152796603272131e-06,
      "loss": 3.3616,
      "step": 436270
    },
    {
      "epoch": 0.9089166666666667,
      "grad_norm": 0.907996654510498,
      "learning_rate": 6.150002317935182e-06,
      "loss": 3.2886,
      "step": 436280
    },
    {
      "epoch": 0.9089375,
      "grad_norm": 0.9657884240150452,
      "learning_rate": 6.147208653973268e-06,
      "loss": 3.2413,
      "step": 436290
    },
    {
      "epoch": 0.9089583333333333,
      "grad_norm": 0.7896006107330322,
      "learning_rate": 6.144415611398495e-06,
      "loss": 3.2856,
      "step": 436300
    },
    {
      "epoch": 0.9089791666666667,
      "grad_norm": 0.8707442879676819,
      "learning_rate": 6.1416231902228885e-06,
      "loss": 3.2259,
      "step": 436310
    },
    {
      "epoch": 0.909,
      "grad_norm": 0.9131249785423279,
      "learning_rate": 6.138831390458521e-06,
      "loss": 3.36,
      "step": 436320
    },
    {
      "epoch": 0.9090208333333333,
      "grad_norm": 0.8465694785118103,
      "learning_rate": 6.136040212117466e-06,
      "loss": 3.3601,
      "step": 436330
    },
    {
      "epoch": 0.9090416666666666,
      "grad_norm": 0.8597617149353027,
      "learning_rate": 6.1332496552117635e-06,
      "loss": 3.3523,
      "step": 436340
    },
    {
      "epoch": 0.9090625,
      "grad_norm": 0.9485359191894531,
      "learning_rate": 6.1304597197534884e-06,
      "loss": 3.3012,
      "step": 436350
    },
    {
      "epoch": 0.9090833333333334,
      "grad_norm": 0.9184397459030151,
      "learning_rate": 6.127670405754665e-06,
      "loss": 3.3831,
      "step": 436360
    },
    {
      "epoch": 0.9091041666666667,
      "grad_norm": 0.9239038228988647,
      "learning_rate": 6.1248817132273645e-06,
      "loss": 3.3317,
      "step": 436370
    },
    {
      "epoch": 0.909125,
      "grad_norm": 0.8032963275909424,
      "learning_rate": 6.122093642183629e-06,
      "loss": 3.2047,
      "step": 436380
    },
    {
      "epoch": 0.9091458333333333,
      "grad_norm": 0.9537708759307861,
      "learning_rate": 6.119306192635498e-06,
      "loss": 3.2301,
      "step": 436390
    },
    {
      "epoch": 0.9091666666666667,
      "grad_norm": 0.9811633229255676,
      "learning_rate": 6.116519364595013e-06,
      "loss": 3.3665,
      "step": 436400
    },
    {
      "epoch": 0.9091875,
      "grad_norm": 0.9364347457885742,
      "learning_rate": 6.1137331580742134e-06,
      "loss": 3.206,
      "step": 436410
    },
    {
      "epoch": 0.9092083333333333,
      "grad_norm": 0.9680519104003906,
      "learning_rate": 6.110947573085123e-06,
      "loss": 3.3745,
      "step": 436420
    },
    {
      "epoch": 0.9092291666666666,
      "grad_norm": 0.9320257902145386,
      "learning_rate": 6.108162609639783e-06,
      "loss": 3.2621,
      "step": 436430
    },
    {
      "epoch": 0.90925,
      "grad_norm": 0.9474610686302185,
      "learning_rate": 6.105378267750232e-06,
      "loss": 3.2832,
      "step": 436440
    },
    {
      "epoch": 0.9092708333333334,
      "grad_norm": 0.9696785807609558,
      "learning_rate": 6.10259454742848e-06,
      "loss": 3.3393,
      "step": 436450
    },
    {
      "epoch": 0.9092916666666667,
      "grad_norm": 0.8880659937858582,
      "learning_rate": 6.099811448686565e-06,
      "loss": 3.3456,
      "step": 436460
    },
    {
      "epoch": 0.9093125,
      "grad_norm": 0.8404533267021179,
      "learning_rate": 6.09702897153651e-06,
      "loss": 3.2832,
      "step": 436470
    },
    {
      "epoch": 0.9093333333333333,
      "grad_norm": 0.9738982915878296,
      "learning_rate": 6.094247115990325e-06,
      "loss": 3.2933,
      "step": 436480
    },
    {
      "epoch": 0.9093541666666667,
      "grad_norm": 1.0132776498794556,
      "learning_rate": 6.0914658820600315e-06,
      "loss": 3.3072,
      "step": 436490
    },
    {
      "epoch": 0.909375,
      "grad_norm": 0.950800895690918,
      "learning_rate": 6.088685269757654e-06,
      "loss": 3.261,
      "step": 436500
    },
    {
      "epoch": 0.9093958333333333,
      "grad_norm": 0.9559189677238464,
      "learning_rate": 6.085905279095166e-06,
      "loss": 3.3109,
      "step": 436510
    },
    {
      "epoch": 0.9094166666666667,
      "grad_norm": 0.9620965719223022,
      "learning_rate": 6.083125910084624e-06,
      "loss": 3.3884,
      "step": 436520
    },
    {
      "epoch": 0.9094375,
      "grad_norm": 0.9122584462165833,
      "learning_rate": 6.08034716273802e-06,
      "loss": 3.2662,
      "step": 436530
    },
    {
      "epoch": 0.9094583333333334,
      "grad_norm": 0.9652930498123169,
      "learning_rate": 6.077569037067326e-06,
      "loss": 3.2644,
      "step": 436540
    },
    {
      "epoch": 0.9094791666666666,
      "grad_norm": 0.9608067870140076,
      "learning_rate": 6.0747915330845664e-06,
      "loss": 3.3512,
      "step": 436550
    },
    {
      "epoch": 0.9095,
      "grad_norm": 0.90313321352005,
      "learning_rate": 6.072014650801765e-06,
      "loss": 3.4134,
      "step": 436560
    },
    {
      "epoch": 0.9095208333333333,
      "grad_norm": 0.9739154577255249,
      "learning_rate": 6.069238390230846e-06,
      "loss": 3.3551,
      "step": 436570
    },
    {
      "epoch": 0.9095416666666667,
      "grad_norm": 0.9207938313484192,
      "learning_rate": 6.0664627513838655e-06,
      "loss": 3.2717,
      "step": 436580
    },
    {
      "epoch": 0.9095625,
      "grad_norm": 1.0450948476791382,
      "learning_rate": 6.063687734272816e-06,
      "loss": 3.3346,
      "step": 436590
    },
    {
      "epoch": 0.9095833333333333,
      "grad_norm": 1.212389349937439,
      "learning_rate": 6.060913338909651e-06,
      "loss": 3.3582,
      "step": 436600
    },
    {
      "epoch": 0.9096041666666667,
      "grad_norm": 1.0016576051712036,
      "learning_rate": 6.05813956530633e-06,
      "loss": 3.2776,
      "step": 436610
    },
    {
      "epoch": 0.909625,
      "grad_norm": 0.9914155602455139,
      "learning_rate": 6.05536641347491e-06,
      "loss": 3.2902,
      "step": 436620
    },
    {
      "epoch": 0.9096458333333334,
      "grad_norm": 0.8983315825462341,
      "learning_rate": 6.052593883427315e-06,
      "loss": 3.3096,
      "step": 436630
    },
    {
      "epoch": 0.9096666666666666,
      "grad_norm": 0.9958741664886475,
      "learning_rate": 6.049821975175517e-06,
      "loss": 3.458,
      "step": 436640
    },
    {
      "epoch": 0.9096875,
      "grad_norm": 0.9433377385139465,
      "learning_rate": 6.0470506887315586e-06,
      "loss": 3.3579,
      "step": 436650
    },
    {
      "epoch": 0.9097083333333333,
      "grad_norm": 2.0709848403930664,
      "learning_rate": 6.044280024107329e-06,
      "loss": 3.3491,
      "step": 436660
    },
    {
      "epoch": 0.9097291666666667,
      "grad_norm": 0.9121838212013245,
      "learning_rate": 6.041509981314819e-06,
      "loss": 3.3179,
      "step": 436670
    },
    {
      "epoch": 0.90975,
      "grad_norm": 0.956332802772522,
      "learning_rate": 6.038740560366017e-06,
      "loss": 3.339,
      "step": 436680
    },
    {
      "epoch": 0.9097708333333333,
      "grad_norm": 0.9300310611724854,
      "learning_rate": 6.035971761272867e-06,
      "loss": 3.3304,
      "step": 436690
    },
    {
      "epoch": 0.9097916666666667,
      "grad_norm": 0.921942949295044,
      "learning_rate": 6.033203584047341e-06,
      "loss": 3.3106,
      "step": 436700
    },
    {
      "epoch": 0.9098125,
      "grad_norm": 0.9524144530296326,
      "learning_rate": 6.030436028701379e-06,
      "loss": 3.3534,
      "step": 436710
    },
    {
      "epoch": 0.9098333333333334,
      "grad_norm": 0.8719142079353333,
      "learning_rate": 6.027669095246957e-06,
      "loss": 3.2717,
      "step": 436720
    },
    {
      "epoch": 0.9098541666666666,
      "grad_norm": 0.9625920653343201,
      "learning_rate": 6.024902783696011e-06,
      "loss": 3.2674,
      "step": 436730
    },
    {
      "epoch": 0.909875,
      "grad_norm": 1.007280945777893,
      "learning_rate": 6.022137094060486e-06,
      "loss": 3.3278,
      "step": 436740
    },
    {
      "epoch": 0.9098958333333333,
      "grad_norm": 0.8867536187171936,
      "learning_rate": 6.019372026352353e-06,
      "loss": 3.1753,
      "step": 436750
    },
    {
      "epoch": 0.9099166666666667,
      "grad_norm": 0.9558099508285522,
      "learning_rate": 6.016607580583538e-06,
      "loss": 3.249,
      "step": 436760
    },
    {
      "epoch": 0.9099375,
      "grad_norm": 0.9480077028274536,
      "learning_rate": 6.013843756765979e-06,
      "loss": 3.2632,
      "step": 436770
    },
    {
      "epoch": 0.9099583333333333,
      "grad_norm": 0.847557008266449,
      "learning_rate": 6.011080554911635e-06,
      "loss": 3.242,
      "step": 436780
    },
    {
      "epoch": 0.9099791666666667,
      "grad_norm": 0.9286337494850159,
      "learning_rate": 6.008317975032412e-06,
      "loss": 3.3468,
      "step": 436790
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8446577191352844,
      "learning_rate": 6.0055560171402675e-06,
      "loss": 3.2662,
      "step": 436800
    },
    {
      "epoch": 0.9100208333333333,
      "grad_norm": 0.921602189540863,
      "learning_rate": 6.002794681247125e-06,
      "loss": 3.3325,
      "step": 436810
    },
    {
      "epoch": 0.9100416666666666,
      "grad_norm": 0.8659736514091492,
      "learning_rate": 6.000033967364909e-06,
      "loss": 3.2929,
      "step": 436820
    },
    {
      "epoch": 0.9100625,
      "grad_norm": 0.9437606930732727,
      "learning_rate": 5.997273875505543e-06,
      "loss": 3.3857,
      "step": 436830
    },
    {
      "epoch": 0.9100833333333334,
      "grad_norm": 0.9920279383659363,
      "learning_rate": 5.994514405680967e-06,
      "loss": 3.2712,
      "step": 436840
    },
    {
      "epoch": 0.9101041666666667,
      "grad_norm": 0.967510998249054,
      "learning_rate": 5.991755557903072e-06,
      "loss": 3.2452,
      "step": 436850
    },
    {
      "epoch": 0.910125,
      "grad_norm": 0.898041307926178,
      "learning_rate": 5.988997332183798e-06,
      "loss": 3.2482,
      "step": 436860
    },
    {
      "epoch": 0.9101458333333333,
      "grad_norm": 0.8868246674537659,
      "learning_rate": 5.986239728535053e-06,
      "loss": 3.3735,
      "step": 436870
    },
    {
      "epoch": 0.9101666666666667,
      "grad_norm": 1.004517674446106,
      "learning_rate": 5.9834827469687595e-06,
      "loss": 3.275,
      "step": 436880
    },
    {
      "epoch": 0.9101875,
      "grad_norm": 0.9338811635971069,
      "learning_rate": 5.980726387496793e-06,
      "loss": 3.3455,
      "step": 436890
    },
    {
      "epoch": 0.9102083333333333,
      "grad_norm": 0.907564640045166,
      "learning_rate": 5.977970650131092e-06,
      "loss": 3.2433,
      "step": 436900
    },
    {
      "epoch": 0.9102291666666666,
      "grad_norm": 0.9804390072822571,
      "learning_rate": 5.975215534883565e-06,
      "loss": 3.3816,
      "step": 436910
    },
    {
      "epoch": 0.91025,
      "grad_norm": 0.8560818433761597,
      "learning_rate": 5.972461041766052e-06,
      "loss": 3.2734,
      "step": 436920
    },
    {
      "epoch": 0.9102708333333334,
      "grad_norm": 1.0519757270812988,
      "learning_rate": 5.9697071707905445e-06,
      "loss": 3.3818,
      "step": 436930
    },
    {
      "epoch": 0.9102916666666667,
      "grad_norm": 0.8886669874191284,
      "learning_rate": 5.966953921968881e-06,
      "loss": 3.2698,
      "step": 436940
    },
    {
      "epoch": 0.9103125,
      "grad_norm": 0.9223017692565918,
      "learning_rate": 5.964201295312937e-06,
      "loss": 3.3464,
      "step": 436950
    },
    {
      "epoch": 0.9103333333333333,
      "grad_norm": 1.0256775617599487,
      "learning_rate": 5.961449290834669e-06,
      "loss": 3.2534,
      "step": 436960
    },
    {
      "epoch": 0.9103541666666667,
      "grad_norm": 0.8517196178436279,
      "learning_rate": 5.958697908545901e-06,
      "loss": 3.2649,
      "step": 436970
    },
    {
      "epoch": 0.910375,
      "grad_norm": 0.9548324346542358,
      "learning_rate": 5.95594714845854e-06,
      "loss": 3.4221,
      "step": 436980
    },
    {
      "epoch": 0.9103958333333333,
      "grad_norm": 0.905132532119751,
      "learning_rate": 5.9531970105844925e-06,
      "loss": 3.3468,
      "step": 436990
    },
    {
      "epoch": 0.9104166666666667,
      "grad_norm": 1.02146315574646,
      "learning_rate": 5.950447494935601e-06,
      "loss": 3.2751,
      "step": 437000
    },
    {
      "epoch": 0.9104166666666667,
      "eval_loss": 4.021629810333252,
      "eval_runtime": 8.0453,
      "eval_samples_per_second": 1.243,
      "eval_steps_per_second": 0.373,
      "step": 437000
    },
    {
      "epoch": 0.9104375,
      "grad_norm": 0.8891195058822632,
      "learning_rate": 5.947698601523737e-06,
      "loss": 3.2861,
      "step": 437010
    },
    {
      "epoch": 0.9104583333333334,
      "grad_norm": 0.900158166885376,
      "learning_rate": 5.944950330360843e-06,
      "loss": 3.3761,
      "step": 437020
    },
    {
      "epoch": 0.9104791666666666,
      "grad_norm": 0.9305882453918457,
      "learning_rate": 5.942202681458708e-06,
      "loss": 3.3039,
      "step": 437030
    },
    {
      "epoch": 0.9105,
      "grad_norm": 0.94062739610672,
      "learning_rate": 5.939455654829222e-06,
      "loss": 3.3286,
      "step": 437040
    },
    {
      "epoch": 0.9105208333333333,
      "grad_norm": 0.993198037147522,
      "learning_rate": 5.936709250484312e-06,
      "loss": 3.3277,
      "step": 437050
    },
    {
      "epoch": 0.9105416666666667,
      "grad_norm": 0.886796236038208,
      "learning_rate": 5.933963468435765e-06,
      "loss": 3.1777,
      "step": 437060
    },
    {
      "epoch": 0.9105625,
      "grad_norm": 0.9115641117095947,
      "learning_rate": 5.931218308695473e-06,
      "loss": 3.33,
      "step": 437070
    },
    {
      "epoch": 0.9105833333333333,
      "grad_norm": 1.066666841506958,
      "learning_rate": 5.928473771275294e-06,
      "loss": 3.2683,
      "step": 437080
    },
    {
      "epoch": 0.9106041666666667,
      "grad_norm": 0.9613410234451294,
      "learning_rate": 5.925729856187067e-06,
      "loss": 3.347,
      "step": 437090
    },
    {
      "epoch": 0.910625,
      "grad_norm": 0.914828360080719,
      "learning_rate": 5.9229865634426835e-06,
      "loss": 3.2748,
      "step": 437100
    },
    {
      "epoch": 0.9106458333333334,
      "grad_norm": 1.03469717502594,
      "learning_rate": 5.92024389305395e-06,
      "loss": 3.2401,
      "step": 437110
    },
    {
      "epoch": 0.9106666666666666,
      "grad_norm": 1.0281490087509155,
      "learning_rate": 5.917501845032741e-06,
      "loss": 3.3846,
      "step": 437120
    },
    {
      "epoch": 0.9106875,
      "grad_norm": 0.9037110805511475,
      "learning_rate": 5.91476041939088e-06,
      "loss": 3.1749,
      "step": 437130
    },
    {
      "epoch": 0.9107083333333333,
      "grad_norm": 0.9532030820846558,
      "learning_rate": 5.91201961614024e-06,
      "loss": 3.3601,
      "step": 437140
    },
    {
      "epoch": 0.9107291666666667,
      "grad_norm": 1.0800271034240723,
      "learning_rate": 5.90927943529263e-06,
      "loss": 3.279,
      "step": 437150
    },
    {
      "epoch": 0.91075,
      "grad_norm": 0.93452388048172,
      "learning_rate": 5.9065398768598896e-06,
      "loss": 3.2714,
      "step": 437160
    },
    {
      "epoch": 0.9107708333333333,
      "grad_norm": 0.9629294276237488,
      "learning_rate": 5.903800940853876e-06,
      "loss": 3.4252,
      "step": 437170
    },
    {
      "epoch": 0.9107916666666667,
      "grad_norm": 0.9174773097038269,
      "learning_rate": 5.901062627286396e-06,
      "loss": 3.3679,
      "step": 437180
    },
    {
      "epoch": 0.9108125,
      "grad_norm": 0.8376865386962891,
      "learning_rate": 5.898324936169307e-06,
      "loss": 3.2679,
      "step": 437190
    },
    {
      "epoch": 0.9108333333333334,
      "grad_norm": 0.9928872585296631,
      "learning_rate": 5.8955878675143845e-06,
      "loss": 3.3736,
      "step": 437200
    },
    {
      "epoch": 0.9108541666666666,
      "grad_norm": 0.9660317897796631,
      "learning_rate": 5.8928514213334834e-06,
      "loss": 3.3326,
      "step": 437210
    },
    {
      "epoch": 0.910875,
      "grad_norm": 0.8509862422943115,
      "learning_rate": 5.8901155976384615e-06,
      "loss": 3.2645,
      "step": 437220
    },
    {
      "epoch": 0.9108958333333333,
      "grad_norm": 0.8709909915924072,
      "learning_rate": 5.8873803964410435e-06,
      "loss": 3.349,
      "step": 437230
    },
    {
      "epoch": 0.9109166666666667,
      "grad_norm": 0.9680290222167969,
      "learning_rate": 5.884645817753136e-06,
      "loss": 3.2977,
      "step": 437240
    },
    {
      "epoch": 0.9109375,
      "grad_norm": 0.9597304463386536,
      "learning_rate": 5.881911861586514e-06,
      "loss": 3.3606,
      "step": 437250
    },
    {
      "epoch": 0.9109583333333333,
      "grad_norm": 0.9793194532394409,
      "learning_rate": 5.8791785279529655e-06,
      "loss": 3.4013,
      "step": 437260
    },
    {
      "epoch": 0.9109791666666667,
      "grad_norm": 0.9275497794151306,
      "learning_rate": 5.876445816864334e-06,
      "loss": 3.2621,
      "step": 437270
    },
    {
      "epoch": 0.911,
      "grad_norm": 0.9075844287872314,
      "learning_rate": 5.873713728332408e-06,
      "loss": 3.3123,
      "step": 437280
    },
    {
      "epoch": 0.9110208333333333,
      "grad_norm": 0.9326216578483582,
      "learning_rate": 5.870982262368978e-06,
      "loss": 3.2309,
      "step": 437290
    },
    {
      "epoch": 0.9110416666666666,
      "grad_norm": 1.0103036165237427,
      "learning_rate": 5.86825141898587e-06,
      "loss": 3.2684,
      "step": 437300
    },
    {
      "epoch": 0.9110625,
      "grad_norm": 1.0117084980010986,
      "learning_rate": 5.865521198194856e-06,
      "loss": 3.2234,
      "step": 437310
    },
    {
      "epoch": 0.9110833333333334,
      "grad_norm": 0.839690089225769,
      "learning_rate": 5.862791600007727e-06,
      "loss": 3.4395,
      "step": 437320
    },
    {
      "epoch": 0.9111041666666667,
      "grad_norm": 0.9559202790260315,
      "learning_rate": 5.860062624436307e-06,
      "loss": 3.3153,
      "step": 437330
    },
    {
      "epoch": 0.911125,
      "grad_norm": 0.9140729904174805,
      "learning_rate": 5.857334271492353e-06,
      "loss": 3.3347,
      "step": 437340
    },
    {
      "epoch": 0.9111458333333333,
      "grad_norm": 0.926682710647583,
      "learning_rate": 5.8546065411876395e-06,
      "loss": 3.3063,
      "step": 437350
    },
    {
      "epoch": 0.9111666666666667,
      "grad_norm": 0.9688672423362732,
      "learning_rate": 5.851879433534007e-06,
      "loss": 3.3785,
      "step": 437360
    },
    {
      "epoch": 0.9111875,
      "grad_norm": 0.8911429047584534,
      "learning_rate": 5.849152948543178e-06,
      "loss": 3.3683,
      "step": 437370
    },
    {
      "epoch": 0.9112083333333333,
      "grad_norm": 0.9988500475883484,
      "learning_rate": 5.846427086226929e-06,
      "loss": 3.3375,
      "step": 437380
    },
    {
      "epoch": 0.9112291666666666,
      "grad_norm": 0.9178998470306396,
      "learning_rate": 5.843701846597099e-06,
      "loss": 3.2956,
      "step": 437390
    },
    {
      "epoch": 0.91125,
      "grad_norm": 0.9194473624229431,
      "learning_rate": 5.840977229665394e-06,
      "loss": 3.3081,
      "step": 437400
    },
    {
      "epoch": 0.9112708333333334,
      "grad_norm": 0.8834182024002075,
      "learning_rate": 5.838253235443574e-06,
      "loss": 3.2409,
      "step": 437410
    },
    {
      "epoch": 0.9112916666666667,
      "grad_norm": 0.904677152633667,
      "learning_rate": 5.835529863943495e-06,
      "loss": 3.2734,
      "step": 437420
    },
    {
      "epoch": 0.9113125,
      "grad_norm": 0.870380699634552,
      "learning_rate": 5.83280711517683e-06,
      "loss": 3.3032,
      "step": 437430
    },
    {
      "epoch": 0.9113333333333333,
      "grad_norm": 0.8938561677932739,
      "learning_rate": 5.83008498915537e-06,
      "loss": 3.3156,
      "step": 437440
    },
    {
      "epoch": 0.9113541666666667,
      "grad_norm": 0.9076077342033386,
      "learning_rate": 5.8273634858908905e-06,
      "loss": 3.4157,
      "step": 437450
    },
    {
      "epoch": 0.911375,
      "grad_norm": 0.973690390586853,
      "learning_rate": 5.82464260539513e-06,
      "loss": 3.3307,
      "step": 437460
    },
    {
      "epoch": 0.9113958333333333,
      "grad_norm": 0.8862633109092712,
      "learning_rate": 5.82192234767983e-06,
      "loss": 3.2307,
      "step": 437470
    },
    {
      "epoch": 0.9114166666666667,
      "grad_norm": 0.9513511061668396,
      "learning_rate": 5.819202712756765e-06,
      "loss": 3.1782,
      "step": 437480
    },
    {
      "epoch": 0.9114375,
      "grad_norm": 0.9144588708877563,
      "learning_rate": 5.816483700637692e-06,
      "loss": 3.3337,
      "step": 437490
    },
    {
      "epoch": 0.9114583333333334,
      "grad_norm": 0.9014863967895508,
      "learning_rate": 5.813765311334317e-06,
      "loss": 3.2485,
      "step": 437500
    },
    {
      "epoch": 0.9114791666666666,
      "grad_norm": 0.8586651682853699,
      "learning_rate": 5.811047544858399e-06,
      "loss": 3.2601,
      "step": 437510
    },
    {
      "epoch": 0.9115,
      "grad_norm": 0.9578246474266052,
      "learning_rate": 5.808330401221694e-06,
      "loss": 3.3696,
      "step": 437520
    },
    {
      "epoch": 0.9115208333333333,
      "grad_norm": 0.9383635520935059,
      "learning_rate": 5.8056138804359445e-06,
      "loss": 3.4266,
      "step": 437530
    },
    {
      "epoch": 0.9115416666666667,
      "grad_norm": 0.9685607552528381,
      "learning_rate": 5.802897982512822e-06,
      "loss": 3.2961,
      "step": 437540
    },
    {
      "epoch": 0.9115625,
      "grad_norm": 1.0055080652236938,
      "learning_rate": 5.800182707464118e-06,
      "loss": 3.3781,
      "step": 437550
    },
    {
      "epoch": 0.9115833333333333,
      "grad_norm": 0.9451366662979126,
      "learning_rate": 5.797468055301574e-06,
      "loss": 3.3112,
      "step": 437560
    },
    {
      "epoch": 0.9116041666666667,
      "grad_norm": 1.0779625177383423,
      "learning_rate": 5.794754026036863e-06,
      "loss": 3.2509,
      "step": 437570
    },
    {
      "epoch": 0.911625,
      "grad_norm": 1.0881444215774536,
      "learning_rate": 5.792040619681726e-06,
      "loss": 3.3886,
      "step": 437580
    },
    {
      "epoch": 0.9116458333333334,
      "grad_norm": 1.0267879962921143,
      "learning_rate": 5.789327836247937e-06,
      "loss": 3.3881,
      "step": 437590
    },
    {
      "epoch": 0.9116666666666666,
      "grad_norm": 0.9072718024253845,
      "learning_rate": 5.7866156757471195e-06,
      "loss": 3.2459,
      "step": 437600
    },
    {
      "epoch": 0.9116875,
      "grad_norm": 0.9706472754478455,
      "learning_rate": 5.783904138191048e-06,
      "loss": 3.3026,
      "step": 437610
    },
    {
      "epoch": 0.9117083333333333,
      "grad_norm": 0.9323813319206238,
      "learning_rate": 5.781193223591462e-06,
      "loss": 3.299,
      "step": 437620
    },
    {
      "epoch": 0.9117291666666667,
      "grad_norm": 0.8432517051696777,
      "learning_rate": 5.778482931959988e-06,
      "loss": 3.3617,
      "step": 437630
    },
    {
      "epoch": 0.91175,
      "grad_norm": 0.9682257771492004,
      "learning_rate": 5.775773263308398e-06,
      "loss": 3.2172,
      "step": 437640
    },
    {
      "epoch": 0.9117708333333333,
      "grad_norm": 0.9317070841789246,
      "learning_rate": 5.773064217648399e-06,
      "loss": 3.3544,
      "step": 437650
    },
    {
      "epoch": 0.9117916666666667,
      "grad_norm": 1.0004889965057373,
      "learning_rate": 5.770355794991649e-06,
      "loss": 3.2595,
      "step": 437660
    },
    {
      "epoch": 0.9118125,
      "grad_norm": 0.9711434245109558,
      "learning_rate": 5.767647995349889e-06,
      "loss": 3.2645,
      "step": 437670
    },
    {
      "epoch": 0.9118333333333334,
      "grad_norm": 0.9162070751190186,
      "learning_rate": 5.764940818734792e-06,
      "loss": 3.3289,
      "step": 437680
    },
    {
      "epoch": 0.9118541666666666,
      "grad_norm": 1.0775940418243408,
      "learning_rate": 5.762234265158033e-06,
      "loss": 3.3714,
      "step": 437690
    },
    {
      "epoch": 0.911875,
      "grad_norm": 1.0285639762878418,
      "learning_rate": 5.759528334631369e-06,
      "loss": 3.335,
      "step": 437700
    },
    {
      "epoch": 0.9118958333333333,
      "grad_norm": 0.9580645561218262,
      "learning_rate": 5.7568230271664406e-06,
      "loss": 3.342,
      "step": 437710
    },
    {
      "epoch": 0.9119166666666667,
      "grad_norm": 0.889240562915802,
      "learning_rate": 5.754118342774921e-06,
      "loss": 3.3248,
      "step": 437720
    },
    {
      "epoch": 0.9119375,
      "grad_norm": 0.847479522228241,
      "learning_rate": 5.751414281468536e-06,
      "loss": 3.2779,
      "step": 437730
    },
    {
      "epoch": 0.9119583333333333,
      "grad_norm": 0.9697388410568237,
      "learning_rate": 5.748710843258925e-06,
      "loss": 3.3335,
      "step": 437740
    },
    {
      "epoch": 0.9119791666666667,
      "grad_norm": 0.8856005668640137,
      "learning_rate": 5.746008028157778e-06,
      "loss": 3.3822,
      "step": 437750
    },
    {
      "epoch": 0.912,
      "grad_norm": 0.865759551525116,
      "learning_rate": 5.74330583617682e-06,
      "loss": 3.2582,
      "step": 437760
    },
    {
      "epoch": 0.9120208333333333,
      "grad_norm": 0.8783260583877563,
      "learning_rate": 5.740604267327642e-06,
      "loss": 3.2642,
      "step": 437770
    },
    {
      "epoch": 0.9120416666666666,
      "grad_norm": 1.0219491720199585,
      "learning_rate": 5.737903321621967e-06,
      "loss": 3.1992,
      "step": 437780
    },
    {
      "epoch": 0.9120625,
      "grad_norm": 1.0404003858566284,
      "learning_rate": 5.735202999071436e-06,
      "loss": 3.2131,
      "step": 437790
    },
    {
      "epoch": 0.9120833333333334,
      "grad_norm": 0.8851398825645447,
      "learning_rate": 5.732503299687724e-06,
      "loss": 3.349,
      "step": 437800
    },
    {
      "epoch": 0.9121041666666667,
      "grad_norm": 0.8330620527267456,
      "learning_rate": 5.729804223482503e-06,
      "loss": 3.2869,
      "step": 437810
    },
    {
      "epoch": 0.912125,
      "grad_norm": 0.9666953086853027,
      "learning_rate": 5.727105770467416e-06,
      "loss": 3.2854,
      "step": 437820
    },
    {
      "epoch": 0.9121458333333333,
      "grad_norm": 0.8971735239028931,
      "learning_rate": 5.724407940654119e-06,
      "loss": 3.2981,
      "step": 437830
    },
    {
      "epoch": 0.9121666666666667,
      "grad_norm": 0.8972610831260681,
      "learning_rate": 5.7217107340542855e-06,
      "loss": 3.2358,
      "step": 437840
    },
    {
      "epoch": 0.9121875,
      "grad_norm": 0.9339478611946106,
      "learning_rate": 5.71901415067954e-06,
      "loss": 3.243,
      "step": 437850
    },
    {
      "epoch": 0.9122083333333333,
      "grad_norm": 0.8745353817939758,
      "learning_rate": 5.716318190541541e-06,
      "loss": 3.2927,
      "step": 437860
    },
    {
      "epoch": 0.9122291666666666,
      "grad_norm": 0.9302703142166138,
      "learning_rate": 5.713622853651945e-06,
      "loss": 3.3493,
      "step": 437870
    },
    {
      "epoch": 0.91225,
      "grad_norm": 1.088430643081665,
      "learning_rate": 5.710928140022392e-06,
      "loss": 3.3138,
      "step": 437880
    },
    {
      "epoch": 0.9122708333333334,
      "grad_norm": 0.9354664087295532,
      "learning_rate": 5.708234049664507e-06,
      "loss": 3.2601,
      "step": 437890
    },
    {
      "epoch": 0.9122916666666666,
      "grad_norm": 0.9040539264678955,
      "learning_rate": 5.7055405825899295e-06,
      "loss": 3.2407,
      "step": 437900
    },
    {
      "epoch": 0.9123125,
      "grad_norm": 0.9822077751159668,
      "learning_rate": 5.702847738810301e-06,
      "loss": 3.2132,
      "step": 437910
    },
    {
      "epoch": 0.9123333333333333,
      "grad_norm": 0.8369697332382202,
      "learning_rate": 5.700155518337263e-06,
      "loss": 3.3166,
      "step": 437920
    },
    {
      "epoch": 0.9123541666666667,
      "grad_norm": 0.8962694406509399,
      "learning_rate": 5.697463921182454e-06,
      "loss": 3.2988,
      "step": 437930
    },
    {
      "epoch": 0.912375,
      "grad_norm": 0.907924473285675,
      "learning_rate": 5.694772947357435e-06,
      "loss": 3.3014,
      "step": 437940
    },
    {
      "epoch": 0.9123958333333333,
      "grad_norm": 0.8453598618507385,
      "learning_rate": 5.692082596873909e-06,
      "loss": 3.4386,
      "step": 437950
    },
    {
      "epoch": 0.9124166666666667,
      "grad_norm": 0.9743943810462952,
      "learning_rate": 5.68939286974347e-06,
      "loss": 3.2161,
      "step": 437960
    },
    {
      "epoch": 0.9124375,
      "grad_norm": 0.9402583837509155,
      "learning_rate": 5.686703765977707e-06,
      "loss": 3.3243,
      "step": 437970
    },
    {
      "epoch": 0.9124583333333334,
      "grad_norm": 0.9238540530204773,
      "learning_rate": 5.684015285588278e-06,
      "loss": 3.2628,
      "step": 437980
    },
    {
      "epoch": 0.9124791666666666,
      "grad_norm": 0.8686147332191467,
      "learning_rate": 5.681327428586791e-06,
      "loss": 3.3473,
      "step": 437990
    },
    {
      "epoch": 0.9125,
      "grad_norm": 0.8892989158630371,
      "learning_rate": 5.678640194984801e-06,
      "loss": 3.2734,
      "step": 438000
    },
    {
      "epoch": 0.9125,
      "eval_loss": 4.023833751678467,
      "eval_runtime": 8.2554,
      "eval_samples_per_second": 1.211,
      "eval_steps_per_second": 0.363,
      "step": 438000
    },
    {
      "epoch": 0.9125208333333333,
      "grad_norm": 0.8693966865539551,
      "learning_rate": 5.6759535847939855e-06,
      "loss": 3.1341,
      "step": 438010
    },
    {
      "epoch": 0.9125416666666667,
      "grad_norm": 0.944328784942627,
      "learning_rate": 5.673267598025949e-06,
      "loss": 3.2797,
      "step": 438020
    },
    {
      "epoch": 0.9125625,
      "grad_norm": 0.921217143535614,
      "learning_rate": 5.670582234692217e-06,
      "loss": 3.279,
      "step": 438030
    },
    {
      "epoch": 0.9125833333333333,
      "grad_norm": 0.8386045694351196,
      "learning_rate": 5.66789749480448e-06,
      "loss": 3.3659,
      "step": 438040
    },
    {
      "epoch": 0.9126041666666667,
      "grad_norm": 0.9452437162399292,
      "learning_rate": 5.665213378374295e-06,
      "loss": 3.3794,
      "step": 438050
    },
    {
      "epoch": 0.912625,
      "grad_norm": 0.8813207745552063,
      "learning_rate": 5.662529885413236e-06,
      "loss": 3.3662,
      "step": 438060
    },
    {
      "epoch": 0.9126458333333334,
      "grad_norm": 1.0379730463027954,
      "learning_rate": 5.6598470159329276e-06,
      "loss": 3.2757,
      "step": 438070
    },
    {
      "epoch": 0.9126666666666666,
      "grad_norm": 1.0175739526748657,
      "learning_rate": 5.657164769944927e-06,
      "loss": 3.1834,
      "step": 438080
    },
    {
      "epoch": 0.9126875,
      "grad_norm": 0.8971107602119446,
      "learning_rate": 5.6544831474608585e-06,
      "loss": 3.3974,
      "step": 438090
    },
    {
      "epoch": 0.9127083333333333,
      "grad_norm": 0.8942679762840271,
      "learning_rate": 5.651802148492279e-06,
      "loss": 3.1724,
      "step": 438100
    },
    {
      "epoch": 0.9127291666666667,
      "grad_norm": 0.8800231218338013,
      "learning_rate": 5.6491217730507796e-06,
      "loss": 3.3968,
      "step": 438110
    },
    {
      "epoch": 0.91275,
      "grad_norm": 0.8785920739173889,
      "learning_rate": 5.646442021147934e-06,
      "loss": 3.3418,
      "step": 438120
    },
    {
      "epoch": 0.9127708333333333,
      "grad_norm": 1.080909013748169,
      "learning_rate": 5.643762892795317e-06,
      "loss": 3.3334,
      "step": 438130
    },
    {
      "epoch": 0.9127916666666667,
      "grad_norm": 1.0248990058898926,
      "learning_rate": 5.641084388004519e-06,
      "loss": 3.3473,
      "step": 438140
    },
    {
      "epoch": 0.9128125,
      "grad_norm": 1.0530645847320557,
      "learning_rate": 5.63840650678708e-06,
      "loss": 3.2552,
      "step": 438150
    },
    {
      "epoch": 0.9128333333333334,
      "grad_norm": 0.9891912937164307,
      "learning_rate": 5.635729249154591e-06,
      "loss": 3.2524,
      "step": 438160
    },
    {
      "epoch": 0.9128541666666666,
      "grad_norm": 0.936917781829834,
      "learning_rate": 5.633052615118594e-06,
      "loss": 3.4098,
      "step": 438170
    },
    {
      "epoch": 0.912875,
      "grad_norm": 0.8495137691497803,
      "learning_rate": 5.630376604690678e-06,
      "loss": 3.3392,
      "step": 438180
    },
    {
      "epoch": 0.9128958333333334,
      "grad_norm": 0.9483108520507812,
      "learning_rate": 5.6277012178823856e-06,
      "loss": 3.3651,
      "step": 438190
    },
    {
      "epoch": 0.9129166666666667,
      "grad_norm": 0.9290044903755188,
      "learning_rate": 5.6250264547052896e-06,
      "loss": 3.4516,
      "step": 438200
    },
    {
      "epoch": 0.9129375,
      "grad_norm": 0.9377542734146118,
      "learning_rate": 5.622352315170914e-06,
      "loss": 3.3275,
      "step": 438210
    },
    {
      "epoch": 0.9129583333333333,
      "grad_norm": 0.9151848554611206,
      "learning_rate": 5.6196787992908334e-06,
      "loss": 3.3544,
      "step": 438220
    },
    {
      "epoch": 0.9129791666666667,
      "grad_norm": 0.914214551448822,
      "learning_rate": 5.617005907076605e-06,
      "loss": 3.3725,
      "step": 438230
    },
    {
      "epoch": 0.913,
      "grad_norm": 0.9151312708854675,
      "learning_rate": 5.614333638539736e-06,
      "loss": 3.2151,
      "step": 438240
    },
    {
      "epoch": 0.9130208333333333,
      "grad_norm": 0.9207000136375427,
      "learning_rate": 5.611661993691818e-06,
      "loss": 3.3947,
      "step": 438250
    },
    {
      "epoch": 0.9130416666666666,
      "grad_norm": 0.9071292281150818,
      "learning_rate": 5.608990972544341e-06,
      "loss": 3.1894,
      "step": 438260
    },
    {
      "epoch": 0.9130625,
      "grad_norm": 1.0637286901474,
      "learning_rate": 5.606320575108897e-06,
      "loss": 3.2437,
      "step": 438270
    },
    {
      "epoch": 0.9130833333333334,
      "grad_norm": 0.9513214826583862,
      "learning_rate": 5.603650801396975e-06,
      "loss": 3.2888,
      "step": 438280
    },
    {
      "epoch": 0.9131041666666667,
      "grad_norm": 0.9636541604995728,
      "learning_rate": 5.600981651420133e-06,
      "loss": 3.3958,
      "step": 438290
    },
    {
      "epoch": 0.913125,
      "grad_norm": 0.9900367856025696,
      "learning_rate": 5.598313125189896e-06,
      "loss": 3.3592,
      "step": 438300
    },
    {
      "epoch": 0.9131458333333333,
      "grad_norm": 0.962230920791626,
      "learning_rate": 5.595645222717771e-06,
      "loss": 3.2941,
      "step": 438310
    },
    {
      "epoch": 0.9131666666666667,
      "grad_norm": 0.8857589960098267,
      "learning_rate": 5.5929779440153145e-06,
      "loss": 3.2895,
      "step": 438320
    },
    {
      "epoch": 0.9131875,
      "grad_norm": 1.0083892345428467,
      "learning_rate": 5.590311289094035e-06,
      "loss": 3.2665,
      "step": 438330
    },
    {
      "epoch": 0.9132083333333333,
      "grad_norm": 0.8733034133911133,
      "learning_rate": 5.5876452579654395e-06,
      "loss": 3.1747,
      "step": 438340
    },
    {
      "epoch": 0.9132291666666666,
      "grad_norm": 0.8582608699798584,
      "learning_rate": 5.584979850641053e-06,
      "loss": 3.2446,
      "step": 438350
    },
    {
      "epoch": 0.91325,
      "grad_norm": 0.8737280964851379,
      "learning_rate": 5.5823150671324146e-06,
      "loss": 3.2536,
      "step": 438360
    },
    {
      "epoch": 0.9132708333333334,
      "grad_norm": 0.9561614990234375,
      "learning_rate": 5.579650907450983e-06,
      "loss": 3.2745,
      "step": 438370
    },
    {
      "epoch": 0.9132916666666666,
      "grad_norm": 0.9367362260818481,
      "learning_rate": 5.5769873716082825e-06,
      "loss": 3.4245,
      "step": 438380
    },
    {
      "epoch": 0.9133125,
      "grad_norm": 1.0098179578781128,
      "learning_rate": 5.57432445961587e-06,
      "loss": 3.3233,
      "step": 438390
    },
    {
      "epoch": 0.9133333333333333,
      "grad_norm": 0.9617911577224731,
      "learning_rate": 5.571662171485186e-06,
      "loss": 3.2783,
      "step": 438400
    },
    {
      "epoch": 0.9133541666666667,
      "grad_norm": 0.875903844833374,
      "learning_rate": 5.569000507227739e-06,
      "loss": 3.3639,
      "step": 438410
    },
    {
      "epoch": 0.913375,
      "grad_norm": 0.9163938760757446,
      "learning_rate": 5.566339466855069e-06,
      "loss": 3.2778,
      "step": 438420
    },
    {
      "epoch": 0.9133958333333333,
      "grad_norm": 0.9302999377250671,
      "learning_rate": 5.563679050378633e-06,
      "loss": 3.3128,
      "step": 438430
    },
    {
      "epoch": 0.9134166666666667,
      "grad_norm": 0.8900918364524841,
      "learning_rate": 5.561019257809923e-06,
      "loss": 3.3906,
      "step": 438440
    },
    {
      "epoch": 0.9134375,
      "grad_norm": 0.880928099155426,
      "learning_rate": 5.558360089160446e-06,
      "loss": 3.4331,
      "step": 438450
    },
    {
      "epoch": 0.9134583333333334,
      "grad_norm": 0.9847400784492493,
      "learning_rate": 5.5557015444416765e-06,
      "loss": 3.2674,
      "step": 438460
    },
    {
      "epoch": 0.9134791666666666,
      "grad_norm": 0.8989055752754211,
      "learning_rate": 5.553043623665087e-06,
      "loss": 3.2407,
      "step": 438470
    },
    {
      "epoch": 0.9135,
      "grad_norm": 0.9565597772598267,
      "learning_rate": 5.550386326842188e-06,
      "loss": 3.1998,
      "step": 438480
    },
    {
      "epoch": 0.9135208333333333,
      "grad_norm": 1.0195798873901367,
      "learning_rate": 5.547729653984451e-06,
      "loss": 3.3674,
      "step": 438490
    },
    {
      "epoch": 0.9135416666666667,
      "grad_norm": 0.9364261627197266,
      "learning_rate": 5.545073605103334e-06,
      "loss": 3.1767,
      "step": 438500
    },
    {
      "epoch": 0.9135625,
      "grad_norm": 1.0506089925765991,
      "learning_rate": 5.5424181802103115e-06,
      "loss": 3.203,
      "step": 438510
    },
    {
      "epoch": 0.9135833333333333,
      "grad_norm": 0.8705266118049622,
      "learning_rate": 5.539763379316875e-06,
      "loss": 3.3973,
      "step": 438520
    },
    {
      "epoch": 0.9136041666666667,
      "grad_norm": 0.9132551550865173,
      "learning_rate": 5.537109202434464e-06,
      "loss": 3.3134,
      "step": 438530
    },
    {
      "epoch": 0.913625,
      "grad_norm": 0.9508950710296631,
      "learning_rate": 5.534455649574571e-06,
      "loss": 3.2809,
      "step": 438540
    },
    {
      "epoch": 0.9136458333333334,
      "grad_norm": 0.946988582611084,
      "learning_rate": 5.531802720748652e-06,
      "loss": 3.4149,
      "step": 438550
    },
    {
      "epoch": 0.9136666666666666,
      "grad_norm": 0.9059714078903198,
      "learning_rate": 5.529150415968147e-06,
      "loss": 3.3914,
      "step": 438560
    },
    {
      "epoch": 0.9136875,
      "grad_norm": 0.9103792309761047,
      "learning_rate": 5.526498735244533e-06,
      "loss": 3.3661,
      "step": 438570
    },
    {
      "epoch": 0.9137083333333333,
      "grad_norm": 0.8510427474975586,
      "learning_rate": 5.523847678589249e-06,
      "loss": 3.3002,
      "step": 438580
    },
    {
      "epoch": 0.9137291666666667,
      "grad_norm": 1.018674373626709,
      "learning_rate": 5.5211972460137695e-06,
      "loss": 3.3429,
      "step": 438590
    },
    {
      "epoch": 0.91375,
      "grad_norm": 0.9242531061172485,
      "learning_rate": 5.518547437529519e-06,
      "loss": 3.3013,
      "step": 438600
    },
    {
      "epoch": 0.9137708333333333,
      "grad_norm": 1.1925969123840332,
      "learning_rate": 5.515898253147954e-06,
      "loss": 3.3239,
      "step": 438610
    },
    {
      "epoch": 0.9137916666666667,
      "grad_norm": 0.8351888656616211,
      "learning_rate": 5.513249692880533e-06,
      "loss": 3.2721,
      "step": 438620
    },
    {
      "epoch": 0.9138125,
      "grad_norm": 0.9669509530067444,
      "learning_rate": 5.510601756738664e-06,
      "loss": 3.3995,
      "step": 438630
    },
    {
      "epoch": 0.9138333333333334,
      "grad_norm": 1.0290497541427612,
      "learning_rate": 5.507954444733803e-06,
      "loss": 3.2049,
      "step": 438640
    },
    {
      "epoch": 0.9138541666666666,
      "grad_norm": 0.9403084516525269,
      "learning_rate": 5.505307756877409e-06,
      "loss": 3.3398,
      "step": 438650
    },
    {
      "epoch": 0.913875,
      "grad_norm": 0.969159722328186,
      "learning_rate": 5.502661693180854e-06,
      "loss": 3.3602,
      "step": 438660
    },
    {
      "epoch": 0.9138958333333334,
      "grad_norm": 0.8788617253303528,
      "learning_rate": 5.500016253655648e-06,
      "loss": 3.3739,
      "step": 438670
    },
    {
      "epoch": 0.9139166666666667,
      "grad_norm": 0.9220302700996399,
      "learning_rate": 5.497371438313147e-06,
      "loss": 3.2894,
      "step": 438680
    },
    {
      "epoch": 0.9139375,
      "grad_norm": 0.9677971005439758,
      "learning_rate": 5.494727247164793e-06,
      "loss": 3.4352,
      "step": 438690
    },
    {
      "epoch": 0.9139583333333333,
      "grad_norm": 1.036189317703247,
      "learning_rate": 5.4920836802220425e-06,
      "loss": 3.3596,
      "step": 438700
    },
    {
      "epoch": 0.9139791666666667,
      "grad_norm": 0.9205600023269653,
      "learning_rate": 5.48944073749627e-06,
      "loss": 3.2333,
      "step": 438710
    },
    {
      "epoch": 0.914,
      "grad_norm": 1.0152063369750977,
      "learning_rate": 5.486798418998917e-06,
      "loss": 3.2261,
      "step": 438720
    },
    {
      "epoch": 0.9140208333333333,
      "grad_norm": 0.8858973979949951,
      "learning_rate": 5.484156724741406e-06,
      "loss": 3.2979,
      "step": 438730
    },
    {
      "epoch": 0.9140416666666666,
      "grad_norm": 0.969042956829071,
      "learning_rate": 5.48151565473513e-06,
      "loss": 3.2078,
      "step": 438740
    },
    {
      "epoch": 0.9140625,
      "grad_norm": 0.8754438161849976,
      "learning_rate": 5.478875208991479e-06,
      "loss": 3.4208,
      "step": 438750
    },
    {
      "epoch": 0.9140833333333334,
      "grad_norm": 0.8764966726303101,
      "learning_rate": 5.47623538752191e-06,
      "loss": 3.3742,
      "step": 438760
    },
    {
      "epoch": 0.9141041666666667,
      "grad_norm": 0.8683940768241882,
      "learning_rate": 5.473596190337781e-06,
      "loss": 3.3515,
      "step": 438770
    },
    {
      "epoch": 0.914125,
      "grad_norm": 1.1486848592758179,
      "learning_rate": 5.4709576174505e-06,
      "loss": 3.3265,
      "step": 438780
    },
    {
      "epoch": 0.9141458333333333,
      "grad_norm": 1.1166654825210571,
      "learning_rate": 5.468319668871507e-06,
      "loss": 3.3022,
      "step": 438790
    },
    {
      "epoch": 0.9141666666666667,
      "grad_norm": 0.8760563135147095,
      "learning_rate": 5.4656823446121434e-06,
      "loss": 3.2861,
      "step": 438800
    },
    {
      "epoch": 0.9141875,
      "grad_norm": 0.8968040347099304,
      "learning_rate": 5.4630456446838334e-06,
      "loss": 3.284,
      "step": 438810
    },
    {
      "epoch": 0.9142083333333333,
      "grad_norm": 0.906871497631073,
      "learning_rate": 5.4604095690979345e-06,
      "loss": 3.3567,
      "step": 438820
    },
    {
      "epoch": 0.9142291666666666,
      "grad_norm": 0.8477148413658142,
      "learning_rate": 5.457774117865871e-06,
      "loss": 3.369,
      "step": 438830
    },
    {
      "epoch": 0.91425,
      "grad_norm": 0.9172345995903015,
      "learning_rate": 5.455139290999e-06,
      "loss": 3.2624,
      "step": 438840
    },
    {
      "epoch": 0.9142708333333334,
      "grad_norm": 1.0802265405654907,
      "learning_rate": 5.452505088508713e-06,
      "loss": 3.4299,
      "step": 438850
    },
    {
      "epoch": 0.9142916666666666,
      "grad_norm": 0.8741434216499329,
      "learning_rate": 5.449871510406384e-06,
      "loss": 3.2271,
      "step": 438860
    },
    {
      "epoch": 0.9143125,
      "grad_norm": 0.9054870009422302,
      "learning_rate": 5.447238556703404e-06,
      "loss": 3.3568,
      "step": 438870
    },
    {
      "epoch": 0.9143333333333333,
      "grad_norm": 0.9889432787895203,
      "learning_rate": 5.4446062274111305e-06,
      "loss": 3.3675,
      "step": 438880
    },
    {
      "epoch": 0.9143541666666667,
      "grad_norm": 1.1800377368927002,
      "learning_rate": 5.4419745225409375e-06,
      "loss": 3.3469,
      "step": 438890
    },
    {
      "epoch": 0.914375,
      "grad_norm": 0.8676803708076477,
      "learning_rate": 5.439343442104199e-06,
      "loss": 3.3057,
      "step": 438900
    },
    {
      "epoch": 0.9143958333333333,
      "grad_norm": 1.1049803495407104,
      "learning_rate": 5.436712986112274e-06,
      "loss": 3.4658,
      "step": 438910
    },
    {
      "epoch": 0.9144166666666667,
      "grad_norm": 0.9324194192886353,
      "learning_rate": 5.4340831545765184e-06,
      "loss": 3.329,
      "step": 438920
    },
    {
      "epoch": 0.9144375,
      "grad_norm": 0.8516438603401184,
      "learning_rate": 5.431453947508307e-06,
      "loss": 3.2577,
      "step": 438930
    },
    {
      "epoch": 0.9144583333333334,
      "grad_norm": 0.9655815362930298,
      "learning_rate": 5.428825364918981e-06,
      "loss": 3.4227,
      "step": 438940
    },
    {
      "epoch": 0.9144791666666666,
      "grad_norm": 0.9160993695259094,
      "learning_rate": 5.426197406819915e-06,
      "loss": 3.4146,
      "step": 438950
    },
    {
      "epoch": 0.9145,
      "grad_norm": 0.9137798547744751,
      "learning_rate": 5.423570073222467e-06,
      "loss": 3.3071,
      "step": 438960
    },
    {
      "epoch": 0.9145208333333333,
      "grad_norm": 0.939952552318573,
      "learning_rate": 5.420943364137942e-06,
      "loss": 3.366,
      "step": 438970
    },
    {
      "epoch": 0.9145416666666667,
      "grad_norm": 1.2144232988357544,
      "learning_rate": 5.418317279577716e-06,
      "loss": 3.3536,
      "step": 438980
    },
    {
      "epoch": 0.9145625,
      "grad_norm": 0.8591447472572327,
      "learning_rate": 5.415691819553147e-06,
      "loss": 3.373,
      "step": 438990
    },
    {
      "epoch": 0.9145833333333333,
      "grad_norm": 0.904243528842926,
      "learning_rate": 5.413066984075542e-06,
      "loss": 3.2237,
      "step": 439000
    },
    {
      "epoch": 0.9145833333333333,
      "eval_loss": 4.024550437927246,
      "eval_runtime": 8.6192,
      "eval_samples_per_second": 1.16,
      "eval_steps_per_second": 0.348,
      "step": 439000
    },
    {
      "epoch": 0.9146041666666667,
      "grad_norm": 0.8719509840011597,
      "learning_rate": 5.41044277315626e-06,
      "loss": 3.2922,
      "step": 439010
    },
    {
      "epoch": 0.914625,
      "grad_norm": 0.9218117594718933,
      "learning_rate": 5.407819186806656e-06,
      "loss": 3.4458,
      "step": 439020
    },
    {
      "epoch": 0.9146458333333334,
      "grad_norm": 0.9122639298439026,
      "learning_rate": 5.405196225037989e-06,
      "loss": 3.3126,
      "step": 439030
    },
    {
      "epoch": 0.9146666666666666,
      "grad_norm": 0.9289731979370117,
      "learning_rate": 5.402573887861683e-06,
      "loss": 3.1611,
      "step": 439040
    },
    {
      "epoch": 0.9146875,
      "grad_norm": 0.9624453186988831,
      "learning_rate": 5.3999521752890125e-06,
      "loss": 3.2659,
      "step": 439050
    },
    {
      "epoch": 0.9147083333333333,
      "grad_norm": 1.0042479038238525,
      "learning_rate": 5.397331087331286e-06,
      "loss": 3.3301,
      "step": 439060
    },
    {
      "epoch": 0.9147291666666667,
      "grad_norm": 0.9065821766853333,
      "learning_rate": 5.394710623999893e-06,
      "loss": 3.3192,
      "step": 439070
    },
    {
      "epoch": 0.91475,
      "grad_norm": 0.9726762771606445,
      "learning_rate": 5.392090785306091e-06,
      "loss": 3.2459,
      "step": 439080
    },
    {
      "epoch": 0.9147708333333333,
      "grad_norm": 0.9527453780174255,
      "learning_rate": 5.389471571261206e-06,
      "loss": 3.2519,
      "step": 439090
    },
    {
      "epoch": 0.9147916666666667,
      "grad_norm": 0.992215633392334,
      "learning_rate": 5.386852981876594e-06,
      "loss": 3.3892,
      "step": 439100
    },
    {
      "epoch": 0.9148125,
      "grad_norm": 0.8505746126174927,
      "learning_rate": 5.384235017163513e-06,
      "loss": 3.3226,
      "step": 439110
    },
    {
      "epoch": 0.9148333333333334,
      "grad_norm": 1.0265170335769653,
      "learning_rate": 5.381617677133271e-06,
      "loss": 3.4296,
      "step": 439120
    },
    {
      "epoch": 0.9148541666666666,
      "grad_norm": 1.0079772472381592,
      "learning_rate": 5.379000961797242e-06,
      "loss": 3.2591,
      "step": 439130
    },
    {
      "epoch": 0.914875,
      "grad_norm": 1.059249997138977,
      "learning_rate": 5.376384871166667e-06,
      "loss": 3.2879,
      "step": 439140
    },
    {
      "epoch": 0.9148958333333334,
      "grad_norm": 0.9705321788787842,
      "learning_rate": 5.373769405252837e-06,
      "loss": 3.3294,
      "step": 439150
    },
    {
      "epoch": 0.9149166666666667,
      "grad_norm": 0.9132830500602722,
      "learning_rate": 5.371154564067126e-06,
      "loss": 3.2467,
      "step": 439160
    },
    {
      "epoch": 0.9149375,
      "grad_norm": 1.074169635772705,
      "learning_rate": 5.3685403476207424e-06,
      "loss": 3.3265,
      "step": 439170
    },
    {
      "epoch": 0.9149583333333333,
      "grad_norm": 1.0619251728057861,
      "learning_rate": 5.365926755925026e-06,
      "loss": 3.203,
      "step": 439180
    },
    {
      "epoch": 0.9149791666666667,
      "grad_norm": 0.8484320640563965,
      "learning_rate": 5.363313788991253e-06,
      "loss": 3.3136,
      "step": 439190
    },
    {
      "epoch": 0.915,
      "grad_norm": 0.8743394613265991,
      "learning_rate": 5.360701446830728e-06,
      "loss": 3.3232,
      "step": 439200
    },
    {
      "epoch": 0.9150208333333333,
      "grad_norm": 0.9599677324295044,
      "learning_rate": 5.358089729454696e-06,
      "loss": 3.2633,
      "step": 439210
    },
    {
      "epoch": 0.9150416666666666,
      "grad_norm": 0.9950183033943176,
      "learning_rate": 5.3554786368744775e-06,
      "loss": 3.3868,
      "step": 439220
    },
    {
      "epoch": 0.9150625,
      "grad_norm": 0.9774691462516785,
      "learning_rate": 5.352868169101332e-06,
      "loss": 3.2967,
      "step": 439230
    },
    {
      "epoch": 0.9150833333333334,
      "grad_norm": 0.911806583404541,
      "learning_rate": 5.35025832614655e-06,
      "loss": 3.369,
      "step": 439240
    },
    {
      "epoch": 0.9151041666666667,
      "grad_norm": 1.0471653938293457,
      "learning_rate": 5.34764910802139e-06,
      "loss": 3.3115,
      "step": 439250
    },
    {
      "epoch": 0.915125,
      "grad_norm": 0.9653663039207458,
      "learning_rate": 5.345040514737125e-06,
      "loss": 3.2947,
      "step": 439260
    },
    {
      "epoch": 0.9151458333333333,
      "grad_norm": 0.9011483192443848,
      "learning_rate": 5.342432546305031e-06,
      "loss": 3.2476,
      "step": 439270
    },
    {
      "epoch": 0.9151666666666667,
      "grad_norm": 0.9667267203330994,
      "learning_rate": 5.3398252027363645e-06,
      "loss": 3.323,
      "step": 439280
    },
    {
      "epoch": 0.9151875,
      "grad_norm": 0.9672394394874573,
      "learning_rate": 5.337218484042399e-06,
      "loss": 3.3885,
      "step": 439290
    },
    {
      "epoch": 0.9152083333333333,
      "grad_norm": 0.8943986892700195,
      "learning_rate": 5.334612390234394e-06,
      "loss": 3.2167,
      "step": 439300
    },
    {
      "epoch": 0.9152291666666666,
      "grad_norm": 0.8619489073753357,
      "learning_rate": 5.3320069213235725e-06,
      "loss": 3.1142,
      "step": 439310
    },
    {
      "epoch": 0.91525,
      "grad_norm": 0.8225910067558289,
      "learning_rate": 5.329402077321243e-06,
      "loss": 3.2493,
      "step": 439320
    },
    {
      "epoch": 0.9152708333333334,
      "grad_norm": 0.9196793437004089,
      "learning_rate": 5.3267978582386465e-06,
      "loss": 3.4602,
      "step": 439330
    },
    {
      "epoch": 0.9152916666666666,
      "grad_norm": 0.9033251404762268,
      "learning_rate": 5.324194264086973e-06,
      "loss": 3.3933,
      "step": 439340
    },
    {
      "epoch": 0.9153125,
      "grad_norm": 0.9551721811294556,
      "learning_rate": 5.321591294877547e-06,
      "loss": 3.3143,
      "step": 439350
    },
    {
      "epoch": 0.9153333333333333,
      "grad_norm": 0.9054679274559021,
      "learning_rate": 5.3189889506215775e-06,
      "loss": 3.2382,
      "step": 439360
    },
    {
      "epoch": 0.9153541666666667,
      "grad_norm": 0.8978745937347412,
      "learning_rate": 5.316387231330288e-06,
      "loss": 3.2867,
      "step": 439370
    },
    {
      "epoch": 0.915375,
      "grad_norm": 0.9312360882759094,
      "learning_rate": 5.313786137014936e-06,
      "loss": 3.343,
      "step": 439380
    },
    {
      "epoch": 0.9153958333333333,
      "grad_norm": 0.8584710359573364,
      "learning_rate": 5.311185667686796e-06,
      "loss": 3.1634,
      "step": 439390
    },
    {
      "epoch": 0.9154166666666667,
      "grad_norm": 0.9240964651107788,
      "learning_rate": 5.3085858233570085e-06,
      "loss": 3.3106,
      "step": 439400
    },
    {
      "epoch": 0.9154375,
      "grad_norm": 0.8858025074005127,
      "learning_rate": 5.305986604036883e-06,
      "loss": 3.3086,
      "step": 439410
    },
    {
      "epoch": 0.9154583333333334,
      "grad_norm": 0.9782955050468445,
      "learning_rate": 5.303388009737641e-06,
      "loss": 3.3903,
      "step": 439420
    },
    {
      "epoch": 0.9154791666666666,
      "grad_norm": 1.0274900197982788,
      "learning_rate": 5.3007900404704425e-06,
      "loss": 3.2747,
      "step": 439430
    },
    {
      "epoch": 0.9155,
      "grad_norm": 0.9083660244941711,
      "learning_rate": 5.298192696246611e-06,
      "loss": 3.2594,
      "step": 439440
    },
    {
      "epoch": 0.9155208333333333,
      "grad_norm": 0.9199878573417664,
      "learning_rate": 5.295595977077271e-06,
      "loss": 3.3473,
      "step": 439450
    },
    {
      "epoch": 0.9155416666666667,
      "grad_norm": 0.8878422975540161,
      "learning_rate": 5.2929998829736646e-06,
      "loss": 3.1787,
      "step": 439460
    },
    {
      "epoch": 0.9155625,
      "grad_norm": 0.8627095222473145,
      "learning_rate": 5.290404413947063e-06,
      "loss": 3.33,
      "step": 439470
    },
    {
      "epoch": 0.9155833333333333,
      "grad_norm": 0.9073048830032349,
      "learning_rate": 5.287809570008611e-06,
      "loss": 3.2863,
      "step": 439480
    },
    {
      "epoch": 0.9156041666666667,
      "grad_norm": 0.8689227104187012,
      "learning_rate": 5.28521535116953e-06,
      "loss": 3.1813,
      "step": 439490
    },
    {
      "epoch": 0.915625,
      "grad_norm": 0.9504426717758179,
      "learning_rate": 5.282621757441064e-06,
      "loss": 3.2549,
      "step": 439500
    },
    {
      "epoch": 0.9156458333333334,
      "grad_norm": 0.8934786319732666,
      "learning_rate": 5.280028788834384e-06,
      "loss": 3.2867,
      "step": 439510
    },
    {
      "epoch": 0.9156666666666666,
      "grad_norm": 1.0322388410568237,
      "learning_rate": 5.277436445360666e-06,
      "loss": 3.3511,
      "step": 439520
    },
    {
      "epoch": 0.9156875,
      "grad_norm": 0.850040078163147,
      "learning_rate": 5.274844727031169e-06,
      "loss": 3.3671,
      "step": 439530
    },
    {
      "epoch": 0.9157083333333333,
      "grad_norm": 0.8897057175636292,
      "learning_rate": 5.2722536338570484e-06,
      "loss": 3.3383,
      "step": 439540
    },
    {
      "epoch": 0.9157291666666667,
      "grad_norm": 0.8568654656410217,
      "learning_rate": 5.269663165849497e-06,
      "loss": 3.4122,
      "step": 439550
    },
    {
      "epoch": 0.91575,
      "grad_norm": 1.1390035152435303,
      "learning_rate": 5.267073323019721e-06,
      "loss": 3.2705,
      "step": 439560
    },
    {
      "epoch": 0.9157708333333333,
      "grad_norm": 0.8905327320098877,
      "learning_rate": 5.264484105378897e-06,
      "loss": 3.3972,
      "step": 439570
    },
    {
      "epoch": 0.9157916666666667,
      "grad_norm": 0.9616243839263916,
      "learning_rate": 5.261895512938214e-06,
      "loss": 3.4183,
      "step": 439580
    },
    {
      "epoch": 0.9158125,
      "grad_norm": 0.8448460698127747,
      "learning_rate": 5.259307545708847e-06,
      "loss": 3.2318,
      "step": 439590
    },
    {
      "epoch": 0.9158333333333334,
      "grad_norm": 1.1283015012741089,
      "learning_rate": 5.25672020370197e-06,
      "loss": 3.2664,
      "step": 439600
    },
    {
      "epoch": 0.9158541666666666,
      "grad_norm": 1.0513044595718384,
      "learning_rate": 5.254133486928774e-06,
      "loss": 3.3105,
      "step": 439610
    },
    {
      "epoch": 0.915875,
      "grad_norm": 0.8773465156555176,
      "learning_rate": 5.251547395400435e-06,
      "loss": 3.2383,
      "step": 439620
    },
    {
      "epoch": 0.9158958333333334,
      "grad_norm": 0.9626126885414124,
      "learning_rate": 5.248961929128109e-06,
      "loss": 3.2889,
      "step": 439630
    },
    {
      "epoch": 0.9159166666666667,
      "grad_norm": 0.9594302773475647,
      "learning_rate": 5.246377088122972e-06,
      "loss": 3.3066,
      "step": 439640
    },
    {
      "epoch": 0.9159375,
      "grad_norm": 0.8335551619529724,
      "learning_rate": 5.243792872396196e-06,
      "loss": 3.2055,
      "step": 439650
    },
    {
      "epoch": 0.9159583333333333,
      "grad_norm": 1.00701904296875,
      "learning_rate": 5.241209281958924e-06,
      "loss": 3.2658,
      "step": 439660
    },
    {
      "epoch": 0.9159791666666667,
      "grad_norm": 0.8018399477005005,
      "learning_rate": 5.238626316822347e-06,
      "loss": 3.3171,
      "step": 439670
    },
    {
      "epoch": 0.916,
      "grad_norm": 1.137319564819336,
      "learning_rate": 5.2360439769975725e-06,
      "loss": 3.2044,
      "step": 439680
    },
    {
      "epoch": 0.9160208333333333,
      "grad_norm": 0.9661756753921509,
      "learning_rate": 5.233462262495808e-06,
      "loss": 3.2503,
      "step": 439690
    },
    {
      "epoch": 0.9160416666666666,
      "grad_norm": 1.014906406402588,
      "learning_rate": 5.230881173328194e-06,
      "loss": 3.4171,
      "step": 439700
    },
    {
      "epoch": 0.9160625,
      "grad_norm": 0.9470064640045166,
      "learning_rate": 5.228300709505839e-06,
      "loss": 3.3746,
      "step": 439710
    },
    {
      "epoch": 0.9160833333333334,
      "grad_norm": 1.0238165855407715,
      "learning_rate": 5.225720871039935e-06,
      "loss": 3.3878,
      "step": 439720
    },
    {
      "epoch": 0.9161041666666667,
      "grad_norm": 0.9902195930480957,
      "learning_rate": 5.223141657941637e-06,
      "loss": 3.3264,
      "step": 439730
    },
    {
      "epoch": 0.916125,
      "grad_norm": 0.7651237845420837,
      "learning_rate": 5.220563070222022e-06,
      "loss": 3.256,
      "step": 439740
    },
    {
      "epoch": 0.9161458333333333,
      "grad_norm": 0.9744566679000854,
      "learning_rate": 5.217985107892281e-06,
      "loss": 3.3482,
      "step": 439750
    },
    {
      "epoch": 0.9161666666666667,
      "grad_norm": 0.9781490564346313,
      "learning_rate": 5.2154077709635534e-06,
      "loss": 3.3533,
      "step": 439760
    },
    {
      "epoch": 0.9161875,
      "grad_norm": 0.9317800998687744,
      "learning_rate": 5.2128310594469145e-06,
      "loss": 3.3741,
      "step": 439770
    },
    {
      "epoch": 0.9162083333333333,
      "grad_norm": 0.9052360653877258,
      "learning_rate": 5.210254973353556e-06,
      "loss": 3.3448,
      "step": 439780
    },
    {
      "epoch": 0.9162291666666667,
      "grad_norm": 0.8837546110153198,
      "learning_rate": 5.207679512694618e-06,
      "loss": 3.2453,
      "step": 439790
    },
    {
      "epoch": 0.91625,
      "grad_norm": 0.9168323874473572,
      "learning_rate": 5.205104677481142e-06,
      "loss": 3.3483,
      "step": 439800
    },
    {
      "epoch": 0.9162708333333334,
      "grad_norm": 0.9420866370201111,
      "learning_rate": 5.202530467724336e-06,
      "loss": 3.2386,
      "step": 439810
    },
    {
      "epoch": 0.9162916666666666,
      "grad_norm": 0.9628129601478577,
      "learning_rate": 5.199956883435258e-06,
      "loss": 3.2552,
      "step": 439820
    },
    {
      "epoch": 0.9163125,
      "grad_norm": 0.888017475605011,
      "learning_rate": 5.197383924625065e-06,
      "loss": 3.2362,
      "step": 439830
    },
    {
      "epoch": 0.9163333333333333,
      "grad_norm": 0.9191612005233765,
      "learning_rate": 5.194811591304848e-06,
      "loss": 3.301,
      "step": 439840
    },
    {
      "epoch": 0.9163541666666667,
      "grad_norm": 0.9054153561592102,
      "learning_rate": 5.192239883485716e-06,
      "loss": 3.4827,
      "step": 439850
    },
    {
      "epoch": 0.916375,
      "grad_norm": 0.9614980816841125,
      "learning_rate": 5.189668801178809e-06,
      "loss": 3.2882,
      "step": 439860
    },
    {
      "epoch": 0.9163958333333333,
      "grad_norm": 0.9504379630088806,
      "learning_rate": 5.187098344395202e-06,
      "loss": 3.2872,
      "step": 439870
    },
    {
      "epoch": 0.9164166666666667,
      "grad_norm": 0.973014235496521,
      "learning_rate": 5.184528513146019e-06,
      "loss": 3.2447,
      "step": 439880
    },
    {
      "epoch": 0.9164375,
      "grad_norm": 0.912467896938324,
      "learning_rate": 5.1819593074423346e-06,
      "loss": 3.2059,
      "step": 439890
    },
    {
      "epoch": 0.9164583333333334,
      "grad_norm": 0.8402915000915527,
      "learning_rate": 5.179390727295274e-06,
      "loss": 3.2919,
      "step": 439900
    },
    {
      "epoch": 0.9164791666666666,
      "grad_norm": 0.8232685923576355,
      "learning_rate": 5.176822772715928e-06,
      "loss": 3.3272,
      "step": 439910
    },
    {
      "epoch": 0.9165,
      "grad_norm": 0.9115073680877686,
      "learning_rate": 5.174255443715369e-06,
      "loss": 3.279,
      "step": 439920
    },
    {
      "epoch": 0.9165208333333333,
      "grad_norm": 0.9329698085784912,
      "learning_rate": 5.1716887403047084e-06,
      "loss": 3.3475,
      "step": 439930
    },
    {
      "epoch": 0.9165416666666667,
      "grad_norm": 0.913078784942627,
      "learning_rate": 5.1691226624950175e-06,
      "loss": 3.3993,
      "step": 439940
    },
    {
      "epoch": 0.9165625,
      "grad_norm": 0.8758863210678101,
      "learning_rate": 5.166557210297406e-06,
      "loss": 3.2344,
      "step": 439950
    },
    {
      "epoch": 0.9165833333333333,
      "grad_norm": 0.8858886957168579,
      "learning_rate": 5.163992383722915e-06,
      "loss": 3.3307,
      "step": 439960
    },
    {
      "epoch": 0.9166041666666667,
      "grad_norm": 0.9164708256721497,
      "learning_rate": 5.161428182782668e-06,
      "loss": 3.2248,
      "step": 439970
    },
    {
      "epoch": 0.916625,
      "grad_norm": 0.9097381234169006,
      "learning_rate": 5.158864607487706e-06,
      "loss": 3.2457,
      "step": 439980
    },
    {
      "epoch": 0.9166458333333334,
      "grad_norm": 0.9237605333328247,
      "learning_rate": 5.156301657849121e-06,
      "loss": 3.1972,
      "step": 439990
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 0.9957588911056519,
      "learning_rate": 5.1537393338779875e-06,
      "loss": 3.2542,
      "step": 440000
    },
    {
      "epoch": 0.9166666666666666,
      "eval_loss": 4.022737503051758,
      "eval_runtime": 8.5032,
      "eval_samples_per_second": 1.176,
      "eval_steps_per_second": 0.353,
      "step": 440000
    },
    {
      "epoch": 0.9166875,
      "grad_norm": 0.8657434582710266,
      "learning_rate": 5.1511776355853466e-06,
      "loss": 3.343,
      "step": 440010
    },
    {
      "epoch": 0.9167083333333333,
      "grad_norm": 1.0513279438018799,
      "learning_rate": 5.148616562982305e-06,
      "loss": 3.3842,
      "step": 440020
    },
    {
      "epoch": 0.9167291666666667,
      "grad_norm": 0.8824968934059143,
      "learning_rate": 5.146056116079888e-06,
      "loss": 3.3542,
      "step": 440030
    },
    {
      "epoch": 0.91675,
      "grad_norm": 0.9475041627883911,
      "learning_rate": 5.1434962948892045e-06,
      "loss": 3.3473,
      "step": 440040
    },
    {
      "epoch": 0.9167708333333333,
      "grad_norm": 0.9512366652488708,
      "learning_rate": 5.140937099421227e-06,
      "loss": 3.3419,
      "step": 440050
    },
    {
      "epoch": 0.9167916666666667,
      "grad_norm": 1.0738239288330078,
      "learning_rate": 5.138378529687082e-06,
      "loss": 3.4256,
      "step": 440060
    },
    {
      "epoch": 0.9168125,
      "grad_norm": 0.9858185648918152,
      "learning_rate": 5.135820585697825e-06,
      "loss": 3.2984,
      "step": 440070
    },
    {
      "epoch": 0.9168333333333333,
      "grad_norm": 0.9556019306182861,
      "learning_rate": 5.133263267464449e-06,
      "loss": 3.2006,
      "step": 440080
    },
    {
      "epoch": 0.9168541666666666,
      "grad_norm": 0.9411097168922424,
      "learning_rate": 5.130706574998045e-06,
      "loss": 3.3839,
      "step": 440090
    },
    {
      "epoch": 0.916875,
      "grad_norm": 0.9063271284103394,
      "learning_rate": 5.12815050830967e-06,
      "loss": 3.3838,
      "step": 440100
    },
    {
      "epoch": 0.9168958333333334,
      "grad_norm": 0.952980637550354,
      "learning_rate": 5.125595067410298e-06,
      "loss": 3.3196,
      "step": 440110
    },
    {
      "epoch": 0.9169166666666667,
      "grad_norm": 0.879440426826477,
      "learning_rate": 5.12304025231104e-06,
      "loss": 3.307,
      "step": 440120
    },
    {
      "epoch": 0.9169375,
      "grad_norm": 0.9266103506088257,
      "learning_rate": 5.1204860630229e-06,
      "loss": 3.4331,
      "step": 440130
    },
    {
      "epoch": 0.9169583333333333,
      "grad_norm": 1.133036732673645,
      "learning_rate": 5.117932499556904e-06,
      "loss": 3.2857,
      "step": 440140
    },
    {
      "epoch": 0.9169791666666667,
      "grad_norm": 0.9132778644561768,
      "learning_rate": 5.1153795619240766e-06,
      "loss": 3.2152,
      "step": 440150
    },
    {
      "epoch": 0.917,
      "grad_norm": 1.0141180753707886,
      "learning_rate": 5.112827250135493e-06,
      "loss": 3.1815,
      "step": 440160
    },
    {
      "epoch": 0.9170208333333333,
      "grad_norm": 0.9476054310798645,
      "learning_rate": 5.1102755642021265e-06,
      "loss": 3.306,
      "step": 440170
    },
    {
      "epoch": 0.9170416666666666,
      "grad_norm": 1.0167886018753052,
      "learning_rate": 5.107724504135019e-06,
      "loss": 3.3146,
      "step": 440180
    },
    {
      "epoch": 0.9170625,
      "grad_norm": 0.9760555624961853,
      "learning_rate": 5.1051740699451944e-06,
      "loss": 3.3341,
      "step": 440190
    },
    {
      "epoch": 0.9170833333333334,
      "grad_norm": 0.9971979856491089,
      "learning_rate": 5.102624261643662e-06,
      "loss": 3.229,
      "step": 440200
    },
    {
      "epoch": 0.9171041666666667,
      "grad_norm": 0.9170867204666138,
      "learning_rate": 5.100075079241428e-06,
      "loss": 3.359,
      "step": 440210
    },
    {
      "epoch": 0.917125,
      "grad_norm": 0.9222130179405212,
      "learning_rate": 5.0975265227495346e-06,
      "loss": 3.2501,
      "step": 440220
    },
    {
      "epoch": 0.9171458333333333,
      "grad_norm": 0.8931469321250916,
      "learning_rate": 5.094978592178956e-06,
      "loss": 3.2332,
      "step": 440230
    },
    {
      "epoch": 0.9171666666666667,
      "grad_norm": 0.8936333656311035,
      "learning_rate": 5.092431287540716e-06,
      "loss": 3.3391,
      "step": 440240
    },
    {
      "epoch": 0.9171875,
      "grad_norm": 1.0685417652130127,
      "learning_rate": 5.089884608845807e-06,
      "loss": 3.3277,
      "step": 440250
    },
    {
      "epoch": 0.9172083333333333,
      "grad_norm": 0.9192870259284973,
      "learning_rate": 5.087338556105252e-06,
      "loss": 3.3146,
      "step": 440260
    },
    {
      "epoch": 0.9172291666666667,
      "grad_norm": 0.8592445254325867,
      "learning_rate": 5.084793129330028e-06,
      "loss": 3.2911,
      "step": 440270
    },
    {
      "epoch": 0.91725,
      "grad_norm": 0.9303016066551208,
      "learning_rate": 5.082248328531125e-06,
      "loss": 3.1878,
      "step": 440280
    },
    {
      "epoch": 0.9172708333333334,
      "grad_norm": 0.8659607768058777,
      "learning_rate": 5.079704153719566e-06,
      "loss": 3.3588,
      "step": 440290
    },
    {
      "epoch": 0.9172916666666666,
      "grad_norm": 0.9249390363693237,
      "learning_rate": 5.077160604906311e-06,
      "loss": 3.231,
      "step": 440300
    },
    {
      "epoch": 0.9173125,
      "grad_norm": 0.9269400835037231,
      "learning_rate": 5.07461768210235e-06,
      "loss": 3.2124,
      "step": 440310
    },
    {
      "epoch": 0.9173333333333333,
      "grad_norm": 1.108998417854309,
      "learning_rate": 5.072075385318691e-06,
      "loss": 3.3767,
      "step": 440320
    },
    {
      "epoch": 0.9173541666666667,
      "grad_norm": 0.9947200417518616,
      "learning_rate": 5.069533714566293e-06,
      "loss": 3.4231,
      "step": 440330
    },
    {
      "epoch": 0.917375,
      "grad_norm": 0.9374868869781494,
      "learning_rate": 5.06699266985613e-06,
      "loss": 3.2469,
      "step": 440340
    },
    {
      "epoch": 0.9173958333333333,
      "grad_norm": 0.9990358948707581,
      "learning_rate": 5.064452251199208e-06,
      "loss": 3.4299,
      "step": 440350
    },
    {
      "epoch": 0.9174166666666667,
      "grad_norm": 0.9277304410934448,
      "learning_rate": 5.06191245860647e-06,
      "loss": 3.2706,
      "step": 440360
    },
    {
      "epoch": 0.9174375,
      "grad_norm": 0.911171019077301,
      "learning_rate": 5.059373292088908e-06,
      "loss": 3.3197,
      "step": 440370
    },
    {
      "epoch": 0.9174583333333334,
      "grad_norm": 1.3567291498184204,
      "learning_rate": 5.056834751657479e-06,
      "loss": 3.3303,
      "step": 440380
    },
    {
      "epoch": 0.9174791666666666,
      "grad_norm": 0.8598878383636475,
      "learning_rate": 5.054296837323158e-06,
      "loss": 3.3275,
      "step": 440390
    },
    {
      "epoch": 0.9175,
      "grad_norm": 0.9515619874000549,
      "learning_rate": 5.051759549096901e-06,
      "loss": 3.284,
      "step": 440400
    },
    {
      "epoch": 0.9175208333333333,
      "grad_norm": 0.9441619515419006,
      "learning_rate": 5.049222886989651e-06,
      "loss": 3.2896,
      "step": 440410
    },
    {
      "epoch": 0.9175416666666667,
      "grad_norm": 1.1061230897903442,
      "learning_rate": 5.046686851012416e-06,
      "loss": 3.3086,
      "step": 440420
    },
    {
      "epoch": 0.9175625,
      "grad_norm": 1.0713460445404053,
      "learning_rate": 5.0441514411760866e-06,
      "loss": 3.3838,
      "step": 440430
    },
    {
      "epoch": 0.9175833333333333,
      "grad_norm": 0.9319984912872314,
      "learning_rate": 5.04161665749167e-06,
      "loss": 3.2484,
      "step": 440440
    },
    {
      "epoch": 0.9176041666666667,
      "grad_norm": 0.8102318644523621,
      "learning_rate": 5.039082499970076e-06,
      "loss": 3.3862,
      "step": 440450
    },
    {
      "epoch": 0.917625,
      "grad_norm": 0.8703150749206543,
      "learning_rate": 5.0365489686222445e-06,
      "loss": 3.3755,
      "step": 440460
    },
    {
      "epoch": 0.9176458333333334,
      "grad_norm": 1.0222992897033691,
      "learning_rate": 5.034016063459184e-06,
      "loss": 3.287,
      "step": 440470
    },
    {
      "epoch": 0.9176666666666666,
      "grad_norm": 0.957112193107605,
      "learning_rate": 5.031483784491769e-06,
      "loss": 3.3579,
      "step": 440480
    },
    {
      "epoch": 0.9176875,
      "grad_norm": 0.9068363904953003,
      "learning_rate": 5.02895213173094e-06,
      "loss": 3.1838,
      "step": 440490
    },
    {
      "epoch": 0.9177083333333333,
      "grad_norm": 0.9379258155822754,
      "learning_rate": 5.0264211051876894e-06,
      "loss": 3.1731,
      "step": 440500
    },
    {
      "epoch": 0.9177291666666667,
      "grad_norm": 1.012349009513855,
      "learning_rate": 5.023890704872907e-06,
      "loss": 3.2859,
      "step": 440510
    },
    {
      "epoch": 0.91775,
      "grad_norm": 0.9533332586288452,
      "learning_rate": 5.021360930797519e-06,
      "loss": 3.4191,
      "step": 440520
    },
    {
      "epoch": 0.9177708333333333,
      "grad_norm": 0.9274234771728516,
      "learning_rate": 5.018831782972482e-06,
      "loss": 3.3614,
      "step": 440530
    },
    {
      "epoch": 0.9177916666666667,
      "grad_norm": 0.9054652452468872,
      "learning_rate": 5.016303261408705e-06,
      "loss": 3.291,
      "step": 440540
    },
    {
      "epoch": 0.9178125,
      "grad_norm": 0.9311137199401855,
      "learning_rate": 5.0137753661170955e-06,
      "loss": 3.2815,
      "step": 440550
    },
    {
      "epoch": 0.9178333333333333,
      "grad_norm": 0.9187584519386292,
      "learning_rate": 5.0112480971085946e-06,
      "loss": 3.2477,
      "step": 440560
    },
    {
      "epoch": 0.9178541666666666,
      "grad_norm": 0.9051526784896851,
      "learning_rate": 5.008721454394093e-06,
      "loss": 3.4049,
      "step": 440570
    },
    {
      "epoch": 0.917875,
      "grad_norm": 1.0474357604980469,
      "learning_rate": 5.00619543798455e-06,
      "loss": 3.4874,
      "step": 440580
    },
    {
      "epoch": 0.9178958333333334,
      "grad_norm": 0.9322120547294617,
      "learning_rate": 5.00367004789084e-06,
      "loss": 3.339,
      "step": 440590
    },
    {
      "epoch": 0.9179166666666667,
      "grad_norm": 0.8989682793617249,
      "learning_rate": 5.00114528412387e-06,
      "loss": 3.2466,
      "step": 440600
    },
    {
      "epoch": 0.9179375,
      "grad_norm": 0.8815684914588928,
      "learning_rate": 4.9986211466945816e-06,
      "loss": 3.2813,
      "step": 440610
    },
    {
      "epoch": 0.9179583333333333,
      "grad_norm": 0.9476650953292847,
      "learning_rate": 4.996097635613832e-06,
      "loss": 3.3349,
      "step": 440620
    },
    {
      "epoch": 0.9179791666666667,
      "grad_norm": 0.9322496056556702,
      "learning_rate": 4.993574750892548e-06,
      "loss": 3.3303,
      "step": 440630
    },
    {
      "epoch": 0.918,
      "grad_norm": 0.8944035768508911,
      "learning_rate": 4.9910524925416365e-06,
      "loss": 3.2887,
      "step": 440640
    },
    {
      "epoch": 0.9180208333333333,
      "grad_norm": 0.9326587319374084,
      "learning_rate": 4.988530860571971e-06,
      "loss": 3.4421,
      "step": 440650
    },
    {
      "epoch": 0.9180416666666666,
      "grad_norm": 0.9013198614120483,
      "learning_rate": 4.9860098549944605e-06,
      "loss": 3.3635,
      "step": 440660
    },
    {
      "epoch": 0.9180625,
      "grad_norm": 1.0947597026824951,
      "learning_rate": 4.983489475819979e-06,
      "loss": 3.1975,
      "step": 440670
    },
    {
      "epoch": 0.9180833333333334,
      "grad_norm": 1.1311938762664795,
      "learning_rate": 4.980969723059419e-06,
      "loss": 3.2612,
      "step": 440680
    },
    {
      "epoch": 0.9181041666666667,
      "grad_norm": 0.9519051313400269,
      "learning_rate": 4.978450596723671e-06,
      "loss": 3.3139,
      "step": 440690
    },
    {
      "epoch": 0.918125,
      "grad_norm": 0.8837862610816956,
      "learning_rate": 4.9759320968236096e-06,
      "loss": 3.4155,
      "step": 440700
    },
    {
      "epoch": 0.9181458333333333,
      "grad_norm": 0.8972242474555969,
      "learning_rate": 4.973414223370126e-06,
      "loss": 3.2632,
      "step": 440710
    },
    {
      "epoch": 0.9181666666666667,
      "grad_norm": 0.9807931184768677,
      "learning_rate": 4.970896976374078e-06,
      "loss": 3.2662,
      "step": 440720
    },
    {
      "epoch": 0.9181875,
      "grad_norm": 0.9199353456497192,
      "learning_rate": 4.968380355846358e-06,
      "loss": 3.4361,
      "step": 440730
    },
    {
      "epoch": 0.9182083333333333,
      "grad_norm": 0.8927180767059326,
      "learning_rate": 4.965864361797806e-06,
      "loss": 3.2666,
      "step": 440740
    },
    {
      "epoch": 0.9182291666666667,
      "grad_norm": 0.9735243916511536,
      "learning_rate": 4.96334899423933e-06,
      "loss": 3.3538,
      "step": 440750
    },
    {
      "epoch": 0.91825,
      "grad_norm": 0.9155846834182739,
      "learning_rate": 4.960834253181789e-06,
      "loss": 3.2869,
      "step": 440760
    },
    {
      "epoch": 0.9182708333333334,
      "grad_norm": 1.0015095472335815,
      "learning_rate": 4.958320138636007e-06,
      "loss": 3.3731,
      "step": 440770
    },
    {
      "epoch": 0.9182916666666666,
      "grad_norm": 1.0262682437896729,
      "learning_rate": 4.955806650612876e-06,
      "loss": 3.3423,
      "step": 440780
    },
    {
      "epoch": 0.9183125,
      "grad_norm": 0.8796153664588928,
      "learning_rate": 4.9532937891232694e-06,
      "loss": 3.2358,
      "step": 440790
    },
    {
      "epoch": 0.9183333333333333,
      "grad_norm": 0.8927710056304932,
      "learning_rate": 4.950781554177996e-06,
      "loss": 3.3363,
      "step": 440800
    },
    {
      "epoch": 0.9183541666666667,
      "grad_norm": 0.8593031764030457,
      "learning_rate": 4.948269945787947e-06,
      "loss": 3.2324,
      "step": 440810
    },
    {
      "epoch": 0.918375,
      "grad_norm": 0.8655992746353149,
      "learning_rate": 4.945758963963964e-06,
      "loss": 3.2043,
      "step": 440820
    },
    {
      "epoch": 0.9183958333333333,
      "grad_norm": 1.017835021018982,
      "learning_rate": 4.943248608716855e-06,
      "loss": 3.2674,
      "step": 440830
    },
    {
      "epoch": 0.9184166666666667,
      "grad_norm": 0.9019681811332703,
      "learning_rate": 4.940738880057527e-06,
      "loss": 3.1535,
      "step": 440840
    },
    {
      "epoch": 0.9184375,
      "grad_norm": 0.9441838264465332,
      "learning_rate": 4.938229777996772e-06,
      "loss": 3.3152,
      "step": 440850
    },
    {
      "epoch": 0.9184583333333334,
      "grad_norm": 0.9001284837722778,
      "learning_rate": 4.935721302545414e-06,
      "loss": 3.2858,
      "step": 440860
    },
    {
      "epoch": 0.9184791666666666,
      "grad_norm": 1.025464415550232,
      "learning_rate": 4.93321345371438e-06,
      "loss": 3.3203,
      "step": 440870
    },
    {
      "epoch": 0.9185,
      "grad_norm": 0.9184360504150391,
      "learning_rate": 4.9307062315144085e-06,
      "loss": 3.289,
      "step": 440880
    },
    {
      "epoch": 0.9185208333333333,
      "grad_norm": 0.9146358966827393,
      "learning_rate": 4.928199635956359e-06,
      "loss": 3.2944,
      "step": 440890
    },
    {
      "epoch": 0.9185416666666667,
      "grad_norm": 0.9206143021583557,
      "learning_rate": 4.92569366705109e-06,
      "loss": 3.437,
      "step": 440900
    },
    {
      "epoch": 0.9185625,
      "grad_norm": 0.8885754346847534,
      "learning_rate": 4.923188324809374e-06,
      "loss": 3.2726,
      "step": 440910
    },
    {
      "epoch": 0.9185833333333333,
      "grad_norm": 0.9252393841743469,
      "learning_rate": 4.920683609242054e-06,
      "loss": 3.1611,
      "step": 440920
    },
    {
      "epoch": 0.9186041666666667,
      "grad_norm": 0.9051564335823059,
      "learning_rate": 4.918179520359988e-06,
      "loss": 3.1918,
      "step": 440930
    },
    {
      "epoch": 0.918625,
      "grad_norm": 0.8997845649719238,
      "learning_rate": 4.915676058173934e-06,
      "loss": 3.3906,
      "step": 440940
    },
    {
      "epoch": 0.9186458333333334,
      "grad_norm": 0.8974604606628418,
      "learning_rate": 4.9131732226947325e-06,
      "loss": 3.2479,
      "step": 440950
    },
    {
      "epoch": 0.9186666666666666,
      "grad_norm": 1.0201337337493896,
      "learning_rate": 4.910671013933209e-06,
      "loss": 3.2883,
      "step": 440960
    },
    {
      "epoch": 0.9186875,
      "grad_norm": 0.9560713171958923,
      "learning_rate": 4.908169431900138e-06,
      "loss": 3.2807,
      "step": 440970
    },
    {
      "epoch": 0.9187083333333333,
      "grad_norm": 1.0008821487426758,
      "learning_rate": 4.905668476606345e-06,
      "loss": 3.2712,
      "step": 440980
    },
    {
      "epoch": 0.9187291666666667,
      "grad_norm": 0.901332437992096,
      "learning_rate": 4.9031681480626525e-06,
      "loss": 3.3264,
      "step": 440990
    },
    {
      "epoch": 0.91875,
      "grad_norm": 1.1159749031066895,
      "learning_rate": 4.90066844627982e-06,
      "loss": 3.3647,
      "step": 441000
    },
    {
      "epoch": 0.91875,
      "eval_loss": 4.024019718170166,
      "eval_runtime": 8.2657,
      "eval_samples_per_second": 1.21,
      "eval_steps_per_second": 0.363,
      "step": 441000
    },
    {
      "epoch": 0.9187708333333333,
      "grad_norm": 0.9483566880226135,
      "learning_rate": 4.898169371268673e-06,
      "loss": 3.3035,
      "step": 441010
    },
    {
      "epoch": 0.9187916666666667,
      "grad_norm": 0.8800280690193176,
      "learning_rate": 4.895670923039985e-06,
      "loss": 3.2825,
      "step": 441020
    },
    {
      "epoch": 0.9188125,
      "grad_norm": 0.9122253656387329,
      "learning_rate": 4.8931731016045805e-06,
      "loss": 3.2789,
      "step": 441030
    },
    {
      "epoch": 0.9188333333333333,
      "grad_norm": 0.9283959269523621,
      "learning_rate": 4.890675906973235e-06,
      "loss": 3.3254,
      "step": 441040
    },
    {
      "epoch": 0.9188541666666666,
      "grad_norm": 0.8858196139335632,
      "learning_rate": 4.888179339156706e-06,
      "loss": 3.3307,
      "step": 441050
    },
    {
      "epoch": 0.918875,
      "grad_norm": 0.9382551908493042,
      "learning_rate": 4.885683398165818e-06,
      "loss": 3.3884,
      "step": 441060
    },
    {
      "epoch": 0.9188958333333334,
      "grad_norm": 0.9734289050102234,
      "learning_rate": 4.8831880840113634e-06,
      "loss": 3.2882,
      "step": 441070
    },
    {
      "epoch": 0.9189166666666667,
      "grad_norm": 0.8872328996658325,
      "learning_rate": 4.8806933967040494e-06,
      "loss": 3.3177,
      "step": 441080
    },
    {
      "epoch": 0.9189375,
      "grad_norm": 0.971544623374939,
      "learning_rate": 4.8781993362547175e-06,
      "loss": 3.2776,
      "step": 441090
    },
    {
      "epoch": 0.9189583333333333,
      "grad_norm": 0.9434791803359985,
      "learning_rate": 4.875705902674143e-06,
      "loss": 3.3674,
      "step": 441100
    },
    {
      "epoch": 0.9189791666666667,
      "grad_norm": 0.952624499797821,
      "learning_rate": 4.873213095973033e-06,
      "loss": 3.3435,
      "step": 441110
    },
    {
      "epoch": 0.919,
      "grad_norm": 0.8704701662063599,
      "learning_rate": 4.870720916162213e-06,
      "loss": 3.3148,
      "step": 441120
    },
    {
      "epoch": 0.9190208333333333,
      "grad_norm": 0.989481508731842,
      "learning_rate": 4.8682293632524575e-06,
      "loss": 3.2378,
      "step": 441130
    },
    {
      "epoch": 0.9190416666666666,
      "grad_norm": 0.9818896651268005,
      "learning_rate": 4.8657384372544574e-06,
      "loss": 3.2881,
      "step": 441140
    },
    {
      "epoch": 0.9190625,
      "grad_norm": 0.8538872003555298,
      "learning_rate": 4.8632481381790545e-06,
      "loss": 3.2917,
      "step": 441150
    },
    {
      "epoch": 0.9190833333333334,
      "grad_norm": 0.9235659837722778,
      "learning_rate": 4.860758466036974e-06,
      "loss": 3.3135,
      "step": 441160
    },
    {
      "epoch": 0.9191041666666667,
      "grad_norm": 0.8669044971466064,
      "learning_rate": 4.85826942083894e-06,
      "loss": 3.2597,
      "step": 441170
    },
    {
      "epoch": 0.919125,
      "grad_norm": 0.9692497253417969,
      "learning_rate": 4.85578100259576e-06,
      "loss": 3.3599,
      "step": 441180
    },
    {
      "epoch": 0.9191458333333333,
      "grad_norm": 0.9342827200889587,
      "learning_rate": 4.853293211318144e-06,
      "loss": 3.3224,
      "step": 441190
    },
    {
      "epoch": 0.9191666666666667,
      "grad_norm": 1.008231520652771,
      "learning_rate": 4.850806047016814e-06,
      "loss": 3.2928,
      "step": 441200
    },
    {
      "epoch": 0.9191875,
      "grad_norm": 0.8656105995178223,
      "learning_rate": 4.848319509702597e-06,
      "loss": 3.2914,
      "step": 441210
    },
    {
      "epoch": 0.9192083333333333,
      "grad_norm": 0.9388198852539062,
      "learning_rate": 4.845833599386167e-06,
      "loss": 3.3751,
      "step": 441220
    },
    {
      "epoch": 0.9192291666666667,
      "grad_norm": 0.9176775813102722,
      "learning_rate": 4.843348316078266e-06,
      "loss": 3.3468,
      "step": 441230
    },
    {
      "epoch": 0.91925,
      "grad_norm": 0.9599460363388062,
      "learning_rate": 4.840863659789668e-06,
      "loss": 3.2355,
      "step": 441240
    },
    {
      "epoch": 0.9192708333333334,
      "grad_norm": 0.8653294444084167,
      "learning_rate": 4.838379630531064e-06,
      "loss": 3.2593,
      "step": 441250
    },
    {
      "epoch": 0.9192916666666666,
      "grad_norm": 0.9978480935096741,
      "learning_rate": 4.835896228313196e-06,
      "loss": 3.3999,
      "step": 441260
    },
    {
      "epoch": 0.9193125,
      "grad_norm": 0.9841810464859009,
      "learning_rate": 4.833413453146823e-06,
      "loss": 3.3559,
      "step": 441270
    },
    {
      "epoch": 0.9193333333333333,
      "grad_norm": 1.293769359588623,
      "learning_rate": 4.830931305042618e-06,
      "loss": 3.4197,
      "step": 441280
    },
    {
      "epoch": 0.9193541666666667,
      "grad_norm": 0.9124093651771545,
      "learning_rate": 4.8284497840113235e-06,
      "loss": 3.4077,
      "step": 441290
    },
    {
      "epoch": 0.919375,
      "grad_norm": 0.8469402194023132,
      "learning_rate": 4.82596889006368e-06,
      "loss": 3.5502,
      "step": 441300
    },
    {
      "epoch": 0.9193958333333333,
      "grad_norm": 0.9137152433395386,
      "learning_rate": 4.8234886232103975e-06,
      "loss": 3.3322,
      "step": 441310
    },
    {
      "epoch": 0.9194166666666667,
      "grad_norm": 0.8462320566177368,
      "learning_rate": 4.821008983462149e-06,
      "loss": 3.2925,
      "step": 441320
    },
    {
      "epoch": 0.9194375,
      "grad_norm": 0.8671305775642395,
      "learning_rate": 4.818529970829693e-06,
      "loss": 3.2436,
      "step": 441330
    },
    {
      "epoch": 0.9194583333333334,
      "grad_norm": 0.9504789710044861,
      "learning_rate": 4.816051585323721e-06,
      "loss": 3.3082,
      "step": 441340
    },
    {
      "epoch": 0.9194791666666666,
      "grad_norm": 0.8487265706062317,
      "learning_rate": 4.813573826954942e-06,
      "loss": 3.2914,
      "step": 441350
    },
    {
      "epoch": 0.9195,
      "grad_norm": 1.0909337997436523,
      "learning_rate": 4.8110966957340455e-06,
      "loss": 3.1659,
      "step": 441360
    },
    {
      "epoch": 0.9195208333333333,
      "grad_norm": 0.9023188352584839,
      "learning_rate": 4.808620191671741e-06,
      "loss": 3.2854,
      "step": 441370
    },
    {
      "epoch": 0.9195416666666667,
      "grad_norm": 0.9348958134651184,
      "learning_rate": 4.806144314778737e-06,
      "loss": 3.2873,
      "step": 441380
    },
    {
      "epoch": 0.9195625,
      "grad_norm": 1.013144612312317,
      "learning_rate": 4.803669065065707e-06,
      "loss": 3.2793,
      "step": 441390
    },
    {
      "epoch": 0.9195833333333333,
      "grad_norm": 0.8647983074188232,
      "learning_rate": 4.8011944425433605e-06,
      "loss": 3.2809,
      "step": 441400
    },
    {
      "epoch": 0.9196041666666667,
      "grad_norm": 0.8954010009765625,
      "learning_rate": 4.79872044722237e-06,
      "loss": 3.3222,
      "step": 441410
    },
    {
      "epoch": 0.919625,
      "grad_norm": 0.8824833035469055,
      "learning_rate": 4.796247079113447e-06,
      "loss": 3.3883,
      "step": 441420
    },
    {
      "epoch": 0.9196458333333334,
      "grad_norm": 0.910761833190918,
      "learning_rate": 4.793774338227247e-06,
      "loss": 3.2465,
      "step": 441430
    },
    {
      "epoch": 0.9196666666666666,
      "grad_norm": 0.9066901206970215,
      "learning_rate": 4.791302224574495e-06,
      "loss": 3.3549,
      "step": 441440
    },
    {
      "epoch": 0.9196875,
      "grad_norm": 0.9318229556083679,
      "learning_rate": 4.7888307381658e-06,
      "loss": 3.1638,
      "step": 441450
    },
    {
      "epoch": 0.9197083333333333,
      "grad_norm": 0.8986214995384216,
      "learning_rate": 4.786359879011886e-06,
      "loss": 3.2724,
      "step": 441460
    },
    {
      "epoch": 0.9197291666666667,
      "grad_norm": 0.9252482652664185,
      "learning_rate": 4.783889647123445e-06,
      "loss": 3.2944,
      "step": 441470
    },
    {
      "epoch": 0.91975,
      "grad_norm": 0.9411938190460205,
      "learning_rate": 4.781420042511086e-06,
      "loss": 3.2745,
      "step": 441480
    },
    {
      "epoch": 0.9197708333333333,
      "grad_norm": 0.9315274953842163,
      "learning_rate": 4.7789510651855326e-06,
      "loss": 3.3473,
      "step": 441490
    },
    {
      "epoch": 0.9197916666666667,
      "grad_norm": 1.124269723892212,
      "learning_rate": 4.776482715157442e-06,
      "loss": 3.2265,
      "step": 441500
    },
    {
      "epoch": 0.9198125,
      "grad_norm": 1.0132352113723755,
      "learning_rate": 4.774014992437425e-06,
      "loss": 3.1896,
      "step": 441510
    },
    {
      "epoch": 0.9198333333333333,
      "grad_norm": 0.884188711643219,
      "learning_rate": 4.771547897036187e-06,
      "loss": 3.3191,
      "step": 441520
    },
    {
      "epoch": 0.9198541666666666,
      "grad_norm": 0.8738976120948792,
      "learning_rate": 4.769081428964405e-06,
      "loss": 3.4672,
      "step": 441530
    },
    {
      "epoch": 0.919875,
      "grad_norm": 0.8707188963890076,
      "learning_rate": 4.766615588232669e-06,
      "loss": 3.2729,
      "step": 441540
    },
    {
      "epoch": 0.9198958333333334,
      "grad_norm": 0.8888243436813354,
      "learning_rate": 4.764150374851705e-06,
      "loss": 3.3828,
      "step": 441550
    },
    {
      "epoch": 0.9199166666666667,
      "grad_norm": 1.0675219297409058,
      "learning_rate": 4.761685788832103e-06,
      "loss": 3.4158,
      "step": 441560
    },
    {
      "epoch": 0.9199375,
      "grad_norm": 0.9883405566215515,
      "learning_rate": 4.7592218301845065e-06,
      "loss": 3.2548,
      "step": 441570
    },
    {
      "epoch": 0.9199583333333333,
      "grad_norm": 0.8890449404716492,
      "learning_rate": 4.756758498919622e-06,
      "loss": 3.3962,
      "step": 441580
    },
    {
      "epoch": 0.9199791666666667,
      "grad_norm": 0.9090011119842529,
      "learning_rate": 4.754295795048024e-06,
      "loss": 3.359,
      "step": 441590
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.024347186088562,
      "learning_rate": 4.751833718580389e-06,
      "loss": 3.2337,
      "step": 441600
    },
    {
      "epoch": 0.9200208333333333,
      "grad_norm": 0.9577019810676575,
      "learning_rate": 4.749372269527324e-06,
      "loss": 3.229,
      "step": 441610
    },
    {
      "epoch": 0.9200416666666666,
      "grad_norm": 0.8660122752189636,
      "learning_rate": 4.746911447899487e-06,
      "loss": 3.247,
      "step": 441620
    },
    {
      "epoch": 0.9200625,
      "grad_norm": 0.920187771320343,
      "learning_rate": 4.744451253707504e-06,
      "loss": 3.4441,
      "step": 441630
    },
    {
      "epoch": 0.9200833333333334,
      "grad_norm": 0.9031940698623657,
      "learning_rate": 4.741991686961982e-06,
      "loss": 3.3252,
      "step": 441640
    },
    {
      "epoch": 0.9201041666666666,
      "grad_norm": 1.01990807056427,
      "learning_rate": 4.7395327476735636e-06,
      "loss": 3.3457,
      "step": 441650
    },
    {
      "epoch": 0.920125,
      "grad_norm": 0.9300252795219421,
      "learning_rate": 4.737074435852872e-06,
      "loss": 3.3484,
      "step": 441660
    },
    {
      "epoch": 0.9201458333333333,
      "grad_norm": 1.0937882661819458,
      "learning_rate": 4.734616751510501e-06,
      "loss": 3.3246,
      "step": 441670
    },
    {
      "epoch": 0.9201666666666667,
      "grad_norm": 0.9574601054191589,
      "learning_rate": 4.732159694657106e-06,
      "loss": 3.4667,
      "step": 441680
    },
    {
      "epoch": 0.9201875,
      "grad_norm": 1.0082917213439941,
      "learning_rate": 4.729703265303264e-06,
      "loss": 3.3846,
      "step": 441690
    },
    {
      "epoch": 0.9202083333333333,
      "grad_norm": 0.9264835119247437,
      "learning_rate": 4.7272474634596155e-06,
      "loss": 3.3019,
      "step": 441700
    },
    {
      "epoch": 0.9202291666666667,
      "grad_norm": 1.0065361261367798,
      "learning_rate": 4.724792289136753e-06,
      "loss": 3.3242,
      "step": 441710
    },
    {
      "epoch": 0.92025,
      "grad_norm": 0.9178947806358337,
      "learning_rate": 4.722337742345283e-06,
      "loss": 3.2122,
      "step": 441720
    },
    {
      "epoch": 0.9202708333333334,
      "grad_norm": 0.9212421178817749,
      "learning_rate": 4.719883823095799e-06,
      "loss": 3.1768,
      "step": 441730
    },
    {
      "epoch": 0.9202916666666666,
      "grad_norm": 0.8731669783592224,
      "learning_rate": 4.717430531398924e-06,
      "loss": 3.2538,
      "step": 441740
    },
    {
      "epoch": 0.9203125,
      "grad_norm": 0.9862616062164307,
      "learning_rate": 4.714977867265235e-06,
      "loss": 3.3665,
      "step": 441750
    },
    {
      "epoch": 0.9203333333333333,
      "grad_norm": 0.8664078116416931,
      "learning_rate": 4.712525830705338e-06,
      "loss": 3.3102,
      "step": 441760
    },
    {
      "epoch": 0.9203541666666667,
      "grad_norm": 0.9074950218200684,
      "learning_rate": 4.710074421729809e-06,
      "loss": 3.3989,
      "step": 441770
    },
    {
      "epoch": 0.920375,
      "grad_norm": 0.9217081069946289,
      "learning_rate": 4.707623640349256e-06,
      "loss": 3.3395,
      "step": 441780
    },
    {
      "epoch": 0.9203958333333333,
      "grad_norm": 1.1089357137680054,
      "learning_rate": 4.705173486574271e-06,
      "loss": 3.3068,
      "step": 441790
    },
    {
      "epoch": 0.9204166666666667,
      "grad_norm": 0.9488862752914429,
      "learning_rate": 4.702723960415411e-06,
      "loss": 3.1481,
      "step": 441800
    },
    {
      "epoch": 0.9204375,
      "grad_norm": 1.0974013805389404,
      "learning_rate": 4.700275061883285e-06,
      "loss": 3.2518,
      "step": 441810
    },
    {
      "epoch": 0.9204583333333334,
      "grad_norm": 0.8557797074317932,
      "learning_rate": 4.697826790988435e-06,
      "loss": 3.2333,
      "step": 441820
    },
    {
      "epoch": 0.9204791666666666,
      "grad_norm": 1.004730463027954,
      "learning_rate": 4.695379147741468e-06,
      "loss": 3.305,
      "step": 441830
    },
    {
      "epoch": 0.9205,
      "grad_norm": 0.9957287907600403,
      "learning_rate": 4.69293213215296e-06,
      "loss": 3.3355,
      "step": 441840
    },
    {
      "epoch": 0.9205208333333333,
      "grad_norm": 0.9341433048248291,
      "learning_rate": 4.690485744233452e-06,
      "loss": 3.3857,
      "step": 441850
    },
    {
      "epoch": 0.9205416666666667,
      "grad_norm": 0.896514892578125,
      "learning_rate": 4.688039983993519e-06,
      "loss": 3.2344,
      "step": 441860
    },
    {
      "epoch": 0.9205625,
      "grad_norm": 0.8297764658927917,
      "learning_rate": 4.685594851443769e-06,
      "loss": 3.257,
      "step": 441870
    },
    {
      "epoch": 0.9205833333333333,
      "grad_norm": 1.1997781991958618,
      "learning_rate": 4.683150346594694e-06,
      "loss": 3.3246,
      "step": 441880
    },
    {
      "epoch": 0.9206041666666667,
      "grad_norm": 0.9400631189346313,
      "learning_rate": 4.680706469456902e-06,
      "loss": 3.1956,
      "step": 441890
    },
    {
      "epoch": 0.920625,
      "grad_norm": 0.9838118553161621,
      "learning_rate": 4.678263220040967e-06,
      "loss": 3.3031,
      "step": 441900
    },
    {
      "epoch": 0.9206458333333334,
      "grad_norm": 0.9243825674057007,
      "learning_rate": 4.675820598357382e-06,
      "loss": 3.2042,
      "step": 441910
    },
    {
      "epoch": 0.9206666666666666,
      "grad_norm": 0.8542307019233704,
      "learning_rate": 4.673378604416722e-06,
      "loss": 3.24,
      "step": 441920
    },
    {
      "epoch": 0.9206875,
      "grad_norm": 0.9953093528747559,
      "learning_rate": 4.6709372382295606e-06,
      "loss": 3.4467,
      "step": 441930
    },
    {
      "epoch": 0.9207083333333334,
      "grad_norm": 0.8745483756065369,
      "learning_rate": 4.668496499806423e-06,
      "loss": 3.2843,
      "step": 441940
    },
    {
      "epoch": 0.9207291666666667,
      "grad_norm": 0.8657350540161133,
      "learning_rate": 4.6660563891578516e-06,
      "loss": 3.3279,
      "step": 441950
    },
    {
      "epoch": 0.92075,
      "grad_norm": 0.9239023327827454,
      "learning_rate": 4.663616906294371e-06,
      "loss": 3.3468,
      "step": 441960
    },
    {
      "epoch": 0.9207708333333333,
      "grad_norm": 0.9291887283325195,
      "learning_rate": 4.661178051226555e-06,
      "loss": 3.2336,
      "step": 441970
    },
    {
      "epoch": 0.9207916666666667,
      "grad_norm": 0.9098919034004211,
      "learning_rate": 4.65873982396493e-06,
      "loss": 3.4209,
      "step": 441980
    },
    {
      "epoch": 0.9208125,
      "grad_norm": 1.1231539249420166,
      "learning_rate": 4.656302224520003e-06,
      "loss": 3.3941,
      "step": 441990
    },
    {
      "epoch": 0.9208333333333333,
      "grad_norm": 0.9601020216941833,
      "learning_rate": 4.6538652529023164e-06,
      "loss": 3.3046,
      "step": 442000
    },
    {
      "epoch": 0.9208333333333333,
      "eval_loss": 4.023460388183594,
      "eval_runtime": 7.9303,
      "eval_samples_per_second": 1.261,
      "eval_steps_per_second": 0.378,
      "step": 442000
    },
    {
      "epoch": 0.9208541666666666,
      "grad_norm": 1.0081177949905396,
      "learning_rate": 4.651428909122412e-06,
      "loss": 3.4086,
      "step": 442010
    },
    {
      "epoch": 0.920875,
      "grad_norm": 1.02199125289917,
      "learning_rate": 4.648993193190798e-06,
      "loss": 3.1747,
      "step": 442020
    },
    {
      "epoch": 0.9208958333333334,
      "grad_norm": 0.8469910621643066,
      "learning_rate": 4.646558105117998e-06,
      "loss": 3.3922,
      "step": 442030
    },
    {
      "epoch": 0.9209166666666667,
      "grad_norm": 15.37883186340332,
      "learning_rate": 4.644123644914538e-06,
      "loss": 3.3401,
      "step": 442040
    },
    {
      "epoch": 0.9209375,
      "grad_norm": 0.9118816256523132,
      "learning_rate": 4.6416898125909095e-06,
      "loss": 3.2391,
      "step": 442050
    },
    {
      "epoch": 0.9209583333333333,
      "grad_norm": 0.8985366821289062,
      "learning_rate": 4.639256608157654e-06,
      "loss": 3.3187,
      "step": 442060
    },
    {
      "epoch": 0.9209791666666667,
      "grad_norm": 0.8873645067214966,
      "learning_rate": 4.63682403162528e-06,
      "loss": 3.2601,
      "step": 442070
    },
    {
      "epoch": 0.921,
      "grad_norm": 0.9963721036911011,
      "learning_rate": 4.6343920830042794e-06,
      "loss": 3.1114,
      "step": 442080
    },
    {
      "epoch": 0.9210208333333333,
      "grad_norm": 0.9792134761810303,
      "learning_rate": 4.6319607623051754e-06,
      "loss": 3.3282,
      "step": 442090
    },
    {
      "epoch": 0.9210416666666666,
      "grad_norm": 0.8998473286628723,
      "learning_rate": 4.629530069538445e-06,
      "loss": 3.1941,
      "step": 442100
    },
    {
      "epoch": 0.9210625,
      "grad_norm": 0.9026371240615845,
      "learning_rate": 4.627100004714613e-06,
      "loss": 3.3259,
      "step": 442110
    },
    {
      "epoch": 0.9210833333333334,
      "grad_norm": 0.9689127206802368,
      "learning_rate": 4.624670567844169e-06,
      "loss": 3.3391,
      "step": 442120
    },
    {
      "epoch": 0.9211041666666666,
      "grad_norm": 1.0257776975631714,
      "learning_rate": 4.622241758937606e-06,
      "loss": 3.2612,
      "step": 442130
    },
    {
      "epoch": 0.921125,
      "grad_norm": 1.1307305097579956,
      "learning_rate": 4.619813578005399e-06,
      "loss": 3.3826,
      "step": 442140
    },
    {
      "epoch": 0.9211458333333333,
      "grad_norm": 1.0190526247024536,
      "learning_rate": 4.617386025058073e-06,
      "loss": 3.3429,
      "step": 442150
    },
    {
      "epoch": 0.9211666666666667,
      "grad_norm": 1.0517257452011108,
      "learning_rate": 4.614959100106069e-06,
      "loss": 3.3703,
      "step": 442160
    },
    {
      "epoch": 0.9211875,
      "grad_norm": 0.9290311932563782,
      "learning_rate": 4.612532803159913e-06,
      "loss": 3.3868,
      "step": 442170
    },
    {
      "epoch": 0.9212083333333333,
      "grad_norm": 1.0079411268234253,
      "learning_rate": 4.610107134230079e-06,
      "loss": 3.3634,
      "step": 442180
    },
    {
      "epoch": 0.9212291666666667,
      "grad_norm": 0.9114252924919128,
      "learning_rate": 4.607682093327009e-06,
      "loss": 3.2776,
      "step": 442190
    },
    {
      "epoch": 0.92125,
      "grad_norm": 0.9625210165977478,
      "learning_rate": 4.605257680461194e-06,
      "loss": 3.332,
      "step": 442200
    },
    {
      "epoch": 0.9212708333333334,
      "grad_norm": 1.203086018562317,
      "learning_rate": 4.602833895643143e-06,
      "loss": 3.3843,
      "step": 442210
    },
    {
      "epoch": 0.9212916666666666,
      "grad_norm": 0.874916672706604,
      "learning_rate": 4.6004107388832815e-06,
      "loss": 3.3027,
      "step": 442220
    },
    {
      "epoch": 0.9213125,
      "grad_norm": 0.9208806157112122,
      "learning_rate": 4.597988210192083e-06,
      "loss": 3.3469,
      "step": 442230
    },
    {
      "epoch": 0.9213333333333333,
      "grad_norm": 0.9843727946281433,
      "learning_rate": 4.59556630958004e-06,
      "loss": 3.3184,
      "step": 442240
    },
    {
      "epoch": 0.9213541666666667,
      "grad_norm": 0.9607860445976257,
      "learning_rate": 4.593145037057594e-06,
      "loss": 3.1655,
      "step": 442250
    },
    {
      "epoch": 0.921375,
      "grad_norm": 0.9089317321777344,
      "learning_rate": 4.59072439263517e-06,
      "loss": 3.3287,
      "step": 442260
    },
    {
      "epoch": 0.9213958333333333,
      "grad_norm": 1.0294809341430664,
      "learning_rate": 4.5883043763233095e-06,
      "loss": 3.3593,
      "step": 442270
    },
    {
      "epoch": 0.9214166666666667,
      "grad_norm": 0.815060019493103,
      "learning_rate": 4.5858849881324046e-06,
      "loss": 3.2928,
      "step": 442280
    },
    {
      "epoch": 0.9214375,
      "grad_norm": 0.8811498284339905,
      "learning_rate": 4.58346622807288e-06,
      "loss": 3.3792,
      "step": 442290
    },
    {
      "epoch": 0.9214583333333334,
      "grad_norm": 0.9853058457374573,
      "learning_rate": 4.581048096155276e-06,
      "loss": 3.3528,
      "step": 442300
    },
    {
      "epoch": 0.9214791666666666,
      "grad_norm": 0.9646167159080505,
      "learning_rate": 4.578630592389953e-06,
      "loss": 3.2671,
      "step": 442310
    },
    {
      "epoch": 0.9215,
      "grad_norm": 0.9562594890594482,
      "learning_rate": 4.576213716787385e-06,
      "loss": 3.4785,
      "step": 442320
    },
    {
      "epoch": 0.9215208333333333,
      "grad_norm": 0.9540192484855652,
      "learning_rate": 4.573797469358015e-06,
      "loss": 3.3441,
      "step": 442330
    },
    {
      "epoch": 0.9215416666666667,
      "grad_norm": 0.8789460062980652,
      "learning_rate": 4.571381850112266e-06,
      "loss": 3.3201,
      "step": 442340
    },
    {
      "epoch": 0.9215625,
      "grad_norm": 0.8400827646255493,
      "learning_rate": 4.568966859060597e-06,
      "loss": 3.3221,
      "step": 442350
    },
    {
      "epoch": 0.9215833333333333,
      "grad_norm": 1.0635948181152344,
      "learning_rate": 4.566552496213416e-06,
      "loss": 3.3482,
      "step": 442360
    },
    {
      "epoch": 0.9216041666666667,
      "grad_norm": 0.9427287578582764,
      "learning_rate": 4.564138761581165e-06,
      "loss": 3.2868,
      "step": 442370
    },
    {
      "epoch": 0.921625,
      "grad_norm": 0.9405317306518555,
      "learning_rate": 4.56172565517427e-06,
      "loss": 3.191,
      "step": 442380
    },
    {
      "epoch": 0.9216458333333334,
      "grad_norm": 0.8816162943840027,
      "learning_rate": 4.559313177003155e-06,
      "loss": 3.2811,
      "step": 442390
    },
    {
      "epoch": 0.9216666666666666,
      "grad_norm": 0.8568834662437439,
      "learning_rate": 4.5569013270782275e-06,
      "loss": 3.453,
      "step": 442400
    },
    {
      "epoch": 0.9216875,
      "grad_norm": 0.9380325078964233,
      "learning_rate": 4.55449010540993e-06,
      "loss": 3.4095,
      "step": 442410
    },
    {
      "epoch": 0.9217083333333334,
      "grad_norm": 0.8579555749893188,
      "learning_rate": 4.552079512008655e-06,
      "loss": 3.242,
      "step": 442420
    },
    {
      "epoch": 0.9217291666666667,
      "grad_norm": 0.9653489589691162,
      "learning_rate": 4.549669546884827e-06,
      "loss": 3.4249,
      "step": 442430
    },
    {
      "epoch": 0.92175,
      "grad_norm": 0.9219890236854553,
      "learning_rate": 4.5472602100488365e-06,
      "loss": 3.2368,
      "step": 442440
    },
    {
      "epoch": 0.9217708333333333,
      "grad_norm": 0.9296197891235352,
      "learning_rate": 4.544851501511126e-06,
      "loss": 3.3041,
      "step": 442450
    },
    {
      "epoch": 0.9217916666666667,
      "grad_norm": 0.9302663207054138,
      "learning_rate": 4.542443421282072e-06,
      "loss": 3.2891,
      "step": 442460
    },
    {
      "epoch": 0.9218125,
      "grad_norm": 0.9643534421920776,
      "learning_rate": 4.5400359693720966e-06,
      "loss": 3.3144,
      "step": 442470
    },
    {
      "epoch": 0.9218333333333333,
      "grad_norm": 0.9131693840026855,
      "learning_rate": 4.5376291457915935e-06,
      "loss": 3.4337,
      "step": 442480
    },
    {
      "epoch": 0.9218541666666666,
      "grad_norm": 0.8846778273582458,
      "learning_rate": 4.535222950550937e-06,
      "loss": 3.214,
      "step": 442490
    },
    {
      "epoch": 0.921875,
      "grad_norm": 1.0311121940612793,
      "learning_rate": 4.53281738366057e-06,
      "loss": 3.4385,
      "step": 442500
    },
    {
      "epoch": 0.9218958333333334,
      "grad_norm": 0.9386128783226013,
      "learning_rate": 4.530412445130799e-06,
      "loss": 3.2895,
      "step": 442510
    },
    {
      "epoch": 0.9219166666666667,
      "grad_norm": 0.8368187546730042,
      "learning_rate": 4.5280081349721e-06,
      "loss": 3.2826,
      "step": 442520
    },
    {
      "epoch": 0.9219375,
      "grad_norm": 1.0994027853012085,
      "learning_rate": 4.525604453194831e-06,
      "loss": 3.3893,
      "step": 442530
    },
    {
      "epoch": 0.9219583333333333,
      "grad_norm": 0.9101421236991882,
      "learning_rate": 4.523201399809351e-06,
      "loss": 3.3984,
      "step": 442540
    },
    {
      "epoch": 0.9219791666666667,
      "grad_norm": 0.8873364329338074,
      "learning_rate": 4.520798974826068e-06,
      "loss": 3.2245,
      "step": 442550
    },
    {
      "epoch": 0.922,
      "grad_norm": 0.8222243189811707,
      "learning_rate": 4.518397178255339e-06,
      "loss": 3.2682,
      "step": 442560
    },
    {
      "epoch": 0.9220208333333333,
      "grad_norm": 0.9019856452941895,
      "learning_rate": 4.515996010107542e-06,
      "loss": 3.3597,
      "step": 442570
    },
    {
      "epoch": 0.9220416666666666,
      "grad_norm": 0.9721619486808777,
      "learning_rate": 4.513595470393084e-06,
      "loss": 3.2651,
      "step": 442580
    },
    {
      "epoch": 0.9220625,
      "grad_norm": 0.8878334760665894,
      "learning_rate": 4.5111955591222885e-06,
      "loss": 3.3746,
      "step": 442590
    },
    {
      "epoch": 0.9220833333333334,
      "grad_norm": 0.8436391353607178,
      "learning_rate": 4.508796276305515e-06,
      "loss": 3.4022,
      "step": 442600
    },
    {
      "epoch": 0.9221041666666666,
      "grad_norm": 0.9782798886299133,
      "learning_rate": 4.506397621953189e-06,
      "loss": 3.2451,
      "step": 442610
    },
    {
      "epoch": 0.922125,
      "grad_norm": 1.1763567924499512,
      "learning_rate": 4.503999596075636e-06,
      "loss": 3.2466,
      "step": 442620
    },
    {
      "epoch": 0.9221458333333333,
      "grad_norm": 0.8832420110702515,
      "learning_rate": 4.5016021986831795e-06,
      "loss": 3.3279,
      "step": 442630
    },
    {
      "epoch": 0.9221666666666667,
      "grad_norm": 0.9667492508888245,
      "learning_rate": 4.499205429786246e-06,
      "loss": 3.3797,
      "step": 442640
    },
    {
      "epoch": 0.9221875,
      "grad_norm": 1.07938551902771,
      "learning_rate": 4.496809289395126e-06,
      "loss": 3.3458,
      "step": 442650
    },
    {
      "epoch": 0.9222083333333333,
      "grad_norm": 0.9886583089828491,
      "learning_rate": 4.494413777520195e-06,
      "loss": 3.352,
      "step": 442660
    },
    {
      "epoch": 0.9222291666666667,
      "grad_norm": 0.8816525936126709,
      "learning_rate": 4.492018894171828e-06,
      "loss": 3.3442,
      "step": 442670
    },
    {
      "epoch": 0.92225,
      "grad_norm": 0.8908804059028625,
      "learning_rate": 4.489624639360334e-06,
      "loss": 3.3526,
      "step": 442680
    },
    {
      "epoch": 0.9222708333333334,
      "grad_norm": 0.929212212562561,
      "learning_rate": 4.487231013096054e-06,
      "loss": 3.3444,
      "step": 442690
    },
    {
      "epoch": 0.9222916666666666,
      "grad_norm": 0.9009842276573181,
      "learning_rate": 4.48483801538933e-06,
      "loss": 3.3706,
      "step": 442700
    },
    {
      "epoch": 0.9223125,
      "grad_norm": 1.0129977464675903,
      "learning_rate": 4.482445646250521e-06,
      "loss": 3.291,
      "step": 442710
    },
    {
      "epoch": 0.9223333333333333,
      "grad_norm": 0.9083410501480103,
      "learning_rate": 4.480053905689951e-06,
      "loss": 3.4768,
      "step": 442720
    },
    {
      "epoch": 0.9223541666666667,
      "grad_norm": 0.8924696445465088,
      "learning_rate": 4.4776627937179286e-06,
      "loss": 3.2516,
      "step": 442730
    },
    {
      "epoch": 0.922375,
      "grad_norm": 0.9140505790710449,
      "learning_rate": 4.475272310344813e-06,
      "loss": 3.2534,
      "step": 442740
    },
    {
      "epoch": 0.9223958333333333,
      "grad_norm": 0.8559821248054504,
      "learning_rate": 4.472882455580929e-06,
      "loss": 3.2968,
      "step": 442750
    },
    {
      "epoch": 0.9224166666666667,
      "grad_norm": 0.9609760642051697,
      "learning_rate": 4.470493229436583e-06,
      "loss": 3.3235,
      "step": 442760
    },
    {
      "epoch": 0.9224375,
      "grad_norm": 0.945985734462738,
      "learning_rate": 4.468104631922087e-06,
      "loss": 3.2162,
      "step": 442770
    },
    {
      "epoch": 0.9224583333333334,
      "grad_norm": 0.9906806349754333,
      "learning_rate": 4.4657166630477806e-06,
      "loss": 3.3127,
      "step": 442780
    },
    {
      "epoch": 0.9224791666666666,
      "grad_norm": 0.9341220259666443,
      "learning_rate": 4.463329322823989e-06,
      "loss": 3.2946,
      "step": 442790
    },
    {
      "epoch": 0.9225,
      "grad_norm": 0.8509528040885925,
      "learning_rate": 4.4609426112609865e-06,
      "loss": 3.3184,
      "step": 442800
    },
    {
      "epoch": 0.9225208333333333,
      "grad_norm": 0.9025301933288574,
      "learning_rate": 4.458556528369117e-06,
      "loss": 3.307,
      "step": 442810
    },
    {
      "epoch": 0.9225416666666667,
      "grad_norm": 0.9831939935684204,
      "learning_rate": 4.456171074158654e-06,
      "loss": 3.2932,
      "step": 442820
    },
    {
      "epoch": 0.9225625,
      "grad_norm": 0.9578948616981506,
      "learning_rate": 4.45378624863994e-06,
      "loss": 3.404,
      "step": 442830
    },
    {
      "epoch": 0.9225833333333333,
      "grad_norm": 0.9798824787139893,
      "learning_rate": 4.451402051823266e-06,
      "loss": 3.2548,
      "step": 442840
    },
    {
      "epoch": 0.9226041666666667,
      "grad_norm": 0.9763019680976868,
      "learning_rate": 4.449018483718892e-06,
      "loss": 3.2696,
      "step": 442850
    },
    {
      "epoch": 0.922625,
      "grad_norm": 0.9594005942344666,
      "learning_rate": 4.446635544337173e-06,
      "loss": 3.3162,
      "step": 442860
    },
    {
      "epoch": 0.9226458333333334,
      "grad_norm": 0.8998394012451172,
      "learning_rate": 4.444253233688372e-06,
      "loss": 3.277,
      "step": 442870
    },
    {
      "epoch": 0.9226666666666666,
      "grad_norm": 0.9287571310997009,
      "learning_rate": 4.4418715517827605e-06,
      "loss": 3.3388,
      "step": 442880
    },
    {
      "epoch": 0.9226875,
      "grad_norm": 0.8617585301399231,
      "learning_rate": 4.439490498630666e-06,
      "loss": 3.2485,
      "step": 442890
    },
    {
      "epoch": 0.9227083333333334,
      "grad_norm": 1.0042426586151123,
      "learning_rate": 4.437110074242362e-06,
      "loss": 3.2683,
      "step": 442900
    },
    {
      "epoch": 0.9227291666666667,
      "grad_norm": 0.903735339641571,
      "learning_rate": 4.434730278628107e-06,
      "loss": 3.3656,
      "step": 442910
    },
    {
      "epoch": 0.92275,
      "grad_norm": 1.0228215456008911,
      "learning_rate": 4.432351111798193e-06,
      "loss": 3.2858,
      "step": 442920
    },
    {
      "epoch": 0.9227708333333333,
      "grad_norm": 0.8980002999305725,
      "learning_rate": 4.429972573762947e-06,
      "loss": 3.2922,
      "step": 442930
    },
    {
      "epoch": 0.9227916666666667,
      "grad_norm": 0.9326900243759155,
      "learning_rate": 4.427594664532541e-06,
      "loss": 3.2693,
      "step": 442940
    },
    {
      "epoch": 0.9228125,
      "grad_norm": 0.8650408983230591,
      "learning_rate": 4.425217384117352e-06,
      "loss": 3.2716,
      "step": 442950
    },
    {
      "epoch": 0.9228333333333333,
      "grad_norm": 0.8538467288017273,
      "learning_rate": 4.422840732527571e-06,
      "loss": 3.2593,
      "step": 442960
    },
    {
      "epoch": 0.9228541666666666,
      "grad_norm": 0.8748404383659363,
      "learning_rate": 4.420464709773491e-06,
      "loss": 3.3091,
      "step": 442970
    },
    {
      "epoch": 0.922875,
      "grad_norm": 1.0520336627960205,
      "learning_rate": 4.418089315865403e-06,
      "loss": 3.4132,
      "step": 442980
    },
    {
      "epoch": 0.9228958333333334,
      "grad_norm": 0.92153400182724,
      "learning_rate": 4.4157145508135315e-06,
      "loss": 3.3082,
      "step": 442990
    },
    {
      "epoch": 0.9229166666666667,
      "grad_norm": 0.8407340049743652,
      "learning_rate": 4.413340414628136e-06,
      "loss": 3.3348,
      "step": 443000
    },
    {
      "epoch": 0.9229166666666667,
      "eval_loss": 4.024473667144775,
      "eval_runtime": 8.7415,
      "eval_samples_per_second": 1.144,
      "eval_steps_per_second": 0.343,
      "step": 443000
    },
    {
      "epoch": 0.9229375,
      "grad_norm": 0.9225472211837769,
      "learning_rate": 4.410966907319508e-06,
      "loss": 3.2573,
      "step": 443010
    },
    {
      "epoch": 0.9229583333333333,
      "grad_norm": 0.9939712285995483,
      "learning_rate": 4.408594028897871e-06,
      "loss": 3.3379,
      "step": 443020
    },
    {
      "epoch": 0.9229791666666667,
      "grad_norm": 0.8997473120689392,
      "learning_rate": 4.406221779373453e-06,
      "loss": 3.3171,
      "step": 443030
    },
    {
      "epoch": 0.923,
      "grad_norm": 0.9002619385719299,
      "learning_rate": 4.4038501587565615e-06,
      "loss": 3.3741,
      "step": 443040
    },
    {
      "epoch": 0.9230208333333333,
      "grad_norm": 0.9080521464347839,
      "learning_rate": 4.401479167057387e-06,
      "loss": 3.1502,
      "step": 443050
    },
    {
      "epoch": 0.9230416666666666,
      "grad_norm": 0.9321728944778442,
      "learning_rate": 4.399108804286189e-06,
      "loss": 3.3529,
      "step": 443060
    },
    {
      "epoch": 0.9230625,
      "grad_norm": 0.992594838142395,
      "learning_rate": 4.3967390704532095e-06,
      "loss": 3.363,
      "step": 443070
    },
    {
      "epoch": 0.9230833333333334,
      "grad_norm": 1.0869140625,
      "learning_rate": 4.3943699655686895e-06,
      "loss": 3.3627,
      "step": 443080
    },
    {
      "epoch": 0.9231041666666666,
      "grad_norm": 0.8778936266899109,
      "learning_rate": 4.392001489642854e-06,
      "loss": 3.338,
      "step": 443090
    },
    {
      "epoch": 0.923125,
      "grad_norm": 0.8798846006393433,
      "learning_rate": 4.38963364268593e-06,
      "loss": 3.289,
      "step": 443100
    },
    {
      "epoch": 0.9231458333333333,
      "grad_norm": 0.8186122179031372,
      "learning_rate": 4.387266424708158e-06,
      "loss": 3.2535,
      "step": 443110
    },
    {
      "epoch": 0.9231666666666667,
      "grad_norm": 0.9882424473762512,
      "learning_rate": 4.384899835719746e-06,
      "loss": 3.3566,
      "step": 443120
    },
    {
      "epoch": 0.9231875,
      "grad_norm": 0.9060881733894348,
      "learning_rate": 4.382533875730937e-06,
      "loss": 3.2919,
      "step": 443130
    },
    {
      "epoch": 0.9232083333333333,
      "grad_norm": 0.975588321685791,
      "learning_rate": 4.3801685447519554e-06,
      "loss": 3.4037,
      "step": 443140
    },
    {
      "epoch": 0.9232291666666667,
      "grad_norm": 0.9084935784339905,
      "learning_rate": 4.377803842792993e-06,
      "loss": 3.307,
      "step": 443150
    },
    {
      "epoch": 0.92325,
      "grad_norm": 0.9693437218666077,
      "learning_rate": 4.375439769864275e-06,
      "loss": 3.5627,
      "step": 443160
    },
    {
      "epoch": 0.9232708333333334,
      "grad_norm": 1.0411633253097534,
      "learning_rate": 4.373076325976011e-06,
      "loss": 3.3682,
      "step": 443170
    },
    {
      "epoch": 0.9232916666666666,
      "grad_norm": 0.8802589178085327,
      "learning_rate": 4.370713511138441e-06,
      "loss": 3.3454,
      "step": 443180
    },
    {
      "epoch": 0.9233125,
      "grad_norm": 0.8587555289268494,
      "learning_rate": 4.3683513253617075e-06,
      "loss": 3.2719,
      "step": 443190
    },
    {
      "epoch": 0.9233333333333333,
      "grad_norm": 0.9559451937675476,
      "learning_rate": 4.36598976865607e-06,
      "loss": 3.387,
      "step": 443200
    },
    {
      "epoch": 0.9233541666666667,
      "grad_norm": 1.241556167602539,
      "learning_rate": 4.363628841031719e-06,
      "loss": 3.2328,
      "step": 443210
    },
    {
      "epoch": 0.923375,
      "grad_norm": 0.9737104177474976,
      "learning_rate": 4.361268542498814e-06,
      "loss": 3.3415,
      "step": 443220
    },
    {
      "epoch": 0.9233958333333333,
      "grad_norm": 0.7971464991569519,
      "learning_rate": 4.358908873067613e-06,
      "loss": 3.2695,
      "step": 443230
    },
    {
      "epoch": 0.9234166666666667,
      "grad_norm": 0.9872907400131226,
      "learning_rate": 4.356549832748274e-06,
      "loss": 3.3305,
      "step": 443240
    },
    {
      "epoch": 0.9234375,
      "grad_norm": 0.9281126856803894,
      "learning_rate": 4.354191421550957e-06,
      "loss": 3.3175,
      "step": 443250
    },
    {
      "epoch": 0.9234583333333334,
      "grad_norm": 0.8907554745674133,
      "learning_rate": 4.351833639485918e-06,
      "loss": 3.2543,
      "step": 443260
    },
    {
      "epoch": 0.9234791666666666,
      "grad_norm": 0.8446022868156433,
      "learning_rate": 4.349476486563302e-06,
      "loss": 3.14,
      "step": 443270
    },
    {
      "epoch": 0.9235,
      "grad_norm": 0.9477726221084595,
      "learning_rate": 4.347119962793283e-06,
      "loss": 3.4063,
      "step": 443280
    },
    {
      "epoch": 0.9235208333333333,
      "grad_norm": 0.8740182518959045,
      "learning_rate": 4.344764068186052e-06,
      "loss": 3.3201,
      "step": 443290
    },
    {
      "epoch": 0.9235416666666667,
      "grad_norm": 0.8945087790489197,
      "learning_rate": 4.3424088027518015e-06,
      "loss": 3.2722,
      "step": 443300
    },
    {
      "epoch": 0.9235625,
      "grad_norm": 0.9189491868019104,
      "learning_rate": 4.340054166500673e-06,
      "loss": 3.1906,
      "step": 443310
    },
    {
      "epoch": 0.9235833333333333,
      "grad_norm": 0.8700615167617798,
      "learning_rate": 4.337700159442875e-06,
      "loss": 3.2667,
      "step": 443320
    },
    {
      "epoch": 0.9236041666666667,
      "grad_norm": 0.982889711856842,
      "learning_rate": 4.335346781588534e-06,
      "loss": 3.2093,
      "step": 443330
    },
    {
      "epoch": 0.923625,
      "grad_norm": 0.9495007991790771,
      "learning_rate": 4.332994032947823e-06,
      "loss": 3.3946,
      "step": 443340
    },
    {
      "epoch": 0.9236458333333334,
      "grad_norm": 0.8831034302711487,
      "learning_rate": 4.330641913530952e-06,
      "loss": 3.3044,
      "step": 443350
    },
    {
      "epoch": 0.9236666666666666,
      "grad_norm": 0.9694277048110962,
      "learning_rate": 4.328290423348046e-06,
      "loss": 3.3328,
      "step": 443360
    },
    {
      "epoch": 0.9236875,
      "grad_norm": 0.8780521154403687,
      "learning_rate": 4.325939562409247e-06,
      "loss": 3.248,
      "step": 443370
    },
    {
      "epoch": 0.9237083333333334,
      "grad_norm": 0.9171971678733826,
      "learning_rate": 4.32358933072473e-06,
      "loss": 3.2756,
      "step": 443380
    },
    {
      "epoch": 0.9237291666666667,
      "grad_norm": 1.0914559364318848,
      "learning_rate": 4.321239728304654e-06,
      "loss": 3.3614,
      "step": 443390
    },
    {
      "epoch": 0.92375,
      "grad_norm": 0.9514573216438293,
      "learning_rate": 4.31889075515916e-06,
      "loss": 3.2118,
      "step": 443400
    },
    {
      "epoch": 0.9237708333333333,
      "grad_norm": 0.8811207413673401,
      "learning_rate": 4.316542411298374e-06,
      "loss": 3.4235,
      "step": 443410
    },
    {
      "epoch": 0.9237916666666667,
      "grad_norm": 0.9236698746681213,
      "learning_rate": 4.31419469673247e-06,
      "loss": 3.2749,
      "step": 443420
    },
    {
      "epoch": 0.9238125,
      "grad_norm": 0.9575994610786438,
      "learning_rate": 4.3118476114715915e-06,
      "loss": 3.3348,
      "step": 443430
    },
    {
      "epoch": 0.9238333333333333,
      "grad_norm": 0.9322426915168762,
      "learning_rate": 4.3095011555258466e-06,
      "loss": 3.2931,
      "step": 443440
    },
    {
      "epoch": 0.9238541666666666,
      "grad_norm": 0.9174917340278625,
      "learning_rate": 4.3071553289053924e-06,
      "loss": 3.3505,
      "step": 443450
    },
    {
      "epoch": 0.923875,
      "grad_norm": 1.063800573348999,
      "learning_rate": 4.304810131620356e-06,
      "loss": 3.258,
      "step": 443460
    },
    {
      "epoch": 0.9238958333333334,
      "grad_norm": 0.8463537693023682,
      "learning_rate": 4.302465563680879e-06,
      "loss": 3.2055,
      "step": 443470
    },
    {
      "epoch": 0.9239166666666667,
      "grad_norm": 1.0321274995803833,
      "learning_rate": 4.30012162509707e-06,
      "loss": 3.2796,
      "step": 443480
    },
    {
      "epoch": 0.9239375,
      "grad_norm": 0.9258730411529541,
      "learning_rate": 4.297778315879069e-06,
      "loss": 3.3165,
      "step": 443490
    },
    {
      "epoch": 0.9239583333333333,
      "grad_norm": 0.9511173367500305,
      "learning_rate": 4.295435636036987e-06,
      "loss": 3.3756,
      "step": 443500
    },
    {
      "epoch": 0.9239791666666667,
      "grad_norm": 0.9164072871208191,
      "learning_rate": 4.293093585580964e-06,
      "loss": 3.278,
      "step": 443510
    },
    {
      "epoch": 0.924,
      "grad_norm": 0.952430784702301,
      "learning_rate": 4.290752164521094e-06,
      "loss": 3.2415,
      "step": 443520
    },
    {
      "epoch": 0.9240208333333333,
      "grad_norm": 0.8906213045120239,
      "learning_rate": 4.288411372867484e-06,
      "loss": 3.3193,
      "step": 443530
    },
    {
      "epoch": 0.9240416666666667,
      "grad_norm": 0.896496593952179,
      "learning_rate": 4.286071210630276e-06,
      "loss": 3.2831,
      "step": 443540
    },
    {
      "epoch": 0.9240625,
      "grad_norm": 0.9387001991271973,
      "learning_rate": 4.2837316778195795e-06,
      "loss": 3.2299,
      "step": 443550
    },
    {
      "epoch": 0.9240833333333334,
      "grad_norm": 0.9565340876579285,
      "learning_rate": 4.2813927744454526e-06,
      "loss": 3.2503,
      "step": 443560
    },
    {
      "epoch": 0.9241041666666666,
      "grad_norm": 0.857134222984314,
      "learning_rate": 4.279054500518037e-06,
      "loss": 3.3115,
      "step": 443570
    },
    {
      "epoch": 0.924125,
      "grad_norm": 0.8962899446487427,
      "learning_rate": 4.276716856047441e-06,
      "loss": 3.3672,
      "step": 443580
    },
    {
      "epoch": 0.9241458333333333,
      "grad_norm": 0.9275144338607788,
      "learning_rate": 4.274379841043723e-06,
      "loss": 3.3265,
      "step": 443590
    },
    {
      "epoch": 0.9241666666666667,
      "grad_norm": 0.9083796739578247,
      "learning_rate": 4.27204345551701e-06,
      "loss": 3.3168,
      "step": 443600
    },
    {
      "epoch": 0.9241875,
      "grad_norm": 1.2235044240951538,
      "learning_rate": 4.269707699477409e-06,
      "loss": 3.3598,
      "step": 443610
    },
    {
      "epoch": 0.9242083333333333,
      "grad_norm": 0.9867762327194214,
      "learning_rate": 4.2673725729349465e-06,
      "loss": 3.3296,
      "step": 443620
    },
    {
      "epoch": 0.9242291666666667,
      "grad_norm": 0.860177755355835,
      "learning_rate": 4.265038075899779e-06,
      "loss": 3.3711,
      "step": 443630
    },
    {
      "epoch": 0.92425,
      "grad_norm": 0.8908105492591858,
      "learning_rate": 4.262704208381968e-06,
      "loss": 3.3207,
      "step": 443640
    },
    {
      "epoch": 0.9242708333333334,
      "grad_norm": 1.0855261087417603,
      "learning_rate": 4.260370970391569e-06,
      "loss": 3.2319,
      "step": 443650
    },
    {
      "epoch": 0.9242916666666666,
      "grad_norm": 1.0311487913131714,
      "learning_rate": 4.258038361938659e-06,
      "loss": 3.1978,
      "step": 443660
    },
    {
      "epoch": 0.9243125,
      "grad_norm": 0.8555296659469604,
      "learning_rate": 4.2557063830333804e-06,
      "loss": 3.1962,
      "step": 443670
    },
    {
      "epoch": 0.9243333333333333,
      "grad_norm": 0.8591926693916321,
      "learning_rate": 4.253375033685741e-06,
      "loss": 3.2672,
      "step": 443680
    },
    {
      "epoch": 0.9243541666666667,
      "grad_norm": 0.9416162967681885,
      "learning_rate": 4.251044313905833e-06,
      "loss": 3.3362,
      "step": 443690
    },
    {
      "epoch": 0.924375,
      "grad_norm": 0.8594782948493958,
      "learning_rate": 4.248714223703714e-06,
      "loss": 3.3534,
      "step": 443700
    },
    {
      "epoch": 0.9243958333333333,
      "grad_norm": 1.0836561918258667,
      "learning_rate": 4.246384763089461e-06,
      "loss": 3.4445,
      "step": 443710
    },
    {
      "epoch": 0.9244166666666667,
      "grad_norm": 0.9108142256736755,
      "learning_rate": 4.2440559320731315e-06,
      "loss": 3.5089,
      "step": 443720
    },
    {
      "epoch": 0.9244375,
      "grad_norm": 0.987701416015625,
      "learning_rate": 4.2417277306647845e-06,
      "loss": 3.344,
      "step": 443730
    },
    {
      "epoch": 0.9244583333333334,
      "grad_norm": 0.9131966233253479,
      "learning_rate": 4.239400158874495e-06,
      "loss": 3.2378,
      "step": 443740
    },
    {
      "epoch": 0.9244791666666666,
      "grad_norm": 0.9088271260261536,
      "learning_rate": 4.2370732167122724e-06,
      "loss": 3.138,
      "step": 443750
    },
    {
      "epoch": 0.9245,
      "grad_norm": 0.9058907628059387,
      "learning_rate": 4.2347469041882245e-06,
      "loss": 3.2904,
      "step": 443760
    },
    {
      "epoch": 0.9245208333333333,
      "grad_norm": 0.926258385181427,
      "learning_rate": 4.23242122131236e-06,
      "loss": 3.3425,
      "step": 443770
    },
    {
      "epoch": 0.9245416666666667,
      "grad_norm": 0.9929816722869873,
      "learning_rate": 4.230096168094737e-06,
      "loss": 3.2731,
      "step": 443780
    },
    {
      "epoch": 0.9245625,
      "grad_norm": 0.9222107529640198,
      "learning_rate": 4.227771744545383e-06,
      "loss": 3.3002,
      "step": 443790
    },
    {
      "epoch": 0.9245833333333333,
      "grad_norm": 0.9174083471298218,
      "learning_rate": 4.225447950674371e-06,
      "loss": 3.3131,
      "step": 443800
    },
    {
      "epoch": 0.9246041666666667,
      "grad_norm": 0.9236379861831665,
      "learning_rate": 4.223124786491727e-06,
      "loss": 3.2576,
      "step": 443810
    },
    {
      "epoch": 0.924625,
      "grad_norm": 0.8260224461555481,
      "learning_rate": 4.220802252007477e-06,
      "loss": 3.2977,
      "step": 443820
    },
    {
      "epoch": 0.9246458333333333,
      "grad_norm": 1.0162299871444702,
      "learning_rate": 4.218480347231662e-06,
      "loss": 3.3146,
      "step": 443830
    },
    {
      "epoch": 0.9246666666666666,
      "grad_norm": 0.9595339298248291,
      "learning_rate": 4.216159072174291e-06,
      "loss": 3.2529,
      "step": 443840
    },
    {
      "epoch": 0.9246875,
      "grad_norm": 0.9687119126319885,
      "learning_rate": 4.213838426845423e-06,
      "loss": 3.444,
      "step": 443850
    },
    {
      "epoch": 0.9247083333333334,
      "grad_norm": 0.8843671083450317,
      "learning_rate": 4.2115184112550656e-06,
      "loss": 3.2393,
      "step": 443860
    },
    {
      "epoch": 0.9247291666666667,
      "grad_norm": 0.9536888003349304,
      "learning_rate": 4.209199025413229e-06,
      "loss": 3.3229,
      "step": 443870
    },
    {
      "epoch": 0.92475,
      "grad_norm": 0.9720796942710876,
      "learning_rate": 4.206880269329954e-06,
      "loss": 3.341,
      "step": 443880
    },
    {
      "epoch": 0.9247708333333333,
      "grad_norm": 0.8361200094223022,
      "learning_rate": 4.20456214301525e-06,
      "loss": 3.3608,
      "step": 443890
    },
    {
      "epoch": 0.9247916666666667,
      "grad_norm": 0.8745158314704895,
      "learning_rate": 4.202244646479125e-06,
      "loss": 3.364,
      "step": 443900
    },
    {
      "epoch": 0.9248125,
      "grad_norm": 0.9679958820343018,
      "learning_rate": 4.199927779731588e-06,
      "loss": 3.3246,
      "step": 443910
    },
    {
      "epoch": 0.9248333333333333,
      "grad_norm": 0.8809124827384949,
      "learning_rate": 4.197611542782664e-06,
      "loss": 3.2909,
      "step": 443920
    },
    {
      "epoch": 0.9248541666666666,
      "grad_norm": 0.917473316192627,
      "learning_rate": 4.1952959356423284e-06,
      "loss": 3.2249,
      "step": 443930
    },
    {
      "epoch": 0.924875,
      "grad_norm": 0.8492096662521362,
      "learning_rate": 4.192980958320607e-06,
      "loss": 3.2065,
      "step": 443940
    },
    {
      "epoch": 0.9248958333333334,
      "grad_norm": 1.1778308153152466,
      "learning_rate": 4.190666610827509e-06,
      "loss": 3.3436,
      "step": 443950
    },
    {
      "epoch": 0.9249166666666667,
      "grad_norm": 0.9208243489265442,
      "learning_rate": 4.188352893173008e-06,
      "loss": 3.231,
      "step": 443960
    },
    {
      "epoch": 0.9249375,
      "grad_norm": 0.9376028180122375,
      "learning_rate": 4.186039805367081e-06,
      "loss": 3.3624,
      "step": 443970
    },
    {
      "epoch": 0.9249583333333333,
      "grad_norm": 1.0547757148742676,
      "learning_rate": 4.183727347419785e-06,
      "loss": 3.2835,
      "step": 443980
    },
    {
      "epoch": 0.9249791666666667,
      "grad_norm": 0.9964588284492493,
      "learning_rate": 4.181415519341047e-06,
      "loss": 3.4498,
      "step": 443990
    },
    {
      "epoch": 0.925,
      "grad_norm": 0.9674772620201111,
      "learning_rate": 4.1791043211408584e-06,
      "loss": 3.3078,
      "step": 444000
    },
    {
      "epoch": 0.925,
      "eval_loss": 4.022644996643066,
      "eval_runtime": 8.7578,
      "eval_samples_per_second": 1.142,
      "eval_steps_per_second": 0.343,
      "step": 444000
    },
    {
      "epoch": 0.9250208333333333,
      "grad_norm": 0.9506622552871704,
      "learning_rate": 4.17679375282926e-06,
      "loss": 3.3895,
      "step": 444010
    },
    {
      "epoch": 0.9250416666666667,
      "grad_norm": 0.8776657581329346,
      "learning_rate": 4.174483814416163e-06,
      "loss": 3.2726,
      "step": 444020
    },
    {
      "epoch": 0.9250625,
      "grad_norm": 0.9630545377731323,
      "learning_rate": 4.172174505911574e-06,
      "loss": 3.2625,
      "step": 444030
    },
    {
      "epoch": 0.9250833333333334,
      "grad_norm": 0.8589518666267395,
      "learning_rate": 4.169865827325486e-06,
      "loss": 3.356,
      "step": 444040
    },
    {
      "epoch": 0.9251041666666666,
      "grad_norm": 0.8588359951972961,
      "learning_rate": 4.16755777866784e-06,
      "loss": 3.2494,
      "step": 444050
    },
    {
      "epoch": 0.925125,
      "grad_norm": 0.8844221234321594,
      "learning_rate": 4.16525035994863e-06,
      "loss": 3.2956,
      "step": 444060
    },
    {
      "epoch": 0.9251458333333333,
      "grad_norm": 1.1700005531311035,
      "learning_rate": 4.162943571177796e-06,
      "loss": 3.3379,
      "step": 444070
    },
    {
      "epoch": 0.9251666666666667,
      "grad_norm": 0.8434493541717529,
      "learning_rate": 4.160637412365331e-06,
      "loss": 3.3586,
      "step": 444080
    },
    {
      "epoch": 0.9251875,
      "grad_norm": 0.8199635148048401,
      "learning_rate": 4.158331883521193e-06,
      "loss": 3.2692,
      "step": 444090
    },
    {
      "epoch": 0.9252083333333333,
      "grad_norm": 1.063507080078125,
      "learning_rate": 4.156026984655309e-06,
      "loss": 3.3171,
      "step": 444100
    },
    {
      "epoch": 0.9252291666666667,
      "grad_norm": 0.8089379072189331,
      "learning_rate": 4.1537227157776856e-06,
      "loss": 3.1824,
      "step": 444110
    },
    {
      "epoch": 0.92525,
      "grad_norm": 0.874088704586029,
      "learning_rate": 4.151419076898233e-06,
      "loss": 3.3424,
      "step": 444120
    },
    {
      "epoch": 0.9252708333333334,
      "grad_norm": 0.8975739479064941,
      "learning_rate": 4.1491160680269255e-06,
      "loss": 3.2942,
      "step": 444130
    },
    {
      "epoch": 0.9252916666666666,
      "grad_norm": 1.0929076671600342,
      "learning_rate": 4.146813689173706e-06,
      "loss": 3.3098,
      "step": 444140
    },
    {
      "epoch": 0.9253125,
      "grad_norm": 0.9498220682144165,
      "learning_rate": 4.144511940348516e-06,
      "loss": 3.3489,
      "step": 444150
    },
    {
      "epoch": 0.9253333333333333,
      "grad_norm": 0.8746225237846375,
      "learning_rate": 4.142210821561298e-06,
      "loss": 3.3133,
      "step": 444160
    },
    {
      "epoch": 0.9253541666666667,
      "grad_norm": 1.0742467641830444,
      "learning_rate": 4.139910332821994e-06,
      "loss": 3.3509,
      "step": 444170
    },
    {
      "epoch": 0.925375,
      "grad_norm": 0.9398374557495117,
      "learning_rate": 4.137610474140546e-06,
      "loss": 3.4015,
      "step": 444180
    },
    {
      "epoch": 0.9253958333333333,
      "grad_norm": 0.8983260989189148,
      "learning_rate": 4.135311245526895e-06,
      "loss": 3.4774,
      "step": 444190
    },
    {
      "epoch": 0.9254166666666667,
      "grad_norm": 0.8723649382591248,
      "learning_rate": 4.133012646990952e-06,
      "loss": 3.286,
      "step": 444200
    },
    {
      "epoch": 0.9254375,
      "grad_norm": 0.8540438413619995,
      "learning_rate": 4.13071467854264e-06,
      "loss": 3.2818,
      "step": 444210
    },
    {
      "epoch": 0.9254583333333334,
      "grad_norm": 0.9268108606338501,
      "learning_rate": 4.12841734019192e-06,
      "loss": 3.3214,
      "step": 444220
    },
    {
      "epoch": 0.9254791666666666,
      "grad_norm": 0.9103754758834839,
      "learning_rate": 4.126120631948698e-06,
      "loss": 3.3639,
      "step": 444230
    },
    {
      "epoch": 0.9255,
      "grad_norm": 0.93633633852005,
      "learning_rate": 4.123824553822902e-06,
      "loss": 3.2285,
      "step": 444240
    },
    {
      "epoch": 0.9255208333333333,
      "grad_norm": 0.8624836206436157,
      "learning_rate": 4.1215291058244225e-06,
      "loss": 3.2103,
      "step": 444250
    },
    {
      "epoch": 0.9255416666666667,
      "grad_norm": 0.972964346408844,
      "learning_rate": 4.1192342879632025e-06,
      "loss": 3.394,
      "step": 444260
    },
    {
      "epoch": 0.9255625,
      "grad_norm": 0.8299980163574219,
      "learning_rate": 4.116940100249166e-06,
      "loss": 3.2747,
      "step": 444270
    },
    {
      "epoch": 0.9255833333333333,
      "grad_norm": 1.0558260679244995,
      "learning_rate": 4.114646542692157e-06,
      "loss": 3.2377,
      "step": 444280
    },
    {
      "epoch": 0.9256041666666667,
      "grad_norm": 0.8740321397781372,
      "learning_rate": 4.112353615302166e-06,
      "loss": 3.407,
      "step": 444290
    },
    {
      "epoch": 0.925625,
      "grad_norm": 0.9212082624435425,
      "learning_rate": 4.110061318089069e-06,
      "loss": 3.193,
      "step": 444300
    },
    {
      "epoch": 0.9256458333333333,
      "grad_norm": 0.8715404868125916,
      "learning_rate": 4.107769651062725e-06,
      "loss": 3.375,
      "step": 444310
    },
    {
      "epoch": 0.9256666666666666,
      "grad_norm": 0.866199791431427,
      "learning_rate": 4.105478614233093e-06,
      "loss": 3.2721,
      "step": 444320
    },
    {
      "epoch": 0.9256875,
      "grad_norm": 0.906400203704834,
      "learning_rate": 4.103188207610048e-06,
      "loss": 3.3026,
      "step": 444330
    },
    {
      "epoch": 0.9257083333333334,
      "grad_norm": 0.8372215032577515,
      "learning_rate": 4.100898431203448e-06,
      "loss": 3.3225,
      "step": 444340
    },
    {
      "epoch": 0.9257291666666667,
      "grad_norm": 0.9330669045448303,
      "learning_rate": 4.0986092850232525e-06,
      "loss": 3.3092,
      "step": 444350
    },
    {
      "epoch": 0.92575,
      "grad_norm": 1.0741673707962036,
      "learning_rate": 4.096320769079303e-06,
      "loss": 3.3321,
      "step": 444360
    },
    {
      "epoch": 0.9257708333333333,
      "grad_norm": 0.8821849226951599,
      "learning_rate": 4.094032883381476e-06,
      "loss": 3.3042,
      "step": 444370
    },
    {
      "epoch": 0.9257916666666667,
      "grad_norm": 1.098933219909668,
      "learning_rate": 4.091745627939696e-06,
      "loss": 3.3469,
      "step": 444380
    },
    {
      "epoch": 0.9258125,
      "grad_norm": 1.0407534837722778,
      "learning_rate": 4.089459002763807e-06,
      "loss": 3.2425,
      "step": 444390
    },
    {
      "epoch": 0.9258333333333333,
      "grad_norm": 0.9721141457557678,
      "learning_rate": 4.087173007863698e-06,
      "loss": 3.3147,
      "step": 444400
    },
    {
      "epoch": 0.9258541666666666,
      "grad_norm": 0.9295864105224609,
      "learning_rate": 4.084887643249263e-06,
      "loss": 3.3653,
      "step": 444410
    },
    {
      "epoch": 0.925875,
      "grad_norm": 1.0905444622039795,
      "learning_rate": 4.082602908930343e-06,
      "loss": 3.3087,
      "step": 444420
    },
    {
      "epoch": 0.9258958333333334,
      "grad_norm": 0.8727653622627258,
      "learning_rate": 4.0803188049167986e-06,
      "loss": 3.2959,
      "step": 444430
    },
    {
      "epoch": 0.9259166666666667,
      "grad_norm": 0.9195204377174377,
      "learning_rate": 4.078035331218571e-06,
      "loss": 3.3622,
      "step": 444440
    },
    {
      "epoch": 0.9259375,
      "grad_norm": 0.9372154474258423,
      "learning_rate": 4.075752487845435e-06,
      "loss": 3.2291,
      "step": 444450
    },
    {
      "epoch": 0.9259583333333333,
      "grad_norm": 0.9061177968978882,
      "learning_rate": 4.0734702748073e-06,
      "loss": 3.3872,
      "step": 444460
    },
    {
      "epoch": 0.9259791666666667,
      "grad_norm": 0.8942912817001343,
      "learning_rate": 4.071188692113991e-06,
      "loss": 3.3315,
      "step": 444470
    },
    {
      "epoch": 0.926,
      "grad_norm": 0.8818067312240601,
      "learning_rate": 4.068907739775401e-06,
      "loss": 3.2397,
      "step": 444480
    },
    {
      "epoch": 0.9260208333333333,
      "grad_norm": 0.9343436360359192,
      "learning_rate": 4.066627417801371e-06,
      "loss": 3.3276,
      "step": 444490
    },
    {
      "epoch": 0.9260416666666667,
      "grad_norm": 0.7993280291557312,
      "learning_rate": 4.0643477262017276e-06,
      "loss": 3.2705,
      "step": 444500
    },
    {
      "epoch": 0.9260625,
      "grad_norm": 0.8977346420288086,
      "learning_rate": 4.062068664986362e-06,
      "loss": 3.3074,
      "step": 444510
    },
    {
      "epoch": 0.9260833333333334,
      "grad_norm": 0.9420469403266907,
      "learning_rate": 4.059790234165067e-06,
      "loss": 3.2844,
      "step": 444520
    },
    {
      "epoch": 0.9261041666666666,
      "grad_norm": 0.8625487089157104,
      "learning_rate": 4.057512433747734e-06,
      "loss": 3.4241,
      "step": 444530
    },
    {
      "epoch": 0.926125,
      "grad_norm": 0.9318912029266357,
      "learning_rate": 4.055235263744155e-06,
      "loss": 3.3186,
      "step": 444540
    },
    {
      "epoch": 0.9261458333333333,
      "grad_norm": 0.9672982096672058,
      "learning_rate": 4.052958724164223e-06,
      "loss": 3.445,
      "step": 444550
    },
    {
      "epoch": 0.9261666666666667,
      "grad_norm": 0.8685977458953857,
      "learning_rate": 4.050682815017714e-06,
      "loss": 3.3293,
      "step": 444560
    },
    {
      "epoch": 0.9261875,
      "grad_norm": 0.9447302222251892,
      "learning_rate": 4.048407536314485e-06,
      "loss": 3.3669,
      "step": 444570
    },
    {
      "epoch": 0.9262083333333333,
      "grad_norm": 1.0120950937271118,
      "learning_rate": 4.0461328880643796e-06,
      "loss": 3.2803,
      "step": 444580
    },
    {
      "epoch": 0.9262291666666667,
      "grad_norm": 0.9446468353271484,
      "learning_rate": 4.0438588702771894e-06,
      "loss": 3.2953,
      "step": 444590
    },
    {
      "epoch": 0.92625,
      "grad_norm": 0.898604154586792,
      "learning_rate": 4.0415854829627555e-06,
      "loss": 3.3505,
      "step": 444600
    },
    {
      "epoch": 0.9262708333333334,
      "grad_norm": 0.9040606617927551,
      "learning_rate": 4.039312726130922e-06,
      "loss": 3.2137,
      "step": 444610
    },
    {
      "epoch": 0.9262916666666666,
      "grad_norm": 0.9204640984535217,
      "learning_rate": 4.037040599791463e-06,
      "loss": 3.3038,
      "step": 444620
    },
    {
      "epoch": 0.9263125,
      "grad_norm": 0.9836910367012024,
      "learning_rate": 4.034769103954205e-06,
      "loss": 3.2914,
      "step": 444630
    },
    {
      "epoch": 0.9263333333333333,
      "grad_norm": 0.9247509837150574,
      "learning_rate": 4.032498238629006e-06,
      "loss": 3.4318,
      "step": 444640
    },
    {
      "epoch": 0.9263541666666667,
      "grad_norm": 1.0259249210357666,
      "learning_rate": 4.030228003825592e-06,
      "loss": 3.3039,
      "step": 444650
    },
    {
      "epoch": 0.926375,
      "grad_norm": 1.0396039485931396,
      "learning_rate": 4.027958399553821e-06,
      "loss": 3.2798,
      "step": 444660
    },
    {
      "epoch": 0.9263958333333333,
      "grad_norm": 0.9124251008033752,
      "learning_rate": 4.02568942582352e-06,
      "loss": 3.2777,
      "step": 444670
    },
    {
      "epoch": 0.9264166666666667,
      "grad_norm": 0.8342606425285339,
      "learning_rate": 4.023421082644429e-06,
      "loss": 3.3271,
      "step": 444680
    },
    {
      "epoch": 0.9264375,
      "grad_norm": 1.0350127220153809,
      "learning_rate": 4.0211533700264086e-06,
      "loss": 3.4198,
      "step": 444690
    },
    {
      "epoch": 0.9264583333333334,
      "grad_norm": 0.9088097810745239,
      "learning_rate": 4.0188862879792e-06,
      "loss": 3.3158,
      "step": 444700
    },
    {
      "epoch": 0.9264791666666666,
      "grad_norm": 1.0722297430038452,
      "learning_rate": 4.0166198365125966e-06,
      "loss": 3.2605,
      "step": 444710
    },
    {
      "epoch": 0.9265,
      "grad_norm": 0.8198128938674927,
      "learning_rate": 4.014354015636456e-06,
      "loss": 3.3172,
      "step": 444720
    },
    {
      "epoch": 0.9265208333333333,
      "grad_norm": 0.8981707096099854,
      "learning_rate": 4.0120888253605045e-06,
      "loss": 3.3378,
      "step": 444730
    },
    {
      "epoch": 0.9265416666666667,
      "grad_norm": 0.921394407749176,
      "learning_rate": 4.0098242656945335e-06,
      "loss": 3.3422,
      "step": 444740
    },
    {
      "epoch": 0.9265625,
      "grad_norm": 0.8609472513198853,
      "learning_rate": 4.0075603366483526e-06,
      "loss": 3.3153,
      "step": 444750
    },
    {
      "epoch": 0.9265833333333333,
      "grad_norm": 0.8886750340461731,
      "learning_rate": 4.0052970382317195e-06,
      "loss": 3.3116,
      "step": 444760
    },
    {
      "epoch": 0.9266041666666667,
      "grad_norm": 0.9903857707977295,
      "learning_rate": 4.003034370454378e-06,
      "loss": 3.2621,
      "step": 444770
    },
    {
      "epoch": 0.926625,
      "grad_norm": 0.9335756897926331,
      "learning_rate": 4.000772333326186e-06,
      "loss": 3.519,
      "step": 444780
    },
    {
      "epoch": 0.9266458333333333,
      "grad_norm": 0.9889747500419617,
      "learning_rate": 3.998510926856852e-06,
      "loss": 3.336,
      "step": 444790
    },
    {
      "epoch": 0.9266666666666666,
      "grad_norm": 1.0396504402160645,
      "learning_rate": 3.996250151056135e-06,
      "loss": 3.3215,
      "step": 444800
    },
    {
      "epoch": 0.9266875,
      "grad_norm": 0.858435332775116,
      "learning_rate": 3.993990005933878e-06,
      "loss": 3.2879,
      "step": 444810
    },
    {
      "epoch": 0.9267083333333334,
      "grad_norm": 0.9834025502204895,
      "learning_rate": 3.991730491499756e-06,
      "loss": 3.3986,
      "step": 444820
    },
    {
      "epoch": 0.9267291666666667,
      "grad_norm": 1.1480268239974976,
      "learning_rate": 3.989471607763561e-06,
      "loss": 3.3294,
      "step": 444830
    },
    {
      "epoch": 0.92675,
      "grad_norm": 0.901809811592102,
      "learning_rate": 3.987213354735069e-06,
      "loss": 3.4397,
      "step": 444840
    },
    {
      "epoch": 0.9267708333333333,
      "grad_norm": 0.910979151725769,
      "learning_rate": 3.984955732424006e-06,
      "loss": 3.3793,
      "step": 444850
    },
    {
      "epoch": 0.9267916666666667,
      "grad_norm": 0.894554078578949,
      "learning_rate": 3.982698740840146e-06,
      "loss": 3.3182,
      "step": 444860
    },
    {
      "epoch": 0.9268125,
      "grad_norm": 0.9588428735733032,
      "learning_rate": 3.980442379993215e-06,
      "loss": 3.3399,
      "step": 444870
    },
    {
      "epoch": 0.9268333333333333,
      "grad_norm": 0.9166688323020935,
      "learning_rate": 3.978186649892989e-06,
      "loss": 3.2945,
      "step": 444880
    },
    {
      "epoch": 0.9268541666666666,
      "grad_norm": 0.9718278646469116,
      "learning_rate": 3.975931550549194e-06,
      "loss": 3.25,
      "step": 444890
    },
    {
      "epoch": 0.926875,
      "grad_norm": 0.8457673788070679,
      "learning_rate": 3.973677081971571e-06,
      "loss": 3.2735,
      "step": 444900
    },
    {
      "epoch": 0.9268958333333334,
      "grad_norm": 0.847564697265625,
      "learning_rate": 3.971423244169864e-06,
      "loss": 3.3533,
      "step": 444910
    },
    {
      "epoch": 0.9269166666666667,
      "grad_norm": 0.9419260621070862,
      "learning_rate": 3.969170037153829e-06,
      "loss": 3.1969,
      "step": 444920
    },
    {
      "epoch": 0.9269375,
      "grad_norm": 0.9158960580825806,
      "learning_rate": 3.966917460933144e-06,
      "loss": 3.3307,
      "step": 444930
    },
    {
      "epoch": 0.9269583333333333,
      "grad_norm": 0.9023659825325012,
      "learning_rate": 3.9646655155175844e-06,
      "loss": 3.2232,
      "step": 444940
    },
    {
      "epoch": 0.9269791666666667,
      "grad_norm": 1.0106744766235352,
      "learning_rate": 3.9624142009168744e-06,
      "loss": 3.3928,
      "step": 444950
    },
    {
      "epoch": 0.927,
      "grad_norm": 0.9491598010063171,
      "learning_rate": 3.960163517140708e-06,
      "loss": 3.2124,
      "step": 444960
    },
    {
      "epoch": 0.9270208333333333,
      "grad_norm": 0.918293297290802,
      "learning_rate": 3.957913464198825e-06,
      "loss": 3.3393,
      "step": 444970
    },
    {
      "epoch": 0.9270416666666667,
      "grad_norm": 0.9602642059326172,
      "learning_rate": 3.9556640421009865e-06,
      "loss": 3.4544,
      "step": 444980
    },
    {
      "epoch": 0.9270625,
      "grad_norm": 0.9659847021102905,
      "learning_rate": 3.953415250856834e-06,
      "loss": 3.4715,
      "step": 444990
    },
    {
      "epoch": 0.9270833333333334,
      "grad_norm": 0.951679527759552,
      "learning_rate": 3.951167090476126e-06,
      "loss": 3.2955,
      "step": 445000
    },
    {
      "epoch": 0.9270833333333334,
      "eval_loss": 4.022594928741455,
      "eval_runtime": 8.7743,
      "eval_samples_per_second": 1.14,
      "eval_steps_per_second": 0.342,
      "step": 445000
    },
    {
      "epoch": 0.9271041666666666,
      "grad_norm": 1.0068762302398682,
      "learning_rate": 3.948919560968588e-06,
      "loss": 3.3314,
      "step": 445010
    },
    {
      "epoch": 0.927125,
      "grad_norm": 0.9743063449859619,
      "learning_rate": 3.946672662343864e-06,
      "loss": 3.3093,
      "step": 445020
    },
    {
      "epoch": 0.9271458333333333,
      "grad_norm": 0.8881205320358276,
      "learning_rate": 3.944426394611727e-06,
      "loss": 3.4123,
      "step": 445030
    },
    {
      "epoch": 0.9271666666666667,
      "grad_norm": 0.9801798462867737,
      "learning_rate": 3.942180757781871e-06,
      "loss": 3.3085,
      "step": 445040
    },
    {
      "epoch": 0.9271875,
      "grad_norm": 0.9578431844711304,
      "learning_rate": 3.939935751863954e-06,
      "loss": 3.3369,
      "step": 445050
    },
    {
      "epoch": 0.9272083333333333,
      "grad_norm": 0.9163068532943726,
      "learning_rate": 3.937691376867736e-06,
      "loss": 3.3428,
      "step": 445060
    },
    {
      "epoch": 0.9272291666666667,
      "grad_norm": 0.9625651240348816,
      "learning_rate": 3.93544763280284e-06,
      "loss": 3.3466,
      "step": 445070
    },
    {
      "epoch": 0.92725,
      "grad_norm": 0.9333462715148926,
      "learning_rate": 3.933204519678995e-06,
      "loss": 3.3164,
      "step": 445080
    },
    {
      "epoch": 0.9272708333333334,
      "grad_norm": 0.8830045461654663,
      "learning_rate": 3.930962037505908e-06,
      "loss": 3.4125,
      "step": 445090
    },
    {
      "epoch": 0.9272916666666666,
      "grad_norm": 0.931727945804596,
      "learning_rate": 3.928720186293238e-06,
      "loss": 3.1724,
      "step": 445100
    },
    {
      "epoch": 0.9273125,
      "grad_norm": 0.9444337487220764,
      "learning_rate": 3.926478966050662e-06,
      "loss": 3.238,
      "step": 445110
    },
    {
      "epoch": 0.9273333333333333,
      "grad_norm": 0.8827563524246216,
      "learning_rate": 3.924238376787919e-06,
      "loss": 3.3212,
      "step": 445120
    },
    {
      "epoch": 0.9273541666666667,
      "grad_norm": 1.050284743309021,
      "learning_rate": 3.9219984185146215e-06,
      "loss": 3.3077,
      "step": 445130
    },
    {
      "epoch": 0.927375,
      "grad_norm": 0.9078447222709656,
      "learning_rate": 3.91975909124046e-06,
      "loss": 3.18,
      "step": 445140
    },
    {
      "epoch": 0.9273958333333333,
      "grad_norm": 0.963254988193512,
      "learning_rate": 3.917520394975127e-06,
      "loss": 3.3778,
      "step": 445150
    },
    {
      "epoch": 0.9274166666666667,
      "grad_norm": 0.906481921672821,
      "learning_rate": 3.915282329728281e-06,
      "loss": 3.3832,
      "step": 445160
    },
    {
      "epoch": 0.9274375,
      "grad_norm": 0.8524900078773499,
      "learning_rate": 3.913044895509581e-06,
      "loss": 3.6079,
      "step": 445170
    },
    {
      "epoch": 0.9274583333333334,
      "grad_norm": 0.9105371832847595,
      "learning_rate": 3.910808092328705e-06,
      "loss": 3.372,
      "step": 445180
    },
    {
      "epoch": 0.9274791666666666,
      "grad_norm": 0.8995347023010254,
      "learning_rate": 3.908571920195325e-06,
      "loss": 3.3292,
      "step": 445190
    },
    {
      "epoch": 0.9275,
      "grad_norm": 0.8934174180030823,
      "learning_rate": 3.906336379119068e-06,
      "loss": 3.3324,
      "step": 445200
    },
    {
      "epoch": 0.9275208333333333,
      "grad_norm": 0.9521457552909851,
      "learning_rate": 3.904101469109627e-06,
      "loss": 3.3171,
      "step": 445210
    },
    {
      "epoch": 0.9275416666666667,
      "grad_norm": 0.9274924397468567,
      "learning_rate": 3.901867190176627e-06,
      "loss": 3.4344,
      "step": 445220
    },
    {
      "epoch": 0.9275625,
      "grad_norm": 1.0424548387527466,
      "learning_rate": 3.899633542329744e-06,
      "loss": 3.3538,
      "step": 445230
    },
    {
      "epoch": 0.9275833333333333,
      "grad_norm": 0.9975712895393372,
      "learning_rate": 3.897400525578603e-06,
      "loss": 3.2718,
      "step": 445240
    },
    {
      "epoch": 0.9276041666666667,
      "grad_norm": 0.8440911769866943,
      "learning_rate": 3.895168139932864e-06,
      "loss": 3.1979,
      "step": 445250
    },
    {
      "epoch": 0.927625,
      "grad_norm": 0.9138891696929932,
      "learning_rate": 3.892936385402168e-06,
      "loss": 3.3897,
      "step": 445260
    },
    {
      "epoch": 0.9276458333333333,
      "grad_norm": 0.874247133731842,
      "learning_rate": 3.8907052619961575e-06,
      "loss": 3.2382,
      "step": 445270
    },
    {
      "epoch": 0.9276666666666666,
      "grad_norm": 0.9185293912887573,
      "learning_rate": 3.888474769724459e-06,
      "loss": 3.378,
      "step": 445280
    },
    {
      "epoch": 0.9276875,
      "grad_norm": 0.8852968811988831,
      "learning_rate": 3.886244908596714e-06,
      "loss": 3.3349,
      "step": 445290
    },
    {
      "epoch": 0.9277083333333334,
      "grad_norm": 0.9913915991783142,
      "learning_rate": 3.884015678622549e-06,
      "loss": 3.2878,
      "step": 445300
    },
    {
      "epoch": 0.9277291666666667,
      "grad_norm": 0.9050434231758118,
      "learning_rate": 3.881787079811605e-06,
      "loss": 3.2122,
      "step": 445310
    },
    {
      "epoch": 0.92775,
      "grad_norm": 0.8768223524093628,
      "learning_rate": 3.879559112173525e-06,
      "loss": 3.3717,
      "step": 445320
    },
    {
      "epoch": 0.9277708333333333,
      "grad_norm": 1.0008478164672852,
      "learning_rate": 3.877331775717885e-06,
      "loss": 3.3355,
      "step": 445330
    },
    {
      "epoch": 0.9277916666666667,
      "grad_norm": 1.057137370109558,
      "learning_rate": 3.875105070454326e-06,
      "loss": 3.2464,
      "step": 445340
    },
    {
      "epoch": 0.9278125,
      "grad_norm": 0.9350457787513733,
      "learning_rate": 3.8728789963925086e-06,
      "loss": 3.2836,
      "step": 445350
    },
    {
      "epoch": 0.9278333333333333,
      "grad_norm": 0.9513485431671143,
      "learning_rate": 3.8706535535419745e-06,
      "loss": 3.3011,
      "step": 445360
    },
    {
      "epoch": 0.9278541666666666,
      "grad_norm": 1.0390361547470093,
      "learning_rate": 3.8684287419123824e-06,
      "loss": 3.2733,
      "step": 445370
    },
    {
      "epoch": 0.927875,
      "grad_norm": 0.9819063544273376,
      "learning_rate": 3.866204561513358e-06,
      "loss": 3.3524,
      "step": 445380
    },
    {
      "epoch": 0.9278958333333334,
      "grad_norm": 0.914356529712677,
      "learning_rate": 3.863981012354461e-06,
      "loss": 3.4328,
      "step": 445390
    },
    {
      "epoch": 0.9279166666666666,
      "grad_norm": 1.035387396812439,
      "learning_rate": 3.861758094445333e-06,
      "loss": 3.2414,
      "step": 445400
    },
    {
      "epoch": 0.9279375,
      "grad_norm": 0.9873306751251221,
      "learning_rate": 3.8595358077955825e-06,
      "loss": 3.3346,
      "step": 445410
    },
    {
      "epoch": 0.9279583333333333,
      "grad_norm": 0.9800626635551453,
      "learning_rate": 3.85731415241477e-06,
      "loss": 3.2761,
      "step": 445420
    },
    {
      "epoch": 0.9279791666666667,
      "grad_norm": 1.0663765668869019,
      "learning_rate": 3.855093128312503e-06,
      "loss": 3.3757,
      "step": 445430
    },
    {
      "epoch": 0.928,
      "grad_norm": 0.8782206773757935,
      "learning_rate": 3.852872735498408e-06,
      "loss": 3.3304,
      "step": 445440
    },
    {
      "epoch": 0.9280208333333333,
      "grad_norm": 0.806329607963562,
      "learning_rate": 3.850652973982044e-06,
      "loss": 3.2292,
      "step": 445450
    },
    {
      "epoch": 0.9280416666666667,
      "grad_norm": 0.9396435022354126,
      "learning_rate": 3.848433843773003e-06,
      "loss": 3.2784,
      "step": 445460
    },
    {
      "epoch": 0.9280625,
      "grad_norm": 0.8716045022010803,
      "learning_rate": 3.846215344880893e-06,
      "loss": 3.2503,
      "step": 445470
    },
    {
      "epoch": 0.9280833333333334,
      "grad_norm": 1.0978870391845703,
      "learning_rate": 3.843997477315258e-06,
      "loss": 3.3939,
      "step": 445480
    },
    {
      "epoch": 0.9281041666666666,
      "grad_norm": 0.9273144602775574,
      "learning_rate": 3.841780241085723e-06,
      "loss": 3.3125,
      "step": 445490
    },
    {
      "epoch": 0.928125,
      "grad_norm": 1.0316345691680908,
      "learning_rate": 3.839563636201831e-06,
      "loss": 3.3042,
      "step": 445500
    },
    {
      "epoch": 0.9281458333333333,
      "grad_norm": 1.0260978937149048,
      "learning_rate": 3.8373476626731735e-06,
      "loss": 3.4547,
      "step": 445510
    },
    {
      "epoch": 0.9281666666666667,
      "grad_norm": 1.0148380994796753,
      "learning_rate": 3.835132320509326e-06,
      "loss": 3.3385,
      "step": 445520
    },
    {
      "epoch": 0.9281875,
      "grad_norm": 0.9412288665771484,
      "learning_rate": 3.832917609719832e-06,
      "loss": 3.2918,
      "step": 445530
    },
    {
      "epoch": 0.9282083333333333,
      "grad_norm": 1.0348817110061646,
      "learning_rate": 3.8307035303142995e-06,
      "loss": 3.1706,
      "step": 445540
    },
    {
      "epoch": 0.9282291666666667,
      "grad_norm": 0.9699704051017761,
      "learning_rate": 3.8284900823022545e-06,
      "loss": 3.3247,
      "step": 445550
    },
    {
      "epoch": 0.92825,
      "grad_norm": 0.9040185213088989,
      "learning_rate": 3.826277265693273e-06,
      "loss": 3.2888,
      "step": 445560
    },
    {
      "epoch": 0.9282708333333334,
      "grad_norm": 0.9186437129974365,
      "learning_rate": 3.8240650804969296e-06,
      "loss": 3.2042,
      "step": 445570
    },
    {
      "epoch": 0.9282916666666666,
      "grad_norm": 0.9044396877288818,
      "learning_rate": 3.821853526722751e-06,
      "loss": 3.3401,
      "step": 445580
    },
    {
      "epoch": 0.9283125,
      "grad_norm": 0.9639280438423157,
      "learning_rate": 3.819642604380313e-06,
      "loss": 3.233,
      "step": 445590
    },
    {
      "epoch": 0.9283333333333333,
      "grad_norm": 0.9282742142677307,
      "learning_rate": 3.817432313479141e-06,
      "loss": 3.3224,
      "step": 445600
    },
    {
      "epoch": 0.9283541666666667,
      "grad_norm": 0.8198717832565308,
      "learning_rate": 3.81522265402881e-06,
      "loss": 3.4106,
      "step": 445610
    },
    {
      "epoch": 0.928375,
      "grad_norm": 0.8829249143600464,
      "learning_rate": 3.8130136260388465e-06,
      "loss": 3.3539,
      "step": 445620
    },
    {
      "epoch": 0.9283958333333333,
      "grad_norm": 0.9008384943008423,
      "learning_rate": 3.8108052295188096e-06,
      "loss": 3.2824,
      "step": 445630
    },
    {
      "epoch": 0.9284166666666667,
      "grad_norm": 0.8717697262763977,
      "learning_rate": 3.8085974644782246e-06,
      "loss": 3.3498,
      "step": 445640
    },
    {
      "epoch": 0.9284375,
      "grad_norm": 0.9682354927062988,
      "learning_rate": 3.806390330926634e-06,
      "loss": 3.1688,
      "step": 445650
    },
    {
      "epoch": 0.9284583333333334,
      "grad_norm": 0.9078699946403503,
      "learning_rate": 3.804183828873564e-06,
      "loss": 3.164,
      "step": 445660
    },
    {
      "epoch": 0.9284791666666666,
      "grad_norm": 1.064844012260437,
      "learning_rate": 3.801977958328556e-06,
      "loss": 3.316,
      "step": 445670
    },
    {
      "epoch": 0.9285,
      "grad_norm": 0.8820284008979797,
      "learning_rate": 3.799772719301136e-06,
      "loss": 3.2196,
      "step": 445680
    },
    {
      "epoch": 0.9285208333333334,
      "grad_norm": 0.9159501194953918,
      "learning_rate": 3.7975681118008306e-06,
      "loss": 3.3001,
      "step": 445690
    },
    {
      "epoch": 0.9285416666666667,
      "grad_norm": 1.0795520544052124,
      "learning_rate": 3.7953641358371313e-06,
      "loss": 3.3239,
      "step": 445700
    },
    {
      "epoch": 0.9285625,
      "grad_norm": 0.8793348670005798,
      "learning_rate": 3.793160791419614e-06,
      "loss": 3.2439,
      "step": 445710
    },
    {
      "epoch": 0.9285833333333333,
      "grad_norm": 0.9483330249786377,
      "learning_rate": 3.7909580785577877e-06,
      "loss": 3.3676,
      "step": 445720
    },
    {
      "epoch": 0.9286041666666667,
      "grad_norm": 0.8816263675689697,
      "learning_rate": 3.7887559972611114e-06,
      "loss": 3.358,
      "step": 445730
    },
    {
      "epoch": 0.928625,
      "grad_norm": 0.9142684936523438,
      "learning_rate": 3.7865545475391444e-06,
      "loss": 3.2976,
      "step": 445740
    },
    {
      "epoch": 0.9286458333333333,
      "grad_norm": 0.8608566522598267,
      "learning_rate": 3.784353729401396e-06,
      "loss": 3.162,
      "step": 445750
    },
    {
      "epoch": 0.9286666666666666,
      "grad_norm": 1.0433802604675293,
      "learning_rate": 3.782153542857358e-06,
      "loss": 3.3344,
      "step": 445760
    },
    {
      "epoch": 0.9286875,
      "grad_norm": 0.9379937648773193,
      "learning_rate": 3.779953987916523e-06,
      "loss": 3.3475,
      "step": 445770
    },
    {
      "epoch": 0.9287083333333334,
      "grad_norm": 0.930379331111908,
      "learning_rate": 3.7777550645884504e-06,
      "loss": 3.2127,
      "step": 445780
    },
    {
      "epoch": 0.9287291666666667,
      "grad_norm": 0.990848958492279,
      "learning_rate": 3.7755567728825653e-06,
      "loss": 3.2354,
      "step": 445790
    },
    {
      "epoch": 0.92875,
      "grad_norm": 0.9136955738067627,
      "learning_rate": 3.773359112808394e-06,
      "loss": 3.2632,
      "step": 445800
    },
    {
      "epoch": 0.9287708333333333,
      "grad_norm": 0.8698070049285889,
      "learning_rate": 3.7711620843754453e-06,
      "loss": 3.3457,
      "step": 445810
    },
    {
      "epoch": 0.9287916666666667,
      "grad_norm": 0.8749083876609802,
      "learning_rate": 3.768965687593195e-06,
      "loss": 3.2307,
      "step": 445820
    },
    {
      "epoch": 0.9288125,
      "grad_norm": 0.8548581004142761,
      "learning_rate": 3.766769922471119e-06,
      "loss": 3.3181,
      "step": 445830
    },
    {
      "epoch": 0.9288333333333333,
      "grad_norm": 0.8345134854316711,
      "learning_rate": 3.764574789018726e-06,
      "loss": 3.3678,
      "step": 445840
    },
    {
      "epoch": 0.9288541666666666,
      "grad_norm": 0.8866092562675476,
      "learning_rate": 3.7623802872454756e-06,
      "loss": 3.1636,
      "step": 445850
    },
    {
      "epoch": 0.928875,
      "grad_norm": 0.9850351214408875,
      "learning_rate": 3.76018641716086e-06,
      "loss": 3.4533,
      "step": 445860
    },
    {
      "epoch": 0.9288958333333334,
      "grad_norm": 0.9739517569541931,
      "learning_rate": 3.7579931787743544e-06,
      "loss": 3.2673,
      "step": 445870
    },
    {
      "epoch": 0.9289166666666666,
      "grad_norm": 1.0339305400848389,
      "learning_rate": 3.7558005720954353e-06,
      "loss": 3.3296,
      "step": 445880
    },
    {
      "epoch": 0.9289375,
      "grad_norm": 0.992557942867279,
      "learning_rate": 3.7536085971335615e-06,
      "loss": 3.3915,
      "step": 445890
    },
    {
      "epoch": 0.9289583333333333,
      "grad_norm": 1.0070936679840088,
      "learning_rate": 3.7514172538982255e-06,
      "loss": 3.4047,
      "step": 445900
    },
    {
      "epoch": 0.9289791666666667,
      "grad_norm": 0.8920366764068604,
      "learning_rate": 3.74922654239887e-06,
      "loss": 3.2804,
      "step": 445910
    },
    {
      "epoch": 0.929,
      "grad_norm": 1.0073758363723755,
      "learning_rate": 3.7470364626449535e-06,
      "loss": 3.4321,
      "step": 445920
    },
    {
      "epoch": 0.9290208333333333,
      "grad_norm": 0.9294565320014954,
      "learning_rate": 3.7448470146459687e-06,
      "loss": 3.32,
      "step": 445930
    },
    {
      "epoch": 0.9290416666666667,
      "grad_norm": 0.9092649221420288,
      "learning_rate": 3.742658198411341e-06,
      "loss": 3.408,
      "step": 445940
    },
    {
      "epoch": 0.9290625,
      "grad_norm": 0.9111161231994629,
      "learning_rate": 3.7404700139505306e-06,
      "loss": 3.2399,
      "step": 445950
    },
    {
      "epoch": 0.9290833333333334,
      "grad_norm": 0.9174386262893677,
      "learning_rate": 3.7382824612730123e-06,
      "loss": 3.2227,
      "step": 445960
    },
    {
      "epoch": 0.9291041666666666,
      "grad_norm": 0.980343759059906,
      "learning_rate": 3.736095540388212e-06,
      "loss": 3.3118,
      "step": 445970
    },
    {
      "epoch": 0.929125,
      "grad_norm": 1.0228815078735352,
      "learning_rate": 3.7339092513055724e-06,
      "loss": 3.2231,
      "step": 445980
    },
    {
      "epoch": 0.9291458333333333,
      "grad_norm": 1.06660795211792,
      "learning_rate": 3.731723594034569e-06,
      "loss": 3.3778,
      "step": 445990
    },
    {
      "epoch": 0.9291666666666667,
      "grad_norm": 0.9885259866714478,
      "learning_rate": 3.7295385685846113e-06,
      "loss": 3.3743,
      "step": 446000
    },
    {
      "epoch": 0.9291666666666667,
      "eval_loss": 4.0216965675354,
      "eval_runtime": 8.7648,
      "eval_samples_per_second": 1.141,
      "eval_steps_per_second": 0.342,
      "step": 446000
    },
    {
      "epoch": 0.9291875,
      "grad_norm": 0.8703849911689758,
      "learning_rate": 3.727354174965158e-06,
      "loss": 3.2426,
      "step": 446010
    },
    {
      "epoch": 0.9292083333333333,
      "grad_norm": 0.9212254881858826,
      "learning_rate": 3.7251704131856184e-06,
      "loss": 3.238,
      "step": 446020
    },
    {
      "epoch": 0.9292291666666667,
      "grad_norm": 0.9413069486618042,
      "learning_rate": 3.722987283255452e-06,
      "loss": 3.3731,
      "step": 446030
    },
    {
      "epoch": 0.92925,
      "grad_norm": 1.0799534320831299,
      "learning_rate": 3.7208047851841004e-06,
      "loss": 3.2819,
      "step": 446040
    },
    {
      "epoch": 0.9292708333333334,
      "grad_norm": 0.9001515507698059,
      "learning_rate": 3.71862291898094e-06,
      "loss": 3.3947,
      "step": 446050
    },
    {
      "epoch": 0.9292916666666666,
      "grad_norm": 0.9280206561088562,
      "learning_rate": 3.716441684655447e-06,
      "loss": 3.2934,
      "step": 446060
    },
    {
      "epoch": 0.9293125,
      "grad_norm": 0.9449185132980347,
      "learning_rate": 3.7142610822170126e-06,
      "loss": 3.3061,
      "step": 446070
    },
    {
      "epoch": 0.9293333333333333,
      "grad_norm": 0.902768075466156,
      "learning_rate": 3.712081111675064e-06,
      "loss": 3.2884,
      "step": 446080
    },
    {
      "epoch": 0.9293541666666667,
      "grad_norm": 0.9189420342445374,
      "learning_rate": 3.7099017730390425e-06,
      "loss": 3.2784,
      "step": 446090
    },
    {
      "epoch": 0.929375,
      "grad_norm": 0.9060832858085632,
      "learning_rate": 3.707723066318308e-06,
      "loss": 3.2568,
      "step": 446100
    },
    {
      "epoch": 0.9293958333333333,
      "grad_norm": 0.9491870999336243,
      "learning_rate": 3.7055449915223023e-06,
      "loss": 3.2304,
      "step": 446110
    },
    {
      "epoch": 0.9294166666666667,
      "grad_norm": 0.991252064704895,
      "learning_rate": 3.7033675486604684e-06,
      "loss": 3.269,
      "step": 446120
    },
    {
      "epoch": 0.9294375,
      "grad_norm": 0.9358367323875427,
      "learning_rate": 3.7011907377421656e-06,
      "loss": 3.2041,
      "step": 446130
    },
    {
      "epoch": 0.9294583333333334,
      "grad_norm": 0.9865760207176208,
      "learning_rate": 3.699014558776786e-06,
      "loss": 3.2878,
      "step": 446140
    },
    {
      "epoch": 0.9294791666666666,
      "grad_norm": 0.8872729539871216,
      "learning_rate": 3.696839011773789e-06,
      "loss": 3.2498,
      "step": 446150
    },
    {
      "epoch": 0.9295,
      "grad_norm": 0.8961965441703796,
      "learning_rate": 3.694664096742517e-06,
      "loss": 3.1198,
      "step": 446160
    },
    {
      "epoch": 0.9295208333333334,
      "grad_norm": 0.8511149287223816,
      "learning_rate": 3.6924898136923787e-06,
      "loss": 3.2605,
      "step": 446170
    },
    {
      "epoch": 0.9295416666666667,
      "grad_norm": 1.015339970588684,
      "learning_rate": 3.6903161626327836e-06,
      "loss": 3.2724,
      "step": 446180
    },
    {
      "epoch": 0.9295625,
      "grad_norm": 0.9661482572555542,
      "learning_rate": 3.688143143573108e-06,
      "loss": 3.3403,
      "step": 446190
    },
    {
      "epoch": 0.9295833333333333,
      "grad_norm": 0.8215209245681763,
      "learning_rate": 3.6859707565227436e-06,
      "loss": 3.32,
      "step": 446200
    },
    {
      "epoch": 0.9296041666666667,
      "grad_norm": 0.997488796710968,
      "learning_rate": 3.6837990014910503e-06,
      "loss": 3.3627,
      "step": 446210
    },
    {
      "epoch": 0.929625,
      "grad_norm": 0.9085835218429565,
      "learning_rate": 3.6816278784874532e-06,
      "loss": 3.3166,
      "step": 446220
    },
    {
      "epoch": 0.9296458333333333,
      "grad_norm": 1.143977165222168,
      "learning_rate": 3.679457387521295e-06,
      "loss": 3.3961,
      "step": 446230
    },
    {
      "epoch": 0.9296666666666666,
      "grad_norm": 1.045251488685608,
      "learning_rate": 3.6772875286019685e-06,
      "loss": 3.3355,
      "step": 446240
    },
    {
      "epoch": 0.9296875,
      "grad_norm": 0.8747166991233826,
      "learning_rate": 3.675118301738833e-06,
      "loss": 3.2877,
      "step": 446250
    },
    {
      "epoch": 0.9297083333333334,
      "grad_norm": 0.8857542276382446,
      "learning_rate": 3.672949706941264e-06,
      "loss": 3.1995,
      "step": 446260
    },
    {
      "epoch": 0.9297291666666667,
      "grad_norm": 1.0025569200515747,
      "learning_rate": 3.670781744218654e-06,
      "loss": 3.4141,
      "step": 446270
    },
    {
      "epoch": 0.92975,
      "grad_norm": 0.956983745098114,
      "learning_rate": 3.6686144135803285e-06,
      "loss": 3.2725,
      "step": 446280
    },
    {
      "epoch": 0.9297708333333333,
      "grad_norm": 1.1014314889907837,
      "learning_rate": 3.666447715035664e-06,
      "loss": 3.2324,
      "step": 446290
    },
    {
      "epoch": 0.9297916666666667,
      "grad_norm": 0.9278850555419922,
      "learning_rate": 3.664281648594036e-06,
      "loss": 3.2429,
      "step": 446300
    },
    {
      "epoch": 0.9298125,
      "grad_norm": 0.866855800151825,
      "learning_rate": 3.662116214264771e-06,
      "loss": 3.2661,
      "step": 446310
    },
    {
      "epoch": 0.9298333333333333,
      "grad_norm": 0.9228087067604065,
      "learning_rate": 3.6599514120572603e-06,
      "loss": 3.2121,
      "step": 446320
    },
    {
      "epoch": 0.9298541666666666,
      "grad_norm": 0.9897052049636841,
      "learning_rate": 3.657787241980814e-06,
      "loss": 3.2294,
      "step": 446330
    },
    {
      "epoch": 0.929875,
      "grad_norm": 0.9013617038726807,
      "learning_rate": 3.655623704044808e-06,
      "loss": 3.2201,
      "step": 446340
    },
    {
      "epoch": 0.9298958333333334,
      "grad_norm": 0.7952439785003662,
      "learning_rate": 3.6534607982586006e-06,
      "loss": 3.197,
      "step": 446350
    },
    {
      "epoch": 0.9299166666666666,
      "grad_norm": 0.9292157292366028,
      "learning_rate": 3.6512985246314684e-06,
      "loss": 3.3568,
      "step": 446360
    },
    {
      "epoch": 0.9299375,
      "grad_norm": 0.875848650932312,
      "learning_rate": 3.6491368831728205e-06,
      "loss": 3.3293,
      "step": 446370
    },
    {
      "epoch": 0.9299583333333333,
      "grad_norm": 0.8923367261886597,
      "learning_rate": 3.646975873892e-06,
      "loss": 3.2771,
      "step": 446380
    },
    {
      "epoch": 0.9299791666666667,
      "grad_norm": 0.9518068432807922,
      "learning_rate": 3.6448154967982647e-06,
      "loss": 3.2862,
      "step": 446390
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8820749521255493,
      "learning_rate": 3.6426557519010245e-06,
      "loss": 3.3173,
      "step": 446400
    },
    {
      "epoch": 0.9300208333333333,
      "grad_norm": 0.8690193295478821,
      "learning_rate": 3.6404966392095893e-06,
      "loss": 3.229,
      "step": 446410
    },
    {
      "epoch": 0.9300416666666667,
      "grad_norm": 0.9760951399803162,
      "learning_rate": 3.6383381587332507e-06,
      "loss": 3.2655,
      "step": 446420
    },
    {
      "epoch": 0.9300625,
      "grad_norm": 0.9058807492256165,
      "learning_rate": 3.636180310481368e-06,
      "loss": 3.2776,
      "step": 446430
    },
    {
      "epoch": 0.9300833333333334,
      "grad_norm": 0.9297717809677124,
      "learning_rate": 3.6340230944632508e-06,
      "loss": 3.2758,
      "step": 446440
    },
    {
      "epoch": 0.9301041666666666,
      "grad_norm": 0.982014536857605,
      "learning_rate": 3.6318665106882085e-06,
      "loss": 3.3179,
      "step": 446450
    },
    {
      "epoch": 0.930125,
      "grad_norm": 0.9180245399475098,
      "learning_rate": 3.6297105591655827e-06,
      "loss": 3.5084,
      "step": 446460
    },
    {
      "epoch": 0.9301458333333333,
      "grad_norm": 0.9225574731826782,
      "learning_rate": 3.627555239904667e-06,
      "loss": 3.3705,
      "step": 446470
    },
    {
      "epoch": 0.9301666666666667,
      "grad_norm": 1.0060698986053467,
      "learning_rate": 3.6254005529147536e-06,
      "loss": 3.3178,
      "step": 446480
    },
    {
      "epoch": 0.9301875,
      "grad_norm": 0.9588587284088135,
      "learning_rate": 3.623246498205201e-06,
      "loss": 3.3113,
      "step": 446490
    },
    {
      "epoch": 0.9302083333333333,
      "grad_norm": 0.9638099074363708,
      "learning_rate": 3.6210930757852698e-06,
      "loss": 3.3566,
      "step": 446500
    },
    {
      "epoch": 0.9302291666666667,
      "grad_norm": 0.958366334438324,
      "learning_rate": 3.618940285664268e-06,
      "loss": 3.1543,
      "step": 446510
    },
    {
      "epoch": 0.93025,
      "grad_norm": 0.9069991707801819,
      "learning_rate": 3.616788127851522e-06,
      "loss": 3.2962,
      "step": 446520
    },
    {
      "epoch": 0.9302708333333334,
      "grad_norm": 1.0890097618103027,
      "learning_rate": 3.614636602356291e-06,
      "loss": 3.2586,
      "step": 446530
    },
    {
      "epoch": 0.9302916666666666,
      "grad_norm": 0.8776426315307617,
      "learning_rate": 3.6124857091878845e-06,
      "loss": 3.372,
      "step": 446540
    },
    {
      "epoch": 0.9303125,
      "grad_norm": 0.8772615790367126,
      "learning_rate": 3.6103354483556114e-06,
      "loss": 3.2085,
      "step": 446550
    },
    {
      "epoch": 0.9303333333333333,
      "grad_norm": 0.921950101852417,
      "learning_rate": 3.6081858198687474e-06,
      "loss": 3.1478,
      "step": 446560
    },
    {
      "epoch": 0.9303541666666667,
      "grad_norm": 1.0086520910263062,
      "learning_rate": 3.606036823736552e-06,
      "loss": 3.3391,
      "step": 446570
    },
    {
      "epoch": 0.930375,
      "grad_norm": 1.0074762105941772,
      "learning_rate": 3.6038884599683514e-06,
      "loss": 3.2271,
      "step": 446580
    },
    {
      "epoch": 0.9303958333333333,
      "grad_norm": 0.9633716344833374,
      "learning_rate": 3.601740728573388e-06,
      "loss": 3.3055,
      "step": 446590
    },
    {
      "epoch": 0.9304166666666667,
      "grad_norm": 0.867121160030365,
      "learning_rate": 3.5995936295609707e-06,
      "loss": 3.2671,
      "step": 446600
    },
    {
      "epoch": 0.9304375,
      "grad_norm": 0.8586132526397705,
      "learning_rate": 3.5974471629403424e-06,
      "loss": 3.2986,
      "step": 446610
    },
    {
      "epoch": 0.9304583333333334,
      "grad_norm": 0.9071420431137085,
      "learning_rate": 3.595301328720812e-06,
      "loss": 3.2497,
      "step": 446620
    },
    {
      "epoch": 0.9304791666666666,
      "grad_norm": 0.8598681688308716,
      "learning_rate": 3.5931561269116226e-06,
      "loss": 3.2696,
      "step": 446630
    },
    {
      "epoch": 0.9305,
      "grad_norm": 1.0255351066589355,
      "learning_rate": 3.591011557522033e-06,
      "loss": 3.3399,
      "step": 446640
    },
    {
      "epoch": 0.9305208333333334,
      "grad_norm": 1.0747840404510498,
      "learning_rate": 3.5888676205613363e-06,
      "loss": 3.2954,
      "step": 446650
    },
    {
      "epoch": 0.9305416666666667,
      "grad_norm": 0.9215542674064636,
      "learning_rate": 3.586724316038775e-06,
      "loss": 3.3221,
      "step": 446660
    },
    {
      "epoch": 0.9305625,
      "grad_norm": 0.8785910606384277,
      "learning_rate": 3.5845816439636075e-06,
      "loss": 3.2912,
      "step": 446670
    },
    {
      "epoch": 0.9305833333333333,
      "grad_norm": 0.9022363424301147,
      "learning_rate": 3.5824396043450942e-06,
      "loss": 3.228,
      "step": 446680
    },
    {
      "epoch": 0.9306041666666667,
      "grad_norm": 0.9933075308799744,
      "learning_rate": 3.5802981971924937e-06,
      "loss": 3.2133,
      "step": 446690
    },
    {
      "epoch": 0.930625,
      "grad_norm": 0.9531776309013367,
      "learning_rate": 3.5781574225150323e-06,
      "loss": 3.3115,
      "step": 446700
    },
    {
      "epoch": 0.9306458333333333,
      "grad_norm": 1.1139804124832153,
      "learning_rate": 3.576017280321969e-06,
      "loss": 3.2581,
      "step": 446710
    },
    {
      "epoch": 0.9306666666666666,
      "grad_norm": 0.8685513138771057,
      "learning_rate": 3.5738777706225796e-06,
      "loss": 3.2418,
      "step": 446720
    },
    {
      "epoch": 0.9306875,
      "grad_norm": 0.8628641366958618,
      "learning_rate": 3.5717388934260406e-06,
      "loss": 3.2563,
      "step": 446730
    },
    {
      "epoch": 0.9307083333333334,
      "grad_norm": 1.083465337753296,
      "learning_rate": 3.5696006487416607e-06,
      "loss": 3.2085,
      "step": 446740
    },
    {
      "epoch": 0.9307291666666667,
      "grad_norm": 0.9512532353401184,
      "learning_rate": 3.5674630365786496e-06,
      "loss": 3.3679,
      "step": 446750
    },
    {
      "epoch": 0.93075,
      "grad_norm": 1.0154348611831665,
      "learning_rate": 3.5653260569461994e-06,
      "loss": 3.1355,
      "step": 446760
    },
    {
      "epoch": 0.9307708333333333,
      "grad_norm": 0.8553965091705322,
      "learning_rate": 3.5631897098536033e-06,
      "loss": 3.5563,
      "step": 446770
    },
    {
      "epoch": 0.9307916666666667,
      "grad_norm": 0.9413009881973267,
      "learning_rate": 3.56105399531007e-06,
      "loss": 3.3405,
      "step": 446780
    },
    {
      "epoch": 0.9308125,
      "grad_norm": 0.8817408084869385,
      "learning_rate": 3.558918913324793e-06,
      "loss": 3.3092,
      "step": 446790
    },
    {
      "epoch": 0.9308333333333333,
      "grad_norm": 0.8973342776298523,
      "learning_rate": 3.5567844639070474e-06,
      "loss": 3.4022,
      "step": 446800
    },
    {
      "epoch": 0.9308541666666666,
      "grad_norm": 0.9928390383720398,
      "learning_rate": 3.5546506470660265e-06,
      "loss": 3.3198,
      "step": 446810
    },
    {
      "epoch": 0.930875,
      "grad_norm": 0.9463586211204529,
      "learning_rate": 3.552517462810922e-06,
      "loss": 3.3145,
      "step": 446820
    },
    {
      "epoch": 0.9308958333333334,
      "grad_norm": 0.974002480506897,
      "learning_rate": 3.5503849111510107e-06,
      "loss": 3.3566,
      "step": 446830
    },
    {
      "epoch": 0.9309166666666666,
      "grad_norm": 0.8859119415283203,
      "learning_rate": 3.548252992095452e-06,
      "loss": 3.4783,
      "step": 446840
    },
    {
      "epoch": 0.9309375,
      "grad_norm": 0.830354630947113,
      "learning_rate": 3.5461217056534373e-06,
      "loss": 3.1916,
      "step": 446850
    },
    {
      "epoch": 0.9309583333333333,
      "grad_norm": 1.1854805946350098,
      "learning_rate": 3.5439910518342607e-06,
      "loss": 3.34,
      "step": 446860
    },
    {
      "epoch": 0.9309791666666667,
      "grad_norm": 0.9510814547538757,
      "learning_rate": 3.5418610306470474e-06,
      "loss": 3.258,
      "step": 446870
    },
    {
      "epoch": 0.931,
      "grad_norm": 0.9147558212280273,
      "learning_rate": 3.5397316421009904e-06,
      "loss": 3.3504,
      "step": 446880
    },
    {
      "epoch": 0.9310208333333333,
      "grad_norm": 0.9246622323989868,
      "learning_rate": 3.537602886205365e-06,
      "loss": 3.326,
      "step": 446890
    },
    {
      "epoch": 0.9310416666666667,
      "grad_norm": 0.8920140862464905,
      "learning_rate": 3.535474762969315e-06,
      "loss": 3.2906,
      "step": 446900
    },
    {
      "epoch": 0.9310625,
      "grad_norm": 1.0107380151748657,
      "learning_rate": 3.5333472724020316e-06,
      "loss": 3.0944,
      "step": 446910
    },
    {
      "epoch": 0.9310833333333334,
      "grad_norm": 0.9248707294464111,
      "learning_rate": 3.531220414512709e-06,
      "loss": 3.3162,
      "step": 446920
    },
    {
      "epoch": 0.9311041666666666,
      "grad_norm": 0.9115869402885437,
      "learning_rate": 3.5290941893105386e-06,
      "loss": 3.2037,
      "step": 446930
    },
    {
      "epoch": 0.931125,
      "grad_norm": 1.0160340070724487,
      "learning_rate": 3.526968596804697e-06,
      "loss": 3.4482,
      "step": 446940
    },
    {
      "epoch": 0.9311458333333333,
      "grad_norm": 0.9077980518341064,
      "learning_rate": 3.524843637004393e-06,
      "loss": 3.3498,
      "step": 446950
    },
    {
      "epoch": 0.9311666666666667,
      "grad_norm": 0.9463714957237244,
      "learning_rate": 3.52271930991877e-06,
      "loss": 3.4368,
      "step": 446960
    },
    {
      "epoch": 0.9311875,
      "grad_norm": 0.9108827114105225,
      "learning_rate": 3.5205956155570204e-06,
      "loss": 3.2892,
      "step": 446970
    },
    {
      "epoch": 0.9312083333333333,
      "grad_norm": 0.9705216884613037,
      "learning_rate": 3.51847255392832e-06,
      "loss": 3.3753,
      "step": 446980
    },
    {
      "epoch": 0.9312291666666667,
      "grad_norm": 0.936312735080719,
      "learning_rate": 3.516350125041845e-06,
      "loss": 3.3952,
      "step": 446990
    },
    {
      "epoch": 0.93125,
      "grad_norm": 0.943051278591156,
      "learning_rate": 3.5142283289067373e-06,
      "loss": 3.2428,
      "step": 447000
    },
    {
      "epoch": 0.93125,
      "eval_loss": 4.022892475128174,
      "eval_runtime": 8.8535,
      "eval_samples_per_second": 1.129,
      "eval_steps_per_second": 0.339,
      "step": 447000
    },
    {
      "epoch": 0.9312708333333334,
      "grad_norm": 0.9247182607650757,
      "learning_rate": 3.5121071655321906e-06,
      "loss": 3.3166,
      "step": 447010
    },
    {
      "epoch": 0.9312916666666666,
      "grad_norm": 0.940820038318634,
      "learning_rate": 3.509986634927364e-06,
      "loss": 3.3905,
      "step": 447020
    },
    {
      "epoch": 0.9313125,
      "grad_norm": 0.8807225227355957,
      "learning_rate": 3.5078667371014003e-06,
      "loss": 3.2977,
      "step": 447030
    },
    {
      "epoch": 0.9313333333333333,
      "grad_norm": 0.8993715643882751,
      "learning_rate": 3.505747472063475e-06,
      "loss": 3.3124,
      "step": 447040
    },
    {
      "epoch": 0.9313541666666667,
      "grad_norm": 1.0146136283874512,
      "learning_rate": 3.5036288398227306e-06,
      "loss": 3.361,
      "step": 447050
    },
    {
      "epoch": 0.931375,
      "grad_norm": 0.84017413854599,
      "learning_rate": 3.5015108403883275e-06,
      "loss": 3.3041,
      "step": 447060
    },
    {
      "epoch": 0.9313958333333333,
      "grad_norm": 0.974619448184967,
      "learning_rate": 3.4993934737693908e-06,
      "loss": 3.4166,
      "step": 447070
    },
    {
      "epoch": 0.9314166666666667,
      "grad_norm": 0.9515699148178101,
      "learning_rate": 3.4972767399750967e-06,
      "loss": 3.175,
      "step": 447080
    },
    {
      "epoch": 0.9314375,
      "grad_norm": 0.8468237519264221,
      "learning_rate": 3.495160639014588e-06,
      "loss": 3.2325,
      "step": 447090
    },
    {
      "epoch": 0.9314583333333334,
      "grad_norm": 0.9145808815956116,
      "learning_rate": 3.493045170896974e-06,
      "loss": 3.325,
      "step": 447100
    },
    {
      "epoch": 0.9314791666666666,
      "grad_norm": 0.9119726419448853,
      "learning_rate": 3.4909303356314312e-06,
      "loss": 3.3126,
      "step": 447110
    },
    {
      "epoch": 0.9315,
      "grad_norm": 0.8769257664680481,
      "learning_rate": 3.4888161332270683e-06,
      "loss": 3.3013,
      "step": 447120
    },
    {
      "epoch": 0.9315208333333334,
      "grad_norm": 0.9771048426628113,
      "learning_rate": 3.486702563693028e-06,
      "loss": 3.3259,
      "step": 447130
    },
    {
      "epoch": 0.9315416666666667,
      "grad_norm": 0.8792482018470764,
      "learning_rate": 3.4845896270384365e-06,
      "loss": 3.34,
      "step": 447140
    },
    {
      "epoch": 0.9315625,
      "grad_norm": 0.9192233085632324,
      "learning_rate": 3.482477323272437e-06,
      "loss": 3.2867,
      "step": 447150
    },
    {
      "epoch": 0.9315833333333333,
      "grad_norm": 0.8655015826225281,
      "learning_rate": 3.4803656524041047e-06,
      "loss": 3.483,
      "step": 447160
    },
    {
      "epoch": 0.9316041666666667,
      "grad_norm": 1.0454485416412354,
      "learning_rate": 3.478254614442633e-06,
      "loss": 3.3946,
      "step": 447170
    },
    {
      "epoch": 0.931625,
      "grad_norm": 1.009713053703308,
      "learning_rate": 3.476144209397097e-06,
      "loss": 3.1897,
      "step": 447180
    },
    {
      "epoch": 0.9316458333333333,
      "grad_norm": 0.8900548219680786,
      "learning_rate": 3.474034437276607e-06,
      "loss": 3.2721,
      "step": 447190
    },
    {
      "epoch": 0.9316666666666666,
      "grad_norm": 0.9208006262779236,
      "learning_rate": 3.471925298090306e-06,
      "loss": 3.3857,
      "step": 447200
    },
    {
      "epoch": 0.9316875,
      "grad_norm": 0.8858636617660522,
      "learning_rate": 3.4698167918472687e-06,
      "loss": 3.3442,
      "step": 447210
    },
    {
      "epoch": 0.9317083333333334,
      "grad_norm": 0.9659699201583862,
      "learning_rate": 3.4677089185566385e-06,
      "loss": 3.1719,
      "step": 447220
    },
    {
      "epoch": 0.9317291666666667,
      "grad_norm": 0.9130043983459473,
      "learning_rate": 3.465601678227492e-06,
      "loss": 3.2959,
      "step": 447230
    },
    {
      "epoch": 0.93175,
      "grad_norm": 0.8707236051559448,
      "learning_rate": 3.4634950708689547e-06,
      "loss": 3.3105,
      "step": 447240
    },
    {
      "epoch": 0.9317708333333333,
      "grad_norm": 1.0835479497909546,
      "learning_rate": 3.4613890964901024e-06,
      "loss": 3.3436,
      "step": 447250
    },
    {
      "epoch": 0.9317916666666667,
      "grad_norm": 0.9501850008964539,
      "learning_rate": 3.4592837551000453e-06,
      "loss": 3.2821,
      "step": 447260
    },
    {
      "epoch": 0.9318125,
      "grad_norm": 0.9294140934944153,
      "learning_rate": 3.457179046707892e-06,
      "loss": 3.5481,
      "step": 447270
    },
    {
      "epoch": 0.9318333333333333,
      "grad_norm": 0.8927780389785767,
      "learning_rate": 3.455074971322719e-06,
      "loss": 3.2719,
      "step": 447280
    },
    {
      "epoch": 0.9318541666666667,
      "grad_norm": 0.9002718925476074,
      "learning_rate": 3.452971528953602e-06,
      "loss": 3.2288,
      "step": 447290
    },
    {
      "epoch": 0.931875,
      "grad_norm": 0.8885376453399658,
      "learning_rate": 3.4508687196096507e-06,
      "loss": 3.3056,
      "step": 447300
    },
    {
      "epoch": 0.9318958333333334,
      "grad_norm": 0.9683617353439331,
      "learning_rate": 3.4487665432999244e-06,
      "loss": 3.4346,
      "step": 447310
    },
    {
      "epoch": 0.9319166666666666,
      "grad_norm": 0.9268717169761658,
      "learning_rate": 3.446665000033533e-06,
      "loss": 3.3127,
      "step": 447320
    },
    {
      "epoch": 0.9319375,
      "grad_norm": 0.9256131052970886,
      "learning_rate": 3.444564089819535e-06,
      "loss": 3.3313,
      "step": 447330
    },
    {
      "epoch": 0.9319583333333333,
      "grad_norm": 0.9985608458518982,
      "learning_rate": 3.4424638126670068e-06,
      "loss": 3.1925,
      "step": 447340
    },
    {
      "epoch": 0.9319791666666667,
      "grad_norm": 0.9563784599304199,
      "learning_rate": 3.4403641685850246e-06,
      "loss": 3.2872,
      "step": 447350
    },
    {
      "epoch": 0.932,
      "grad_norm": 0.8769747614860535,
      "learning_rate": 3.4382651575826645e-06,
      "loss": 3.2881,
      "step": 447360
    },
    {
      "epoch": 0.9320208333333333,
      "grad_norm": 0.8809203505516052,
      "learning_rate": 3.43616677966897e-06,
      "loss": 3.2818,
      "step": 447370
    },
    {
      "epoch": 0.9320416666666667,
      "grad_norm": 0.9280405640602112,
      "learning_rate": 3.434069034853032e-06,
      "loss": 3.2358,
      "step": 447380
    },
    {
      "epoch": 0.9320625,
      "grad_norm": 0.8697023391723633,
      "learning_rate": 3.4319719231438946e-06,
      "loss": 3.2447,
      "step": 447390
    },
    {
      "epoch": 0.9320833333333334,
      "grad_norm": 0.8709340691566467,
      "learning_rate": 3.429875444550634e-06,
      "loss": 3.296,
      "step": 447400
    },
    {
      "epoch": 0.9321041666666666,
      "grad_norm": 0.9728307723999023,
      "learning_rate": 3.4277795990822755e-06,
      "loss": 3.2926,
      "step": 447410
    },
    {
      "epoch": 0.932125,
      "grad_norm": 1.1480451822280884,
      "learning_rate": 3.4256843867479123e-06,
      "loss": 3.3398,
      "step": 447420
    },
    {
      "epoch": 0.9321458333333333,
      "grad_norm": 0.8659505844116211,
      "learning_rate": 3.423589807556587e-06,
      "loss": 3.3429,
      "step": 447430
    },
    {
      "epoch": 0.9321666666666667,
      "grad_norm": 0.9943219423294067,
      "learning_rate": 3.4214958615172927e-06,
      "loss": 3.3198,
      "step": 447440
    },
    {
      "epoch": 0.9321875,
      "grad_norm": 0.9291523098945618,
      "learning_rate": 3.4194025486391386e-06,
      "loss": 3.3458,
      "step": 447450
    },
    {
      "epoch": 0.9322083333333333,
      "grad_norm": 0.9952986836433411,
      "learning_rate": 3.4173098689311506e-06,
      "loss": 3.3931,
      "step": 447460
    },
    {
      "epoch": 0.9322291666666667,
      "grad_norm": 0.9132505655288696,
      "learning_rate": 3.415217822402355e-06,
      "loss": 3.3132,
      "step": 447470
    },
    {
      "epoch": 0.93225,
      "grad_norm": 0.9132642149925232,
      "learning_rate": 3.413126409061795e-06,
      "loss": 3.307,
      "step": 447480
    },
    {
      "epoch": 0.9322708333333334,
      "grad_norm": 0.8801705837249756,
      "learning_rate": 3.4110356289185125e-06,
      "loss": 3.3929,
      "step": 447490
    },
    {
      "epoch": 0.9322916666666666,
      "grad_norm": 0.9456637501716614,
      "learning_rate": 3.4089454819815344e-06,
      "loss": 3.2332,
      "step": 447500
    },
    {
      "epoch": 0.9323125,
      "grad_norm": 0.9273437857627869,
      "learning_rate": 3.4068559682598696e-06,
      "loss": 3.3097,
      "step": 447510
    },
    {
      "epoch": 0.9323333333333333,
      "grad_norm": 0.9131786227226257,
      "learning_rate": 3.4047670877625776e-06,
      "loss": 3.1568,
      "step": 447520
    },
    {
      "epoch": 0.9323541666666667,
      "grad_norm": 0.8972147703170776,
      "learning_rate": 3.402678840498668e-06,
      "loss": 3.3545,
      "step": 447530
    },
    {
      "epoch": 0.932375,
      "grad_norm": 0.9692094326019287,
      "learning_rate": 3.400591226477134e-06,
      "loss": 3.3887,
      "step": 447540
    },
    {
      "epoch": 0.9323958333333333,
      "grad_norm": 0.9446518421173096,
      "learning_rate": 3.3985042457070512e-06,
      "loss": 3.4167,
      "step": 447550
    },
    {
      "epoch": 0.9324166666666667,
      "grad_norm": 1.0323377847671509,
      "learning_rate": 3.3964178981973787e-06,
      "loss": 3.3116,
      "step": 447560
    },
    {
      "epoch": 0.9324375,
      "grad_norm": 0.9862114787101746,
      "learning_rate": 3.39433218395716e-06,
      "loss": 3.3675,
      "step": 447570
    },
    {
      "epoch": 0.9324583333333333,
      "grad_norm": 0.9431570768356323,
      "learning_rate": 3.392247102995388e-06,
      "loss": 3.4292,
      "step": 447580
    },
    {
      "epoch": 0.9324791666666666,
      "grad_norm": 1.0236517190933228,
      "learning_rate": 3.3901626553210716e-06,
      "loss": 3.4284,
      "step": 447590
    },
    {
      "epoch": 0.9325,
      "grad_norm": 1.0141559839248657,
      "learning_rate": 3.388078840943237e-06,
      "loss": 3.3501,
      "step": 447600
    },
    {
      "epoch": 0.9325208333333334,
      "grad_norm": 0.8470131158828735,
      "learning_rate": 3.3859956598708603e-06,
      "loss": 3.3537,
      "step": 447610
    },
    {
      "epoch": 0.9325416666666667,
      "grad_norm": 0.9902693629264832,
      "learning_rate": 3.3839131121129515e-06,
      "loss": 3.2908,
      "step": 447620
    },
    {
      "epoch": 0.9325625,
      "grad_norm": 0.9296135902404785,
      "learning_rate": 3.381831197678503e-06,
      "loss": 3.3204,
      "step": 447630
    },
    {
      "epoch": 0.9325833333333333,
      "grad_norm": 1.1662014722824097,
      "learning_rate": 3.3797499165765074e-06,
      "loss": 3.3167,
      "step": 447640
    },
    {
      "epoch": 0.9326041666666667,
      "grad_norm": 0.9410438537597656,
      "learning_rate": 3.377669268815958e-06,
      "loss": 3.2998,
      "step": 447650
    },
    {
      "epoch": 0.932625,
      "grad_norm": 0.8647756576538086,
      "learning_rate": 3.3755892544058305e-06,
      "loss": 3.4189,
      "step": 447660
    },
    {
      "epoch": 0.9326458333333333,
      "grad_norm": 0.9254254102706909,
      "learning_rate": 3.3735098733551348e-06,
      "loss": 3.3249,
      "step": 447670
    },
    {
      "epoch": 0.9326666666666666,
      "grad_norm": 0.8935550451278687,
      "learning_rate": 3.3714311256728298e-06,
      "loss": 3.2559,
      "step": 447680
    },
    {
      "epoch": 0.9326875,
      "grad_norm": 0.8708707094192505,
      "learning_rate": 3.3693530113678925e-06,
      "loss": 3.6379,
      "step": 447690
    },
    {
      "epoch": 0.9327083333333334,
      "grad_norm": 0.8853796124458313,
      "learning_rate": 3.3672755304493314e-06,
      "loss": 3.2696,
      "step": 447700
    },
    {
      "epoch": 0.9327291666666667,
      "grad_norm": 0.8498398661613464,
      "learning_rate": 3.3651986829260735e-06,
      "loss": 3.2384,
      "step": 447710
    },
    {
      "epoch": 0.93275,
      "grad_norm": 0.9239235520362854,
      "learning_rate": 3.3631224688071278e-06,
      "loss": 3.2843,
      "step": 447720
    },
    {
      "epoch": 0.9327708333333333,
      "grad_norm": 0.8853527903556824,
      "learning_rate": 3.361046888101454e-06,
      "loss": 3.3401,
      "step": 447730
    },
    {
      "epoch": 0.9327916666666667,
      "grad_norm": 0.9086628556251526,
      "learning_rate": 3.3589719408180117e-06,
      "loss": 3.2443,
      "step": 447740
    },
    {
      "epoch": 0.9328125,
      "grad_norm": 0.9672740697860718,
      "learning_rate": 3.3568976269657764e-06,
      "loss": 3.1949,
      "step": 447750
    },
    {
      "epoch": 0.9328333333333333,
      "grad_norm": 0.9477851986885071,
      "learning_rate": 3.3548239465536752e-06,
      "loss": 3.1871,
      "step": 447760
    },
    {
      "epoch": 0.9328541666666667,
      "grad_norm": 0.9900968670845032,
      "learning_rate": 3.3527508995907002e-06,
      "loss": 3.2038,
      "step": 447770
    },
    {
      "epoch": 0.932875,
      "grad_norm": 0.9608423709869385,
      "learning_rate": 3.3506784860858117e-06,
      "loss": 3.4517,
      "step": 447780
    },
    {
      "epoch": 0.9328958333333334,
      "grad_norm": 0.877773642539978,
      "learning_rate": 3.3486067060479183e-06,
      "loss": 3.2045,
      "step": 447790
    },
    {
      "epoch": 0.9329166666666666,
      "grad_norm": 0.9422287344932556,
      "learning_rate": 3.3465355594859966e-06,
      "loss": 3.3315,
      "step": 447800
    },
    {
      "epoch": 0.9329375,
      "grad_norm": 0.9177228808403015,
      "learning_rate": 3.344465046409023e-06,
      "loss": 3.3796,
      "step": 447810
    },
    {
      "epoch": 0.9329583333333333,
      "grad_norm": 0.9098595976829529,
      "learning_rate": 3.3423951668258563e-06,
      "loss": 3.342,
      "step": 447820
    },
    {
      "epoch": 0.9329791666666667,
      "grad_norm": 0.9423127770423889,
      "learning_rate": 3.3403259207455402e-06,
      "loss": 3.3853,
      "step": 447830
    },
    {
      "epoch": 0.933,
      "grad_norm": 0.9955730438232422,
      "learning_rate": 3.3382573081769503e-06,
      "loss": 3.3895,
      "step": 447840
    },
    {
      "epoch": 0.9330208333333333,
      "grad_norm": 0.871555507183075,
      "learning_rate": 3.3361893291290134e-06,
      "loss": 3.38,
      "step": 447850
    },
    {
      "epoch": 0.9330416666666667,
      "grad_norm": 0.8657727837562561,
      "learning_rate": 3.3341219836107215e-06,
      "loss": 3.3644,
      "step": 447860
    },
    {
      "epoch": 0.9330625,
      "grad_norm": 0.9837990999221802,
      "learning_rate": 3.3320552716309513e-06,
      "loss": 3.3724,
      "step": 447870
    },
    {
      "epoch": 0.9330833333333334,
      "grad_norm": 0.8886169195175171,
      "learning_rate": 3.3299891931986288e-06,
      "loss": 3.2153,
      "step": 447880
    },
    {
      "epoch": 0.9331041666666666,
      "grad_norm": 0.979485034942627,
      "learning_rate": 3.3279237483227307e-06,
      "loss": 3.3355,
      "step": 447890
    },
    {
      "epoch": 0.933125,
      "grad_norm": 0.9556365609169006,
      "learning_rate": 3.3258589370121158e-06,
      "loss": 3.2258,
      "step": 447900
    },
    {
      "epoch": 0.9331458333333333,
      "grad_norm": 0.8804165124893188,
      "learning_rate": 3.323794759275744e-06,
      "loss": 3.324,
      "step": 447910
    },
    {
      "epoch": 0.9331666666666667,
      "grad_norm": 0.9225903153419495,
      "learning_rate": 3.321731215122525e-06,
      "loss": 3.2913,
      "step": 447920
    },
    {
      "epoch": 0.9331875,
      "grad_norm": 0.8516478538513184,
      "learning_rate": 3.319668304561368e-06,
      "loss": 3.3801,
      "step": 447930
    },
    {
      "epoch": 0.9332083333333333,
      "grad_norm": 0.9120422601699829,
      "learning_rate": 3.317606027601183e-06,
      "loss": 3.38,
      "step": 447940
    },
    {
      "epoch": 0.9332291666666667,
      "grad_norm": 0.9647868871688843,
      "learning_rate": 3.3155443842508623e-06,
      "loss": 3.3276,
      "step": 447950
    },
    {
      "epoch": 0.93325,
      "grad_norm": 0.9414516091346741,
      "learning_rate": 3.313483374519349e-06,
      "loss": 3.3969,
      "step": 447960
    },
    {
      "epoch": 0.9332708333333334,
      "grad_norm": 0.8912243843078613,
      "learning_rate": 3.3114229984155196e-06,
      "loss": 3.3199,
      "step": 447970
    },
    {
      "epoch": 0.9332916666666666,
      "grad_norm": 0.9093203544616699,
      "learning_rate": 3.309363255948283e-06,
      "loss": 3.293,
      "step": 447980
    },
    {
      "epoch": 0.9333125,
      "grad_norm": 0.9795647263526917,
      "learning_rate": 3.3073041471265162e-06,
      "loss": 3.3292,
      "step": 447990
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.8885536193847656,
      "learning_rate": 3.305245671959145e-06,
      "loss": 3.2628,
      "step": 448000
    },
    {
      "epoch": 0.9333333333333333,
      "eval_loss": 4.0239434242248535,
      "eval_runtime": 9.0259,
      "eval_samples_per_second": 1.108,
      "eval_steps_per_second": 0.332,
      "step": 448000
    },
    {
      "epoch": 0.9333541666666667,
      "grad_norm": 0.8870605230331421,
      "learning_rate": 3.3031878304550453e-06,
      "loss": 3.2667,
      "step": 448010
    },
    {
      "epoch": 0.933375,
      "grad_norm": 0.8740876317024231,
      "learning_rate": 3.3011306226231104e-06,
      "loss": 3.2716,
      "step": 448020
    },
    {
      "epoch": 0.9333958333333333,
      "grad_norm": 0.8749833703041077,
      "learning_rate": 3.299074048472217e-06,
      "loss": 3.3394,
      "step": 448030
    },
    {
      "epoch": 0.9334166666666667,
      "grad_norm": 0.8883439302444458,
      "learning_rate": 3.2970181080112566e-06,
      "loss": 3.3776,
      "step": 448040
    },
    {
      "epoch": 0.9334375,
      "grad_norm": 0.9498711824417114,
      "learning_rate": 3.2949628012491067e-06,
      "loss": 3.1975,
      "step": 448050
    },
    {
      "epoch": 0.9334583333333333,
      "grad_norm": 0.8698181509971619,
      "learning_rate": 3.2929081281946436e-06,
      "loss": 3.2786,
      "step": 448060
    },
    {
      "epoch": 0.9334791666666666,
      "grad_norm": 0.8736444115638733,
      "learning_rate": 3.290854088856759e-06,
      "loss": 3.3116,
      "step": 448070
    },
    {
      "epoch": 0.9335,
      "grad_norm": 0.8507968783378601,
      "learning_rate": 3.2888006832443137e-06,
      "loss": 3.1529,
      "step": 448080
    },
    {
      "epoch": 0.9335208333333334,
      "grad_norm": 0.865253746509552,
      "learning_rate": 3.286747911366183e-06,
      "loss": 3.2291,
      "step": 448090
    },
    {
      "epoch": 0.9335416666666667,
      "grad_norm": 0.9823180437088013,
      "learning_rate": 3.284695773231194e-06,
      "loss": 3.4347,
      "step": 448100
    },
    {
      "epoch": 0.9335625,
      "grad_norm": 0.9562321305274963,
      "learning_rate": 3.2826442688482724e-06,
      "loss": 3.2803,
      "step": 448110
    },
    {
      "epoch": 0.9335833333333333,
      "grad_norm": 1.046647548675537,
      "learning_rate": 3.280593398226261e-06,
      "loss": 3.2686,
      "step": 448120
    },
    {
      "epoch": 0.9336041666666667,
      "grad_norm": 0.8972761631011963,
      "learning_rate": 3.2785431613739864e-06,
      "loss": 3.1658,
      "step": 448130
    },
    {
      "epoch": 0.933625,
      "grad_norm": 0.8329358696937561,
      "learning_rate": 3.2764935583003414e-06,
      "loss": 3.2271,
      "step": 448140
    },
    {
      "epoch": 0.9336458333333333,
      "grad_norm": 0.874856173992157,
      "learning_rate": 3.274444589014186e-06,
      "loss": 3.2209,
      "step": 448150
    },
    {
      "epoch": 0.9336666666666666,
      "grad_norm": 1.0235068798065186,
      "learning_rate": 3.272396253524312e-06,
      "loss": 3.2041,
      "step": 448160
    },
    {
      "epoch": 0.9336875,
      "grad_norm": 0.9724735617637634,
      "learning_rate": 3.2703485518396298e-06,
      "loss": 3.3639,
      "step": 448170
    },
    {
      "epoch": 0.9337083333333334,
      "grad_norm": 0.9069131016731262,
      "learning_rate": 3.268301483968966e-06,
      "loss": 3.2644,
      "step": 448180
    },
    {
      "epoch": 0.9337291666666667,
      "grad_norm": 0.9495019316673279,
      "learning_rate": 3.266255049921146e-06,
      "loss": 3.302,
      "step": 448190
    },
    {
      "epoch": 0.93375,
      "grad_norm": 1.1652253866195679,
      "learning_rate": 3.2642092497050465e-06,
      "loss": 3.3105,
      "step": 448200
    },
    {
      "epoch": 0.9337708333333333,
      "grad_norm": 0.9120306968688965,
      "learning_rate": 3.2621640833294604e-06,
      "loss": 3.3607,
      "step": 448210
    },
    {
      "epoch": 0.9337916666666667,
      "grad_norm": 0.9885106086730957,
      "learning_rate": 3.2601195508032307e-06,
      "loss": 3.2789,
      "step": 448220
    },
    {
      "epoch": 0.9338125,
      "grad_norm": 0.944750964641571,
      "learning_rate": 3.2580756521352334e-06,
      "loss": 3.3864,
      "step": 448230
    },
    {
      "epoch": 0.9338333333333333,
      "grad_norm": 1.0099120140075684,
      "learning_rate": 3.2560323873342452e-06,
      "loss": 3.3286,
      "step": 448240
    },
    {
      "epoch": 0.9338541666666667,
      "grad_norm": 0.9122111201286316,
      "learning_rate": 3.253989756409092e-06,
      "loss": 3.3726,
      "step": 448250
    },
    {
      "epoch": 0.933875,
      "grad_norm": 0.8503978252410889,
      "learning_rate": 3.251947759368667e-06,
      "loss": 3.2125,
      "step": 448260
    },
    {
      "epoch": 0.9338958333333334,
      "grad_norm": 0.9909707903862,
      "learning_rate": 3.2499063962217133e-06,
      "loss": 3.258,
      "step": 448270
    },
    {
      "epoch": 0.9339166666666666,
      "grad_norm": 0.9405412077903748,
      "learning_rate": 3.2478656669770563e-06,
      "loss": 3.2708,
      "step": 448280
    },
    {
      "epoch": 0.9339375,
      "grad_norm": 0.8801028728485107,
      "learning_rate": 3.245825571643573e-06,
      "loss": 3.2275,
      "step": 448290
    },
    {
      "epoch": 0.9339583333333333,
      "grad_norm": 0.9934340715408325,
      "learning_rate": 3.2437861102300067e-06,
      "loss": 3.3314,
      "step": 448300
    },
    {
      "epoch": 0.9339791666666667,
      "grad_norm": 0.9870725870132446,
      "learning_rate": 3.2417472827451828e-06,
      "loss": 3.3113,
      "step": 448310
    },
    {
      "epoch": 0.934,
      "grad_norm": 0.955527663230896,
      "learning_rate": 3.2397090891979447e-06,
      "loss": 3.2784,
      "step": 448320
    },
    {
      "epoch": 0.9340208333333333,
      "grad_norm": 0.9470727443695068,
      "learning_rate": 3.237671529597069e-06,
      "loss": 3.2986,
      "step": 448330
    },
    {
      "epoch": 0.9340416666666667,
      "grad_norm": 0.8818197250366211,
      "learning_rate": 3.2356346039513483e-06,
      "loss": 3.2384,
      "step": 448340
    },
    {
      "epoch": 0.9340625,
      "grad_norm": 0.9765121936798096,
      "learning_rate": 3.2335983122696085e-06,
      "loss": 3.2744,
      "step": 448350
    },
    {
      "epoch": 0.9340833333333334,
      "grad_norm": 0.8884149193763733,
      "learning_rate": 3.23156265456061e-06,
      "loss": 3.317,
      "step": 448360
    },
    {
      "epoch": 0.9341041666666666,
      "grad_norm": 0.8735196590423584,
      "learning_rate": 3.2295276308331787e-06,
      "loss": 3.1895,
      "step": 448370
    },
    {
      "epoch": 0.934125,
      "grad_norm": 0.9394663572311401,
      "learning_rate": 3.2274932410960908e-06,
      "loss": 3.3001,
      "step": 448380
    },
    {
      "epoch": 0.9341458333333333,
      "grad_norm": 0.9854763150215149,
      "learning_rate": 3.2254594853581397e-06,
      "loss": 3.2734,
      "step": 448390
    },
    {
      "epoch": 0.9341666666666667,
      "grad_norm": 0.8697431683540344,
      "learning_rate": 3.223426363628101e-06,
      "loss": 3.3973,
      "step": 448400
    },
    {
      "epoch": 0.9341875,
      "grad_norm": 0.8983409404754639,
      "learning_rate": 3.2213938759147516e-06,
      "loss": 3.437,
      "step": 448410
    },
    {
      "epoch": 0.9342083333333333,
      "grad_norm": 0.8557026386260986,
      "learning_rate": 3.219362022226901e-06,
      "loss": 3.2643,
      "step": 448420
    },
    {
      "epoch": 0.9342291666666667,
      "grad_norm": 1.1455243825912476,
      "learning_rate": 3.217330802573309e-06,
      "loss": 3.4323,
      "step": 448430
    },
    {
      "epoch": 0.93425,
      "grad_norm": 1.0434037446975708,
      "learning_rate": 3.2153002169627185e-06,
      "loss": 3.3706,
      "step": 448440
    },
    {
      "epoch": 0.9342708333333334,
      "grad_norm": 0.8872652053833008,
      "learning_rate": 3.2132702654039553e-06,
      "loss": 3.3052,
      "step": 448450
    },
    {
      "epoch": 0.9342916666666666,
      "grad_norm": 0.8766038417816162,
      "learning_rate": 3.211240947905763e-06,
      "loss": 3.3506,
      "step": 448460
    },
    {
      "epoch": 0.9343125,
      "grad_norm": 0.8937364220619202,
      "learning_rate": 3.2092122644768848e-06,
      "loss": 3.2631,
      "step": 448470
    },
    {
      "epoch": 0.9343333333333333,
      "grad_norm": 0.8682984113693237,
      "learning_rate": 3.207184215126113e-06,
      "loss": 3.3065,
      "step": 448480
    },
    {
      "epoch": 0.9343541666666667,
      "grad_norm": 1.0800853967666626,
      "learning_rate": 3.205156799862224e-06,
      "loss": 3.2086,
      "step": 448490
    },
    {
      "epoch": 0.934375,
      "grad_norm": 0.8603780269622803,
      "learning_rate": 3.203130018693928e-06,
      "loss": 3.3314,
      "step": 448500
    },
    {
      "epoch": 0.9343958333333333,
      "grad_norm": 0.8972543478012085,
      "learning_rate": 3.201103871630001e-06,
      "loss": 3.197,
      "step": 448510
    },
    {
      "epoch": 0.9344166666666667,
      "grad_norm": 0.9200794696807861,
      "learning_rate": 3.199078358679219e-06,
      "loss": 3.2746,
      "step": 448520
    },
    {
      "epoch": 0.9344375,
      "grad_norm": 0.929463267326355,
      "learning_rate": 3.197053479850292e-06,
      "loss": 3.3206,
      "step": 448530
    },
    {
      "epoch": 0.9344583333333333,
      "grad_norm": 0.8741561770439148,
      "learning_rate": 3.195029235151997e-06,
      "loss": 3.2363,
      "step": 448540
    },
    {
      "epoch": 0.9344791666666666,
      "grad_norm": 0.9398552179336548,
      "learning_rate": 3.1930056245930758e-06,
      "loss": 3.2562,
      "step": 448550
    },
    {
      "epoch": 0.9345,
      "grad_norm": 0.9635996222496033,
      "learning_rate": 3.190982648182239e-06,
      "loss": 3.28,
      "step": 448560
    },
    {
      "epoch": 0.9345208333333334,
      "grad_norm": 0.8797513246536255,
      "learning_rate": 3.188960305928262e-06,
      "loss": 3.2141,
      "step": 448570
    },
    {
      "epoch": 0.9345416666666667,
      "grad_norm": 0.8980000615119934,
      "learning_rate": 3.1869385978398553e-06,
      "loss": 3.358,
      "step": 448580
    },
    {
      "epoch": 0.9345625,
      "grad_norm": 0.9747042655944824,
      "learning_rate": 3.184917523925745e-06,
      "loss": 3.2617,
      "step": 448590
    },
    {
      "epoch": 0.9345833333333333,
      "grad_norm": 0.9153087139129639,
      "learning_rate": 3.1828970841947075e-06,
      "loss": 3.3026,
      "step": 448600
    },
    {
      "epoch": 0.9346041666666667,
      "grad_norm": 0.9614906311035156,
      "learning_rate": 3.180877278655436e-06,
      "loss": 3.2897,
      "step": 448610
    },
    {
      "epoch": 0.934625,
      "grad_norm": 0.9856522083282471,
      "learning_rate": 3.178858107316623e-06,
      "loss": 3.2674,
      "step": 448620
    },
    {
      "epoch": 0.9346458333333333,
      "grad_norm": 0.8534495830535889,
      "learning_rate": 3.1768395701870786e-06,
      "loss": 3.3397,
      "step": 448630
    },
    {
      "epoch": 0.9346666666666666,
      "grad_norm": 0.9438663125038147,
      "learning_rate": 3.174821667275446e-06,
      "loss": 3.3446,
      "step": 448640
    },
    {
      "epoch": 0.9346875,
      "grad_norm": 1.0837990045547485,
      "learning_rate": 3.1728043985904506e-06,
      "loss": 3.3287,
      "step": 448650
    },
    {
      "epoch": 0.9347083333333334,
      "grad_norm": 0.977866530418396,
      "learning_rate": 3.170787764140853e-06,
      "loss": 3.3591,
      "step": 448660
    },
    {
      "epoch": 0.9347291666666667,
      "grad_norm": 0.8642992973327637,
      "learning_rate": 3.1687717639353296e-06,
      "loss": 3.2282,
      "step": 448670
    },
    {
      "epoch": 0.93475,
      "grad_norm": 0.9203431010246277,
      "learning_rate": 3.1667563979825726e-06,
      "loss": 3.3205,
      "step": 448680
    },
    {
      "epoch": 0.9347708333333333,
      "grad_norm": 0.9808065891265869,
      "learning_rate": 3.164741666291326e-06,
      "loss": 3.3011,
      "step": 448690
    },
    {
      "epoch": 0.9347916666666667,
      "grad_norm": 0.8654167652130127,
      "learning_rate": 3.1627275688702656e-06,
      "loss": 3.1636,
      "step": 448700
    },
    {
      "epoch": 0.9348125,
      "grad_norm": 1.2023080587387085,
      "learning_rate": 3.160714105728085e-06,
      "loss": 3.2208,
      "step": 448710
    },
    {
      "epoch": 0.9348333333333333,
      "grad_norm": 0.9836822748184204,
      "learning_rate": 3.15870127687351e-06,
      "loss": 3.359,
      "step": 448720
    },
    {
      "epoch": 0.9348541666666667,
      "grad_norm": 1.1006273031234741,
      "learning_rate": 3.1566890823152337e-06,
      "loss": 3.2977,
      "step": 448730
    },
    {
      "epoch": 0.934875,
      "grad_norm": 0.9741628766059875,
      "learning_rate": 3.1546775220619156e-06,
      "loss": 3.2191,
      "step": 448740
    },
    {
      "epoch": 0.9348958333333334,
      "grad_norm": 0.9588544368743896,
      "learning_rate": 3.152666596122283e-06,
      "loss": 3.3784,
      "step": 448750
    },
    {
      "epoch": 0.9349166666666666,
      "grad_norm": 0.9518178701400757,
      "learning_rate": 3.1506563045049948e-06,
      "loss": 3.4482,
      "step": 448760
    },
    {
      "epoch": 0.9349375,
      "grad_norm": 0.9369052052497864,
      "learning_rate": 3.1486466472187443e-06,
      "loss": 3.3061,
      "step": 448770
    },
    {
      "epoch": 0.9349583333333333,
      "grad_norm": 0.9247210621833801,
      "learning_rate": 3.146637624272208e-06,
      "loss": 3.3709,
      "step": 448780
    },
    {
      "epoch": 0.9349791666666667,
      "grad_norm": 0.8482065796852112,
      "learning_rate": 3.1446292356740788e-06,
      "loss": 3.3532,
      "step": 448790
    },
    {
      "epoch": 0.935,
      "grad_norm": 0.9377408623695374,
      "learning_rate": 3.1426214814330165e-06,
      "loss": 3.3153,
      "step": 448800
    },
    {
      "epoch": 0.9350208333333333,
      "grad_norm": 0.9526687264442444,
      "learning_rate": 3.1406143615576975e-06,
      "loss": 3.3601,
      "step": 448810
    },
    {
      "epoch": 0.9350416666666667,
      "grad_norm": 0.9214693307876587,
      "learning_rate": 3.138607876056798e-06,
      "loss": 3.2667,
      "step": 448820
    },
    {
      "epoch": 0.9350625,
      "grad_norm": 0.9357143044471741,
      "learning_rate": 3.1366020249389944e-06,
      "loss": 3.32,
      "step": 448830
    },
    {
      "epoch": 0.9350833333333334,
      "grad_norm": 0.8753357529640198,
      "learning_rate": 3.134596808212897e-06,
      "loss": 3.2638,
      "step": 448840
    },
    {
      "epoch": 0.9351041666666666,
      "grad_norm": 0.9736864566802979,
      "learning_rate": 3.1325922258872314e-06,
      "loss": 3.1966,
      "step": 448850
    },
    {
      "epoch": 0.935125,
      "grad_norm": 0.8941685557365417,
      "learning_rate": 3.130588277970658e-06,
      "loss": 3.2961,
      "step": 448860
    },
    {
      "epoch": 0.9351458333333333,
      "grad_norm": 0.9715203642845154,
      "learning_rate": 3.12858496447177e-06,
      "loss": 3.1647,
      "step": 448870
    },
    {
      "epoch": 0.9351666666666667,
      "grad_norm": 0.9005740880966187,
      "learning_rate": 3.126582285399276e-06,
      "loss": 3.3862,
      "step": 448880
    },
    {
      "epoch": 0.9351875,
      "grad_norm": 0.9751085042953491,
      "learning_rate": 3.12458024076182e-06,
      "loss": 3.3655,
      "step": 448890
    },
    {
      "epoch": 0.9352083333333333,
      "grad_norm": 0.8682736754417419,
      "learning_rate": 3.1225788305680123e-06,
      "loss": 3.347,
      "step": 448900
    },
    {
      "epoch": 0.9352291666666667,
      "grad_norm": 0.905081570148468,
      "learning_rate": 3.1205780548265445e-06,
      "loss": 3.2233,
      "step": 448910
    },
    {
      "epoch": 0.93525,
      "grad_norm": 0.9069189429283142,
      "learning_rate": 3.1185779135460444e-06,
      "loss": 3.2511,
      "step": 448920
    },
    {
      "epoch": 0.9352708333333334,
      "grad_norm": 0.8609737753868103,
      "learning_rate": 3.1165784067351206e-06,
      "loss": 3.2627,
      "step": 448930
    },
    {
      "epoch": 0.9352916666666666,
      "grad_norm": 0.9610380530357361,
      "learning_rate": 3.1145795344024837e-06,
      "loss": 3.3454,
      "step": 448940
    },
    {
      "epoch": 0.9353125,
      "grad_norm": 0.8778234124183655,
      "learning_rate": 3.1125812965566933e-06,
      "loss": 3.2999,
      "step": 448950
    },
    {
      "epoch": 0.9353333333333333,
      "grad_norm": 0.9098920822143555,
      "learning_rate": 3.1105836932064087e-06,
      "loss": 3.3048,
      "step": 448960
    },
    {
      "epoch": 0.9353541666666667,
      "grad_norm": 0.9064862132072449,
      "learning_rate": 3.1085867243602735e-06,
      "loss": 3.323,
      "step": 448970
    },
    {
      "epoch": 0.935375,
      "grad_norm": 0.9095033407211304,
      "learning_rate": 3.1065903900268807e-06,
      "loss": 3.2321,
      "step": 448980
    },
    {
      "epoch": 0.9353958333333333,
      "grad_norm": 1.154231309890747,
      "learning_rate": 3.10459469021489e-06,
      "loss": 3.4153,
      "step": 448990
    },
    {
      "epoch": 0.9354166666666667,
      "grad_norm": 0.9469573497772217,
      "learning_rate": 3.102599624932894e-06,
      "loss": 3.2181,
      "step": 449000
    },
    {
      "epoch": 0.9354166666666667,
      "eval_loss": 4.023491382598877,
      "eval_runtime": 8.6631,
      "eval_samples_per_second": 1.154,
      "eval_steps_per_second": 0.346,
      "step": 449000
    },
    {
      "epoch": 0.9354375,
      "grad_norm": 0.8612998723983765,
      "learning_rate": 3.1006051941895207e-06,
      "loss": 3.2167,
      "step": 449010
    },
    {
      "epoch": 0.9354583333333333,
      "grad_norm": 1.0893404483795166,
      "learning_rate": 3.0986113979933948e-06,
      "loss": 3.3178,
      "step": 449020
    },
    {
      "epoch": 0.9354791666666666,
      "grad_norm": 0.9292010068893433,
      "learning_rate": 3.09661823635311e-06,
      "loss": 3.2129,
      "step": 449030
    },
    {
      "epoch": 0.9355,
      "grad_norm": 0.90487140417099,
      "learning_rate": 3.094625709277293e-06,
      "loss": 3.4114,
      "step": 449040
    },
    {
      "epoch": 0.9355208333333334,
      "grad_norm": 0.9552167057991028,
      "learning_rate": 3.0926338167745368e-06,
      "loss": 3.4828,
      "step": 449050
    },
    {
      "epoch": 0.9355416666666667,
      "grad_norm": 0.984967052936554,
      "learning_rate": 3.090642558853468e-06,
      "loss": 3.4317,
      "step": 449060
    },
    {
      "epoch": 0.9355625,
      "grad_norm": 0.9179595112800598,
      "learning_rate": 3.0886519355226625e-06,
      "loss": 3.3175,
      "step": 449070
    },
    {
      "epoch": 0.9355833333333333,
      "grad_norm": 0.900293231010437,
      "learning_rate": 3.0866619467907305e-06,
      "loss": 3.3338,
      "step": 449080
    },
    {
      "epoch": 0.9356041666666667,
      "grad_norm": 0.9292067885398865,
      "learning_rate": 3.084672592666265e-06,
      "loss": 3.2393,
      "step": 449090
    },
    {
      "epoch": 0.935625,
      "grad_norm": 1.0836031436920166,
      "learning_rate": 3.0826838731578594e-06,
      "loss": 3.3074,
      "step": 449100
    },
    {
      "epoch": 0.9356458333333333,
      "grad_norm": 0.9942411780357361,
      "learning_rate": 3.0806957882741066e-06,
      "loss": 3.3903,
      "step": 449110
    },
    {
      "epoch": 0.9356666666666666,
      "grad_norm": 0.9842774868011475,
      "learning_rate": 3.0787083380236e-06,
      "loss": 3.4208,
      "step": 449120
    },
    {
      "epoch": 0.9356875,
      "grad_norm": 0.9450374245643616,
      "learning_rate": 3.076721522414899e-06,
      "loss": 3.3532,
      "step": 449130
    },
    {
      "epoch": 0.9357083333333334,
      "grad_norm": 0.9226527214050293,
      "learning_rate": 3.07473534145663e-06,
      "loss": 3.3679,
      "step": 449140
    },
    {
      "epoch": 0.9357291666666666,
      "grad_norm": 0.8748401999473572,
      "learning_rate": 3.07274979515732e-06,
      "loss": 3.301,
      "step": 449150
    },
    {
      "epoch": 0.93575,
      "grad_norm": 0.9526075720787048,
      "learning_rate": 3.070764883525595e-06,
      "loss": 3.4713,
      "step": 449160
    },
    {
      "epoch": 0.9357708333333333,
      "grad_norm": 0.9697571396827698,
      "learning_rate": 3.0687806065699984e-06,
      "loss": 3.385,
      "step": 449170
    },
    {
      "epoch": 0.9357916666666667,
      "grad_norm": 0.9308310747146606,
      "learning_rate": 3.0667969642991064e-06,
      "loss": 3.2447,
      "step": 449180
    },
    {
      "epoch": 0.9358125,
      "grad_norm": 0.9048416018486023,
      "learning_rate": 3.0648139567215125e-06,
      "loss": 3.2855,
      "step": 449190
    },
    {
      "epoch": 0.9358333333333333,
      "grad_norm": 1.0014783143997192,
      "learning_rate": 3.062831583845743e-06,
      "loss": 3.1883,
      "step": 449200
    },
    {
      "epoch": 0.9358541666666667,
      "grad_norm": 0.8853955268859863,
      "learning_rate": 3.0608498456803744e-06,
      "loss": 3.1624,
      "step": 449210
    },
    {
      "epoch": 0.935875,
      "grad_norm": 0.9824309349060059,
      "learning_rate": 3.058868742233983e-06,
      "loss": 3.1451,
      "step": 449220
    },
    {
      "epoch": 0.9358958333333334,
      "grad_norm": 0.9379367232322693,
      "learning_rate": 3.056888273515129e-06,
      "loss": 3.2189,
      "step": 449230
    },
    {
      "epoch": 0.9359166666666666,
      "grad_norm": 0.8609489798545837,
      "learning_rate": 3.054908439532322e-06,
      "loss": 3.1319,
      "step": 449240
    },
    {
      "epoch": 0.9359375,
      "grad_norm": 0.8665761947631836,
      "learning_rate": 3.0529292402941553e-06,
      "loss": 3.2327,
      "step": 449250
    },
    {
      "epoch": 0.9359583333333333,
      "grad_norm": 0.9017436504364014,
      "learning_rate": 3.0509506758091884e-06,
      "loss": 3.3673,
      "step": 449260
    },
    {
      "epoch": 0.9359791666666667,
      "grad_norm": 0.9627813100814819,
      "learning_rate": 3.0489727460859315e-06,
      "loss": 3.3278,
      "step": 449270
    },
    {
      "epoch": 0.936,
      "grad_norm": 0.857401430606842,
      "learning_rate": 3.0469954511329273e-06,
      "loss": 3.2221,
      "step": 449280
    },
    {
      "epoch": 0.9360208333333333,
      "grad_norm": 0.8505049347877502,
      "learning_rate": 3.04501879095877e-06,
      "loss": 3.2792,
      "step": 449290
    },
    {
      "epoch": 0.9360416666666667,
      "grad_norm": 0.964219868183136,
      "learning_rate": 3.0430427655719513e-06,
      "loss": 3.2856,
      "step": 449300
    },
    {
      "epoch": 0.9360625,
      "grad_norm": 0.8380686640739441,
      "learning_rate": 3.041067374980999e-06,
      "loss": 3.4086,
      "step": 449310
    },
    {
      "epoch": 0.9360833333333334,
      "grad_norm": 0.8987183570861816,
      "learning_rate": 3.0390926191944888e-06,
      "loss": 3.3063,
      "step": 449320
    },
    {
      "epoch": 0.9361041666666666,
      "grad_norm": 0.8637419939041138,
      "learning_rate": 3.037118498220914e-06,
      "loss": 3.268,
      "step": 449330
    },
    {
      "epoch": 0.936125,
      "grad_norm": 0.881686806678772,
      "learning_rate": 3.0351450120688182e-06,
      "loss": 3.3393,
      "step": 449340
    },
    {
      "epoch": 0.9361458333333333,
      "grad_norm": 0.8657577633857727,
      "learning_rate": 3.0331721607467276e-06,
      "loss": 3.413,
      "step": 449350
    },
    {
      "epoch": 0.9361666666666667,
      "grad_norm": 1.0121310949325562,
      "learning_rate": 3.0311999442631686e-06,
      "loss": 3.4025,
      "step": 449360
    },
    {
      "epoch": 0.9361875,
      "grad_norm": 0.8951400518417358,
      "learning_rate": 3.0292283626266345e-06,
      "loss": 3.4304,
      "step": 449370
    },
    {
      "epoch": 0.9362083333333333,
      "grad_norm": 1.0379146337509155,
      "learning_rate": 3.027257415845669e-06,
      "loss": 3.3729,
      "step": 449380
    },
    {
      "epoch": 0.9362291666666667,
      "grad_norm": 0.8573632836341858,
      "learning_rate": 3.025287103928764e-06,
      "loss": 3.2171,
      "step": 449390
    },
    {
      "epoch": 0.93625,
      "grad_norm": 0.8931092619895935,
      "learning_rate": 3.0233174268844475e-06,
      "loss": 3.2715,
      "step": 449400
    },
    {
      "epoch": 0.9362708333333334,
      "grad_norm": 1.0201553106307983,
      "learning_rate": 3.021348384721228e-06,
      "loss": 3.2282,
      "step": 449410
    },
    {
      "epoch": 0.9362916666666666,
      "grad_norm": 1.014359951019287,
      "learning_rate": 3.0193799774476e-06,
      "loss": 3.2453,
      "step": 449420
    },
    {
      "epoch": 0.9363125,
      "grad_norm": 0.9554187655448914,
      "learning_rate": 3.017412205072073e-06,
      "loss": 3.12,
      "step": 449430
    },
    {
      "epoch": 0.9363333333333334,
      "grad_norm": 1.090673804283142,
      "learning_rate": 3.0154450676031396e-06,
      "loss": 3.3284,
      "step": 449440
    },
    {
      "epoch": 0.9363541666666667,
      "grad_norm": 0.9343734383583069,
      "learning_rate": 3.0134785650493097e-06,
      "loss": 3.4496,
      "step": 449450
    },
    {
      "epoch": 0.936375,
      "grad_norm": 0.9585692286491394,
      "learning_rate": 3.0115126974190773e-06,
      "loss": 3.3648,
      "step": 449460
    },
    {
      "epoch": 0.9363958333333333,
      "grad_norm": 0.8434217572212219,
      "learning_rate": 3.009547464720918e-06,
      "loss": 3.2652,
      "step": 449470
    },
    {
      "epoch": 0.9364166666666667,
      "grad_norm": 0.9741243720054626,
      "learning_rate": 3.007582866963326e-06,
      "loss": 3.2945,
      "step": 449480
    },
    {
      "epoch": 0.9364375,
      "grad_norm": 0.9077932834625244,
      "learning_rate": 3.005618904154794e-06,
      "loss": 3.3936,
      "step": 449490
    },
    {
      "epoch": 0.9364583333333333,
      "grad_norm": 0.8929524421691895,
      "learning_rate": 3.003655576303815e-06,
      "loss": 3.2075,
      "step": 449500
    },
    {
      "epoch": 0.9364791666666666,
      "grad_norm": 0.9326035380363464,
      "learning_rate": 3.001692883418849e-06,
      "loss": 3.25,
      "step": 449510
    },
    {
      "epoch": 0.9365,
      "grad_norm": 0.9529768824577332,
      "learning_rate": 2.9997308255083898e-06,
      "loss": 3.4066,
      "step": 449520
    },
    {
      "epoch": 0.9365208333333334,
      "grad_norm": 0.9773364067077637,
      "learning_rate": 2.997769402580913e-06,
      "loss": 3.2803,
      "step": 449530
    },
    {
      "epoch": 0.9365416666666667,
      "grad_norm": 0.9340342879295349,
      "learning_rate": 2.995808614644879e-06,
      "loss": 3.4088,
      "step": 449540
    },
    {
      "epoch": 0.9365625,
      "grad_norm": 1.0393699407577515,
      "learning_rate": 2.9938484617087645e-06,
      "loss": 3.2472,
      "step": 449550
    },
    {
      "epoch": 0.9365833333333333,
      "grad_norm": 0.8838176727294922,
      "learning_rate": 2.991888943781029e-06,
      "loss": 3.2151,
      "step": 449560
    },
    {
      "epoch": 0.9366041666666667,
      "grad_norm": 0.9938220977783203,
      "learning_rate": 2.9899300608701495e-06,
      "loss": 3.3156,
      "step": 449570
    },
    {
      "epoch": 0.936625,
      "grad_norm": 0.9151325225830078,
      "learning_rate": 2.9879718129845854e-06,
      "loss": 3.3002,
      "step": 449580
    },
    {
      "epoch": 0.9366458333333333,
      "grad_norm": 0.9361511468887329,
      "learning_rate": 2.9860142001327637e-06,
      "loss": 3.3105,
      "step": 449590
    },
    {
      "epoch": 0.9366666666666666,
      "grad_norm": 0.9691458344459534,
      "learning_rate": 2.984057222323211e-06,
      "loss": 3.3904,
      "step": 449600
    },
    {
      "epoch": 0.9366875,
      "grad_norm": 0.8941042423248291,
      "learning_rate": 2.9821008795643197e-06,
      "loss": 3.2972,
      "step": 449610
    },
    {
      "epoch": 0.9367083333333334,
      "grad_norm": 0.9318892359733582,
      "learning_rate": 2.980145171864534e-06,
      "loss": 3.3774,
      "step": 449620
    },
    {
      "epoch": 0.9367291666666666,
      "grad_norm": 0.9722288846969604,
      "learning_rate": 2.978190099232364e-06,
      "loss": 3.4229,
      "step": 449630
    },
    {
      "epoch": 0.93675,
      "grad_norm": 0.9239736795425415,
      "learning_rate": 2.9762356616762017e-06,
      "loss": 3.3199,
      "step": 449640
    },
    {
      "epoch": 0.9367708333333333,
      "grad_norm": 0.895418643951416,
      "learning_rate": 2.9742818592044915e-06,
      "loss": 3.3178,
      "step": 449650
    },
    {
      "epoch": 0.9367916666666667,
      "grad_norm": 0.9257552623748779,
      "learning_rate": 2.9723286918257096e-06,
      "loss": 3.3193,
      "step": 449660
    },
    {
      "epoch": 0.9368125,
      "grad_norm": 1.1417611837387085,
      "learning_rate": 2.9703761595482658e-06,
      "loss": 3.2134,
      "step": 449670
    },
    {
      "epoch": 0.9368333333333333,
      "grad_norm": 0.962600588798523,
      "learning_rate": 2.9684242623805867e-06,
      "loss": 3.4742,
      "step": 449680
    },
    {
      "epoch": 0.9368541666666667,
      "grad_norm": 0.9817847013473511,
      "learning_rate": 2.966473000331132e-06,
      "loss": 3.3186,
      "step": 449690
    },
    {
      "epoch": 0.936875,
      "grad_norm": 0.8748568296432495,
      "learning_rate": 2.964522373408312e-06,
      "loss": 3.2972,
      "step": 449700
    },
    {
      "epoch": 0.9368958333333334,
      "grad_norm": 0.9925760626792908,
      "learning_rate": 2.962572381620537e-06,
      "loss": 3.291,
      "step": 449710
    },
    {
      "epoch": 0.9369166666666666,
      "grad_norm": 0.852008581161499,
      "learning_rate": 2.960623024976266e-06,
      "loss": 3.292,
      "step": 449720
    },
    {
      "epoch": 0.9369375,
      "grad_norm": 0.8561299443244934,
      "learning_rate": 2.958674303483893e-06,
      "loss": 3.3007,
      "step": 449730
    },
    {
      "epoch": 0.9369583333333333,
      "grad_norm": 0.9688208103179932,
      "learning_rate": 2.9567262171518448e-06,
      "loss": 3.2457,
      "step": 449740
    },
    {
      "epoch": 0.9369791666666667,
      "grad_norm": 1.002481460571289,
      "learning_rate": 2.9547787659885302e-06,
      "loss": 3.1962,
      "step": 449750
    },
    {
      "epoch": 0.937,
      "grad_norm": 1.0100167989730835,
      "learning_rate": 2.9528319500023768e-06,
      "loss": 3.3485,
      "step": 449760
    },
    {
      "epoch": 0.9370208333333333,
      "grad_norm": 0.9552477598190308,
      "learning_rate": 2.950885769201777e-06,
      "loss": 3.2978,
      "step": 449770
    },
    {
      "epoch": 0.9370416666666667,
      "grad_norm": 1.0743398666381836,
      "learning_rate": 2.9489402235951585e-06,
      "loss": 3.3764,
      "step": 449780
    },
    {
      "epoch": 0.9370625,
      "grad_norm": 0.8632256984710693,
      "learning_rate": 2.9469953131908972e-06,
      "loss": 3.334,
      "step": 449790
    },
    {
      "epoch": 0.9370833333333334,
      "grad_norm": 1.0103611946105957,
      "learning_rate": 2.9450510379974035e-06,
      "loss": 3.451,
      "step": 449800
    },
    {
      "epoch": 0.9371041666666666,
      "grad_norm": 1.0624812841415405,
      "learning_rate": 2.943107398023087e-06,
      "loss": 3.3645,
      "step": 449810
    },
    {
      "epoch": 0.937125,
      "grad_norm": 0.9243369698524475,
      "learning_rate": 2.9411643932763405e-06,
      "loss": 3.2281,
      "step": 449820
    },
    {
      "epoch": 0.9371458333333333,
      "grad_norm": 0.9789531826972961,
      "learning_rate": 2.9392220237655582e-06,
      "loss": 3.3301,
      "step": 449830
    },
    {
      "epoch": 0.9371666666666667,
      "grad_norm": 0.977558970451355,
      "learning_rate": 2.9372802894991165e-06,
      "loss": 3.2196,
      "step": 449840
    },
    {
      "epoch": 0.9371875,
      "grad_norm": 0.9562292098999023,
      "learning_rate": 2.935339190485425e-06,
      "loss": 3.3442,
      "step": 449850
    },
    {
      "epoch": 0.9372083333333333,
      "grad_norm": 0.8864850401878357,
      "learning_rate": 2.9333987267328605e-06,
      "loss": 3.3629,
      "step": 449860
    },
    {
      "epoch": 0.9372291666666667,
      "grad_norm": 0.9301571249961853,
      "learning_rate": 2.9314588982497667e-06,
      "loss": 3.2825,
      "step": 449870
    },
    {
      "epoch": 0.93725,
      "grad_norm": 0.9918854832649231,
      "learning_rate": 2.9295197050445864e-06,
      "loss": 3.3943,
      "step": 449880
    },
    {
      "epoch": 0.9372708333333334,
      "grad_norm": 1.031099557876587,
      "learning_rate": 2.927581147125663e-06,
      "loss": 3.4014,
      "step": 449890
    },
    {
      "epoch": 0.9372916666666666,
      "grad_norm": 0.971074104309082,
      "learning_rate": 2.925643224501356e-06,
      "loss": 3.2583,
      "step": 449900
    },
    {
      "epoch": 0.9373125,
      "grad_norm": 1.013649344444275,
      "learning_rate": 2.9237059371800766e-06,
      "loss": 3.244,
      "step": 449910
    },
    {
      "epoch": 0.9373333333333334,
      "grad_norm": 0.8228015303611755,
      "learning_rate": 2.921769285170167e-06,
      "loss": 3.1705,
      "step": 449920
    },
    {
      "epoch": 0.9373541666666667,
      "grad_norm": 0.8831455111503601,
      "learning_rate": 2.9198332684799708e-06,
      "loss": 3.3442,
      "step": 449930
    },
    {
      "epoch": 0.937375,
      "grad_norm": 0.955371081829071,
      "learning_rate": 2.9178978871179147e-06,
      "loss": 3.2969,
      "step": 449940
    },
    {
      "epoch": 0.9373958333333333,
      "grad_norm": 0.9762897491455078,
      "learning_rate": 2.915963141092309e-06,
      "loss": 3.3378,
      "step": 449950
    },
    {
      "epoch": 0.9374166666666667,
      "grad_norm": 0.8912829160690308,
      "learning_rate": 2.9140290304114967e-06,
      "loss": 3.3666,
      "step": 449960
    },
    {
      "epoch": 0.9374375,
      "grad_norm": 0.8491318225860596,
      "learning_rate": 2.9120955550838877e-06,
      "loss": 3.4057,
      "step": 449970
    },
    {
      "epoch": 0.9374583333333333,
      "grad_norm": 0.9684281945228577,
      "learning_rate": 2.910162715117792e-06,
      "loss": 3.3169,
      "step": 449980
    },
    {
      "epoch": 0.9374791666666666,
      "grad_norm": 0.8175402283668518,
      "learning_rate": 2.9082305105215697e-06,
      "loss": 3.3707,
      "step": 449990
    },
    {
      "epoch": 0.9375,
      "grad_norm": 1.0590174198150635,
      "learning_rate": 2.9062989413035807e-06,
      "loss": 3.3325,
      "step": 450000
    },
    {
      "epoch": 0.9375,
      "eval_loss": 4.023017406463623,
      "eval_runtime": 8.6554,
      "eval_samples_per_second": 1.155,
      "eval_steps_per_second": 0.347,
      "step": 450000
    },
    {
      "epoch": 0.9375208333333334,
      "grad_norm": 0.8955128788948059,
      "learning_rate": 2.904368007472152e-06,
      "loss": 3.2911,
      "step": 450010
    },
    {
      "epoch": 0.9375416666666667,
      "grad_norm": 0.9051576852798462,
      "learning_rate": 2.90243770903561e-06,
      "loss": 3.1132,
      "step": 450020
    },
    {
      "epoch": 0.9375625,
      "grad_norm": 0.9275093078613281,
      "learning_rate": 2.9005080460023312e-06,
      "loss": 3.283,
      "step": 450030
    },
    {
      "epoch": 0.9375833333333333,
      "grad_norm": 0.9568142294883728,
      "learning_rate": 2.8985790183806257e-06,
      "loss": 3.4123,
      "step": 450040
    },
    {
      "epoch": 0.9376041666666667,
      "grad_norm": 0.863780677318573,
      "learning_rate": 2.89665062617882e-06,
      "loss": 3.2885,
      "step": 450050
    },
    {
      "epoch": 0.937625,
      "grad_norm": 0.9538680911064148,
      "learning_rate": 2.8947228694052916e-06,
      "loss": 3.1588,
      "step": 450060
    },
    {
      "epoch": 0.9376458333333333,
      "grad_norm": 0.932815670967102,
      "learning_rate": 2.8927957480682995e-06,
      "loss": 3.2578,
      "step": 450070
    },
    {
      "epoch": 0.9376666666666666,
      "grad_norm": 0.954360842704773,
      "learning_rate": 2.8908692621762208e-06,
      "loss": 3.195,
      "step": 450080
    },
    {
      "epoch": 0.9376875,
      "grad_norm": 0.9275447130203247,
      "learning_rate": 2.888943411737349e-06,
      "loss": 3.3681,
      "step": 450090
    },
    {
      "epoch": 0.9377083333333334,
      "grad_norm": 0.8844496607780457,
      "learning_rate": 2.8870181967600105e-06,
      "loss": 3.2011,
      "step": 450100
    },
    {
      "epoch": 0.9377291666666666,
      "grad_norm": 1.0058542490005493,
      "learning_rate": 2.885093617252515e-06,
      "loss": 3.3054,
      "step": 450110
    },
    {
      "epoch": 0.93775,
      "grad_norm": 1.0775344371795654,
      "learning_rate": 2.88316967322319e-06,
      "loss": 3.3298,
      "step": 450120
    },
    {
      "epoch": 0.9377708333333333,
      "grad_norm": 0.8651398420333862,
      "learning_rate": 2.881246364680345e-06,
      "loss": 3.371,
      "step": 450130
    },
    {
      "epoch": 0.9377916666666667,
      "grad_norm": 0.8795152306556702,
      "learning_rate": 2.879323691632274e-06,
      "loss": 3.2811,
      "step": 450140
    },
    {
      "epoch": 0.9378125,
      "grad_norm": 0.970850944519043,
      "learning_rate": 2.877401654087286e-06,
      "loss": 3.1694,
      "step": 450150
    },
    {
      "epoch": 0.9378333333333333,
      "grad_norm": 0.9726916551589966,
      "learning_rate": 2.875480252053691e-06,
      "loss": 3.268,
      "step": 450160
    },
    {
      "epoch": 0.9378541666666667,
      "grad_norm": 0.9662448167800903,
      "learning_rate": 2.873559485539784e-06,
      "loss": 3.3837,
      "step": 450170
    },
    {
      "epoch": 0.937875,
      "grad_norm": 0.8926150798797607,
      "learning_rate": 2.871639354553873e-06,
      "loss": 3.3265,
      "step": 450180
    },
    {
      "epoch": 0.9378958333333334,
      "grad_norm": 0.8373587727546692,
      "learning_rate": 2.869719859104236e-06,
      "loss": 3.1772,
      "step": 450190
    },
    {
      "epoch": 0.9379166666666666,
      "grad_norm": 0.8683391809463501,
      "learning_rate": 2.8678009991991826e-06,
      "loss": 3.276,
      "step": 450200
    },
    {
      "epoch": 0.9379375,
      "grad_norm": 0.877655565738678,
      "learning_rate": 2.8658827748469727e-06,
      "loss": 3.1848,
      "step": 450210
    },
    {
      "epoch": 0.9379583333333333,
      "grad_norm": 0.9883162975311279,
      "learning_rate": 2.8639651860559166e-06,
      "loss": 3.323,
      "step": 450220
    },
    {
      "epoch": 0.9379791666666667,
      "grad_norm": 0.9237591624259949,
      "learning_rate": 2.862048232834291e-06,
      "loss": 3.2721,
      "step": 450230
    },
    {
      "epoch": 0.938,
      "grad_norm": 0.8750819563865662,
      "learning_rate": 2.860131915190372e-06,
      "loss": 3.4568,
      "step": 450240
    },
    {
      "epoch": 0.9380208333333333,
      "grad_norm": 0.9421980977058411,
      "learning_rate": 2.8582162331324378e-06,
      "loss": 3.2599,
      "step": 450250
    },
    {
      "epoch": 0.9380416666666667,
      "grad_norm": 0.9285517930984497,
      "learning_rate": 2.8563011866687803e-06,
      "loss": 3.2876,
      "step": 450260
    },
    {
      "epoch": 0.9380625,
      "grad_norm": 0.8793620467185974,
      "learning_rate": 2.854386775807643e-06,
      "loss": 3.2681,
      "step": 450270
    },
    {
      "epoch": 0.9380833333333334,
      "grad_norm": 0.9416723847389221,
      "learning_rate": 2.8524730005573203e-06,
      "loss": 3.2817,
      "step": 450280
    },
    {
      "epoch": 0.9381041666666666,
      "grad_norm": 0.9087185859680176,
      "learning_rate": 2.8505598609260717e-06,
      "loss": 3.3874,
      "step": 450290
    },
    {
      "epoch": 0.938125,
      "grad_norm": 0.9357900023460388,
      "learning_rate": 2.84864735692214e-06,
      "loss": 3.3316,
      "step": 450300
    },
    {
      "epoch": 0.9381458333333333,
      "grad_norm": 0.9552129507064819,
      "learning_rate": 2.8467354885538196e-06,
      "loss": 3.1789,
      "step": 450310
    },
    {
      "epoch": 0.9381666666666667,
      "grad_norm": 0.9833890795707703,
      "learning_rate": 2.84482425582937e-06,
      "loss": 3.3769,
      "step": 450320
    },
    {
      "epoch": 0.9381875,
      "grad_norm": 0.9090151786804199,
      "learning_rate": 2.842913658757001e-06,
      "loss": 3.2875,
      "step": 450330
    },
    {
      "epoch": 0.9382083333333333,
      "grad_norm": 1.0494225025177002,
      "learning_rate": 2.8410036973450234e-06,
      "loss": 3.3252,
      "step": 450340
    },
    {
      "epoch": 0.9382291666666667,
      "grad_norm": 0.9139745235443115,
      "learning_rate": 2.8390943716016467e-06,
      "loss": 3.443,
      "step": 450350
    },
    {
      "epoch": 0.93825,
      "grad_norm": 0.8697380423545837,
      "learning_rate": 2.8371856815351145e-06,
      "loss": 3.3176,
      "step": 450360
    },
    {
      "epoch": 0.9382708333333334,
      "grad_norm": 0.9697325229644775,
      "learning_rate": 2.8352776271537204e-06,
      "loss": 3.3041,
      "step": 450370
    },
    {
      "epoch": 0.9382916666666666,
      "grad_norm": 0.9750959873199463,
      "learning_rate": 2.8333702084656574e-06,
      "loss": 3.2371,
      "step": 450380
    },
    {
      "epoch": 0.9383125,
      "grad_norm": 0.9186484217643738,
      "learning_rate": 2.8314634254791857e-06,
      "loss": 3.3245,
      "step": 450390
    },
    {
      "epoch": 0.9383333333333334,
      "grad_norm": 0.8941125869750977,
      "learning_rate": 2.8295572782025487e-06,
      "loss": 3.3846,
      "step": 450400
    },
    {
      "epoch": 0.9383541666666667,
      "grad_norm": 1.0083357095718384,
      "learning_rate": 2.827651766643957e-06,
      "loss": 3.4069,
      "step": 450410
    },
    {
      "epoch": 0.938375,
      "grad_norm": 0.8891817331314087,
      "learning_rate": 2.8257468908116697e-06,
      "loss": 3.2746,
      "step": 450420
    },
    {
      "epoch": 0.9383958333333333,
      "grad_norm": 0.9783831834793091,
      "learning_rate": 2.8238426507138814e-06,
      "loss": 3.3069,
      "step": 450430
    },
    {
      "epoch": 0.9384166666666667,
      "grad_norm": 0.9292292594909668,
      "learning_rate": 2.821939046358851e-06,
      "loss": 3.3636,
      "step": 450440
    },
    {
      "epoch": 0.9384375,
      "grad_norm": 0.9653096795082092,
      "learning_rate": 2.8200360777547724e-06,
      "loss": 3.4139,
      "step": 450450
    },
    {
      "epoch": 0.9384583333333333,
      "grad_norm": 0.9382880330085754,
      "learning_rate": 2.8181337449098893e-06,
      "loss": 3.2103,
      "step": 450460
    },
    {
      "epoch": 0.9384791666666666,
      "grad_norm": 0.9518992304801941,
      "learning_rate": 2.816232047832412e-06,
      "loss": 3.1993,
      "step": 450470
    },
    {
      "epoch": 0.9385,
      "grad_norm": 0.8813636302947998,
      "learning_rate": 2.8143309865305495e-06,
      "loss": 3.2784,
      "step": 450480
    },
    {
      "epoch": 0.9385208333333334,
      "grad_norm": 1.0165867805480957,
      "learning_rate": 2.812430561012513e-06,
      "loss": 3.3079,
      "step": 450490
    },
    {
      "epoch": 0.9385416666666667,
      "grad_norm": 0.9654437899589539,
      "learning_rate": 2.8105307712865287e-06,
      "loss": 3.2871,
      "step": 450500
    },
    {
      "epoch": 0.9385625,
      "grad_norm": 0.8399713039398193,
      "learning_rate": 2.8086316173607737e-06,
      "loss": 3.2146,
      "step": 450510
    },
    {
      "epoch": 0.9385833333333333,
      "grad_norm": 0.9977373480796814,
      "learning_rate": 2.8067330992434746e-06,
      "loss": 3.2391,
      "step": 450520
    },
    {
      "epoch": 0.9386041666666667,
      "grad_norm": 0.9231415390968323,
      "learning_rate": 2.8048352169428244e-06,
      "loss": 3.3019,
      "step": 450530
    },
    {
      "epoch": 0.938625,
      "grad_norm": 1.0190117359161377,
      "learning_rate": 2.8029379704670173e-06,
      "loss": 3.3525,
      "step": 450540
    },
    {
      "epoch": 0.9386458333333333,
      "grad_norm": 0.8469324111938477,
      "learning_rate": 2.801041359824263e-06,
      "loss": 3.2418,
      "step": 450550
    },
    {
      "epoch": 0.9386666666666666,
      "grad_norm": 0.9196802973747253,
      "learning_rate": 2.7991453850227384e-06,
      "loss": 3.2771,
      "step": 450560
    },
    {
      "epoch": 0.9386875,
      "grad_norm": 0.9675817489624023,
      "learning_rate": 2.7972500460706537e-06,
      "loss": 3.2887,
      "step": 450570
    },
    {
      "epoch": 0.9387083333333334,
      "grad_norm": 1.093059778213501,
      "learning_rate": 2.795355342976169e-06,
      "loss": 3.2002,
      "step": 450580
    },
    {
      "epoch": 0.9387291666666666,
      "grad_norm": 0.9797106981277466,
      "learning_rate": 2.793461275747477e-06,
      "loss": 3.24,
      "step": 450590
    },
    {
      "epoch": 0.93875,
      "grad_norm": 0.9368470907211304,
      "learning_rate": 2.791567844392789e-06,
      "loss": 3.2025,
      "step": 450600
    },
    {
      "epoch": 0.9387708333333333,
      "grad_norm": 0.8773214817047119,
      "learning_rate": 2.7896750489202313e-06,
      "loss": 3.3063,
      "step": 450610
    },
    {
      "epoch": 0.9387916666666667,
      "grad_norm": 1.0018795728683472,
      "learning_rate": 2.787782889338014e-06,
      "loss": 3.4104,
      "step": 450620
    },
    {
      "epoch": 0.9388125,
      "grad_norm": 0.8722802400588989,
      "learning_rate": 2.7858913656543137e-06,
      "loss": 3.2554,
      "step": 450630
    },
    {
      "epoch": 0.9388333333333333,
      "grad_norm": 1.0172991752624512,
      "learning_rate": 2.784000477877274e-06,
      "loss": 3.3578,
      "step": 450640
    },
    {
      "epoch": 0.9388541666666667,
      "grad_norm": 1.0270986557006836,
      "learning_rate": 2.7821102260150887e-06,
      "loss": 3.3414,
      "step": 450650
    },
    {
      "epoch": 0.938875,
      "grad_norm": 0.9373621344566345,
      "learning_rate": 2.780220610075917e-06,
      "loss": 3.2633,
      "step": 450660
    },
    {
      "epoch": 0.9388958333333334,
      "grad_norm": 0.881047248840332,
      "learning_rate": 2.7783316300679036e-06,
      "loss": 3.2519,
      "step": 450670
    },
    {
      "epoch": 0.9389166666666666,
      "grad_norm": 0.9404110908508301,
      "learning_rate": 2.7764432859992414e-06,
      "loss": 3.3044,
      "step": 450680
    },
    {
      "epoch": 0.9389375,
      "grad_norm": 0.8898501992225647,
      "learning_rate": 2.7745555778780735e-06,
      "loss": 3.405,
      "step": 450690
    },
    {
      "epoch": 0.9389583333333333,
      "grad_norm": 0.961479663848877,
      "learning_rate": 2.7726685057125277e-06,
      "loss": 3.3365,
      "step": 450700
    },
    {
      "epoch": 0.9389791666666667,
      "grad_norm": 0.8698484897613525,
      "learning_rate": 2.770782069510813e-06,
      "loss": 3.3294,
      "step": 450710
    },
    {
      "epoch": 0.939,
      "grad_norm": 1.0271480083465576,
      "learning_rate": 2.7688962692810233e-06,
      "loss": 3.304,
      "step": 450720
    },
    {
      "epoch": 0.9390208333333333,
      "grad_norm": 0.9480822682380676,
      "learning_rate": 2.7670111050313193e-06,
      "loss": 3.4031,
      "step": 450730
    },
    {
      "epoch": 0.9390416666666667,
      "grad_norm": 0.9230714440345764,
      "learning_rate": 2.765126576769844e-06,
      "loss": 3.2919,
      "step": 450740
    },
    {
      "epoch": 0.9390625,
      "grad_norm": 0.9344497323036194,
      "learning_rate": 2.7632426845047405e-06,
      "loss": 3.337,
      "step": 450750
    },
    {
      "epoch": 0.9390833333333334,
      "grad_norm": 0.861763596534729,
      "learning_rate": 2.761359428244153e-06,
      "loss": 3.1956,
      "step": 450760
    },
    {
      "epoch": 0.9391041666666666,
      "grad_norm": 0.8956437110900879,
      "learning_rate": 2.759476807996225e-06,
      "loss": 3.1912,
      "step": 450770
    },
    {
      "epoch": 0.939125,
      "grad_norm": 0.9963743090629578,
      "learning_rate": 2.7575948237690657e-06,
      "loss": 3.2803,
      "step": 450780
    },
    {
      "epoch": 0.9391458333333333,
      "grad_norm": 0.9662913680076599,
      "learning_rate": 2.7557134755708032e-06,
      "loss": 3.3751,
      "step": 450790
    },
    {
      "epoch": 0.9391666666666667,
      "grad_norm": 0.9237955808639526,
      "learning_rate": 2.7538327634095804e-06,
      "loss": 3.2049,
      "step": 450800
    },
    {
      "epoch": 0.9391875,
      "grad_norm": 0.9258180260658264,
      "learning_rate": 2.7519526872935237e-06,
      "loss": 3.2305,
      "step": 450810
    },
    {
      "epoch": 0.9392083333333333,
      "grad_norm": 0.9086430072784424,
      "learning_rate": 2.7500732472307442e-06,
      "loss": 3.3443,
      "step": 450820
    },
    {
      "epoch": 0.9392291666666667,
      "grad_norm": 1.0536977052688599,
      "learning_rate": 2.7481944432293677e-06,
      "loss": 3.3283,
      "step": 450830
    },
    {
      "epoch": 0.93925,
      "grad_norm": 0.9740394949913025,
      "learning_rate": 2.7463162752974887e-06,
      "loss": 3.2677,
      "step": 450840
    },
    {
      "epoch": 0.9392708333333334,
      "grad_norm": 1.0340297222137451,
      "learning_rate": 2.74443874344325e-06,
      "loss": 3.3151,
      "step": 450850
    },
    {
      "epoch": 0.9392916666666666,
      "grad_norm": 0.9643484950065613,
      "learning_rate": 2.7425618476747456e-06,
      "loss": 3.2984,
      "step": 450860
    },
    {
      "epoch": 0.9393125,
      "grad_norm": 1.0317314863204956,
      "learning_rate": 2.7406855880000857e-06,
      "loss": 3.3277,
      "step": 450870
    },
    {
      "epoch": 0.9393333333333334,
      "grad_norm": 0.8730577826499939,
      "learning_rate": 2.738809964427363e-06,
      "loss": 3.3496,
      "step": 450880
    },
    {
      "epoch": 0.9393541666666667,
      "grad_norm": 1.0152208805084229,
      "learning_rate": 2.736934976964705e-06,
      "loss": 3.3418,
      "step": 450890
    },
    {
      "epoch": 0.939375,
      "grad_norm": 1.1050007343292236,
      "learning_rate": 2.735060625620189e-06,
      "loss": 3.2268,
      "step": 450900
    },
    {
      "epoch": 0.9393958333333333,
      "grad_norm": 0.8756231069564819,
      "learning_rate": 2.7331869104019244e-06,
      "loss": 3.3052,
      "step": 450910
    },
    {
      "epoch": 0.9394166666666667,
      "grad_norm": 0.9525349140167236,
      "learning_rate": 2.731313831318005e-06,
      "loss": 3.2543,
      "step": 450920
    },
    {
      "epoch": 0.9394375,
      "grad_norm": 0.8605970740318298,
      "learning_rate": 2.7294413883765077e-06,
      "loss": 3.2811,
      "step": 450930
    },
    {
      "epoch": 0.9394583333333333,
      "grad_norm": 0.8903052806854248,
      "learning_rate": 2.7275695815855425e-06,
      "loss": 3.3661,
      "step": 450940
    },
    {
      "epoch": 0.9394791666666666,
      "grad_norm": 0.8968428373336792,
      "learning_rate": 2.72569841095317e-06,
      "loss": 3.3714,
      "step": 450950
    },
    {
      "epoch": 0.9395,
      "grad_norm": 0.9863119721412659,
      "learning_rate": 2.723827876487483e-06,
      "loss": 3.4214,
      "step": 450960
    },
    {
      "epoch": 0.9395208333333334,
      "grad_norm": 0.8307510614395142,
      "learning_rate": 2.7219579781965927e-06,
      "loss": 3.4469,
      "step": 450970
    },
    {
      "epoch": 0.9395416666666667,
      "grad_norm": 0.9778623580932617,
      "learning_rate": 2.7200887160885088e-06,
      "loss": 3.3272,
      "step": 450980
    },
    {
      "epoch": 0.9395625,
      "grad_norm": 0.9550414085388184,
      "learning_rate": 2.718220090171358e-06,
      "loss": 3.3136,
      "step": 450990
    },
    {
      "epoch": 0.9395833333333333,
      "grad_norm": 0.9363494515419006,
      "learning_rate": 2.7163521004532175e-06,
      "loss": 3.3257,
      "step": 451000
    },
    {
      "epoch": 0.9395833333333333,
      "eval_loss": 4.022693634033203,
      "eval_runtime": 8.6509,
      "eval_samples_per_second": 1.156,
      "eval_steps_per_second": 0.347,
      "step": 451000
    },
    {
      "epoch": 0.9396041666666667,
      "grad_norm": 0.8395945429801941,
      "learning_rate": 2.7144847469421136e-06,
      "loss": 3.269,
      "step": 451010
    },
    {
      "epoch": 0.939625,
      "grad_norm": 0.9197380542755127,
      "learning_rate": 2.712618029646124e-06,
      "loss": 3.2226,
      "step": 451020
    },
    {
      "epoch": 0.9396458333333333,
      "grad_norm": 0.929744303226471,
      "learning_rate": 2.710751948573359e-06,
      "loss": 3.3114,
      "step": 451030
    },
    {
      "epoch": 0.9396666666666667,
      "grad_norm": 0.9370465874671936,
      "learning_rate": 2.7088865037318274e-06,
      "loss": 3.3449,
      "step": 451040
    },
    {
      "epoch": 0.9396875,
      "grad_norm": 0.9637694358825684,
      "learning_rate": 2.707021695129591e-06,
      "loss": 3.2925,
      "step": 451050
    },
    {
      "epoch": 0.9397083333333334,
      "grad_norm": 0.941568911075592,
      "learning_rate": 2.7051575227747423e-06,
      "loss": 3.3484,
      "step": 451060
    },
    {
      "epoch": 0.9397291666666666,
      "grad_norm": 0.8463422060012817,
      "learning_rate": 2.7032939866752924e-06,
      "loss": 3.2441,
      "step": 451070
    },
    {
      "epoch": 0.93975,
      "grad_norm": 0.9151672720909119,
      "learning_rate": 2.7014310868393173e-06,
      "loss": 3.3058,
      "step": 451080
    },
    {
      "epoch": 0.9397708333333333,
      "grad_norm": 1.052764892578125,
      "learning_rate": 2.699568823274845e-06,
      "loss": 3.2722,
      "step": 451090
    },
    {
      "epoch": 0.9397916666666667,
      "grad_norm": 1.104431390762329,
      "learning_rate": 2.697707195989951e-06,
      "loss": 3.3567,
      "step": 451100
    },
    {
      "epoch": 0.9398125,
      "grad_norm": 1.0456417798995972,
      "learning_rate": 2.69584620499263e-06,
      "loss": 3.3788,
      "step": 451110
    },
    {
      "epoch": 0.9398333333333333,
      "grad_norm": 0.8962544798851013,
      "learning_rate": 2.6939858502909584e-06,
      "loss": 3.2411,
      "step": 451120
    },
    {
      "epoch": 0.9398541666666667,
      "grad_norm": 1.0213016271591187,
      "learning_rate": 2.6921261318929634e-06,
      "loss": 3.3765,
      "step": 451130
    },
    {
      "epoch": 0.939875,
      "grad_norm": 0.9184727668762207,
      "learning_rate": 2.6902670498066715e-06,
      "loss": 3.3241,
      "step": 451140
    },
    {
      "epoch": 0.9398958333333334,
      "grad_norm": 0.8277814388275146,
      "learning_rate": 2.68840860404011e-06,
      "loss": 3.3093,
      "step": 451150
    },
    {
      "epoch": 0.9399166666666666,
      "grad_norm": 0.8561517596244812,
      "learning_rate": 2.686550794601322e-06,
      "loss": 3.2346,
      "step": 451160
    },
    {
      "epoch": 0.9399375,
      "grad_norm": 0.8562206029891968,
      "learning_rate": 2.684693621498335e-06,
      "loss": 3.2648,
      "step": 451170
    },
    {
      "epoch": 0.9399583333333333,
      "grad_norm": 0.8766604065895081,
      "learning_rate": 2.6828370847391424e-06,
      "loss": 3.2792,
      "step": 451180
    },
    {
      "epoch": 0.9399791666666667,
      "grad_norm": 0.8950340747833252,
      "learning_rate": 2.6809811843317876e-06,
      "loss": 3.2672,
      "step": 451190
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.8940731883049011,
      "learning_rate": 2.6791259202842807e-06,
      "loss": 3.2449,
      "step": 451200
    },
    {
      "epoch": 0.9400208333333333,
      "grad_norm": 0.8810396790504456,
      "learning_rate": 2.6772712926046327e-06,
      "loss": 3.2363,
      "step": 451210
    },
    {
      "epoch": 0.9400416666666667,
      "grad_norm": 0.8940689563751221,
      "learning_rate": 2.6754173013008528e-06,
      "loss": 3.2215,
      "step": 451220
    },
    {
      "epoch": 0.9400625,
      "grad_norm": 0.8234853148460388,
      "learning_rate": 2.6735639463809687e-06,
      "loss": 3.3303,
      "step": 451230
    },
    {
      "epoch": 0.9400833333333334,
      "grad_norm": 0.8119814991950989,
      "learning_rate": 2.6717112278529575e-06,
      "loss": 3.3043,
      "step": 451240
    },
    {
      "epoch": 0.9401041666666666,
      "grad_norm": 0.8986413478851318,
      "learning_rate": 2.6698591457248455e-06,
      "loss": 3.3164,
      "step": 451250
    },
    {
      "epoch": 0.940125,
      "grad_norm": 0.8868348598480225,
      "learning_rate": 2.668007700004626e-06,
      "loss": 3.2156,
      "step": 451260
    },
    {
      "epoch": 0.9401458333333333,
      "grad_norm": 0.9603809714317322,
      "learning_rate": 2.666156890700294e-06,
      "loss": 3.3168,
      "step": 451270
    },
    {
      "epoch": 0.9401666666666667,
      "grad_norm": 1.0110619068145752,
      "learning_rate": 2.6643067178198586e-06,
      "loss": 3.3924,
      "step": 451280
    },
    {
      "epoch": 0.9401875,
      "grad_norm": 0.8573346734046936,
      "learning_rate": 2.6624571813712803e-06,
      "loss": 3.2543,
      "step": 451290
    },
    {
      "epoch": 0.9402083333333333,
      "grad_norm": 1.0148259401321411,
      "learning_rate": 2.6606082813625693e-06,
      "loss": 3.4066,
      "step": 451300
    },
    {
      "epoch": 0.9402291666666667,
      "grad_norm": 0.9273219704627991,
      "learning_rate": 2.65876001780172e-06,
      "loss": 3.3801,
      "step": 451310
    },
    {
      "epoch": 0.94025,
      "grad_norm": 0.9286974668502808,
      "learning_rate": 2.656912390696708e-06,
      "loss": 3.3735,
      "step": 451320
    },
    {
      "epoch": 0.9402708333333333,
      "grad_norm": 0.8629117012023926,
      "learning_rate": 2.655065400055495e-06,
      "loss": 3.403,
      "step": 451330
    },
    {
      "epoch": 0.9402916666666666,
      "grad_norm": 0.9872987866401672,
      "learning_rate": 2.6532190458860903e-06,
      "loss": 3.2284,
      "step": 451340
    },
    {
      "epoch": 0.9403125,
      "grad_norm": 1.039358377456665,
      "learning_rate": 2.6513733281964544e-06,
      "loss": 3.3343,
      "step": 451350
    },
    {
      "epoch": 0.9403333333333334,
      "grad_norm": 1.024233102798462,
      "learning_rate": 2.649528246994531e-06,
      "loss": 3.3867,
      "step": 451360
    },
    {
      "epoch": 0.9403541666666667,
      "grad_norm": 0.8690429329872131,
      "learning_rate": 2.647683802288364e-06,
      "loss": 3.3269,
      "step": 451370
    },
    {
      "epoch": 0.940375,
      "grad_norm": 0.9787779450416565,
      "learning_rate": 2.645839994085863e-06,
      "loss": 3.305,
      "step": 451380
    },
    {
      "epoch": 0.9403958333333333,
      "grad_norm": 0.9553717374801636,
      "learning_rate": 2.6439968223949894e-06,
      "loss": 3.2594,
      "step": 451390
    },
    {
      "epoch": 0.9404166666666667,
      "grad_norm": 0.8842246532440186,
      "learning_rate": 2.6421542872237355e-06,
      "loss": 3.3154,
      "step": 451400
    },
    {
      "epoch": 0.9404375,
      "grad_norm": 0.9854897260665894,
      "learning_rate": 2.640312388580046e-06,
      "loss": 3.2559,
      "step": 451410
    },
    {
      "epoch": 0.9404583333333333,
      "grad_norm": 0.8237869739532471,
      "learning_rate": 2.6384711264718637e-06,
      "loss": 3.2851,
      "step": 451420
    },
    {
      "epoch": 0.9404791666666666,
      "grad_norm": 0.8499513268470764,
      "learning_rate": 2.6366305009071833e-06,
      "loss": 3.3594,
      "step": 451430
    },
    {
      "epoch": 0.9405,
      "grad_norm": 0.9099250435829163,
      "learning_rate": 2.634790511893914e-06,
      "loss": 3.3401,
      "step": 451440
    },
    {
      "epoch": 0.9405208333333334,
      "grad_norm": 0.8827714920043945,
      "learning_rate": 2.632951159440033e-06,
      "loss": 3.4495,
      "step": 451450
    },
    {
      "epoch": 0.9405416666666667,
      "grad_norm": 0.9602845907211304,
      "learning_rate": 2.6311124435534514e-06,
      "loss": 3.3592,
      "step": 451460
    },
    {
      "epoch": 0.9405625,
      "grad_norm": 0.944468080997467,
      "learning_rate": 2.6292743642421287e-06,
      "loss": 3.3338,
      "step": 451470
    },
    {
      "epoch": 0.9405833333333333,
      "grad_norm": 0.9401136040687561,
      "learning_rate": 2.6274369215140258e-06,
      "loss": 3.3022,
      "step": 451480
    },
    {
      "epoch": 0.9406041666666667,
      "grad_norm": 1.0083441734313965,
      "learning_rate": 2.6256001153770525e-06,
      "loss": 3.1927,
      "step": 451490
    },
    {
      "epoch": 0.940625,
      "grad_norm": 0.9790312051773071,
      "learning_rate": 2.6237639458391523e-06,
      "loss": 3.3952,
      "step": 451500
    },
    {
      "epoch": 0.9406458333333333,
      "grad_norm": 1.1295092105865479,
      "learning_rate": 2.621928412908253e-06,
      "loss": 3.257,
      "step": 451510
    },
    {
      "epoch": 0.9406666666666667,
      "grad_norm": 1.0263758897781372,
      "learning_rate": 2.620093516592281e-06,
      "loss": 3.3787,
      "step": 451520
    },
    {
      "epoch": 0.9406875,
      "grad_norm": 0.945311963558197,
      "learning_rate": 2.61825925689918e-06,
      "loss": 3.2845,
      "step": 451530
    },
    {
      "epoch": 0.9407083333333334,
      "grad_norm": 0.9872455596923828,
      "learning_rate": 2.6164256338368607e-06,
      "loss": 3.2559,
      "step": 451540
    },
    {
      "epoch": 0.9407291666666666,
      "grad_norm": 0.8538053035736084,
      "learning_rate": 2.6145926474132327e-06,
      "loss": 3.4238,
      "step": 451550
    },
    {
      "epoch": 0.94075,
      "grad_norm": 0.825890302658081,
      "learning_rate": 2.6127602976362404e-06,
      "loss": 3.3041,
      "step": 451560
    },
    {
      "epoch": 0.9407708333333333,
      "grad_norm": 0.9045054912567139,
      "learning_rate": 2.6109285845137774e-06,
      "loss": 3.3172,
      "step": 451570
    },
    {
      "epoch": 0.9407916666666667,
      "grad_norm": 0.9084435105323792,
      "learning_rate": 2.6090975080537536e-06,
      "loss": 3.441,
      "step": 451580
    },
    {
      "epoch": 0.9408125,
      "grad_norm": 0.8725807070732117,
      "learning_rate": 2.607267068264096e-06,
      "loss": 3.4651,
      "step": 451590
    },
    {
      "epoch": 0.9408333333333333,
      "grad_norm": 0.9082148671150208,
      "learning_rate": 2.6054372651527154e-06,
      "loss": 3.3352,
      "step": 451600
    },
    {
      "epoch": 0.9408541666666667,
      "grad_norm": 0.8721545338630676,
      "learning_rate": 2.603608098727472e-06,
      "loss": 3.3165,
      "step": 451610
    },
    {
      "epoch": 0.940875,
      "grad_norm": 0.9494067430496216,
      "learning_rate": 2.601779568996326e-06,
      "loss": 3.3311,
      "step": 451620
    },
    {
      "epoch": 0.9408958333333334,
      "grad_norm": 0.9200666546821594,
      "learning_rate": 2.599951675967138e-06,
      "loss": 3.312,
      "step": 451630
    },
    {
      "epoch": 0.9409166666666666,
      "grad_norm": 0.8891035914421082,
      "learning_rate": 2.5981244196478014e-06,
      "loss": 3.2832,
      "step": 451640
    },
    {
      "epoch": 0.9409375,
      "grad_norm": 0.9191086292266846,
      "learning_rate": 2.596297800046243e-06,
      "loss": 3.2506,
      "step": 451650
    },
    {
      "epoch": 0.9409583333333333,
      "grad_norm": 0.9444211721420288,
      "learning_rate": 2.594471817170324e-06,
      "loss": 3.3281,
      "step": 451660
    },
    {
      "epoch": 0.9409791666666667,
      "grad_norm": 0.9660500288009644,
      "learning_rate": 2.592646471027937e-06,
      "loss": 3.3221,
      "step": 451670
    },
    {
      "epoch": 0.941,
      "grad_norm": 1.069762945175171,
      "learning_rate": 2.59082176162696e-06,
      "loss": 3.3329,
      "step": 451680
    },
    {
      "epoch": 0.9410208333333333,
      "grad_norm": 0.9999017715454102,
      "learning_rate": 2.5889976889753027e-06,
      "loss": 3.3078,
      "step": 451690
    },
    {
      "epoch": 0.9410416666666667,
      "grad_norm": 0.9450968503952026,
      "learning_rate": 2.587174253080809e-06,
      "loss": 3.348,
      "step": 451700
    },
    {
      "epoch": 0.9410625,
      "grad_norm": 0.9186401963233948,
      "learning_rate": 2.5853514539513898e-06,
      "loss": 3.3443,
      "step": 451710
    },
    {
      "epoch": 0.9410833333333334,
      "grad_norm": 0.9833166599273682,
      "learning_rate": 2.5835292915949047e-06,
      "loss": 3.315,
      "step": 451720
    },
    {
      "epoch": 0.9411041666666666,
      "grad_norm": 0.9680531620979309,
      "learning_rate": 2.5817077660191978e-06,
      "loss": 3.5168,
      "step": 451730
    },
    {
      "epoch": 0.941125,
      "grad_norm": 0.8899420499801636,
      "learning_rate": 2.579886877232179e-06,
      "loss": 3.2915,
      "step": 451740
    },
    {
      "epoch": 0.9411458333333333,
      "grad_norm": 1.1897751092910767,
      "learning_rate": 2.5780666252416927e-06,
      "loss": 3.2505,
      "step": 451750
    },
    {
      "epoch": 0.9411666666666667,
      "grad_norm": 0.9535932540893555,
      "learning_rate": 2.576247010055582e-06,
      "loss": 3.3263,
      "step": 451760
    },
    {
      "epoch": 0.9411875,
      "grad_norm": 0.9482030868530273,
      "learning_rate": 2.5744280316817743e-06,
      "loss": 3.2446,
      "step": 451770
    },
    {
      "epoch": 0.9412083333333333,
      "grad_norm": 0.9147192239761353,
      "learning_rate": 2.5726096901280468e-06,
      "loss": 3.2328,
      "step": 451780
    },
    {
      "epoch": 0.9412291666666667,
      "grad_norm": 0.9170977473258972,
      "learning_rate": 2.570791985402293e-06,
      "loss": 3.2197,
      "step": 451790
    },
    {
      "epoch": 0.94125,
      "grad_norm": 0.8621136546134949,
      "learning_rate": 2.5689749175123896e-06,
      "loss": 3.2133,
      "step": 451800
    },
    {
      "epoch": 0.9412708333333333,
      "grad_norm": 0.9023681879043579,
      "learning_rate": 2.567158486466131e-06,
      "loss": 3.284,
      "step": 451810
    },
    {
      "epoch": 0.9412916666666666,
      "grad_norm": 1.0131784677505493,
      "learning_rate": 2.565342692271377e-06,
      "loss": 3.2487,
      "step": 451820
    },
    {
      "epoch": 0.9413125,
      "grad_norm": 0.9344753623008728,
      "learning_rate": 2.5635275349360216e-06,
      "loss": 3.3619,
      "step": 451830
    },
    {
      "epoch": 0.9413333333333334,
      "grad_norm": 0.9470954537391663,
      "learning_rate": 2.561713014467842e-06,
      "loss": 3.2855,
      "step": 451840
    },
    {
      "epoch": 0.9413541666666667,
      "grad_norm": 0.8649027347564697,
      "learning_rate": 2.559899130874715e-06,
      "loss": 3.3901,
      "step": 451850
    },
    {
      "epoch": 0.941375,
      "grad_norm": 1.0867310762405396,
      "learning_rate": 2.558085884164451e-06,
      "loss": 3.2585,
      "step": 451860
    },
    {
      "epoch": 0.9413958333333333,
      "grad_norm": 0.9596935510635376,
      "learning_rate": 2.556273274344911e-06,
      "loss": 3.3341,
      "step": 451870
    },
    {
      "epoch": 0.9414166666666667,
      "grad_norm": 1.0380586385726929,
      "learning_rate": 2.554461301423888e-06,
      "loss": 3.2808,
      "step": 451880
    },
    {
      "epoch": 0.9414375,
      "grad_norm": 0.9188302159309387,
      "learning_rate": 2.5526499654092425e-06,
      "loss": 3.2405,
      "step": 451890
    },
    {
      "epoch": 0.9414583333333333,
      "grad_norm": 0.9593672752380371,
      "learning_rate": 2.550839266308785e-06,
      "loss": 3.31,
      "step": 451900
    },
    {
      "epoch": 0.9414791666666666,
      "grad_norm": 0.9105121493339539,
      "learning_rate": 2.5490292041303263e-06,
      "loss": 3.196,
      "step": 451910
    },
    {
      "epoch": 0.9415,
      "grad_norm": 0.8742966055870056,
      "learning_rate": 2.5472197788817095e-06,
      "loss": 3.3665,
      "step": 451920
    },
    {
      "epoch": 0.9415208333333334,
      "grad_norm": 0.9359877109527588,
      "learning_rate": 2.5454109905707288e-06,
      "loss": 3.365,
      "step": 451930
    },
    {
      "epoch": 0.9415416666666667,
      "grad_norm": 1.037693977355957,
      "learning_rate": 2.5436028392052275e-06,
      "loss": 3.2752,
      "step": 451940
    },
    {
      "epoch": 0.9415625,
      "grad_norm": 0.9078436493873596,
      "learning_rate": 2.5417953247929503e-06,
      "loss": 3.2758,
      "step": 451950
    },
    {
      "epoch": 0.9415833333333333,
      "grad_norm": 0.8873247504234314,
      "learning_rate": 2.539988447341773e-06,
      "loss": 3.3102,
      "step": 451960
    },
    {
      "epoch": 0.9416041666666667,
      "grad_norm": 0.8410013914108276,
      "learning_rate": 2.538182206859507e-06,
      "loss": 3.2718,
      "step": 451970
    },
    {
      "epoch": 0.941625,
      "grad_norm": 0.9084240794181824,
      "learning_rate": 2.536376603353879e-06,
      "loss": 3.3975,
      "step": 451980
    },
    {
      "epoch": 0.9416458333333333,
      "grad_norm": 0.994069516658783,
      "learning_rate": 2.5345716368327497e-06,
      "loss": 3.3054,
      "step": 451990
    },
    {
      "epoch": 0.9416666666666667,
      "grad_norm": 0.9199112057685852,
      "learning_rate": 2.5327673073039123e-06,
      "loss": 3.3099,
      "step": 452000
    },
    {
      "epoch": 0.9416666666666667,
      "eval_loss": 4.022385120391846,
      "eval_runtime": 8.4366,
      "eval_samples_per_second": 1.185,
      "eval_steps_per_second": 0.356,
      "step": 452000
    },
    {
      "epoch": 0.9416875,
      "grad_norm": 0.8704515695571899,
      "learning_rate": 2.530963614775128e-06,
      "loss": 3.3197,
      "step": 452010
    },
    {
      "epoch": 0.9417083333333334,
      "grad_norm": 0.9819535613059998,
      "learning_rate": 2.529160559254223e-06,
      "loss": 3.2799,
      "step": 452020
    },
    {
      "epoch": 0.9417291666666666,
      "grad_norm": 0.991753339767456,
      "learning_rate": 2.5273581407489752e-06,
      "loss": 3.359,
      "step": 452030
    },
    {
      "epoch": 0.94175,
      "grad_norm": 0.9436896443367004,
      "learning_rate": 2.5255563592671447e-06,
      "loss": 3.2974,
      "step": 452040
    },
    {
      "epoch": 0.9417708333333333,
      "grad_norm": 1.1529719829559326,
      "learning_rate": 2.5237552148165417e-06,
      "loss": 3.2385,
      "step": 452050
    },
    {
      "epoch": 0.9417916666666667,
      "grad_norm": 1.0336052179336548,
      "learning_rate": 2.521954707404961e-06,
      "loss": 3.1844,
      "step": 452060
    },
    {
      "epoch": 0.9418125,
      "grad_norm": 0.8307141661643982,
      "learning_rate": 2.5201548370401447e-06,
      "loss": 3.2254,
      "step": 452070
    },
    {
      "epoch": 0.9418333333333333,
      "grad_norm": 0.8954278230667114,
      "learning_rate": 2.5183556037299047e-06,
      "loss": 3.3532,
      "step": 452080
    },
    {
      "epoch": 0.9418541666666667,
      "grad_norm": 0.9389704465866089,
      "learning_rate": 2.5165570074819674e-06,
      "loss": 3.2516,
      "step": 452090
    },
    {
      "epoch": 0.941875,
      "grad_norm": 0.9978896379470825,
      "learning_rate": 2.5147590483041104e-06,
      "loss": 3.2284,
      "step": 452100
    },
    {
      "epoch": 0.9418958333333334,
      "grad_norm": 0.9884213805198669,
      "learning_rate": 2.51296172620416e-06,
      "loss": 3.2375,
      "step": 452110
    },
    {
      "epoch": 0.9419166666666666,
      "grad_norm": 0.963935375213623,
      "learning_rate": 2.511165041189811e-06,
      "loss": 3.3694,
      "step": 452120
    },
    {
      "epoch": 0.9419375,
      "grad_norm": 1.0067813396453857,
      "learning_rate": 2.50936899326884e-06,
      "loss": 3.2388,
      "step": 452130
    },
    {
      "epoch": 0.9419583333333333,
      "grad_norm": 0.9144461154937744,
      "learning_rate": 2.507573582449024e-06,
      "loss": 3.1981,
      "step": 452140
    },
    {
      "epoch": 0.9419791666666667,
      "grad_norm": 0.9165436029434204,
      "learning_rate": 2.505778808738107e-06,
      "loss": 3.342,
      "step": 452150
    },
    {
      "epoch": 0.942,
      "grad_norm": 0.9322034120559692,
      "learning_rate": 2.503984672143833e-06,
      "loss": 3.2089,
      "step": 452160
    },
    {
      "epoch": 0.9420208333333333,
      "grad_norm": 0.9949572086334229,
      "learning_rate": 2.5021911726739952e-06,
      "loss": 3.3955,
      "step": 452170
    },
    {
      "epoch": 0.9420416666666667,
      "grad_norm": 0.9121631383895874,
      "learning_rate": 2.500398310336288e-06,
      "loss": 3.4368,
      "step": 452180
    },
    {
      "epoch": 0.9420625,
      "grad_norm": 0.8912770748138428,
      "learning_rate": 2.4986060851384713e-06,
      "loss": 3.3056,
      "step": 452190
    },
    {
      "epoch": 0.9420833333333334,
      "grad_norm": 0.970761239528656,
      "learning_rate": 2.4968144970882896e-06,
      "loss": 3.3213,
      "step": 452200
    },
    {
      "epoch": 0.9421041666666666,
      "grad_norm": 0.9731047749519348,
      "learning_rate": 2.4950235461934864e-06,
      "loss": 3.2853,
      "step": 452210
    },
    {
      "epoch": 0.942125,
      "grad_norm": 0.8936543464660645,
      "learning_rate": 2.4932332324618053e-06,
      "loss": 3.2601,
      "step": 452220
    },
    {
      "epoch": 0.9421458333333333,
      "grad_norm": 0.9498535990715027,
      "learning_rate": 2.4914435559009573e-06,
      "loss": 3.242,
      "step": 452230
    },
    {
      "epoch": 0.9421666666666667,
      "grad_norm": 0.8771530389785767,
      "learning_rate": 2.4896545165186855e-06,
      "loss": 3.375,
      "step": 452240
    },
    {
      "epoch": 0.9421875,
      "grad_norm": 0.9644472002983093,
      "learning_rate": 2.487866114322734e-06,
      "loss": 3.3201,
      "step": 452250
    },
    {
      "epoch": 0.9422083333333333,
      "grad_norm": 0.9394950866699219,
      "learning_rate": 2.486078349320797e-06,
      "loss": 3.3585,
      "step": 452260
    },
    {
      "epoch": 0.9422291666666667,
      "grad_norm": 1.0246846675872803,
      "learning_rate": 2.484291221520601e-06,
      "loss": 3.2973,
      "step": 452270
    },
    {
      "epoch": 0.94225,
      "grad_norm": 0.8396976590156555,
      "learning_rate": 2.4825047309298905e-06,
      "loss": 3.2641,
      "step": 452280
    },
    {
      "epoch": 0.9422708333333333,
      "grad_norm": 1.0677860975265503,
      "learning_rate": 2.4807188775563757e-06,
      "loss": 3.3383,
      "step": 452290
    },
    {
      "epoch": 0.9422916666666666,
      "grad_norm": 0.9011532664299011,
      "learning_rate": 2.4789336614077504e-06,
      "loss": 3.4349,
      "step": 452300
    },
    {
      "epoch": 0.9423125,
      "grad_norm": 0.9906498789787292,
      "learning_rate": 2.4771490824917415e-06,
      "loss": 3.2685,
      "step": 452310
    },
    {
      "epoch": 0.9423333333333334,
      "grad_norm": 1.3079876899719238,
      "learning_rate": 2.4753651408160436e-06,
      "loss": 3.4947,
      "step": 452320
    },
    {
      "epoch": 0.9423541666666667,
      "grad_norm": 1.013195514678955,
      "learning_rate": 2.4735818363884e-06,
      "loss": 3.162,
      "step": 452330
    },
    {
      "epoch": 0.942375,
      "grad_norm": 0.8872308731079102,
      "learning_rate": 2.4717991692164708e-06,
      "loss": 3.1828,
      "step": 452340
    },
    {
      "epoch": 0.9423958333333333,
      "grad_norm": 0.9430700540542603,
      "learning_rate": 2.470017139307967e-06,
      "loss": 3.343,
      "step": 452350
    },
    {
      "epoch": 0.9424166666666667,
      "grad_norm": 0.8877958655357361,
      "learning_rate": 2.468235746670599e-06,
      "loss": 3.331,
      "step": 452360
    },
    {
      "epoch": 0.9424375,
      "grad_norm": 0.9002265334129333,
      "learning_rate": 2.4664549913120778e-06,
      "loss": 3.3547,
      "step": 452370
    },
    {
      "epoch": 0.9424583333333333,
      "grad_norm": 1.01055109500885,
      "learning_rate": 2.4646748732400467e-06,
      "loss": 3.2699,
      "step": 452380
    },
    {
      "epoch": 0.9424791666666666,
      "grad_norm": 0.986763596534729,
      "learning_rate": 2.4628953924622165e-06,
      "loss": 3.3458,
      "step": 452390
    },
    {
      "epoch": 0.9425,
      "grad_norm": 0.9048255085945129,
      "learning_rate": 2.461116548986314e-06,
      "loss": 3.2994,
      "step": 452400
    },
    {
      "epoch": 0.9425208333333334,
      "grad_norm": 0.9182174801826477,
      "learning_rate": 2.4593383428199498e-06,
      "loss": 3.3281,
      "step": 452410
    },
    {
      "epoch": 0.9425416666666667,
      "grad_norm": 0.8580167889595032,
      "learning_rate": 2.4575607739708513e-06,
      "loss": 3.3064,
      "step": 452420
    },
    {
      "epoch": 0.9425625,
      "grad_norm": 1.0489236116409302,
      "learning_rate": 2.4557838424467124e-06,
      "loss": 3.3757,
      "step": 452430
    },
    {
      "epoch": 0.9425833333333333,
      "grad_norm": 0.8658949136734009,
      "learning_rate": 2.45400754825516e-06,
      "loss": 3.3773,
      "step": 452440
    },
    {
      "epoch": 0.9426041666666667,
      "grad_norm": 0.9264369606971741,
      "learning_rate": 2.4522318914039053e-06,
      "loss": 3.3284,
      "step": 452450
    },
    {
      "epoch": 0.942625,
      "grad_norm": 0.9276576638221741,
      "learning_rate": 2.450456871900608e-06,
      "loss": 3.4018,
      "step": 452460
    },
    {
      "epoch": 0.9426458333333333,
      "grad_norm": 1.0442596673965454,
      "learning_rate": 2.448682489752912e-06,
      "loss": 3.2882,
      "step": 452470
    },
    {
      "epoch": 0.9426666666666667,
      "grad_norm": 1.0653748512268066,
      "learning_rate": 2.4469087449685286e-06,
      "loss": 3.278,
      "step": 452480
    },
    {
      "epoch": 0.9426875,
      "grad_norm": 0.8875038027763367,
      "learning_rate": 2.4451356375550845e-06,
      "loss": 3.2697,
      "step": 452490
    },
    {
      "epoch": 0.9427083333333334,
      "grad_norm": 1.0028380155563354,
      "learning_rate": 2.44336316752024e-06,
      "loss": 3.2023,
      "step": 452500
    },
    {
      "epoch": 0.9427291666666666,
      "grad_norm": 0.9947916865348816,
      "learning_rate": 2.4415913348716733e-06,
      "loss": 3.3417,
      "step": 452510
    },
    {
      "epoch": 0.94275,
      "grad_norm": 1.064290165901184,
      "learning_rate": 2.4398201396170104e-06,
      "loss": 3.2872,
      "step": 452520
    },
    {
      "epoch": 0.9427708333333333,
      "grad_norm": 1.1092091798782349,
      "learning_rate": 2.438049581763929e-06,
      "loss": 3.3345,
      "step": 452530
    },
    {
      "epoch": 0.9427916666666667,
      "grad_norm": 0.9751021265983582,
      "learning_rate": 2.436279661320056e-06,
      "loss": 3.3455,
      "step": 452540
    },
    {
      "epoch": 0.9428125,
      "grad_norm": 1.04081130027771,
      "learning_rate": 2.4345103782930364e-06,
      "loss": 3.2715,
      "step": 452550
    },
    {
      "epoch": 0.9428333333333333,
      "grad_norm": 0.9087439179420471,
      "learning_rate": 2.43274173269053e-06,
      "loss": 3.2085,
      "step": 452560
    },
    {
      "epoch": 0.9428541666666667,
      "grad_norm": 0.9417083859443665,
      "learning_rate": 2.43097372452018e-06,
      "loss": 3.2319,
      "step": 452570
    },
    {
      "epoch": 0.942875,
      "grad_norm": 0.8656826019287109,
      "learning_rate": 2.429206353789598e-06,
      "loss": 3.3232,
      "step": 452580
    },
    {
      "epoch": 0.9428958333333334,
      "grad_norm": 1.0182344913482666,
      "learning_rate": 2.4274396205064274e-06,
      "loss": 3.3026,
      "step": 452590
    },
    {
      "epoch": 0.9429166666666666,
      "grad_norm": 1.012637972831726,
      "learning_rate": 2.4256735246783286e-06,
      "loss": 3.494,
      "step": 452600
    },
    {
      "epoch": 0.9429375,
      "grad_norm": 1.051795482635498,
      "learning_rate": 2.4239080663128796e-06,
      "loss": 3.3928,
      "step": 452610
    },
    {
      "epoch": 0.9429583333333333,
      "grad_norm": 0.9895169138908386,
      "learning_rate": 2.4221432454177403e-06,
      "loss": 3.3023,
      "step": 452620
    },
    {
      "epoch": 0.9429791666666667,
      "grad_norm": 0.9240666031837463,
      "learning_rate": 2.420379062000538e-06,
      "loss": 3.2157,
      "step": 452630
    },
    {
      "epoch": 0.943,
      "grad_norm": 0.990703821182251,
      "learning_rate": 2.418615516068867e-06,
      "loss": 3.2255,
      "step": 452640
    },
    {
      "epoch": 0.9430208333333333,
      "grad_norm": 0.875985860824585,
      "learning_rate": 2.4168526076303706e-06,
      "loss": 3.2657,
      "step": 452650
    },
    {
      "epoch": 0.9430416666666667,
      "grad_norm": 0.8926070928573608,
      "learning_rate": 2.4150903366926435e-06,
      "loss": 3.2371,
      "step": 452660
    },
    {
      "epoch": 0.9430625,
      "grad_norm": 0.9902457594871521,
      "learning_rate": 2.4133287032633284e-06,
      "loss": 3.2497,
      "step": 452670
    },
    {
      "epoch": 0.9430833333333334,
      "grad_norm": 0.8451905250549316,
      "learning_rate": 2.4115677073499874e-06,
      "loss": 3.3517,
      "step": 452680
    },
    {
      "epoch": 0.9431041666666666,
      "grad_norm": 0.9820943474769592,
      "learning_rate": 2.4098073489602797e-06,
      "loss": 3.3123,
      "step": 452690
    },
    {
      "epoch": 0.943125,
      "grad_norm": 0.9294089078903198,
      "learning_rate": 2.408047628101767e-06,
      "loss": 3.2989,
      "step": 452700
    },
    {
      "epoch": 0.9431458333333333,
      "grad_norm": 1.1162437200546265,
      "learning_rate": 2.4062885447820758e-06,
      "loss": 3.2908,
      "step": 452710
    },
    {
      "epoch": 0.9431666666666667,
      "grad_norm": 0.9169188141822815,
      "learning_rate": 2.4045300990087833e-06,
      "loss": 3.223,
      "step": 452720
    },
    {
      "epoch": 0.9431875,
      "grad_norm": 0.9376062750816345,
      "learning_rate": 2.4027722907895175e-06,
      "loss": 3.3485,
      "step": 452730
    },
    {
      "epoch": 0.9432083333333333,
      "grad_norm": 0.8041016459465027,
      "learning_rate": 2.401015120131855e-06,
      "loss": 3.287,
      "step": 452740
    },
    {
      "epoch": 0.9432291666666667,
      "grad_norm": 0.9994895458221436,
      "learning_rate": 2.3992585870433565e-06,
      "loss": 3.2312,
      "step": 452750
    },
    {
      "epoch": 0.94325,
      "grad_norm": 0.9369409084320068,
      "learning_rate": 2.3975026915316496e-06,
      "loss": 3.2638,
      "step": 452760
    },
    {
      "epoch": 0.9432708333333333,
      "grad_norm": 0.9976924061775208,
      "learning_rate": 2.395747433604328e-06,
      "loss": 3.2768,
      "step": 452770
    },
    {
      "epoch": 0.9432916666666666,
      "grad_norm": 0.9945383071899414,
      "learning_rate": 2.393992813268919e-06,
      "loss": 3.3188,
      "step": 452780
    },
    {
      "epoch": 0.9433125,
      "grad_norm": 0.8966576457023621,
      "learning_rate": 2.392238830533033e-06,
      "loss": 3.3202,
      "step": 452790
    },
    {
      "epoch": 0.9433333333333334,
      "grad_norm": 1.0980112552642822,
      "learning_rate": 2.3904854854042808e-06,
      "loss": 3.3721,
      "step": 452800
    },
    {
      "epoch": 0.9433541666666667,
      "grad_norm": 0.8876699805259705,
      "learning_rate": 2.38873277789019e-06,
      "loss": 3.2583,
      "step": 452810
    },
    {
      "epoch": 0.943375,
      "grad_norm": 0.9608429074287415,
      "learning_rate": 2.3869807079983204e-06,
      "loss": 3.2538,
      "step": 452820
    },
    {
      "epoch": 0.9433958333333333,
      "grad_norm": 0.884793221950531,
      "learning_rate": 2.3852292757363e-06,
      "loss": 3.3276,
      "step": 452830
    },
    {
      "epoch": 0.9434166666666667,
      "grad_norm": 0.9259933233261108,
      "learning_rate": 2.3834784811116393e-06,
      "loss": 3.3471,
      "step": 452840
    },
    {
      "epoch": 0.9434375,
      "grad_norm": 1.2507047653198242,
      "learning_rate": 2.381728324131932e-06,
      "loss": 3.178,
      "step": 452850
    },
    {
      "epoch": 0.9434583333333333,
      "grad_norm": 0.8173732161521912,
      "learning_rate": 2.379978804804722e-06,
      "loss": 3.2649,
      "step": 452860
    },
    {
      "epoch": 0.9434791666666666,
      "grad_norm": 1.0472204685211182,
      "learning_rate": 2.37822992313757e-06,
      "loss": 3.2671,
      "step": 452870
    },
    {
      "epoch": 0.9435,
      "grad_norm": 1.001798391342163,
      "learning_rate": 2.3764816791380204e-06,
      "loss": 3.2018,
      "step": 452880
    },
    {
      "epoch": 0.9435208333333334,
      "grad_norm": 0.9815835356712341,
      "learning_rate": 2.37473407281365e-06,
      "loss": 3.363,
      "step": 452890
    },
    {
      "epoch": 0.9435416666666666,
      "grad_norm": 0.9452401995658875,
      "learning_rate": 2.372987104171986e-06,
      "loss": 3.307,
      "step": 452900
    },
    {
      "epoch": 0.9435625,
      "grad_norm": 0.8711748123168945,
      "learning_rate": 2.3712407732205897e-06,
      "loss": 3.3755,
      "step": 452910
    },
    {
      "epoch": 0.9435833333333333,
      "grad_norm": 0.9156911969184875,
      "learning_rate": 2.369495079967004e-06,
      "loss": 3.3457,
      "step": 452920
    },
    {
      "epoch": 0.9436041666666667,
      "grad_norm": 1.0558042526245117,
      "learning_rate": 2.3677500244187574e-06,
      "loss": 3.276,
      "step": 452930
    },
    {
      "epoch": 0.943625,
      "grad_norm": 1.0229161977767944,
      "learning_rate": 2.366005606583393e-06,
      "loss": 3.2974,
      "step": 452940
    },
    {
      "epoch": 0.9436458333333333,
      "grad_norm": 1.1543738842010498,
      "learning_rate": 2.3642618264684386e-06,
      "loss": 3.367,
      "step": 452950
    },
    {
      "epoch": 0.9436666666666667,
      "grad_norm": 0.9746034741401672,
      "learning_rate": 2.3625186840814548e-06,
      "loss": 3.2608,
      "step": 452960
    },
    {
      "epoch": 0.9436875,
      "grad_norm": 0.8488430976867676,
      "learning_rate": 2.3607761794299353e-06,
      "loss": 3.216,
      "step": 452970
    },
    {
      "epoch": 0.9437083333333334,
      "grad_norm": 0.8609707951545715,
      "learning_rate": 2.359034312521424e-06,
      "loss": 3.2944,
      "step": 452980
    },
    {
      "epoch": 0.9437291666666666,
      "grad_norm": 0.8984689712524414,
      "learning_rate": 2.3572930833634486e-06,
      "loss": 3.2524,
      "step": 452990
    },
    {
      "epoch": 0.94375,
      "grad_norm": 0.9657106995582581,
      "learning_rate": 2.3555524919635195e-06,
      "loss": 3.2589,
      "step": 453000
    },
    {
      "epoch": 0.94375,
      "eval_loss": 4.022221088409424,
      "eval_runtime": 8.4842,
      "eval_samples_per_second": 1.179,
      "eval_steps_per_second": 0.354,
      "step": 453000
    },
    {
      "epoch": 0.9437708333333333,
      "grad_norm": 1.0823891162872314,
      "learning_rate": 2.353812538329164e-06,
      "loss": 3.2661,
      "step": 453010
    },
    {
      "epoch": 0.9437916666666667,
      "grad_norm": 0.8988074064254761,
      "learning_rate": 2.3520732224679094e-06,
      "loss": 3.1866,
      "step": 453020
    },
    {
      "epoch": 0.9438125,
      "grad_norm": 0.966524600982666,
      "learning_rate": 2.3503345443872335e-06,
      "loss": 3.2817,
      "step": 453030
    },
    {
      "epoch": 0.9438333333333333,
      "grad_norm": 0.9461019039154053,
      "learning_rate": 2.3485965040946795e-06,
      "loss": 3.2445,
      "step": 453040
    },
    {
      "epoch": 0.9438541666666667,
      "grad_norm": 0.8959857225418091,
      "learning_rate": 2.3468591015977424e-06,
      "loss": 3.3042,
      "step": 453050
    },
    {
      "epoch": 0.943875,
      "grad_norm": 0.89919114112854,
      "learning_rate": 2.345122336903932e-06,
      "loss": 3.2922,
      "step": 453060
    },
    {
      "epoch": 0.9438958333333334,
      "grad_norm": 0.9696158170700073,
      "learning_rate": 2.343386210020742e-06,
      "loss": 3.3373,
      "step": 453070
    },
    {
      "epoch": 0.9439166666666666,
      "grad_norm": 1.0241106748580933,
      "learning_rate": 2.3416507209557013e-06,
      "loss": 3.416,
      "step": 453080
    },
    {
      "epoch": 0.9439375,
      "grad_norm": 0.9476756453514099,
      "learning_rate": 2.3399158697162524e-06,
      "loss": 3.2631,
      "step": 453090
    },
    {
      "epoch": 0.9439583333333333,
      "grad_norm": 0.8721417188644409,
      "learning_rate": 2.3381816563099233e-06,
      "loss": 3.4336,
      "step": 453100
    },
    {
      "epoch": 0.9439791666666667,
      "grad_norm": 0.9071637988090515,
      "learning_rate": 2.3364480807442244e-06,
      "loss": 3.3534,
      "step": 453110
    },
    {
      "epoch": 0.944,
      "grad_norm": 0.9476146697998047,
      "learning_rate": 2.3347151430265996e-06,
      "loss": 3.2644,
      "step": 453120
    },
    {
      "epoch": 0.9440208333333333,
      "grad_norm": 0.8624752163887024,
      "learning_rate": 2.332982843164544e-06,
      "loss": 3.2845,
      "step": 453130
    },
    {
      "epoch": 0.9440416666666667,
      "grad_norm": 0.8535574078559875,
      "learning_rate": 2.3312511811655834e-06,
      "loss": 3.3682,
      "step": 453140
    },
    {
      "epoch": 0.9440625,
      "grad_norm": 0.981332004070282,
      "learning_rate": 2.329520157037146e-06,
      "loss": 3.3794,
      "step": 453150
    },
    {
      "epoch": 0.9440833333333334,
      "grad_norm": 0.8667091727256775,
      "learning_rate": 2.327789770786709e-06,
      "loss": 3.323,
      "step": 453160
    },
    {
      "epoch": 0.9441041666666666,
      "grad_norm": 0.9297358393669128,
      "learning_rate": 2.326060022421816e-06,
      "loss": 3.2382,
      "step": 453170
    },
    {
      "epoch": 0.944125,
      "grad_norm": 0.9011316895484924,
      "learning_rate": 2.3243309119498622e-06,
      "loss": 3.4111,
      "step": 453180
    },
    {
      "epoch": 0.9441458333333334,
      "grad_norm": 0.9155817627906799,
      "learning_rate": 2.3226024393783405e-06,
      "loss": 3.1785,
      "step": 453190
    },
    {
      "epoch": 0.9441666666666667,
      "grad_norm": 0.9589357972145081,
      "learning_rate": 2.320874604714729e-06,
      "loss": 3.3268,
      "step": 453200
    },
    {
      "epoch": 0.9441875,
      "grad_norm": 0.8712904453277588,
      "learning_rate": 2.3191474079664875e-06,
      "loss": 3.3556,
      "step": 453210
    },
    {
      "epoch": 0.9442083333333333,
      "grad_norm": 0.9672689437866211,
      "learning_rate": 2.317420849141061e-06,
      "loss": 3.2888,
      "step": 453220
    },
    {
      "epoch": 0.9442291666666667,
      "grad_norm": 0.8851211071014404,
      "learning_rate": 2.3156949282459258e-06,
      "loss": 3.3573,
      "step": 453230
    },
    {
      "epoch": 0.94425,
      "grad_norm": 0.9037630558013916,
      "learning_rate": 2.3139696452885436e-06,
      "loss": 3.2852,
      "step": 453240
    },
    {
      "epoch": 0.9442708333333333,
      "grad_norm": 0.9624066948890686,
      "learning_rate": 2.3122450002763414e-06,
      "loss": 3.2664,
      "step": 453250
    },
    {
      "epoch": 0.9442916666666666,
      "grad_norm": 0.9303028583526611,
      "learning_rate": 2.3105209932167803e-06,
      "loss": 3.3681,
      "step": 453260
    },
    {
      "epoch": 0.9443125,
      "grad_norm": 0.9159182906150818,
      "learning_rate": 2.30879762411732e-06,
      "loss": 3.2653,
      "step": 453270
    },
    {
      "epoch": 0.9443333333333334,
      "grad_norm": 1.0179716348648071,
      "learning_rate": 2.307074892985389e-06,
      "loss": 3.2981,
      "step": 453280
    },
    {
      "epoch": 0.9443541666666667,
      "grad_norm": 0.9577140808105469,
      "learning_rate": 2.3053527998284304e-06,
      "loss": 3.3602,
      "step": 453290
    },
    {
      "epoch": 0.944375,
      "grad_norm": 0.9137606024742126,
      "learning_rate": 2.3036313446538722e-06,
      "loss": 3.3661,
      "step": 453300
    },
    {
      "epoch": 0.9443958333333333,
      "grad_norm": 0.8188371658325195,
      "learning_rate": 2.301910527469192e-06,
      "loss": 3.2274,
      "step": 453310
    },
    {
      "epoch": 0.9444166666666667,
      "grad_norm": 0.9587618112564087,
      "learning_rate": 2.300190348281783e-06,
      "loss": 3.4373,
      "step": 453320
    },
    {
      "epoch": 0.9444375,
      "grad_norm": 0.9457308053970337,
      "learning_rate": 2.298470807099073e-06,
      "loss": 3.1827,
      "step": 453330
    },
    {
      "epoch": 0.9444583333333333,
      "grad_norm": 0.8172378540039062,
      "learning_rate": 2.2967519039285233e-06,
      "loss": 3.2875,
      "step": 453340
    },
    {
      "epoch": 0.9444791666666666,
      "grad_norm": 0.9581519961357117,
      "learning_rate": 2.2950336387775435e-06,
      "loss": 3.2498,
      "step": 453350
    },
    {
      "epoch": 0.9445,
      "grad_norm": 0.9553375244140625,
      "learning_rate": 2.2933160116535455e-06,
      "loss": 3.2621,
      "step": 453360
    },
    {
      "epoch": 0.9445208333333334,
      "grad_norm": 0.9325969219207764,
      "learning_rate": 2.2915990225639557e-06,
      "loss": 3.293,
      "step": 453370
    },
    {
      "epoch": 0.9445416666666666,
      "grad_norm": 1.0079231262207031,
      "learning_rate": 2.2898826715161855e-06,
      "loss": 3.3091,
      "step": 453380
    },
    {
      "epoch": 0.9445625,
      "grad_norm": 0.845596432685852,
      "learning_rate": 2.2881669585176622e-06,
      "loss": 3.3656,
      "step": 453390
    },
    {
      "epoch": 0.9445833333333333,
      "grad_norm": 0.9392262697219849,
      "learning_rate": 2.286451883575796e-06,
      "loss": 3.1899,
      "step": 453400
    },
    {
      "epoch": 0.9446041666666667,
      "grad_norm": 0.9344028234481812,
      "learning_rate": 2.284737446697965e-06,
      "loss": 3.2444,
      "step": 453410
    },
    {
      "epoch": 0.944625,
      "grad_norm": 0.9450880885124207,
      "learning_rate": 2.283023647891613e-06,
      "loss": 3.2332,
      "step": 453420
    },
    {
      "epoch": 0.9446458333333333,
      "grad_norm": 0.9079497456550598,
      "learning_rate": 2.281310487164151e-06,
      "loss": 3.3431,
      "step": 453430
    },
    {
      "epoch": 0.9446666666666667,
      "grad_norm": 0.93896484375,
      "learning_rate": 2.2795979645229056e-06,
      "loss": 3.2532,
      "step": 453440
    },
    {
      "epoch": 0.9446875,
      "grad_norm": 0.947857677936554,
      "learning_rate": 2.277886079975372e-06,
      "loss": 3.3252,
      "step": 453450
    },
    {
      "epoch": 0.9447083333333334,
      "grad_norm": 0.9363682270050049,
      "learning_rate": 2.2761748335288763e-06,
      "loss": 3.3654,
      "step": 453460
    },
    {
      "epoch": 0.9447291666666666,
      "grad_norm": 1.0176202058792114,
      "learning_rate": 2.2744642251908307e-06,
      "loss": 3.1822,
      "step": 453470
    },
    {
      "epoch": 0.94475,
      "grad_norm": 0.899843692779541,
      "learning_rate": 2.2727542549686452e-06,
      "loss": 3.2612,
      "step": 453480
    },
    {
      "epoch": 0.9447708333333333,
      "grad_norm": 0.9585415720939636,
      "learning_rate": 2.2710449228696636e-06,
      "loss": 3.3756,
      "step": 453490
    },
    {
      "epoch": 0.9447916666666667,
      "grad_norm": 1.0846319198608398,
      "learning_rate": 2.2693362289012974e-06,
      "loss": 3.2938,
      "step": 453500
    },
    {
      "epoch": 0.9448125,
      "grad_norm": 1.0149766206741333,
      "learning_rate": 2.26762817307094e-06,
      "loss": 3.339,
      "step": 453510
    },
    {
      "epoch": 0.9448333333333333,
      "grad_norm": 0.8757829666137695,
      "learning_rate": 2.265920755385936e-06,
      "loss": 3.1673,
      "step": 453520
    },
    {
      "epoch": 0.9448541666666667,
      "grad_norm": 0.901323139667511,
      "learning_rate": 2.2642139758536625e-06,
      "loss": 3.304,
      "step": 453530
    },
    {
      "epoch": 0.944875,
      "grad_norm": 0.831948459148407,
      "learning_rate": 2.2625078344815473e-06,
      "loss": 3.3041,
      "step": 453540
    },
    {
      "epoch": 0.9448958333333334,
      "grad_norm": 0.8816801905632019,
      "learning_rate": 2.260802331276884e-06,
      "loss": 3.1854,
      "step": 453550
    },
    {
      "epoch": 0.9449166666666666,
      "grad_norm": 0.8813486695289612,
      "learning_rate": 2.259097466247084e-06,
      "loss": 3.3153,
      "step": 453560
    },
    {
      "epoch": 0.9449375,
      "grad_norm": 0.8879597187042236,
      "learning_rate": 2.257393239399524e-06,
      "loss": 3.3558,
      "step": 453570
    },
    {
      "epoch": 0.9449583333333333,
      "grad_norm": 0.9019852876663208,
      "learning_rate": 2.2556896507415157e-06,
      "loss": 3.2769,
      "step": 453580
    },
    {
      "epoch": 0.9449791666666667,
      "grad_norm": 0.9655630588531494,
      "learning_rate": 2.253986700280469e-06,
      "loss": 3.2518,
      "step": 453590
    },
    {
      "epoch": 0.945,
      "grad_norm": 0.8785904049873352,
      "learning_rate": 2.252284388023695e-06,
      "loss": 3.3286,
      "step": 453600
    },
    {
      "epoch": 0.9450208333333333,
      "grad_norm": 1.0308091640472412,
      "learning_rate": 2.250582713978588e-06,
      "loss": 3.4126,
      "step": 453610
    },
    {
      "epoch": 0.9450416666666667,
      "grad_norm": 1.0408263206481934,
      "learning_rate": 2.2488816781524753e-06,
      "loss": 3.2013,
      "step": 453620
    },
    {
      "epoch": 0.9450625,
      "grad_norm": 0.9099122285842896,
      "learning_rate": 2.247181280552718e-06,
      "loss": 3.3035,
      "step": 453630
    },
    {
      "epoch": 0.9450833333333334,
      "grad_norm": 0.9139813780784607,
      "learning_rate": 2.245481521186643e-06,
      "loss": 3.293,
      "step": 453640
    },
    {
      "epoch": 0.9451041666666666,
      "grad_norm": 0.9411601424217224,
      "learning_rate": 2.2437824000615947e-06,
      "loss": 3.3729,
      "step": 453650
    },
    {
      "epoch": 0.945125,
      "grad_norm": 1.0276710987091064,
      "learning_rate": 2.2420839171849336e-06,
      "loss": 3.3049,
      "step": 453660
    },
    {
      "epoch": 0.9451458333333334,
      "grad_norm": 0.9156851172447205,
      "learning_rate": 2.2403860725639876e-06,
      "loss": 3.2705,
      "step": 453670
    },
    {
      "epoch": 0.9451666666666667,
      "grad_norm": 0.8972571492195129,
      "learning_rate": 2.2386888662060678e-06,
      "loss": 3.4501,
      "step": 453680
    },
    {
      "epoch": 0.9451875,
      "grad_norm": 0.9892154932022095,
      "learning_rate": 2.236992298118534e-06,
      "loss": 3.3327,
      "step": 453690
    },
    {
      "epoch": 0.9452083333333333,
      "grad_norm": 0.9983362555503845,
      "learning_rate": 2.2352963683087143e-06,
      "loss": 3.3211,
      "step": 453700
    },
    {
      "epoch": 0.9452291666666667,
      "grad_norm": 0.8778929710388184,
      "learning_rate": 2.2336010767839194e-06,
      "loss": 3.3042,
      "step": 453710
    },
    {
      "epoch": 0.94525,
      "grad_norm": 0.8526365756988525,
      "learning_rate": 2.2319064235514607e-06,
      "loss": 3.2427,
      "step": 453720
    },
    {
      "epoch": 0.9452708333333333,
      "grad_norm": 0.9229468703269958,
      "learning_rate": 2.230212408618698e-06,
      "loss": 3.3615,
      "step": 453730
    },
    {
      "epoch": 0.9452916666666666,
      "grad_norm": 0.9110311269760132,
      "learning_rate": 2.228519031992926e-06,
      "loss": 3.3731,
      "step": 453740
    },
    {
      "epoch": 0.9453125,
      "grad_norm": 0.9014474153518677,
      "learning_rate": 2.2268262936814384e-06,
      "loss": 3.2765,
      "step": 453750
    },
    {
      "epoch": 0.9453333333333334,
      "grad_norm": 0.8688088655471802,
      "learning_rate": 2.22513419369158e-06,
      "loss": 3.3103,
      "step": 453760
    },
    {
      "epoch": 0.9453541666666667,
      "grad_norm": 0.9635429382324219,
      "learning_rate": 2.2234427320306615e-06,
      "loss": 3.3918,
      "step": 453770
    },
    {
      "epoch": 0.945375,
      "grad_norm": 1.003786563873291,
      "learning_rate": 2.2217519087059597e-06,
      "loss": 3.3193,
      "step": 453780
    },
    {
      "epoch": 0.9453958333333333,
      "grad_norm": 0.8706433773040771,
      "learning_rate": 2.220061723724803e-06,
      "loss": 3.2028,
      "step": 453790
    },
    {
      "epoch": 0.9454166666666667,
      "grad_norm": 0.8853434324264526,
      "learning_rate": 2.2183721770944852e-06,
      "loss": 3.4106,
      "step": 453800
    },
    {
      "epoch": 0.9454375,
      "grad_norm": 0.8724066019058228,
      "learning_rate": 2.2166832688223e-06,
      "loss": 3.3275,
      "step": 453810
    },
    {
      "epoch": 0.9454583333333333,
      "grad_norm": 0.9800134897232056,
      "learning_rate": 2.2149949989155425e-06,
      "loss": 3.3748,
      "step": 453820
    },
    {
      "epoch": 0.9454791666666666,
      "grad_norm": 0.9554941058158875,
      "learning_rate": 2.213307367381523e-06,
      "loss": 3.1626,
      "step": 453830
    },
    {
      "epoch": 0.9455,
      "grad_norm": 0.972694456577301,
      "learning_rate": 2.2116203742275018e-06,
      "loss": 3.3721,
      "step": 453840
    },
    {
      "epoch": 0.9455208333333334,
      "grad_norm": 0.8734373450279236,
      "learning_rate": 2.2099340194607906e-06,
      "loss": 3.3371,
      "step": 453850
    },
    {
      "epoch": 0.9455416666666666,
      "grad_norm": 0.9316843748092651,
      "learning_rate": 2.2082483030886664e-06,
      "loss": 3.3643,
      "step": 453860
    },
    {
      "epoch": 0.9455625,
      "grad_norm": 0.9616114497184753,
      "learning_rate": 2.2065632251183907e-06,
      "loss": 3.3324,
      "step": 453870
    },
    {
      "epoch": 0.9455833333333333,
      "grad_norm": 0.9182673096656799,
      "learning_rate": 2.2048787855572904e-06,
      "loss": 3.2228,
      "step": 453880
    },
    {
      "epoch": 0.9456041666666667,
      "grad_norm": 0.9852893948554993,
      "learning_rate": 2.203194984412593e-06,
      "loss": 3.2681,
      "step": 453890
    },
    {
      "epoch": 0.945625,
      "grad_norm": 1.0075641870498657,
      "learning_rate": 2.2015118216915927e-06,
      "loss": 3.3349,
      "step": 453900
    },
    {
      "epoch": 0.9456458333333333,
      "grad_norm": 1.0794516801834106,
      "learning_rate": 2.1998292974015673e-06,
      "loss": 3.2491,
      "step": 453910
    },
    {
      "epoch": 0.9456666666666667,
      "grad_norm": 0.795678973197937,
      "learning_rate": 2.1981474115497776e-06,
      "loss": 3.1922,
      "step": 453920
    },
    {
      "epoch": 0.9456875,
      "grad_norm": 0.9957473278045654,
      "learning_rate": 2.1964661641434676e-06,
      "loss": 3.3125,
      "step": 453930
    },
    {
      "epoch": 0.9457083333333334,
      "grad_norm": 0.9492189288139343,
      "learning_rate": 2.1947855551899484e-06,
      "loss": 3.506,
      "step": 453940
    },
    {
      "epoch": 0.9457291666666666,
      "grad_norm": 0.8957791328430176,
      "learning_rate": 2.1931055846964306e-06,
      "loss": 3.3084,
      "step": 453950
    },
    {
      "epoch": 0.94575,
      "grad_norm": 1.0799429416656494,
      "learning_rate": 2.191426252670192e-06,
      "loss": 3.2302,
      "step": 453960
    },
    {
      "epoch": 0.9457708333333333,
      "grad_norm": 1.0161734819412231,
      "learning_rate": 2.1897475591184764e-06,
      "loss": 3.3294,
      "step": 453970
    },
    {
      "epoch": 0.9457916666666667,
      "grad_norm": 1.0108622312545776,
      "learning_rate": 2.188069504048562e-06,
      "loss": 3.3583,
      "step": 453980
    },
    {
      "epoch": 0.9458125,
      "grad_norm": 0.9046818614006042,
      "learning_rate": 2.1863920874676754e-06,
      "loss": 3.2139,
      "step": 453990
    },
    {
      "epoch": 0.9458333333333333,
      "grad_norm": 0.8620184659957886,
      "learning_rate": 2.1847153093830617e-06,
      "loss": 3.2739,
      "step": 454000
    },
    {
      "epoch": 0.9458333333333333,
      "eval_loss": 4.021590232849121,
      "eval_runtime": 8.4254,
      "eval_samples_per_second": 1.187,
      "eval_steps_per_second": 0.356,
      "step": 454000
    },
    {
      "epoch": 0.9458541666666667,
      "grad_norm": 0.9180938005447388,
      "learning_rate": 2.1830391698019646e-06,
      "loss": 3.3038,
      "step": 454010
    },
    {
      "epoch": 0.945875,
      "grad_norm": 0.8899540901184082,
      "learning_rate": 2.1813636687316284e-06,
      "loss": 3.2523,
      "step": 454020
    },
    {
      "epoch": 0.9458958333333334,
      "grad_norm": 0.9703181982040405,
      "learning_rate": 2.1796888061792973e-06,
      "loss": 3.3011,
      "step": 454030
    },
    {
      "epoch": 0.9459166666666666,
      "grad_norm": 0.9559332132339478,
      "learning_rate": 2.178014582152199e-06,
      "loss": 3.3556,
      "step": 454040
    },
    {
      "epoch": 0.9459375,
      "grad_norm": 0.9678488373756409,
      "learning_rate": 2.176340996657561e-06,
      "loss": 3.3545,
      "step": 454050
    },
    {
      "epoch": 0.9459583333333333,
      "grad_norm": 1.0024441480636597,
      "learning_rate": 2.174668049702627e-06,
      "loss": 3.36,
      "step": 454060
    },
    {
      "epoch": 0.9459791666666667,
      "grad_norm": 0.8549826145172119,
      "learning_rate": 2.1729957412946085e-06,
      "loss": 3.2336,
      "step": 454070
    },
    {
      "epoch": 0.946,
      "grad_norm": 0.9076843857765198,
      "learning_rate": 2.17132407144075e-06,
      "loss": 3.2628,
      "step": 454080
    },
    {
      "epoch": 0.9460208333333333,
      "grad_norm": 0.9152938723564148,
      "learning_rate": 2.1696530401482283e-06,
      "loss": 3.2498,
      "step": 454090
    },
    {
      "epoch": 0.9460416666666667,
      "grad_norm": 0.9588931202888489,
      "learning_rate": 2.1679826474242878e-06,
      "loss": 3.3219,
      "step": 454100
    },
    {
      "epoch": 0.9460625,
      "grad_norm": 0.8834022879600525,
      "learning_rate": 2.166312893276173e-06,
      "loss": 3.4455,
      "step": 454110
    },
    {
      "epoch": 0.9460833333333334,
      "grad_norm": 0.9434261322021484,
      "learning_rate": 2.1646437777110446e-06,
      "loss": 3.2055,
      "step": 454120
    },
    {
      "epoch": 0.9461041666666666,
      "grad_norm": 1.0024616718292236,
      "learning_rate": 2.162975300736147e-06,
      "loss": 3.2402,
      "step": 454130
    },
    {
      "epoch": 0.946125,
      "grad_norm": 1.0471736192703247,
      "learning_rate": 2.161307462358708e-06,
      "loss": 3.3675,
      "step": 454140
    },
    {
      "epoch": 0.9461458333333334,
      "grad_norm": 0.9411900043487549,
      "learning_rate": 2.1596402625858543e-06,
      "loss": 3.3644,
      "step": 454150
    },
    {
      "epoch": 0.9461666666666667,
      "grad_norm": 0.876758337020874,
      "learning_rate": 2.1579737014248642e-06,
      "loss": 3.2487,
      "step": 454160
    },
    {
      "epoch": 0.9461875,
      "grad_norm": 0.8901963233947754,
      "learning_rate": 2.1563077788828985e-06,
      "loss": 3.2853,
      "step": 454170
    },
    {
      "epoch": 0.9462083333333333,
      "grad_norm": 0.8683732151985168,
      "learning_rate": 2.1546424949671514e-06,
      "loss": 3.3518,
      "step": 454180
    },
    {
      "epoch": 0.9462291666666667,
      "grad_norm": 0.8598582744598389,
      "learning_rate": 2.1529778496848503e-06,
      "loss": 3.1915,
      "step": 454190
    },
    {
      "epoch": 0.94625,
      "grad_norm": 0.9089565277099609,
      "learning_rate": 2.1513138430431563e-06,
      "loss": 3.2975,
      "step": 454200
    },
    {
      "epoch": 0.9462708333333333,
      "grad_norm": 0.9654629826545715,
      "learning_rate": 2.1496504750492473e-06,
      "loss": 3.5195,
      "step": 454210
    },
    {
      "epoch": 0.9462916666666666,
      "grad_norm": 0.915946900844574,
      "learning_rate": 2.14798774571035e-06,
      "loss": 3.3102,
      "step": 454220
    },
    {
      "epoch": 0.9463125,
      "grad_norm": 0.8875309824943542,
      "learning_rate": 2.1463256550336095e-06,
      "loss": 3.4022,
      "step": 454230
    },
    {
      "epoch": 0.9463333333333334,
      "grad_norm": 0.9148730039596558,
      "learning_rate": 2.1446642030262197e-06,
      "loss": 3.3672,
      "step": 454240
    },
    {
      "epoch": 0.9463541666666667,
      "grad_norm": 0.9435144662857056,
      "learning_rate": 2.143003389695358e-06,
      "loss": 3.2705,
      "step": 454250
    },
    {
      "epoch": 0.946375,
      "grad_norm": 1.009942889213562,
      "learning_rate": 2.141343215048186e-06,
      "loss": 3.3013,
      "step": 454260
    },
    {
      "epoch": 0.9463958333333333,
      "grad_norm": 0.8712553977966309,
      "learning_rate": 2.139683679091897e-06,
      "loss": 3.3196,
      "step": 454270
    },
    {
      "epoch": 0.9464166666666667,
      "grad_norm": 1.0082165002822876,
      "learning_rate": 2.138024781833636e-06,
      "loss": 3.3703,
      "step": 454280
    },
    {
      "epoch": 0.9464375,
      "grad_norm": 0.9713556170463562,
      "learning_rate": 2.1363665232805972e-06,
      "loss": 3.352,
      "step": 454290
    },
    {
      "epoch": 0.9464583333333333,
      "grad_norm": 1.0910041332244873,
      "learning_rate": 2.1347089034399077e-06,
      "loss": 3.2869,
      "step": 454300
    },
    {
      "epoch": 0.9464791666666666,
      "grad_norm": 0.9227951169013977,
      "learning_rate": 2.133051922318746e-06,
      "loss": 3.2667,
      "step": 454310
    },
    {
      "epoch": 0.9465,
      "grad_norm": 0.9174586534500122,
      "learning_rate": 2.131395579924289e-06,
      "loss": 3.3587,
      "step": 454320
    },
    {
      "epoch": 0.9465208333333334,
      "grad_norm": 0.8746737837791443,
      "learning_rate": 2.1297398762636474e-06,
      "loss": 3.3244,
      "step": 454330
    },
    {
      "epoch": 0.9465416666666666,
      "grad_norm": 0.9842588901519775,
      "learning_rate": 2.128084811344016e-06,
      "loss": 3.2791,
      "step": 454340
    },
    {
      "epoch": 0.9465625,
      "grad_norm": 0.8949344754219055,
      "learning_rate": 2.126430385172523e-06,
      "loss": 3.2468,
      "step": 454350
    },
    {
      "epoch": 0.9465833333333333,
      "grad_norm": 0.9375730752944946,
      "learning_rate": 2.1247765977563116e-06,
      "loss": 3.3874,
      "step": 454360
    },
    {
      "epoch": 0.9466041666666667,
      "grad_norm": 0.9132968783378601,
      "learning_rate": 2.123123449102543e-06,
      "loss": 3.4481,
      "step": 454370
    },
    {
      "epoch": 0.946625,
      "grad_norm": 0.9788562655448914,
      "learning_rate": 2.121470939218345e-06,
      "loss": 3.4299,
      "step": 454380
    },
    {
      "epoch": 0.9466458333333333,
      "grad_norm": 0.9012032151222229,
      "learning_rate": 2.119819068110862e-06,
      "loss": 3.3638,
      "step": 454390
    },
    {
      "epoch": 0.9466666666666667,
      "grad_norm": 0.9063693881034851,
      "learning_rate": 2.1181678357872047e-06,
      "loss": 3.2767,
      "step": 454400
    },
    {
      "epoch": 0.9466875,
      "grad_norm": 1.0236233472824097,
      "learning_rate": 2.116517242254551e-06,
      "loss": 3.2831,
      "step": 454410
    },
    {
      "epoch": 0.9467083333333334,
      "grad_norm": 0.9604994654655457,
      "learning_rate": 2.1148672875199947e-06,
      "loss": 3.3124,
      "step": 454420
    },
    {
      "epoch": 0.9467291666666666,
      "grad_norm": 1.295665979385376,
      "learning_rate": 2.1132179715906806e-06,
      "loss": 3.3376,
      "step": 454430
    },
    {
      "epoch": 0.94675,
      "grad_norm": 1.098322868347168,
      "learning_rate": 2.1115692944737193e-06,
      "loss": 3.3793,
      "step": 454440
    },
    {
      "epoch": 0.9467708333333333,
      "grad_norm": 0.8446029424667358,
      "learning_rate": 2.1099212561762556e-06,
      "loss": 3.2891,
      "step": 454450
    },
    {
      "epoch": 0.9467916666666667,
      "grad_norm": 0.8884733319282532,
      "learning_rate": 2.108273856705367e-06,
      "loss": 3.3179,
      "step": 454460
    },
    {
      "epoch": 0.9468125,
      "grad_norm": 0.8642864227294922,
      "learning_rate": 2.106627096068214e-06,
      "loss": 3.3663,
      "step": 454470
    },
    {
      "epoch": 0.9468333333333333,
      "grad_norm": 0.9839087128639221,
      "learning_rate": 2.1049809742718916e-06,
      "loss": 3.2691,
      "step": 454480
    },
    {
      "epoch": 0.9468541666666667,
      "grad_norm": 0.923136830329895,
      "learning_rate": 2.10333549132351e-06,
      "loss": 3.3944,
      "step": 454490
    },
    {
      "epoch": 0.946875,
      "grad_norm": 0.9759268164634705,
      "learning_rate": 2.101690647230164e-06,
      "loss": 3.2573,
      "step": 454500
    },
    {
      "epoch": 0.9468958333333334,
      "grad_norm": 0.8850547075271606,
      "learning_rate": 2.1000464419989983e-06,
      "loss": 3.3583,
      "step": 454510
    },
    {
      "epoch": 0.9469166666666666,
      "grad_norm": 1.0751535892486572,
      "learning_rate": 2.0984028756370565e-06,
      "loss": 3.2835,
      "step": 454520
    },
    {
      "epoch": 0.9469375,
      "grad_norm": 0.9105555415153503,
      "learning_rate": 2.0967599481514994e-06,
      "loss": 3.3042,
      "step": 454530
    },
    {
      "epoch": 0.9469583333333333,
      "grad_norm": 0.8696786761283875,
      "learning_rate": 2.0951176595493892e-06,
      "loss": 3.2861,
      "step": 454540
    },
    {
      "epoch": 0.9469791666666667,
      "grad_norm": 0.8876028656959534,
      "learning_rate": 2.093476009837819e-06,
      "loss": 3.3415,
      "step": 454550
    },
    {
      "epoch": 0.947,
      "grad_norm": 0.9899840950965881,
      "learning_rate": 2.091834999023884e-06,
      "loss": 3.2671,
      "step": 454560
    },
    {
      "epoch": 0.9470208333333333,
      "grad_norm": 0.8213340044021606,
      "learning_rate": 2.0901946271146773e-06,
      "loss": 3.2523,
      "step": 454570
    },
    {
      "epoch": 0.9470416666666667,
      "grad_norm": 0.8873561024665833,
      "learning_rate": 2.088554894117295e-06,
      "loss": 3.3393,
      "step": 454580
    },
    {
      "epoch": 0.9470625,
      "grad_norm": 0.8999778032302856,
      "learning_rate": 2.0869158000387962e-06,
      "loss": 3.3595,
      "step": 454590
    },
    {
      "epoch": 0.9470833333333334,
      "grad_norm": 0.8866713643074036,
      "learning_rate": 2.085277344886277e-06,
      "loss": 3.1462,
      "step": 454600
    },
    {
      "epoch": 0.9471041666666666,
      "grad_norm": 0.9492059350013733,
      "learning_rate": 2.083639528666814e-06,
      "loss": 3.2502,
      "step": 454610
    },
    {
      "epoch": 0.947125,
      "grad_norm": 0.8072463274002075,
      "learning_rate": 2.0820023513874683e-06,
      "loss": 3.2483,
      "step": 454620
    },
    {
      "epoch": 0.9471458333333334,
      "grad_norm": 0.8717095851898193,
      "learning_rate": 2.0803658130553345e-06,
      "loss": 3.3369,
      "step": 454630
    },
    {
      "epoch": 0.9471666666666667,
      "grad_norm": 0.8782985210418701,
      "learning_rate": 2.078729913677457e-06,
      "loss": 3.4822,
      "step": 454640
    },
    {
      "epoch": 0.9471875,
      "grad_norm": 0.9159387946128845,
      "learning_rate": 2.07709465326093e-06,
      "loss": 3.1987,
      "step": 454650
    },
    {
      "epoch": 0.9472083333333333,
      "grad_norm": 0.9968318939208984,
      "learning_rate": 2.0754600318127813e-06,
      "loss": 3.2628,
      "step": 454660
    },
    {
      "epoch": 0.9472291666666667,
      "grad_norm": 0.9567236304283142,
      "learning_rate": 2.0738260493401217e-06,
      "loss": 3.3272,
      "step": 454670
    },
    {
      "epoch": 0.94725,
      "grad_norm": 0.9736449718475342,
      "learning_rate": 2.072192705849962e-06,
      "loss": 3.2942,
      "step": 454680
    },
    {
      "epoch": 0.9472708333333333,
      "grad_norm": 0.8844078779220581,
      "learning_rate": 2.070560001349364e-06,
      "loss": 3.3107,
      "step": 454690
    },
    {
      "epoch": 0.9472916666666666,
      "grad_norm": 0.9114547371864319,
      "learning_rate": 2.0689279358454215e-06,
      "loss": 3.2655,
      "step": 454700
    },
    {
      "epoch": 0.9473125,
      "grad_norm": 0.9209699034690857,
      "learning_rate": 2.0672965093451287e-06,
      "loss": 3.2963,
      "step": 454710
    },
    {
      "epoch": 0.9473333333333334,
      "grad_norm": 0.9260934591293335,
      "learning_rate": 2.0656657218555804e-06,
      "loss": 3.3324,
      "step": 454720
    },
    {
      "epoch": 0.9473541666666667,
      "grad_norm": 0.9182345271110535,
      "learning_rate": 2.0640355733837875e-06,
      "loss": 3.301,
      "step": 454730
    },
    {
      "epoch": 0.947375,
      "grad_norm": 0.9420695304870605,
      "learning_rate": 2.0624060639367947e-06,
      "loss": 3.3237,
      "step": 454740
    },
    {
      "epoch": 0.9473958333333333,
      "grad_norm": 0.8376747965812683,
      "learning_rate": 2.060777193521662e-06,
      "loss": 3.3792,
      "step": 454750
    },
    {
      "epoch": 0.9474166666666667,
      "grad_norm": 1.0302143096923828,
      "learning_rate": 2.059148962145418e-06,
      "loss": 3.3729,
      "step": 454760
    },
    {
      "epoch": 0.9474375,
      "grad_norm": 0.9063582420349121,
      "learning_rate": 2.0575213698150906e-06,
      "loss": 3.1897,
      "step": 454770
    },
    {
      "epoch": 0.9474583333333333,
      "grad_norm": 0.9179037809371948,
      "learning_rate": 2.055894416537707e-06,
      "loss": 3.445,
      "step": 454780
    },
    {
      "epoch": 0.9474791666666667,
      "grad_norm": 0.891556978225708,
      "learning_rate": 2.0542681023202946e-06,
      "loss": 3.4702,
      "step": 454790
    },
    {
      "epoch": 0.9475,
      "grad_norm": 0.9609981775283813,
      "learning_rate": 2.0526424271698817e-06,
      "loss": 3.2018,
      "step": 454800
    },
    {
      "epoch": 0.9475208333333334,
      "grad_norm": 0.918940007686615,
      "learning_rate": 2.0510173910934955e-06,
      "loss": 3.272,
      "step": 454810
    },
    {
      "epoch": 0.9475416666666666,
      "grad_norm": 1.037624716758728,
      "learning_rate": 2.0493929940981648e-06,
      "loss": 3.4596,
      "step": 454820
    },
    {
      "epoch": 0.9475625,
      "grad_norm": 0.8510475158691406,
      "learning_rate": 2.0477692361908826e-06,
      "loss": 3.2576,
      "step": 454830
    },
    {
      "epoch": 0.9475833333333333,
      "grad_norm": 0.9316557049751282,
      "learning_rate": 2.0461461173786776e-06,
      "loss": 3.2603,
      "step": 454840
    },
    {
      "epoch": 0.9476041666666667,
      "grad_norm": 0.9594759345054626,
      "learning_rate": 2.0445236376685603e-06,
      "loss": 3.4095,
      "step": 454850
    },
    {
      "epoch": 0.947625,
      "grad_norm": 0.9510315656661987,
      "learning_rate": 2.0429017970675255e-06,
      "loss": 3.3981,
      "step": 454860
    },
    {
      "epoch": 0.9476458333333333,
      "grad_norm": 0.9734312295913696,
      "learning_rate": 2.041280595582584e-06,
      "loss": 3.3975,
      "step": 454870
    },
    {
      "epoch": 0.9476666666666667,
      "grad_norm": 0.9253003001213074,
      "learning_rate": 2.0396600332207634e-06,
      "loss": 3.3817,
      "step": 454880
    },
    {
      "epoch": 0.9476875,
      "grad_norm": 0.9227885603904724,
      "learning_rate": 2.0380401099890252e-06,
      "loss": 3.1704,
      "step": 454890
    },
    {
      "epoch": 0.9477083333333334,
      "grad_norm": 0.9734826683998108,
      "learning_rate": 2.036420825894397e-06,
      "loss": 3.2514,
      "step": 454900
    },
    {
      "epoch": 0.9477291666666666,
      "grad_norm": 0.9042644500732422,
      "learning_rate": 2.0348021809438732e-06,
      "loss": 3.3399,
      "step": 454910
    },
    {
      "epoch": 0.94775,
      "grad_norm": 0.933722972869873,
      "learning_rate": 2.0331841751444146e-06,
      "loss": 3.2612,
      "step": 454920
    },
    {
      "epoch": 0.9477708333333333,
      "grad_norm": 0.8769919276237488,
      "learning_rate": 2.031566808503032e-06,
      "loss": 3.3458,
      "step": 454930
    },
    {
      "epoch": 0.9477916666666667,
      "grad_norm": 0.9368297457695007,
      "learning_rate": 2.029950081026721e-06,
      "loss": 3.3237,
      "step": 454940
    },
    {
      "epoch": 0.9478125,
      "grad_norm": 0.9122053384780884,
      "learning_rate": 2.0283339927224583e-06,
      "loss": 3.3957,
      "step": 454950
    },
    {
      "epoch": 0.9478333333333333,
      "grad_norm": 0.9009690284729004,
      "learning_rate": 2.0267185435972222e-06,
      "loss": 3.2149,
      "step": 454960
    },
    {
      "epoch": 0.9478541666666667,
      "grad_norm": 0.8684535026550293,
      "learning_rate": 2.0251037336579733e-06,
      "loss": 3.2631,
      "step": 454970
    },
    {
      "epoch": 0.947875,
      "grad_norm": 0.886280357837677,
      "learning_rate": 2.023489562911723e-06,
      "loss": 3.3943,
      "step": 454980
    },
    {
      "epoch": 0.9478958333333334,
      "grad_norm": 0.9128608703613281,
      "learning_rate": 2.021876031365416e-06,
      "loss": 3.4132,
      "step": 454990
    },
    {
      "epoch": 0.9479166666666666,
      "grad_norm": 0.8824781179428101,
      "learning_rate": 2.0202631390260295e-06,
      "loss": 3.3549,
      "step": 455000
    },
    {
      "epoch": 0.9479166666666666,
      "eval_loss": 4.022186756134033,
      "eval_runtime": 8.6171,
      "eval_samples_per_second": 1.16,
      "eval_steps_per_second": 0.348,
      "step": 455000
    },
    {
      "epoch": 0.9479375,
      "grad_norm": 0.9456430077552795,
      "learning_rate": 2.0186508859005246e-06,
      "loss": 3.3186,
      "step": 455010
    },
    {
      "epoch": 0.9479583333333333,
      "grad_norm": 0.9492174983024597,
      "learning_rate": 2.0170392719958793e-06,
      "loss": 3.4023,
      "step": 455020
    },
    {
      "epoch": 0.9479791666666667,
      "grad_norm": 0.8909111022949219,
      "learning_rate": 2.015428297319055e-06,
      "loss": 3.2432,
      "step": 455030
    },
    {
      "epoch": 0.948,
      "grad_norm": 1.0884473323822021,
      "learning_rate": 2.013817961876996e-06,
      "loss": 3.2831,
      "step": 455040
    },
    {
      "epoch": 0.9480208333333333,
      "grad_norm": 0.9347004294395447,
      "learning_rate": 2.012208265676679e-06,
      "loss": 3.3161,
      "step": 455050
    },
    {
      "epoch": 0.9480416666666667,
      "grad_norm": 0.936978280544281,
      "learning_rate": 2.0105992087250335e-06,
      "loss": 3.284,
      "step": 455060
    },
    {
      "epoch": 0.9480625,
      "grad_norm": 0.9970061779022217,
      "learning_rate": 2.0089907910290192e-06,
      "loss": 3.3121,
      "step": 455070
    },
    {
      "epoch": 0.9480833333333333,
      "grad_norm": 0.993721604347229,
      "learning_rate": 2.0073830125955982e-06,
      "loss": 3.2402,
      "step": 455080
    },
    {
      "epoch": 0.9481041666666666,
      "grad_norm": 0.8902387619018555,
      "learning_rate": 2.005775873431681e-06,
      "loss": 3.2625,
      "step": 455090
    },
    {
      "epoch": 0.948125,
      "grad_norm": 0.8235177993774414,
      "learning_rate": 2.0041693735442453e-06,
      "loss": 3.3576,
      "step": 455100
    },
    {
      "epoch": 0.9481458333333334,
      "grad_norm": 0.9424473643302917,
      "learning_rate": 2.0025635129402196e-06,
      "loss": 3.4339,
      "step": 455110
    },
    {
      "epoch": 0.9481666666666667,
      "grad_norm": 0.9229164123535156,
      "learning_rate": 2.0009582916265477e-06,
      "loss": 3.4387,
      "step": 455120
    },
    {
      "epoch": 0.9481875,
      "grad_norm": 0.9952499866485596,
      "learning_rate": 1.9993537096101407e-06,
      "loss": 3.3662,
      "step": 455130
    },
    {
      "epoch": 0.9482083333333333,
      "grad_norm": 0.8516727089881897,
      "learning_rate": 1.9977497668979437e-06,
      "loss": 3.2383,
      "step": 455140
    },
    {
      "epoch": 0.9482291666666667,
      "grad_norm": 0.8609289526939392,
      "learning_rate": 1.996146463496884e-06,
      "loss": 3.1731,
      "step": 455150
    },
    {
      "epoch": 0.94825,
      "grad_norm": 0.8466194272041321,
      "learning_rate": 1.994543799413889e-06,
      "loss": 3.3644,
      "step": 455160
    },
    {
      "epoch": 0.9482708333333333,
      "grad_norm": 0.867189347743988,
      "learning_rate": 1.9929417746558874e-06,
      "loss": 3.316,
      "step": 455170
    },
    {
      "epoch": 0.9482916666666666,
      "grad_norm": 0.9109593033790588,
      "learning_rate": 1.991340389229773e-06,
      "loss": 3.3845,
      "step": 455180
    },
    {
      "epoch": 0.9483125,
      "grad_norm": 0.9225925803184509,
      "learning_rate": 1.9897396431424905e-06,
      "loss": 3.3349,
      "step": 455190
    },
    {
      "epoch": 0.9483333333333334,
      "grad_norm": 0.8832868933677673,
      "learning_rate": 1.988139536400951e-06,
      "loss": 3.1912,
      "step": 455200
    },
    {
      "epoch": 0.9483541666666667,
      "grad_norm": 0.981968879699707,
      "learning_rate": 1.9865400690120494e-06,
      "loss": 3.3921,
      "step": 455210
    },
    {
      "epoch": 0.948375,
      "grad_norm": 0.9769197106361389,
      "learning_rate": 1.9849412409827292e-06,
      "loss": 3.2846,
      "step": 455220
    },
    {
      "epoch": 0.9483958333333333,
      "grad_norm": 0.8996560573577881,
      "learning_rate": 1.983343052319869e-06,
      "loss": 3.4568,
      "step": 455230
    },
    {
      "epoch": 0.9484166666666667,
      "grad_norm": 0.8646724224090576,
      "learning_rate": 1.981745503030363e-06,
      "loss": 3.3521,
      "step": 455240
    },
    {
      "epoch": 0.9484375,
      "grad_norm": 0.9261945486068726,
      "learning_rate": 1.980148593121139e-06,
      "loss": 3.3482,
      "step": 455250
    },
    {
      "epoch": 0.9484583333333333,
      "grad_norm": 0.882943868637085,
      "learning_rate": 1.978552322599075e-06,
      "loss": 3.3095,
      "step": 455260
    },
    {
      "epoch": 0.9484791666666667,
      "grad_norm": 0.9472200274467468,
      "learning_rate": 1.9769566914710655e-06,
      "loss": 3.3144,
      "step": 455270
    },
    {
      "epoch": 0.9485,
      "grad_norm": 1.0058307647705078,
      "learning_rate": 1.975361699744038e-06,
      "loss": 3.3926,
      "step": 455280
    },
    {
      "epoch": 0.9485208333333334,
      "grad_norm": 0.9767328500747681,
      "learning_rate": 1.973767347424854e-06,
      "loss": 3.141,
      "step": 455290
    },
    {
      "epoch": 0.9485416666666666,
      "grad_norm": 0.8840712904930115,
      "learning_rate": 1.972173634520374e-06,
      "loss": 3.322,
      "step": 455300
    },
    {
      "epoch": 0.9485625,
      "grad_norm": 0.9025233387947083,
      "learning_rate": 1.970580561037527e-06,
      "loss": 3.3238,
      "step": 455310
    },
    {
      "epoch": 0.9485833333333333,
      "grad_norm": 0.9575064778327942,
      "learning_rate": 1.9689881269831897e-06,
      "loss": 3.2178,
      "step": 455320
    },
    {
      "epoch": 0.9486041666666667,
      "grad_norm": 0.9406221508979797,
      "learning_rate": 1.9673963323641905e-06,
      "loss": 3.3774,
      "step": 455330
    },
    {
      "epoch": 0.948625,
      "grad_norm": 0.9464830160140991,
      "learning_rate": 1.9658051771874907e-06,
      "loss": 3.3668,
      "step": 455340
    },
    {
      "epoch": 0.9486458333333333,
      "grad_norm": 0.8731441497802734,
      "learning_rate": 1.9642146614599007e-06,
      "loss": 3.3422,
      "step": 455350
    },
    {
      "epoch": 0.9486666666666667,
      "grad_norm": 0.8484962582588196,
      "learning_rate": 1.9626247851882993e-06,
      "loss": 3.2731,
      "step": 455360
    },
    {
      "epoch": 0.9486875,
      "grad_norm": 0.8883792757987976,
      "learning_rate": 1.9610355483795637e-06,
      "loss": 3.2446,
      "step": 455370
    },
    {
      "epoch": 0.9487083333333334,
      "grad_norm": 0.8744782209396362,
      "learning_rate": 1.959446951040555e-06,
      "loss": 3.2711,
      "step": 455380
    },
    {
      "epoch": 0.9487291666666666,
      "grad_norm": 0.8858440518379211,
      "learning_rate": 1.9578589931781354e-06,
      "loss": 3.3494,
      "step": 455390
    },
    {
      "epoch": 0.94875,
      "grad_norm": 0.920644998550415,
      "learning_rate": 1.9562716747991648e-06,
      "loss": 3.2884,
      "step": 455400
    },
    {
      "epoch": 0.9487708333333333,
      "grad_norm": 0.9193549156188965,
      "learning_rate": 1.954684995910505e-06,
      "loss": 3.3115,
      "step": 455410
    },
    {
      "epoch": 0.9487916666666667,
      "grad_norm": 1.0982083082199097,
      "learning_rate": 1.9530989565190004e-06,
      "loss": 3.3241,
      "step": 455420
    },
    {
      "epoch": 0.9488125,
      "grad_norm": 0.9147441387176514,
      "learning_rate": 1.951513556631512e-06,
      "loss": 3.4633,
      "step": 455430
    },
    {
      "epoch": 0.9488333333333333,
      "grad_norm": 1.0335410833358765,
      "learning_rate": 1.949928796254885e-06,
      "loss": 3.2842,
      "step": 455440
    },
    {
      "epoch": 0.9488541666666667,
      "grad_norm": 1.0109007358551025,
      "learning_rate": 1.94834467539598e-06,
      "loss": 3.3448,
      "step": 455450
    },
    {
      "epoch": 0.948875,
      "grad_norm": 1.057068943977356,
      "learning_rate": 1.9467611940615914e-06,
      "loss": 3.3512,
      "step": 455460
    },
    {
      "epoch": 0.9488958333333334,
      "grad_norm": 0.9477386474609375,
      "learning_rate": 1.9451783522585973e-06,
      "loss": 3.125,
      "step": 455470
    },
    {
      "epoch": 0.9489166666666666,
      "grad_norm": 0.877321720123291,
      "learning_rate": 1.943596149993859e-06,
      "loss": 3.2834,
      "step": 455480
    },
    {
      "epoch": 0.9489375,
      "grad_norm": 0.9009535312652588,
      "learning_rate": 1.942014587274138e-06,
      "loss": 3.2684,
      "step": 455490
    },
    {
      "epoch": 0.9489583333333333,
      "grad_norm": 0.8281947374343872,
      "learning_rate": 1.940433664106328e-06,
      "loss": 3.3043,
      "step": 455500
    },
    {
      "epoch": 0.9489791666666667,
      "grad_norm": 1.0658817291259766,
      "learning_rate": 1.938853380497257e-06,
      "loss": 3.3198,
      "step": 455510
    },
    {
      "epoch": 0.949,
      "grad_norm": 0.9808794856071472,
      "learning_rate": 1.937273736453704e-06,
      "loss": 3.3351,
      "step": 455520
    },
    {
      "epoch": 0.9490208333333333,
      "grad_norm": 0.8958458304405212,
      "learning_rate": 1.935694731982529e-06,
      "loss": 3.3328,
      "step": 455530
    },
    {
      "epoch": 0.9490416666666667,
      "grad_norm": 0.8564671874046326,
      "learning_rate": 1.93411636709056e-06,
      "loss": 3.3106,
      "step": 455540
    },
    {
      "epoch": 0.9490625,
      "grad_norm": 0.9637322425842285,
      "learning_rate": 1.9325386417845757e-06,
      "loss": 3.3095,
      "step": 455550
    },
    {
      "epoch": 0.9490833333333333,
      "grad_norm": 0.9580273032188416,
      "learning_rate": 1.93096155607142e-06,
      "loss": 3.342,
      "step": 455560
    },
    {
      "epoch": 0.9491041666666666,
      "grad_norm": 0.8836641311645508,
      "learning_rate": 1.9293851099579203e-06,
      "loss": 3.2097,
      "step": 455570
    },
    {
      "epoch": 0.949125,
      "grad_norm": 0.8710073232650757,
      "learning_rate": 1.927809303450839e-06,
      "loss": 3.2719,
      "step": 455580
    },
    {
      "epoch": 0.9491458333333334,
      "grad_norm": 0.910327136516571,
      "learning_rate": 1.9262341365570364e-06,
      "loss": 3.2621,
      "step": 455590
    },
    {
      "epoch": 0.9491666666666667,
      "grad_norm": 0.8695583343505859,
      "learning_rate": 1.9246596092832744e-06,
      "loss": 3.3343,
      "step": 455600
    },
    {
      "epoch": 0.9491875,
      "grad_norm": 1.143967866897583,
      "learning_rate": 1.9230857216363636e-06,
      "loss": 3.3344,
      "step": 455610
    },
    {
      "epoch": 0.9492083333333333,
      "grad_norm": 0.8664129376411438,
      "learning_rate": 1.9215124736231325e-06,
      "loss": 3.3018,
      "step": 455620
    },
    {
      "epoch": 0.9492291666666667,
      "grad_norm": 0.8709838390350342,
      "learning_rate": 1.9199398652503416e-06,
      "loss": 3.4038,
      "step": 455630
    },
    {
      "epoch": 0.94925,
      "grad_norm": 0.8782035112380981,
      "learning_rate": 1.918367896524786e-06,
      "loss": 3.3768,
      "step": 455640
    },
    {
      "epoch": 0.9492708333333333,
      "grad_norm": 0.9059603810310364,
      "learning_rate": 1.916796567453294e-06,
      "loss": 3.3745,
      "step": 455650
    },
    {
      "epoch": 0.9492916666666666,
      "grad_norm": 0.8224634528160095,
      "learning_rate": 1.9152258780426087e-06,
      "loss": 3.318,
      "step": 455660
    },
    {
      "epoch": 0.9493125,
      "grad_norm": 0.9610374569892883,
      "learning_rate": 1.9136558282995264e-06,
      "loss": 3.2746,
      "step": 455670
    },
    {
      "epoch": 0.9493333333333334,
      "grad_norm": 0.8911381363868713,
      "learning_rate": 1.9120864182308406e-06,
      "loss": 3.2563,
      "step": 455680
    },
    {
      "epoch": 0.9493541666666667,
      "grad_norm": 0.8850240707397461,
      "learning_rate": 1.9105176478433292e-06,
      "loss": 3.2128,
      "step": 455690
    },
    {
      "epoch": 0.949375,
      "grad_norm": 0.9568822383880615,
      "learning_rate": 1.908949517143754e-06,
      "loss": 3.1975,
      "step": 455700
    },
    {
      "epoch": 0.9493958333333333,
      "grad_norm": 0.9954080581665039,
      "learning_rate": 1.9073820261389096e-06,
      "loss": 3.4224,
      "step": 455710
    },
    {
      "epoch": 0.9494166666666667,
      "grad_norm": 0.9047760963439941,
      "learning_rate": 1.90581517483554e-06,
      "loss": 3.2464,
      "step": 455720
    },
    {
      "epoch": 0.9494375,
      "grad_norm": 0.938511073589325,
      "learning_rate": 1.90424896324044e-06,
      "loss": 3.3215,
      "step": 455730
    },
    {
      "epoch": 0.9494583333333333,
      "grad_norm": 0.890437662601471,
      "learning_rate": 1.9026833913603712e-06,
      "loss": 3.3566,
      "step": 455740
    },
    {
      "epoch": 0.9494791666666667,
      "grad_norm": 0.94877028465271,
      "learning_rate": 1.9011184592020777e-06,
      "loss": 3.4469,
      "step": 455750
    },
    {
      "epoch": 0.9495,
      "grad_norm": 1.0181634426116943,
      "learning_rate": 1.8995541667723212e-06,
      "loss": 3.2201,
      "step": 455760
    },
    {
      "epoch": 0.9495208333333334,
      "grad_norm": 0.9529920816421509,
      "learning_rate": 1.897990514077896e-06,
      "loss": 3.3505,
      "step": 455770
    },
    {
      "epoch": 0.9495416666666666,
      "grad_norm": 0.903360903263092,
      "learning_rate": 1.896427501125497e-06,
      "loss": 3.2173,
      "step": 455780
    },
    {
      "epoch": 0.9495625,
      "grad_norm": 0.8956626653671265,
      "learning_rate": 1.894865127921935e-06,
      "loss": 3.1835,
      "step": 455790
    },
    {
      "epoch": 0.9495833333333333,
      "grad_norm": 0.9091405272483826,
      "learning_rate": 1.8933033944739217e-06,
      "loss": 3.2525,
      "step": 455800
    },
    {
      "epoch": 0.9496041666666667,
      "grad_norm": 0.8975905179977417,
      "learning_rate": 1.8917423007882016e-06,
      "loss": 3.301,
      "step": 455810
    },
    {
      "epoch": 0.949625,
      "grad_norm": 0.9209110140800476,
      "learning_rate": 1.8901818468715524e-06,
      "loss": 3.1724,
      "step": 455820
    },
    {
      "epoch": 0.9496458333333333,
      "grad_norm": 0.8582722544670105,
      "learning_rate": 1.888622032730669e-06,
      "loss": 3.2688,
      "step": 455830
    },
    {
      "epoch": 0.9496666666666667,
      "grad_norm": 0.9493706822395325,
      "learning_rate": 1.887062858372329e-06,
      "loss": 3.2531,
      "step": 455840
    },
    {
      "epoch": 0.9496875,
      "grad_norm": 0.9205462336540222,
      "learning_rate": 1.8855043238032442e-06,
      "loss": 3.3512,
      "step": 455850
    },
    {
      "epoch": 0.9497083333333334,
      "grad_norm": 0.954574704170227,
      "learning_rate": 1.8839464290301421e-06,
      "loss": 3.2959,
      "step": 455860
    },
    {
      "epoch": 0.9497291666666666,
      "grad_norm": 0.854148805141449,
      "learning_rate": 1.8823891740597674e-06,
      "loss": 3.2562,
      "step": 455870
    },
    {
      "epoch": 0.94975,
      "grad_norm": 0.9205446243286133,
      "learning_rate": 1.8808325588988648e-06,
      "loss": 3.4258,
      "step": 455880
    },
    {
      "epoch": 0.9497708333333333,
      "grad_norm": 0.8997632265090942,
      "learning_rate": 1.8792765835541125e-06,
      "loss": 3.3297,
      "step": 455890
    },
    {
      "epoch": 0.9497916666666667,
      "grad_norm": 0.9783640503883362,
      "learning_rate": 1.8777212480322546e-06,
      "loss": 3.2212,
      "step": 455900
    },
    {
      "epoch": 0.9498125,
      "grad_norm": 0.9189009666442871,
      "learning_rate": 1.876166552340036e-06,
      "loss": 3.2168,
      "step": 455910
    },
    {
      "epoch": 0.9498333333333333,
      "grad_norm": 1.0021544694900513,
      "learning_rate": 1.8746124964841181e-06,
      "loss": 3.338,
      "step": 455920
    },
    {
      "epoch": 0.9498541666666667,
      "grad_norm": 0.9193100333213806,
      "learning_rate": 1.8730590804712452e-06,
      "loss": 3.3289,
      "step": 455930
    },
    {
      "epoch": 0.949875,
      "grad_norm": 0.9337608814239502,
      "learning_rate": 1.8715063043081457e-06,
      "loss": 3.2996,
      "step": 455940
    },
    {
      "epoch": 0.9498958333333334,
      "grad_norm": 0.883061408996582,
      "learning_rate": 1.8699541680014807e-06,
      "loss": 3.3829,
      "step": 455950
    },
    {
      "epoch": 0.9499166666666666,
      "grad_norm": 1.0261167287826538,
      "learning_rate": 1.8684026715579946e-06,
      "loss": 3.3947,
      "step": 455960
    },
    {
      "epoch": 0.9499375,
      "grad_norm": 1.0661835670471191,
      "learning_rate": 1.8668518149843658e-06,
      "loss": 3.2964,
      "step": 455970
    },
    {
      "epoch": 0.9499583333333333,
      "grad_norm": 1.0268914699554443,
      "learning_rate": 1.8653015982872888e-06,
      "loss": 3.3947,
      "step": 455980
    },
    {
      "epoch": 0.9499791666666667,
      "grad_norm": 0.8343366980552673,
      "learning_rate": 1.863752021473508e-06,
      "loss": 3.2237,
      "step": 455990
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.8647168874740601,
      "learning_rate": 1.8622030845496682e-06,
      "loss": 3.3398,
      "step": 456000
    },
    {
      "epoch": 0.95,
      "eval_loss": 4.02215051651001,
      "eval_runtime": 9.1085,
      "eval_samples_per_second": 1.098,
      "eval_steps_per_second": 0.329,
      "step": 456000
    },
    {
      "epoch": 0.9500208333333333,
      "grad_norm": 0.9013330936431885,
      "learning_rate": 1.8606547875224476e-06,
      "loss": 3.3815,
      "step": 456010
    },
    {
      "epoch": 0.9500416666666667,
      "grad_norm": 0.9566794037818909,
      "learning_rate": 1.859107130398607e-06,
      "loss": 3.2762,
      "step": 456020
    },
    {
      "epoch": 0.9500625,
      "grad_norm": 0.9698471426963806,
      "learning_rate": 1.8575601131847585e-06,
      "loss": 3.3334,
      "step": 456030
    },
    {
      "epoch": 0.9500833333333333,
      "grad_norm": 0.9310516119003296,
      "learning_rate": 1.8560137358876127e-06,
      "loss": 3.3604,
      "step": 456040
    },
    {
      "epoch": 0.9501041666666666,
      "grad_norm": 0.9376664161682129,
      "learning_rate": 1.8544679985138478e-06,
      "loss": 3.1891,
      "step": 456050
    },
    {
      "epoch": 0.950125,
      "grad_norm": 0.8616523146629333,
      "learning_rate": 1.8529229010701418e-06,
      "loss": 3.2224,
      "step": 456060
    },
    {
      "epoch": 0.9501458333333334,
      "grad_norm": 0.9259663820266724,
      "learning_rate": 1.851378443563173e-06,
      "loss": 3.2915,
      "step": 456070
    },
    {
      "epoch": 0.9501666666666667,
      "grad_norm": 0.9019405245780945,
      "learning_rate": 1.8498346259996022e-06,
      "loss": 3.2985,
      "step": 456080
    },
    {
      "epoch": 0.9501875,
      "grad_norm": 0.8639132976531982,
      "learning_rate": 1.8482914483861077e-06,
      "loss": 3.3247,
      "step": 456090
    },
    {
      "epoch": 0.9502083333333333,
      "grad_norm": 1.1787117719650269,
      "learning_rate": 1.8467489107293509e-06,
      "loss": 3.3862,
      "step": 456100
    },
    {
      "epoch": 0.9502291666666667,
      "grad_norm": 0.9009754061698914,
      "learning_rate": 1.845207013035993e-06,
      "loss": 3.3264,
      "step": 456110
    },
    {
      "epoch": 0.95025,
      "grad_norm": 0.9061907529830933,
      "learning_rate": 1.8436657553126956e-06,
      "loss": 3.2367,
      "step": 456120
    },
    {
      "epoch": 0.9502708333333333,
      "grad_norm": 0.9186496138572693,
      "learning_rate": 1.8421251375661195e-06,
      "loss": 3.3099,
      "step": 456130
    },
    {
      "epoch": 0.9502916666666666,
      "grad_norm": 0.9278075098991394,
      "learning_rate": 1.8405851598029098e-06,
      "loss": 3.3329,
      "step": 456140
    },
    {
      "epoch": 0.9503125,
      "grad_norm": 1.0370841026306152,
      "learning_rate": 1.8390458220297443e-06,
      "loss": 3.3449,
      "step": 456150
    },
    {
      "epoch": 0.9503333333333334,
      "grad_norm": 0.8928712606430054,
      "learning_rate": 1.8375071242532514e-06,
      "loss": 3.3423,
      "step": 456160
    },
    {
      "epoch": 0.9503541666666667,
      "grad_norm": 0.979432225227356,
      "learning_rate": 1.8359690664800753e-06,
      "loss": 3.3345,
      "step": 456170
    },
    {
      "epoch": 0.950375,
      "grad_norm": 0.9927991628646851,
      "learning_rate": 1.834431648716861e-06,
      "loss": 3.2676,
      "step": 456180
    },
    {
      "epoch": 0.9503958333333333,
      "grad_norm": 0.9948658347129822,
      "learning_rate": 1.8328948709702528e-06,
      "loss": 3.3589,
      "step": 456190
    },
    {
      "epoch": 0.9504166666666667,
      "grad_norm": 0.9274911284446716,
      "learning_rate": 1.831358733246896e-06,
      "loss": 3.4505,
      "step": 456200
    },
    {
      "epoch": 0.9504375,
      "grad_norm": 0.8876214027404785,
      "learning_rate": 1.8298232355534182e-06,
      "loss": 3.26,
      "step": 456210
    },
    {
      "epoch": 0.9504583333333333,
      "grad_norm": 0.8816661834716797,
      "learning_rate": 1.8282883778964808e-06,
      "loss": 3.2341,
      "step": 456220
    },
    {
      "epoch": 0.9504791666666667,
      "grad_norm": 1.0314387083053589,
      "learning_rate": 1.8267541602826451e-06,
      "loss": 3.3269,
      "step": 456230
    },
    {
      "epoch": 0.9505,
      "grad_norm": 0.8995946645736694,
      "learning_rate": 1.8252205827186063e-06,
      "loss": 3.2404,
      "step": 456240
    },
    {
      "epoch": 0.9505208333333334,
      "grad_norm": 1.173315167427063,
      "learning_rate": 1.8236876452109584e-06,
      "loss": 3.3678,
      "step": 456250
    },
    {
      "epoch": 0.9505416666666666,
      "grad_norm": 1.02091646194458,
      "learning_rate": 1.822155347766313e-06,
      "loss": 3.3545,
      "step": 456260
    },
    {
      "epoch": 0.9505625,
      "grad_norm": 0.9245848655700684,
      "learning_rate": 1.8206236903913152e-06,
      "loss": 3.267,
      "step": 456270
    },
    {
      "epoch": 0.9505833333333333,
      "grad_norm": 0.9316715598106384,
      "learning_rate": 1.819092673092576e-06,
      "loss": 3.2347,
      "step": 456280
    },
    {
      "epoch": 0.9506041666666667,
      "grad_norm": 0.9681176543235779,
      "learning_rate": 1.81756229587669e-06,
      "loss": 3.3938,
      "step": 456290
    },
    {
      "epoch": 0.950625,
      "grad_norm": 1.0969395637512207,
      "learning_rate": 1.8160325587502855e-06,
      "loss": 3.282,
      "step": 456300
    },
    {
      "epoch": 0.9506458333333333,
      "grad_norm": 0.9111199378967285,
      "learning_rate": 1.8145034617199739e-06,
      "loss": 3.2869,
      "step": 456310
    },
    {
      "epoch": 0.9506666666666667,
      "grad_norm": 0.8814839124679565,
      "learning_rate": 1.8129750047923498e-06,
      "loss": 3.0934,
      "step": 456320
    },
    {
      "epoch": 0.9506875,
      "grad_norm": 0.8971262574195862,
      "learning_rate": 1.8114471879740077e-06,
      "loss": 3.2615,
      "step": 456330
    },
    {
      "epoch": 0.9507083333333334,
      "grad_norm": 0.9733028411865234,
      "learning_rate": 1.8099200112715595e-06,
      "loss": 3.2192,
      "step": 456340
    },
    {
      "epoch": 0.9507291666666666,
      "grad_norm": 0.8586899638175964,
      "learning_rate": 1.8083934746915996e-06,
      "loss": 3.3348,
      "step": 456350
    },
    {
      "epoch": 0.95075,
      "grad_norm": 0.9603306651115417,
      "learning_rate": 1.8068675782407062e-06,
      "loss": 3.4605,
      "step": 456360
    },
    {
      "epoch": 0.9507708333333333,
      "grad_norm": 0.9610609412193298,
      "learning_rate": 1.805342321925507e-06,
      "loss": 3.4236,
      "step": 456370
    },
    {
      "epoch": 0.9507916666666667,
      "grad_norm": 0.9322252869606018,
      "learning_rate": 1.8038177057525637e-06,
      "loss": 3.2076,
      "step": 456380
    },
    {
      "epoch": 0.9508125,
      "grad_norm": 0.8976659178733826,
      "learning_rate": 1.802293729728471e-06,
      "loss": 3.3511,
      "step": 456390
    },
    {
      "epoch": 0.9508333333333333,
      "grad_norm": 0.9267752766609192,
      "learning_rate": 1.8007703938598073e-06,
      "loss": 3.2539,
      "step": 456400
    },
    {
      "epoch": 0.9508541666666667,
      "grad_norm": 0.9102951288223267,
      "learning_rate": 1.79924769815315e-06,
      "loss": 3.2702,
      "step": 456410
    },
    {
      "epoch": 0.950875,
      "grad_norm": 0.8790619969367981,
      "learning_rate": 1.7977256426150776e-06,
      "loss": 3.327,
      "step": 456420
    },
    {
      "epoch": 0.9508958333333334,
      "grad_norm": 0.9382242560386658,
      "learning_rate": 1.796204227252168e-06,
      "loss": 3.3149,
      "step": 456430
    },
    {
      "epoch": 0.9509166666666666,
      "grad_norm": 1.0747287273406982,
      "learning_rate": 1.7946834520709996e-06,
      "loss": 3.4326,
      "step": 456440
    },
    {
      "epoch": 0.9509375,
      "grad_norm": 0.9290646910667419,
      "learning_rate": 1.7931633170781333e-06,
      "loss": 3.3507,
      "step": 456450
    },
    {
      "epoch": 0.9509583333333333,
      "grad_norm": 0.9476266503334045,
      "learning_rate": 1.791643822280131e-06,
      "loss": 3.4227,
      "step": 456460
    },
    {
      "epoch": 0.9509791666666667,
      "grad_norm": 1.1901098489761353,
      "learning_rate": 1.7901249676835705e-06,
      "loss": 3.3468,
      "step": 456470
    },
    {
      "epoch": 0.951,
      "grad_norm": 0.9013691544532776,
      "learning_rate": 1.7886067532950133e-06,
      "loss": 3.2858,
      "step": 456480
    },
    {
      "epoch": 0.9510208333333333,
      "grad_norm": 0.893937885761261,
      "learning_rate": 1.7870891791209875e-06,
      "loss": 3.272,
      "step": 456490
    },
    {
      "epoch": 0.9510416666666667,
      "grad_norm": 0.9218451976776123,
      "learning_rate": 1.7855722451680877e-06,
      "loss": 3.2996,
      "step": 456500
    },
    {
      "epoch": 0.9510625,
      "grad_norm": 0.8951987624168396,
      "learning_rate": 1.7840559514428421e-06,
      "loss": 3.2114,
      "step": 456510
    },
    {
      "epoch": 0.9510833333333333,
      "grad_norm": 0.8547229170799255,
      "learning_rate": 1.7825402979517955e-06,
      "loss": 3.3074,
      "step": 456520
    },
    {
      "epoch": 0.9511041666666666,
      "grad_norm": 0.9764623641967773,
      "learning_rate": 1.781025284701526e-06,
      "loss": 3.3149,
      "step": 456530
    },
    {
      "epoch": 0.951125,
      "grad_norm": 0.874582827091217,
      "learning_rate": 1.779510911698545e-06,
      "loss": 3.2766,
      "step": 456540
    },
    {
      "epoch": 0.9511458333333334,
      "grad_norm": 0.8713802099227905,
      "learning_rate": 1.7779971789494141e-06,
      "loss": 3.2456,
      "step": 456550
    },
    {
      "epoch": 0.9511666666666667,
      "grad_norm": 0.8952385187149048,
      "learning_rate": 1.7764840864606611e-06,
      "loss": 3.247,
      "step": 456560
    },
    {
      "epoch": 0.9511875,
      "grad_norm": 0.9539694786071777,
      "learning_rate": 1.7749716342388143e-06,
      "loss": 3.3004,
      "step": 456570
    },
    {
      "epoch": 0.9512083333333333,
      "grad_norm": 0.8841267824172974,
      "learning_rate": 1.773459822290435e-06,
      "loss": 3.4266,
      "step": 456580
    },
    {
      "epoch": 0.9512291666666667,
      "grad_norm": 1.0108481645584106,
      "learning_rate": 1.7719486506220515e-06,
      "loss": 3.3761,
      "step": 456590
    },
    {
      "epoch": 0.95125,
      "grad_norm": 0.9187177419662476,
      "learning_rate": 1.7704381192401418e-06,
      "loss": 3.3223,
      "step": 456600
    },
    {
      "epoch": 0.9512708333333333,
      "grad_norm": 0.8999106287956238,
      "learning_rate": 1.768928228151284e-06,
      "loss": 3.2979,
      "step": 456610
    },
    {
      "epoch": 0.9512916666666666,
      "grad_norm": 0.8510188460350037,
      "learning_rate": 1.7674189773619896e-06,
      "loss": 3.2699,
      "step": 456620
    },
    {
      "epoch": 0.9513125,
      "grad_norm": 0.9298276305198669,
      "learning_rate": 1.7659103668787533e-06,
      "loss": 3.3379,
      "step": 456630
    },
    {
      "epoch": 0.9513333333333334,
      "grad_norm": 1.0398738384246826,
      "learning_rate": 1.76440239670812e-06,
      "loss": 3.4222,
      "step": 456640
    },
    {
      "epoch": 0.9513541666666666,
      "grad_norm": 0.9131438136100769,
      "learning_rate": 1.762895066856601e-06,
      "loss": 3.3649,
      "step": 456650
    },
    {
      "epoch": 0.951375,
      "grad_norm": 0.9532769322395325,
      "learning_rate": 1.7613883773306747e-06,
      "loss": 3.3369,
      "step": 456660
    },
    {
      "epoch": 0.9513958333333333,
      "grad_norm": 0.9499948620796204,
      "learning_rate": 1.7598823281368857e-06,
      "loss": 3.3329,
      "step": 456670
    },
    {
      "epoch": 0.9514166666666667,
      "grad_norm": 0.9998378753662109,
      "learning_rate": 1.7583769192817454e-06,
      "loss": 3.2782,
      "step": 456680
    },
    {
      "epoch": 0.9514375,
      "grad_norm": 1.0437495708465576,
      "learning_rate": 1.7568721507717155e-06,
      "loss": 3.3041,
      "step": 456690
    },
    {
      "epoch": 0.9514583333333333,
      "grad_norm": 0.9163896441459656,
      "learning_rate": 1.7553680226133071e-06,
      "loss": 3.3656,
      "step": 456700
    },
    {
      "epoch": 0.9514791666666667,
      "grad_norm": 0.9856881499290466,
      "learning_rate": 1.7538645348130654e-06,
      "loss": 3.2933,
      "step": 456710
    },
    {
      "epoch": 0.9515,
      "grad_norm": 0.8781947493553162,
      "learning_rate": 1.752361687377435e-06,
      "loss": 3.2423,
      "step": 456720
    },
    {
      "epoch": 0.9515208333333334,
      "grad_norm": 0.8976367712020874,
      "learning_rate": 1.7508594803129105e-06,
      "loss": 3.2349,
      "step": 456730
    },
    {
      "epoch": 0.9515416666666666,
      "grad_norm": 1.0766189098358154,
      "learning_rate": 1.7493579136260038e-06,
      "loss": 3.4499,
      "step": 456740
    },
    {
      "epoch": 0.9515625,
      "grad_norm": 0.925583004951477,
      "learning_rate": 1.747856987323193e-06,
      "loss": 3.2943,
      "step": 456750
    },
    {
      "epoch": 0.9515833333333333,
      "grad_norm": 0.9706477522850037,
      "learning_rate": 1.7463567014109392e-06,
      "loss": 3.2674,
      "step": 456760
    },
    {
      "epoch": 0.9516041666666667,
      "grad_norm": 0.9724981188774109,
      "learning_rate": 1.7448570558957543e-06,
      "loss": 3.2764,
      "step": 456770
    },
    {
      "epoch": 0.951625,
      "grad_norm": 0.9111493825912476,
      "learning_rate": 1.7433580507840994e-06,
      "loss": 3.3035,
      "step": 456780
    },
    {
      "epoch": 0.9516458333333333,
      "grad_norm": 0.9110380411148071,
      "learning_rate": 1.7418596860824695e-06,
      "loss": 3.3489,
      "step": 456790
    },
    {
      "epoch": 0.9516666666666667,
      "grad_norm": 0.8976241946220398,
      "learning_rate": 1.7403619617973096e-06,
      "loss": 3.3418,
      "step": 456800
    },
    {
      "epoch": 0.9516875,
      "grad_norm": 0.9273875951766968,
      "learning_rate": 1.7388648779350979e-06,
      "loss": 3.3203,
      "step": 456810
    },
    {
      "epoch": 0.9517083333333334,
      "grad_norm": 0.9227259755134583,
      "learning_rate": 1.7373684345022953e-06,
      "loss": 3.2601,
      "step": 456820
    },
    {
      "epoch": 0.9517291666666666,
      "grad_norm": 0.8986790776252747,
      "learning_rate": 1.7358726315053806e-06,
      "loss": 3.2862,
      "step": 456830
    },
    {
      "epoch": 0.95175,
      "grad_norm": 0.9573356509208679,
      "learning_rate": 1.7343774689508149e-06,
      "loss": 3.2332,
      "step": 456840
    },
    {
      "epoch": 0.9517708333333333,
      "grad_norm": 0.919330358505249,
      "learning_rate": 1.73288294684506e-06,
      "loss": 3.3139,
      "step": 456850
    },
    {
      "epoch": 0.9517916666666667,
      "grad_norm": 0.8930206298828125,
      "learning_rate": 1.7313890651945439e-06,
      "loss": 3.3834,
      "step": 456860
    },
    {
      "epoch": 0.9518125,
      "grad_norm": 1.107128620147705,
      "learning_rate": 1.7298958240057448e-06,
      "loss": 3.3044,
      "step": 456870
    },
    {
      "epoch": 0.9518333333333333,
      "grad_norm": 0.945300817489624,
      "learning_rate": 1.7284032232851075e-06,
      "loss": 3.2405,
      "step": 456880
    },
    {
      "epoch": 0.9518541666666667,
      "grad_norm": 0.9385261535644531,
      "learning_rate": 1.7269112630390768e-06,
      "loss": 3.2862,
      "step": 456890
    },
    {
      "epoch": 0.951875,
      "grad_norm": 1.018466830253601,
      "learning_rate": 1.7254199432740978e-06,
      "loss": 3.4588,
      "step": 456900
    },
    {
      "epoch": 0.9518958333333334,
      "grad_norm": 0.9555444717407227,
      "learning_rate": 1.7239292639966318e-06,
      "loss": 3.3058,
      "step": 456910
    },
    {
      "epoch": 0.9519166666666666,
      "grad_norm": 0.9317340850830078,
      "learning_rate": 1.7224392252130736e-06,
      "loss": 3.4023,
      "step": 456920
    },
    {
      "epoch": 0.9519375,
      "grad_norm": 1.029809832572937,
      "learning_rate": 1.7209498269299016e-06,
      "loss": 3.4632,
      "step": 456930
    },
    {
      "epoch": 0.9519583333333334,
      "grad_norm": 0.8811303973197937,
      "learning_rate": 1.7194610691535272e-06,
      "loss": 3.3104,
      "step": 456940
    },
    {
      "epoch": 0.9519791666666667,
      "grad_norm": 0.9114747643470764,
      "learning_rate": 1.7179729518903785e-06,
      "loss": 3.2216,
      "step": 456950
    },
    {
      "epoch": 0.952,
      "grad_norm": 0.9451587200164795,
      "learning_rate": 1.716485475146917e-06,
      "loss": 3.3679,
      "step": 456960
    },
    {
      "epoch": 0.9520208333333333,
      "grad_norm": 0.9601280689239502,
      "learning_rate": 1.714998638929521e-06,
      "loss": 3.2403,
      "step": 456970
    },
    {
      "epoch": 0.9520416666666667,
      "grad_norm": 0.8733952045440674,
      "learning_rate": 1.7135124432446357e-06,
      "loss": 3.3145,
      "step": 456980
    },
    {
      "epoch": 0.9520625,
      "grad_norm": 1.1379085779190063,
      "learning_rate": 1.7120268880987054e-06,
      "loss": 3.4733,
      "step": 456990
    },
    {
      "epoch": 0.9520833333333333,
      "grad_norm": 0.937829315662384,
      "learning_rate": 1.7105419734981086e-06,
      "loss": 3.3307,
      "step": 457000
    },
    {
      "epoch": 0.9520833333333333,
      "eval_loss": 4.022080421447754,
      "eval_runtime": 9.1881,
      "eval_samples_per_second": 1.088,
      "eval_steps_per_second": 0.327,
      "step": 457000
    },
    {
      "epoch": 0.9521041666666666,
      "grad_norm": 0.9683004021644592,
      "learning_rate": 1.7090576994492566e-06,
      "loss": 3.3671,
      "step": 457010
    },
    {
      "epoch": 0.952125,
      "grad_norm": 0.8768775463104248,
      "learning_rate": 1.7075740659585946e-06,
      "loss": 3.4043,
      "step": 457020
    },
    {
      "epoch": 0.9521458333333334,
      "grad_norm": 0.9530555009841919,
      "learning_rate": 1.7060910730325171e-06,
      "loss": 3.2172,
      "step": 457030
    },
    {
      "epoch": 0.9521666666666667,
      "grad_norm": 0.8722283244132996,
      "learning_rate": 1.7046087206774195e-06,
      "loss": 3.1106,
      "step": 457040
    },
    {
      "epoch": 0.9521875,
      "grad_norm": 0.8602518439292908,
      "learning_rate": 1.7031270088997129e-06,
      "loss": 3.2438,
      "step": 457050
    },
    {
      "epoch": 0.9522083333333333,
      "grad_norm": 0.8527441024780273,
      "learning_rate": 1.7016459377058089e-06,
      "loss": 3.1837,
      "step": 457060
    },
    {
      "epoch": 0.9522291666666667,
      "grad_norm": 0.9437410235404968,
      "learning_rate": 1.7001655071020691e-06,
      "loss": 3.2734,
      "step": 457070
    },
    {
      "epoch": 0.95225,
      "grad_norm": 0.9320662021636963,
      "learning_rate": 1.6986857170949385e-06,
      "loss": 3.3785,
      "step": 457080
    },
    {
      "epoch": 0.9522708333333333,
      "grad_norm": 0.8568328619003296,
      "learning_rate": 1.6972065676907787e-06,
      "loss": 3.3401,
      "step": 457090
    },
    {
      "epoch": 0.9522916666666666,
      "grad_norm": 0.9013440012931824,
      "learning_rate": 1.6957280588959676e-06,
      "loss": 3.2937,
      "step": 457100
    },
    {
      "epoch": 0.9523125,
      "grad_norm": 0.8389347195625305,
      "learning_rate": 1.6942501907169337e-06,
      "loss": 3.3008,
      "step": 457110
    },
    {
      "epoch": 0.9523333333333334,
      "grad_norm": 1.0038349628448486,
      "learning_rate": 1.6927729631600217e-06,
      "loss": 3.391,
      "step": 457120
    },
    {
      "epoch": 0.9523541666666666,
      "grad_norm": 0.919344425201416,
      "learning_rate": 1.6912963762316267e-06,
      "loss": 3.2875,
      "step": 457130
    },
    {
      "epoch": 0.952375,
      "grad_norm": 0.893669605255127,
      "learning_rate": 1.6898204299381269e-06,
      "loss": 3.3402,
      "step": 457140
    },
    {
      "epoch": 0.9523958333333333,
      "grad_norm": 0.9343495965003967,
      "learning_rate": 1.6883451242858836e-06,
      "loss": 3.351,
      "step": 457150
    },
    {
      "epoch": 0.9524166666666667,
      "grad_norm": 0.8981543183326721,
      "learning_rate": 1.6868704592813087e-06,
      "loss": 3.3148,
      "step": 457160
    },
    {
      "epoch": 0.9524375,
      "grad_norm": 0.9121202826499939,
      "learning_rate": 1.6853964349307304e-06,
      "loss": 3.4746,
      "step": 457170
    },
    {
      "epoch": 0.9524583333333333,
      "grad_norm": 0.90639328956604,
      "learning_rate": 1.6839230512405433e-06,
      "loss": 3.3096,
      "step": 457180
    },
    {
      "epoch": 0.9524791666666667,
      "grad_norm": 0.9879216551780701,
      "learning_rate": 1.6824503082170926e-06,
      "loss": 3.3243,
      "step": 457190
    },
    {
      "epoch": 0.9525,
      "grad_norm": 0.9599928855895996,
      "learning_rate": 1.6809782058667564e-06,
      "loss": 3.2998,
      "step": 457200
    },
    {
      "epoch": 0.9525208333333334,
      "grad_norm": 0.9027306437492371,
      "learning_rate": 1.6795067441958798e-06,
      "loss": 3.2732,
      "step": 457210
    },
    {
      "epoch": 0.9525416666666666,
      "grad_norm": 0.9199495315551758,
      "learning_rate": 1.6780359232108242e-06,
      "loss": 3.2442,
      "step": 457220
    },
    {
      "epoch": 0.9525625,
      "grad_norm": 1.028764009475708,
      "learning_rate": 1.6765657429179347e-06,
      "loss": 3.3247,
      "step": 457230
    },
    {
      "epoch": 0.9525833333333333,
      "grad_norm": 0.87824547290802,
      "learning_rate": 1.6750962033235892e-06,
      "loss": 3.2575,
      "step": 457240
    },
    {
      "epoch": 0.9526041666666667,
      "grad_norm": 0.8911524415016174,
      "learning_rate": 1.6736273044341163e-06,
      "loss": 3.3901,
      "step": 457250
    },
    {
      "epoch": 0.952625,
      "grad_norm": 0.9098542332649231,
      "learning_rate": 1.6721590462558443e-06,
      "loss": 3.3061,
      "step": 457260
    },
    {
      "epoch": 0.9526458333333333,
      "grad_norm": 1.0577280521392822,
      "learning_rate": 1.6706914287951346e-06,
      "loss": 3.4269,
      "step": 457270
    },
    {
      "epoch": 0.9526666666666667,
      "grad_norm": 0.908725380897522,
      "learning_rate": 1.6692244520583487e-06,
      "loss": 3.2466,
      "step": 457280
    },
    {
      "epoch": 0.9526875,
      "grad_norm": 0.9948803186416626,
      "learning_rate": 1.6677581160517817e-06,
      "loss": 3.1984,
      "step": 457290
    },
    {
      "epoch": 0.9527083333333334,
      "grad_norm": 0.8982044458389282,
      "learning_rate": 1.6662924207817784e-06,
      "loss": 3.3228,
      "step": 457300
    },
    {
      "epoch": 0.9527291666666666,
      "grad_norm": 0.8934451937675476,
      "learning_rate": 1.6648273662547008e-06,
      "loss": 3.2244,
      "step": 457310
    },
    {
      "epoch": 0.95275,
      "grad_norm": 0.9141298532485962,
      "learning_rate": 1.6633629524768265e-06,
      "loss": 3.3915,
      "step": 457320
    },
    {
      "epoch": 0.9527708333333333,
      "grad_norm": 0.8682037591934204,
      "learning_rate": 1.6618991794545344e-06,
      "loss": 3.3197,
      "step": 457330
    },
    {
      "epoch": 0.9527916666666667,
      "grad_norm": 1.143294095993042,
      "learning_rate": 1.6604360471941025e-06,
      "loss": 3.2768,
      "step": 457340
    },
    {
      "epoch": 0.9528125,
      "grad_norm": 0.947521984577179,
      "learning_rate": 1.6589735557018757e-06,
      "loss": 3.2849,
      "step": 457350
    },
    {
      "epoch": 0.9528333333333333,
      "grad_norm": 0.9147612452507019,
      "learning_rate": 1.6575117049841823e-06,
      "loss": 3.4683,
      "step": 457360
    },
    {
      "epoch": 0.9528541666666667,
      "grad_norm": 0.8691107034683228,
      "learning_rate": 1.6560504950473009e-06,
      "loss": 3.2836,
      "step": 457370
    },
    {
      "epoch": 0.952875,
      "grad_norm": 0.962591826915741,
      "learning_rate": 1.6545899258975593e-06,
      "loss": 3.3393,
      "step": 457380
    },
    {
      "epoch": 0.9528958333333334,
      "grad_norm": 0.8892921805381775,
      "learning_rate": 1.653129997541286e-06,
      "loss": 3.4094,
      "step": 457390
    },
    {
      "epoch": 0.9529166666666666,
      "grad_norm": 1.0543897151947021,
      "learning_rate": 1.6516707099847592e-06,
      "loss": 3.3311,
      "step": 457400
    },
    {
      "epoch": 0.9529375,
      "grad_norm": 1.0070652961730957,
      "learning_rate": 1.6502120632342907e-06,
      "loss": 3.3944,
      "step": 457410
    },
    {
      "epoch": 0.9529583333333334,
      "grad_norm": 0.9416067004203796,
      "learning_rate": 1.648754057296192e-06,
      "loss": 3.3443,
      "step": 457420
    },
    {
      "epoch": 0.9529791666666667,
      "grad_norm": 0.8790658116340637,
      "learning_rate": 1.6472966921767584e-06,
      "loss": 3.2572,
      "step": 457430
    },
    {
      "epoch": 0.953,
      "grad_norm": 0.8899580836296082,
      "learning_rate": 1.6458399678822676e-06,
      "loss": 3.2287,
      "step": 457440
    },
    {
      "epoch": 0.9530208333333333,
      "grad_norm": 1.0661535263061523,
      "learning_rate": 1.6443838844190482e-06,
      "loss": 3.475,
      "step": 457450
    },
    {
      "epoch": 0.9530416666666667,
      "grad_norm": 0.8644336462020874,
      "learning_rate": 1.6429284417933619e-06,
      "loss": 3.2566,
      "step": 457460
    },
    {
      "epoch": 0.9530625,
      "grad_norm": 0.8913500308990479,
      "learning_rate": 1.641473640011487e-06,
      "loss": 3.2883,
      "step": 457470
    },
    {
      "epoch": 0.9530833333333333,
      "grad_norm": 0.8744356632232666,
      "learning_rate": 1.640019479079735e-06,
      "loss": 3.3313,
      "step": 457480
    },
    {
      "epoch": 0.9531041666666666,
      "grad_norm": 0.8872821927070618,
      "learning_rate": 1.6385659590043677e-06,
      "loss": 3.3838,
      "step": 457490
    },
    {
      "epoch": 0.953125,
      "grad_norm": 0.9113256335258484,
      "learning_rate": 1.6371130797916631e-06,
      "loss": 3.3172,
      "step": 457500
    },
    {
      "epoch": 0.9531458333333334,
      "grad_norm": 1.1410287618637085,
      "learning_rate": 1.6356608414479e-06,
      "loss": 3.3665,
      "step": 457510
    },
    {
      "epoch": 0.9531666666666667,
      "grad_norm": 0.8996173739433289,
      "learning_rate": 1.634209243979373e-06,
      "loss": 3.4842,
      "step": 457520
    },
    {
      "epoch": 0.9531875,
      "grad_norm": 0.8808169364929199,
      "learning_rate": 1.6327582873923273e-06,
      "loss": 3.4381,
      "step": 457530
    },
    {
      "epoch": 0.9532083333333333,
      "grad_norm": 0.9289846420288086,
      "learning_rate": 1.631307971693041e-06,
      "loss": 3.2243,
      "step": 457540
    },
    {
      "epoch": 0.9532291666666667,
      "grad_norm": 1.0012539625167847,
      "learning_rate": 1.629858296887776e-06,
      "loss": 3.4868,
      "step": 457550
    },
    {
      "epoch": 0.95325,
      "grad_norm": 0.8799184560775757,
      "learning_rate": 1.6284092629827773e-06,
      "loss": 3.506,
      "step": 457560
    },
    {
      "epoch": 0.9532708333333333,
      "grad_norm": 0.9650349617004395,
      "learning_rate": 1.6269608699843394e-06,
      "loss": 3.354,
      "step": 457570
    },
    {
      "epoch": 0.9532916666666666,
      "grad_norm": 0.9502355456352234,
      "learning_rate": 1.6255131178986913e-06,
      "loss": 3.4497,
      "step": 457580
    },
    {
      "epoch": 0.9533125,
      "grad_norm": 0.9120810031890869,
      "learning_rate": 1.6240660067321109e-06,
      "loss": 3.2381,
      "step": 457590
    },
    {
      "epoch": 0.9533333333333334,
      "grad_norm": 0.9336981773376465,
      "learning_rate": 1.6226195364908269e-06,
      "loss": 3.3482,
      "step": 457600
    },
    {
      "epoch": 0.9533541666666666,
      "grad_norm": 0.9335618615150452,
      "learning_rate": 1.6211737071810838e-06,
      "loss": 3.3312,
      "step": 457610
    },
    {
      "epoch": 0.953375,
      "grad_norm": 0.8910152912139893,
      "learning_rate": 1.6197285188091602e-06,
      "loss": 3.2725,
      "step": 457620
    },
    {
      "epoch": 0.9533958333333333,
      "grad_norm": 0.8778708577156067,
      "learning_rate": 1.6182839713812512e-06,
      "loss": 3.4258,
      "step": 457630
    },
    {
      "epoch": 0.9534166666666667,
      "grad_norm": 1.0175386667251587,
      "learning_rate": 1.6168400649036183e-06,
      "loss": 3.2992,
      "step": 457640
    },
    {
      "epoch": 0.9534375,
      "grad_norm": 0.9817318916320801,
      "learning_rate": 1.6153967993825402e-06,
      "loss": 3.2743,
      "step": 457650
    },
    {
      "epoch": 0.9534583333333333,
      "grad_norm": 1.014388918876648,
      "learning_rate": 1.613954174824178e-06,
      "loss": 3.2757,
      "step": 457660
    },
    {
      "epoch": 0.9534791666666667,
      "grad_norm": 0.9025262594223022,
      "learning_rate": 1.6125121912348105e-06,
      "loss": 3.4116,
      "step": 457670
    },
    {
      "epoch": 0.9535,
      "grad_norm": 0.903924286365509,
      "learning_rate": 1.6110708486206492e-06,
      "loss": 3.2877,
      "step": 457680
    },
    {
      "epoch": 0.9535208333333334,
      "grad_norm": 1.0007317066192627,
      "learning_rate": 1.6096301469879226e-06,
      "loss": 3.2013,
      "step": 457690
    },
    {
      "epoch": 0.9535416666666666,
      "grad_norm": 0.8702844381332397,
      "learning_rate": 1.6081900863428753e-06,
      "loss": 3.3119,
      "step": 457700
    },
    {
      "epoch": 0.9535625,
      "grad_norm": 0.8695471882820129,
      "learning_rate": 1.606750666691703e-06,
      "loss": 3.2951,
      "step": 457710
    },
    {
      "epoch": 0.9535833333333333,
      "grad_norm": 0.8419686555862427,
      "learning_rate": 1.6053118880406168e-06,
      "loss": 3.3911,
      "step": 457720
    },
    {
      "epoch": 0.9536041666666667,
      "grad_norm": 0.9640303254127502,
      "learning_rate": 1.603873750395862e-06,
      "loss": 3.301,
      "step": 457730
    },
    {
      "epoch": 0.953625,
      "grad_norm": 0.9016051292419434,
      "learning_rate": 1.6024362537636172e-06,
      "loss": 3.1298,
      "step": 457740
    },
    {
      "epoch": 0.9536458333333333,
      "grad_norm": 0.8566964268684387,
      "learning_rate": 1.60099939815011e-06,
      "loss": 3.3386,
      "step": 457750
    },
    {
      "epoch": 0.9536666666666667,
      "grad_norm": 1.0036293268203735,
      "learning_rate": 1.599563183561553e-06,
      "loss": 3.2819,
      "step": 457760
    },
    {
      "epoch": 0.9536875,
      "grad_norm": 1.0384975671768188,
      "learning_rate": 1.5981276100041407e-06,
      "loss": 3.252,
      "step": 457770
    },
    {
      "epoch": 0.9537083333333334,
      "grad_norm": 1.0387150049209595,
      "learning_rate": 1.5966926774840682e-06,
      "loss": 3.5132,
      "step": 457780
    },
    {
      "epoch": 0.9537291666666666,
      "grad_norm": 0.982854425907135,
      "learning_rate": 1.5952583860075473e-06,
      "loss": 3.2885,
      "step": 457790
    },
    {
      "epoch": 0.95375,
      "grad_norm": 1.0325241088867188,
      "learning_rate": 1.5938247355807732e-06,
      "loss": 3.1467,
      "step": 457800
    },
    {
      "epoch": 0.9537708333333333,
      "grad_norm": 1.0467280149459839,
      "learning_rate": 1.592391726209924e-06,
      "loss": 3.3927,
      "step": 457810
    },
    {
      "epoch": 0.9537916666666667,
      "grad_norm": 0.8753877282142639,
      "learning_rate": 1.5909593579011947e-06,
      "loss": 3.3707,
      "step": 457820
    },
    {
      "epoch": 0.9538125,
      "grad_norm": 0.8509694337844849,
      "learning_rate": 1.5895276306607806e-06,
      "loss": 3.223,
      "step": 457830
    },
    {
      "epoch": 0.9538333333333333,
      "grad_norm": 0.9131766557693481,
      "learning_rate": 1.5880965444948767e-06,
      "loss": 3.4406,
      "step": 457840
    },
    {
      "epoch": 0.9538541666666667,
      "grad_norm": 0.9157347679138184,
      "learning_rate": 1.586666099409628e-06,
      "loss": 3.2756,
      "step": 457850
    },
    {
      "epoch": 0.953875,
      "grad_norm": 0.8834936618804932,
      "learning_rate": 1.5852362954112463e-06,
      "loss": 3.2993,
      "step": 457860
    },
    {
      "epoch": 0.9538958333333334,
      "grad_norm": 0.8521660566329956,
      "learning_rate": 1.5838071325058932e-06,
      "loss": 3.4041,
      "step": 457870
    },
    {
      "epoch": 0.9539166666666666,
      "grad_norm": 0.9143397808074951,
      "learning_rate": 1.5823786106997638e-06,
      "loss": 3.2272,
      "step": 457880
    },
    {
      "epoch": 0.9539375,
      "grad_norm": 0.8611584305763245,
      "learning_rate": 1.5809507299989865e-06,
      "loss": 3.3365,
      "step": 457890
    },
    {
      "epoch": 0.9539583333333334,
      "grad_norm": 0.9315910339355469,
      "learning_rate": 1.579523490409773e-06,
      "loss": 3.3505,
      "step": 457900
    },
    {
      "epoch": 0.9539791666666667,
      "grad_norm": 0.9035307168960571,
      "learning_rate": 1.5780968919382519e-06,
      "loss": 3.42,
      "step": 457910
    },
    {
      "epoch": 0.954,
      "grad_norm": 0.959006130695343,
      "learning_rate": 1.5766709345906182e-06,
      "loss": 3.2936,
      "step": 457920
    },
    {
      "epoch": 0.9540208333333333,
      "grad_norm": 1.020395278930664,
      "learning_rate": 1.575245618373e-06,
      "loss": 3.3299,
      "step": 457930
    },
    {
      "epoch": 0.9540416666666667,
      "grad_norm": 0.9364575147628784,
      "learning_rate": 1.573820943291576e-06,
      "loss": 3.309,
      "step": 457940
    },
    {
      "epoch": 0.9540625,
      "grad_norm": 0.8953831195831299,
      "learning_rate": 1.5723969093525079e-06,
      "loss": 3.4389,
      "step": 457950
    },
    {
      "epoch": 0.9540833333333333,
      "grad_norm": 0.9323579668998718,
      "learning_rate": 1.5709735165619241e-06,
      "loss": 3.2527,
      "step": 457960
    },
    {
      "epoch": 0.9541041666666666,
      "grad_norm": 0.9661725759506226,
      "learning_rate": 1.5695507649259697e-06,
      "loss": 3.3187,
      "step": 457970
    },
    {
      "epoch": 0.954125,
      "grad_norm": 0.9808048009872437,
      "learning_rate": 1.5681286544508232e-06,
      "loss": 3.2877,
      "step": 457980
    },
    {
      "epoch": 0.9541458333333334,
      "grad_norm": 0.9634522795677185,
      "learning_rate": 1.5667071851426127e-06,
      "loss": 3.2943,
      "step": 457990
    },
    {
      "epoch": 0.9541666666666667,
      "grad_norm": 1.0971424579620361,
      "learning_rate": 1.5652863570074336e-06,
      "loss": 3.3722,
      "step": 458000
    },
    {
      "epoch": 0.9541666666666667,
      "eval_loss": 4.0210795402526855,
      "eval_runtime": 9.4347,
      "eval_samples_per_second": 1.06,
      "eval_steps_per_second": 0.318,
      "step": 458000
    },
    {
      "epoch": 0.9541875,
      "grad_norm": 0.9316142201423645,
      "learning_rate": 1.5638661700514976e-06,
      "loss": 3.3191,
      "step": 458010
    },
    {
      "epoch": 0.9542083333333333,
      "grad_norm": 0.9288274049758911,
      "learning_rate": 1.5624466242808996e-06,
      "loss": 3.2884,
      "step": 458020
    },
    {
      "epoch": 0.9542291666666667,
      "grad_norm": 0.9279388785362244,
      "learning_rate": 1.5610277197017685e-06,
      "loss": 3.2512,
      "step": 458030
    },
    {
      "epoch": 0.95425,
      "grad_norm": 0.8625010848045349,
      "learning_rate": 1.5596094563202488e-06,
      "loss": 3.3275,
      "step": 458040
    },
    {
      "epoch": 0.9542708333333333,
      "grad_norm": 0.9835394024848938,
      "learning_rate": 1.5581918341424527e-06,
      "loss": 3.3266,
      "step": 458050
    },
    {
      "epoch": 0.9542916666666666,
      "grad_norm": 1.0332318544387817,
      "learning_rate": 1.5567748531745083e-06,
      "loss": 3.4354,
      "step": 458060
    },
    {
      "epoch": 0.9543125,
      "grad_norm": 0.9521249532699585,
      "learning_rate": 1.5553585134225444e-06,
      "loss": 3.2679,
      "step": 458070
    },
    {
      "epoch": 0.9543333333333334,
      "grad_norm": 0.9100463390350342,
      "learning_rate": 1.553942814892689e-06,
      "loss": 3.3777,
      "step": 458080
    },
    {
      "epoch": 0.9543541666666666,
      "grad_norm": 1.0920488834381104,
      "learning_rate": 1.552527757591021e-06,
      "loss": 3.2526,
      "step": 458090
    },
    {
      "epoch": 0.954375,
      "grad_norm": 0.8424837589263916,
      "learning_rate": 1.5511133415236854e-06,
      "loss": 3.3712,
      "step": 458100
    },
    {
      "epoch": 0.9543958333333333,
      "grad_norm": 0.8611530065536499,
      "learning_rate": 1.5496995666967605e-06,
      "loss": 3.291,
      "step": 458110
    },
    {
      "epoch": 0.9544166666666667,
      "grad_norm": 0.9406828880310059,
      "learning_rate": 1.5482864331163913e-06,
      "loss": 3.322,
      "step": 458120
    },
    {
      "epoch": 0.9544375,
      "grad_norm": 0.9169803857803345,
      "learning_rate": 1.5468739407886566e-06,
      "loss": 3.2055,
      "step": 458130
    },
    {
      "epoch": 0.9544583333333333,
      "grad_norm": 0.9774132966995239,
      "learning_rate": 1.5454620897196679e-06,
      "loss": 3.3686,
      "step": 458140
    },
    {
      "epoch": 0.9544791666666667,
      "grad_norm": 0.9927809834480286,
      "learning_rate": 1.5440508799155204e-06,
      "loss": 3.2967,
      "step": 458150
    },
    {
      "epoch": 0.9545,
      "grad_norm": 0.9839838147163391,
      "learning_rate": 1.5426403113823095e-06,
      "loss": 3.429,
      "step": 458160
    },
    {
      "epoch": 0.9545208333333334,
      "grad_norm": 0.8941742181777954,
      "learning_rate": 1.5412303841261298e-06,
      "loss": 3.3376,
      "step": 458170
    },
    {
      "epoch": 0.9545416666666666,
      "grad_norm": 0.9000030159950256,
      "learning_rate": 1.53982109815306e-06,
      "loss": 3.3304,
      "step": 458180
    },
    {
      "epoch": 0.9545625,
      "grad_norm": 0.9276516437530518,
      "learning_rate": 1.5384124534692121e-06,
      "loss": 3.2651,
      "step": 458190
    },
    {
      "epoch": 0.9545833333333333,
      "grad_norm": 1.0601452589035034,
      "learning_rate": 1.5370044500806478e-06,
      "loss": 3.3272,
      "step": 458200
    },
    {
      "epoch": 0.9546041666666667,
      "grad_norm": 0.8762975931167603,
      "learning_rate": 1.535597087993462e-06,
      "loss": 3.3932,
      "step": 458210
    },
    {
      "epoch": 0.954625,
      "grad_norm": 0.9474936723709106,
      "learning_rate": 1.5341903672137335e-06,
      "loss": 3.258,
      "step": 458220
    },
    {
      "epoch": 0.9546458333333333,
      "grad_norm": 0.8706104159355164,
      "learning_rate": 1.5327842877475238e-06,
      "loss": 3.2728,
      "step": 458230
    },
    {
      "epoch": 0.9546666666666667,
      "grad_norm": 0.9811755418777466,
      "learning_rate": 1.5313788496009283e-06,
      "loss": 3.3667,
      "step": 458240
    },
    {
      "epoch": 0.9546875,
      "grad_norm": 0.9111396074295044,
      "learning_rate": 1.5299740527800086e-06,
      "loss": 3.3934,
      "step": 458250
    },
    {
      "epoch": 0.9547083333333334,
      "grad_norm": 0.8692979216575623,
      "learning_rate": 1.5285698972908434e-06,
      "loss": 3.2322,
      "step": 458260
    },
    {
      "epoch": 0.9547291666666666,
      "grad_norm": 0.8744032979011536,
      "learning_rate": 1.527166383139461e-06,
      "loss": 3.1937,
      "step": 458270
    },
    {
      "epoch": 0.95475,
      "grad_norm": 0.8831342458724976,
      "learning_rate": 1.5257635103319732e-06,
      "loss": 3.4492,
      "step": 458280
    },
    {
      "epoch": 0.9547708333333333,
      "grad_norm": 0.9047811627388,
      "learning_rate": 1.5243612788744085e-06,
      "loss": 3.2467,
      "step": 458290
    },
    {
      "epoch": 0.9547916666666667,
      "grad_norm": 0.9658144116401672,
      "learning_rate": 1.522959688772829e-06,
      "loss": 3.3825,
      "step": 458300
    },
    {
      "epoch": 0.9548125,
      "grad_norm": 1.0428134202957153,
      "learning_rate": 1.5215587400332962e-06,
      "loss": 3.2634,
      "step": 458310
    },
    {
      "epoch": 0.9548333333333333,
      "grad_norm": 1.0195891857147217,
      "learning_rate": 1.5201584326618555e-06,
      "loss": 3.2588,
      "step": 458320
    },
    {
      "epoch": 0.9548541666666667,
      "grad_norm": 0.9736823439598083,
      "learning_rate": 1.5187587666645684e-06,
      "loss": 3.3885,
      "step": 458330
    },
    {
      "epoch": 0.954875,
      "grad_norm": 0.9234558343887329,
      "learning_rate": 1.5173597420474636e-06,
      "loss": 3.3369,
      "step": 458340
    },
    {
      "epoch": 0.9548958333333334,
      "grad_norm": 0.8480005860328674,
      "learning_rate": 1.5159613588165863e-06,
      "loss": 3.3263,
      "step": 458350
    },
    {
      "epoch": 0.9549166666666666,
      "grad_norm": 0.9955387711524963,
      "learning_rate": 1.5145636169779817e-06,
      "loss": 3.3409,
      "step": 458360
    },
    {
      "epoch": 0.9549375,
      "grad_norm": 0.8109630346298218,
      "learning_rate": 1.5131665165376949e-06,
      "loss": 3.3663,
      "step": 458370
    },
    {
      "epoch": 0.9549583333333334,
      "grad_norm": 0.8532689809799194,
      "learning_rate": 1.5117700575017378e-06,
      "loss": 3.3728,
      "step": 458380
    },
    {
      "epoch": 0.9549791666666667,
      "grad_norm": 0.9568522572517395,
      "learning_rate": 1.5103742398761887e-06,
      "loss": 3.3369,
      "step": 458390
    },
    {
      "epoch": 0.955,
      "grad_norm": 0.9305130839347839,
      "learning_rate": 1.5089790636670262e-06,
      "loss": 3.4288,
      "step": 458400
    },
    {
      "epoch": 0.9550208333333333,
      "grad_norm": 0.8398256301879883,
      "learning_rate": 1.5075845288802957e-06,
      "loss": 3.2827,
      "step": 458410
    },
    {
      "epoch": 0.9550416666666667,
      "grad_norm": 0.9279287457466125,
      "learning_rate": 1.5061906355220254e-06,
      "loss": 3.2651,
      "step": 458420
    },
    {
      "epoch": 0.9550625,
      "grad_norm": 1.0187926292419434,
      "learning_rate": 1.504797383598244e-06,
      "loss": 3.3285,
      "step": 458430
    },
    {
      "epoch": 0.9550833333333333,
      "grad_norm": 0.9445733428001404,
      "learning_rate": 1.5034047731149302e-06,
      "loss": 3.3048,
      "step": 458440
    },
    {
      "epoch": 0.9551041666666666,
      "grad_norm": 1.0156038999557495,
      "learning_rate": 1.5020128040781621e-06,
      "loss": 3.2736,
      "step": 458450
    },
    {
      "epoch": 0.955125,
      "grad_norm": 0.9032225608825684,
      "learning_rate": 1.5006214764939018e-06,
      "loss": 3.3665,
      "step": 458460
    },
    {
      "epoch": 0.9551458333333334,
      "grad_norm": 0.9422703981399536,
      "learning_rate": 1.4992307903681778e-06,
      "loss": 3.247,
      "step": 458470
    },
    {
      "epoch": 0.9551666666666667,
      "grad_norm": 0.9185409545898438,
      "learning_rate": 1.4978407457070019e-06,
      "loss": 3.3428,
      "step": 458480
    },
    {
      "epoch": 0.9551875,
      "grad_norm": 0.9662100076675415,
      "learning_rate": 1.4964513425163694e-06,
      "loss": 3.4374,
      "step": 458490
    },
    {
      "epoch": 0.9552083333333333,
      "grad_norm": 1.0106104612350464,
      "learning_rate": 1.4950625808022921e-06,
      "loss": 3.3836,
      "step": 458500
    },
    {
      "epoch": 0.9552291666666667,
      "grad_norm": 1.012180209159851,
      "learning_rate": 1.4936744605707485e-06,
      "loss": 3.4264,
      "step": 458510
    },
    {
      "epoch": 0.95525,
      "grad_norm": 0.8987656831741333,
      "learning_rate": 1.4922869818277504e-06,
      "loss": 3.3496,
      "step": 458520
    },
    {
      "epoch": 0.9552708333333333,
      "grad_norm": 0.9137985706329346,
      "learning_rate": 1.4909001445792933e-06,
      "loss": 3.2824,
      "step": 458530
    },
    {
      "epoch": 0.9552916666666667,
      "grad_norm": 0.950592577457428,
      "learning_rate": 1.4895139488313722e-06,
      "loss": 3.2716,
      "step": 458540
    },
    {
      "epoch": 0.9553125,
      "grad_norm": 0.9912692904472351,
      "learning_rate": 1.4881283945899492e-06,
      "loss": 3.3634,
      "step": 458550
    },
    {
      "epoch": 0.9553333333333334,
      "grad_norm": 1.0376476049423218,
      "learning_rate": 1.4867434818610358e-06,
      "loss": 3.3601,
      "step": 458560
    },
    {
      "epoch": 0.9553541666666666,
      "grad_norm": 0.9202395677566528,
      "learning_rate": 1.4853592106506107e-06,
      "loss": 3.2519,
      "step": 458570
    },
    {
      "epoch": 0.955375,
      "grad_norm": 0.9454219341278076,
      "learning_rate": 1.4839755809646359e-06,
      "loss": 3.3661,
      "step": 458580
    },
    {
      "epoch": 0.9553958333333333,
      "grad_norm": 0.9148344397544861,
      "learning_rate": 1.4825925928091064e-06,
      "loss": 3.2286,
      "step": 458590
    },
    {
      "epoch": 0.9554166666666667,
      "grad_norm": 0.9335522651672363,
      "learning_rate": 1.4812102461899844e-06,
      "loss": 3.3491,
      "step": 458600
    },
    {
      "epoch": 0.9554375,
      "grad_norm": 1.0377436876296997,
      "learning_rate": 1.4798285411132482e-06,
      "loss": 3.1347,
      "step": 458610
    },
    {
      "epoch": 0.9554583333333333,
      "grad_norm": 1.0593808889389038,
      "learning_rate": 1.4784474775848765e-06,
      "loss": 3.289,
      "step": 458620
    },
    {
      "epoch": 0.9554791666666667,
      "grad_norm": 0.922666072845459,
      "learning_rate": 1.4770670556108143e-06,
      "loss": 3.2924,
      "step": 458630
    },
    {
      "epoch": 0.9555,
      "grad_norm": 0.9648028612136841,
      "learning_rate": 1.475687275197024e-06,
      "loss": 3.4513,
      "step": 458640
    },
    {
      "epoch": 0.9555208333333334,
      "grad_norm": 0.9399260878562927,
      "learning_rate": 1.4743081363494836e-06,
      "loss": 3.3708,
      "step": 458650
    },
    {
      "epoch": 0.9555416666666666,
      "grad_norm": 1.1430373191833496,
      "learning_rate": 1.4729296390741384e-06,
      "loss": 3.3094,
      "step": 458660
    },
    {
      "epoch": 0.9555625,
      "grad_norm": 0.9185645580291748,
      "learning_rate": 1.4715517833769508e-06,
      "loss": 3.3673,
      "step": 458670
    },
    {
      "epoch": 0.9555833333333333,
      "grad_norm": 0.9272171258926392,
      "learning_rate": 1.4701745692638822e-06,
      "loss": 3.3009,
      "step": 458680
    },
    {
      "epoch": 0.9556041666666667,
      "grad_norm": 0.9156113862991333,
      "learning_rate": 1.468797996740828e-06,
      "loss": 3.2807,
      "step": 458690
    },
    {
      "epoch": 0.955625,
      "grad_norm": 1.0040357112884521,
      "learning_rate": 1.4674220658138003e-06,
      "loss": 3.3078,
      "step": 458700
    },
    {
      "epoch": 0.9556458333333333,
      "grad_norm": 0.9308874607086182,
      "learning_rate": 1.4660467764887273e-06,
      "loss": 3.2452,
      "step": 458710
    },
    {
      "epoch": 0.9556666666666667,
      "grad_norm": 0.8661230802536011,
      "learning_rate": 1.4646721287715045e-06,
      "loss": 3.3074,
      "step": 458720
    },
    {
      "epoch": 0.9556875,
      "grad_norm": 0.9853953719139099,
      "learning_rate": 1.4632981226681273e-06,
      "loss": 3.3467,
      "step": 458730
    },
    {
      "epoch": 0.9557083333333334,
      "grad_norm": 0.9192611575126648,
      "learning_rate": 1.4619247581845072e-06,
      "loss": 3.2665,
      "step": 458740
    },
    {
      "epoch": 0.9557291666666666,
      "grad_norm": 0.8145879507064819,
      "learning_rate": 1.4605520353265564e-06,
      "loss": 3.3054,
      "step": 458750
    },
    {
      "epoch": 0.95575,
      "grad_norm": 0.8226076364517212,
      "learning_rate": 1.4591799541002536e-06,
      "loss": 3.3638,
      "step": 458760
    },
    {
      "epoch": 0.9557708333333333,
      "grad_norm": 0.8754181861877441,
      "learning_rate": 1.457808514511477e-06,
      "loss": 3.277,
      "step": 458770
    },
    {
      "epoch": 0.9557916666666667,
      "grad_norm": 0.9537190198898315,
      "learning_rate": 1.4564377165661722e-06,
      "loss": 3.2212,
      "step": 458780
    },
    {
      "epoch": 0.9558125,
      "grad_norm": 0.8795899748802185,
      "learning_rate": 1.4550675602702678e-06,
      "loss": 3.2229,
      "step": 458790
    },
    {
      "epoch": 0.9558333333333333,
      "grad_norm": 0.950316846370697,
      "learning_rate": 1.4536980456296753e-06,
      "loss": 3.3643,
      "step": 458800
    },
    {
      "epoch": 0.9558541666666667,
      "grad_norm": 0.8973903656005859,
      "learning_rate": 1.4523291726502905e-06,
      "loss": 3.3088,
      "step": 458810
    },
    {
      "epoch": 0.955875,
      "grad_norm": 0.8632458448410034,
      "learning_rate": 1.4509609413380752e-06,
      "loss": 3.2781,
      "step": 458820
    },
    {
      "epoch": 0.9558958333333333,
      "grad_norm": 0.9188470840454102,
      "learning_rate": 1.4495933516988744e-06,
      "loss": 3.2778,
      "step": 458830
    },
    {
      "epoch": 0.9559166666666666,
      "grad_norm": 0.9597113132476807,
      "learning_rate": 1.4482264037386503e-06,
      "loss": 3.4277,
      "step": 458840
    },
    {
      "epoch": 0.9559375,
      "grad_norm": 0.9575719237327576,
      "learning_rate": 1.4468600974632816e-06,
      "loss": 3.2958,
      "step": 458850
    },
    {
      "epoch": 0.9559583333333334,
      "grad_norm": 0.9876102805137634,
      "learning_rate": 1.4454944328786799e-06,
      "loss": 3.2578,
      "step": 458860
    },
    {
      "epoch": 0.9559791666666667,
      "grad_norm": 0.888323962688446,
      "learning_rate": 1.4441294099907407e-06,
      "loss": 3.2523,
      "step": 458870
    },
    {
      "epoch": 0.956,
      "grad_norm": 0.9493361115455627,
      "learning_rate": 1.4427650288053428e-06,
      "loss": 3.3729,
      "step": 458880
    },
    {
      "epoch": 0.9560208333333333,
      "grad_norm": 0.9213584065437317,
      "learning_rate": 1.4414012893284144e-06,
      "loss": 3.314,
      "step": 458890
    },
    {
      "epoch": 0.9560416666666667,
      "grad_norm": 0.9131134152412415,
      "learning_rate": 1.4400381915658342e-06,
      "loss": 3.3772,
      "step": 458900
    },
    {
      "epoch": 0.9560625,
      "grad_norm": 0.9884575605392456,
      "learning_rate": 1.4386757355234645e-06,
      "loss": 3.5053,
      "step": 458910
    },
    {
      "epoch": 0.9560833333333333,
      "grad_norm": 0.9267931580543518,
      "learning_rate": 1.437313921207217e-06,
      "loss": 3.4169,
      "step": 458920
    },
    {
      "epoch": 0.9561041666666666,
      "grad_norm": 1.1626403331756592,
      "learning_rate": 1.4359527486229872e-06,
      "loss": 3.4228,
      "step": 458930
    },
    {
      "epoch": 0.956125,
      "grad_norm": 0.8889327049255371,
      "learning_rate": 1.43459221777662e-06,
      "loss": 3.3391,
      "step": 458940
    },
    {
      "epoch": 0.9561458333333334,
      "grad_norm": 1.080657958984375,
      "learning_rate": 1.433232328674011e-06,
      "loss": 3.3906,
      "step": 458950
    },
    {
      "epoch": 0.9561666666666667,
      "grad_norm": 0.9614205956459045,
      "learning_rate": 1.431873081321039e-06,
      "loss": 3.3427,
      "step": 458960
    },
    {
      "epoch": 0.9561875,
      "grad_norm": 0.8931323885917664,
      "learning_rate": 1.4305144757235487e-06,
      "loss": 3.3355,
      "step": 458970
    },
    {
      "epoch": 0.9562083333333333,
      "grad_norm": 0.881095826625824,
      "learning_rate": 1.429156511887436e-06,
      "loss": 3.2179,
      "step": 458980
    },
    {
      "epoch": 0.9562291666666667,
      "grad_norm": 0.8913455009460449,
      "learning_rate": 1.4277991898185625e-06,
      "loss": 3.2553,
      "step": 458990
    },
    {
      "epoch": 0.95625,
      "grad_norm": 0.8742523789405823,
      "learning_rate": 1.4264425095227739e-06,
      "loss": 3.3067,
      "step": 459000
    },
    {
      "epoch": 0.95625,
      "eval_loss": 4.02129602432251,
      "eval_runtime": 9.3606,
      "eval_samples_per_second": 1.068,
      "eval_steps_per_second": 0.32,
      "step": 459000
    },
    {
      "epoch": 0.9562708333333333,
      "grad_norm": 0.9298561215400696,
      "learning_rate": 1.425086471005965e-06,
      "loss": 3.3695,
      "step": 459010
    },
    {
      "epoch": 0.9562916666666667,
      "grad_norm": 0.8534536957740784,
      "learning_rate": 1.4237310742739648e-06,
      "loss": 3.3467,
      "step": 459020
    },
    {
      "epoch": 0.9563125,
      "grad_norm": 0.9261159896850586,
      "learning_rate": 1.4223763193326354e-06,
      "loss": 3.3605,
      "step": 459030
    },
    {
      "epoch": 0.9563333333333334,
      "grad_norm": 0.899558424949646,
      "learning_rate": 1.4210222061878218e-06,
      "loss": 3.2513,
      "step": 459040
    },
    {
      "epoch": 0.9563541666666666,
      "grad_norm": 0.8699986338615417,
      "learning_rate": 1.4196687348454029e-06,
      "loss": 3.2911,
      "step": 459050
    },
    {
      "epoch": 0.956375,
      "grad_norm": 1.0130637884140015,
      "learning_rate": 1.4183159053111737e-06,
      "loss": 3.3087,
      "step": 459060
    },
    {
      "epoch": 0.9563958333333333,
      "grad_norm": 1.422249436378479,
      "learning_rate": 1.4169637175910299e-06,
      "loss": 3.1714,
      "step": 459070
    },
    {
      "epoch": 0.9564166666666667,
      "grad_norm": 0.8244258165359497,
      "learning_rate": 1.4156121716907832e-06,
      "loss": 3.3641,
      "step": 459080
    },
    {
      "epoch": 0.9564375,
      "grad_norm": 0.9756174683570862,
      "learning_rate": 1.4142612676162624e-06,
      "loss": 3.3687,
      "step": 459090
    },
    {
      "epoch": 0.9564583333333333,
      "grad_norm": 0.8509774804115295,
      "learning_rate": 1.4129110053733461e-06,
      "loss": 3.4006,
      "step": 459100
    },
    {
      "epoch": 0.9564791666666667,
      "grad_norm": 0.8913459777832031,
      "learning_rate": 1.4115613849678299e-06,
      "loss": 3.2495,
      "step": 459110
    },
    {
      "epoch": 0.9565,
      "grad_norm": 0.9086337089538574,
      "learning_rate": 1.4102124064055252e-06,
      "loss": 3.3903,
      "step": 459120
    },
    {
      "epoch": 0.9565208333333334,
      "grad_norm": 0.9500522017478943,
      "learning_rate": 1.408864069692328e-06,
      "loss": 3.354,
      "step": 459130
    },
    {
      "epoch": 0.9565416666666666,
      "grad_norm": 0.9172073006629944,
      "learning_rate": 1.407516374834e-06,
      "loss": 3.274,
      "step": 459140
    },
    {
      "epoch": 0.9565625,
      "grad_norm": 0.9221025705337524,
      "learning_rate": 1.4061693218363868e-06,
      "loss": 3.3159,
      "step": 459150
    },
    {
      "epoch": 0.9565833333333333,
      "grad_norm": 0.8282370567321777,
      "learning_rate": 1.4048229107053e-06,
      "loss": 3.3244,
      "step": 459160
    },
    {
      "epoch": 0.9566041666666667,
      "grad_norm": 0.9065199494361877,
      "learning_rate": 1.4034771414465684e-06,
      "loss": 3.3923,
      "step": 459170
    },
    {
      "epoch": 0.956625,
      "grad_norm": 0.9329275488853455,
      "learning_rate": 1.4021320140659874e-06,
      "loss": 3.3438,
      "step": 459180
    },
    {
      "epoch": 0.9566458333333333,
      "grad_norm": 0.8891786932945251,
      "learning_rate": 1.4007875285694025e-06,
      "loss": 3.3298,
      "step": 459190
    },
    {
      "epoch": 0.9566666666666667,
      "grad_norm": 0.8677308559417725,
      "learning_rate": 1.3994436849625756e-06,
      "loss": 3.3555,
      "step": 459200
    },
    {
      "epoch": 0.9566875,
      "grad_norm": 0.9018007516860962,
      "learning_rate": 1.3981004832513187e-06,
      "loss": 3.4162,
      "step": 459210
    },
    {
      "epoch": 0.9567083333333334,
      "grad_norm": 0.9356041550636292,
      "learning_rate": 1.3967579234414772e-06,
      "loss": 3.2915,
      "step": 459220
    },
    {
      "epoch": 0.9567291666666666,
      "grad_norm": 0.8568105697631836,
      "learning_rate": 1.3954160055387963e-06,
      "loss": 3.3205,
      "step": 459230
    },
    {
      "epoch": 0.95675,
      "grad_norm": 0.9526050686836243,
      "learning_rate": 1.394074729549105e-06,
      "loss": 3.2434,
      "step": 459240
    },
    {
      "epoch": 0.9567708333333333,
      "grad_norm": 0.8864326477050781,
      "learning_rate": 1.3927340954781985e-06,
      "loss": 3.3529,
      "step": 459250
    },
    {
      "epoch": 0.9567916666666667,
      "grad_norm": 1.0733219385147095,
      "learning_rate": 1.3913941033318387e-06,
      "loss": 3.3249,
      "step": 459260
    },
    {
      "epoch": 0.9568125,
      "grad_norm": 0.9477506875991821,
      "learning_rate": 1.390054753115838e-06,
      "loss": 3.3087,
      "step": 459270
    },
    {
      "epoch": 0.9568333333333333,
      "grad_norm": 0.9335386157035828,
      "learning_rate": 1.3887160448359913e-06,
      "loss": 3.2782,
      "step": 459280
    },
    {
      "epoch": 0.9568541666666667,
      "grad_norm": 0.9624451398849487,
      "learning_rate": 1.3873779784980444e-06,
      "loss": 3.3102,
      "step": 459290
    },
    {
      "epoch": 0.956875,
      "grad_norm": 1.004201889038086,
      "learning_rate": 1.3860405541078257e-06,
      "loss": 3.2514,
      "step": 459300
    },
    {
      "epoch": 0.9568958333333333,
      "grad_norm": 1.0089749097824097,
      "learning_rate": 1.384703771671064e-06,
      "loss": 3.3202,
      "step": 459310
    },
    {
      "epoch": 0.9569166666666666,
      "grad_norm": 0.8630812764167786,
      "learning_rate": 1.3833676311935716e-06,
      "loss": 3.4435,
      "step": 459320
    },
    {
      "epoch": 0.9569375,
      "grad_norm": 0.9503399729728699,
      "learning_rate": 1.3820321326810934e-06,
      "loss": 3.2803,
      "step": 459330
    },
    {
      "epoch": 0.9569583333333334,
      "grad_norm": 0.9577149748802185,
      "learning_rate": 1.3806972761394085e-06,
      "loss": 3.355,
      "step": 459340
    },
    {
      "epoch": 0.9569791666666667,
      "grad_norm": 0.8883160948753357,
      "learning_rate": 1.3793630615742956e-06,
      "loss": 3.2749,
      "step": 459350
    },
    {
      "epoch": 0.957,
      "grad_norm": 0.9692848920822144,
      "learning_rate": 1.3780294889915e-06,
      "loss": 3.4224,
      "step": 459360
    },
    {
      "epoch": 0.9570208333333333,
      "grad_norm": 0.9027374982833862,
      "learning_rate": 1.3766965583967838e-06,
      "loss": 3.2404,
      "step": 459370
    },
    {
      "epoch": 0.9570416666666667,
      "grad_norm": 1.0035709142684937,
      "learning_rate": 1.3753642697959089e-06,
      "loss": 3.3229,
      "step": 459380
    },
    {
      "epoch": 0.9570625,
      "grad_norm": 0.9267374277114868,
      "learning_rate": 1.374032623194654e-06,
      "loss": 3.3385,
      "step": 459390
    },
    {
      "epoch": 0.9570833333333333,
      "grad_norm": 0.8785528540611267,
      "learning_rate": 1.372701618598715e-06,
      "loss": 3.2109,
      "step": 459400
    },
    {
      "epoch": 0.9571041666666666,
      "grad_norm": 0.9500027894973755,
      "learning_rate": 1.3713712560138867e-06,
      "loss": 3.2014,
      "step": 459410
    },
    {
      "epoch": 0.957125,
      "grad_norm": 1.1910691261291504,
      "learning_rate": 1.3700415354459148e-06,
      "loss": 3.2899,
      "step": 459420
    },
    {
      "epoch": 0.9571458333333334,
      "grad_norm": 1.0602036714553833,
      "learning_rate": 1.3687124569005114e-06,
      "loss": 3.3116,
      "step": 459430
    },
    {
      "epoch": 0.9571666666666667,
      "grad_norm": 0.8655288815498352,
      "learning_rate": 1.3673840203834386e-06,
      "loss": 3.4299,
      "step": 459440
    },
    {
      "epoch": 0.9571875,
      "grad_norm": 0.8791248202323914,
      "learning_rate": 1.3660562259004581e-06,
      "loss": 3.4041,
      "step": 459450
    },
    {
      "epoch": 0.9572083333333333,
      "grad_norm": 0.8768224716186523,
      "learning_rate": 1.3647290734572658e-06,
      "loss": 3.38,
      "step": 459460
    },
    {
      "epoch": 0.9572291666666667,
      "grad_norm": 0.8857108950614929,
      "learning_rate": 1.3634025630596068e-06,
      "loss": 3.336,
      "step": 459470
    },
    {
      "epoch": 0.95725,
      "grad_norm": 0.9695208668708801,
      "learning_rate": 1.3620766947132267e-06,
      "loss": 3.4651,
      "step": 459480
    },
    {
      "epoch": 0.9572708333333333,
      "grad_norm": 0.9712707996368408,
      "learning_rate": 1.3607514684238209e-06,
      "loss": 3.3484,
      "step": 459490
    },
    {
      "epoch": 0.9572916666666667,
      "grad_norm": 0.9193393588066101,
      "learning_rate": 1.3594268841971511e-06,
      "loss": 3.4298,
      "step": 459500
    },
    {
      "epoch": 0.9573125,
      "grad_norm": 0.8470404744148254,
      "learning_rate": 1.3581029420389134e-06,
      "loss": 3.3403,
      "step": 459510
    },
    {
      "epoch": 0.9573333333333334,
      "grad_norm": 0.8987856507301331,
      "learning_rate": 1.3567796419548194e-06,
      "loss": 3.3249,
      "step": 459520
    },
    {
      "epoch": 0.9573541666666666,
      "grad_norm": 0.9415115714073181,
      "learning_rate": 1.3554569839506313e-06,
      "loss": 3.2341,
      "step": 459530
    },
    {
      "epoch": 0.957375,
      "grad_norm": 0.8934333324432373,
      "learning_rate": 1.3541349680320114e-06,
      "loss": 3.3,
      "step": 459540
    },
    {
      "epoch": 0.9573958333333333,
      "grad_norm": 0.9605891704559326,
      "learning_rate": 1.3528135942047047e-06,
      "loss": 3.4932,
      "step": 459550
    },
    {
      "epoch": 0.9574166666666667,
      "grad_norm": 1.3383816480636597,
      "learning_rate": 1.3514928624743904e-06,
      "loss": 3.2607,
      "step": 459560
    },
    {
      "epoch": 0.9574375,
      "grad_norm": 0.9274013638496399,
      "learning_rate": 1.350172772846797e-06,
      "loss": 3.2218,
      "step": 459570
    },
    {
      "epoch": 0.9574583333333333,
      "grad_norm": 1.0383615493774414,
      "learning_rate": 1.3488533253276034e-06,
      "loss": 3.2679,
      "step": 459580
    },
    {
      "epoch": 0.9574791666666667,
      "grad_norm": 1.0062624216079712,
      "learning_rate": 1.3475345199225385e-06,
      "loss": 3.2663,
      "step": 459590
    },
    {
      "epoch": 0.9575,
      "grad_norm": 0.9779685139656067,
      "learning_rate": 1.3462163566372809e-06,
      "loss": 3.3095,
      "step": 459600
    },
    {
      "epoch": 0.9575208333333334,
      "grad_norm": 0.9304724931716919,
      "learning_rate": 1.3448988354775093e-06,
      "loss": 3.4384,
      "step": 459610
    },
    {
      "epoch": 0.9575416666666666,
      "grad_norm": 1.035190224647522,
      "learning_rate": 1.3435819564489526e-06,
      "loss": 3.3251,
      "step": 459620
    },
    {
      "epoch": 0.9575625,
      "grad_norm": 0.918045699596405,
      "learning_rate": 1.3422657195572728e-06,
      "loss": 3.3195,
      "step": 459630
    },
    {
      "epoch": 0.9575833333333333,
      "grad_norm": 0.9078558683395386,
      "learning_rate": 1.3409501248081656e-06,
      "loss": 3.3135,
      "step": 459640
    },
    {
      "epoch": 0.9576041666666667,
      "grad_norm": 0.875054657459259,
      "learning_rate": 1.3396351722073096e-06,
      "loss": 3.2899,
      "step": 459650
    },
    {
      "epoch": 0.957625,
      "grad_norm": 0.9182009696960449,
      "learning_rate": 1.3383208617603835e-06,
      "loss": 3.2462,
      "step": 459660
    },
    {
      "epoch": 0.9576458333333333,
      "grad_norm": 0.8650980591773987,
      "learning_rate": 1.3370071934730664e-06,
      "loss": 3.2775,
      "step": 459670
    },
    {
      "epoch": 0.9576666666666667,
      "grad_norm": 1.0205540657043457,
      "learning_rate": 1.3356941673510368e-06,
      "loss": 3.3457,
      "step": 459680
    },
    {
      "epoch": 0.9576875,
      "grad_norm": 0.8079625368118286,
      "learning_rate": 1.3343817833999738e-06,
      "loss": 3.3511,
      "step": 459690
    },
    {
      "epoch": 0.9577083333333334,
      "grad_norm": 0.9294061660766602,
      "learning_rate": 1.3330700416255225e-06,
      "loss": 3.2686,
      "step": 459700
    },
    {
      "epoch": 0.9577291666666666,
      "grad_norm": 0.8534075617790222,
      "learning_rate": 1.331758942033362e-06,
      "loss": 3.2478,
      "step": 459710
    },
    {
      "epoch": 0.95775,
      "grad_norm": 0.924227237701416,
      "learning_rate": 1.3304484846291542e-06,
      "loss": 3.3341,
      "step": 459720
    },
    {
      "epoch": 0.9577708333333333,
      "grad_norm": 1.0156631469726562,
      "learning_rate": 1.329138669418578e-06,
      "loss": 3.1915,
      "step": 459730
    },
    {
      "epoch": 0.9577916666666667,
      "grad_norm": 0.8877089023590088,
      "learning_rate": 1.3278294964072455e-06,
      "loss": 3.4018,
      "step": 459740
    },
    {
      "epoch": 0.9578125,
      "grad_norm": 0.9852501153945923,
      "learning_rate": 1.3265209656008524e-06,
      "loss": 3.3382,
      "step": 459750
    },
    {
      "epoch": 0.9578333333333333,
      "grad_norm": 1.1115834712982178,
      "learning_rate": 1.3252130770050605e-06,
      "loss": 3.2499,
      "step": 459760
    },
    {
      "epoch": 0.9578541666666667,
      "grad_norm": 0.8742034435272217,
      "learning_rate": 1.3239058306254658e-06,
      "loss": 3.5805,
      "step": 459770
    },
    {
      "epoch": 0.957875,
      "grad_norm": 1.1511061191558838,
      "learning_rate": 1.3225992264677631e-06,
      "loss": 3.3461,
      "step": 459780
    },
    {
      "epoch": 0.9578958333333333,
      "grad_norm": 0.9320107102394104,
      "learning_rate": 1.3212932645375983e-06,
      "loss": 3.3977,
      "step": 459790
    },
    {
      "epoch": 0.9579166666666666,
      "grad_norm": 0.9415100812911987,
      "learning_rate": 1.319987944840567e-06,
      "loss": 3.3028,
      "step": 459800
    },
    {
      "epoch": 0.9579375,
      "grad_norm": 1.0012413263320923,
      "learning_rate": 1.3186832673823476e-06,
      "loss": 3.5117,
      "step": 459810
    },
    {
      "epoch": 0.9579583333333334,
      "grad_norm": 0.9179014563560486,
      "learning_rate": 1.3173792321685862e-06,
      "loss": 3.3194,
      "step": 459820
    },
    {
      "epoch": 0.9579791666666667,
      "grad_norm": 0.8930142521858215,
      "learning_rate": 1.316075839204861e-06,
      "loss": 3.1664,
      "step": 459830
    },
    {
      "epoch": 0.958,
      "grad_norm": 0.9460235834121704,
      "learning_rate": 1.314773088496851e-06,
      "loss": 3.4158,
      "step": 459840
    },
    {
      "epoch": 0.9580208333333333,
      "grad_norm": 0.9293657541275024,
      "learning_rate": 1.3134709800501687e-06,
      "loss": 3.3332,
      "step": 459850
    },
    {
      "epoch": 0.9580416666666667,
      "grad_norm": 0.8725345730781555,
      "learning_rate": 1.3121695138704258e-06,
      "loss": 3.3306,
      "step": 459860
    },
    {
      "epoch": 0.9580625,
      "grad_norm": 0.9572423100471497,
      "learning_rate": 1.3108686899632681e-06,
      "loss": 3.2969,
      "step": 459870
    },
    {
      "epoch": 0.9580833333333333,
      "grad_norm": 0.9657542109489441,
      "learning_rate": 1.3095685083342911e-06,
      "loss": 3.4165,
      "step": 459880
    },
    {
      "epoch": 0.9581041666666666,
      "grad_norm": 0.942079484462738,
      "learning_rate": 1.3082689689891235e-06,
      "loss": 3.3588,
      "step": 459890
    },
    {
      "epoch": 0.958125,
      "grad_norm": 0.8662440180778503,
      "learning_rate": 1.3069700719333942e-06,
      "loss": 3.4198,
      "step": 459900
    },
    {
      "epoch": 0.9581458333333334,
      "grad_norm": 0.9136759638786316,
      "learning_rate": 1.305671817172682e-06,
      "loss": 3.3292,
      "step": 459910
    },
    {
      "epoch": 0.9581666666666667,
      "grad_norm": 0.9738380312919617,
      "learning_rate": 1.304374204712616e-06,
      "loss": 3.2484,
      "step": 459920
    },
    {
      "epoch": 0.9581875,
      "grad_norm": 0.9502028822898865,
      "learning_rate": 1.3030772345587915e-06,
      "loss": 3.3168,
      "step": 459930
    },
    {
      "epoch": 0.9582083333333333,
      "grad_norm": 0.9428917765617371,
      "learning_rate": 1.3017809067168206e-06,
      "loss": 3.4378,
      "step": 459940
    },
    {
      "epoch": 0.9582291666666667,
      "grad_norm": 0.9573333263397217,
      "learning_rate": 1.3004852211922824e-06,
      "loss": 3.3119,
      "step": 459950
    },
    {
      "epoch": 0.95825,
      "grad_norm": 0.9219385981559753,
      "learning_rate": 1.2991901779908054e-06,
      "loss": 3.2182,
      "step": 459960
    },
    {
      "epoch": 0.9582708333333333,
      "grad_norm": 0.8835820555686951,
      "learning_rate": 1.297895777117952e-06,
      "loss": 3.2695,
      "step": 459970
    },
    {
      "epoch": 0.9582916666666667,
      "grad_norm": 0.941627025604248,
      "learning_rate": 1.2966020185793514e-06,
      "loss": 3.2976,
      "step": 459980
    },
    {
      "epoch": 0.9583125,
      "grad_norm": 0.9795589447021484,
      "learning_rate": 1.2953089023805486e-06,
      "loss": 3.2915,
      "step": 459990
    },
    {
      "epoch": 0.9583333333333334,
      "grad_norm": 0.9111394286155701,
      "learning_rate": 1.294016428527156e-06,
      "loss": 3.3333,
      "step": 460000
    },
    {
      "epoch": 0.9583333333333334,
      "eval_loss": 4.021936416625977,
      "eval_runtime": 9.1877,
      "eval_samples_per_second": 1.088,
      "eval_steps_per_second": 0.327,
      "step": 460000
    },
    {
      "epoch": 0.9583541666666666,
      "grad_norm": 0.9026118516921997,
      "learning_rate": 1.2927245970247523e-06,
      "loss": 3.3281,
      "step": 460010
    },
    {
      "epoch": 0.958375,
      "grad_norm": 0.9254990220069885,
      "learning_rate": 1.2914334078789167e-06,
      "loss": 3.344,
      "step": 460020
    },
    {
      "epoch": 0.9583958333333333,
      "grad_norm": 1.0712511539459229,
      "learning_rate": 1.290142861095228e-06,
      "loss": 3.3474,
      "step": 460030
    },
    {
      "epoch": 0.9584166666666667,
      "grad_norm": 0.8916402459144592,
      "learning_rate": 1.2888529566792483e-06,
      "loss": 3.3699,
      "step": 460040
    },
    {
      "epoch": 0.9584375,
      "grad_norm": 0.9147437810897827,
      "learning_rate": 1.287563694636573e-06,
      "loss": 3.3126,
      "step": 460050
    },
    {
      "epoch": 0.9584583333333333,
      "grad_norm": 1.0610935688018799,
      "learning_rate": 1.286275074972748e-06,
      "loss": 3.2829,
      "step": 460060
    },
    {
      "epoch": 0.9584791666666667,
      "grad_norm": 0.9001078605651855,
      "learning_rate": 1.2849870976933518e-06,
      "loss": 3.3697,
      "step": 460070
    },
    {
      "epoch": 0.9585,
      "grad_norm": 0.941200852394104,
      "learning_rate": 1.283699762803947e-06,
      "loss": 3.2975,
      "step": 460080
    },
    {
      "epoch": 0.9585208333333334,
      "grad_norm": 0.8444443941116333,
      "learning_rate": 1.2824130703100953e-06,
      "loss": 3.2592,
      "step": 460090
    },
    {
      "epoch": 0.9585416666666666,
      "grad_norm": 0.8975823521614075,
      "learning_rate": 1.2811270202173595e-06,
      "loss": 3.3386,
      "step": 460100
    },
    {
      "epoch": 0.9585625,
      "grad_norm": 1.0814155340194702,
      "learning_rate": 1.2798416125312684e-06,
      "loss": 3.3681,
      "step": 460110
    },
    {
      "epoch": 0.9585833333333333,
      "grad_norm": 0.8925673365592957,
      "learning_rate": 1.2785568472574004e-06,
      "loss": 3.2265,
      "step": 460120
    },
    {
      "epoch": 0.9586041666666667,
      "grad_norm": 0.9375088214874268,
      "learning_rate": 1.277272724401318e-06,
      "loss": 3.2132,
      "step": 460130
    },
    {
      "epoch": 0.958625,
      "grad_norm": 0.9500837922096252,
      "learning_rate": 1.2759892439685337e-06,
      "loss": 3.2597,
      "step": 460140
    },
    {
      "epoch": 0.9586458333333333,
      "grad_norm": 0.9319175481796265,
      "learning_rate": 1.2747064059645927e-06,
      "loss": 3.2792,
      "step": 460150
    },
    {
      "epoch": 0.9586666666666667,
      "grad_norm": 1.0212041139602661,
      "learning_rate": 1.2734242103950743e-06,
      "loss": 3.2867,
      "step": 460160
    },
    {
      "epoch": 0.9586875,
      "grad_norm": 0.9330700039863586,
      "learning_rate": 1.2721426572654903e-06,
      "loss": 3.3009,
      "step": 460170
    },
    {
      "epoch": 0.9587083333333334,
      "grad_norm": 1.0277799367904663,
      "learning_rate": 1.2708617465813697e-06,
      "loss": 3.3311,
      "step": 460180
    },
    {
      "epoch": 0.9587291666666666,
      "grad_norm": 0.9255451560020447,
      "learning_rate": 1.2695814783482583e-06,
      "loss": 3.3307,
      "step": 460190
    },
    {
      "epoch": 0.95875,
      "grad_norm": 1.0177394151687622,
      "learning_rate": 1.268301852571685e-06,
      "loss": 3.2604,
      "step": 460200
    },
    {
      "epoch": 0.9587708333333333,
      "grad_norm": 0.921811044216156,
      "learning_rate": 1.2670228692571615e-06,
      "loss": 3.5534,
      "step": 460210
    },
    {
      "epoch": 0.9587916666666667,
      "grad_norm": 0.9366086721420288,
      "learning_rate": 1.2657445284102508e-06,
      "loss": 3.2728,
      "step": 460220
    },
    {
      "epoch": 0.9588125,
      "grad_norm": 0.8575646281242371,
      "learning_rate": 1.264466830036448e-06,
      "loss": 3.3642,
      "step": 460230
    },
    {
      "epoch": 0.9588333333333333,
      "grad_norm": 0.9467254281044006,
      "learning_rate": 1.2631897741412656e-06,
      "loss": 3.3878,
      "step": 460240
    },
    {
      "epoch": 0.9588541666666667,
      "grad_norm": 0.9476954340934753,
      "learning_rate": 1.2619133607302156e-06,
      "loss": 3.4114,
      "step": 460250
    },
    {
      "epoch": 0.958875,
      "grad_norm": 1.0372514724731445,
      "learning_rate": 1.260637589808844e-06,
      "loss": 3.4187,
      "step": 460260
    },
    {
      "epoch": 0.9588958333333333,
      "grad_norm": 0.9170239567756653,
      "learning_rate": 1.259362461382646e-06,
      "loss": 3.3116,
      "step": 460270
    },
    {
      "epoch": 0.9589166666666666,
      "grad_norm": 0.8874749541282654,
      "learning_rate": 1.2580879754571172e-06,
      "loss": 3.2547,
      "step": 460280
    },
    {
      "epoch": 0.9589375,
      "grad_norm": 0.891279399394989,
      "learning_rate": 1.25681413203777e-06,
      "loss": 3.3042,
      "step": 460290
    },
    {
      "epoch": 0.9589583333333334,
      "grad_norm": 0.9357681274414062,
      "learning_rate": 1.2555409311301168e-06,
      "loss": 3.2696,
      "step": 460300
    },
    {
      "epoch": 0.9589791666666667,
      "grad_norm": 0.930488646030426,
      "learning_rate": 1.2542683727396364e-06,
      "loss": 3.4051,
      "step": 460310
    },
    {
      "epoch": 0.959,
      "grad_norm": 0.9928150177001953,
      "learning_rate": 1.2529964568718575e-06,
      "loss": 3.2993,
      "step": 460320
    },
    {
      "epoch": 0.9590208333333333,
      "grad_norm": 0.8914247155189514,
      "learning_rate": 1.2517251835322429e-06,
      "loss": 3.2491,
      "step": 460330
    },
    {
      "epoch": 0.9590416666666667,
      "grad_norm": 0.87850421667099,
      "learning_rate": 1.2504545527263043e-06,
      "loss": 3.3203,
      "step": 460340
    },
    {
      "epoch": 0.9590625,
      "grad_norm": 0.9628810286521912,
      "learning_rate": 1.249184564459521e-06,
      "loss": 3.3756,
      "step": 460350
    },
    {
      "epoch": 0.9590833333333333,
      "grad_norm": 0.9770120978355408,
      "learning_rate": 1.247915218737372e-06,
      "loss": 3.2978,
      "step": 460360
    },
    {
      "epoch": 0.9591041666666666,
      "grad_norm": 0.8208970427513123,
      "learning_rate": 1.2466465155653527e-06,
      "loss": 3.2917,
      "step": 460370
    },
    {
      "epoch": 0.959125,
      "grad_norm": 0.9340201616287231,
      "learning_rate": 1.245378454948942e-06,
      "loss": 3.2747,
      "step": 460380
    },
    {
      "epoch": 0.9591458333333334,
      "grad_norm": 0.8881013989448547,
      "learning_rate": 1.2441110368936192e-06,
      "loss": 3.3806,
      "step": 460390
    },
    {
      "epoch": 0.9591666666666666,
      "grad_norm": 0.9126681089401245,
      "learning_rate": 1.2428442614048628e-06,
      "loss": 3.3809,
      "step": 460400
    },
    {
      "epoch": 0.9591875,
      "grad_norm": 0.8854956030845642,
      "learning_rate": 1.2415781284881188e-06,
      "loss": 3.2045,
      "step": 460410
    },
    {
      "epoch": 0.9592083333333333,
      "grad_norm": 0.9958391785621643,
      "learning_rate": 1.2403126381488827e-06,
      "loss": 3.223,
      "step": 460420
    },
    {
      "epoch": 0.9592291666666667,
      "grad_norm": 0.9734699726104736,
      "learning_rate": 1.2390477903926166e-06,
      "loss": 3.3673,
      "step": 460430
    },
    {
      "epoch": 0.95925,
      "grad_norm": 1.0865135192871094,
      "learning_rate": 1.2377835852247664e-06,
      "loss": 3.2568,
      "step": 460440
    },
    {
      "epoch": 0.9592708333333333,
      "grad_norm": 0.9313533902168274,
      "learning_rate": 1.2365200226508276e-06,
      "loss": 3.2477,
      "step": 460450
    },
    {
      "epoch": 0.9592916666666667,
      "grad_norm": 1.1375588178634644,
      "learning_rate": 1.2352571026762293e-06,
      "loss": 3.3782,
      "step": 460460
    },
    {
      "epoch": 0.9593125,
      "grad_norm": 0.9544184803962708,
      "learning_rate": 1.2339948253064336e-06,
      "loss": 3.3294,
      "step": 460470
    },
    {
      "epoch": 0.9593333333333334,
      "grad_norm": 1.0248552560806274,
      "learning_rate": 1.2327331905468862e-06,
      "loss": 3.2141,
      "step": 460480
    },
    {
      "epoch": 0.9593541666666666,
      "grad_norm": 0.8985863327980042,
      "learning_rate": 1.2314721984030495e-06,
      "loss": 3.2097,
      "step": 460490
    },
    {
      "epoch": 0.959375,
      "grad_norm": 0.8665826916694641,
      "learning_rate": 1.2302118488803858e-06,
      "loss": 3.3754,
      "step": 460500
    },
    {
      "epoch": 0.9593958333333333,
      "grad_norm": 0.9016546607017517,
      "learning_rate": 1.2289521419842908e-06,
      "loss": 3.3196,
      "step": 460510
    },
    {
      "epoch": 0.9594166666666667,
      "grad_norm": 0.9203802943229675,
      "learning_rate": 1.2276930777202432e-06,
      "loss": 3.1673,
      "step": 460520
    },
    {
      "epoch": 0.9594375,
      "grad_norm": 0.9802239537239075,
      "learning_rate": 1.2264346560936888e-06,
      "loss": 3.3077,
      "step": 460530
    },
    {
      "epoch": 0.9594583333333333,
      "grad_norm": 1.0035202503204346,
      "learning_rate": 1.2251768771100402e-06,
      "loss": 3.3074,
      "step": 460540
    },
    {
      "epoch": 0.9594791666666667,
      "grad_norm": 0.9245500564575195,
      "learning_rate": 1.2239197407747258e-06,
      "loss": 3.3342,
      "step": 460550
    },
    {
      "epoch": 0.9595,
      "grad_norm": 1.069151520729065,
      "learning_rate": 1.2226632470932085e-06,
      "loss": 3.2874,
      "step": 460560
    },
    {
      "epoch": 0.9595208333333334,
      "grad_norm": 0.9064833521842957,
      "learning_rate": 1.2214073960708837e-06,
      "loss": 3.2989,
      "step": 460570
    },
    {
      "epoch": 0.9595416666666666,
      "grad_norm": 0.9654994010925293,
      "learning_rate": 1.2201521877131804e-06,
      "loss": 3.2793,
      "step": 460580
    },
    {
      "epoch": 0.9595625,
      "grad_norm": 0.8801153302192688,
      "learning_rate": 1.2188976220255441e-06,
      "loss": 3.2866,
      "step": 460590
    },
    {
      "epoch": 0.9595833333333333,
      "grad_norm": 0.8698242902755737,
      "learning_rate": 1.2176436990133709e-06,
      "loss": 3.3875,
      "step": 460600
    },
    {
      "epoch": 0.9596041666666667,
      "grad_norm": 0.8456528782844543,
      "learning_rate": 1.2163904186820895e-06,
      "loss": 3.1935,
      "step": 460610
    },
    {
      "epoch": 0.959625,
      "grad_norm": 0.909197211265564,
      "learning_rate": 1.2151377810370956e-06,
      "loss": 3.3523,
      "step": 460620
    },
    {
      "epoch": 0.9596458333333333,
      "grad_norm": 1.081294298171997,
      "learning_rate": 1.213885786083818e-06,
      "loss": 3.2499,
      "step": 460630
    },
    {
      "epoch": 0.9596666666666667,
      "grad_norm": 0.9642881155014038,
      "learning_rate": 1.2126344338276695e-06,
      "loss": 3.3376,
      "step": 460640
    },
    {
      "epoch": 0.9596875,
      "grad_norm": 0.9241136312484741,
      "learning_rate": 1.2113837242740454e-06,
      "loss": 3.299,
      "step": 460650
    },
    {
      "epoch": 0.9597083333333334,
      "grad_norm": 0.8949496150016785,
      "learning_rate": 1.2101336574283415e-06,
      "loss": 3.2725,
      "step": 460660
    },
    {
      "epoch": 0.9597291666666666,
      "grad_norm": 0.9572225213050842,
      "learning_rate": 1.2088842332959703e-06,
      "loss": 3.3649,
      "step": 460670
    },
    {
      "epoch": 0.95975,
      "grad_norm": 0.8949750661849976,
      "learning_rate": 1.2076354518823272e-06,
      "loss": 3.3591,
      "step": 460680
    },
    {
      "epoch": 0.9597708333333334,
      "grad_norm": 0.8827633857727051,
      "learning_rate": 1.2063873131927915e-06,
      "loss": 3.2401,
      "step": 460690
    },
    {
      "epoch": 0.9597916666666667,
      "grad_norm": 0.9273365139961243,
      "learning_rate": 1.2051398172327753e-06,
      "loss": 3.302,
      "step": 460700
    },
    {
      "epoch": 0.9598125,
      "grad_norm": 0.8450013399124146,
      "learning_rate": 1.2038929640076577e-06,
      "loss": 3.3351,
      "step": 460710
    },
    {
      "epoch": 0.9598333333333333,
      "grad_norm": 1.055237054824829,
      "learning_rate": 1.202646753522818e-06,
      "loss": 3.3551,
      "step": 460720
    },
    {
      "epoch": 0.9598541666666667,
      "grad_norm": 0.9069666862487793,
      "learning_rate": 1.2014011857836514e-06,
      "loss": 3.2637,
      "step": 460730
    },
    {
      "epoch": 0.959875,
      "grad_norm": 0.9151198863983154,
      "learning_rate": 1.2001562607955373e-06,
      "loss": 3.299,
      "step": 460740
    },
    {
      "epoch": 0.9598958333333333,
      "grad_norm": 0.9450085163116455,
      "learning_rate": 1.198911978563838e-06,
      "loss": 3.3209,
      "step": 460750
    },
    {
      "epoch": 0.9599166666666666,
      "grad_norm": 0.9687232375144958,
      "learning_rate": 1.197668339093949e-06,
      "loss": 3.3743,
      "step": 460760
    },
    {
      "epoch": 0.9599375,
      "grad_norm": 0.9475865364074707,
      "learning_rate": 1.1964253423912163e-06,
      "loss": 3.2849,
      "step": 460770
    },
    {
      "epoch": 0.9599583333333334,
      "grad_norm": 0.9189336895942688,
      "learning_rate": 1.195182988461052e-06,
      "loss": 3.3698,
      "step": 460780
    },
    {
      "epoch": 0.9599791666666667,
      "grad_norm": 1.0403181314468384,
      "learning_rate": 1.1939412773087853e-06,
      "loss": 3.3447,
      "step": 460790
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.0651333332061768,
      "learning_rate": 1.1927002089397785e-06,
      "loss": 3.3235,
      "step": 460800
    },
    {
      "epoch": 0.9600208333333333,
      "grad_norm": 0.9529725909233093,
      "learning_rate": 1.1914597833594108e-06,
      "loss": 3.3486,
      "step": 460810
    },
    {
      "epoch": 0.9600416666666667,
      "grad_norm": 0.8934628963470459,
      "learning_rate": 1.1902200005730444e-06,
      "loss": 3.3731,
      "step": 460820
    },
    {
      "epoch": 0.9600625,
      "grad_norm": 0.9774497151374817,
      "learning_rate": 1.1889808605860085e-06,
      "loss": 3.2515,
      "step": 460830
    },
    {
      "epoch": 0.9600833333333333,
      "grad_norm": 0.9204201698303223,
      "learning_rate": 1.1877423634036986e-06,
      "loss": 3.3051,
      "step": 460840
    },
    {
      "epoch": 0.9601041666666666,
      "grad_norm": 0.9928102493286133,
      "learning_rate": 1.1865045090314107e-06,
      "loss": 3.2564,
      "step": 460850
    },
    {
      "epoch": 0.960125,
      "grad_norm": 1.0151422023773193,
      "learning_rate": 1.1852672974745237e-06,
      "loss": 3.3051,
      "step": 460860
    },
    {
      "epoch": 0.9601458333333334,
      "grad_norm": 1.1089372634887695,
      "learning_rate": 1.1840307287383833e-06,
      "loss": 3.278,
      "step": 460870
    },
    {
      "epoch": 0.9601666666666666,
      "grad_norm": 0.9431852698326111,
      "learning_rate": 1.1827948028283352e-06,
      "loss": 3.2326,
      "step": 460880
    },
    {
      "epoch": 0.9601875,
      "grad_norm": 0.9490301609039307,
      "learning_rate": 1.1815595197496752e-06,
      "loss": 3.1914,
      "step": 460890
    },
    {
      "epoch": 0.9602083333333333,
      "grad_norm": 1.0344712734222412,
      "learning_rate": 1.1803248795078158e-06,
      "loss": 3.2729,
      "step": 460900
    },
    {
      "epoch": 0.9602291666666667,
      "grad_norm": 0.9539063572883606,
      "learning_rate": 1.1790908821080192e-06,
      "loss": 3.2423,
      "step": 460910
    },
    {
      "epoch": 0.96025,
      "grad_norm": 0.9586525559425354,
      "learning_rate": 1.1778575275556311e-06,
      "loss": 3.3387,
      "step": 460920
    },
    {
      "epoch": 0.9602708333333333,
      "grad_norm": 0.9949162602424622,
      "learning_rate": 1.1766248158560143e-06,
      "loss": 3.2955,
      "step": 460930
    },
    {
      "epoch": 0.9602916666666667,
      "grad_norm": 0.9986964464187622,
      "learning_rate": 1.1753927470144642e-06,
      "loss": 3.2143,
      "step": 460940
    },
    {
      "epoch": 0.9603125,
      "grad_norm": 0.8797488212585449,
      "learning_rate": 1.1741613210362931e-06,
      "loss": 3.3409,
      "step": 460950
    },
    {
      "epoch": 0.9603333333333334,
      "grad_norm": 0.9554272890090942,
      "learning_rate": 1.1729305379268471e-06,
      "loss": 3.2192,
      "step": 460960
    },
    {
      "epoch": 0.9603541666666666,
      "grad_norm": 0.894032895565033,
      "learning_rate": 1.1717003976914385e-06,
      "loss": 3.3523,
      "step": 460970
    },
    {
      "epoch": 0.960375,
      "grad_norm": 0.8592488765716553,
      "learning_rate": 1.170470900335363e-06,
      "loss": 3.1947,
      "step": 460980
    },
    {
      "epoch": 0.9603958333333333,
      "grad_norm": 0.8666186332702637,
      "learning_rate": 1.1692420458639496e-06,
      "loss": 3.2235,
      "step": 460990
    },
    {
      "epoch": 0.9604166666666667,
      "grad_norm": 0.9317591786384583,
      "learning_rate": 1.168013834282494e-06,
      "loss": 3.3305,
      "step": 461000
    },
    {
      "epoch": 0.9604166666666667,
      "eval_loss": 4.021807670593262,
      "eval_runtime": 8.5821,
      "eval_samples_per_second": 1.165,
      "eval_steps_per_second": 0.35,
      "step": 461000
    },
    {
      "epoch": 0.9604375,
      "grad_norm": 0.8407750129699707,
      "learning_rate": 1.166786265596309e-06,
      "loss": 3.2601,
      "step": 461010
    },
    {
      "epoch": 0.9604583333333333,
      "grad_norm": 0.9126346707344055,
      "learning_rate": 1.1655593398107066e-06,
      "loss": 3.2822,
      "step": 461020
    },
    {
      "epoch": 0.9604791666666667,
      "grad_norm": 1.0282080173492432,
      "learning_rate": 1.1643330569309494e-06,
      "loss": 3.3966,
      "step": 461030
    },
    {
      "epoch": 0.9605,
      "grad_norm": 0.9680808782577515,
      "learning_rate": 1.1631074169623833e-06,
      "loss": 3.3383,
      "step": 461040
    },
    {
      "epoch": 0.9605208333333334,
      "grad_norm": 0.9434829950332642,
      "learning_rate": 1.1618824199102706e-06,
      "loss": 3.2463,
      "step": 461050
    },
    {
      "epoch": 0.9605416666666666,
      "grad_norm": 0.9841939806938171,
      "learning_rate": 1.1606580657799068e-06,
      "loss": 3.3215,
      "step": 461060
    },
    {
      "epoch": 0.9605625,
      "grad_norm": 0.9809057116508484,
      "learning_rate": 1.1594343545765882e-06,
      "loss": 3.3272,
      "step": 461070
    },
    {
      "epoch": 0.9605833333333333,
      "grad_norm": 0.8887788653373718,
      "learning_rate": 1.1582112863056104e-06,
      "loss": 3.2924,
      "step": 461080
    },
    {
      "epoch": 0.9606041666666667,
      "grad_norm": 0.9030299186706543,
      "learning_rate": 1.1569888609722356e-06,
      "loss": 3.3518,
      "step": 461090
    },
    {
      "epoch": 0.960625,
      "grad_norm": 0.8797756433486938,
      "learning_rate": 1.1557670785817596e-06,
      "loss": 3.3291,
      "step": 461100
    },
    {
      "epoch": 0.9606458333333333,
      "grad_norm": 0.8786113858222961,
      "learning_rate": 1.1545459391394284e-06,
      "loss": 3.2779,
      "step": 461110
    },
    {
      "epoch": 0.9606666666666667,
      "grad_norm": 0.937195360660553,
      "learning_rate": 1.1533254426505546e-06,
      "loss": 3.328,
      "step": 461120
    },
    {
      "epoch": 0.9606875,
      "grad_norm": 0.8701329231262207,
      "learning_rate": 1.1521055891204167e-06,
      "loss": 3.3705,
      "step": 461130
    },
    {
      "epoch": 0.9607083333333334,
      "grad_norm": 0.8871443271636963,
      "learning_rate": 1.1508863785542276e-06,
      "loss": 3.4151,
      "step": 461140
    },
    {
      "epoch": 0.9607291666666666,
      "grad_norm": 0.9687777161598206,
      "learning_rate": 1.1496678109573165e-06,
      "loss": 3.3844,
      "step": 461150
    },
    {
      "epoch": 0.96075,
      "grad_norm": 0.9162631034851074,
      "learning_rate": 1.148449886334929e-06,
      "loss": 3.2381,
      "step": 461160
    },
    {
      "epoch": 0.9607708333333334,
      "grad_norm": 0.9937034845352173,
      "learning_rate": 1.1472326046922941e-06,
      "loss": 3.3103,
      "step": 461170
    },
    {
      "epoch": 0.9607916666666667,
      "grad_norm": 0.9699451327323914,
      "learning_rate": 1.1460159660347078e-06,
      "loss": 3.42,
      "step": 461180
    },
    {
      "epoch": 0.9608125,
      "grad_norm": 0.9598882794380188,
      "learning_rate": 1.144799970367416e-06,
      "loss": 3.2206,
      "step": 461190
    },
    {
      "epoch": 0.9608333333333333,
      "grad_norm": 0.8296268582344055,
      "learning_rate": 1.1435846176956476e-06,
      "loss": 3.3807,
      "step": 461200
    },
    {
      "epoch": 0.9608541666666667,
      "grad_norm": 0.9510706663131714,
      "learning_rate": 1.1423699080246984e-06,
      "loss": 3.2855,
      "step": 461210
    },
    {
      "epoch": 0.960875,
      "grad_norm": 0.9122238159179688,
      "learning_rate": 1.141155841359781e-06,
      "loss": 3.3585,
      "step": 461220
    },
    {
      "epoch": 0.9608958333333333,
      "grad_norm": 0.9180469512939453,
      "learning_rate": 1.1399424177061412e-06,
      "loss": 3.312,
      "step": 461230
    },
    {
      "epoch": 0.9609166666666666,
      "grad_norm": 0.9032323956489563,
      "learning_rate": 1.1387296370690245e-06,
      "loss": 3.4114,
      "step": 461240
    },
    {
      "epoch": 0.9609375,
      "grad_norm": 0.9205156564712524,
      "learning_rate": 1.1375174994536939e-06,
      "loss": 3.187,
      "step": 461250
    },
    {
      "epoch": 0.9609583333333334,
      "grad_norm": 0.851636528968811,
      "learning_rate": 1.1363060048653282e-06,
      "loss": 3.3349,
      "step": 461260
    },
    {
      "epoch": 0.9609791666666667,
      "grad_norm": 0.8246957659721375,
      "learning_rate": 1.1350951533092234e-06,
      "loss": 3.2049,
      "step": 461270
    },
    {
      "epoch": 0.961,
      "grad_norm": 0.9170029163360596,
      "learning_rate": 1.133884944790575e-06,
      "loss": 3.2934,
      "step": 461280
    },
    {
      "epoch": 0.9610208333333333,
      "grad_norm": 0.9306058883666992,
      "learning_rate": 1.1326753793146125e-06,
      "loss": 3.2471,
      "step": 461290
    },
    {
      "epoch": 0.9610416666666667,
      "grad_norm": 0.949786901473999,
      "learning_rate": 1.1314664568865817e-06,
      "loss": 3.291,
      "step": 461300
    },
    {
      "epoch": 0.9610625,
      "grad_norm": 0.9134124517440796,
      "learning_rate": 1.1302581775116782e-06,
      "loss": 3.2478,
      "step": 461310
    },
    {
      "epoch": 0.9610833333333333,
      "grad_norm": 0.990641176700592,
      "learning_rate": 1.1290505411951312e-06,
      "loss": 3.4128,
      "step": 461320
    },
    {
      "epoch": 0.9611041666666666,
      "grad_norm": 0.8616734147071838,
      "learning_rate": 1.12784354794217e-06,
      "loss": 3.2381,
      "step": 461330
    },
    {
      "epoch": 0.961125,
      "grad_norm": 0.9767226576805115,
      "learning_rate": 1.1266371977579902e-06,
      "loss": 3.3733,
      "step": 461340
    },
    {
      "epoch": 0.9611458333333334,
      "grad_norm": 0.943179726600647,
      "learning_rate": 1.1254314906478046e-06,
      "loss": 3.3233,
      "step": 461350
    },
    {
      "epoch": 0.9611666666666666,
      "grad_norm": 0.9050076603889465,
      "learning_rate": 1.1242264266168254e-06,
      "loss": 3.2596,
      "step": 461360
    },
    {
      "epoch": 0.9611875,
      "grad_norm": 0.9581443071365356,
      "learning_rate": 1.1230220056702654e-06,
      "loss": 3.3982,
      "step": 461370
    },
    {
      "epoch": 0.9612083333333333,
      "grad_norm": 0.8330544829368591,
      "learning_rate": 1.1218182278133203e-06,
      "loss": 3.3669,
      "step": 461380
    },
    {
      "epoch": 0.9612291666666667,
      "grad_norm": 0.9212496876716614,
      "learning_rate": 1.1206150930512026e-06,
      "loss": 3.3372,
      "step": 461390
    },
    {
      "epoch": 0.96125,
      "grad_norm": 1.066632628440857,
      "learning_rate": 1.1194126013890747e-06,
      "loss": 3.4568,
      "step": 461400
    },
    {
      "epoch": 0.9612708333333333,
      "grad_norm": 0.9422169923782349,
      "learning_rate": 1.118210752832166e-06,
      "loss": 3.2158,
      "step": 461410
    },
    {
      "epoch": 0.9612916666666667,
      "grad_norm": 0.9029873013496399,
      "learning_rate": 1.1170095473856554e-06,
      "loss": 3.3137,
      "step": 461420
    },
    {
      "epoch": 0.9613125,
      "grad_norm": 1.0264137983322144,
      "learning_rate": 1.1158089850547224e-06,
      "loss": 3.48,
      "step": 461430
    },
    {
      "epoch": 0.9613333333333334,
      "grad_norm": 0.9653230309486389,
      "learning_rate": 1.1146090658445628e-06,
      "loss": 3.1973,
      "step": 461440
    },
    {
      "epoch": 0.9613541666666666,
      "grad_norm": 0.9012472033500671,
      "learning_rate": 1.1134097897603722e-06,
      "loss": 3.4016,
      "step": 461450
    },
    {
      "epoch": 0.961375,
      "grad_norm": 0.9757727384567261,
      "learning_rate": 1.1122111568073134e-06,
      "loss": 3.225,
      "step": 461460
    },
    {
      "epoch": 0.9613958333333333,
      "grad_norm": 0.8937271237373352,
      "learning_rate": 1.1110131669905654e-06,
      "loss": 3.3115,
      "step": 461470
    },
    {
      "epoch": 0.9614166666666667,
      "grad_norm": 1.2686423063278198,
      "learning_rate": 1.1098158203152908e-06,
      "loss": 3.2569,
      "step": 461480
    },
    {
      "epoch": 0.9614375,
      "grad_norm": 0.9797828793525696,
      "learning_rate": 1.108619116786702e-06,
      "loss": 3.289,
      "step": 461490
    },
    {
      "epoch": 0.9614583333333333,
      "grad_norm": 0.8588800430297852,
      "learning_rate": 1.107423056409945e-06,
      "loss": 3.2826,
      "step": 461500
    },
    {
      "epoch": 0.9614791666666667,
      "grad_norm": 0.9344722032546997,
      "learning_rate": 1.106227639190166e-06,
      "loss": 3.2596,
      "step": 461510
    },
    {
      "epoch": 0.9615,
      "grad_norm": 0.9897143244743347,
      "learning_rate": 1.1050328651325436e-06,
      "loss": 3.3203,
      "step": 461520
    },
    {
      "epoch": 0.9615208333333334,
      "grad_norm": 0.9641755819320679,
      "learning_rate": 1.1038387342422572e-06,
      "loss": 3.3671,
      "step": 461530
    },
    {
      "epoch": 0.9615416666666666,
      "grad_norm": 0.9159817099571228,
      "learning_rate": 1.1026452465244528e-06,
      "loss": 3.2257,
      "step": 461540
    },
    {
      "epoch": 0.9615625,
      "grad_norm": 0.9199619293212891,
      "learning_rate": 1.1014524019842764e-06,
      "loss": 3.3787,
      "step": 461550
    },
    {
      "epoch": 0.9615833333333333,
      "grad_norm": 0.9236509203910828,
      "learning_rate": 1.10026020062689e-06,
      "loss": 3.2079,
      "step": 461560
    },
    {
      "epoch": 0.9616041666666667,
      "grad_norm": 0.9008082151412964,
      "learning_rate": 1.0990686424574236e-06,
      "loss": 3.2334,
      "step": 461570
    },
    {
      "epoch": 0.961625,
      "grad_norm": 0.8793932199478149,
      "learning_rate": 1.0978777274810557e-06,
      "loss": 3.4268,
      "step": 461580
    },
    {
      "epoch": 0.9616458333333333,
      "grad_norm": 0.9293601512908936,
      "learning_rate": 1.0966874557029327e-06,
      "loss": 3.3502,
      "step": 461590
    },
    {
      "epoch": 0.9616666666666667,
      "grad_norm": 0.9125499129295349,
      "learning_rate": 1.0954978271281501e-06,
      "loss": 3.2692,
      "step": 461600
    },
    {
      "epoch": 0.9616875,
      "grad_norm": 0.9939092993736267,
      "learning_rate": 1.0943088417619038e-06,
      "loss": 3.2054,
      "step": 461610
    },
    {
      "epoch": 0.9617083333333334,
      "grad_norm": 0.94656902551651,
      "learning_rate": 1.0931204996092902e-06,
      "loss": 3.3031,
      "step": 461620
    },
    {
      "epoch": 0.9617291666666666,
      "grad_norm": 0.9846258759498596,
      "learning_rate": 1.0919328006754546e-06,
      "loss": 3.1745,
      "step": 461630
    },
    {
      "epoch": 0.96175,
      "grad_norm": 1.0002416372299194,
      "learning_rate": 1.0907457449655266e-06,
      "loss": 3.4829,
      "step": 461640
    },
    {
      "epoch": 0.9617708333333334,
      "grad_norm": 0.9753335118293762,
      "learning_rate": 1.0895593324846352e-06,
      "loss": 3.3244,
      "step": 461650
    },
    {
      "epoch": 0.9617916666666667,
      "grad_norm": 0.9842736124992371,
      "learning_rate": 1.08837356323791e-06,
      "loss": 3.4131,
      "step": 461660
    },
    {
      "epoch": 0.9618125,
      "grad_norm": 0.9452696442604065,
      "learning_rate": 1.0871884372304461e-06,
      "loss": 3.2577,
      "step": 461670
    },
    {
      "epoch": 0.9618333333333333,
      "grad_norm": 1.000101923942566,
      "learning_rate": 1.086003954467407e-06,
      "loss": 3.245,
      "step": 461680
    },
    {
      "epoch": 0.9618541666666667,
      "grad_norm": 0.8790292143821716,
      "learning_rate": 1.0848201149538882e-06,
      "loss": 3.2723,
      "step": 461690
    },
    {
      "epoch": 0.961875,
      "grad_norm": 1.074243187904358,
      "learning_rate": 1.0836369186949856e-06,
      "loss": 3.2601,
      "step": 461700
    },
    {
      "epoch": 0.9618958333333333,
      "grad_norm": 0.9323714375495911,
      "learning_rate": 1.0824543656958284e-06,
      "loss": 3.3013,
      "step": 461710
    },
    {
      "epoch": 0.9619166666666666,
      "grad_norm": 0.9310814142227173,
      "learning_rate": 1.0812724559615294e-06,
      "loss": 3.3483,
      "step": 461720
    },
    {
      "epoch": 0.9619375,
      "grad_norm": 0.8761293292045593,
      "learning_rate": 1.0800911894971842e-06,
      "loss": 3.2167,
      "step": 461730
    },
    {
      "epoch": 0.9619583333333334,
      "grad_norm": 0.9205151796340942,
      "learning_rate": 1.0789105663079055e-06,
      "loss": 3.337,
      "step": 461740
    },
    {
      "epoch": 0.9619791666666667,
      "grad_norm": 0.9190447330474854,
      "learning_rate": 1.0777305863987895e-06,
      "loss": 3.3446,
      "step": 461750
    },
    {
      "epoch": 0.962,
      "grad_norm": 0.9839593172073364,
      "learning_rate": 1.0765512497749152e-06,
      "loss": 3.3299,
      "step": 461760
    },
    {
      "epoch": 0.9620208333333333,
      "grad_norm": 0.8610241413116455,
      "learning_rate": 1.075372556441395e-06,
      "loss": 3.3187,
      "step": 461770
    },
    {
      "epoch": 0.9620416666666667,
      "grad_norm": 0.9722151756286621,
      "learning_rate": 1.0741945064033253e-06,
      "loss": 3.2338,
      "step": 461780
    },
    {
      "epoch": 0.9620625,
      "grad_norm": 0.9698256254196167,
      "learning_rate": 1.0730170996657683e-06,
      "loss": 3.177,
      "step": 461790
    },
    {
      "epoch": 0.9620833333333333,
      "grad_norm": 0.8809000253677368,
      "learning_rate": 1.0718403362338536e-06,
      "loss": 3.3199,
      "step": 461800
    },
    {
      "epoch": 0.9621041666666666,
      "grad_norm": 0.9223303198814392,
      "learning_rate": 1.0706642161126266e-06,
      "loss": 3.4107,
      "step": 461810
    },
    {
      "epoch": 0.962125,
      "grad_norm": 0.8602898120880127,
      "learning_rate": 1.0694887393071672e-06,
      "loss": 3.2338,
      "step": 461820
    },
    {
      "epoch": 0.9621458333333334,
      "grad_norm": 0.9447802901268005,
      "learning_rate": 1.0683139058225875e-06,
      "loss": 3.2647,
      "step": 461830
    },
    {
      "epoch": 0.9621666666666666,
      "grad_norm": 0.8963317275047302,
      "learning_rate": 1.067139715663934e-06,
      "loss": 3.3698,
      "step": 461840
    },
    {
      "epoch": 0.9621875,
      "grad_norm": 0.8742523193359375,
      "learning_rate": 1.0659661688362686e-06,
      "loss": 3.3726,
      "step": 461850
    },
    {
      "epoch": 0.9622083333333333,
      "grad_norm": 0.910020112991333,
      "learning_rate": 1.0647932653446878e-06,
      "loss": 3.2625,
      "step": 461860
    },
    {
      "epoch": 0.9622291666666667,
      "grad_norm": 1.1647026538848877,
      "learning_rate": 1.063621005194254e-06,
      "loss": 3.4996,
      "step": 461870
    },
    {
      "epoch": 0.96225,
      "grad_norm": 1.1104971170425415,
      "learning_rate": 1.0624493883900131e-06,
      "loss": 3.3353,
      "step": 461880
    },
    {
      "epoch": 0.9622708333333333,
      "grad_norm": 0.8964477181434631,
      "learning_rate": 1.0612784149370445e-06,
      "loss": 3.2244,
      "step": 461890
    },
    {
      "epoch": 0.9622916666666667,
      "grad_norm": 0.9143370389938354,
      "learning_rate": 1.060108084840411e-06,
      "loss": 3.3617,
      "step": 461900
    },
    {
      "epoch": 0.9623125,
      "grad_norm": 0.9442740678787231,
      "learning_rate": 1.0589383981051414e-06,
      "loss": 3.289,
      "step": 461910
    },
    {
      "epoch": 0.9623333333333334,
      "grad_norm": 0.8685160279273987,
      "learning_rate": 1.0577693547362987e-06,
      "loss": 3.2294,
      "step": 461920
    },
    {
      "epoch": 0.9623541666666666,
      "grad_norm": 0.9459680318832397,
      "learning_rate": 1.056600954738962e-06,
      "loss": 3.3941,
      "step": 461930
    },
    {
      "epoch": 0.962375,
      "grad_norm": 0.9508304595947266,
      "learning_rate": 1.0554331981181275e-06,
      "loss": 3.3316,
      "step": 461940
    },
    {
      "epoch": 0.9623958333333333,
      "grad_norm": 0.9489932656288147,
      "learning_rate": 1.0542660848788575e-06,
      "loss": 3.2753,
      "step": 461950
    },
    {
      "epoch": 0.9624166666666667,
      "grad_norm": 0.9958489537239075,
      "learning_rate": 1.0530996150262317e-06,
      "loss": 3.4086,
      "step": 461960
    },
    {
      "epoch": 0.9624375,
      "grad_norm": 0.9012393951416016,
      "learning_rate": 1.0519337885652456e-06,
      "loss": 3.3183,
      "step": 461970
    },
    {
      "epoch": 0.9624583333333333,
      "grad_norm": 0.9598150253295898,
      "learning_rate": 1.0507686055009456e-06,
      "loss": 3.2237,
      "step": 461980
    },
    {
      "epoch": 0.9624791666666667,
      "grad_norm": 1.0661964416503906,
      "learning_rate": 1.049604065838361e-06,
      "loss": 3.3386,
      "step": 461990
    },
    {
      "epoch": 0.9625,
      "grad_norm": 1.0474698543548584,
      "learning_rate": 1.0484401695825373e-06,
      "loss": 3.3302,
      "step": 462000
    },
    {
      "epoch": 0.9625,
      "eval_loss": 4.022104740142822,
      "eval_runtime": 8.4766,
      "eval_samples_per_second": 1.18,
      "eval_steps_per_second": 0.354,
      "step": 462000
    },
    {
      "epoch": 0.9625208333333334,
      "grad_norm": 1.0746064186096191,
      "learning_rate": 1.0472769167384876e-06,
      "loss": 3.3009,
      "step": 462010
    },
    {
      "epoch": 0.9625416666666666,
      "grad_norm": 0.9014170169830322,
      "learning_rate": 1.046114307311241e-06,
      "loss": 3.3999,
      "step": 462020
    },
    {
      "epoch": 0.9625625,
      "grad_norm": 0.9731031060218811,
      "learning_rate": 1.044952341305827e-06,
      "loss": 3.3061,
      "step": 462030
    },
    {
      "epoch": 0.9625833333333333,
      "grad_norm": 0.8998476266860962,
      "learning_rate": 1.043791018727258e-06,
      "loss": 3.2904,
      "step": 462040
    },
    {
      "epoch": 0.9626041666666667,
      "grad_norm": 1.0049406290054321,
      "learning_rate": 1.0426303395805469e-06,
      "loss": 3.4292,
      "step": 462050
    },
    {
      "epoch": 0.962625,
      "grad_norm": 1.009901762008667,
      "learning_rate": 1.041470303870706e-06,
      "loss": 3.239,
      "step": 462060
    },
    {
      "epoch": 0.9626458333333333,
      "grad_norm": 1.0375032424926758,
      "learning_rate": 1.0403109116027653e-06,
      "loss": 3.2704,
      "step": 462070
    },
    {
      "epoch": 0.9626666666666667,
      "grad_norm": 0.8629229664802551,
      "learning_rate": 1.0391521627817035e-06,
      "loss": 3.2798,
      "step": 462080
    },
    {
      "epoch": 0.9626875,
      "grad_norm": 0.9500414729118347,
      "learning_rate": 1.0379940574125501e-06,
      "loss": 3.3898,
      "step": 462090
    },
    {
      "epoch": 0.9627083333333334,
      "grad_norm": 0.8808444738388062,
      "learning_rate": 1.0368365955003011e-06,
      "loss": 3.458,
      "step": 462100
    },
    {
      "epoch": 0.9627291666666666,
      "grad_norm": 0.8913503885269165,
      "learning_rate": 1.0356797770499526e-06,
      "loss": 3.3603,
      "step": 462110
    },
    {
      "epoch": 0.96275,
      "grad_norm": 0.8382284045219421,
      "learning_rate": 1.0345236020665004e-06,
      "loss": 3.1657,
      "step": 462120
    },
    {
      "epoch": 0.9627708333333334,
      "grad_norm": 0.8993494510650635,
      "learning_rate": 1.0333680705549408e-06,
      "loss": 3.2391,
      "step": 462130
    },
    {
      "epoch": 0.9627916666666667,
      "grad_norm": 1.0430033206939697,
      "learning_rate": 1.0322131825202695e-06,
      "loss": 3.3362,
      "step": 462140
    },
    {
      "epoch": 0.9628125,
      "grad_norm": 0.9572252631187439,
      "learning_rate": 1.031058937967466e-06,
      "loss": 3.2751,
      "step": 462150
    },
    {
      "epoch": 0.9628333333333333,
      "grad_norm": 0.9218840599060059,
      "learning_rate": 1.0299053369015263e-06,
      "loss": 3.2809,
      "step": 462160
    },
    {
      "epoch": 0.9628541666666667,
      "grad_norm": 1.1046735048294067,
      "learning_rate": 1.0287523793274298e-06,
      "loss": 3.1741,
      "step": 462170
    },
    {
      "epoch": 0.962875,
      "grad_norm": 1.104349970817566,
      "learning_rate": 1.027600065250156e-06,
      "loss": 3.4066,
      "step": 462180
    },
    {
      "epoch": 0.9628958333333333,
      "grad_norm": 0.9619110822677612,
      "learning_rate": 1.0264483946746838e-06,
      "loss": 3.2842,
      "step": 462190
    },
    {
      "epoch": 0.9629166666666666,
      "grad_norm": 0.9365203976631165,
      "learning_rate": 1.0252973676059928e-06,
      "loss": 3.2314,
      "step": 462200
    },
    {
      "epoch": 0.9629375,
      "grad_norm": 1.0216357707977295,
      "learning_rate": 1.0241469840490458e-06,
      "loss": 3.2509,
      "step": 462210
    },
    {
      "epoch": 0.9629583333333334,
      "grad_norm": 0.9678945541381836,
      "learning_rate": 1.0229972440088053e-06,
      "loss": 3.3605,
      "step": 462220
    },
    {
      "epoch": 0.9629791666666667,
      "grad_norm": 0.8935379385948181,
      "learning_rate": 1.0218481474902508e-06,
      "loss": 3.2817,
      "step": 462230
    },
    {
      "epoch": 0.963,
      "grad_norm": 0.8918028473854065,
      "learning_rate": 1.0206996944983448e-06,
      "loss": 3.2474,
      "step": 462240
    },
    {
      "epoch": 0.9630208333333333,
      "grad_norm": 1.0252063274383545,
      "learning_rate": 1.0195518850380502e-06,
      "loss": 3.3983,
      "step": 462250
    },
    {
      "epoch": 0.9630416666666667,
      "grad_norm": 0.8859775066375732,
      "learning_rate": 1.018404719114313e-06,
      "loss": 3.3404,
      "step": 462260
    },
    {
      "epoch": 0.9630625,
      "grad_norm": 0.9096735119819641,
      "learning_rate": 1.0172581967321126e-06,
      "loss": 3.3606,
      "step": 462270
    },
    {
      "epoch": 0.9630833333333333,
      "grad_norm": 1.0140444040298462,
      "learning_rate": 1.0161123178963614e-06,
      "loss": 3.3486,
      "step": 462280
    },
    {
      "epoch": 0.9631041666666667,
      "grad_norm": 0.921500027179718,
      "learning_rate": 1.0149670826120394e-06,
      "loss": 3.3046,
      "step": 462290
    },
    {
      "epoch": 0.963125,
      "grad_norm": 0.8765923976898193,
      "learning_rate": 1.0138224908841086e-06,
      "loss": 3.3435,
      "step": 462300
    },
    {
      "epoch": 0.9631458333333334,
      "grad_norm": 0.9321537017822266,
      "learning_rate": 1.0126785427174654e-06,
      "loss": 3.3159,
      "step": 462310
    },
    {
      "epoch": 0.9631666666666666,
      "grad_norm": 0.9515239000320435,
      "learning_rate": 1.0115352381170893e-06,
      "loss": 3.385,
      "step": 462320
    },
    {
      "epoch": 0.9631875,
      "grad_norm": 0.9173802137374878,
      "learning_rate": 1.0103925770879095e-06,
      "loss": 3.3726,
      "step": 462330
    },
    {
      "epoch": 0.9632083333333333,
      "grad_norm": 1.001721739768982,
      "learning_rate": 1.0092505596348556e-06,
      "loss": 3.3078,
      "step": 462340
    },
    {
      "epoch": 0.9632291666666667,
      "grad_norm": 0.8665395379066467,
      "learning_rate": 1.0081091857628731e-06,
      "loss": 3.3591,
      "step": 462350
    },
    {
      "epoch": 0.96325,
      "grad_norm": 0.9783398509025574,
      "learning_rate": 1.0069684554768754e-06,
      "loss": 3.5449,
      "step": 462360
    },
    {
      "epoch": 0.9632708333333333,
      "grad_norm": 0.9316799640655518,
      "learning_rate": 1.0058283687817915e-06,
      "loss": 3.3,
      "step": 462370
    },
    {
      "epoch": 0.9632916666666667,
      "grad_norm": 0.9484724998474121,
      "learning_rate": 1.0046889256825674e-06,
      "loss": 3.3385,
      "step": 462380
    },
    {
      "epoch": 0.9633125,
      "grad_norm": 0.921237587928772,
      "learning_rate": 1.0035501261840994e-06,
      "loss": 3.5056,
      "step": 462390
    },
    {
      "epoch": 0.9633333333333334,
      "grad_norm": 0.9124795198440552,
      "learning_rate": 1.002411970291317e-06,
      "loss": 3.3736,
      "step": 462400
    },
    {
      "epoch": 0.9633541666666666,
      "grad_norm": 0.9878773093223572,
      "learning_rate": 1.0012744580091492e-06,
      "loss": 3.3161,
      "step": 462410
    },
    {
      "epoch": 0.963375,
      "grad_norm": 0.8986199498176575,
      "learning_rate": 1.0001375893424923e-06,
      "loss": 3.3535,
      "step": 462420
    },
    {
      "epoch": 0.9633958333333333,
      "grad_norm": 0.972754955291748,
      "learning_rate": 9.99001364296259e-07,
      "loss": 3.4095,
      "step": 462430
    },
    {
      "epoch": 0.9634166666666667,
      "grad_norm": 0.9847177863121033,
      "learning_rate": 9.978657828753621e-07,
      "loss": 3.3688,
      "step": 462440
    },
    {
      "epoch": 0.9634375,
      "grad_norm": 0.9611426591873169,
      "learning_rate": 9.967308450847144e-07,
      "loss": 3.3447,
      "step": 462450
    },
    {
      "epoch": 0.9634583333333333,
      "grad_norm": 0.8497058153152466,
      "learning_rate": 9.955965509291952e-07,
      "loss": 3.3507,
      "step": 462460
    },
    {
      "epoch": 0.9634791666666667,
      "grad_norm": 0.8866090178489685,
      "learning_rate": 9.94462900413734e-07,
      "loss": 3.379,
      "step": 462470
    },
    {
      "epoch": 0.9635,
      "grad_norm": 0.9645869731903076,
      "learning_rate": 9.933298935431933e-07,
      "loss": 3.3772,
      "step": 462480
    },
    {
      "epoch": 0.9635208333333334,
      "grad_norm": 0.907325804233551,
      "learning_rate": 9.921975303225027e-07,
      "loss": 3.3015,
      "step": 462490
    },
    {
      "epoch": 0.9635416666666666,
      "grad_norm": 0.9980482459068298,
      "learning_rate": 9.910658107565417e-07,
      "loss": 3.4333,
      "step": 462500
    },
    {
      "epoch": 0.9635625,
      "grad_norm": 0.947904109954834,
      "learning_rate": 9.89934734850173e-07,
      "loss": 3.3382,
      "step": 462510
    },
    {
      "epoch": 0.9635833333333333,
      "grad_norm": 0.9429703950881958,
      "learning_rate": 9.888043026083258e-07,
      "loss": 3.3065,
      "step": 462520
    },
    {
      "epoch": 0.9636041666666667,
      "grad_norm": 1.0167162418365479,
      "learning_rate": 9.876745140358633e-07,
      "loss": 3.2601,
      "step": 462530
    },
    {
      "epoch": 0.963625,
      "grad_norm": 0.9001341462135315,
      "learning_rate": 9.865453691376314e-07,
      "loss": 3.2759,
      "step": 462540
    },
    {
      "epoch": 0.9636458333333333,
      "grad_norm": 0.8827770948410034,
      "learning_rate": 9.85416867918576e-07,
      "loss": 3.2852,
      "step": 462550
    },
    {
      "epoch": 0.9636666666666667,
      "grad_norm": 0.9480870962142944,
      "learning_rate": 9.842890103835266e-07,
      "loss": 3.3468,
      "step": 462560
    },
    {
      "epoch": 0.9636875,
      "grad_norm": 0.8836458921432495,
      "learning_rate": 9.831617965373461e-07,
      "loss": 3.3257,
      "step": 462570
    },
    {
      "epoch": 0.9637083333333333,
      "grad_norm": 0.955752968788147,
      "learning_rate": 9.820352263849307e-07,
      "loss": 3.2938,
      "step": 462580
    },
    {
      "epoch": 0.9637291666666666,
      "grad_norm": 0.8917999267578125,
      "learning_rate": 9.809092999311596e-07,
      "loss": 3.311,
      "step": 462590
    },
    {
      "epoch": 0.96375,
      "grad_norm": 0.994991660118103,
      "learning_rate": 9.797840171808458e-07,
      "loss": 3.2736,
      "step": 462600
    },
    {
      "epoch": 0.9637708333333334,
      "grad_norm": 1.0321097373962402,
      "learning_rate": 9.786593781389018e-07,
      "loss": 3.3855,
      "step": 462610
    },
    {
      "epoch": 0.9637916666666667,
      "grad_norm": 0.8615376353263855,
      "learning_rate": 9.775353828101406e-07,
      "loss": 3.1709,
      "step": 462620
    },
    {
      "epoch": 0.9638125,
      "grad_norm": 0.9067137837409973,
      "learning_rate": 9.764120311994417e-07,
      "loss": 3.3436,
      "step": 462630
    },
    {
      "epoch": 0.9638333333333333,
      "grad_norm": 0.9245574474334717,
      "learning_rate": 9.752893233116676e-07,
      "loss": 3.315,
      "step": 462640
    },
    {
      "epoch": 0.9638541666666667,
      "grad_norm": 0.9198645353317261,
      "learning_rate": 9.74167259151648e-07,
      "loss": 3.209,
      "step": 462650
    },
    {
      "epoch": 0.963875,
      "grad_norm": 0.8718598484992981,
      "learning_rate": 9.73045838724229e-07,
      "loss": 3.3194,
      "step": 462660
    },
    {
      "epoch": 0.9638958333333333,
      "grad_norm": 0.9346246719360352,
      "learning_rate": 9.7192506203429e-07,
      "loss": 3.223,
      "step": 462670
    },
    {
      "epoch": 0.9639166666666666,
      "grad_norm": 0.9413301348686218,
      "learning_rate": 9.708049290866272e-07,
      "loss": 3.2609,
      "step": 462680
    },
    {
      "epoch": 0.9639375,
      "grad_norm": 0.9644748568534851,
      "learning_rate": 9.696854398860865e-07,
      "loss": 3.2891,
      "step": 462690
    },
    {
      "epoch": 0.9639583333333334,
      "grad_norm": 0.9596676826477051,
      "learning_rate": 9.685665944375477e-07,
      "loss": 3.3815,
      "step": 462700
    },
    {
      "epoch": 0.9639791666666667,
      "grad_norm": 0.9242329001426697,
      "learning_rate": 9.674483927457732e-07,
      "loss": 3.2747,
      "step": 462710
    },
    {
      "epoch": 0.964,
      "grad_norm": 0.9579641222953796,
      "learning_rate": 9.66330834815643e-07,
      "loss": 3.4653,
      "step": 462720
    },
    {
      "epoch": 0.9640208333333333,
      "grad_norm": 1.0215771198272705,
      "learning_rate": 9.65213920651986e-07,
      "loss": 3.4133,
      "step": 462730
    },
    {
      "epoch": 0.9640416666666667,
      "grad_norm": 0.9235861897468567,
      "learning_rate": 9.640976502595988e-07,
      "loss": 3.3099,
      "step": 462740
    },
    {
      "epoch": 0.9640625,
      "grad_norm": 1.1794954538345337,
      "learning_rate": 9.629820236433273e-07,
      "loss": 3.3267,
      "step": 462750
    },
    {
      "epoch": 0.9640833333333333,
      "grad_norm": 0.8615236878395081,
      "learning_rate": 9.618670408079677e-07,
      "loss": 3.2272,
      "step": 462760
    },
    {
      "epoch": 0.9641041666666667,
      "grad_norm": 0.9396772384643555,
      "learning_rate": 9.60752701758366e-07,
      "loss": 3.3528,
      "step": 462770
    },
    {
      "epoch": 0.964125,
      "grad_norm": 0.944930911064148,
      "learning_rate": 9.596390064993021e-07,
      "loss": 3.2988,
      "step": 462780
    },
    {
      "epoch": 0.9641458333333334,
      "grad_norm": 0.793205976486206,
      "learning_rate": 9.58525955035605e-07,
      "loss": 3.0947,
      "step": 462790
    },
    {
      "epoch": 0.9641666666666666,
      "grad_norm": 0.8577864766120911,
      "learning_rate": 9.574135473720879e-07,
      "loss": 3.2414,
      "step": 462800
    },
    {
      "epoch": 0.9641875,
      "grad_norm": 0.9612812399864197,
      "learning_rate": 9.563017835135466e-07,
      "loss": 3.3437,
      "step": 462810
    },
    {
      "epoch": 0.9642083333333333,
      "grad_norm": 0.8702483177185059,
      "learning_rate": 9.551906634647944e-07,
      "loss": 3.3598,
      "step": 462820
    },
    {
      "epoch": 0.9642291666666667,
      "grad_norm": 0.8690971732139587,
      "learning_rate": 9.540801872306104e-07,
      "loss": 3.3188,
      "step": 462830
    },
    {
      "epoch": 0.96425,
      "grad_norm": 0.8760796189308167,
      "learning_rate": 9.529703548158241e-07,
      "loss": 3.4223,
      "step": 462840
    },
    {
      "epoch": 0.9642708333333333,
      "grad_norm": 0.9328872561454773,
      "learning_rate": 9.518611662251818e-07,
      "loss": 3.3363,
      "step": 462850
    },
    {
      "epoch": 0.9642916666666667,
      "grad_norm": 0.9162106513977051,
      "learning_rate": 9.507526214635131e-07,
      "loss": 3.3405,
      "step": 462860
    },
    {
      "epoch": 0.9643125,
      "grad_norm": 0.9479233026504517,
      "learning_rate": 9.496447205355972e-07,
      "loss": 3.2527,
      "step": 462870
    },
    {
      "epoch": 0.9643333333333334,
      "grad_norm": 1.0163475275039673,
      "learning_rate": 9.485374634462139e-07,
      "loss": 3.2817,
      "step": 462880
    },
    {
      "epoch": 0.9643541666666666,
      "grad_norm": 0.9508426785469055,
      "learning_rate": 9.474308502001427e-07,
      "loss": 3.2928,
      "step": 462890
    },
    {
      "epoch": 0.964375,
      "grad_norm": 0.8592329025268555,
      "learning_rate": 9.463248808021962e-07,
      "loss": 3.2775,
      "step": 462900
    },
    {
      "epoch": 0.9643958333333333,
      "grad_norm": 0.9318054914474487,
      "learning_rate": 9.45219555257104e-07,
      "loss": 3.3656,
      "step": 462910
    },
    {
      "epoch": 0.9644166666666667,
      "grad_norm": 0.947767436504364,
      "learning_rate": 9.441148735696624e-07,
      "loss": 3.3439,
      "step": 462920
    },
    {
      "epoch": 0.9644375,
      "grad_norm": 1.136724829673767,
      "learning_rate": 9.430108357446675e-07,
      "loss": 3.269,
      "step": 462930
    },
    {
      "epoch": 0.9644583333333333,
      "grad_norm": 0.8985022306442261,
      "learning_rate": 9.419074417868322e-07,
      "loss": 3.3685,
      "step": 462940
    },
    {
      "epoch": 0.9644791666666667,
      "grad_norm": 1.0055769681930542,
      "learning_rate": 9.408046917009692e-07,
      "loss": 3.3049,
      "step": 462950
    },
    {
      "epoch": 0.9645,
      "grad_norm": 0.9600702524185181,
      "learning_rate": 9.397025854918417e-07,
      "loss": 3.5355,
      "step": 462960
    },
    {
      "epoch": 0.9645208333333334,
      "grad_norm": 0.903503954410553,
      "learning_rate": 9.386011231641788e-07,
      "loss": 3.2673,
      "step": 462970
    },
    {
      "epoch": 0.9645416666666666,
      "grad_norm": 0.8905360698699951,
      "learning_rate": 9.375003047227769e-07,
      "loss": 3.171,
      "step": 462980
    },
    {
      "epoch": 0.9645625,
      "grad_norm": 0.9702503681182861,
      "learning_rate": 9.36400130172349e-07,
      "loss": 3.3047,
      "step": 462990
    },
    {
      "epoch": 0.9645833333333333,
      "grad_norm": 0.9565452337265015,
      "learning_rate": 9.353005995176744e-07,
      "loss": 3.3891,
      "step": 463000
    },
    {
      "epoch": 0.9645833333333333,
      "eval_loss": 4.022345542907715,
      "eval_runtime": 7.9497,
      "eval_samples_per_second": 1.258,
      "eval_steps_per_second": 0.377,
      "step": 463000
    },
    {
      "epoch": 0.9646041666666667,
      "grad_norm": 0.9003035426139832,
      "learning_rate": 9.34201712763516e-07,
      "loss": 3.3408,
      "step": 463010
    },
    {
      "epoch": 0.964625,
      "grad_norm": 0.9007880091667175,
      "learning_rate": 9.331034699145868e-07,
      "loss": 3.308,
      "step": 463020
    },
    {
      "epoch": 0.9646458333333333,
      "grad_norm": 0.9526428580284119,
      "learning_rate": 9.320058709756328e-07,
      "loss": 3.2665,
      "step": 463030
    },
    {
      "epoch": 0.9646666666666667,
      "grad_norm": 0.8952056765556335,
      "learning_rate": 9.309089159514338e-07,
      "loss": 3.3655,
      "step": 463040
    },
    {
      "epoch": 0.9646875,
      "grad_norm": 0.9773591756820679,
      "learning_rate": 9.298126048466858e-07,
      "loss": 3.3363,
      "step": 463050
    },
    {
      "epoch": 0.9647083333333333,
      "grad_norm": 1.0135409832000732,
      "learning_rate": 9.287169376661352e-07,
      "loss": 3.2625,
      "step": 463060
    },
    {
      "epoch": 0.9647291666666666,
      "grad_norm": 0.9115275740623474,
      "learning_rate": 9.276219144145447e-07,
      "loss": 3.3427,
      "step": 463070
    },
    {
      "epoch": 0.96475,
      "grad_norm": 0.9234974980354309,
      "learning_rate": 9.265275350966105e-07,
      "loss": 3.2473,
      "step": 463080
    },
    {
      "epoch": 0.9647708333333334,
      "grad_norm": 0.8914596438407898,
      "learning_rate": 9.254337997170625e-07,
      "loss": 3.3228,
      "step": 463090
    },
    {
      "epoch": 0.9647916666666667,
      "grad_norm": 0.9522125124931335,
      "learning_rate": 9.243407082806298e-07,
      "loss": 3.2957,
      "step": 463100
    },
    {
      "epoch": 0.9648125,
      "grad_norm": 0.9861707091331482,
      "learning_rate": 9.232482607920421e-07,
      "loss": 3.2968,
      "step": 463110
    },
    {
      "epoch": 0.9648333333333333,
      "grad_norm": 0.9669115543365479,
      "learning_rate": 9.221564572560291e-07,
      "loss": 3.3701,
      "step": 463120
    },
    {
      "epoch": 0.9648541666666667,
      "grad_norm": 0.9486837387084961,
      "learning_rate": 9.210652976772704e-07,
      "loss": 3.1893,
      "step": 463130
    },
    {
      "epoch": 0.964875,
      "grad_norm": 0.9455885291099548,
      "learning_rate": 9.199747820605119e-07,
      "loss": 3.2989,
      "step": 463140
    },
    {
      "epoch": 0.9648958333333333,
      "grad_norm": 0.9459872841835022,
      "learning_rate": 9.188849104104334e-07,
      "loss": 3.4203,
      "step": 463150
    },
    {
      "epoch": 0.9649166666666666,
      "grad_norm": 0.9645083546638489,
      "learning_rate": 9.177956827317811e-07,
      "loss": 3.3301,
      "step": 463160
    },
    {
      "epoch": 0.9649375,
      "grad_norm": 0.8472468256950378,
      "learning_rate": 9.167070990292347e-07,
      "loss": 3.3724,
      "step": 463170
    },
    {
      "epoch": 0.9649583333333334,
      "grad_norm": 0.8453215956687927,
      "learning_rate": 9.156191593075069e-07,
      "loss": 3.2595,
      "step": 463180
    },
    {
      "epoch": 0.9649791666666667,
      "grad_norm": 0.9579299688339233,
      "learning_rate": 9.145318635712939e-07,
      "loss": 3.3012,
      "step": 463190
    },
    {
      "epoch": 0.965,
      "grad_norm": 0.9159863591194153,
      "learning_rate": 9.134452118252755e-07,
      "loss": 3.2966,
      "step": 463200
    },
    {
      "epoch": 0.9650208333333333,
      "grad_norm": 0.9022300243377686,
      "learning_rate": 9.123592040741812e-07,
      "loss": 3.3412,
      "step": 463210
    },
    {
      "epoch": 0.9650416666666667,
      "grad_norm": 0.9796721339225769,
      "learning_rate": 9.112738403226739e-07,
      "loss": 3.4169,
      "step": 463220
    },
    {
      "epoch": 0.9650625,
      "grad_norm": 0.9545810222625732,
      "learning_rate": 9.10189120575433e-07,
      "loss": 3.2794,
      "step": 463230
    },
    {
      "epoch": 0.9650833333333333,
      "grad_norm": 1.1224302053451538,
      "learning_rate": 9.091050448371884e-07,
      "loss": 3.2216,
      "step": 463240
    },
    {
      "epoch": 0.9651041666666667,
      "grad_norm": 0.9442527294158936,
      "learning_rate": 9.080216131125861e-07,
      "loss": 3.1257,
      "step": 463250
    },
    {
      "epoch": 0.965125,
      "grad_norm": 0.8937643766403198,
      "learning_rate": 9.069388254063059e-07,
      "loss": 3.5484,
      "step": 463260
    },
    {
      "epoch": 0.9651458333333334,
      "grad_norm": 0.9771648049354553,
      "learning_rate": 9.058566817230605e-07,
      "loss": 3.422,
      "step": 463270
    },
    {
      "epoch": 0.9651666666666666,
      "grad_norm": 1.008063554763794,
      "learning_rate": 9.047751820674632e-07,
      "loss": 3.3332,
      "step": 463280
    },
    {
      "epoch": 0.9651875,
      "grad_norm": 1.0021620988845825,
      "learning_rate": 9.036943264442431e-07,
      "loss": 3.3762,
      "step": 463290
    },
    {
      "epoch": 0.9652083333333333,
      "grad_norm": 0.9556494951248169,
      "learning_rate": 9.026141148580468e-07,
      "loss": 3.2167,
      "step": 463300
    },
    {
      "epoch": 0.9652291666666667,
      "grad_norm": 0.8826456665992737,
      "learning_rate": 9.015345473135371e-07,
      "loss": 3.2476,
      "step": 463310
    },
    {
      "epoch": 0.96525,
      "grad_norm": 0.865312933921814,
      "learning_rate": 9.004556238153771e-07,
      "loss": 3.3685,
      "step": 463320
    },
    {
      "epoch": 0.9652708333333333,
      "grad_norm": 1.0214177370071411,
      "learning_rate": 8.993773443682462e-07,
      "loss": 3.3194,
      "step": 463330
    },
    {
      "epoch": 0.9652916666666667,
      "grad_norm": 0.9583582878112793,
      "learning_rate": 8.982997089767574e-07,
      "loss": 3.331,
      "step": 463340
    },
    {
      "epoch": 0.9653125,
      "grad_norm": 0.9563536047935486,
      "learning_rate": 8.972227176456238e-07,
      "loss": 3.3553,
      "step": 463350
    },
    {
      "epoch": 0.9653333333333334,
      "grad_norm": 1.0242360830307007,
      "learning_rate": 8.96146370379458e-07,
      "loss": 3.2963,
      "step": 463360
    },
    {
      "epoch": 0.9653541666666666,
      "grad_norm": 0.8815448880195618,
      "learning_rate": 8.950706671829233e-07,
      "loss": 3.3656,
      "step": 463370
    },
    {
      "epoch": 0.965375,
      "grad_norm": 1.0033397674560547,
      "learning_rate": 8.939956080606659e-07,
      "loss": 3.341,
      "step": 463380
    },
    {
      "epoch": 0.9653958333333333,
      "grad_norm": 0.8351812958717346,
      "learning_rate": 8.929211930173152e-07,
      "loss": 3.2955,
      "step": 463390
    },
    {
      "epoch": 0.9654166666666667,
      "grad_norm": 0.899612545967102,
      "learning_rate": 8.918474220575344e-07,
      "loss": 3.2707,
      "step": 463400
    },
    {
      "epoch": 0.9654375,
      "grad_norm": 0.9641675353050232,
      "learning_rate": 8.907742951859531e-07,
      "loss": 3.1879,
      "step": 463410
    },
    {
      "epoch": 0.9654583333333333,
      "grad_norm": 0.950438916683197,
      "learning_rate": 8.897018124072009e-07,
      "loss": 3.3617,
      "step": 463420
    },
    {
      "epoch": 0.9654791666666667,
      "grad_norm": 0.9151240587234497,
      "learning_rate": 8.886299737259073e-07,
      "loss": 3.4219,
      "step": 463430
    },
    {
      "epoch": 0.9655,
      "grad_norm": 0.9145122766494751,
      "learning_rate": 8.875587791467187e-07,
      "loss": 3.4235,
      "step": 463440
    },
    {
      "epoch": 0.9655208333333334,
      "grad_norm": 0.934819757938385,
      "learning_rate": 8.86488228674248e-07,
      "loss": 3.25,
      "step": 463450
    },
    {
      "epoch": 0.9655416666666666,
      "grad_norm": 0.9645013809204102,
      "learning_rate": 8.854183223131417e-07,
      "loss": 3.3261,
      "step": 463460
    },
    {
      "epoch": 0.9655625,
      "grad_norm": 0.8822829723358154,
      "learning_rate": 8.843490600679959e-07,
      "loss": 3.3012,
      "step": 463470
    },
    {
      "epoch": 0.9655833333333333,
      "grad_norm": 0.9911666512489319,
      "learning_rate": 8.832804419434237e-07,
      "loss": 3.3696,
      "step": 463480
    },
    {
      "epoch": 0.9656041666666667,
      "grad_norm": 0.9874528050422668,
      "learning_rate": 8.822124679440712e-07,
      "loss": 3.2915,
      "step": 463490
    },
    {
      "epoch": 0.965625,
      "grad_norm": 0.9131355881690979,
      "learning_rate": 8.811451380745349e-07,
      "loss": 3.2073,
      "step": 463500
    },
    {
      "epoch": 0.9656458333333333,
      "grad_norm": 1.0136393308639526,
      "learning_rate": 8.800784523394111e-07,
      "loss": 3.2908,
      "step": 463510
    },
    {
      "epoch": 0.9656666666666667,
      "grad_norm": 0.9735333323478699,
      "learning_rate": 8.79012410743346e-07,
      "loss": 3.2441,
      "step": 463520
    },
    {
      "epoch": 0.9656875,
      "grad_norm": 0.8960180282592773,
      "learning_rate": 8.779470132909027e-07,
      "loss": 3.2308,
      "step": 463530
    },
    {
      "epoch": 0.9657083333333333,
      "grad_norm": 0.9211745262145996,
      "learning_rate": 8.768822599867109e-07,
      "loss": 3.2179,
      "step": 463540
    },
    {
      "epoch": 0.9657291666666666,
      "grad_norm": 0.998257577419281,
      "learning_rate": 8.758181508353502e-07,
      "loss": 3.3694,
      "step": 463550
    },
    {
      "epoch": 0.96575,
      "grad_norm": 0.8574233651161194,
      "learning_rate": 8.747546858414333e-07,
      "loss": 3.3751,
      "step": 463560
    },
    {
      "epoch": 0.9657708333333334,
      "grad_norm": 0.9039582014083862,
      "learning_rate": 8.73691865009557e-07,
      "loss": 3.2764,
      "step": 463570
    },
    {
      "epoch": 0.9657916666666667,
      "grad_norm": 0.9222740530967712,
      "learning_rate": 8.726296883443007e-07,
      "loss": 3.3025,
      "step": 463580
    },
    {
      "epoch": 0.9658125,
      "grad_norm": 0.9357365965843201,
      "learning_rate": 8.715681558502441e-07,
      "loss": 3.2188,
      "step": 463590
    },
    {
      "epoch": 0.9658333333333333,
      "grad_norm": 1.0104032754898071,
      "learning_rate": 8.705072675320002e-07,
      "loss": 3.3619,
      "step": 463600
    },
    {
      "epoch": 0.9658541666666667,
      "grad_norm": 0.9248106479644775,
      "learning_rate": 8.694470233941319e-07,
      "loss": 3.3247,
      "step": 463610
    },
    {
      "epoch": 0.965875,
      "grad_norm": 0.9676597714424133,
      "learning_rate": 8.683874234412024e-07,
      "loss": 3.3694,
      "step": 463620
    },
    {
      "epoch": 0.9658958333333333,
      "grad_norm": 0.9143193364143372,
      "learning_rate": 8.673284676778247e-07,
      "loss": 3.2739,
      "step": 463630
    },
    {
      "epoch": 0.9659166666666666,
      "grad_norm": 0.9349309206008911,
      "learning_rate": 8.662701561085617e-07,
      "loss": 3.2719,
      "step": 463640
    },
    {
      "epoch": 0.9659375,
      "grad_norm": 0.9465435743331909,
      "learning_rate": 8.652124887379764e-07,
      "loss": 3.3454,
      "step": 463650
    },
    {
      "epoch": 0.9659583333333334,
      "grad_norm": 1.0348832607269287,
      "learning_rate": 8.641554655706317e-07,
      "loss": 3.3131,
      "step": 463660
    },
    {
      "epoch": 0.9659791666666667,
      "grad_norm": 1.2716467380523682,
      "learning_rate": 8.630990866111242e-07,
      "loss": 3.35,
      "step": 463670
    },
    {
      "epoch": 0.966,
      "grad_norm": 1.0292969942092896,
      "learning_rate": 8.620433518639835e-07,
      "loss": 3.4607,
      "step": 463680
    },
    {
      "epoch": 0.9660208333333333,
      "grad_norm": 0.964826762676239,
      "learning_rate": 8.609882613337727e-07,
      "loss": 3.3314,
      "step": 463690
    },
    {
      "epoch": 0.9660416666666667,
      "grad_norm": 1.014319896697998,
      "learning_rate": 8.599338150250712e-07,
      "loss": 3.4262,
      "step": 463700
    },
    {
      "epoch": 0.9660625,
      "grad_norm": 1.042780876159668,
      "learning_rate": 8.588800129424255e-07,
      "loss": 3.2461,
      "step": 463710
    },
    {
      "epoch": 0.9660833333333333,
      "grad_norm": 0.9395310878753662,
      "learning_rate": 8.578268550903656e-07,
      "loss": 3.2189,
      "step": 463720
    },
    {
      "epoch": 0.9661041666666667,
      "grad_norm": 0.9008821845054626,
      "learning_rate": 8.567743414734874e-07,
      "loss": 3.309,
      "step": 463730
    },
    {
      "epoch": 0.966125,
      "grad_norm": 0.9473782181739807,
      "learning_rate": 8.557224720962874e-07,
      "loss": 3.4724,
      "step": 463740
    },
    {
      "epoch": 0.9661458333333334,
      "grad_norm": 0.9710885882377625,
      "learning_rate": 8.546712469633288e-07,
      "loss": 3.3488,
      "step": 463750
    },
    {
      "epoch": 0.9661666666666666,
      "grad_norm": 0.9554165601730347,
      "learning_rate": 8.536206660791745e-07,
      "loss": 3.4433,
      "step": 463760
    },
    {
      "epoch": 0.9661875,
      "grad_norm": 0.9274412989616394,
      "learning_rate": 8.525707294483208e-07,
      "loss": 3.2949,
      "step": 463770
    },
    {
      "epoch": 0.9662083333333333,
      "grad_norm": 0.8644251823425293,
      "learning_rate": 8.515214370753476e-07,
      "loss": 3.2755,
      "step": 463780
    },
    {
      "epoch": 0.9662291666666667,
      "grad_norm": 1.0497841835021973,
      "learning_rate": 8.504727889647512e-07,
      "loss": 3.3326,
      "step": 463790
    },
    {
      "epoch": 0.96625,
      "grad_norm": 0.8790754675865173,
      "learning_rate": 8.494247851210778e-07,
      "loss": 3.2374,
      "step": 463800
    },
    {
      "epoch": 0.9662708333333333,
      "grad_norm": 0.9229589104652405,
      "learning_rate": 8.483774255488407e-07,
      "loss": 3.3834,
      "step": 463810
    },
    {
      "epoch": 0.9662916666666667,
      "grad_norm": 1.0067138671875,
      "learning_rate": 8.473307102525861e-07,
      "loss": 3.2485,
      "step": 463820
    },
    {
      "epoch": 0.9663125,
      "grad_norm": 1.0672413110733032,
      "learning_rate": 8.462846392368273e-07,
      "loss": 3.3508,
      "step": 463830
    },
    {
      "epoch": 0.9663333333333334,
      "grad_norm": 1.0379539728164673,
      "learning_rate": 8.452392125060603e-07,
      "loss": 3.3273,
      "step": 463840
    },
    {
      "epoch": 0.9663541666666666,
      "grad_norm": 0.9033836126327515,
      "learning_rate": 8.441944300648484e-07,
      "loss": 3.3561,
      "step": 463850
    },
    {
      "epoch": 0.966375,
      "grad_norm": 0.9590417742729187,
      "learning_rate": 8.431502919176547e-07,
      "loss": 3.317,
      "step": 463860
    },
    {
      "epoch": 0.9663958333333333,
      "grad_norm": 0.8692420721054077,
      "learning_rate": 8.421067980690255e-07,
      "loss": 3.24,
      "step": 463870
    },
    {
      "epoch": 0.9664166666666667,
      "grad_norm": 0.9168657660484314,
      "learning_rate": 8.410639485234405e-07,
      "loss": 3.284,
      "step": 463880
    },
    {
      "epoch": 0.9664375,
      "grad_norm": 0.9084620475769043,
      "learning_rate": 8.400217432854295e-07,
      "loss": 3.2669,
      "step": 463890
    },
    {
      "epoch": 0.9664583333333333,
      "grad_norm": 0.9047897458076477,
      "learning_rate": 8.389801823594721e-07,
      "loss": 3.3029,
      "step": 463900
    },
    {
      "epoch": 0.9664791666666667,
      "grad_norm": 1.1289844512939453,
      "learning_rate": 8.379392657500816e-07,
      "loss": 3.1501,
      "step": 463910
    },
    {
      "epoch": 0.9665,
      "grad_norm": 0.9620670080184937,
      "learning_rate": 8.368989934617542e-07,
      "loss": 3.4454,
      "step": 463920
    },
    {
      "epoch": 0.9665208333333334,
      "grad_norm": 0.862184464931488,
      "learning_rate": 8.358593654989865e-07,
      "loss": 3.3466,
      "step": 463930
    },
    {
      "epoch": 0.9665416666666666,
      "grad_norm": 0.8718457818031311,
      "learning_rate": 8.34820381866258e-07,
      "loss": 3.3021,
      "step": 463940
    },
    {
      "epoch": 0.9665625,
      "grad_norm": 0.9157499074935913,
      "learning_rate": 8.337820425680652e-07,
      "loss": 3.2745,
      "step": 463950
    },
    {
      "epoch": 0.9665833333333333,
      "grad_norm": 0.9698047041893005,
      "learning_rate": 8.32744347608888e-07,
      "loss": 3.4078,
      "step": 463960
    },
    {
      "epoch": 0.9666041666666667,
      "grad_norm": 1.071427345275879,
      "learning_rate": 8.317072969931892e-07,
      "loss": 3.2626,
      "step": 463970
    },
    {
      "epoch": 0.966625,
      "grad_norm": 0.912798285484314,
      "learning_rate": 8.306708907254989e-07,
      "loss": 3.2123,
      "step": 463980
    },
    {
      "epoch": 0.9666458333333333,
      "grad_norm": 0.932650625705719,
      "learning_rate": 8.296351288102632e-07,
      "loss": 3.1745,
      "step": 463990
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 0.932105541229248,
      "learning_rate": 8.286000112519453e-07,
      "loss": 3.4306,
      "step": 464000
    },
    {
      "epoch": 0.9666666666666667,
      "eval_loss": 4.022031307220459,
      "eval_runtime": 8.4323,
      "eval_samples_per_second": 1.186,
      "eval_steps_per_second": 0.356,
      "step": 464000
    },
    {
      "epoch": 0.9666875,
      "grad_norm": 1.012715458869934,
      "learning_rate": 8.275655380550416e-07,
      "loss": 3.4071,
      "step": 464010
    },
    {
      "epoch": 0.9667083333333333,
      "grad_norm": 0.8975868225097656,
      "learning_rate": 8.265317092239987e-07,
      "loss": 3.3676,
      "step": 464020
    },
    {
      "epoch": 0.9667291666666666,
      "grad_norm": 0.9114348292350769,
      "learning_rate": 8.254985247632795e-07,
      "loss": 3.4182,
      "step": 464030
    },
    {
      "epoch": 0.96675,
      "grad_norm": 1.0015966892242432,
      "learning_rate": 8.244659846773805e-07,
      "loss": 3.3429,
      "step": 464040
    },
    {
      "epoch": 0.9667708333333334,
      "grad_norm": 0.9982377290725708,
      "learning_rate": 8.234340889707313e-07,
      "loss": 3.2038,
      "step": 464050
    },
    {
      "epoch": 0.9667916666666667,
      "grad_norm": 1.1749179363250732,
      "learning_rate": 8.224028376477953e-07,
      "loss": 3.3591,
      "step": 464060
    },
    {
      "epoch": 0.9668125,
      "grad_norm": 0.9041084051132202,
      "learning_rate": 8.213722307130522e-07,
      "loss": 3.4231,
      "step": 464070
    },
    {
      "epoch": 0.9668333333333333,
      "grad_norm": 0.9540748596191406,
      "learning_rate": 8.203422681709149e-07,
      "loss": 3.2537,
      "step": 464080
    },
    {
      "epoch": 0.9668541666666667,
      "grad_norm": 0.8952938318252563,
      "learning_rate": 8.1931295002583e-07,
      "loss": 3.3106,
      "step": 464090
    },
    {
      "epoch": 0.966875,
      "grad_norm": 0.8870347142219543,
      "learning_rate": 8.182842762822938e-07,
      "loss": 3.3329,
      "step": 464100
    },
    {
      "epoch": 0.9668958333333333,
      "grad_norm": 1.0363236665725708,
      "learning_rate": 8.172562469447197e-07,
      "loss": 3.3613,
      "step": 464110
    },
    {
      "epoch": 0.9669166666666666,
      "grad_norm": 0.9339868426322937,
      "learning_rate": 8.162288620175372e-07,
      "loss": 3.2382,
      "step": 464120
    },
    {
      "epoch": 0.9669375,
      "grad_norm": 0.9040724039077759,
      "learning_rate": 8.152021215051929e-07,
      "loss": 3.3124,
      "step": 464130
    },
    {
      "epoch": 0.9669583333333334,
      "grad_norm": 0.9248911738395691,
      "learning_rate": 8.141760254121166e-07,
      "loss": 3.319,
      "step": 464140
    },
    {
      "epoch": 0.9669791666666666,
      "grad_norm": 0.8928855657577515,
      "learning_rate": 8.131505737427546e-07,
      "loss": 3.4363,
      "step": 464150
    },
    {
      "epoch": 0.967,
      "grad_norm": 0.9512037038803101,
      "learning_rate": 8.121257665015368e-07,
      "loss": 3.2305,
      "step": 464160
    },
    {
      "epoch": 0.9670208333333333,
      "grad_norm": 0.9659420847892761,
      "learning_rate": 8.111016036928764e-07,
      "loss": 3.2304,
      "step": 464170
    },
    {
      "epoch": 0.9670416666666667,
      "grad_norm": 0.9293383359909058,
      "learning_rate": 8.100780853212197e-07,
      "loss": 3.3425,
      "step": 464180
    },
    {
      "epoch": 0.9670625,
      "grad_norm": 0.9968661069869995,
      "learning_rate": 8.090552113909465e-07,
      "loss": 3.3091,
      "step": 464190
    },
    {
      "epoch": 0.9670833333333333,
      "grad_norm": 0.8995677828788757,
      "learning_rate": 8.080329819065201e-07,
      "loss": 3.306,
      "step": 464200
    },
    {
      "epoch": 0.9671041666666667,
      "grad_norm": 0.9338808059692383,
      "learning_rate": 8.070113968723369e-07,
      "loss": 3.2595,
      "step": 464210
    },
    {
      "epoch": 0.967125,
      "grad_norm": 0.9446309804916382,
      "learning_rate": 8.059904562927932e-07,
      "loss": 3.3949,
      "step": 464220
    },
    {
      "epoch": 0.9671458333333334,
      "grad_norm": 0.9600068926811218,
      "learning_rate": 8.049701601723357e-07,
      "loss": 3.3936,
      "step": 464230
    },
    {
      "epoch": 0.9671666666666666,
      "grad_norm": 0.8100335001945496,
      "learning_rate": 8.039505085153441e-07,
      "loss": 3.2706,
      "step": 464240
    },
    {
      "epoch": 0.9671875,
      "grad_norm": 0.8409774899482727,
      "learning_rate": 8.029315013262149e-07,
      "loss": 3.3703,
      "step": 464250
    },
    {
      "epoch": 0.9672083333333333,
      "grad_norm": 0.9786600470542908,
      "learning_rate": 8.01913138609378e-07,
      "loss": 3.4491,
      "step": 464260
    },
    {
      "epoch": 0.9672291666666667,
      "grad_norm": 1.0744680166244507,
      "learning_rate": 8.008954203692297e-07,
      "loss": 3.3362,
      "step": 464270
    },
    {
      "epoch": 0.96725,
      "grad_norm": 0.9276171922683716,
      "learning_rate": 7.998783466101499e-07,
      "loss": 3.2681,
      "step": 464280
    },
    {
      "epoch": 0.9672708333333333,
      "grad_norm": 1.059312105178833,
      "learning_rate": 7.988619173365352e-07,
      "loss": 3.395,
      "step": 464290
    },
    {
      "epoch": 0.9672916666666667,
      "grad_norm": 1.01254141330719,
      "learning_rate": 7.978461325527818e-07,
      "loss": 3.3419,
      "step": 464300
    },
    {
      "epoch": 0.9673125,
      "grad_norm": 0.8945543766021729,
      "learning_rate": 7.968309922632698e-07,
      "loss": 3.0575,
      "step": 464310
    },
    {
      "epoch": 0.9673333333333334,
      "grad_norm": 0.9865944385528564,
      "learning_rate": 7.95816496472379e-07,
      "loss": 3.3841,
      "step": 464320
    },
    {
      "epoch": 0.9673541666666666,
      "grad_norm": 0.8857864737510681,
      "learning_rate": 7.948026451845224e-07,
      "loss": 3.3385,
      "step": 464330
    },
    {
      "epoch": 0.967375,
      "grad_norm": 1.011210322380066,
      "learning_rate": 7.937894384040466e-07,
      "loss": 3.359,
      "step": 464340
    },
    {
      "epoch": 0.9673958333333333,
      "grad_norm": 0.9450977444648743,
      "learning_rate": 7.927768761353482e-07,
      "loss": 3.3179,
      "step": 464350
    },
    {
      "epoch": 0.9674166666666667,
      "grad_norm": 0.9907087087631226,
      "learning_rate": 7.917649583827901e-07,
      "loss": 3.2599,
      "step": 464360
    },
    {
      "epoch": 0.9674375,
      "grad_norm": 0.9401978850364685,
      "learning_rate": 7.907536851507357e-07,
      "loss": 3.1898,
      "step": 464370
    },
    {
      "epoch": 0.9674583333333333,
      "grad_norm": 0.8895320296287537,
      "learning_rate": 7.897430564435814e-07,
      "loss": 3.293,
      "step": 464380
    },
    {
      "epoch": 0.9674791666666667,
      "grad_norm": 0.8992922306060791,
      "learning_rate": 7.887330722656738e-07,
      "loss": 3.4821,
      "step": 464390
    },
    {
      "epoch": 0.9675,
      "grad_norm": 0.9013975858688354,
      "learning_rate": 7.877237326213592e-07,
      "loss": 3.2785,
      "step": 464400
    },
    {
      "epoch": 0.9675208333333334,
      "grad_norm": 0.908575713634491,
      "learning_rate": 7.86715037515051e-07,
      "loss": 3.3101,
      "step": 464410
    },
    {
      "epoch": 0.9675416666666666,
      "grad_norm": 0.9877551198005676,
      "learning_rate": 7.857069869510457e-07,
      "loss": 3.2554,
      "step": 464420
    },
    {
      "epoch": 0.9675625,
      "grad_norm": 0.959926187992096,
      "learning_rate": 7.846995809337231e-07,
      "loss": 3.2956,
      "step": 464430
    },
    {
      "epoch": 0.9675833333333334,
      "grad_norm": 0.8003917932510376,
      "learning_rate": 7.836928194674296e-07,
      "loss": 3.2258,
      "step": 464440
    },
    {
      "epoch": 0.9676041666666667,
      "grad_norm": 0.8299858570098877,
      "learning_rate": 7.826867025565287e-07,
      "loss": 3.3151,
      "step": 464450
    },
    {
      "epoch": 0.967625,
      "grad_norm": 0.8930324912071228,
      "learning_rate": 7.816812302053499e-07,
      "loss": 3.4323,
      "step": 464460
    },
    {
      "epoch": 0.9676458333333333,
      "grad_norm": 0.9189637303352356,
      "learning_rate": 7.806764024182566e-07,
      "loss": 3.2978,
      "step": 464470
    },
    {
      "epoch": 0.9676666666666667,
      "grad_norm": 0.8798084855079651,
      "learning_rate": 7.796722191995786e-07,
      "loss": 3.4142,
      "step": 464480
    },
    {
      "epoch": 0.9676875,
      "grad_norm": 0.998925507068634,
      "learning_rate": 7.786686805536458e-07,
      "loss": 3.2198,
      "step": 464490
    },
    {
      "epoch": 0.9677083333333333,
      "grad_norm": 0.8910635113716125,
      "learning_rate": 7.776657864847879e-07,
      "loss": 3.2949,
      "step": 464500
    },
    {
      "epoch": 0.9677291666666666,
      "grad_norm": 0.8914718627929688,
      "learning_rate": 7.766635369973517e-07,
      "loss": 3.3094,
      "step": 464510
    },
    {
      "epoch": 0.96775,
      "grad_norm": 1.0561879873275757,
      "learning_rate": 7.75661932095667e-07,
      "loss": 3.2881,
      "step": 464520
    },
    {
      "epoch": 0.9677708333333334,
      "grad_norm": 1.028003454208374,
      "learning_rate": 7.746609717840469e-07,
      "loss": 3.2574,
      "step": 464530
    },
    {
      "epoch": 0.9677916666666667,
      "grad_norm": 0.9503180384635925,
      "learning_rate": 7.736606560668379e-07,
      "loss": 3.3677,
      "step": 464540
    },
    {
      "epoch": 0.9678125,
      "grad_norm": 0.9604169726371765,
      "learning_rate": 7.726609849483368e-07,
      "loss": 3.3168,
      "step": 464550
    },
    {
      "epoch": 0.9678333333333333,
      "grad_norm": 0.9951968193054199,
      "learning_rate": 7.716619584328731e-07,
      "loss": 3.2711,
      "step": 464560
    },
    {
      "epoch": 0.9678541666666667,
      "grad_norm": 0.9206447005271912,
      "learning_rate": 7.706635765247604e-07,
      "loss": 3.1822,
      "step": 464570
    },
    {
      "epoch": 0.967875,
      "grad_norm": 0.9440329074859619,
      "learning_rate": 7.696658392283117e-07,
      "loss": 3.3113,
      "step": 464580
    },
    {
      "epoch": 0.9678958333333333,
      "grad_norm": 0.8692305684089661,
      "learning_rate": 7.686687465478402e-07,
      "loss": 3.445,
      "step": 464590
    },
    {
      "epoch": 0.9679166666666666,
      "grad_norm": 0.9139545559883118,
      "learning_rate": 7.676722984876593e-07,
      "loss": 3.3114,
      "step": 464600
    },
    {
      "epoch": 0.9679375,
      "grad_norm": 0.9286421537399292,
      "learning_rate": 7.666764950520488e-07,
      "loss": 3.2334,
      "step": 464610
    },
    {
      "epoch": 0.9679583333333334,
      "grad_norm": 0.9900398254394531,
      "learning_rate": 7.656813362453218e-07,
      "loss": 3.3455,
      "step": 464620
    },
    {
      "epoch": 0.9679791666666666,
      "grad_norm": 0.9453141093254089,
      "learning_rate": 7.646868220717917e-07,
      "loss": 3.2256,
      "step": 464630
    },
    {
      "epoch": 0.968,
      "grad_norm": 0.9362517595291138,
      "learning_rate": 7.63692952535755e-07,
      "loss": 3.3945,
      "step": 464640
    },
    {
      "epoch": 0.9680208333333333,
      "grad_norm": 0.9247466921806335,
      "learning_rate": 7.626997276414581e-07,
      "loss": 3.3158,
      "step": 464650
    },
    {
      "epoch": 0.9680416666666667,
      "grad_norm": 0.9314910769462585,
      "learning_rate": 7.617071473932479e-07,
      "loss": 3.3265,
      "step": 464660
    },
    {
      "epoch": 0.9680625,
      "grad_norm": 0.9118878245353699,
      "learning_rate": 7.607152117954041e-07,
      "loss": 3.3293,
      "step": 464670
    },
    {
      "epoch": 0.9680833333333333,
      "grad_norm": 0.8363581299781799,
      "learning_rate": 7.597239208521732e-07,
      "loss": 3.4854,
      "step": 464680
    },
    {
      "epoch": 0.9681041666666667,
      "grad_norm": 0.8018288612365723,
      "learning_rate": 7.587332745678687e-07,
      "loss": 3.2244,
      "step": 464690
    },
    {
      "epoch": 0.968125,
      "grad_norm": 1.0501817464828491,
      "learning_rate": 7.577432729467702e-07,
      "loss": 3.369,
      "step": 464700
    },
    {
      "epoch": 0.9681458333333334,
      "grad_norm": 1.0998669862747192,
      "learning_rate": 7.567539159931413e-07,
      "loss": 3.2707,
      "step": 464710
    },
    {
      "epoch": 0.9681666666666666,
      "grad_norm": 0.9304102659225464,
      "learning_rate": 7.557652037112616e-07,
      "loss": 3.3702,
      "step": 464720
    },
    {
      "epoch": 0.9681875,
      "grad_norm": 1.0338150262832642,
      "learning_rate": 7.547771361053944e-07,
      "loss": 3.3588,
      "step": 464730
    },
    {
      "epoch": 0.9682083333333333,
      "grad_norm": 1.043940782546997,
      "learning_rate": 7.537897131798198e-07,
      "loss": 3.2819,
      "step": 464740
    },
    {
      "epoch": 0.9682291666666667,
      "grad_norm": 0.8522148728370667,
      "learning_rate": 7.52802934938801e-07,
      "loss": 3.2517,
      "step": 464750
    },
    {
      "epoch": 0.96825,
      "grad_norm": 1.0282738208770752,
      "learning_rate": 7.518168013866011e-07,
      "loss": 3.264,
      "step": 464760
    },
    {
      "epoch": 0.9682708333333333,
      "grad_norm": 0.8895592093467712,
      "learning_rate": 7.508313125274501e-07,
      "loss": 3.3591,
      "step": 464770
    },
    {
      "epoch": 0.9682916666666667,
      "grad_norm": 0.9990460872650146,
      "learning_rate": 7.498464683656613e-07,
      "loss": 3.303,
      "step": 464780
    },
    {
      "epoch": 0.9683125,
      "grad_norm": 0.9877082705497742,
      "learning_rate": 7.48862268905448e-07,
      "loss": 3.2822,
      "step": 464790
    },
    {
      "epoch": 0.9683333333333334,
      "grad_norm": 0.8864843845367432,
      "learning_rate": 7.478787141510567e-07,
      "loss": 3.2835,
      "step": 464800
    },
    {
      "epoch": 0.9683541666666666,
      "grad_norm": 1.0127354860305786,
      "learning_rate": 7.468958041067841e-07,
      "loss": 3.2585,
      "step": 464810
    },
    {
      "epoch": 0.968375,
      "grad_norm": 0.8647676706314087,
      "learning_rate": 7.459135387768267e-07,
      "loss": 3.2108,
      "step": 464820
    },
    {
      "epoch": 0.9683958333333333,
      "grad_norm": 0.8591302633285522,
      "learning_rate": 7.449319181654312e-07,
      "loss": 3.3956,
      "step": 464830
    },
    {
      "epoch": 0.9684166666666667,
      "grad_norm": 0.8944435119628906,
      "learning_rate": 7.439509422768608e-07,
      "loss": 3.2875,
      "step": 464840
    },
    {
      "epoch": 0.9684375,
      "grad_norm": 0.9053717255592346,
      "learning_rate": 7.429706111153455e-07,
      "loss": 3.3585,
      "step": 464850
    },
    {
      "epoch": 0.9684583333333333,
      "grad_norm": 0.9628135561943054,
      "learning_rate": 7.419909246851152e-07,
      "loss": 3.2279,
      "step": 464860
    },
    {
      "epoch": 0.9684791666666667,
      "grad_norm": 1.0230077505111694,
      "learning_rate": 7.410118829903999e-07,
      "loss": 3.3004,
      "step": 464870
    },
    {
      "epoch": 0.9685,
      "grad_norm": 1.0479378700256348,
      "learning_rate": 7.400334860354462e-07,
      "loss": 3.316,
      "step": 464880
    },
    {
      "epoch": 0.9685208333333334,
      "grad_norm": 0.8718178272247314,
      "learning_rate": 7.390557338244507e-07,
      "loss": 3.1915,
      "step": 464890
    },
    {
      "epoch": 0.9685416666666666,
      "grad_norm": 1.0115567445755005,
      "learning_rate": 7.3807862636166e-07,
      "loss": 3.2932,
      "step": 464900
    },
    {
      "epoch": 0.9685625,
      "grad_norm": 0.9625380039215088,
      "learning_rate": 7.371021636512875e-07,
      "loss": 3.2381,
      "step": 464910
    },
    {
      "epoch": 0.9685833333333334,
      "grad_norm": 0.9966170191764832,
      "learning_rate": 7.361263456975463e-07,
      "loss": 3.3729,
      "step": 464920
    },
    {
      "epoch": 0.9686041666666667,
      "grad_norm": 1.1022164821624756,
      "learning_rate": 7.351511725046665e-07,
      "loss": 3.2944,
      "step": 464930
    },
    {
      "epoch": 0.968625,
      "grad_norm": 0.9669843912124634,
      "learning_rate": 7.341766440768448e-07,
      "loss": 3.3029,
      "step": 464940
    },
    {
      "epoch": 0.9686458333333333,
      "grad_norm": 0.8824009299278259,
      "learning_rate": 7.332027604182944e-07,
      "loss": 3.3059,
      "step": 464950
    },
    {
      "epoch": 0.9686666666666667,
      "grad_norm": 0.951320469379425,
      "learning_rate": 7.322295215332285e-07,
      "loss": 3.258,
      "step": 464960
    },
    {
      "epoch": 0.9686875,
      "grad_norm": 1.080150842666626,
      "learning_rate": 7.312569274258439e-07,
      "loss": 3.2535,
      "step": 464970
    },
    {
      "epoch": 0.9687083333333333,
      "grad_norm": 0.9983338117599487,
      "learning_rate": 7.302849781003373e-07,
      "loss": 3.3813,
      "step": 464980
    },
    {
      "epoch": 0.9687291666666666,
      "grad_norm": 0.9205455183982849,
      "learning_rate": 7.293136735609217e-07,
      "loss": 3.2685,
      "step": 464990
    },
    {
      "epoch": 0.96875,
      "grad_norm": 0.9393340349197388,
      "learning_rate": 7.283430138117941e-07,
      "loss": 3.3226,
      "step": 465000
    },
    {
      "epoch": 0.96875,
      "eval_loss": 4.022938251495361,
      "eval_runtime": 8.4828,
      "eval_samples_per_second": 1.179,
      "eval_steps_per_second": 0.354,
      "step": 465000
    },
    {
      "epoch": 0.9687708333333334,
      "grad_norm": 0.8851693272590637,
      "learning_rate": 7.273729988571341e-07,
      "loss": 3.3678,
      "step": 465010
    },
    {
      "epoch": 0.9687916666666667,
      "grad_norm": 0.9315200448036194,
      "learning_rate": 7.264036287011221e-07,
      "loss": 3.2032,
      "step": 465020
    },
    {
      "epoch": 0.9688125,
      "grad_norm": 0.877739667892456,
      "learning_rate": 7.254349033479711e-07,
      "loss": 3.3258,
      "step": 465030
    },
    {
      "epoch": 0.9688333333333333,
      "grad_norm": 0.8987053632736206,
      "learning_rate": 7.244668228018613e-07,
      "loss": 3.4098,
      "step": 465040
    },
    {
      "epoch": 0.9688541666666667,
      "grad_norm": 0.8950957655906677,
      "learning_rate": 7.234993870669559e-07,
      "loss": 3.3433,
      "step": 465050
    },
    {
      "epoch": 0.968875,
      "grad_norm": 0.8780372738838196,
      "learning_rate": 7.225325961474515e-07,
      "loss": 3.3943,
      "step": 465060
    },
    {
      "epoch": 0.9688958333333333,
      "grad_norm": 0.9970828890800476,
      "learning_rate": 7.215664500475115e-07,
      "loss": 3.306,
      "step": 465070
    },
    {
      "epoch": 0.9689166666666666,
      "grad_norm": 0.9158226847648621,
      "learning_rate": 7.20600948771316e-07,
      "loss": 3.3395,
      "step": 465080
    },
    {
      "epoch": 0.9689375,
      "grad_norm": 0.9105793237686157,
      "learning_rate": 7.196360923230448e-07,
      "loss": 3.3333,
      "step": 465090
    },
    {
      "epoch": 0.9689583333333334,
      "grad_norm": 0.8712567687034607,
      "learning_rate": 7.186718807068614e-07,
      "loss": 3.2785,
      "step": 465100
    },
    {
      "epoch": 0.9689791666666666,
      "grad_norm": 1.0919371843338013,
      "learning_rate": 7.177083139269124e-07,
      "loss": 3.3205,
      "step": 465110
    },
    {
      "epoch": 0.969,
      "grad_norm": 0.8776623606681824,
      "learning_rate": 7.167453919873778e-07,
      "loss": 3.2707,
      "step": 465120
    },
    {
      "epoch": 0.9690208333333333,
      "grad_norm": 0.994099497795105,
      "learning_rate": 7.157831148924209e-07,
      "loss": 3.3359,
      "step": 465130
    },
    {
      "epoch": 0.9690416666666667,
      "grad_norm": 0.8566667437553406,
      "learning_rate": 7.148214826461718e-07,
      "loss": 3.2835,
      "step": 465140
    },
    {
      "epoch": 0.9690625,
      "grad_norm": 1.023935317993164,
      "learning_rate": 7.138604952528104e-07,
      "loss": 3.3529,
      "step": 465150
    },
    {
      "epoch": 0.9690833333333333,
      "grad_norm": 0.8565771579742432,
      "learning_rate": 7.129001527164835e-07,
      "loss": 3.4728,
      "step": 465160
    },
    {
      "epoch": 0.9691041666666667,
      "grad_norm": 0.9777728915214539,
      "learning_rate": 7.119404550413377e-07,
      "loss": 3.3704,
      "step": 465170
    },
    {
      "epoch": 0.969125,
      "grad_norm": 1.0169572830200195,
      "learning_rate": 7.109814022315197e-07,
      "loss": 3.4204,
      "step": 465180
    },
    {
      "epoch": 0.9691458333333334,
      "grad_norm": 0.9439516663551331,
      "learning_rate": 7.100229942911595e-07,
      "loss": 3.2027,
      "step": 465190
    },
    {
      "epoch": 0.9691666666666666,
      "grad_norm": 0.9084332585334778,
      "learning_rate": 7.090652312244038e-07,
      "loss": 3.3228,
      "step": 465200
    },
    {
      "epoch": 0.9691875,
      "grad_norm": 0.9858686923980713,
      "learning_rate": 7.081081130353993e-07,
      "loss": 3.2486,
      "step": 465210
    },
    {
      "epoch": 0.9692083333333333,
      "grad_norm": 0.9294859170913696,
      "learning_rate": 7.071516397282762e-07,
      "loss": 3.2679,
      "step": 465220
    },
    {
      "epoch": 0.9692291666666667,
      "grad_norm": 0.9279977083206177,
      "learning_rate": 7.061958113071642e-07,
      "loss": 3.2988,
      "step": 465230
    },
    {
      "epoch": 0.96925,
      "grad_norm": 0.9767799973487854,
      "learning_rate": 7.052406277761935e-07,
      "loss": 3.2846,
      "step": 465240
    },
    {
      "epoch": 0.9692708333333333,
      "grad_norm": 0.9891589879989624,
      "learning_rate": 7.042860891394774e-07,
      "loss": 3.3522,
      "step": 465250
    },
    {
      "epoch": 0.9692916666666667,
      "grad_norm": 0.9265667200088501,
      "learning_rate": 7.033321954011629e-07,
      "loss": 3.2303,
      "step": 465260
    },
    {
      "epoch": 0.9693125,
      "grad_norm": 0.9494246244430542,
      "learning_rate": 7.023789465653462e-07,
      "loss": 3.2375,
      "step": 465270
    },
    {
      "epoch": 0.9693333333333334,
      "grad_norm": 0.9961761832237244,
      "learning_rate": 7.014263426361744e-07,
      "loss": 3.3592,
      "step": 465280
    },
    {
      "epoch": 0.9693541666666666,
      "grad_norm": 1.0465283393859863,
      "learning_rate": 7.004743836177273e-07,
      "loss": 3.2859,
      "step": 465290
    },
    {
      "epoch": 0.969375,
      "grad_norm": 0.9133405685424805,
      "learning_rate": 6.995230695141352e-07,
      "loss": 3.4021,
      "step": 465300
    },
    {
      "epoch": 0.9693958333333333,
      "grad_norm": 0.9256364107131958,
      "learning_rate": 6.985724003295112e-07,
      "loss": 3.317,
      "step": 465310
    },
    {
      "epoch": 0.9694166666666667,
      "grad_norm": 0.9702631831169128,
      "learning_rate": 6.976223760679522e-07,
      "loss": 3.4059,
      "step": 465320
    },
    {
      "epoch": 0.9694375,
      "grad_norm": 0.8939692974090576,
      "learning_rate": 6.966729967335715e-07,
      "loss": 3.3446,
      "step": 465330
    },
    {
      "epoch": 0.9694583333333333,
      "grad_norm": 0.9301256537437439,
      "learning_rate": 6.95724262330466e-07,
      "loss": 3.4077,
      "step": 465340
    },
    {
      "epoch": 0.9694791666666667,
      "grad_norm": 0.9621858596801758,
      "learning_rate": 6.947761728627321e-07,
      "loss": 3.3204,
      "step": 465350
    },
    {
      "epoch": 0.9695,
      "grad_norm": 0.920548677444458,
      "learning_rate": 6.938287283344668e-07,
      "loss": 3.2596,
      "step": 465360
    },
    {
      "epoch": 0.9695208333333334,
      "grad_norm": 0.9184919595718384,
      "learning_rate": 6.9288192874975e-07,
      "loss": 3.3574,
      "step": 465370
    },
    {
      "epoch": 0.9695416666666666,
      "grad_norm": 0.9178838729858398,
      "learning_rate": 6.919357741126951e-07,
      "loss": 3.2481,
      "step": 465380
    },
    {
      "epoch": 0.9695625,
      "grad_norm": 0.9410714507102966,
      "learning_rate": 6.909902644273657e-07,
      "loss": 3.2621,
      "step": 465390
    },
    {
      "epoch": 0.9695833333333334,
      "grad_norm": 0.9236992597579956,
      "learning_rate": 6.90045399697875e-07,
      "loss": 3.3286,
      "step": 465400
    },
    {
      "epoch": 0.9696041666666667,
      "grad_norm": 0.9323894381523132,
      "learning_rate": 6.891011799282864e-07,
      "loss": 3.2749,
      "step": 465410
    },
    {
      "epoch": 0.969625,
      "grad_norm": 0.939859926700592,
      "learning_rate": 6.881576051226634e-07,
      "loss": 3.5417,
      "step": 465420
    },
    {
      "epoch": 0.9696458333333333,
      "grad_norm": 0.8627642393112183,
      "learning_rate": 6.872146752851026e-07,
      "loss": 3.2919,
      "step": 465430
    },
    {
      "epoch": 0.9696666666666667,
      "grad_norm": 0.9332437515258789,
      "learning_rate": 6.862723904196843e-07,
      "loss": 3.3582,
      "step": 465440
    },
    {
      "epoch": 0.9696875,
      "grad_norm": 0.9407111406326294,
      "learning_rate": 6.853307505304551e-07,
      "loss": 3.2888,
      "step": 465450
    },
    {
      "epoch": 0.9697083333333333,
      "grad_norm": 0.9787318706512451,
      "learning_rate": 6.84389755621495e-07,
      "loss": 3.3737,
      "step": 465460
    },
    {
      "epoch": 0.9697291666666666,
      "grad_norm": 0.9895440936088562,
      "learning_rate": 6.834494056968842e-07,
      "loss": 3.3652,
      "step": 465470
    },
    {
      "epoch": 0.96975,
      "grad_norm": 0.8851478099822998,
      "learning_rate": 6.825097007606528e-07,
      "loss": 3.4957,
      "step": 465480
    },
    {
      "epoch": 0.9697708333333334,
      "grad_norm": 0.8725982904434204,
      "learning_rate": 6.815706408168809e-07,
      "loss": 3.2664,
      "step": 465490
    },
    {
      "epoch": 0.9697916666666667,
      "grad_norm": 0.9097514748573303,
      "learning_rate": 6.806322258696151e-07,
      "loss": 3.3429,
      "step": 465500
    },
    {
      "epoch": 0.9698125,
      "grad_norm": 1.0414923429489136,
      "learning_rate": 6.796944559229023e-07,
      "loss": 3.4257,
      "step": 465510
    },
    {
      "epoch": 0.9698333333333333,
      "grad_norm": 0.9312171339988708,
      "learning_rate": 6.787573309808225e-07,
      "loss": 3.2353,
      "step": 465520
    },
    {
      "epoch": 0.9698541666666667,
      "grad_norm": 0.8469654321670532,
      "learning_rate": 6.778208510474059e-07,
      "loss": 3.3612,
      "step": 465530
    },
    {
      "epoch": 0.969875,
      "grad_norm": 0.8615358471870422,
      "learning_rate": 6.768850161266826e-07,
      "loss": 3.2153,
      "step": 465540
    },
    {
      "epoch": 0.9698958333333333,
      "grad_norm": 1.0993108749389648,
      "learning_rate": 6.759498262227158e-07,
      "loss": 3.3856,
      "step": 465550
    },
    {
      "epoch": 0.9699166666666666,
      "grad_norm": 1.0115591287612915,
      "learning_rate": 6.750152813395526e-07,
      "loss": 3.2771,
      "step": 465560
    },
    {
      "epoch": 0.9699375,
      "grad_norm": 0.9516724348068237,
      "learning_rate": 6.740813814812062e-07,
      "loss": 3.3545,
      "step": 465570
    },
    {
      "epoch": 0.9699583333333334,
      "grad_norm": 0.93302321434021,
      "learning_rate": 6.731481266517069e-07,
      "loss": 3.4111,
      "step": 465580
    },
    {
      "epoch": 0.9699791666666666,
      "grad_norm": 0.9332834482192993,
      "learning_rate": 6.722155168551179e-07,
      "loss": 3.2373,
      "step": 465590
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.8961197733879089,
      "learning_rate": 6.71283552095453e-07,
      "loss": 3.4236,
      "step": 465600
    },
    {
      "epoch": 0.9700208333333333,
      "grad_norm": 1.0126588344573975,
      "learning_rate": 6.703522323767252e-07,
      "loss": 3.2868,
      "step": 465610
    },
    {
      "epoch": 0.9700416666666667,
      "grad_norm": 0.9252290725708008,
      "learning_rate": 6.694215577029649e-07,
      "loss": 3.3421,
      "step": 465620
    },
    {
      "epoch": 0.9700625,
      "grad_norm": 0.8965926170349121,
      "learning_rate": 6.684915280782021e-07,
      "loss": 3.3495,
      "step": 465630
    },
    {
      "epoch": 0.9700833333333333,
      "grad_norm": 0.8882002234458923,
      "learning_rate": 6.675621435064338e-07,
      "loss": 3.3547,
      "step": 465640
    },
    {
      "epoch": 0.9701041666666667,
      "grad_norm": 1.0068615674972534,
      "learning_rate": 6.666334039917065e-07,
      "loss": 3.2154,
      "step": 465650
    },
    {
      "epoch": 0.970125,
      "grad_norm": 0.9390475153923035,
      "learning_rate": 6.657053095380005e-07,
      "loss": 3.2894,
      "step": 465660
    },
    {
      "epoch": 0.9701458333333334,
      "grad_norm": 0.8999380469322205,
      "learning_rate": 6.647778601493292e-07,
      "loss": 3.3088,
      "step": 465670
    },
    {
      "epoch": 0.9701666666666666,
      "grad_norm": 0.8520406484603882,
      "learning_rate": 6.638510558297228e-07,
      "loss": 3.3325,
      "step": 465680
    },
    {
      "epoch": 0.9701875,
      "grad_norm": 1.0518079996109009,
      "learning_rate": 6.629248965831613e-07,
      "loss": 3.343,
      "step": 465690
    },
    {
      "epoch": 0.9702083333333333,
      "grad_norm": 0.8845375776290894,
      "learning_rate": 6.619993824136582e-07,
      "loss": 3.2835,
      "step": 465700
    },
    {
      "epoch": 0.9702291666666667,
      "grad_norm": 0.8764521479606628,
      "learning_rate": 6.610745133251938e-07,
      "loss": 3.3099,
      "step": 465710
    },
    {
      "epoch": 0.97025,
      "grad_norm": 0.9903264045715332,
      "learning_rate": 6.601502893217814e-07,
      "loss": 3.311,
      "step": 465720
    },
    {
      "epoch": 0.9702708333333333,
      "grad_norm": 1.00454843044281,
      "learning_rate": 6.592267104074179e-07,
      "loss": 3.2094,
      "step": 465730
    },
    {
      "epoch": 0.9702916666666667,
      "grad_norm": 0.9440482258796692,
      "learning_rate": 6.583037765860666e-07,
      "loss": 3.2351,
      "step": 465740
    },
    {
      "epoch": 0.9703125,
      "grad_norm": 0.9747200608253479,
      "learning_rate": 6.573814878617412e-07,
      "loss": 3.3802,
      "step": 465750
    },
    {
      "epoch": 0.9703333333333334,
      "grad_norm": 0.8605327010154724,
      "learning_rate": 6.56459844238405e-07,
      "loss": 3.3257,
      "step": 465760
    },
    {
      "epoch": 0.9703541666666666,
      "grad_norm": 1.0189851522445679,
      "learning_rate": 6.555388457200384e-07,
      "loss": 3.3206,
      "step": 465770
    },
    {
      "epoch": 0.970375,
      "grad_norm": 0.9183980226516724,
      "learning_rate": 6.546184923106545e-07,
      "loss": 3.3372,
      "step": 465780
    },
    {
      "epoch": 0.9703958333333333,
      "grad_norm": 0.8187801241874695,
      "learning_rate": 6.536987840141839e-07,
      "loss": 3.2262,
      "step": 465790
    },
    {
      "epoch": 0.9704166666666667,
      "grad_norm": 1.0036550760269165,
      "learning_rate": 6.52779720834623e-07,
      "loss": 3.3959,
      "step": 465800
    },
    {
      "epoch": 0.9704375,
      "grad_norm": 0.9101793169975281,
      "learning_rate": 6.518613027759356e-07,
      "loss": 3.2998,
      "step": 465810
    },
    {
      "epoch": 0.9704583333333333,
      "grad_norm": 1.0539965629577637,
      "learning_rate": 6.509435298421018e-07,
      "loss": 3.3244,
      "step": 465820
    },
    {
      "epoch": 0.9704791666666667,
      "grad_norm": 0.8696960806846619,
      "learning_rate": 6.500264020370683e-07,
      "loss": 3.4824,
      "step": 465830
    },
    {
      "epoch": 0.9705,
      "grad_norm": 0.892975926399231,
      "learning_rate": 6.491099193647986e-07,
      "loss": 3.3784,
      "step": 465840
    },
    {
      "epoch": 0.9705208333333334,
      "grad_norm": 0.9987621307373047,
      "learning_rate": 6.48194081829273e-07,
      "loss": 3.2629,
      "step": 465850
    },
    {
      "epoch": 0.9705416666666666,
      "grad_norm": 0.9448176622390747,
      "learning_rate": 6.472788894344216e-07,
      "loss": 3.3478,
      "step": 465860
    },
    {
      "epoch": 0.9705625,
      "grad_norm": 0.9702054262161255,
      "learning_rate": 6.46364342184208e-07,
      "loss": 3.2455,
      "step": 465870
    },
    {
      "epoch": 0.9705833333333334,
      "grad_norm": 0.9604532718658447,
      "learning_rate": 6.454504400825788e-07,
      "loss": 3.3326,
      "step": 465880
    },
    {
      "epoch": 0.9706041666666667,
      "grad_norm": 0.9161653518676758,
      "learning_rate": 6.445371831334811e-07,
      "loss": 3.3521,
      "step": 465890
    },
    {
      "epoch": 0.970625,
      "grad_norm": 0.9142404794692993,
      "learning_rate": 6.436245713408783e-07,
      "loss": 3.2914,
      "step": 465900
    },
    {
      "epoch": 0.9706458333333333,
      "grad_norm": 0.9046401381492615,
      "learning_rate": 6.427126047086839e-07,
      "loss": 3.3594,
      "step": 465910
    },
    {
      "epoch": 0.9706666666666667,
      "grad_norm": 0.9925612211227417,
      "learning_rate": 6.418012832408615e-07,
      "loss": 3.3083,
      "step": 465920
    },
    {
      "epoch": 0.9706875,
      "grad_norm": 0.8543439507484436,
      "learning_rate": 6.408906069413411e-07,
      "loss": 3.4454,
      "step": 465930
    },
    {
      "epoch": 0.9707083333333333,
      "grad_norm": 0.9374711513519287,
      "learning_rate": 6.399805758140364e-07,
      "loss": 3.3218,
      "step": 465940
    },
    {
      "epoch": 0.9707291666666666,
      "grad_norm": 0.8895811438560486,
      "learning_rate": 6.390711898629108e-07,
      "loss": 3.283,
      "step": 465950
    },
    {
      "epoch": 0.97075,
      "grad_norm": 0.9380588531494141,
      "learning_rate": 6.381624490918613e-07,
      "loss": 3.1815,
      "step": 465960
    },
    {
      "epoch": 0.9707708333333334,
      "grad_norm": 0.887994647026062,
      "learning_rate": 6.372543535048346e-07,
      "loss": 3.3473,
      "step": 465970
    },
    {
      "epoch": 0.9707916666666667,
      "grad_norm": 1.018371343612671,
      "learning_rate": 6.363469031057611e-07,
      "loss": 3.2548,
      "step": 465980
    },
    {
      "epoch": 0.9708125,
      "grad_norm": 0.9263007640838623,
      "learning_rate": 6.354400978985208e-07,
      "loss": 3.3672,
      "step": 465990
    },
    {
      "epoch": 0.9708333333333333,
      "grad_norm": 0.9135591387748718,
      "learning_rate": 6.345339378870773e-07,
      "loss": 3.326,
      "step": 466000
    },
    {
      "epoch": 0.9708333333333333,
      "eval_loss": 4.021556854248047,
      "eval_runtime": 8.7959,
      "eval_samples_per_second": 1.137,
      "eval_steps_per_second": 0.341,
      "step": 466000
    },
    {
      "epoch": 0.9708541666666667,
      "grad_norm": 1.0034749507904053,
      "learning_rate": 6.336284230753108e-07,
      "loss": 3.4002,
      "step": 466010
    },
    {
      "epoch": 0.970875,
      "grad_norm": 0.9922139644622803,
      "learning_rate": 6.327235534671682e-07,
      "loss": 3.3606,
      "step": 466020
    },
    {
      "epoch": 0.9708958333333333,
      "grad_norm": 0.8550942540168762,
      "learning_rate": 6.31819329066513e-07,
      "loss": 3.2909,
      "step": 466030
    },
    {
      "epoch": 0.9709166666666667,
      "grad_norm": 0.9713157415390015,
      "learning_rate": 6.309157498772921e-07,
      "loss": 3.4021,
      "step": 466040
    },
    {
      "epoch": 0.9709375,
      "grad_norm": 0.9213918447494507,
      "learning_rate": 6.30012815903369e-07,
      "loss": 3.3841,
      "step": 466050
    },
    {
      "epoch": 0.9709583333333334,
      "grad_norm": 0.9451390504837036,
      "learning_rate": 6.291105271486741e-07,
      "loss": 3.3719,
      "step": 466060
    },
    {
      "epoch": 0.9709791666666666,
      "grad_norm": 0.8817495107650757,
      "learning_rate": 6.282088836171206e-07,
      "loss": 3.3605,
      "step": 466070
    },
    {
      "epoch": 0.971,
      "grad_norm": 0.8877170085906982,
      "learning_rate": 6.273078853125391e-07,
      "loss": 3.145,
      "step": 466080
    },
    {
      "epoch": 0.9710208333333333,
      "grad_norm": 0.924727201461792,
      "learning_rate": 6.264075322388929e-07,
      "loss": 3.32,
      "step": 466090
    },
    {
      "epoch": 0.9710416666666667,
      "grad_norm": 0.9578495621681213,
      "learning_rate": 6.255078244000289e-07,
      "loss": 3.3433,
      "step": 466100
    },
    {
      "epoch": 0.9710625,
      "grad_norm": 1.0550373792648315,
      "learning_rate": 6.246087617998441e-07,
      "loss": 3.2906,
      "step": 466110
    },
    {
      "epoch": 0.9710833333333333,
      "grad_norm": 0.8871793746948242,
      "learning_rate": 6.237103444422186e-07,
      "loss": 3.2869,
      "step": 466120
    },
    {
      "epoch": 0.9711041666666667,
      "grad_norm": 1.0325592756271362,
      "learning_rate": 6.228125723310496e-07,
      "loss": 3.2502,
      "step": 466130
    },
    {
      "epoch": 0.971125,
      "grad_norm": 0.8482814431190491,
      "learning_rate": 6.219154454701836e-07,
      "loss": 3.2362,
      "step": 466140
    },
    {
      "epoch": 0.9711458333333334,
      "grad_norm": 1.0021343231201172,
      "learning_rate": 6.210189638635343e-07,
      "loss": 3.3564,
      "step": 466150
    },
    {
      "epoch": 0.9711666666666666,
      "grad_norm": 1.040724277496338,
      "learning_rate": 6.201231275149487e-07,
      "loss": 3.2657,
      "step": 466160
    },
    {
      "epoch": 0.9711875,
      "grad_norm": 0.8930458426475525,
      "learning_rate": 6.192279364282904e-07,
      "loss": 3.2164,
      "step": 466170
    },
    {
      "epoch": 0.9712083333333333,
      "grad_norm": 1.0276902914047241,
      "learning_rate": 6.183333906074561e-07,
      "loss": 3.2848,
      "step": 466180
    },
    {
      "epoch": 0.9712291666666667,
      "grad_norm": 0.8735277056694031,
      "learning_rate": 6.174394900562762e-07,
      "loss": 3.3075,
      "step": 466190
    },
    {
      "epoch": 0.97125,
      "grad_norm": 0.9246159791946411,
      "learning_rate": 6.16546234778631e-07,
      "loss": 3.2563,
      "step": 466200
    },
    {
      "epoch": 0.9712708333333333,
      "grad_norm": 1.0708205699920654,
      "learning_rate": 6.156536247784005e-07,
      "loss": 3.3009,
      "step": 466210
    },
    {
      "epoch": 0.9712916666666667,
      "grad_norm": 0.8797129988670349,
      "learning_rate": 6.147616600593818e-07,
      "loss": 3.2438,
      "step": 466220
    },
    {
      "epoch": 0.9713125,
      "grad_norm": 0.878628134727478,
      "learning_rate": 6.138703406254886e-07,
      "loss": 3.3249,
      "step": 466230
    },
    {
      "epoch": 0.9713333333333334,
      "grad_norm": 0.966177225112915,
      "learning_rate": 6.129796664805342e-07,
      "loss": 3.3677,
      "step": 466240
    },
    {
      "epoch": 0.9713541666666666,
      "grad_norm": 0.9894616007804871,
      "learning_rate": 6.120896376283657e-07,
      "loss": 3.2091,
      "step": 466250
    },
    {
      "epoch": 0.971375,
      "grad_norm": 0.8981748819351196,
      "learning_rate": 6.112002540728467e-07,
      "loss": 3.3902,
      "step": 466260
    },
    {
      "epoch": 0.9713958333333333,
      "grad_norm": 0.9559885859489441,
      "learning_rate": 6.103115158178073e-07,
      "loss": 3.2869,
      "step": 466270
    },
    {
      "epoch": 0.9714166666666667,
      "grad_norm": 0.9091697335243225,
      "learning_rate": 6.094234228670947e-07,
      "loss": 3.3121,
      "step": 466280
    },
    {
      "epoch": 0.9714375,
      "grad_norm": 0.9096238613128662,
      "learning_rate": 6.085359752245389e-07,
      "loss": 3.325,
      "step": 466290
    },
    {
      "epoch": 0.9714583333333333,
      "grad_norm": 0.8576123714447021,
      "learning_rate": 6.076491728939703e-07,
      "loss": 3.3597,
      "step": 466300
    },
    {
      "epoch": 0.9714791666666667,
      "grad_norm": 0.9499676823616028,
      "learning_rate": 6.067630158792358e-07,
      "loss": 3.3382,
      "step": 466310
    },
    {
      "epoch": 0.9715,
      "grad_norm": 0.8972590565681458,
      "learning_rate": 6.058775041841324e-07,
      "loss": 3.1735,
      "step": 466320
    },
    {
      "epoch": 0.9715208333333333,
      "grad_norm": 0.9372484087944031,
      "learning_rate": 6.049926378125236e-07,
      "loss": 3.3625,
      "step": 466330
    },
    {
      "epoch": 0.9715416666666666,
      "grad_norm": 0.8738842606544495,
      "learning_rate": 6.041084167682065e-07,
      "loss": 3.2271,
      "step": 466340
    },
    {
      "epoch": 0.9715625,
      "grad_norm": 0.9018552899360657,
      "learning_rate": 6.032248410549945e-07,
      "loss": 3.3714,
      "step": 466350
    },
    {
      "epoch": 0.9715833333333334,
      "grad_norm": 0.9024165272712708,
      "learning_rate": 6.02341910676718e-07,
      "loss": 3.2752,
      "step": 466360
    },
    {
      "epoch": 0.9716041666666667,
      "grad_norm": 0.9019882082939148,
      "learning_rate": 6.014596256372073e-07,
      "loss": 3.1878,
      "step": 466370
    },
    {
      "epoch": 0.971625,
      "grad_norm": 0.899359405040741,
      "learning_rate": 6.005779859402427e-07,
      "loss": 3.2004,
      "step": 466380
    },
    {
      "epoch": 0.9716458333333333,
      "grad_norm": 0.9131819009780884,
      "learning_rate": 5.996969915896377e-07,
      "loss": 3.2266,
      "step": 466390
    },
    {
      "epoch": 0.9716666666666667,
      "grad_norm": 0.9014191031455994,
      "learning_rate": 5.988166425892061e-07,
      "loss": 3.3244,
      "step": 466400
    },
    {
      "epoch": 0.9716875,
      "grad_norm": 0.9445764422416687,
      "learning_rate": 5.979369389427613e-07,
      "loss": 3.341,
      "step": 466410
    },
    {
      "epoch": 0.9717083333333333,
      "grad_norm": 0.9109706878662109,
      "learning_rate": 5.970578806540838e-07,
      "loss": 3.3185,
      "step": 466420
    },
    {
      "epoch": 0.9717291666666666,
      "grad_norm": 0.9920366406440735,
      "learning_rate": 5.961794677269704e-07,
      "loss": 3.3218,
      "step": 466430
    },
    {
      "epoch": 0.97175,
      "grad_norm": 0.8945648670196533,
      "learning_rate": 5.953017001652349e-07,
      "loss": 3.2749,
      "step": 466440
    },
    {
      "epoch": 0.9717708333333334,
      "grad_norm": 0.8014448285102844,
      "learning_rate": 5.944245779726575e-07,
      "loss": 3.372,
      "step": 466450
    },
    {
      "epoch": 0.9717916666666667,
      "grad_norm": 0.9806248545646667,
      "learning_rate": 5.935481011530185e-07,
      "loss": 3.3378,
      "step": 466460
    },
    {
      "epoch": 0.9718125,
      "grad_norm": 0.9818482398986816,
      "learning_rate": 5.926722697101316e-07,
      "loss": 3.3705,
      "step": 466470
    },
    {
      "epoch": 0.9718333333333333,
      "grad_norm": 0.9025363326072693,
      "learning_rate": 5.917970836477437e-07,
      "loss": 3.3788,
      "step": 466480
    },
    {
      "epoch": 0.9718541666666667,
      "grad_norm": 0.9816466569900513,
      "learning_rate": 5.909225429696518e-07,
      "loss": 3.3631,
      "step": 466490
    },
    {
      "epoch": 0.971875,
      "grad_norm": 0.8771578073501587,
      "learning_rate": 5.900486476796529e-07,
      "loss": 3.4154,
      "step": 466500
    },
    {
      "epoch": 0.9718958333333333,
      "grad_norm": 0.8648024201393127,
      "learning_rate": 5.891753977814773e-07,
      "loss": 3.3747,
      "step": 466510
    },
    {
      "epoch": 0.9719166666666667,
      "grad_norm": 1.090438723564148,
      "learning_rate": 5.883027932789386e-07,
      "loss": 3.3073,
      "step": 466520
    },
    {
      "epoch": 0.9719375,
      "grad_norm": 0.9869447350502014,
      "learning_rate": 5.874308341757838e-07,
      "loss": 3.3454,
      "step": 466530
    },
    {
      "epoch": 0.9719583333333334,
      "grad_norm": 0.906261682510376,
      "learning_rate": 5.865595204757934e-07,
      "loss": 3.3822,
      "step": 466540
    },
    {
      "epoch": 0.9719791666666666,
      "grad_norm": 0.9311521649360657,
      "learning_rate": 5.856888521827141e-07,
      "loss": 3.3332,
      "step": 466550
    },
    {
      "epoch": 0.972,
      "grad_norm": 0.9615308046340942,
      "learning_rate": 5.848188293003264e-07,
      "loss": 3.3458,
      "step": 466560
    },
    {
      "epoch": 0.9720208333333333,
      "grad_norm": 1.1076449155807495,
      "learning_rate": 5.839494518323773e-07,
      "loss": 3.2815,
      "step": 466570
    },
    {
      "epoch": 0.9720416666666667,
      "grad_norm": 0.9379827976226807,
      "learning_rate": 5.830807197826304e-07,
      "loss": 3.2831,
      "step": 466580
    },
    {
      "epoch": 0.9720625,
      "grad_norm": 0.9077566862106323,
      "learning_rate": 5.82212633154816e-07,
      "loss": 3.2814,
      "step": 466590
    },
    {
      "epoch": 0.9720833333333333,
      "grad_norm": 0.949979841709137,
      "learning_rate": 5.81345191952698e-07,
      "loss": 3.3068,
      "step": 466600
    },
    {
      "epoch": 0.9721041666666667,
      "grad_norm": 0.919578492641449,
      "learning_rate": 5.804783961800397e-07,
      "loss": 3.2116,
      "step": 466610
    },
    {
      "epoch": 0.972125,
      "grad_norm": 1.0822052955627441,
      "learning_rate": 5.796122458405717e-07,
      "loss": 3.3704,
      "step": 466620
    },
    {
      "epoch": 0.9721458333333334,
      "grad_norm": 1.0089420080184937,
      "learning_rate": 5.787467409380242e-07,
      "loss": 3.3461,
      "step": 466630
    },
    {
      "epoch": 0.9721666666666666,
      "grad_norm": 0.903945803642273,
      "learning_rate": 5.778818814761444e-07,
      "loss": 3.2602,
      "step": 466640
    },
    {
      "epoch": 0.9721875,
      "grad_norm": 0.8615062236785889,
      "learning_rate": 5.770176674586624e-07,
      "loss": 3.3605,
      "step": 466650
    },
    {
      "epoch": 0.9722083333333333,
      "grad_norm": 0.9816842675209045,
      "learning_rate": 5.761540988893421e-07,
      "loss": 3.3169,
      "step": 466660
    },
    {
      "epoch": 0.9722291666666667,
      "grad_norm": 0.9228448271751404,
      "learning_rate": 5.752911757718636e-07,
      "loss": 3.2953,
      "step": 466670
    },
    {
      "epoch": 0.97225,
      "grad_norm": 1.0606211423873901,
      "learning_rate": 5.744288981099909e-07,
      "loss": 3.2585,
      "step": 466680
    },
    {
      "epoch": 0.9722708333333333,
      "grad_norm": 0.9542835354804993,
      "learning_rate": 5.735672659074542e-07,
      "loss": 3.3631,
      "step": 466690
    },
    {
      "epoch": 0.9722916666666667,
      "grad_norm": 0.9080883264541626,
      "learning_rate": 5.727062791679338e-07,
      "loss": 3.3176,
      "step": 466700
    },
    {
      "epoch": 0.9723125,
      "grad_norm": 0.8847172260284424,
      "learning_rate": 5.718459378951934e-07,
      "loss": 3.3047,
      "step": 466710
    },
    {
      "epoch": 0.9723333333333334,
      "grad_norm": 0.8747773170471191,
      "learning_rate": 5.709862420929301e-07,
      "loss": 3.3557,
      "step": 466720
    },
    {
      "epoch": 0.9723541666666666,
      "grad_norm": 0.9483559727668762,
      "learning_rate": 5.701271917648575e-07,
      "loss": 3.4442,
      "step": 466730
    },
    {
      "epoch": 0.972375,
      "grad_norm": 0.9399666786193848,
      "learning_rate": 5.692687869146728e-07,
      "loss": 3.2584,
      "step": 466740
    },
    {
      "epoch": 0.9723958333333333,
      "grad_norm": 0.9416577219963074,
      "learning_rate": 5.684110275461229e-07,
      "loss": 3.3551,
      "step": 466750
    },
    {
      "epoch": 0.9724166666666667,
      "grad_norm": 0.9079256057739258,
      "learning_rate": 5.675539136628548e-07,
      "loss": 3.1914,
      "step": 466760
    },
    {
      "epoch": 0.9724375,
      "grad_norm": 0.9075039625167847,
      "learning_rate": 5.666974452686323e-07,
      "loss": 3.3653,
      "step": 466770
    },
    {
      "epoch": 0.9724583333333333,
      "grad_norm": 0.858432948589325,
      "learning_rate": 5.658416223671192e-07,
      "loss": 3.2588,
      "step": 466780
    },
    {
      "epoch": 0.9724791666666667,
      "grad_norm": 0.9534375667572021,
      "learning_rate": 5.649864449620123e-07,
      "loss": 3.4239,
      "step": 466790
    },
    {
      "epoch": 0.9725,
      "grad_norm": 0.8669593334197998,
      "learning_rate": 5.641319130570254e-07,
      "loss": 3.2082,
      "step": 466800
    },
    {
      "epoch": 0.9725208333333333,
      "grad_norm": 0.8985453844070435,
      "learning_rate": 5.63278026655839e-07,
      "loss": 3.2552,
      "step": 466810
    },
    {
      "epoch": 0.9725416666666666,
      "grad_norm": 0.9483110904693604,
      "learning_rate": 5.624247857621166e-07,
      "loss": 3.2304,
      "step": 466820
    },
    {
      "epoch": 0.9725625,
      "grad_norm": 0.9426422119140625,
      "learning_rate": 5.615721903795889e-07,
      "loss": 3.3436,
      "step": 466830
    },
    {
      "epoch": 0.9725833333333334,
      "grad_norm": 0.9811210036277771,
      "learning_rate": 5.607202405119193e-07,
      "loss": 3.3093,
      "step": 466840
    },
    {
      "epoch": 0.9726041666666667,
      "grad_norm": 1.0164545774459839,
      "learning_rate": 5.598689361627718e-07,
      "loss": 3.2312,
      "step": 466850
    },
    {
      "epoch": 0.972625,
      "grad_norm": 1.0727484226226807,
      "learning_rate": 5.590182773358598e-07,
      "loss": 3.3396,
      "step": 466860
    },
    {
      "epoch": 0.9726458333333333,
      "grad_norm": 1.0638755559921265,
      "learning_rate": 5.58168264034814e-07,
      "loss": 3.3019,
      "step": 466870
    },
    {
      "epoch": 0.9726666666666667,
      "grad_norm": 0.9675116539001465,
      "learning_rate": 5.573188962633313e-07,
      "loss": 3.3414,
      "step": 466880
    },
    {
      "epoch": 0.9726875,
      "grad_norm": 0.9224766492843628,
      "learning_rate": 5.564701740250921e-07,
      "loss": 3.2945,
      "step": 466890
    },
    {
      "epoch": 0.9727083333333333,
      "grad_norm": 0.9073273539543152,
      "learning_rate": 5.556220973237435e-07,
      "loss": 3.385,
      "step": 466900
    },
    {
      "epoch": 0.9727291666666666,
      "grad_norm": 1.0128400325775146,
      "learning_rate": 5.547746661629493e-07,
      "loss": 3.2367,
      "step": 466910
    },
    {
      "epoch": 0.97275,
      "grad_norm": 0.8283421397209167,
      "learning_rate": 5.539278805463731e-07,
      "loss": 3.3009,
      "step": 466920
    },
    {
      "epoch": 0.9727708333333334,
      "grad_norm": 0.9770739674568176,
      "learning_rate": 5.530817404776622e-07,
      "loss": 3.22,
      "step": 466930
    },
    {
      "epoch": 0.9727916666666667,
      "grad_norm": 0.8749626874923706,
      "learning_rate": 5.522362459604968e-07,
      "loss": 3.3013,
      "step": 466940
    },
    {
      "epoch": 0.9728125,
      "grad_norm": 0.9171625971794128,
      "learning_rate": 5.513913969985074e-07,
      "loss": 3.311,
      "step": 466950
    },
    {
      "epoch": 0.9728333333333333,
      "grad_norm": 0.9474467039108276,
      "learning_rate": 5.505471935953576e-07,
      "loss": 3.4246,
      "step": 466960
    },
    {
      "epoch": 0.9728541666666667,
      "grad_norm": 0.8958998322486877,
      "learning_rate": 5.497036357546947e-07,
      "loss": 3.3052,
      "step": 466970
    },
    {
      "epoch": 0.972875,
      "grad_norm": 0.8744769096374512,
      "learning_rate": 5.48860723480149e-07,
      "loss": 3.2296,
      "step": 466980
    },
    {
      "epoch": 0.9728958333333333,
      "grad_norm": 0.8821518421173096,
      "learning_rate": 5.480184567753676e-07,
      "loss": 3.2889,
      "step": 466990
    },
    {
      "epoch": 0.9729166666666667,
      "grad_norm": 0.9665378928184509,
      "learning_rate": 5.47176835643981e-07,
      "loss": 3.3749,
      "step": 467000
    },
    {
      "epoch": 0.9729166666666667,
      "eval_loss": 4.021448612213135,
      "eval_runtime": 8.3018,
      "eval_samples_per_second": 1.205,
      "eval_steps_per_second": 0.361,
      "step": 467000
    },
    {
      "epoch": 0.9729375,
      "grad_norm": 0.8707894682884216,
      "learning_rate": 5.463358600896361e-07,
      "loss": 3.2646,
      "step": 467010
    },
    {
      "epoch": 0.9729583333333334,
      "grad_norm": 0.9573946595191956,
      "learning_rate": 5.454955301159802e-07,
      "loss": 3.2764,
      "step": 467020
    },
    {
      "epoch": 0.9729791666666666,
      "grad_norm": 0.867344319820404,
      "learning_rate": 5.446558457266103e-07,
      "loss": 3.2423,
      "step": 467030
    },
    {
      "epoch": 0.973,
      "grad_norm": 0.8561814427375793,
      "learning_rate": 5.43816806925157e-07,
      "loss": 3.2405,
      "step": 467040
    },
    {
      "epoch": 0.9730208333333333,
      "grad_norm": 0.9048700928688049,
      "learning_rate": 5.429784137152837e-07,
      "loss": 3.1765,
      "step": 467050
    },
    {
      "epoch": 0.9730416666666667,
      "grad_norm": 1.0168482065200806,
      "learning_rate": 5.421406661005712e-07,
      "loss": 3.2725,
      "step": 467060
    },
    {
      "epoch": 0.9730625,
      "grad_norm": 0.8554562330245972,
      "learning_rate": 5.413035640846497e-07,
      "loss": 3.323,
      "step": 467070
    },
    {
      "epoch": 0.9730833333333333,
      "grad_norm": 1.057339072227478,
      "learning_rate": 5.404671076711331e-07,
      "loss": 3.3312,
      "step": 467080
    },
    {
      "epoch": 0.9731041666666667,
      "grad_norm": 0.9261096715927124,
      "learning_rate": 5.396312968636351e-07,
      "loss": 3.2948,
      "step": 467090
    },
    {
      "epoch": 0.973125,
      "grad_norm": 0.9366924166679382,
      "learning_rate": 5.387961316657863e-07,
      "loss": 3.3268,
      "step": 467100
    },
    {
      "epoch": 0.9731458333333334,
      "grad_norm": 1.0302413702011108,
      "learning_rate": 5.37961612081167e-07,
      "loss": 3.3641,
      "step": 467110
    },
    {
      "epoch": 0.9731666666666666,
      "grad_norm": 1.0621633529663086,
      "learning_rate": 5.37127738113391e-07,
      "loss": 3.3763,
      "step": 467120
    },
    {
      "epoch": 0.9731875,
      "grad_norm": 0.951068103313446,
      "learning_rate": 5.362945097660554e-07,
      "loss": 3.5147,
      "step": 467130
    },
    {
      "epoch": 0.9732083333333333,
      "grad_norm": 0.9006576538085938,
      "learning_rate": 5.354619270427907e-07,
      "loss": 3.3841,
      "step": 467140
    },
    {
      "epoch": 0.9732291666666667,
      "grad_norm": 1.0146287679672241,
      "learning_rate": 5.34629989947144e-07,
      "loss": 3.3631,
      "step": 467150
    },
    {
      "epoch": 0.97325,
      "grad_norm": 0.9065383076667786,
      "learning_rate": 5.337986984827458e-07,
      "loss": 3.3413,
      "step": 467160
    },
    {
      "epoch": 0.9732708333333333,
      "grad_norm": 0.8880000114440918,
      "learning_rate": 5.329680526531599e-07,
      "loss": 3.2863,
      "step": 467170
    },
    {
      "epoch": 0.9732916666666667,
      "grad_norm": 0.8526945114135742,
      "learning_rate": 5.321380524620167e-07,
      "loss": 3.3486,
      "step": 467180
    },
    {
      "epoch": 0.9733125,
      "grad_norm": 0.9869306087493896,
      "learning_rate": 5.313086979128467e-07,
      "loss": 3.2641,
      "step": 467190
    },
    {
      "epoch": 0.9733333333333334,
      "grad_norm": 0.9677664637565613,
      "learning_rate": 5.304799890092637e-07,
      "loss": 3.2587,
      "step": 467200
    },
    {
      "epoch": 0.9733541666666666,
      "grad_norm": 0.9343372583389282,
      "learning_rate": 5.296519257548482e-07,
      "loss": 3.3739,
      "step": 467210
    },
    {
      "epoch": 0.973375,
      "grad_norm": 0.8825920820236206,
      "learning_rate": 5.288245081531806e-07,
      "loss": 3.3365,
      "step": 467220
    },
    {
      "epoch": 0.9733958333333333,
      "grad_norm": 1.0165907144546509,
      "learning_rate": 5.27997736207808e-07,
      "loss": 3.2998,
      "step": 467230
    },
    {
      "epoch": 0.9734166666666667,
      "grad_norm": 0.9065316915512085,
      "learning_rate": 5.271716099223278e-07,
      "loss": 3.3827,
      "step": 467240
    },
    {
      "epoch": 0.9734375,
      "grad_norm": 0.8809288144111633,
      "learning_rate": 5.263461293003036e-07,
      "loss": 3.2613,
      "step": 467250
    },
    {
      "epoch": 0.9734583333333333,
      "grad_norm": 0.8981519341468811,
      "learning_rate": 5.255212943452991e-07,
      "loss": 3.3513,
      "step": 467260
    },
    {
      "epoch": 0.9734791666666667,
      "grad_norm": 0.9608116149902344,
      "learning_rate": 5.246971050608784e-07,
      "loss": 3.283,
      "step": 467270
    },
    {
      "epoch": 0.9735,
      "grad_norm": 0.9235796332359314,
      "learning_rate": 5.238735614505885e-07,
      "loss": 3.2949,
      "step": 467280
    },
    {
      "epoch": 0.9735208333333333,
      "grad_norm": 0.8868141174316406,
      "learning_rate": 5.230506635180099e-07,
      "loss": 3.275,
      "step": 467290
    },
    {
      "epoch": 0.9735416666666666,
      "grad_norm": 0.8954038023948669,
      "learning_rate": 5.222284112666897e-07,
      "loss": 3.391,
      "step": 467300
    },
    {
      "epoch": 0.9735625,
      "grad_norm": 1.0631965398788452,
      "learning_rate": 5.214068047001585e-07,
      "loss": 3.2112,
      "step": 467310
    },
    {
      "epoch": 0.9735833333333334,
      "grad_norm": 0.9495415091514587,
      "learning_rate": 5.205858438219967e-07,
      "loss": 3.3701,
      "step": 467320
    },
    {
      "epoch": 0.9736041666666667,
      "grad_norm": 0.9214958548545837,
      "learning_rate": 5.197655286357183e-07,
      "loss": 3.3247,
      "step": 467330
    },
    {
      "epoch": 0.973625,
      "grad_norm": 1.0330790281295776,
      "learning_rate": 5.189458591449037e-07,
      "loss": 3.3437,
      "step": 467340
    },
    {
      "epoch": 0.9736458333333333,
      "grad_norm": 0.8443924784660339,
      "learning_rate": 5.181268353530665e-07,
      "loss": 3.2359,
      "step": 467350
    },
    {
      "epoch": 0.9736666666666667,
      "grad_norm": 0.8889501094818115,
      "learning_rate": 5.173084572637543e-07,
      "loss": 3.2823,
      "step": 467360
    },
    {
      "epoch": 0.9736875,
      "grad_norm": 0.9498432874679565,
      "learning_rate": 5.164907248804973e-07,
      "loss": 3.3097,
      "step": 467370
    },
    {
      "epoch": 0.9737083333333333,
      "grad_norm": 0.9276489615440369,
      "learning_rate": 5.15673638206826e-07,
      "loss": 3.1575,
      "step": 467380
    },
    {
      "epoch": 0.9737291666666666,
      "grad_norm": 0.9796618223190308,
      "learning_rate": 5.148571972462878e-07,
      "loss": 3.3212,
      "step": 467390
    },
    {
      "epoch": 0.97375,
      "grad_norm": 0.9780879616737366,
      "learning_rate": 5.140414020023798e-07,
      "loss": 3.3118,
      "step": 467400
    },
    {
      "epoch": 0.9737708333333334,
      "grad_norm": 0.8773528337478638,
      "learning_rate": 5.132262524786491e-07,
      "loss": 3.4254,
      "step": 467410
    },
    {
      "epoch": 0.9737916666666667,
      "grad_norm": 0.917843759059906,
      "learning_rate": 5.124117486786095e-07,
      "loss": 3.3445,
      "step": 467420
    },
    {
      "epoch": 0.9738125,
      "grad_norm": 0.9436858892440796,
      "learning_rate": 5.115978906057916e-07,
      "loss": 3.3032,
      "step": 467430
    },
    {
      "epoch": 0.9738333333333333,
      "grad_norm": 0.885774552822113,
      "learning_rate": 5.107846782636926e-07,
      "loss": 3.2692,
      "step": 467440
    },
    {
      "epoch": 0.9738541666666667,
      "grad_norm": 0.8797343969345093,
      "learning_rate": 5.099721116558264e-07,
      "loss": 3.3183,
      "step": 467450
    },
    {
      "epoch": 0.973875,
      "grad_norm": 1.0710278749465942,
      "learning_rate": 5.091601907857069e-07,
      "loss": 3.3357,
      "step": 467460
    },
    {
      "epoch": 0.9738958333333333,
      "grad_norm": 1.0511575937271118,
      "learning_rate": 5.083489156568476e-07,
      "loss": 3.3217,
      "step": 467470
    },
    {
      "epoch": 0.9739166666666667,
      "grad_norm": 0.9190823435783386,
      "learning_rate": 5.075382862727462e-07,
      "loss": 3.373,
      "step": 467480
    },
    {
      "epoch": 0.9739375,
      "grad_norm": 0.9406203627586365,
      "learning_rate": 5.067283026369162e-07,
      "loss": 3.1977,
      "step": 467490
    },
    {
      "epoch": 0.9739583333333334,
      "grad_norm": 0.8802657127380371,
      "learning_rate": 5.059189647528383e-07,
      "loss": 3.2453,
      "step": 467500
    },
    {
      "epoch": 0.9739791666666666,
      "grad_norm": 0.9156329035758972,
      "learning_rate": 5.051102726240097e-07,
      "loss": 3.3373,
      "step": 467510
    },
    {
      "epoch": 0.974,
      "grad_norm": 0.8842762112617493,
      "learning_rate": 5.043022262539442e-07,
      "loss": 3.1915,
      "step": 467520
    },
    {
      "epoch": 0.9740208333333333,
      "grad_norm": 1.0166231393814087,
      "learning_rate": 5.034948256461058e-07,
      "loss": 3.3263,
      "step": 467530
    },
    {
      "epoch": 0.9740416666666667,
      "grad_norm": 0.9050449132919312,
      "learning_rate": 5.026880708039915e-07,
      "loss": 3.3696,
      "step": 467540
    },
    {
      "epoch": 0.9740625,
      "grad_norm": 0.9907641410827637,
      "learning_rate": 5.018819617310987e-07,
      "loss": 3.2821,
      "step": 467550
    },
    {
      "epoch": 0.9740833333333333,
      "grad_norm": 0.988253116607666,
      "learning_rate": 5.010764984309079e-07,
      "loss": 3.2782,
      "step": 467560
    },
    {
      "epoch": 0.9741041666666667,
      "grad_norm": 0.9371628165245056,
      "learning_rate": 5.002716809068663e-07,
      "loss": 3.2574,
      "step": 467570
    },
    {
      "epoch": 0.974125,
      "grad_norm": 1.0382047891616821,
      "learning_rate": 4.994675091625045e-07,
      "loss": 3.3369,
      "step": 467580
    },
    {
      "epoch": 0.9741458333333334,
      "grad_norm": 0.9328403472900391,
      "learning_rate": 4.986639832012529e-07,
      "loss": 3.3902,
      "step": 467590
    },
    {
      "epoch": 0.9741666666666666,
      "grad_norm": 1.0590304136276245,
      "learning_rate": 4.978611030265922e-07,
      "loss": 3.3072,
      "step": 467600
    },
    {
      "epoch": 0.9741875,
      "grad_norm": 0.8819514513015747,
      "learning_rate": 4.97058868642003e-07,
      "loss": 3.3445,
      "step": 467610
    },
    {
      "epoch": 0.9742083333333333,
      "grad_norm": 0.9474316239356995,
      "learning_rate": 4.962572800509324e-07,
      "loss": 3.3385,
      "step": 467620
    },
    {
      "epoch": 0.9742291666666667,
      "grad_norm": 1.1095945835113525,
      "learning_rate": 4.954563372568609e-07,
      "loss": 3.2846,
      "step": 467630
    },
    {
      "epoch": 0.97425,
      "grad_norm": 0.9283544421195984,
      "learning_rate": 4.94656040263236e-07,
      "loss": 3.3232,
      "step": 467640
    },
    {
      "epoch": 0.9742708333333333,
      "grad_norm": 0.9606425166130066,
      "learning_rate": 4.938563890735214e-07,
      "loss": 3.5155,
      "step": 467650
    },
    {
      "epoch": 0.9742916666666667,
      "grad_norm": 0.9743291139602661,
      "learning_rate": 4.930573836911645e-07,
      "loss": 3.2045,
      "step": 467660
    },
    {
      "epoch": 0.9743125,
      "grad_norm": 1.0583704710006714,
      "learning_rate": 4.922590241196289e-07,
      "loss": 3.3027,
      "step": 467670
    },
    {
      "epoch": 0.9743333333333334,
      "grad_norm": 0.9030900597572327,
      "learning_rate": 4.914613103623455e-07,
      "loss": 3.332,
      "step": 467680
    },
    {
      "epoch": 0.9743541666666666,
      "grad_norm": 0.8393908143043518,
      "learning_rate": 4.90664242422778e-07,
      "loss": 3.2582,
      "step": 467690
    },
    {
      "epoch": 0.974375,
      "grad_norm": 0.8910074830055237,
      "learning_rate": 4.898678203043572e-07,
      "loss": 3.4273,
      "step": 467700
    },
    {
      "epoch": 0.9743958333333333,
      "grad_norm": 0.9386115670204163,
      "learning_rate": 4.8907204401053e-07,
      "loss": 3.2535,
      "step": 467710
    },
    {
      "epoch": 0.9744166666666667,
      "grad_norm": 1.0096313953399658,
      "learning_rate": 4.882769135447273e-07,
      "loss": 3.1821,
      "step": 467720
    },
    {
      "epoch": 0.9744375,
      "grad_norm": 0.8983873128890991,
      "learning_rate": 4.874824289103796e-07,
      "loss": 3.0899,
      "step": 467730
    },
    {
      "epoch": 0.9744583333333333,
      "grad_norm": 0.92549067735672,
      "learning_rate": 4.86688590110934e-07,
      "loss": 3.2802,
      "step": 467740
    },
    {
      "epoch": 0.9744791666666667,
      "grad_norm": 0.8862257599830627,
      "learning_rate": 4.858953971498214e-07,
      "loss": 3.2849,
      "step": 467750
    },
    {
      "epoch": 0.9745,
      "grad_norm": 0.8152832388877869,
      "learning_rate": 4.851028500304555e-07,
      "loss": 3.1654,
      "step": 467760
    },
    {
      "epoch": 0.9745208333333333,
      "grad_norm": 1.1160458326339722,
      "learning_rate": 4.843109487562503e-07,
      "loss": 3.2871,
      "step": 467770
    },
    {
      "epoch": 0.9745416666666666,
      "grad_norm": 0.9255684614181519,
      "learning_rate": 4.835196933306528e-07,
      "loss": 3.3565,
      "step": 467780
    },
    {
      "epoch": 0.9745625,
      "grad_norm": 1.0100808143615723,
      "learning_rate": 4.827290837570608e-07,
      "loss": 3.2233,
      "step": 467790
    },
    {
      "epoch": 0.9745833333333334,
      "grad_norm": 0.9138551950454712,
      "learning_rate": 4.819391200389045e-07,
      "loss": 3.3043,
      "step": 467800
    },
    {
      "epoch": 0.9746041666666667,
      "grad_norm": 0.8818688988685608,
      "learning_rate": 4.811498021795812e-07,
      "loss": 3.1867,
      "step": 467810
    },
    {
      "epoch": 0.974625,
      "grad_norm": 0.8824110627174377,
      "learning_rate": 4.80361130182505e-07,
      "loss": 3.3739,
      "step": 467820
    },
    {
      "epoch": 0.9746458333333333,
      "grad_norm": 0.8698058724403381,
      "learning_rate": 4.795731040510897e-07,
      "loss": 3.3382,
      "step": 467830
    },
    {
      "epoch": 0.9746666666666667,
      "grad_norm": 0.8759576678276062,
      "learning_rate": 4.787857237887327e-07,
      "loss": 3.2131,
      "step": 467840
    },
    {
      "epoch": 0.9746875,
      "grad_norm": 0.9220758676528931,
      "learning_rate": 4.779989893988312e-07,
      "loss": 3.191,
      "step": 467850
    },
    {
      "epoch": 0.9747083333333333,
      "grad_norm": 0.9946771264076233,
      "learning_rate": 4.772129008847991e-07,
      "loss": 3.4231,
      "step": 467860
    },
    {
      "epoch": 0.9747291666666666,
      "grad_norm": 1.0207045078277588,
      "learning_rate": 4.7642745825001716e-07,
      "loss": 3.3642,
      "step": 467870
    },
    {
      "epoch": 0.97475,
      "grad_norm": 1.263567328453064,
      "learning_rate": 4.756426614978659e-07,
      "loss": 3.3208,
      "step": 467880
    },
    {
      "epoch": 0.9747708333333334,
      "grad_norm": 0.8912891745567322,
      "learning_rate": 4.7485851063177593e-07,
      "loss": 3.3317,
      "step": 467890
    },
    {
      "epoch": 0.9747916666666666,
      "grad_norm": 0.9039376378059387,
      "learning_rate": 4.740750056551113e-07,
      "loss": 3.3275,
      "step": 467900
    },
    {
      "epoch": 0.9748125,
      "grad_norm": 1.005263090133667,
      "learning_rate": 4.732921465712358e-07,
      "loss": 3.4908,
      "step": 467910
    },
    {
      "epoch": 0.9748333333333333,
      "grad_norm": 0.9111225605010986,
      "learning_rate": 4.725099333835636e-07,
      "loss": 3.5551,
      "step": 467920
    },
    {
      "epoch": 0.9748541666666667,
      "grad_norm": 0.9370836615562439,
      "learning_rate": 4.717283660954752e-07,
      "loss": 3.3629,
      "step": 467930
    },
    {
      "epoch": 0.974875,
      "grad_norm": 0.8905032277107239,
      "learning_rate": 4.709474447103012e-07,
      "loss": 3.3402,
      "step": 467940
    },
    {
      "epoch": 0.9748958333333333,
      "grad_norm": 0.9775704145431519,
      "learning_rate": 4.7016716923147233e-07,
      "loss": 3.3191,
      "step": 467950
    },
    {
      "epoch": 0.9749166666666667,
      "grad_norm": 0.9420293569564819,
      "learning_rate": 4.693875396623359e-07,
      "loss": 3.3388,
      "step": 467960
    },
    {
      "epoch": 0.9749375,
      "grad_norm": 1.048895239830017,
      "learning_rate": 4.6860855600623915e-07,
      "loss": 3.3804,
      "step": 467970
    },
    {
      "epoch": 0.9749583333333334,
      "grad_norm": 0.8941411972045898,
      "learning_rate": 4.678302182665794e-07,
      "loss": 3.4547,
      "step": 467980
    },
    {
      "epoch": 0.9749791666666666,
      "grad_norm": 0.7695245146751404,
      "learning_rate": 4.670525264466873e-07,
      "loss": 3.2399,
      "step": 467990
    },
    {
      "epoch": 0.975,
      "grad_norm": 0.9432204961776733,
      "learning_rate": 4.662754805499602e-07,
      "loss": 3.3369,
      "step": 468000
    },
    {
      "epoch": 0.975,
      "eval_loss": 4.021600723266602,
      "eval_runtime": 8.2421,
      "eval_samples_per_second": 1.213,
      "eval_steps_per_second": 0.364,
      "step": 468000
    },
    {
      "epoch": 0.9750208333333333,
      "grad_norm": 0.9507158994674683,
      "learning_rate": 4.654990805797121e-07,
      "loss": 3.3355,
      "step": 468010
    },
    {
      "epoch": 0.9750416666666667,
      "grad_norm": 0.8294877409934998,
      "learning_rate": 4.6472332653934017e-07,
      "loss": 3.4406,
      "step": 468020
    },
    {
      "epoch": 0.9750625,
      "grad_norm": 0.9120499491691589,
      "learning_rate": 4.6394821843215856e-07,
      "loss": 3.33,
      "step": 468030
    },
    {
      "epoch": 0.9750833333333333,
      "grad_norm": 0.9406372308731079,
      "learning_rate": 4.6317375626153117e-07,
      "loss": 3.4558,
      "step": 468040
    },
    {
      "epoch": 0.9751041666666667,
      "grad_norm": 0.8838465213775635,
      "learning_rate": 4.623999400308054e-07,
      "loss": 3.3179,
      "step": 468050
    },
    {
      "epoch": 0.975125,
      "grad_norm": 0.9199230074882507,
      "learning_rate": 4.616267697433118e-07,
      "loss": 3.283,
      "step": 468060
    },
    {
      "epoch": 0.9751458333333334,
      "grad_norm": 0.9202960729598999,
      "learning_rate": 4.6085424540241444e-07,
      "loss": 3.3521,
      "step": 468070
    },
    {
      "epoch": 0.9751666666666666,
      "grad_norm": 0.942859947681427,
      "learning_rate": 4.600823670114273e-07,
      "loss": 3.266,
      "step": 468080
    },
    {
      "epoch": 0.9751875,
      "grad_norm": 0.9303386807441711,
      "learning_rate": 4.5931113457369773e-07,
      "loss": 3.344,
      "step": 468090
    },
    {
      "epoch": 0.9752083333333333,
      "grad_norm": 0.9830275774002075,
      "learning_rate": 4.5854054809253973e-07,
      "loss": 3.2719,
      "step": 468100
    },
    {
      "epoch": 0.9752291666666667,
      "grad_norm": 1.0171293020248413,
      "learning_rate": 4.5777060757130057e-07,
      "loss": 3.2917,
      "step": 468110
    },
    {
      "epoch": 0.97525,
      "grad_norm": 0.9029510617256165,
      "learning_rate": 4.57001313013311e-07,
      "loss": 3.3065,
      "step": 468120
    },
    {
      "epoch": 0.9752708333333333,
      "grad_norm": 0.9728074073791504,
      "learning_rate": 4.5623266442186834e-07,
      "loss": 3.3566,
      "step": 468130
    },
    {
      "epoch": 0.9752916666666667,
      "grad_norm": 0.8427457213401794,
      "learning_rate": 4.554646618003033e-07,
      "loss": 3.2853,
      "step": 468140
    },
    {
      "epoch": 0.9753125,
      "grad_norm": 0.9589613080024719,
      "learning_rate": 4.5469730515194647e-07,
      "loss": 3.3576,
      "step": 468150
    },
    {
      "epoch": 0.9753333333333334,
      "grad_norm": 0.9052714109420776,
      "learning_rate": 4.539305944800953e-07,
      "loss": 3.4646,
      "step": 468160
    },
    {
      "epoch": 0.9753541666666666,
      "grad_norm": 1.0036847591400146,
      "learning_rate": 4.531645297880804e-07,
      "loss": 3.2684,
      "step": 468170
    },
    {
      "epoch": 0.975375,
      "grad_norm": 0.8977940678596497,
      "learning_rate": 4.523991110791991e-07,
      "loss": 3.282,
      "step": 468180
    },
    {
      "epoch": 0.9753958333333334,
      "grad_norm": 0.9403295516967773,
      "learning_rate": 4.516343383567489e-07,
      "loss": 3.3554,
      "step": 468190
    },
    {
      "epoch": 0.9754166666666667,
      "grad_norm": 0.913901686668396,
      "learning_rate": 4.5087021162404367e-07,
      "loss": 3.3064,
      "step": 468200
    },
    {
      "epoch": 0.9754375,
      "grad_norm": 0.9265287518501282,
      "learning_rate": 4.501067308843975e-07,
      "loss": 3.2704,
      "step": 468210
    },
    {
      "epoch": 0.9754583333333333,
      "grad_norm": 0.8360882997512817,
      "learning_rate": 4.4934389614107447e-07,
      "loss": 3.2643,
      "step": 468220
    },
    {
      "epoch": 0.9754791666666667,
      "grad_norm": 0.8861613869667053,
      "learning_rate": 4.4858170739740516e-07,
      "loss": 3.3021,
      "step": 468230
    },
    {
      "epoch": 0.9755,
      "grad_norm": 0.9054036736488342,
      "learning_rate": 4.4782016465667035e-07,
      "loss": 3.3188,
      "step": 468240
    },
    {
      "epoch": 0.9755208333333333,
      "grad_norm": 0.9762336611747742,
      "learning_rate": 4.470592679221341e-07,
      "loss": 3.4173,
      "step": 468250
    },
    {
      "epoch": 0.9755416666666666,
      "grad_norm": 0.8713180422782898,
      "learning_rate": 4.46299017197127e-07,
      "loss": 3.3076,
      "step": 468260
    },
    {
      "epoch": 0.9755625,
      "grad_norm": 0.8732671737670898,
      "learning_rate": 4.4553941248489655e-07,
      "loss": 3.273,
      "step": 468270
    },
    {
      "epoch": 0.9755833333333334,
      "grad_norm": 0.9582517743110657,
      "learning_rate": 4.447804537887401e-07,
      "loss": 3.3234,
      "step": 468280
    },
    {
      "epoch": 0.9756041666666667,
      "grad_norm": 0.9086158871650696,
      "learning_rate": 4.440221411119382e-07,
      "loss": 3.2889,
      "step": 468290
    },
    {
      "epoch": 0.975625,
      "grad_norm": 0.9833599925041199,
      "learning_rate": 4.432644744577551e-07,
      "loss": 3.3443,
      "step": 468300
    },
    {
      "epoch": 0.9756458333333333,
      "grad_norm": 0.9872228503227234,
      "learning_rate": 4.425074538294715e-07,
      "loss": 3.341,
      "step": 468310
    },
    {
      "epoch": 0.9756666666666667,
      "grad_norm": 0.8972116708755493,
      "learning_rate": 4.41751079230368e-07,
      "loss": 3.3124,
      "step": 468320
    },
    {
      "epoch": 0.9756875,
      "grad_norm": 0.8574742078781128,
      "learning_rate": 4.409953506636921e-07,
      "loss": 3.3045,
      "step": 468330
    },
    {
      "epoch": 0.9757083333333333,
      "grad_norm": 1.1644424200057983,
      "learning_rate": 4.402402681327077e-07,
      "loss": 3.3445,
      "step": 468340
    },
    {
      "epoch": 0.9757291666666666,
      "grad_norm": 0.9422792792320251,
      "learning_rate": 4.394858316407124e-07,
      "loss": 3.2755,
      "step": 468350
    },
    {
      "epoch": 0.97575,
      "grad_norm": 0.9536811113357544,
      "learning_rate": 4.3873204119092007e-07,
      "loss": 3.3197,
      "step": 468360
    },
    {
      "epoch": 0.9757708333333334,
      "grad_norm": 0.9077025055885315,
      "learning_rate": 4.3797889678661157e-07,
      "loss": 3.2624,
      "step": 468370
    },
    {
      "epoch": 0.9757916666666666,
      "grad_norm": 0.925072968006134,
      "learning_rate": 4.372263984310176e-07,
      "loss": 3.2662,
      "step": 468380
    },
    {
      "epoch": 0.9758125,
      "grad_norm": 0.9731869101524353,
      "learning_rate": 4.364745461274188e-07,
      "loss": 3.2906,
      "step": 468390
    },
    {
      "epoch": 0.9758333333333333,
      "grad_norm": 0.9400713443756104,
      "learning_rate": 4.3572333987904606e-07,
      "loss": 3.3255,
      "step": 468400
    },
    {
      "epoch": 0.9758541666666667,
      "grad_norm": 0.8446635603904724,
      "learning_rate": 4.349727796891467e-07,
      "loss": 3.2692,
      "step": 468410
    },
    {
      "epoch": 0.975875,
      "grad_norm": 0.829519510269165,
      "learning_rate": 4.3422286556095143e-07,
      "loss": 3.3554,
      "step": 468420
    },
    {
      "epoch": 0.9758958333333333,
      "grad_norm": 1.0893102884292603,
      "learning_rate": 4.3347359749772434e-07,
      "loss": 3.3861,
      "step": 468430
    },
    {
      "epoch": 0.9759166666666667,
      "grad_norm": 0.9005481004714966,
      "learning_rate": 4.3272497550269623e-07,
      "loss": 3.3057,
      "step": 468440
    },
    {
      "epoch": 0.9759375,
      "grad_norm": 0.9498500227928162,
      "learning_rate": 4.3197699957908117e-07,
      "loss": 3.2619,
      "step": 468450
    },
    {
      "epoch": 0.9759583333333334,
      "grad_norm": 0.8992550373077393,
      "learning_rate": 4.312296697301265e-07,
      "loss": 3.275,
      "step": 468460
    },
    {
      "epoch": 0.9759791666666666,
      "grad_norm": 1.1875977516174316,
      "learning_rate": 4.304829859590464e-07,
      "loss": 3.2702,
      "step": 468470
    },
    {
      "epoch": 0.976,
      "grad_norm": 0.9997725486755371,
      "learning_rate": 4.297369482690882e-07,
      "loss": 3.3533,
      "step": 468480
    },
    {
      "epoch": 0.9760208333333333,
      "grad_norm": 0.8739789128303528,
      "learning_rate": 4.289915566634661e-07,
      "loss": 3.2963,
      "step": 468490
    },
    {
      "epoch": 0.9760416666666667,
      "grad_norm": 0.9336124658584595,
      "learning_rate": 4.282468111453774e-07,
      "loss": 3.3297,
      "step": 468500
    },
    {
      "epoch": 0.9760625,
      "grad_norm": 0.8449898362159729,
      "learning_rate": 4.275027117180696e-07,
      "loss": 3.2669,
      "step": 468510
    },
    {
      "epoch": 0.9760833333333333,
      "grad_norm": 0.9128498435020447,
      "learning_rate": 4.267592583847568e-07,
      "loss": 3.3484,
      "step": 468520
    },
    {
      "epoch": 0.9761041666666667,
      "grad_norm": 0.9495858550071716,
      "learning_rate": 4.260164511486197e-07,
      "loss": 3.345,
      "step": 468530
    },
    {
      "epoch": 0.976125,
      "grad_norm": 0.8843774199485779,
      "learning_rate": 4.2527429001288914e-07,
      "loss": 3.4079,
      "step": 468540
    },
    {
      "epoch": 0.9761458333333334,
      "grad_norm": 0.8988221287727356,
      "learning_rate": 4.245327749807792e-07,
      "loss": 3.3687,
      "step": 468550
    },
    {
      "epoch": 0.9761666666666666,
      "grad_norm": 0.882205069065094,
      "learning_rate": 4.2379190605547064e-07,
      "loss": 3.2567,
      "step": 468560
    },
    {
      "epoch": 0.9761875,
      "grad_norm": 0.9070515632629395,
      "learning_rate": 4.2305168324017755e-07,
      "loss": 3.2586,
      "step": 468570
    },
    {
      "epoch": 0.9762083333333333,
      "grad_norm": 0.8793708086013794,
      "learning_rate": 4.223121065380974e-07,
      "loss": 3.2662,
      "step": 468580
    },
    {
      "epoch": 0.9762291666666667,
      "grad_norm": 1.0981500148773193,
      "learning_rate": 4.21573175952411e-07,
      "loss": 3.3463,
      "step": 468590
    },
    {
      "epoch": 0.97625,
      "grad_norm": 0.9025807976722717,
      "learning_rate": 4.2083489148633243e-07,
      "loss": 3.2926,
      "step": 468600
    },
    {
      "epoch": 0.9762708333333333,
      "grad_norm": 0.9348968863487244,
      "learning_rate": 4.200972531430424e-07,
      "loss": 3.3777,
      "step": 468610
    },
    {
      "epoch": 0.9762916666666667,
      "grad_norm": 1.3210084438323975,
      "learning_rate": 4.1936026092570516e-07,
      "loss": 3.3685,
      "step": 468620
    },
    {
      "epoch": 0.9763125,
      "grad_norm": 0.9532592296600342,
      "learning_rate": 4.186239148375514e-07,
      "loss": 3.2559,
      "step": 468630
    },
    {
      "epoch": 0.9763333333333334,
      "grad_norm": 0.8972559571266174,
      "learning_rate": 4.17888214881712e-07,
      "loss": 3.241,
      "step": 468640
    },
    {
      "epoch": 0.9763541666666666,
      "grad_norm": 0.9766545295715332,
      "learning_rate": 4.171531610613843e-07,
      "loss": 3.3252,
      "step": 468650
    },
    {
      "epoch": 0.976375,
      "grad_norm": 0.9600928425788879,
      "learning_rate": 4.1641875337976584e-07,
      "loss": 3.3115,
      "step": 468660
    },
    {
      "epoch": 0.9763958333333334,
      "grad_norm": 0.8713104128837585,
      "learning_rate": 4.1568499184000403e-07,
      "loss": 3.3644,
      "step": 468670
    },
    {
      "epoch": 0.9764166666666667,
      "grad_norm": 1.011156678199768,
      "learning_rate": 4.1495187644526306e-07,
      "loss": 3.4067,
      "step": 468680
    },
    {
      "epoch": 0.9764375,
      "grad_norm": 0.9537369608879089,
      "learning_rate": 4.142194071987237e-07,
      "loss": 3.2969,
      "step": 468690
    },
    {
      "epoch": 0.9764583333333333,
      "grad_norm": 0.96103435754776,
      "learning_rate": 4.134875841035501e-07,
      "loss": 3.2072,
      "step": 468700
    },
    {
      "epoch": 0.9764791666666667,
      "grad_norm": 0.8783340454101562,
      "learning_rate": 4.127564071628897e-07,
      "loss": 3.2646,
      "step": 468710
    },
    {
      "epoch": 0.9765,
      "grad_norm": 0.9588398933410645,
      "learning_rate": 4.1202587637992333e-07,
      "loss": 3.2799,
      "step": 468720
    },
    {
      "epoch": 0.9765208333333333,
      "grad_norm": 0.9352076649665833,
      "learning_rate": 4.112959917577985e-07,
      "loss": 3.4128,
      "step": 468730
    },
    {
      "epoch": 0.9765416666666666,
      "grad_norm": 0.8754000663757324,
      "learning_rate": 4.1056675329964593e-07,
      "loss": 3.3661,
      "step": 468740
    },
    {
      "epoch": 0.9765625,
      "grad_norm": 0.8271219730377197,
      "learning_rate": 4.0983816100864653e-07,
      "loss": 3.3561,
      "step": 468750
    },
    {
      "epoch": 0.9765833333333334,
      "grad_norm": 0.8762798309326172,
      "learning_rate": 4.0911021488793106e-07,
      "loss": 3.4156,
      "step": 468760
    },
    {
      "epoch": 0.9766041666666667,
      "grad_norm": 0.929144024848938,
      "learning_rate": 4.08382914940647e-07,
      "loss": 3.3523,
      "step": 468770
    },
    {
      "epoch": 0.976625,
      "grad_norm": 0.9161368012428284,
      "learning_rate": 4.076562611699419e-07,
      "loss": 3.3877,
      "step": 468780
    },
    {
      "epoch": 0.9766458333333333,
      "grad_norm": 0.9264990091323853,
      "learning_rate": 4.0693025357892984e-07,
      "loss": 3.274,
      "step": 468790
    },
    {
      "epoch": 0.9766666666666667,
      "grad_norm": 0.9365785121917725,
      "learning_rate": 4.062048921707917e-07,
      "loss": 3.4114,
      "step": 468800
    },
    {
      "epoch": 0.9766875,
      "grad_norm": 0.9800450801849365,
      "learning_rate": 4.0548017694860824e-07,
      "loss": 3.2634,
      "step": 468810
    },
    {
      "epoch": 0.9767083333333333,
      "grad_norm": 0.8994408845901489,
      "learning_rate": 4.0475610791556034e-07,
      "loss": 3.2718,
      "step": 468820
    },
    {
      "epoch": 0.9767291666666666,
      "grad_norm": 0.9354642033576965,
      "learning_rate": 4.040326850747455e-07,
      "loss": 3.1914,
      "step": 468830
    },
    {
      "epoch": 0.97675,
      "grad_norm": 0.9013006687164307,
      "learning_rate": 4.033099084292946e-07,
      "loss": 3.3249,
      "step": 468840
    },
    {
      "epoch": 0.9767708333333334,
      "grad_norm": 0.9828875660896301,
      "learning_rate": 4.025877779823217e-07,
      "loss": 3.3401,
      "step": 468850
    },
    {
      "epoch": 0.9767916666666666,
      "grad_norm": 0.9332523941993713,
      "learning_rate": 4.0186629373695766e-07,
      "loss": 3.3131,
      "step": 468860
    },
    {
      "epoch": 0.9768125,
      "grad_norm": 1.1218836307525635,
      "learning_rate": 4.011454556963167e-07,
      "loss": 3.3037,
      "step": 468870
    },
    {
      "epoch": 0.9768333333333333,
      "grad_norm": 0.9130949974060059,
      "learning_rate": 4.0042526386351305e-07,
      "loss": 3.2506,
      "step": 468880
    },
    {
      "epoch": 0.9768541666666667,
      "grad_norm": 0.9057255387306213,
      "learning_rate": 3.997057182416774e-07,
      "loss": 3.2991,
      "step": 468890
    },
    {
      "epoch": 0.976875,
      "grad_norm": 1.0016611814498901,
      "learning_rate": 3.989868188338741e-07,
      "loss": 3.2576,
      "step": 468900
    },
    {
      "epoch": 0.9768958333333333,
      "grad_norm": 0.9366356730461121,
      "learning_rate": 3.982685656432338e-07,
      "loss": 3.3332,
      "step": 468910
    },
    {
      "epoch": 0.9769166666666667,
      "grad_norm": 0.8484417200088501,
      "learning_rate": 3.9755095867285427e-07,
      "loss": 3.341,
      "step": 468920
    },
    {
      "epoch": 0.9769375,
      "grad_norm": 0.9740857481956482,
      "learning_rate": 3.9683399792584945e-07,
      "loss": 3.4163,
      "step": 468930
    },
    {
      "epoch": 0.9769583333333334,
      "grad_norm": 0.976284384727478,
      "learning_rate": 3.961176834053004e-07,
      "loss": 3.2932,
      "step": 468940
    },
    {
      "epoch": 0.9769791666666666,
      "grad_norm": 0.8761317729949951,
      "learning_rate": 3.9540201511430446e-07,
      "loss": 3.419,
      "step": 468950
    },
    {
      "epoch": 0.977,
      "grad_norm": 1.0576398372650146,
      "learning_rate": 3.9468699305594266e-07,
      "loss": 3.3373,
      "step": 468960
    },
    {
      "epoch": 0.9770208333333333,
      "grad_norm": 0.8859720230102539,
      "learning_rate": 3.939726172333291e-07,
      "loss": 3.2362,
      "step": 468970
    },
    {
      "epoch": 0.9770416666666667,
      "grad_norm": 1.0112885236740112,
      "learning_rate": 3.9325888764952795e-07,
      "loss": 3.376,
      "step": 468980
    },
    {
      "epoch": 0.9770625,
      "grad_norm": 0.9554246068000793,
      "learning_rate": 3.9254580430763684e-07,
      "loss": 3.2784,
      "step": 468990
    },
    {
      "epoch": 0.9770833333333333,
      "grad_norm": 0.9089853763580322,
      "learning_rate": 3.918333672107365e-07,
      "loss": 3.3384,
      "step": 469000
    },
    {
      "epoch": 0.9770833333333333,
      "eval_loss": 4.0215020179748535,
      "eval_runtime": 8.7743,
      "eval_samples_per_second": 1.14,
      "eval_steps_per_second": 0.342,
      "step": 469000
    },
    {
      "epoch": 0.9771041666666667,
      "grad_norm": 1.0028939247131348,
      "learning_rate": 3.911215763618747e-07,
      "loss": 3.2905,
      "step": 469010
    },
    {
      "epoch": 0.977125,
      "grad_norm": 0.9203524589538574,
      "learning_rate": 3.904104317641654e-07,
      "loss": 3.2591,
      "step": 469020
    },
    {
      "epoch": 0.9771458333333334,
      "grad_norm": 0.8899055123329163,
      "learning_rate": 3.8969993342065633e-07,
      "loss": 3.3796,
      "step": 469030
    },
    {
      "epoch": 0.9771666666666666,
      "grad_norm": 0.9733741283416748,
      "learning_rate": 3.889900813344282e-07,
      "loss": 3.3662,
      "step": 469040
    },
    {
      "epoch": 0.9771875,
      "grad_norm": 1.0288708209991455,
      "learning_rate": 3.882808755085454e-07,
      "loss": 3.2691,
      "step": 469050
    },
    {
      "epoch": 0.9772083333333333,
      "grad_norm": 0.9747863411903381,
      "learning_rate": 3.8757231594605534e-07,
      "loss": 3.3869,
      "step": 469060
    },
    {
      "epoch": 0.9772291666666667,
      "grad_norm": 0.861882746219635,
      "learning_rate": 3.868644026500389e-07,
      "loss": 3.3206,
      "step": 469070
    },
    {
      "epoch": 0.97725,
      "grad_norm": 1.1046544313430786,
      "learning_rate": 3.8615713562356045e-07,
      "loss": 3.3303,
      "step": 469080
    },
    {
      "epoch": 0.9772708333333333,
      "grad_norm": 1.00308358669281,
      "learning_rate": 3.8545051486965075e-07,
      "loss": 3.4182,
      "step": 469090
    },
    {
      "epoch": 0.9772916666666667,
      "grad_norm": 1.018214464187622,
      "learning_rate": 3.847445403913574e-07,
      "loss": 3.2919,
      "step": 469100
    },
    {
      "epoch": 0.9773125,
      "grad_norm": 0.8785971403121948,
      "learning_rate": 3.8403921219176126e-07,
      "loss": 3.3326,
      "step": 469110
    },
    {
      "epoch": 0.9773333333333334,
      "grad_norm": 0.9251842498779297,
      "learning_rate": 3.833345302739099e-07,
      "loss": 3.2675,
      "step": 469120
    },
    {
      "epoch": 0.9773541666666666,
      "grad_norm": 0.9366978406906128,
      "learning_rate": 3.82630494640801e-07,
      "loss": 3.3646,
      "step": 469130
    },
    {
      "epoch": 0.977375,
      "grad_norm": 0.9184935092926025,
      "learning_rate": 3.819271052955319e-07,
      "loss": 3.3298,
      "step": 469140
    },
    {
      "epoch": 0.9773958333333334,
      "grad_norm": 0.9112709760665894,
      "learning_rate": 3.8122436224110043e-07,
      "loss": 3.2921,
      "step": 469150
    },
    {
      "epoch": 0.9774166666666667,
      "grad_norm": 0.9501916766166687,
      "learning_rate": 3.8052226548055396e-07,
      "loss": 3.2877,
      "step": 469160
    },
    {
      "epoch": 0.9774375,
      "grad_norm": 0.868560791015625,
      "learning_rate": 3.798208150169235e-07,
      "loss": 3.2767,
      "step": 469170
    },
    {
      "epoch": 0.9774583333333333,
      "grad_norm": 0.8917059898376465,
      "learning_rate": 3.791200108532566e-07,
      "loss": 3.413,
      "step": 469180
    },
    {
      "epoch": 0.9774791666666667,
      "grad_norm": 0.8852332830429077,
      "learning_rate": 3.784198529925675e-07,
      "loss": 3.3159,
      "step": 469190
    },
    {
      "epoch": 0.9775,
      "grad_norm": 0.9192627668380737,
      "learning_rate": 3.7772034143787044e-07,
      "loss": 3.2827,
      "step": 469200
    },
    {
      "epoch": 0.9775208333333333,
      "grad_norm": 1.019423484802246,
      "learning_rate": 3.7702147619221304e-07,
      "loss": 3.4565,
      "step": 469210
    },
    {
      "epoch": 0.9775416666666666,
      "grad_norm": 0.8954149484634399,
      "learning_rate": 3.7632325725857616e-07,
      "loss": 3.3543,
      "step": 469220
    },
    {
      "epoch": 0.9775625,
      "grad_norm": 0.8941888213157654,
      "learning_rate": 3.756256846400241e-07,
      "loss": 3.3976,
      "step": 469230
    },
    {
      "epoch": 0.9775833333333334,
      "grad_norm": 0.9278307557106018,
      "learning_rate": 3.7492875833952106e-07,
      "loss": 3.3114,
      "step": 469240
    },
    {
      "epoch": 0.9776041666666667,
      "grad_norm": 1.0098261833190918,
      "learning_rate": 3.742324783600981e-07,
      "loss": 3.2643,
      "step": 469250
    },
    {
      "epoch": 0.977625,
      "grad_norm": 0.9192801117897034,
      "learning_rate": 3.73536844704786e-07,
      "loss": 3.4566,
      "step": 469260
    },
    {
      "epoch": 0.9776458333333333,
      "grad_norm": 0.8687482476234436,
      "learning_rate": 3.7284185737654903e-07,
      "loss": 3.3993,
      "step": 469270
    },
    {
      "epoch": 0.9776666666666667,
      "grad_norm": 0.9120953679084778,
      "learning_rate": 3.721475163784182e-07,
      "loss": 3.3091,
      "step": 469280
    },
    {
      "epoch": 0.9776875,
      "grad_norm": 0.8195315599441528,
      "learning_rate": 3.714538217133745e-07,
      "loss": 3.2133,
      "step": 469290
    },
    {
      "epoch": 0.9777083333333333,
      "grad_norm": 0.9123724102973938,
      "learning_rate": 3.70760773384432e-07,
      "loss": 3.2076,
      "step": 469300
    },
    {
      "epoch": 0.9777291666666666,
      "grad_norm": 1.057841181755066,
      "learning_rate": 3.700683713945718e-07,
      "loss": 3.3116,
      "step": 469310
    },
    {
      "epoch": 0.97775,
      "grad_norm": 1.0088790655136108,
      "learning_rate": 3.6937661574679146e-07,
      "loss": 3.4664,
      "step": 469320
    },
    {
      "epoch": 0.9777708333333334,
      "grad_norm": 0.9130648970603943,
      "learning_rate": 3.686855064440719e-07,
      "loss": 3.2412,
      "step": 469330
    },
    {
      "epoch": 0.9777916666666666,
      "grad_norm": 0.8233498930931091,
      "learning_rate": 3.679950434894108e-07,
      "loss": 3.2842,
      "step": 469340
    },
    {
      "epoch": 0.9778125,
      "grad_norm": 0.9175564646720886,
      "learning_rate": 3.6730522688577233e-07,
      "loss": 3.335,
      "step": 469350
    },
    {
      "epoch": 0.9778333333333333,
      "grad_norm": 0.9141326546669006,
      "learning_rate": 3.666160566361542e-07,
      "loss": 3.2099,
      "step": 469360
    },
    {
      "epoch": 0.9778541666666667,
      "grad_norm": 0.9406553506851196,
      "learning_rate": 3.659275327435207e-07,
      "loss": 3.2496,
      "step": 469370
    },
    {
      "epoch": 0.977875,
      "grad_norm": 0.9511780142784119,
      "learning_rate": 3.6523965521085273e-07,
      "loss": 3.2689,
      "step": 469380
    },
    {
      "epoch": 0.9778958333333333,
      "grad_norm": 1.0556539297103882,
      "learning_rate": 3.6455242404113126e-07,
      "loss": 3.3883,
      "step": 469390
    },
    {
      "epoch": 0.9779166666666667,
      "grad_norm": 1.0219155550003052,
      "learning_rate": 3.6386583923730394e-07,
      "loss": 3.4338,
      "step": 469400
    },
    {
      "epoch": 0.9779375,
      "grad_norm": 0.8746592402458191,
      "learning_rate": 3.631799008023351e-07,
      "loss": 3.1402,
      "step": 469410
    },
    {
      "epoch": 0.9779583333333334,
      "grad_norm": 0.97414630651474,
      "learning_rate": 3.6249460873920555e-07,
      "loss": 3.3345,
      "step": 469420
    },
    {
      "epoch": 0.9779791666666666,
      "grad_norm": 0.929844856262207,
      "learning_rate": 3.6180996305087974e-07,
      "loss": 3.1958,
      "step": 469430
    },
    {
      "epoch": 0.978,
      "grad_norm": 0.9230333566665649,
      "learning_rate": 3.6112596374028856e-07,
      "loss": 3.3772,
      "step": 469440
    },
    {
      "epoch": 0.9780208333333333,
      "grad_norm": 0.9097277522087097,
      "learning_rate": 3.60442610810413e-07,
      "loss": 3.3362,
      "step": 469450
    },
    {
      "epoch": 0.9780416666666667,
      "grad_norm": 1.0730266571044922,
      "learning_rate": 3.5975990426420076e-07,
      "loss": 3.2698,
      "step": 469460
    },
    {
      "epoch": 0.9780625,
      "grad_norm": 0.8722130656242371,
      "learning_rate": 3.5907784410458276e-07,
      "loss": 3.4119,
      "step": 469470
    },
    {
      "epoch": 0.9780833333333333,
      "grad_norm": 0.87965327501297,
      "learning_rate": 3.583964303345066e-07,
      "loss": 3.4004,
      "step": 469480
    },
    {
      "epoch": 0.9781041666666667,
      "grad_norm": 1.028334617614746,
      "learning_rate": 3.577156629569367e-07,
      "loss": 3.221,
      "step": 469490
    },
    {
      "epoch": 0.978125,
      "grad_norm": 0.921546220779419,
      "learning_rate": 3.570355419748039e-07,
      "loss": 3.2571,
      "step": 469500
    },
    {
      "epoch": 0.9781458333333334,
      "grad_norm": 0.8902408480644226,
      "learning_rate": 3.563560673910393e-07,
      "loss": 3.2953,
      "step": 469510
    },
    {
      "epoch": 0.9781666666666666,
      "grad_norm": 0.7882444262504578,
      "learning_rate": 3.556772392085905e-07,
      "loss": 3.1041,
      "step": 469520
    },
    {
      "epoch": 0.9781875,
      "grad_norm": 1.0619380474090576,
      "learning_rate": 3.5499905743038846e-07,
      "loss": 3.3084,
      "step": 469530
    },
    {
      "epoch": 0.9782083333333333,
      "grad_norm": 0.82034832239151,
      "learning_rate": 3.543215220593476e-07,
      "loss": 3.3652,
      "step": 469540
    },
    {
      "epoch": 0.9782291666666667,
      "grad_norm": 0.970017671585083,
      "learning_rate": 3.5364463309839887e-07,
      "loss": 3.4041,
      "step": 469550
    },
    {
      "epoch": 0.97825,
      "grad_norm": 0.8827521800994873,
      "learning_rate": 3.529683905504732e-07,
      "loss": 3.3954,
      "step": 469560
    },
    {
      "epoch": 0.9782708333333333,
      "grad_norm": 1.002366065979004,
      "learning_rate": 3.522927944185017e-07,
      "loss": 3.3063,
      "step": 469570
    },
    {
      "epoch": 0.9782916666666667,
      "grad_norm": 0.9197260141372681,
      "learning_rate": 3.516178447053819e-07,
      "loss": 3.3973,
      "step": 469580
    },
    {
      "epoch": 0.9783125,
      "grad_norm": 0.8468795418739319,
      "learning_rate": 3.5094354141402825e-07,
      "loss": 3.1923,
      "step": 469590
    },
    {
      "epoch": 0.9783333333333334,
      "grad_norm": 1.0227131843566895,
      "learning_rate": 3.502698845473717e-07,
      "loss": 3.2434,
      "step": 469600
    },
    {
      "epoch": 0.9783541666666666,
      "grad_norm": 0.9480595588684082,
      "learning_rate": 3.495968741083266e-07,
      "loss": 3.3946,
      "step": 469610
    },
    {
      "epoch": 0.978375,
      "grad_norm": 0.9568144083023071,
      "learning_rate": 3.4892451009977395e-07,
      "loss": 3.3065,
      "step": 469620
    },
    {
      "epoch": 0.9783958333333334,
      "grad_norm": 0.8724399209022522,
      "learning_rate": 3.482527925246281e-07,
      "loss": 3.2737,
      "step": 469630
    },
    {
      "epoch": 0.9784166666666667,
      "grad_norm": 0.9632014036178589,
      "learning_rate": 3.4758172138580343e-07,
      "loss": 3.2899,
      "step": 469640
    },
    {
      "epoch": 0.9784375,
      "grad_norm": 0.9407327771186829,
      "learning_rate": 3.469112966861809e-07,
      "loss": 3.208,
      "step": 469650
    },
    {
      "epoch": 0.9784583333333333,
      "grad_norm": 0.8503904342651367,
      "learning_rate": 3.4624151842867486e-07,
      "loss": 3.1781,
      "step": 469660
    },
    {
      "epoch": 0.9784791666666667,
      "grad_norm": 0.8513076901435852,
      "learning_rate": 3.4557238661616635e-07,
      "loss": 3.3649,
      "step": 469670
    },
    {
      "epoch": 0.9785,
      "grad_norm": 1.0725352764129639,
      "learning_rate": 3.4490390125153643e-07,
      "loss": 3.3946,
      "step": 469680
    },
    {
      "epoch": 0.9785208333333333,
      "grad_norm": 0.883973240852356,
      "learning_rate": 3.442360623376994e-07,
      "loss": 3.2823,
      "step": 469690
    },
    {
      "epoch": 0.9785416666666666,
      "grad_norm": 0.9447746872901917,
      "learning_rate": 3.4356886987750297e-07,
      "loss": 3.3477,
      "step": 469700
    },
    {
      "epoch": 0.9785625,
      "grad_norm": 1.6887754201889038,
      "learning_rate": 3.4290232387386154e-07,
      "loss": 3.2328,
      "step": 469710
    },
    {
      "epoch": 0.9785833333333334,
      "grad_norm": 1.1329550743103027,
      "learning_rate": 3.4223642432965604e-07,
      "loss": 3.3034,
      "step": 469720
    },
    {
      "epoch": 0.9786041666666667,
      "grad_norm": 0.9308395385742188,
      "learning_rate": 3.4157117124773423e-07,
      "loss": 3.2685,
      "step": 469730
    },
    {
      "epoch": 0.978625,
      "grad_norm": 1.0668227672576904,
      "learning_rate": 3.4090656463099384e-07,
      "loss": 3.408,
      "step": 469740
    },
    {
      "epoch": 0.9786458333333333,
      "grad_norm": 1.0100011825561523,
      "learning_rate": 3.4024260448229924e-07,
      "loss": 3.1709,
      "step": 469750
    },
    {
      "epoch": 0.9786666666666667,
      "grad_norm": 0.9640070796012878,
      "learning_rate": 3.3957929080451474e-07,
      "loss": 3.2756,
      "step": 469760
    },
    {
      "epoch": 0.9786875,
      "grad_norm": 0.96893310546875,
      "learning_rate": 3.389166236005214e-07,
      "loss": 3.2499,
      "step": 469770
    },
    {
      "epoch": 0.9787083333333333,
      "grad_norm": 0.9666760563850403,
      "learning_rate": 3.3825460287315033e-07,
      "loss": 3.1906,
      "step": 469780
    },
    {
      "epoch": 0.9787291666666667,
      "grad_norm": 0.8889336585998535,
      "learning_rate": 3.375932286252825e-07,
      "loss": 3.419,
      "step": 469790
    },
    {
      "epoch": 0.97875,
      "grad_norm": 0.9073159694671631,
      "learning_rate": 3.3693250085976566e-07,
      "loss": 3.3599,
      "step": 469800
    },
    {
      "epoch": 0.9787708333333334,
      "grad_norm": 0.9066593647003174,
      "learning_rate": 3.3627241957946415e-07,
      "loss": 3.3698,
      "step": 469810
    },
    {
      "epoch": 0.9787916666666666,
      "grad_norm": 0.9227360486984253,
      "learning_rate": 3.356129847872424e-07,
      "loss": 3.3455,
      "step": 469820
    },
    {
      "epoch": 0.9788125,
      "grad_norm": 0.9180932641029358,
      "learning_rate": 3.3495419648591484e-07,
      "loss": 3.3152,
      "step": 469830
    },
    {
      "epoch": 0.9788333333333333,
      "grad_norm": 1.0929474830627441,
      "learning_rate": 3.3429605467834576e-07,
      "loss": 3.1475,
      "step": 469840
    },
    {
      "epoch": 0.9788541666666667,
      "grad_norm": 0.8863202929496765,
      "learning_rate": 3.3363855936736626e-07,
      "loss": 3.3394,
      "step": 469850
    },
    {
      "epoch": 0.978875,
      "grad_norm": 0.9887073636054993,
      "learning_rate": 3.3298171055584077e-07,
      "loss": 3.3363,
      "step": 469860
    },
    {
      "epoch": 0.9788958333333333,
      "grad_norm": 0.9363690614700317,
      "learning_rate": 3.3232550824658365e-07,
      "loss": 3.4482,
      "step": 469870
    },
    {
      "epoch": 0.9789166666666667,
      "grad_norm": 0.9082275629043579,
      "learning_rate": 3.3166995244244267e-07,
      "loss": 3.4307,
      "step": 469880
    },
    {
      "epoch": 0.9789375,
      "grad_norm": 0.8942115902900696,
      "learning_rate": 3.3101504314624884e-07,
      "loss": 3.3033,
      "step": 469890
    },
    {
      "epoch": 0.9789583333333334,
      "grad_norm": 0.8622241616249084,
      "learning_rate": 3.303607803608166e-07,
      "loss": 3.1961,
      "step": 469900
    },
    {
      "epoch": 0.9789791666666666,
      "grad_norm": 0.8897532224655151,
      "learning_rate": 3.2970716408897704e-07,
      "loss": 3.3096,
      "step": 469910
    },
    {
      "epoch": 0.979,
      "grad_norm": 1.1189851760864258,
      "learning_rate": 3.2905419433357785e-07,
      "loss": 3.3106,
      "step": 469920
    },
    {
      "epoch": 0.9790208333333333,
      "grad_norm": 1.074177861213684,
      "learning_rate": 3.284018710974001e-07,
      "loss": 3.3278,
      "step": 469930
    },
    {
      "epoch": 0.9790416666666667,
      "grad_norm": 0.8963669538497925,
      "learning_rate": 3.2775019438329164e-07,
      "loss": 3.319,
      "step": 469940
    },
    {
      "epoch": 0.9790625,
      "grad_norm": 0.979412853717804,
      "learning_rate": 3.270991641940668e-07,
      "loss": 3.2294,
      "step": 469950
    },
    {
      "epoch": 0.9790833333333333,
      "grad_norm": 0.9113588333129883,
      "learning_rate": 3.2644878053252335e-07,
      "loss": 3.199,
      "step": 469960
    },
    {
      "epoch": 0.9791041666666667,
      "grad_norm": 0.9325093626976013,
      "learning_rate": 3.2579904340147566e-07,
      "loss": 3.2305,
      "step": 469970
    },
    {
      "epoch": 0.979125,
      "grad_norm": 0.9872553944587708,
      "learning_rate": 3.2514995280373824e-07,
      "loss": 3.4112,
      "step": 469980
    },
    {
      "epoch": 0.9791458333333334,
      "grad_norm": 0.9319301247596741,
      "learning_rate": 3.245015087420921e-07,
      "loss": 3.2851,
      "step": 469990
    },
    {
      "epoch": 0.9791666666666666,
      "grad_norm": 0.9935514330863953,
      "learning_rate": 3.2385371121936845e-07,
      "loss": 3.3811,
      "step": 470000
    },
    {
      "epoch": 0.9791666666666666,
      "eval_loss": 4.021424293518066,
      "eval_runtime": 8.7404,
      "eval_samples_per_second": 1.144,
      "eval_steps_per_second": 0.343,
      "step": 470000
    },
    {
      "epoch": 0.9791875,
      "grad_norm": 0.9602442383766174,
      "learning_rate": 3.232065602383316e-07,
      "loss": 3.3357,
      "step": 470010
    },
    {
      "epoch": 0.9792083333333333,
      "grad_norm": 0.8050913214683533,
      "learning_rate": 3.2256005580181265e-07,
      "loss": 3.4317,
      "step": 470020
    },
    {
      "epoch": 0.9792291666666667,
      "grad_norm": 0.8489936590194702,
      "learning_rate": 3.219141979125761e-07,
      "loss": 3.317,
      "step": 470030
    },
    {
      "epoch": 0.97925,
      "grad_norm": 0.9915599822998047,
      "learning_rate": 3.212689865734364e-07,
      "loss": 3.3334,
      "step": 470040
    },
    {
      "epoch": 0.9792708333333333,
      "grad_norm": 0.9580056071281433,
      "learning_rate": 3.2062442178715785e-07,
      "loss": 3.2858,
      "step": 470050
    },
    {
      "epoch": 0.9792916666666667,
      "grad_norm": 1.3640516996383667,
      "learning_rate": 3.1998050355653835e-07,
      "loss": 3.2861,
      "step": 470060
    },
    {
      "epoch": 0.9793125,
      "grad_norm": 0.8709147572517395,
      "learning_rate": 3.19337231884359e-07,
      "loss": 3.3736,
      "step": 470070
    },
    {
      "epoch": 0.9793333333333333,
      "grad_norm": 0.9027177691459656,
      "learning_rate": 3.186946067733842e-07,
      "loss": 3.3126,
      "step": 470080
    },
    {
      "epoch": 0.9793541666666666,
      "grad_norm": 0.9324368238449097,
      "learning_rate": 3.1805262822641177e-07,
      "loss": 3.2747,
      "step": 470090
    },
    {
      "epoch": 0.979375,
      "grad_norm": 0.8420418500900269,
      "learning_rate": 3.174112962462061e-07,
      "loss": 3.2837,
      "step": 470100
    },
    {
      "epoch": 0.9793958333333334,
      "grad_norm": 0.9527601003646851,
      "learning_rate": 3.1677061083551503e-07,
      "loss": 3.3472,
      "step": 470110
    },
    {
      "epoch": 0.9794166666666667,
      "grad_norm": 0.8342105150222778,
      "learning_rate": 3.16130571997153e-07,
      "loss": 3.2722,
      "step": 470120
    },
    {
      "epoch": 0.9794375,
      "grad_norm": 0.950116753578186,
      "learning_rate": 3.154911797338511e-07,
      "loss": 3.4304,
      "step": 470130
    },
    {
      "epoch": 0.9794583333333333,
      "grad_norm": 0.8707488179206848,
      "learning_rate": 3.1485243404837377e-07,
      "loss": 3.2121,
      "step": 470140
    },
    {
      "epoch": 0.9794791666666667,
      "grad_norm": 0.9375132322311401,
      "learning_rate": 3.142143349434689e-07,
      "loss": 3.2303,
      "step": 470150
    },
    {
      "epoch": 0.9795,
      "grad_norm": 0.858778715133667,
      "learning_rate": 3.135768824219342e-07,
      "loss": 3.3932,
      "step": 470160
    },
    {
      "epoch": 0.9795208333333333,
      "grad_norm": 0.9270195364952087,
      "learning_rate": 3.129400764864842e-07,
      "loss": 3.335,
      "step": 470170
    },
    {
      "epoch": 0.9795416666666666,
      "grad_norm": 0.9522691369056702,
      "learning_rate": 3.1230391713988334e-07,
      "loss": 3.4398,
      "step": 470180
    },
    {
      "epoch": 0.9795625,
      "grad_norm": 0.8930940628051758,
      "learning_rate": 3.116684043848794e-07,
      "loss": 3.1941,
      "step": 470190
    },
    {
      "epoch": 0.9795833333333334,
      "grad_norm": 0.9446805119514465,
      "learning_rate": 3.110335382242202e-07,
      "loss": 3.3272,
      "step": 470200
    },
    {
      "epoch": 0.9796041666666667,
      "grad_norm": 1.0273059606552124,
      "learning_rate": 3.103993186606368e-07,
      "loss": 3.3609,
      "step": 470210
    },
    {
      "epoch": 0.979625,
      "grad_norm": 0.8912478685379028,
      "learning_rate": 3.0976574569687716e-07,
      "loss": 3.1931,
      "step": 470220
    },
    {
      "epoch": 0.9796458333333333,
      "grad_norm": 0.9312331080436707,
      "learning_rate": 3.0913281933568903e-07,
      "loss": 3.2788,
      "step": 470230
    },
    {
      "epoch": 0.9796666666666667,
      "grad_norm": 0.9828453660011292,
      "learning_rate": 3.0850053957978684e-07,
      "loss": 3.3942,
      "step": 470240
    },
    {
      "epoch": 0.9796875,
      "grad_norm": 0.8825330138206482,
      "learning_rate": 3.078689064319184e-07,
      "loss": 3.2746,
      "step": 470250
    },
    {
      "epoch": 0.9797083333333333,
      "grad_norm": 0.9967960119247437,
      "learning_rate": 3.072379198947983e-07,
      "loss": 3.3552,
      "step": 470260
    },
    {
      "epoch": 0.9797291666666667,
      "grad_norm": 1.049113154411316,
      "learning_rate": 3.066075799711576e-07,
      "loss": 3.2895,
      "step": 470270
    },
    {
      "epoch": 0.97975,
      "grad_norm": 1.0460461378097534,
      "learning_rate": 3.0597788666372745e-07,
      "loss": 3.2953,
      "step": 470280
    },
    {
      "epoch": 0.9797708333333334,
      "grad_norm": 0.9562385082244873,
      "learning_rate": 3.0534883997520575e-07,
      "loss": 3.2832,
      "step": 470290
    },
    {
      "epoch": 0.9797916666666666,
      "grad_norm": 1.2069250345230103,
      "learning_rate": 3.047204399083403e-07,
      "loss": 3.2288,
      "step": 470300
    },
    {
      "epoch": 0.9798125,
      "grad_norm": 1.090704083442688,
      "learning_rate": 3.040926864658122e-07,
      "loss": 3.3392,
      "step": 470310
    },
    {
      "epoch": 0.9798333333333333,
      "grad_norm": 1.0036365985870361,
      "learning_rate": 3.034655796503693e-07,
      "loss": 3.3212,
      "step": 470320
    },
    {
      "epoch": 0.9798541666666667,
      "grad_norm": 0.9459083080291748,
      "learning_rate": 3.028391194646762e-07,
      "loss": 3.1613,
      "step": 470330
    },
    {
      "epoch": 0.979875,
      "grad_norm": 0.8546727895736694,
      "learning_rate": 3.0221330591148064e-07,
      "loss": 3.3534,
      "step": 470340
    },
    {
      "epoch": 0.9798958333333333,
      "grad_norm": 0.9419052600860596,
      "learning_rate": 3.015881389934638e-07,
      "loss": 3.3102,
      "step": 470350
    },
    {
      "epoch": 0.9799166666666667,
      "grad_norm": 1.0205172300338745,
      "learning_rate": 3.009636187133402e-07,
      "loss": 3.4609,
      "step": 470360
    },
    {
      "epoch": 0.9799375,
      "grad_norm": 0.8931946754455566,
      "learning_rate": 3.00339745073791e-07,
      "loss": 3.2333,
      "step": 470370
    },
    {
      "epoch": 0.9799583333333334,
      "grad_norm": 0.8997114300727844,
      "learning_rate": 2.9971651807751406e-07,
      "loss": 3.372,
      "step": 470380
    },
    {
      "epoch": 0.9799791666666666,
      "grad_norm": 1.009470820426941,
      "learning_rate": 2.990939377272072e-07,
      "loss": 3.1525,
      "step": 470390
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0437633991241455,
      "learning_rate": 2.984720040255684e-07,
      "loss": 3.4031,
      "step": 470400
    },
    {
      "epoch": 0.9800208333333333,
      "grad_norm": 1.0155056715011597,
      "learning_rate": 2.9785071697527865e-07,
      "loss": 3.2639,
      "step": 470410
    },
    {
      "epoch": 0.9800416666666667,
      "grad_norm": 0.8757801055908203,
      "learning_rate": 2.9723007657900253e-07,
      "loss": 3.2584,
      "step": 470420
    },
    {
      "epoch": 0.9800625,
      "grad_norm": 0.9308931231498718,
      "learning_rate": 2.96610082839438e-07,
      "loss": 3.3474,
      "step": 470430
    },
    {
      "epoch": 0.9800833333333333,
      "grad_norm": 0.8953890204429626,
      "learning_rate": 2.959907357592661e-07,
      "loss": 3.222,
      "step": 470440
    },
    {
      "epoch": 0.9801041666666667,
      "grad_norm": 0.9724917411804199,
      "learning_rate": 2.953720353411515e-07,
      "loss": 3.2402,
      "step": 470450
    },
    {
      "epoch": 0.980125,
      "grad_norm": 0.935552179813385,
      "learning_rate": 2.947539815877753e-07,
      "loss": 3.2677,
      "step": 470460
    },
    {
      "epoch": 0.9801458333333334,
      "grad_norm": 0.8927897810935974,
      "learning_rate": 2.941365745018187e-07,
      "loss": 3.3519,
      "step": 470470
    },
    {
      "epoch": 0.9801666666666666,
      "grad_norm": 1.1194955110549927,
      "learning_rate": 2.93519814085913e-07,
      "loss": 3.242,
      "step": 470480
    },
    {
      "epoch": 0.9801875,
      "grad_norm": 1.114624261856079,
      "learning_rate": 2.929037003427559e-07,
      "loss": 3.3615,
      "step": 470490
    },
    {
      "epoch": 0.9802083333333333,
      "grad_norm": 0.9459090232849121,
      "learning_rate": 2.922882332749954e-07,
      "loss": 3.34,
      "step": 470500
    },
    {
      "epoch": 0.9802291666666667,
      "grad_norm": 0.9345207810401917,
      "learning_rate": 2.9167341288529597e-07,
      "loss": 3.2918,
      "step": 470510
    },
    {
      "epoch": 0.98025,
      "grad_norm": 0.9801353216171265,
      "learning_rate": 2.9105923917628895e-07,
      "loss": 3.404,
      "step": 470520
    },
    {
      "epoch": 0.9802708333333333,
      "grad_norm": 0.9193816184997559,
      "learning_rate": 2.9044571215067204e-07,
      "loss": 3.2601,
      "step": 470530
    },
    {
      "epoch": 0.9802916666666667,
      "grad_norm": 1.0141465663909912,
      "learning_rate": 2.898328318110599e-07,
      "loss": 3.3453,
      "step": 470540
    },
    {
      "epoch": 0.9803125,
      "grad_norm": 0.9137250185012817,
      "learning_rate": 2.8922059816010033e-07,
      "loss": 3.3288,
      "step": 470550
    },
    {
      "epoch": 0.9803333333333333,
      "grad_norm": 0.93178790807724,
      "learning_rate": 2.8860901120045797e-07,
      "loss": 3.2931,
      "step": 470560
    },
    {
      "epoch": 0.9803541666666666,
      "grad_norm": 0.9042592644691467,
      "learning_rate": 2.8799807093476404e-07,
      "loss": 3.1954,
      "step": 470570
    },
    {
      "epoch": 0.980375,
      "grad_norm": 0.9357675909996033,
      "learning_rate": 2.873877773656663e-07,
      "loss": 3.2456,
      "step": 470580
    },
    {
      "epoch": 0.9803958333333334,
      "grad_norm": 0.8576927781105042,
      "learning_rate": 2.8677813049577947e-07,
      "loss": 3.3344,
      "step": 470590
    },
    {
      "epoch": 0.9804166666666667,
      "grad_norm": 0.9228346347808838,
      "learning_rate": 2.86169130327768e-07,
      "loss": 3.2701,
      "step": 470600
    },
    {
      "epoch": 0.9804375,
      "grad_norm": 0.9182989597320557,
      "learning_rate": 2.855607768642132e-07,
      "loss": 3.24,
      "step": 470610
    },
    {
      "epoch": 0.9804583333333333,
      "grad_norm": 0.8264055848121643,
      "learning_rate": 2.849530701077962e-07,
      "loss": 3.2819,
      "step": 470620
    },
    {
      "epoch": 0.9804791666666667,
      "grad_norm": 0.9379812479019165,
      "learning_rate": 2.8434601006113165e-07,
      "loss": 3.3204,
      "step": 470630
    },
    {
      "epoch": 0.9805,
      "grad_norm": 0.9623952507972717,
      "learning_rate": 2.8373959672681747e-07,
      "loss": 3.386,
      "step": 470640
    },
    {
      "epoch": 0.9805208333333333,
      "grad_norm": 0.8934137225151062,
      "learning_rate": 2.831338301074848e-07,
      "loss": 3.4181,
      "step": 470650
    },
    {
      "epoch": 0.9805416666666666,
      "grad_norm": 0.9584705233573914,
      "learning_rate": 2.825287102057483e-07,
      "loss": 3.3152,
      "step": 470660
    },
    {
      "epoch": 0.9805625,
      "grad_norm": 0.9301044344902039,
      "learning_rate": 2.8192423702423916e-07,
      "loss": 3.2811,
      "step": 470670
    },
    {
      "epoch": 0.9805833333333334,
      "grad_norm": 1.002719521522522,
      "learning_rate": 2.813204105655387e-07,
      "loss": 3.3287,
      "step": 470680
    },
    {
      "epoch": 0.9806041666666667,
      "grad_norm": 0.9190355539321899,
      "learning_rate": 2.807172308322947e-07,
      "loss": 3.2776,
      "step": 470690
    },
    {
      "epoch": 0.980625,
      "grad_norm": 0.8441147804260254,
      "learning_rate": 2.801146978270552e-07,
      "loss": 3.2641,
      "step": 470700
    },
    {
      "epoch": 0.9806458333333333,
      "grad_norm": 0.871905505657196,
      "learning_rate": 2.7951281155248473e-07,
      "loss": 3.2486,
      "step": 470710
    },
    {
      "epoch": 0.9806666666666667,
      "grad_norm": 0.8724260330200195,
      "learning_rate": 2.789115720111479e-07,
      "loss": 3.3426,
      "step": 470720
    },
    {
      "epoch": 0.9806875,
      "grad_norm": 0.95656818151474,
      "learning_rate": 2.783109792056426e-07,
      "loss": 3.2526,
      "step": 470730
    },
    {
      "epoch": 0.9807083333333333,
      "grad_norm": 0.9001851677894592,
      "learning_rate": 2.7771103313858344e-07,
      "loss": 3.313,
      "step": 470740
    },
    {
      "epoch": 0.9807291666666667,
      "grad_norm": 0.9173192381858826,
      "learning_rate": 2.7711173381253505e-07,
      "loss": 3.3846,
      "step": 470750
    },
    {
      "epoch": 0.98075,
      "grad_norm": 0.8446416258811951,
      "learning_rate": 2.7651308123011194e-07,
      "loss": 3.2774,
      "step": 470760
    },
    {
      "epoch": 0.9807708333333334,
      "grad_norm": 1.0338976383209229,
      "learning_rate": 2.759150753938788e-07,
      "loss": 3.3575,
      "step": 470770
    },
    {
      "epoch": 0.9807916666666666,
      "grad_norm": 0.920295774936676,
      "learning_rate": 2.753177163064335e-07,
      "loss": 3.2262,
      "step": 470780
    },
    {
      "epoch": 0.9808125,
      "grad_norm": 0.9243264198303223,
      "learning_rate": 2.7472100397034067e-07,
      "loss": 3.2743,
      "step": 470790
    },
    {
      "epoch": 0.9808333333333333,
      "grad_norm": 1.0517269372940063,
      "learning_rate": 2.7412493838819826e-07,
      "loss": 3.3508,
      "step": 470800
    },
    {
      "epoch": 0.9808541666666667,
      "grad_norm": 0.9064593315124512,
      "learning_rate": 2.7352951956257085e-07,
      "loss": 3.2461,
      "step": 470810
    },
    {
      "epoch": 0.980875,
      "grad_norm": 1.0793465375900269,
      "learning_rate": 2.729347474960231e-07,
      "loss": 3.478,
      "step": 470820
    },
    {
      "epoch": 0.9808958333333333,
      "grad_norm": 0.8666912913322449,
      "learning_rate": 2.7234062219111953e-07,
      "loss": 3.3448,
      "step": 470830
    },
    {
      "epoch": 0.9809166666666667,
      "grad_norm": 0.991320788860321,
      "learning_rate": 2.7174714365045814e-07,
      "loss": 3.2949,
      "step": 470840
    },
    {
      "epoch": 0.9809375,
      "grad_norm": 0.8924211263656616,
      "learning_rate": 2.711543118765702e-07,
      "loss": 3.2319,
      "step": 470850
    },
    {
      "epoch": 0.9809583333333334,
      "grad_norm": 0.8879289031028748,
      "learning_rate": 2.7056212687203703e-07,
      "loss": 3.2991,
      "step": 470860
    },
    {
      "epoch": 0.9809791666666666,
      "grad_norm": 0.9865245223045349,
      "learning_rate": 2.699705886394066e-07,
      "loss": 3.2717,
      "step": 470870
    },
    {
      "epoch": 0.981,
      "grad_norm": 1.0093154907226562,
      "learning_rate": 2.693796971812434e-07,
      "loss": 3.2593,
      "step": 470880
    },
    {
      "epoch": 0.9810208333333333,
      "grad_norm": 0.9572668075561523,
      "learning_rate": 2.6878945250007887e-07,
      "loss": 3.254,
      "step": 470890
    },
    {
      "epoch": 0.9810416666666667,
      "grad_norm": 0.9189646244049072,
      "learning_rate": 2.6819985459847757e-07,
      "loss": 3.1851,
      "step": 470900
    },
    {
      "epoch": 0.9810625,
      "grad_norm": 0.8366751074790955,
      "learning_rate": 2.6761090347900416e-07,
      "loss": 3.3254,
      "step": 470910
    },
    {
      "epoch": 0.9810833333333333,
      "grad_norm": 0.9246326088905334,
      "learning_rate": 2.6702259914415656e-07,
      "loss": 3.2286,
      "step": 470920
    },
    {
      "epoch": 0.9811041666666667,
      "grad_norm": 0.9052140712738037,
      "learning_rate": 2.6643494159651614e-07,
      "loss": 3.2193,
      "step": 470930
    },
    {
      "epoch": 0.981125,
      "grad_norm": 0.8839882016181946,
      "learning_rate": 2.658479308386141e-07,
      "loss": 3.2976,
      "step": 470940
    },
    {
      "epoch": 0.9811458333333334,
      "grad_norm": 0.8657010793685913,
      "learning_rate": 2.652615668729652e-07,
      "loss": 3.2975,
      "step": 470950
    },
    {
      "epoch": 0.9811666666666666,
      "grad_norm": 1.1796616315841675,
      "learning_rate": 2.64675849702134e-07,
      "loss": 3.2413,
      "step": 470960
    },
    {
      "epoch": 0.9811875,
      "grad_norm": 0.9900059103965759,
      "learning_rate": 2.6409077932861845e-07,
      "loss": 3.4298,
      "step": 470970
    },
    {
      "epoch": 0.9812083333333333,
      "grad_norm": 0.9809386134147644,
      "learning_rate": 2.635063557549666e-07,
      "loss": 3.262,
      "step": 470980
    },
    {
      "epoch": 0.9812291666666667,
      "grad_norm": 0.8772234320640564,
      "learning_rate": 2.6292257898369304e-07,
      "loss": 3.3411,
      "step": 470990
    },
    {
      "epoch": 0.98125,
      "grad_norm": 0.9916806221008301,
      "learning_rate": 2.623394490173458e-07,
      "loss": 3.2602,
      "step": 471000
    },
    {
      "epoch": 0.98125,
      "eval_loss": 4.021725177764893,
      "eval_runtime": 8.9184,
      "eval_samples_per_second": 1.121,
      "eval_steps_per_second": 0.336,
      "step": 471000
    },
    {
      "epoch": 0.9812708333333333,
      "grad_norm": 1.0016025304794312,
      "learning_rate": 2.617569658583896e-07,
      "loss": 3.2015,
      "step": 471010
    },
    {
      "epoch": 0.9812916666666667,
      "grad_norm": 1.022363543510437,
      "learning_rate": 2.611751295093889e-07,
      "loss": 3.3371,
      "step": 471020
    },
    {
      "epoch": 0.9813125,
      "grad_norm": 0.8642551302909851,
      "learning_rate": 2.605939399728418e-07,
      "loss": 3.2495,
      "step": 471030
    },
    {
      "epoch": 0.9813333333333333,
      "grad_norm": 0.9260355830192566,
      "learning_rate": 2.60013397251263e-07,
      "loss": 3.4086,
      "step": 471040
    },
    {
      "epoch": 0.9813541666666666,
      "grad_norm": 0.9529151320457458,
      "learning_rate": 2.5943350134715045e-07,
      "loss": 3.1771,
      "step": 471050
    },
    {
      "epoch": 0.981375,
      "grad_norm": 0.8896728157997131,
      "learning_rate": 2.588542522630022e-07,
      "loss": 3.2447,
      "step": 471060
    },
    {
      "epoch": 0.9813958333333334,
      "grad_norm": 0.8952978849411011,
      "learning_rate": 2.5827565000134943e-07,
      "loss": 3.2891,
      "step": 471070
    },
    {
      "epoch": 0.9814166666666667,
      "grad_norm": 0.836297333240509,
      "learning_rate": 2.576976945646569e-07,
      "loss": 3.2325,
      "step": 471080
    },
    {
      "epoch": 0.9814375,
      "grad_norm": 0.9468057155609131,
      "learning_rate": 2.57120385955456e-07,
      "loss": 3.3408,
      "step": 471090
    },
    {
      "epoch": 0.9814583333333333,
      "grad_norm": 0.9627331495285034,
      "learning_rate": 2.565437241762114e-07,
      "loss": 3.2638,
      "step": 471100
    },
    {
      "epoch": 0.9814791666666667,
      "grad_norm": 0.8769752979278564,
      "learning_rate": 2.5596770922942103e-07,
      "loss": 3.2769,
      "step": 471110
    },
    {
      "epoch": 0.9815,
      "grad_norm": 0.8677206039428711,
      "learning_rate": 2.5539234111759955e-07,
      "loss": 3.2218,
      "step": 471120
    },
    {
      "epoch": 0.9815208333333333,
      "grad_norm": 0.941120982170105,
      "learning_rate": 2.5481761984319503e-07,
      "loss": 3.2795,
      "step": 471130
    },
    {
      "epoch": 0.9815416666666666,
      "grad_norm": 0.9808787703514099,
      "learning_rate": 2.542435454087055e-07,
      "loss": 3.3799,
      "step": 471140
    },
    {
      "epoch": 0.9815625,
      "grad_norm": 0.9210220575332642,
      "learning_rate": 2.5367011781659563e-07,
      "loss": 3.3376,
      "step": 471150
    },
    {
      "epoch": 0.9815833333333334,
      "grad_norm": 0.9656763076782227,
      "learning_rate": 2.530973370693801e-07,
      "loss": 3.3243,
      "step": 471160
    },
    {
      "epoch": 0.9816041666666667,
      "grad_norm": 0.9977746605873108,
      "learning_rate": 2.5252520316950687e-07,
      "loss": 3.4801,
      "step": 471170
    },
    {
      "epoch": 0.981625,
      "grad_norm": 0.9455636739730835,
      "learning_rate": 2.519537161194407e-07,
      "loss": 3.2211,
      "step": 471180
    },
    {
      "epoch": 0.9816458333333333,
      "grad_norm": 0.911849856376648,
      "learning_rate": 2.51382875921663e-07,
      "loss": 3.3333,
      "step": 471190
    },
    {
      "epoch": 0.9816666666666667,
      "grad_norm": 0.8783367872238159,
      "learning_rate": 2.5081268257863827e-07,
      "loss": 3.2629,
      "step": 471200
    },
    {
      "epoch": 0.9816875,
      "grad_norm": 1.0641931295394897,
      "learning_rate": 2.502431360928314e-07,
      "loss": 3.3698,
      "step": 471210
    },
    {
      "epoch": 0.9817083333333333,
      "grad_norm": 0.8451762795448303,
      "learning_rate": 2.496742364666904e-07,
      "loss": 3.3428,
      "step": 471220
    },
    {
      "epoch": 0.9817291666666667,
      "grad_norm": 0.9807116985321045,
      "learning_rate": 2.4910598370267987e-07,
      "loss": 3.413,
      "step": 471230
    },
    {
      "epoch": 0.98175,
      "grad_norm": 0.8781095743179321,
      "learning_rate": 2.485383778032646e-07,
      "loss": 3.2113,
      "step": 471240
    },
    {
      "epoch": 0.9817708333333334,
      "grad_norm": 0.947280764579773,
      "learning_rate": 2.4797141877089255e-07,
      "loss": 3.3453,
      "step": 471250
    },
    {
      "epoch": 0.9817916666666666,
      "grad_norm": 0.9693366885185242,
      "learning_rate": 2.4740510660799517e-07,
      "loss": 3.4169,
      "step": 471260
    },
    {
      "epoch": 0.9818125,
      "grad_norm": 0.9595968723297119,
      "learning_rate": 2.4683944131703717e-07,
      "loss": 3.3069,
      "step": 471270
    },
    {
      "epoch": 0.9818333333333333,
      "grad_norm": 0.8249242901802063,
      "learning_rate": 2.462744229004665e-07,
      "loss": 3.3472,
      "step": 471280
    },
    {
      "epoch": 0.9818541666666667,
      "grad_norm": 0.9201316237449646,
      "learning_rate": 2.45710051360698e-07,
      "loss": 3.4154,
      "step": 471290
    },
    {
      "epoch": 0.981875,
      "grad_norm": 0.9919382929801941,
      "learning_rate": 2.451463267001963e-07,
      "loss": 3.3223,
      "step": 471300
    },
    {
      "epoch": 0.9818958333333333,
      "grad_norm": 0.9215568900108337,
      "learning_rate": 2.4458324892137614e-07,
      "loss": 3.3251,
      "step": 471310
    },
    {
      "epoch": 0.9819166666666667,
      "grad_norm": 0.8469982743263245,
      "learning_rate": 2.440208180266856e-07,
      "loss": 3.296,
      "step": 471320
    },
    {
      "epoch": 0.9819375,
      "grad_norm": 0.9344379305839539,
      "learning_rate": 2.434590340185394e-07,
      "loss": 3.3104,
      "step": 471330
    },
    {
      "epoch": 0.9819583333333334,
      "grad_norm": 0.9009764790534973,
      "learning_rate": 2.4289789689938554e-07,
      "loss": 3.2692,
      "step": 471340
    },
    {
      "epoch": 0.9819791666666666,
      "grad_norm": 0.9136218428611755,
      "learning_rate": 2.4233740667162216e-07,
      "loss": 3.2687,
      "step": 471350
    },
    {
      "epoch": 0.982,
      "grad_norm": 1.1016126871109009,
      "learning_rate": 2.4177756333769725e-07,
      "loss": 3.2955,
      "step": 471360
    },
    {
      "epoch": 0.9820208333333333,
      "grad_norm": 0.9177950620651245,
      "learning_rate": 2.4121836690000897e-07,
      "loss": 3.2626,
      "step": 471370
    },
    {
      "epoch": 0.9820416666666667,
      "grad_norm": 0.9220234751701355,
      "learning_rate": 2.4065981736097194e-07,
      "loss": 3.4568,
      "step": 471380
    },
    {
      "epoch": 0.9820625,
      "grad_norm": 0.8533838391304016,
      "learning_rate": 2.40101914723001e-07,
      "loss": 3.2923,
      "step": 471390
    },
    {
      "epoch": 0.9820833333333333,
      "grad_norm": 0.928759753704071,
      "learning_rate": 2.3954465898852747e-07,
      "loss": 3.308,
      "step": 471400
    },
    {
      "epoch": 0.9821041666666667,
      "grad_norm": 1.0398752689361572,
      "learning_rate": 2.389880501599328e-07,
      "loss": 3.3328,
      "step": 471410
    },
    {
      "epoch": 0.982125,
      "grad_norm": 0.893660306930542,
      "learning_rate": 2.3843208823963176e-07,
      "loss": 3.2595,
      "step": 471420
    },
    {
      "epoch": 0.9821458333333334,
      "grad_norm": 0.9931374192237854,
      "learning_rate": 2.3787677323002241e-07,
      "loss": 3.3064,
      "step": 471430
    },
    {
      "epoch": 0.9821666666666666,
      "grad_norm": 0.8971562385559082,
      "learning_rate": 2.373221051335028e-07,
      "loss": 3.3553,
      "step": 471440
    },
    {
      "epoch": 0.9821875,
      "grad_norm": 0.9425400495529175,
      "learning_rate": 2.3676808395247106e-07,
      "loss": 3.3492,
      "step": 471450
    },
    {
      "epoch": 0.9822083333333333,
      "grad_norm": 0.9206806421279907,
      "learning_rate": 2.362147096893252e-07,
      "loss": 3.274,
      "step": 471460
    },
    {
      "epoch": 0.9822291666666667,
      "grad_norm": 0.8881669044494629,
      "learning_rate": 2.356619823464634e-07,
      "loss": 3.4229,
      "step": 471470
    },
    {
      "epoch": 0.98225,
      "grad_norm": 0.9056596755981445,
      "learning_rate": 2.3510990192623368e-07,
      "loss": 3.5166,
      "step": 471480
    },
    {
      "epoch": 0.9822708333333333,
      "grad_norm": 0.9264126420021057,
      "learning_rate": 2.345584684310675e-07,
      "loss": 3.4083,
      "step": 471490
    },
    {
      "epoch": 0.9822916666666667,
      "grad_norm": 0.9699426293373108,
      "learning_rate": 2.3400768186332964e-07,
      "loss": 3.261,
      "step": 471500
    },
    {
      "epoch": 0.9823125,
      "grad_norm": 0.8917574286460876,
      "learning_rate": 2.3345754222538483e-07,
      "loss": 3.258,
      "step": 471510
    },
    {
      "epoch": 0.9823333333333333,
      "grad_norm": 1.0441261529922485,
      "learning_rate": 2.3290804951963116e-07,
      "loss": 3.3644,
      "step": 471520
    },
    {
      "epoch": 0.9823541666666666,
      "grad_norm": 0.9441785216331482,
      "learning_rate": 2.3235920374843343e-07,
      "loss": 3.3557,
      "step": 471530
    },
    {
      "epoch": 0.982375,
      "grad_norm": 0.8395987153053284,
      "learning_rate": 2.318110049141564e-07,
      "loss": 3.2882,
      "step": 471540
    },
    {
      "epoch": 0.9823958333333334,
      "grad_norm": 0.9987899661064148,
      "learning_rate": 2.3126345301916483e-07,
      "loss": 3.2741,
      "step": 471550
    },
    {
      "epoch": 0.9824166666666667,
      "grad_norm": 1.0351303815841675,
      "learning_rate": 2.3071654806584018e-07,
      "loss": 3.4086,
      "step": 471560
    },
    {
      "epoch": 0.9824375,
      "grad_norm": 0.8850510120391846,
      "learning_rate": 2.301702900565472e-07,
      "loss": 3.3915,
      "step": 471570
    },
    {
      "epoch": 0.9824583333333333,
      "grad_norm": 0.9653849005699158,
      "learning_rate": 2.2962467899361736e-07,
      "loss": 3.2368,
      "step": 471580
    },
    {
      "epoch": 0.9824791666666667,
      "grad_norm": 0.9660042524337769,
      "learning_rate": 2.2907971487944877e-07,
      "loss": 3.2981,
      "step": 471590
    },
    {
      "epoch": 0.9825,
      "grad_norm": 0.9732147455215454,
      "learning_rate": 2.285353977163562e-07,
      "loss": 3.2833,
      "step": 471600
    },
    {
      "epoch": 0.9825208333333333,
      "grad_norm": 0.906630277633667,
      "learning_rate": 2.2799172750670446e-07,
      "loss": 3.3918,
      "step": 471610
    },
    {
      "epoch": 0.9825416666666666,
      "grad_norm": 0.9500037431716919,
      "learning_rate": 2.2744870425285834e-07,
      "loss": 3.3245,
      "step": 471620
    },
    {
      "epoch": 0.9825625,
      "grad_norm": 0.8809858560562134,
      "learning_rate": 2.269063279571326e-07,
      "loss": 3.3126,
      "step": 471630
    },
    {
      "epoch": 0.9825833333333334,
      "grad_norm": 0.8787788152694702,
      "learning_rate": 2.2636459862189204e-07,
      "loss": 3.4344,
      "step": 471640
    },
    {
      "epoch": 0.9826041666666666,
      "grad_norm": 0.8650532364845276,
      "learning_rate": 2.258235162494848e-07,
      "loss": 3.3513,
      "step": 471650
    },
    {
      "epoch": 0.982625,
      "grad_norm": 0.7933105230331421,
      "learning_rate": 2.2528308084222568e-07,
      "loss": 3.1249,
      "step": 471660
    },
    {
      "epoch": 0.9826458333333333,
      "grad_norm": 0.9927175045013428,
      "learning_rate": 2.247432924024628e-07,
      "loss": 3.3083,
      "step": 471670
    },
    {
      "epoch": 0.9826666666666667,
      "grad_norm": 0.9489789009094238,
      "learning_rate": 2.24204150932511e-07,
      "loss": 3.2598,
      "step": 471680
    },
    {
      "epoch": 0.9826875,
      "grad_norm": 0.8552581667900085,
      "learning_rate": 2.2366565643473498e-07,
      "loss": 3.3674,
      "step": 471690
    },
    {
      "epoch": 0.9827083333333333,
      "grad_norm": 0.9460043907165527,
      "learning_rate": 2.2312780891141635e-07,
      "loss": 3.3851,
      "step": 471700
    },
    {
      "epoch": 0.9827291666666667,
      "grad_norm": 0.9080847501754761,
      "learning_rate": 2.2259060836490316e-07,
      "loss": 3.2041,
      "step": 471710
    },
    {
      "epoch": 0.98275,
      "grad_norm": 0.9168305397033691,
      "learning_rate": 2.220540547975269e-07,
      "loss": 3.3884,
      "step": 471720
    },
    {
      "epoch": 0.9827708333333334,
      "grad_norm": 0.8997415900230408,
      "learning_rate": 2.215181482115691e-07,
      "loss": 3.2328,
      "step": 471730
    },
    {
      "epoch": 0.9827916666666666,
      "grad_norm": 0.937285840511322,
      "learning_rate": 2.2098288860937785e-07,
      "loss": 3.3448,
      "step": 471740
    },
    {
      "epoch": 0.9828125,
      "grad_norm": 1.1004501581192017,
      "learning_rate": 2.2044827599326798e-07,
      "loss": 3.2855,
      "step": 471750
    },
    {
      "epoch": 0.9828333333333333,
      "grad_norm": 0.8772842884063721,
      "learning_rate": 2.1991431036550433e-07,
      "loss": 3.1966,
      "step": 471760
    },
    {
      "epoch": 0.9828541666666667,
      "grad_norm": 0.9204955101013184,
      "learning_rate": 2.193809917284517e-07,
      "loss": 3.3112,
      "step": 471770
    },
    {
      "epoch": 0.982875,
      "grad_norm": 0.9333615899085999,
      "learning_rate": 2.188483200843749e-07,
      "loss": 3.2742,
      "step": 471780
    },
    {
      "epoch": 0.9828958333333333,
      "grad_norm": 1.0064871311187744,
      "learning_rate": 2.1831629543558883e-07,
      "loss": 3.2802,
      "step": 471790
    },
    {
      "epoch": 0.9829166666666667,
      "grad_norm": 0.9446935653686523,
      "learning_rate": 2.177849177843749e-07,
      "loss": 3.4966,
      "step": 471800
    },
    {
      "epoch": 0.9829375,
      "grad_norm": 0.894707441329956,
      "learning_rate": 2.1725418713306465e-07,
      "loss": 3.2175,
      "step": 471810
    },
    {
      "epoch": 0.9829583333333334,
      "grad_norm": 0.9189745187759399,
      "learning_rate": 2.1672410348390622e-07,
      "loss": 3.3002,
      "step": 471820
    },
    {
      "epoch": 0.9829791666666666,
      "grad_norm": 1.1374744176864624,
      "learning_rate": 2.1619466683923116e-07,
      "loss": 3.3211,
      "step": 471830
    },
    {
      "epoch": 0.983,
      "grad_norm": 0.923229455947876,
      "learning_rate": 2.1566587720128758e-07,
      "loss": 3.3269,
      "step": 471840
    },
    {
      "epoch": 0.9830208333333333,
      "grad_norm": 0.933629035949707,
      "learning_rate": 2.1513773457239037e-07,
      "loss": 3.3512,
      "step": 471850
    },
    {
      "epoch": 0.9830416666666667,
      "grad_norm": 0.9926718473434448,
      "learning_rate": 2.1461023895480434e-07,
      "loss": 3.253,
      "step": 471860
    },
    {
      "epoch": 0.9830625,
      "grad_norm": 0.9405629634857178,
      "learning_rate": 2.1408339035081101e-07,
      "loss": 3.2924,
      "step": 471870
    },
    {
      "epoch": 0.9830833333333333,
      "grad_norm": 0.9519266486167908,
      "learning_rate": 2.1355718876270855e-07,
      "loss": 3.3361,
      "step": 471880
    },
    {
      "epoch": 0.9831041666666667,
      "grad_norm": 0.8542103171348572,
      "learning_rate": 2.130316341927285e-07,
      "loss": 3.2896,
      "step": 471890
    },
    {
      "epoch": 0.983125,
      "grad_norm": 0.8526373505592346,
      "learning_rate": 2.1250672664316903e-07,
      "loss": 3.2718,
      "step": 471900
    },
    {
      "epoch": 0.9831458333333334,
      "grad_norm": 0.9336433410644531,
      "learning_rate": 2.1198246611627835e-07,
      "loss": 3.2475,
      "step": 471910
    },
    {
      "epoch": 0.9831666666666666,
      "grad_norm": 0.9629287123680115,
      "learning_rate": 2.114588526143546e-07,
      "loss": 3.2669,
      "step": 471920
    },
    {
      "epoch": 0.9831875,
      "grad_norm": 1.014370083808899,
      "learning_rate": 2.1093588613961264e-07,
      "loss": 3.2397,
      "step": 471930
    },
    {
      "epoch": 0.9832083333333334,
      "grad_norm": 0.9977645874023438,
      "learning_rate": 2.1041356669435071e-07,
      "loss": 3.284,
      "step": 471940
    },
    {
      "epoch": 0.9832291666666667,
      "grad_norm": 0.8927801251411438,
      "learning_rate": 2.09891894280817e-07,
      "loss": 3.2706,
      "step": 471950
    },
    {
      "epoch": 0.98325,
      "grad_norm": 0.8517407774925232,
      "learning_rate": 2.0937086890125965e-07,
      "loss": 3.3125,
      "step": 471960
    },
    {
      "epoch": 0.9832708333333333,
      "grad_norm": 0.9227460026741028,
      "learning_rate": 2.0885049055791027e-07,
      "loss": 3.3106,
      "step": 471970
    },
    {
      "epoch": 0.9832916666666667,
      "grad_norm": 0.8939997553825378,
      "learning_rate": 2.083307592530503e-07,
      "loss": 3.2536,
      "step": 471980
    },
    {
      "epoch": 0.9833125,
      "grad_norm": 0.9406412839889526,
      "learning_rate": 2.0781167498891138e-07,
      "loss": 3.2178,
      "step": 471990
    },
    {
      "epoch": 0.9833333333333333,
      "grad_norm": 1.03207266330719,
      "learning_rate": 2.0729323776774165e-07,
      "loss": 3.4191,
      "step": 472000
    },
    {
      "epoch": 0.9833333333333333,
      "eval_loss": 4.022056579589844,
      "eval_runtime": 8.4274,
      "eval_samples_per_second": 1.187,
      "eval_steps_per_second": 0.356,
      "step": 472000
    },
    {
      "epoch": 0.9833541666666666,
      "grad_norm": 0.935727059841156,
      "learning_rate": 2.0677544759175601e-07,
      "loss": 3.3292,
      "step": 472010
    },
    {
      "epoch": 0.983375,
      "grad_norm": 0.9270193576812744,
      "learning_rate": 2.0625830446320268e-07,
      "loss": 3.237,
      "step": 472020
    },
    {
      "epoch": 0.9833958333333334,
      "grad_norm": 0.8582279086112976,
      "learning_rate": 2.057418083843465e-07,
      "loss": 3.2531,
      "step": 472030
    },
    {
      "epoch": 0.9834166666666667,
      "grad_norm": 0.9364364147186279,
      "learning_rate": 2.0522595935736907e-07,
      "loss": 3.1995,
      "step": 472040
    },
    {
      "epoch": 0.9834375,
      "grad_norm": 0.9106641411781311,
      "learning_rate": 2.0471075738453523e-07,
      "loss": 3.3401,
      "step": 472050
    },
    {
      "epoch": 0.9834583333333333,
      "grad_norm": 0.9230168461799622,
      "learning_rate": 2.041962024680599e-07,
      "loss": 3.264,
      "step": 472060
    },
    {
      "epoch": 0.9834791666666667,
      "grad_norm": 0.9464915990829468,
      "learning_rate": 2.0368229461015795e-07,
      "loss": 3.3809,
      "step": 472070
    },
    {
      "epoch": 0.9835,
      "grad_norm": 0.9625937938690186,
      "learning_rate": 2.031690338130443e-07,
      "loss": 3.2283,
      "step": 472080
    },
    {
      "epoch": 0.9835208333333333,
      "grad_norm": 0.9239121079444885,
      "learning_rate": 2.026564200789671e-07,
      "loss": 3.291,
      "step": 472090
    },
    {
      "epoch": 0.9835416666666666,
      "grad_norm": 0.8963873386383057,
      "learning_rate": 2.0214445341010798e-07,
      "loss": 3.2953,
      "step": 472100
    },
    {
      "epoch": 0.9835625,
      "grad_norm": 0.9667363166809082,
      "learning_rate": 2.016331338086985e-07,
      "loss": 3.2808,
      "step": 472110
    },
    {
      "epoch": 0.9835833333333334,
      "grad_norm": 0.9448990225791931,
      "learning_rate": 2.0112246127693686e-07,
      "loss": 3.2548,
      "step": 472120
    },
    {
      "epoch": 0.9836041666666666,
      "grad_norm": 0.8466947078704834,
      "learning_rate": 2.0061243581702137e-07,
      "loss": 3.3426,
      "step": 472130
    },
    {
      "epoch": 0.983625,
      "grad_norm": 0.9847404956817627,
      "learning_rate": 2.001030574311835e-07,
      "loss": 3.133,
      "step": 472140
    },
    {
      "epoch": 0.9836458333333333,
      "grad_norm": 1.0576366186141968,
      "learning_rate": 1.9959432612158822e-07,
      "loss": 3.3991,
      "step": 472150
    },
    {
      "epoch": 0.9836666666666667,
      "grad_norm": 0.9379352927207947,
      "learning_rate": 1.9908624189046706e-07,
      "loss": 3.4022,
      "step": 472160
    },
    {
      "epoch": 0.9836875,
      "grad_norm": 0.8683665990829468,
      "learning_rate": 1.98578804739985e-07,
      "loss": 3.2705,
      "step": 472170
    },
    {
      "epoch": 0.9837083333333333,
      "grad_norm": 0.911746084690094,
      "learning_rate": 1.9807201467235689e-07,
      "loss": 3.3348,
      "step": 472180
    },
    {
      "epoch": 0.9837291666666667,
      "grad_norm": 0.9133264422416687,
      "learning_rate": 1.9756587168974768e-07,
      "loss": 3.4039,
      "step": 472190
    },
    {
      "epoch": 0.98375,
      "grad_norm": 0.9492581486701965,
      "learning_rate": 1.9706037579437228e-07,
      "loss": 3.3009,
      "step": 472200
    },
    {
      "epoch": 0.9837708333333334,
      "grad_norm": 0.8720582127571106,
      "learning_rate": 1.965555269883956e-07,
      "loss": 3.3089,
      "step": 472210
    },
    {
      "epoch": 0.9837916666666666,
      "grad_norm": 0.9667408466339111,
      "learning_rate": 1.9605132527399925e-07,
      "loss": 3.27,
      "step": 472220
    },
    {
      "epoch": 0.9838125,
      "grad_norm": 0.810122013092041,
      "learning_rate": 1.955477706533648e-07,
      "loss": 3.22,
      "step": 472230
    },
    {
      "epoch": 0.9838333333333333,
      "grad_norm": 0.982136070728302,
      "learning_rate": 1.9504486312867385e-07,
      "loss": 3.2739,
      "step": 472240
    },
    {
      "epoch": 0.9838541666666667,
      "grad_norm": 1.0051767826080322,
      "learning_rate": 1.9454260270209133e-07,
      "loss": 3.4213,
      "step": 472250
    },
    {
      "epoch": 0.983875,
      "grad_norm": 0.9244909882545471,
      "learning_rate": 1.9404098937578217e-07,
      "loss": 3.2016,
      "step": 472260
    },
    {
      "epoch": 0.9838958333333333,
      "grad_norm": 0.9907128214836121,
      "learning_rate": 1.935400231519113e-07,
      "loss": 3.3349,
      "step": 472270
    },
    {
      "epoch": 0.9839166666666667,
      "grad_norm": 0.922164261341095,
      "learning_rate": 1.9303970403266034e-07,
      "loss": 3.1583,
      "step": 472280
    },
    {
      "epoch": 0.9839375,
      "grad_norm": 0.8910866975784302,
      "learning_rate": 1.9254003202017753e-07,
      "loss": 3.1766,
      "step": 472290
    },
    {
      "epoch": 0.9839583333333334,
      "grad_norm": 0.8966155052185059,
      "learning_rate": 1.9204100711662785e-07,
      "loss": 3.3611,
      "step": 472300
    },
    {
      "epoch": 0.9839791666666666,
      "grad_norm": 0.8420432209968567,
      "learning_rate": 1.9154262932415952e-07,
      "loss": 3.3207,
      "step": 472310
    },
    {
      "epoch": 0.984,
      "grad_norm": 1.0318713188171387,
      "learning_rate": 1.9104489864493756e-07,
      "loss": 3.4321,
      "step": 472320
    },
    {
      "epoch": 0.9840208333333333,
      "grad_norm": 0.9220159649848938,
      "learning_rate": 1.9054781508109352e-07,
      "loss": 3.2877,
      "step": 472330
    },
    {
      "epoch": 0.9840416666666667,
      "grad_norm": 0.9531151652336121,
      "learning_rate": 1.900513786347757e-07,
      "loss": 3.468,
      "step": 472340
    },
    {
      "epoch": 0.9840625,
      "grad_norm": 0.8631227016448975,
      "learning_rate": 1.8955558930814908e-07,
      "loss": 3.3281,
      "step": 472350
    },
    {
      "epoch": 0.9840833333333333,
      "grad_norm": 0.8407099843025208,
      "learning_rate": 1.8906044710334523e-07,
      "loss": 3.2922,
      "step": 472360
    },
    {
      "epoch": 0.9841041666666667,
      "grad_norm": 0.9632525444030762,
      "learning_rate": 1.885659520224958e-07,
      "loss": 3.3946,
      "step": 472370
    },
    {
      "epoch": 0.984125,
      "grad_norm": 1.2067373991012573,
      "learning_rate": 1.8807210406774908e-07,
      "loss": 3.449,
      "step": 472380
    },
    {
      "epoch": 0.9841458333333334,
      "grad_norm": 0.9998628497123718,
      "learning_rate": 1.8757890324122004e-07,
      "loss": 3.2268,
      "step": 472390
    },
    {
      "epoch": 0.9841666666666666,
      "grad_norm": 0.8872135281562805,
      "learning_rate": 1.8708634954505697e-07,
      "loss": 3.3319,
      "step": 472400
    },
    {
      "epoch": 0.9841875,
      "grad_norm": 0.889416515827179,
      "learning_rate": 1.8659444298137483e-07,
      "loss": 3.1922,
      "step": 472410
    },
    {
      "epoch": 0.9842083333333334,
      "grad_norm": 0.9679057002067566,
      "learning_rate": 1.8610318355230525e-07,
      "loss": 3.1903,
      "step": 472420
    },
    {
      "epoch": 0.9842291666666667,
      "grad_norm": 0.9181260466575623,
      "learning_rate": 1.8561257125997986e-07,
      "loss": 3.4026,
      "step": 472430
    },
    {
      "epoch": 0.98425,
      "grad_norm": 0.8934593200683594,
      "learning_rate": 1.8512260610649699e-07,
      "loss": 3.334,
      "step": 472440
    },
    {
      "epoch": 0.9842708333333333,
      "grad_norm": 0.9703097939491272,
      "learning_rate": 1.8463328809398825e-07,
      "loss": 3.2939,
      "step": 472450
    },
    {
      "epoch": 0.9842916666666667,
      "grad_norm": 0.9227202534675598,
      "learning_rate": 1.8414461722456863e-07,
      "loss": 3.3445,
      "step": 472460
    },
    {
      "epoch": 0.9843125,
      "grad_norm": 0.9906830191612244,
      "learning_rate": 1.8365659350033645e-07,
      "loss": 3.3265,
      "step": 472470
    },
    {
      "epoch": 0.9843333333333333,
      "grad_norm": 1.1945372819900513,
      "learning_rate": 1.8316921692340669e-07,
      "loss": 3.3315,
      "step": 472480
    },
    {
      "epoch": 0.9843541666666666,
      "grad_norm": 0.9008706212043762,
      "learning_rate": 1.8268248749587767e-07,
      "loss": 3.2984,
      "step": 472490
    },
    {
      "epoch": 0.984375,
      "grad_norm": 0.9183394908905029,
      "learning_rate": 1.8219640521986433e-07,
      "loss": 3.324,
      "step": 472500
    },
    {
      "epoch": 0.9843958333333334,
      "grad_norm": 0.9704156517982483,
      "learning_rate": 1.8171097009746504e-07,
      "loss": 3.3205,
      "step": 472510
    },
    {
      "epoch": 0.9844166666666667,
      "grad_norm": 0.9893978834152222,
      "learning_rate": 1.8122618213076146e-07,
      "loss": 3.2896,
      "step": 472520
    },
    {
      "epoch": 0.9844375,
      "grad_norm": 0.9706265330314636,
      "learning_rate": 1.8074204132186853e-07,
      "loss": 3.2881,
      "step": 472530
    },
    {
      "epoch": 0.9844583333333333,
      "grad_norm": 0.8887527585029602,
      "learning_rate": 1.8025854767286796e-07,
      "loss": 3.263,
      "step": 472540
    },
    {
      "epoch": 0.9844791666666667,
      "grad_norm": 1.003006935119629,
      "learning_rate": 1.797757011858414e-07,
      "loss": 3.3086,
      "step": 472550
    },
    {
      "epoch": 0.9845,
      "grad_norm": 1.0251551866531372,
      "learning_rate": 1.7929350186288716e-07,
      "loss": 3.1971,
      "step": 472560
    },
    {
      "epoch": 0.9845208333333333,
      "grad_norm": 0.9961364269256592,
      "learning_rate": 1.7881194970607028e-07,
      "loss": 3.2422,
      "step": 472570
    },
    {
      "epoch": 0.9845416666666666,
      "grad_norm": 0.8833186626434326,
      "learning_rate": 1.7833104471748904e-07,
      "loss": 3.206,
      "step": 472580
    },
    {
      "epoch": 0.9845625,
      "grad_norm": 0.984190046787262,
      "learning_rate": 1.778507868992085e-07,
      "loss": 3.2769,
      "step": 472590
    },
    {
      "epoch": 0.9845833333333334,
      "grad_norm": 0.9681505560874939,
      "learning_rate": 1.7737117625332697e-07,
      "loss": 3.4136,
      "step": 472600
    },
    {
      "epoch": 0.9846041666666666,
      "grad_norm": 0.9066973328590393,
      "learning_rate": 1.7689221278187615e-07,
      "loss": 3.31,
      "step": 472610
    },
    {
      "epoch": 0.984625,
      "grad_norm": 0.9927355051040649,
      "learning_rate": 1.7641389648695437e-07,
      "loss": 3.2691,
      "step": 472620
    },
    {
      "epoch": 0.9846458333333333,
      "grad_norm": 0.8727112412452698,
      "learning_rate": 1.7593622737062662e-07,
      "loss": 3.0972,
      "step": 472630
    },
    {
      "epoch": 0.9846666666666667,
      "grad_norm": 0.9026206135749817,
      "learning_rate": 1.754592054349413e-07,
      "loss": 3.286,
      "step": 472640
    },
    {
      "epoch": 0.9846875,
      "grad_norm": 0.8887421488761902,
      "learning_rate": 1.7498283068198005e-07,
      "loss": 3.2625,
      "step": 472650
    },
    {
      "epoch": 0.9847083333333333,
      "grad_norm": 0.9475945830345154,
      "learning_rate": 1.7450710311377457e-07,
      "loss": 3.2811,
      "step": 472660
    },
    {
      "epoch": 0.9847291666666667,
      "grad_norm": 0.9584261178970337,
      "learning_rate": 1.7403202273240658e-07,
      "loss": 3.3326,
      "step": 472670
    },
    {
      "epoch": 0.98475,
      "grad_norm": 0.8712059259414673,
      "learning_rate": 1.7355758953990774e-07,
      "loss": 3.3191,
      "step": 472680
    },
    {
      "epoch": 0.9847708333333334,
      "grad_norm": 1.2428604364395142,
      "learning_rate": 1.730838035383264e-07,
      "loss": 3.2124,
      "step": 472690
    },
    {
      "epoch": 0.9847916666666666,
      "grad_norm": 1.1283785104751587,
      "learning_rate": 1.7261066472972763e-07,
      "loss": 3.3229,
      "step": 472700
    },
    {
      "epoch": 0.9848125,
      "grad_norm": 0.8727166652679443,
      "learning_rate": 1.721381731161431e-07,
      "loss": 3.2264,
      "step": 472710
    },
    {
      "epoch": 0.9848333333333333,
      "grad_norm": 1.0136011838912964,
      "learning_rate": 1.7166632869962115e-07,
      "loss": 3.3037,
      "step": 472720
    },
    {
      "epoch": 0.9848541666666667,
      "grad_norm": 1.0320935249328613,
      "learning_rate": 1.7119513148219356e-07,
      "loss": 3.3203,
      "step": 472730
    },
    {
      "epoch": 0.984875,
      "grad_norm": 0.8590570092201233,
      "learning_rate": 1.7072458146589197e-07,
      "loss": 3.2464,
      "step": 472740
    },
    {
      "epoch": 0.9848958333333333,
      "grad_norm": 0.9031898379325867,
      "learning_rate": 1.702546786527481e-07,
      "loss": 3.3381,
      "step": 472750
    },
    {
      "epoch": 0.9849166666666667,
      "grad_norm": 0.8660550117492676,
      "learning_rate": 1.697854230447937e-07,
      "loss": 3.3256,
      "step": 472760
    },
    {
      "epoch": 0.9849375,
      "grad_norm": 0.8968990445137024,
      "learning_rate": 1.693168146440771e-07,
      "loss": 3.323,
      "step": 472770
    },
    {
      "epoch": 0.9849583333333334,
      "grad_norm": 0.994583785533905,
      "learning_rate": 1.6884885345259668e-07,
      "loss": 3.2518,
      "step": 472780
    },
    {
      "epoch": 0.9849791666666666,
      "grad_norm": 0.9773721098899841,
      "learning_rate": 1.683815394723842e-07,
      "loss": 3.2855,
      "step": 472790
    },
    {
      "epoch": 0.985,
      "grad_norm": 0.9065972566604614,
      "learning_rate": 1.6791487270545466e-07,
      "loss": 3.3419,
      "step": 472800
    },
    {
      "epoch": 0.9850208333333333,
      "grad_norm": 0.887464702129364,
      "learning_rate": 1.6744885315382317e-07,
      "loss": 3.2727,
      "step": 472810
    },
    {
      "epoch": 0.9850416666666667,
      "grad_norm": 0.9062271118164062,
      "learning_rate": 1.6698348081950475e-07,
      "loss": 3.3571,
      "step": 472820
    },
    {
      "epoch": 0.9850625,
      "grad_norm": 0.9352079629898071,
      "learning_rate": 1.6651875570451446e-07,
      "loss": 3.4184,
      "step": 472830
    },
    {
      "epoch": 0.9850833333333333,
      "grad_norm": 0.901492714881897,
      "learning_rate": 1.6605467781083405e-07,
      "loss": 3.348,
      "step": 472840
    },
    {
      "epoch": 0.9851041666666667,
      "grad_norm": 0.9008393883705139,
      "learning_rate": 1.6559124714051187e-07,
      "loss": 3.3378,
      "step": 472850
    },
    {
      "epoch": 0.985125,
      "grad_norm": 0.9699568748474121,
      "learning_rate": 1.6512846369552968e-07,
      "loss": 3.3728,
      "step": 472860
    },
    {
      "epoch": 0.9851458333333334,
      "grad_norm": 0.9096020460128784,
      "learning_rate": 1.6466632747786922e-07,
      "loss": 3.2842,
      "step": 472870
    },
    {
      "epoch": 0.9851666666666666,
      "grad_norm": 0.998195230960846,
      "learning_rate": 1.6420483848954558e-07,
      "loss": 3.4491,
      "step": 472880
    },
    {
      "epoch": 0.9851875,
      "grad_norm": 0.9702032208442688,
      "learning_rate": 1.6374399673254046e-07,
      "loss": 3.2338,
      "step": 472890
    },
    {
      "epoch": 0.9852083333333334,
      "grad_norm": 0.896689236164093,
      "learning_rate": 1.6328380220886895e-07,
      "loss": 3.2846,
      "step": 472900
    },
    {
      "epoch": 0.9852291666666667,
      "grad_norm": 0.9617325067520142,
      "learning_rate": 1.628242549204961e-07,
      "loss": 3.2701,
      "step": 472910
    },
    {
      "epoch": 0.98525,
      "grad_norm": 0.9327089190483093,
      "learning_rate": 1.6236535486940372e-07,
      "loss": 3.4208,
      "step": 472920
    },
    {
      "epoch": 0.9852708333333333,
      "grad_norm": 0.9435139894485474,
      "learning_rate": 1.6190710205759016e-07,
      "loss": 3.3145,
      "step": 472930
    },
    {
      "epoch": 0.9852916666666667,
      "grad_norm": 0.9703386425971985,
      "learning_rate": 1.614494964870372e-07,
      "loss": 3.4201,
      "step": 472940
    },
    {
      "epoch": 0.9853125,
      "grad_norm": 0.9574350118637085,
      "learning_rate": 1.6099253815969327e-07,
      "loss": 3.264,
      "step": 472950
    },
    {
      "epoch": 0.9853333333333333,
      "grad_norm": 0.9102927446365356,
      "learning_rate": 1.6053622707755675e-07,
      "loss": 3.2462,
      "step": 472960
    },
    {
      "epoch": 0.9853541666666666,
      "grad_norm": 0.9755678772926331,
      "learning_rate": 1.6008056324260942e-07,
      "loss": 3.4022,
      "step": 472970
    },
    {
      "epoch": 0.985375,
      "grad_norm": 0.9587237238883972,
      "learning_rate": 1.5962554665678307e-07,
      "loss": 3.2958,
      "step": 472980
    },
    {
      "epoch": 0.9853958333333334,
      "grad_norm": 0.8781952261924744,
      "learning_rate": 1.5917117732207607e-07,
      "loss": 3.3425,
      "step": 472990
    },
    {
      "epoch": 0.9854166666666667,
      "grad_norm": 0.8879271149635315,
      "learning_rate": 1.5871745524043688e-07,
      "loss": 3.3566,
      "step": 473000
    },
    {
      "epoch": 0.9854166666666667,
      "eval_loss": 4.022067070007324,
      "eval_runtime": 8.6454,
      "eval_samples_per_second": 1.157,
      "eval_steps_per_second": 0.347,
      "step": 473000
    },
    {
      "epoch": 0.9854375,
      "grad_norm": 0.9402609467506409,
      "learning_rate": 1.5826438041381395e-07,
      "loss": 3.2198,
      "step": 473010
    },
    {
      "epoch": 0.9854583333333333,
      "grad_norm": 0.9049422144889832,
      "learning_rate": 1.57811952844189e-07,
      "loss": 3.2895,
      "step": 473020
    },
    {
      "epoch": 0.9854791666666667,
      "grad_norm": 0.9836539030075073,
      "learning_rate": 1.5736017253351052e-07,
      "loss": 3.3641,
      "step": 473030
    },
    {
      "epoch": 0.9855,
      "grad_norm": 1.0008082389831543,
      "learning_rate": 1.5690903948371026e-07,
      "loss": 3.4338,
      "step": 473040
    },
    {
      "epoch": 0.9855208333333333,
      "grad_norm": 0.9095302224159241,
      "learning_rate": 1.5645855369675332e-07,
      "loss": 3.2287,
      "step": 473050
    },
    {
      "epoch": 0.9855416666666666,
      "grad_norm": 1.0508787631988525,
      "learning_rate": 1.5600871517458813e-07,
      "loss": 3.2879,
      "step": 473060
    },
    {
      "epoch": 0.9855625,
      "grad_norm": 0.9874743819236755,
      "learning_rate": 1.555595239191465e-07,
      "loss": 3.2513,
      "step": 473070
    },
    {
      "epoch": 0.9855833333333334,
      "grad_norm": 0.9743017554283142,
      "learning_rate": 1.551109799323935e-07,
      "loss": 3.2846,
      "step": 473080
    },
    {
      "epoch": 0.9856041666666666,
      "grad_norm": 0.894964337348938,
      "learning_rate": 1.5466308321622766e-07,
      "loss": 3.2708,
      "step": 473090
    },
    {
      "epoch": 0.985625,
      "grad_norm": 0.894390344619751,
      "learning_rate": 1.5421583377261405e-07,
      "loss": 3.3096,
      "step": 473100
    },
    {
      "epoch": 0.9856458333333333,
      "grad_norm": 0.8972275853157043,
      "learning_rate": 1.5376923160346777e-07,
      "loss": 3.3866,
      "step": 473110
    },
    {
      "epoch": 0.9856666666666667,
      "grad_norm": 0.8256028890609741,
      "learning_rate": 1.533232767107373e-07,
      "loss": 3.282,
      "step": 473120
    },
    {
      "epoch": 0.9856875,
      "grad_norm": 0.8764203786849976,
      "learning_rate": 1.5287796909632111e-07,
      "loss": 3.4736,
      "step": 473130
    },
    {
      "epoch": 0.9857083333333333,
      "grad_norm": 0.982495129108429,
      "learning_rate": 1.5243330876218429e-07,
      "loss": 3.2589,
      "step": 473140
    },
    {
      "epoch": 0.9857291666666667,
      "grad_norm": 0.907448410987854,
      "learning_rate": 1.5198929571019203e-07,
      "loss": 3.2758,
      "step": 473150
    },
    {
      "epoch": 0.98575,
      "grad_norm": 1.0127736330032349,
      "learning_rate": 1.5154592994230942e-07,
      "loss": 3.2215,
      "step": 473160
    },
    {
      "epoch": 0.9857708333333334,
      "grad_norm": 0.8773876428604126,
      "learning_rate": 1.511032114604349e-07,
      "loss": 3.3753,
      "step": 473170
    },
    {
      "epoch": 0.9857916666666666,
      "grad_norm": 0.9270046949386597,
      "learning_rate": 1.5066114026646702e-07,
      "loss": 3.4643,
      "step": 473180
    },
    {
      "epoch": 0.9858125,
      "grad_norm": 1.0718250274658203,
      "learning_rate": 1.5021971636233754e-07,
      "loss": 3.3526,
      "step": 473190
    },
    {
      "epoch": 0.9858333333333333,
      "grad_norm": 0.8725926280021667,
      "learning_rate": 1.4977893974994492e-07,
      "loss": 3.3164,
      "step": 473200
    },
    {
      "epoch": 0.9858541666666667,
      "grad_norm": 0.7866424322128296,
      "learning_rate": 1.4933881043118766e-07,
      "loss": 3.3205,
      "step": 473210
    },
    {
      "epoch": 0.985875,
      "grad_norm": 0.9168643355369568,
      "learning_rate": 1.4889932840798092e-07,
      "loss": 3.2525,
      "step": 473220
    },
    {
      "epoch": 0.9858958333333333,
      "grad_norm": 0.8474811911582947,
      "learning_rate": 1.4846049368220646e-07,
      "loss": 3.2539,
      "step": 473230
    },
    {
      "epoch": 0.9859166666666667,
      "grad_norm": 0.9676714539527893,
      "learning_rate": 1.4802230625576284e-07,
      "loss": 3.3654,
      "step": 473240
    },
    {
      "epoch": 0.9859375,
      "grad_norm": 0.8860551714897156,
      "learning_rate": 1.4758476613056513e-07,
      "loss": 3.3073,
      "step": 473250
    },
    {
      "epoch": 0.9859583333333334,
      "grad_norm": 0.9043506383895874,
      "learning_rate": 1.471478733084619e-07,
      "loss": 3.275,
      "step": 473260
    },
    {
      "epoch": 0.9859791666666666,
      "grad_norm": 0.9942469000816345,
      "learning_rate": 1.467116277913849e-07,
      "loss": 3.2804,
      "step": 473270
    },
    {
      "epoch": 0.986,
      "grad_norm": 0.9441031813621521,
      "learning_rate": 1.4627602958118266e-07,
      "loss": 3.3137,
      "step": 473280
    },
    {
      "epoch": 0.9860208333333333,
      "grad_norm": 0.9606598019599915,
      "learning_rate": 1.458410786797537e-07,
      "loss": 3.2529,
      "step": 473290
    },
    {
      "epoch": 0.9860416666666667,
      "grad_norm": 0.9633792638778687,
      "learning_rate": 1.454067750889798e-07,
      "loss": 3.3774,
      "step": 473300
    },
    {
      "epoch": 0.9860625,
      "grad_norm": 0.8854805827140808,
      "learning_rate": 1.4497311881072614e-07,
      "loss": 3.2514,
      "step": 473310
    },
    {
      "epoch": 0.9860833333333333,
      "grad_norm": 0.9087405204772949,
      "learning_rate": 1.4454010984689125e-07,
      "loss": 3.4316,
      "step": 473320
    },
    {
      "epoch": 0.9861041666666667,
      "grad_norm": 0.9043574333190918,
      "learning_rate": 1.4410774819930693e-07,
      "loss": 3.2141,
      "step": 473330
    },
    {
      "epoch": 0.986125,
      "grad_norm": 0.8288527727127075,
      "learning_rate": 1.4367603386985504e-07,
      "loss": 3.2119,
      "step": 473340
    },
    {
      "epoch": 0.9861458333333334,
      "grad_norm": 0.9128844141960144,
      "learning_rate": 1.432449668604174e-07,
      "loss": 3.3101,
      "step": 473350
    },
    {
      "epoch": 0.9861666666666666,
      "grad_norm": 0.943377673625946,
      "learning_rate": 1.4281454717284258e-07,
      "loss": 3.2405,
      "step": 473360
    },
    {
      "epoch": 0.9861875,
      "grad_norm": 0.9133657813072205,
      "learning_rate": 1.4238477480899568e-07,
      "loss": 3.2642,
      "step": 473370
    },
    {
      "epoch": 0.9862083333333334,
      "grad_norm": 0.9053150415420532,
      "learning_rate": 1.4195564977072526e-07,
      "loss": 3.2842,
      "step": 473380
    },
    {
      "epoch": 0.9862291666666667,
      "grad_norm": 0.9542315602302551,
      "learning_rate": 1.4152717205987984e-07,
      "loss": 3.3322,
      "step": 473390
    },
    {
      "epoch": 0.98625,
      "grad_norm": 0.9987820386886597,
      "learning_rate": 1.410993416783246e-07,
      "loss": 3.3754,
      "step": 473400
    },
    {
      "epoch": 0.9862708333333333,
      "grad_norm": 0.914030909538269,
      "learning_rate": 1.4067215862790803e-07,
      "loss": 3.3571,
      "step": 473410
    },
    {
      "epoch": 0.9862916666666667,
      "grad_norm": 0.8966494798660278,
      "learning_rate": 1.4024562291046203e-07,
      "loss": 3.3392,
      "step": 473420
    },
    {
      "epoch": 0.9863125,
      "grad_norm": 1.1499652862548828,
      "learning_rate": 1.3981973452785177e-07,
      "loss": 3.149,
      "step": 473430
    },
    {
      "epoch": 0.9863333333333333,
      "grad_norm": 0.9200026392936707,
      "learning_rate": 1.3939449348187583e-07,
      "loss": 3.2389,
      "step": 473440
    },
    {
      "epoch": 0.9863541666666666,
      "grad_norm": 0.9680647850036621,
      "learning_rate": 1.3896989977441598e-07,
      "loss": 3.3412,
      "step": 473450
    },
    {
      "epoch": 0.986375,
      "grad_norm": 0.8395078182220459,
      "learning_rate": 1.3854595340727082e-07,
      "loss": 3.357,
      "step": 473460
    },
    {
      "epoch": 0.9863958333333334,
      "grad_norm": 0.9706107378005981,
      "learning_rate": 1.3812265438230553e-07,
      "loss": 3.2679,
      "step": 473470
    },
    {
      "epoch": 0.9864166666666667,
      "grad_norm": 0.9360992312431335,
      "learning_rate": 1.3770000270131864e-07,
      "loss": 3.2856,
      "step": 473480
    },
    {
      "epoch": 0.9864375,
      "grad_norm": 1.087085247039795,
      "learning_rate": 1.3727799836615872e-07,
      "loss": 3.2355,
      "step": 473490
    },
    {
      "epoch": 0.9864583333333333,
      "grad_norm": 0.9009993672370911,
      "learning_rate": 1.368566413786243e-07,
      "loss": 3.2729,
      "step": 473500
    },
    {
      "epoch": 0.9864791666666667,
      "grad_norm": 0.9165705442428589,
      "learning_rate": 1.3643593174056388e-07,
      "loss": 3.252,
      "step": 473510
    },
    {
      "epoch": 0.9865,
      "grad_norm": 0.9622642397880554,
      "learning_rate": 1.3601586945377608e-07,
      "loss": 3.3199,
      "step": 473520
    },
    {
      "epoch": 0.9865208333333333,
      "grad_norm": 0.893988847732544,
      "learning_rate": 1.3559645452007606e-07,
      "loss": 3.2758,
      "step": 473530
    },
    {
      "epoch": 0.9865416666666667,
      "grad_norm": 0.9981122612953186,
      "learning_rate": 1.3517768694127907e-07,
      "loss": 3.3155,
      "step": 473540
    },
    {
      "epoch": 0.9865625,
      "grad_norm": 1.1777839660644531,
      "learning_rate": 1.3475956671918363e-07,
      "loss": 3.2439,
      "step": 473550
    },
    {
      "epoch": 0.9865833333333334,
      "grad_norm": 0.9302583932876587,
      "learning_rate": 1.3434209385562167e-07,
      "loss": 3.3733,
      "step": 473560
    },
    {
      "epoch": 0.9866041666666666,
      "grad_norm": 1.0344666242599487,
      "learning_rate": 1.3392526835237505e-07,
      "loss": 3.212,
      "step": 473570
    },
    {
      "epoch": 0.986625,
      "grad_norm": 0.9380504488945007,
      "learning_rate": 1.3350909021124233e-07,
      "loss": 3.3143,
      "step": 473580
    },
    {
      "epoch": 0.9866458333333333,
      "grad_norm": 0.9059043526649475,
      "learning_rate": 1.3309355943403877e-07,
      "loss": 3.2755,
      "step": 473590
    },
    {
      "epoch": 0.9866666666666667,
      "grad_norm": 0.8901675343513489,
      "learning_rate": 1.3267867602256288e-07,
      "loss": 3.2559,
      "step": 473600
    },
    {
      "epoch": 0.9866875,
      "grad_norm": 1.0269047021865845,
      "learning_rate": 1.322644399785633e-07,
      "loss": 3.2428,
      "step": 473610
    },
    {
      "epoch": 0.9867083333333333,
      "grad_norm": 0.9045336842536926,
      "learning_rate": 1.318508513038885e-07,
      "loss": 3.3265,
      "step": 473620
    },
    {
      "epoch": 0.9867291666666667,
      "grad_norm": 0.9434216618537903,
      "learning_rate": 1.3143791000027047e-07,
      "loss": 3.5036,
      "step": 473630
    },
    {
      "epoch": 0.98675,
      "grad_norm": 0.8788418769836426,
      "learning_rate": 1.310256160695411e-07,
      "loss": 3.1981,
      "step": 473640
    },
    {
      "epoch": 0.9867708333333334,
      "grad_norm": 0.9479023218154907,
      "learning_rate": 1.3061396951344893e-07,
      "loss": 3.3325,
      "step": 473650
    },
    {
      "epoch": 0.9867916666666666,
      "grad_norm": 0.8741416931152344,
      "learning_rate": 1.3020297033377592e-07,
      "loss": 3.2892,
      "step": 473660
    },
    {
      "epoch": 0.9868125,
      "grad_norm": 0.9590393900871277,
      "learning_rate": 1.2979261853230393e-07,
      "loss": 3.3015,
      "step": 473670
    },
    {
      "epoch": 0.9868333333333333,
      "grad_norm": 0.9192079901695251,
      "learning_rate": 1.293829141108149e-07,
      "loss": 3.279,
      "step": 473680
    },
    {
      "epoch": 0.9868541666666667,
      "grad_norm": 0.9685885906219482,
      "learning_rate": 1.289738570710741e-07,
      "loss": 3.3206,
      "step": 473690
    },
    {
      "epoch": 0.986875,
      "grad_norm": 0.9527528882026672,
      "learning_rate": 1.285654474148301e-07,
      "loss": 3.3608,
      "step": 473700
    },
    {
      "epoch": 0.9868958333333333,
      "grad_norm": 0.8801676034927368,
      "learning_rate": 1.281576851438648e-07,
      "loss": 3.2134,
      "step": 473710
    },
    {
      "epoch": 0.9869166666666667,
      "grad_norm": 1.002041220664978,
      "learning_rate": 1.2775057025992685e-07,
      "loss": 3.2825,
      "step": 473720
    },
    {
      "epoch": 0.9869375,
      "grad_norm": 0.9333401322364807,
      "learning_rate": 1.2734410276479812e-07,
      "loss": 3.2632,
      "step": 473730
    },
    {
      "epoch": 0.9869583333333334,
      "grad_norm": 0.9225013256072998,
      "learning_rate": 1.2693828266021055e-07,
      "loss": 3.236,
      "step": 473740
    },
    {
      "epoch": 0.9869791666666666,
      "grad_norm": 0.9524549841880798,
      "learning_rate": 1.2653310994791278e-07,
      "loss": 3.2628,
      "step": 473750
    },
    {
      "epoch": 0.987,
      "grad_norm": 0.9138289093971252,
      "learning_rate": 1.2612858462968668e-07,
      "loss": 3.3685,
      "step": 473760
    },
    {
      "epoch": 0.9870208333333333,
      "grad_norm": 0.8572824597358704,
      "learning_rate": 1.257247067072642e-07,
      "loss": 3.2714,
      "step": 473770
    },
    {
      "epoch": 0.9870416666666667,
      "grad_norm": 0.9302385449409485,
      "learning_rate": 1.2532147618236066e-07,
      "loss": 3.3222,
      "step": 473780
    },
    {
      "epoch": 0.9870625,
      "grad_norm": 0.9230401515960693,
      "learning_rate": 1.249188930567746e-07,
      "loss": 3.2311,
      "step": 473790
    },
    {
      "epoch": 0.9870833333333333,
      "grad_norm": 0.933222234249115,
      "learning_rate": 1.2451695733218804e-07,
      "loss": 3.2385,
      "step": 473800
    },
    {
      "epoch": 0.9871041666666667,
      "grad_norm": 0.8826541900634766,
      "learning_rate": 1.2411566901038284e-07,
      "loss": 3.4231,
      "step": 473810
    },
    {
      "epoch": 0.987125,
      "grad_norm": 1.000126838684082,
      "learning_rate": 1.2371502809305768e-07,
      "loss": 3.3518,
      "step": 473820
    },
    {
      "epoch": 0.9871458333333333,
      "grad_norm": 0.913509726524353,
      "learning_rate": 1.233150345819778e-07,
      "loss": 3.3569,
      "step": 473830
    },
    {
      "epoch": 0.9871666666666666,
      "grad_norm": 0.8949927091598511,
      "learning_rate": 1.229156884788418e-07,
      "loss": 3.2792,
      "step": 473840
    },
    {
      "epoch": 0.9871875,
      "grad_norm": 0.8818730711936951,
      "learning_rate": 1.225169897853817e-07,
      "loss": 3.3468,
      "step": 473850
    },
    {
      "epoch": 0.9872083333333334,
      "grad_norm": 0.9698047041893005,
      "learning_rate": 1.2211893850331277e-07,
      "loss": 3.3176,
      "step": 473860
    },
    {
      "epoch": 0.9872291666666667,
      "grad_norm": 0.8664509057998657,
      "learning_rate": 1.2172153463438362e-07,
      "loss": 3.4198,
      "step": 473870
    },
    {
      "epoch": 0.98725,
      "grad_norm": 0.8948475122451782,
      "learning_rate": 1.213247781802762e-07,
      "loss": 3.2353,
      "step": 473880
    },
    {
      "epoch": 0.9872708333333333,
      "grad_norm": 0.9274767637252808,
      "learning_rate": 1.2092866914273913e-07,
      "loss": 3.4142,
      "step": 473890
    },
    {
      "epoch": 0.9872916666666667,
      "grad_norm": 0.9672962427139282,
      "learning_rate": 1.2053320752343777e-07,
      "loss": 3.4288,
      "step": 473900
    },
    {
      "epoch": 0.9873125,
      "grad_norm": 0.9344127774238586,
      "learning_rate": 1.201383933241207e-07,
      "loss": 3.2442,
      "step": 473910
    },
    {
      "epoch": 0.9873333333333333,
      "grad_norm": 0.8996239304542542,
      "learning_rate": 1.197442265464865e-07,
      "loss": 3.3199,
      "step": 473920
    },
    {
      "epoch": 0.9873541666666666,
      "grad_norm": 0.9629457592964172,
      "learning_rate": 1.1935070719221728e-07,
      "loss": 3.2461,
      "step": 473930
    },
    {
      "epoch": 0.987375,
      "grad_norm": 0.9280900955200195,
      "learning_rate": 1.1895783526304493e-07,
      "loss": 3.1859,
      "step": 473940
    },
    {
      "epoch": 0.9873958333333334,
      "grad_norm": 0.9232053756713867,
      "learning_rate": 1.1856561076063476e-07,
      "loss": 3.2811,
      "step": 473950
    },
    {
      "epoch": 0.9874166666666667,
      "grad_norm": 0.9466493725776672,
      "learning_rate": 1.1817403368668544e-07,
      "loss": 3.1974,
      "step": 473960
    },
    {
      "epoch": 0.9874375,
      "grad_norm": 0.9142682552337646,
      "learning_rate": 1.1778310404291225e-07,
      "loss": 3.1914,
      "step": 473970
    },
    {
      "epoch": 0.9874583333333333,
      "grad_norm": 0.8895182013511658,
      "learning_rate": 1.1739282183098053e-07,
      "loss": 3.2712,
      "step": 473980
    },
    {
      "epoch": 0.9874791666666667,
      "grad_norm": 0.8885489106178284,
      "learning_rate": 1.1700318705257227e-07,
      "loss": 3.2284,
      "step": 473990
    },
    {
      "epoch": 0.9875,
      "grad_norm": 0.8972017765045166,
      "learning_rate": 1.1661419970940278e-07,
      "loss": 3.1665,
      "step": 474000
    },
    {
      "epoch": 0.9875,
      "eval_loss": 4.022128582000732,
      "eval_runtime": 9.1583,
      "eval_samples_per_second": 1.092,
      "eval_steps_per_second": 0.328,
      "step": 474000
    },
    {
      "epoch": 0.9875208333333333,
      "grad_norm": 0.9226377606391907,
      "learning_rate": 1.1622585980312071e-07,
      "loss": 3.3245,
      "step": 474010
    },
    {
      "epoch": 0.9875416666666667,
      "grad_norm": 0.8899855613708496,
      "learning_rate": 1.1583816733542472e-07,
      "loss": 3.2855,
      "step": 474020
    },
    {
      "epoch": 0.9875625,
      "grad_norm": 0.8653115630149841,
      "learning_rate": 1.154511223079635e-07,
      "loss": 3.3388,
      "step": 474030
    },
    {
      "epoch": 0.9875833333333334,
      "grad_norm": 1.1003515720367432,
      "learning_rate": 1.1506472472243567e-07,
      "loss": 3.4491,
      "step": 474040
    },
    {
      "epoch": 0.9876041666666666,
      "grad_norm": 0.9196279644966125,
      "learning_rate": 1.1467897458050657e-07,
      "loss": 3.3716,
      "step": 474050
    },
    {
      "epoch": 0.987625,
      "grad_norm": 0.9136371612548828,
      "learning_rate": 1.1429387188382488e-07,
      "loss": 3.3608,
      "step": 474060
    },
    {
      "epoch": 0.9876458333333333,
      "grad_norm": 0.9199650883674622,
      "learning_rate": 1.139094166340726e-07,
      "loss": 3.2199,
      "step": 474070
    },
    {
      "epoch": 0.9876666666666667,
      "grad_norm": 0.8987864851951599,
      "learning_rate": 1.135256088328984e-07,
      "loss": 3.253,
      "step": 474080
    },
    {
      "epoch": 0.9876875,
      "grad_norm": 0.8554410338401794,
      "learning_rate": 1.1314244848196763e-07,
      "loss": 3.2691,
      "step": 474090
    },
    {
      "epoch": 0.9877083333333333,
      "grad_norm": 0.9594840407371521,
      "learning_rate": 1.1275993558292895e-07,
      "loss": 3.2763,
      "step": 474100
    },
    {
      "epoch": 0.9877291666666667,
      "grad_norm": 0.9276125431060791,
      "learning_rate": 1.1237807013743105e-07,
      "loss": 3.363,
      "step": 474110
    },
    {
      "epoch": 0.98775,
      "grad_norm": 0.877544641494751,
      "learning_rate": 1.1199685214713927e-07,
      "loss": 3.4352,
      "step": 474120
    },
    {
      "epoch": 0.9877708333333334,
      "grad_norm": 0.9318767189979553,
      "learning_rate": 1.1161628161368563e-07,
      "loss": 3.2283,
      "step": 474130
    },
    {
      "epoch": 0.9877916666666666,
      "grad_norm": 0.8625849485397339,
      "learning_rate": 1.1123635853871882e-07,
      "loss": 3.265,
      "step": 474140
    },
    {
      "epoch": 0.9878125,
      "grad_norm": 0.916740357875824,
      "learning_rate": 1.1085708292388751e-07,
      "loss": 3.3472,
      "step": 474150
    },
    {
      "epoch": 0.9878333333333333,
      "grad_norm": 0.9308523535728455,
      "learning_rate": 1.1047845477082374e-07,
      "loss": 3.2082,
      "step": 474160
    },
    {
      "epoch": 0.9878541666666667,
      "grad_norm": 0.9012060165405273,
      "learning_rate": 1.1010047408115952e-07,
      "loss": 3.3287,
      "step": 474170
    },
    {
      "epoch": 0.987875,
      "grad_norm": 0.9403483867645264,
      "learning_rate": 1.0972314085652689e-07,
      "loss": 3.2519,
      "step": 474180
    },
    {
      "epoch": 0.9878958333333333,
      "grad_norm": 0.8892999887466431,
      "learning_rate": 1.0934645509855788e-07,
      "loss": 3.4212,
      "step": 474190
    },
    {
      "epoch": 0.9879166666666667,
      "grad_norm": 1.0122575759887695,
      "learning_rate": 1.0897041680890117e-07,
      "loss": 3.4418,
      "step": 474200
    },
    {
      "epoch": 0.9879375,
      "grad_norm": 0.9347026348114014,
      "learning_rate": 1.0859502598913883e-07,
      "loss": 3.3181,
      "step": 474210
    },
    {
      "epoch": 0.9879583333333334,
      "grad_norm": 0.9262095093727112,
      "learning_rate": 1.0822028264091953e-07,
      "loss": 3.2964,
      "step": 474220
    },
    {
      "epoch": 0.9879791666666666,
      "grad_norm": 0.9779021143913269,
      "learning_rate": 1.0784618676585865e-07,
      "loss": 3.4279,
      "step": 474230
    },
    {
      "epoch": 0.988,
      "grad_norm": 0.9455960392951965,
      "learning_rate": 1.0747273836557157e-07,
      "loss": 3.3733,
      "step": 474240
    },
    {
      "epoch": 0.9880208333333333,
      "grad_norm": 0.8992438316345215,
      "learning_rate": 1.0709993744167367e-07,
      "loss": 3.2671,
      "step": 474250
    },
    {
      "epoch": 0.9880416666666667,
      "grad_norm": 0.9595458507537842,
      "learning_rate": 1.067277839957803e-07,
      "loss": 3.3189,
      "step": 474260
    },
    {
      "epoch": 0.9880625,
      "grad_norm": 1.0535386800765991,
      "learning_rate": 1.0635627802947355e-07,
      "loss": 3.3403,
      "step": 474270
    },
    {
      "epoch": 0.9880833333333333,
      "grad_norm": 0.9213042855262756,
      "learning_rate": 1.0598541954438545e-07,
      "loss": 3.2693,
      "step": 474280
    },
    {
      "epoch": 0.9881041666666667,
      "grad_norm": 0.9716288447380066,
      "learning_rate": 1.0561520854211469e-07,
      "loss": 3.4423,
      "step": 474290
    },
    {
      "epoch": 0.988125,
      "grad_norm": 0.8819707632064819,
      "learning_rate": 1.0524564502424338e-07,
      "loss": 3.3616,
      "step": 474300
    },
    {
      "epoch": 0.9881458333333333,
      "grad_norm": 0.9180717468261719,
      "learning_rate": 1.0487672899237021e-07,
      "loss": 3.3318,
      "step": 474310
    },
    {
      "epoch": 0.9881666666666666,
      "grad_norm": 0.8841384649276733,
      "learning_rate": 1.0450846044811056e-07,
      "loss": 3.1763,
      "step": 474320
    },
    {
      "epoch": 0.9881875,
      "grad_norm": 1.033682107925415,
      "learning_rate": 1.0414083939304652e-07,
      "loss": 3.2915,
      "step": 474330
    },
    {
      "epoch": 0.9882083333333334,
      "grad_norm": 0.847785472869873,
      "learning_rate": 1.0377386582874347e-07,
      "loss": 3.1846,
      "step": 474340
    },
    {
      "epoch": 0.9882291666666667,
      "grad_norm": 0.924950897693634,
      "learning_rate": 1.0340753975681681e-07,
      "loss": 3.3541,
      "step": 474350
    },
    {
      "epoch": 0.98825,
      "grad_norm": 0.894924521446228,
      "learning_rate": 1.0304186117883195e-07,
      "loss": 3.4564,
      "step": 474360
    },
    {
      "epoch": 0.9882708333333333,
      "grad_norm": 0.8971549868583679,
      "learning_rate": 1.0267683009637095e-07,
      "loss": 3.1885,
      "step": 474370
    },
    {
      "epoch": 0.9882916666666667,
      "grad_norm": 0.8964444994926453,
      "learning_rate": 1.0231244651101589e-07,
      "loss": 3.3178,
      "step": 474380
    },
    {
      "epoch": 0.9883125,
      "grad_norm": 0.8661083579063416,
      "learning_rate": 1.0194871042434882e-07,
      "loss": 3.2015,
      "step": 474390
    },
    {
      "epoch": 0.9883333333333333,
      "grad_norm": 0.8635703325271606,
      "learning_rate": 1.0158562183791852e-07,
      "loss": 3.3866,
      "step": 474400
    },
    {
      "epoch": 0.9883541666666666,
      "grad_norm": 0.957221269607544,
      "learning_rate": 1.0122318075329039e-07,
      "loss": 3.3232,
      "step": 474410
    },
    {
      "epoch": 0.988375,
      "grad_norm": 0.9515354633331299,
      "learning_rate": 1.0086138717206316e-07,
      "loss": 3.2701,
      "step": 474420
    },
    {
      "epoch": 0.9883958333333334,
      "grad_norm": 0.895063042640686,
      "learning_rate": 1.0050024109576893e-07,
      "loss": 3.2095,
      "step": 474430
    },
    {
      "epoch": 0.9884166666666667,
      "grad_norm": 0.9446660280227661,
      "learning_rate": 1.0013974252598978e-07,
      "loss": 3.3641,
      "step": 474440
    },
    {
      "epoch": 0.9884375,
      "grad_norm": 1.0646544694900513,
      "learning_rate": 9.977989146427445e-08,
      "loss": 3.3476,
      "step": 474450
    },
    {
      "epoch": 0.9884583333333333,
      "grad_norm": 0.9343271255493164,
      "learning_rate": 9.942068791217173e-08,
      "loss": 3.2496,
      "step": 474460
    },
    {
      "epoch": 0.9884791666666667,
      "grad_norm": 0.948646068572998,
      "learning_rate": 9.906213187123035e-08,
      "loss": 3.3042,
      "step": 474470
    },
    {
      "epoch": 0.9885,
      "grad_norm": 0.8607314229011536,
      "learning_rate": 9.87042233429991e-08,
      "loss": 3.3212,
      "step": 474480
    },
    {
      "epoch": 0.9885208333333333,
      "grad_norm": 0.9189077615737915,
      "learning_rate": 9.834696232904338e-08,
      "loss": 3.262,
      "step": 474490
    },
    {
      "epoch": 0.9885416666666667,
      "grad_norm": 1.0078171491622925,
      "learning_rate": 9.79903488308953e-08,
      "loss": 3.3132,
      "step": 474500
    },
    {
      "epoch": 0.9885625,
      "grad_norm": 0.8801676630973816,
      "learning_rate": 9.763438285008696e-08,
      "loss": 3.3073,
      "step": 474510
    },
    {
      "epoch": 0.9885833333333334,
      "grad_norm": 0.8909247517585754,
      "learning_rate": 9.727906438816713e-08,
      "loss": 3.2743,
      "step": 474520
    },
    {
      "epoch": 0.9886041666666666,
      "grad_norm": 0.9568078517913818,
      "learning_rate": 9.692439344666792e-08,
      "loss": 3.3246,
      "step": 474530
    },
    {
      "epoch": 0.988625,
      "grad_norm": 0.9807392954826355,
      "learning_rate": 9.657037002712143e-08,
      "loss": 3.2732,
      "step": 474540
    },
    {
      "epoch": 0.9886458333333333,
      "grad_norm": 0.9016472697257996,
      "learning_rate": 9.621699413104312e-08,
      "loss": 3.3149,
      "step": 474550
    },
    {
      "epoch": 0.9886666666666667,
      "grad_norm": 1.0684491395950317,
      "learning_rate": 9.586426575998174e-08,
      "loss": 3.3311,
      "step": 474560
    },
    {
      "epoch": 0.9886875,
      "grad_norm": 0.9214140176773071,
      "learning_rate": 9.55121849154361e-08,
      "loss": 3.3461,
      "step": 474570
    },
    {
      "epoch": 0.9887083333333333,
      "grad_norm": 0.8921646475791931,
      "learning_rate": 9.516075159895498e-08,
      "loss": 3.4295,
      "step": 474580
    },
    {
      "epoch": 0.9887291666666667,
      "grad_norm": 1.0504155158996582,
      "learning_rate": 9.480996581203715e-08,
      "loss": 3.2328,
      "step": 474590
    },
    {
      "epoch": 0.98875,
      "grad_norm": 0.966070830821991,
      "learning_rate": 9.445982755621473e-08,
      "loss": 3.3095,
      "step": 474600
    },
    {
      "epoch": 0.9887708333333334,
      "grad_norm": 0.8756681084632874,
      "learning_rate": 9.411033683296987e-08,
      "loss": 3.2616,
      "step": 474610
    },
    {
      "epoch": 0.9887916666666666,
      "grad_norm": 0.9942747950553894,
      "learning_rate": 9.376149364385133e-08,
      "loss": 3.2415,
      "step": 474620
    },
    {
      "epoch": 0.9888125,
      "grad_norm": 0.8798118233680725,
      "learning_rate": 9.341329799034126e-08,
      "loss": 3.2699,
      "step": 474630
    },
    {
      "epoch": 0.9888333333333333,
      "grad_norm": 1.0803614854812622,
      "learning_rate": 9.306574987393844e-08,
      "loss": 3.3614,
      "step": 474640
    },
    {
      "epoch": 0.9888541666666667,
      "grad_norm": 1.0592293739318848,
      "learning_rate": 9.271884929615837e-08,
      "loss": 3.3214,
      "step": 474650
    },
    {
      "epoch": 0.988875,
      "grad_norm": 0.9127206206321716,
      "learning_rate": 9.23725962584998e-08,
      "loss": 3.3322,
      "step": 474660
    },
    {
      "epoch": 0.9888958333333333,
      "grad_norm": 0.9167083501815796,
      "learning_rate": 9.202699076244491e-08,
      "loss": 3.1047,
      "step": 474670
    },
    {
      "epoch": 0.9889166666666667,
      "grad_norm": 0.8970442414283752,
      "learning_rate": 9.168203280950915e-08,
      "loss": 3.3937,
      "step": 474680
    },
    {
      "epoch": 0.9889375,
      "grad_norm": 1.032762885093689,
      "learning_rate": 9.1337722401158e-08,
      "loss": 3.3133,
      "step": 474690
    },
    {
      "epoch": 0.9889583333333334,
      "grad_norm": 0.9738419651985168,
      "learning_rate": 9.099405953889028e-08,
      "loss": 3.2594,
      "step": 474700
    },
    {
      "epoch": 0.9889791666666666,
      "grad_norm": 0.880161464214325,
      "learning_rate": 9.065104422420477e-08,
      "loss": 3.3441,
      "step": 474710
    },
    {
      "epoch": 0.989,
      "grad_norm": 1.0072576999664307,
      "learning_rate": 9.030867645855033e-08,
      "loss": 3.337,
      "step": 474720
    },
    {
      "epoch": 0.9890208333333333,
      "grad_norm": 0.9557275772094727,
      "learning_rate": 8.996695624344242e-08,
      "loss": 3.2524,
      "step": 474730
    },
    {
      "epoch": 0.9890416666666667,
      "grad_norm": 0.8957488536834717,
      "learning_rate": 8.96258835803132e-08,
      "loss": 3.2424,
      "step": 474740
    },
    {
      "epoch": 0.9890625,
      "grad_norm": 0.9562997817993164,
      "learning_rate": 8.928545847067815e-08,
      "loss": 3.2664,
      "step": 474750
    },
    {
      "epoch": 0.9890833333333333,
      "grad_norm": 1.105675458908081,
      "learning_rate": 8.894568091598609e-08,
      "loss": 3.3255,
      "step": 474760
    },
    {
      "epoch": 0.9891041666666667,
      "grad_norm": 0.9798954725265503,
      "learning_rate": 8.860655091771917e-08,
      "loss": 3.1614,
      "step": 474770
    },
    {
      "epoch": 0.989125,
      "grad_norm": 0.970964789390564,
      "learning_rate": 8.826806847732626e-08,
      "loss": 3.3291,
      "step": 474780
    },
    {
      "epoch": 0.9891458333333333,
      "grad_norm": 0.8646794557571411,
      "learning_rate": 8.793023359627282e-08,
      "loss": 3.354,
      "step": 474790
    },
    {
      "epoch": 0.9891666666666666,
      "grad_norm": 0.8496286273002625,
      "learning_rate": 8.759304627602436e-08,
      "loss": 3.222,
      "step": 474800
    },
    {
      "epoch": 0.9891875,
      "grad_norm": 1.000659704208374,
      "learning_rate": 8.725650651804639e-08,
      "loss": 3.245,
      "step": 474810
    },
    {
      "epoch": 0.9892083333333334,
      "grad_norm": 0.9277623295783997,
      "learning_rate": 8.692061432377107e-08,
      "loss": 3.1902,
      "step": 474820
    },
    {
      "epoch": 0.9892291666666667,
      "grad_norm": 0.9938886761665344,
      "learning_rate": 8.658536969464724e-08,
      "loss": 3.3823,
      "step": 474830
    },
    {
      "epoch": 0.98925,
      "grad_norm": 0.9414588809013367,
      "learning_rate": 8.625077263215708e-08,
      "loss": 3.3096,
      "step": 474840
    },
    {
      "epoch": 0.9892708333333333,
      "grad_norm": 0.8918818235397339,
      "learning_rate": 8.591682313769943e-08,
      "loss": 3.2508,
      "step": 474850
    },
    {
      "epoch": 0.9892916666666667,
      "grad_norm": 0.9219220876693726,
      "learning_rate": 8.558352121275647e-08,
      "loss": 3.2293,
      "step": 474860
    },
    {
      "epoch": 0.9893125,
      "grad_norm": 1.0058177709579468,
      "learning_rate": 8.525086685874371e-08,
      "loss": 3.3164,
      "step": 474870
    },
    {
      "epoch": 0.9893333333333333,
      "grad_norm": 0.8967613577842712,
      "learning_rate": 8.491886007712667e-08,
      "loss": 3.2391,
      "step": 474880
    },
    {
      "epoch": 0.9893541666666666,
      "grad_norm": 0.9192978739738464,
      "learning_rate": 8.458750086930421e-08,
      "loss": 3.2697,
      "step": 474890
    },
    {
      "epoch": 0.989375,
      "grad_norm": 0.9677339792251587,
      "learning_rate": 8.425678923672518e-08,
      "loss": 3.1947,
      "step": 474900
    },
    {
      "epoch": 0.9893958333333334,
      "grad_norm": 0.9173398017883301,
      "learning_rate": 8.392672518080511e-08,
      "loss": 3.2704,
      "step": 474910
    },
    {
      "epoch": 0.9894166666666667,
      "grad_norm": 0.9644686579704285,
      "learning_rate": 8.359730870299286e-08,
      "loss": 3.2773,
      "step": 474920
    },
    {
      "epoch": 0.9894375,
      "grad_norm": 0.8816972970962524,
      "learning_rate": 8.326853980470394e-08,
      "loss": 3.3574,
      "step": 474930
    },
    {
      "epoch": 0.9894583333333333,
      "grad_norm": 0.9714352488517761,
      "learning_rate": 8.294041848733724e-08,
      "loss": 3.2235,
      "step": 474940
    },
    {
      "epoch": 0.9894791666666667,
      "grad_norm": 0.9225901961326599,
      "learning_rate": 8.26129447523416e-08,
      "loss": 3.459,
      "step": 474950
    },
    {
      "epoch": 0.9895,
      "grad_norm": 0.8862743973731995,
      "learning_rate": 8.228611860109924e-08,
      "loss": 3.2241,
      "step": 474960
    },
    {
      "epoch": 0.9895208333333333,
      "grad_norm": 0.8828563690185547,
      "learning_rate": 8.195994003505902e-08,
      "loss": 3.2522,
      "step": 474970
    },
    {
      "epoch": 0.9895416666666667,
      "grad_norm": 1.0473978519439697,
      "learning_rate": 8.163440905560315e-08,
      "loss": 3.4194,
      "step": 474980
    },
    {
      "epoch": 0.9895625,
      "grad_norm": 0.9938226342201233,
      "learning_rate": 8.130952566414717e-08,
      "loss": 3.2303,
      "step": 474990
    },
    {
      "epoch": 0.9895833333333334,
      "grad_norm": 0.9673393368721008,
      "learning_rate": 8.098528986208996e-08,
      "loss": 3.2972,
      "step": 475000
    },
    {
      "epoch": 0.9895833333333334,
      "eval_loss": 4.021793365478516,
      "eval_runtime": 8.985,
      "eval_samples_per_second": 1.113,
      "eval_steps_per_second": 0.334,
      "step": 475000
    },
    {
      "epoch": 0.9896041666666666,
      "grad_norm": 0.9353778958320618,
      "learning_rate": 8.066170165083042e-08,
      "loss": 3.3476,
      "step": 475010
    },
    {
      "epoch": 0.989625,
      "grad_norm": 0.9168330430984497,
      "learning_rate": 8.03387610317674e-08,
      "loss": 3.2788,
      "step": 475020
    },
    {
      "epoch": 0.9896458333333333,
      "grad_norm": 0.947269856929779,
      "learning_rate": 8.001646800631645e-08,
      "loss": 3.3676,
      "step": 475030
    },
    {
      "epoch": 0.9896666666666667,
      "grad_norm": 0.9275282621383667,
      "learning_rate": 7.969482257582649e-08,
      "loss": 3.2963,
      "step": 475040
    },
    {
      "epoch": 0.9896875,
      "grad_norm": 1.0089257955551147,
      "learning_rate": 7.937382474172971e-08,
      "loss": 3.2802,
      "step": 475050
    },
    {
      "epoch": 0.9897083333333333,
      "grad_norm": 0.9262394905090332,
      "learning_rate": 7.905347450539168e-08,
      "loss": 3.3644,
      "step": 475060
    },
    {
      "epoch": 0.9897291666666667,
      "grad_norm": 1.0888844728469849,
      "learning_rate": 7.873377186819463e-08,
      "loss": 3.2513,
      "step": 475070
    },
    {
      "epoch": 0.98975,
      "grad_norm": 0.9127852916717529,
      "learning_rate": 7.841471683153744e-08,
      "loss": 3.2929,
      "step": 475080
    },
    {
      "epoch": 0.9897708333333334,
      "grad_norm": 0.8577038645744324,
      "learning_rate": 7.809630939676904e-08,
      "loss": 3.2114,
      "step": 475090
    },
    {
      "epoch": 0.9897916666666666,
      "grad_norm": 0.9369747042655945,
      "learning_rate": 7.777854956528829e-08,
      "loss": 3.312,
      "step": 475100
    },
    {
      "epoch": 0.9898125,
      "grad_norm": 0.9243321418762207,
      "learning_rate": 7.746143733847743e-08,
      "loss": 3.2286,
      "step": 475110
    },
    {
      "epoch": 0.9898333333333333,
      "grad_norm": 0.9069506525993347,
      "learning_rate": 7.714497271766873e-08,
      "loss": 3.2577,
      "step": 475120
    },
    {
      "epoch": 0.9898541666666667,
      "grad_norm": 0.9485510587692261,
      "learning_rate": 7.682915570426107e-08,
      "loss": 3.3035,
      "step": 475130
    },
    {
      "epoch": 0.989875,
      "grad_norm": 0.9024452567100525,
      "learning_rate": 7.651398629960337e-08,
      "loss": 3.3439,
      "step": 475140
    },
    {
      "epoch": 0.9898958333333333,
      "grad_norm": 0.975748598575592,
      "learning_rate": 7.61994645050612e-08,
      "loss": 3.3282,
      "step": 475150
    },
    {
      "epoch": 0.9899166666666667,
      "grad_norm": 0.9056317210197449,
      "learning_rate": 7.588559032198348e-08,
      "loss": 3.3301,
      "step": 475160
    },
    {
      "epoch": 0.9899375,
      "grad_norm": 0.9084347486495972,
      "learning_rate": 7.557236375175246e-08,
      "loss": 3.246,
      "step": 475170
    },
    {
      "epoch": 0.9899583333333334,
      "grad_norm": 0.9587427377700806,
      "learning_rate": 7.525978479568373e-08,
      "loss": 3.4133,
      "step": 475180
    },
    {
      "epoch": 0.9899791666666666,
      "grad_norm": 0.9878529906272888,
      "learning_rate": 7.494785345517618e-08,
      "loss": 3.2691,
      "step": 475190
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.8630896806716919,
      "learning_rate": 7.463656973152876e-08,
      "loss": 3.3925,
      "step": 475200
    },
    {
      "epoch": 0.9900208333333333,
      "grad_norm": 0.8668216466903687,
      "learning_rate": 7.432593362610706e-08,
      "loss": 3.2583,
      "step": 475210
    },
    {
      "epoch": 0.9900416666666667,
      "grad_norm": 0.992214560508728,
      "learning_rate": 7.401594514025999e-08,
      "loss": 3.3225,
      "step": 475220
    },
    {
      "epoch": 0.9900625,
      "grad_norm": 0.9310157895088196,
      "learning_rate": 7.370660427531982e-08,
      "loss": 3.2617,
      "step": 475230
    },
    {
      "epoch": 0.9900833333333333,
      "grad_norm": 0.9980865120887756,
      "learning_rate": 7.339791103261883e-08,
      "loss": 3.3667,
      "step": 475240
    },
    {
      "epoch": 0.9901041666666667,
      "grad_norm": 1.0477039813995361,
      "learning_rate": 7.308986541350592e-08,
      "loss": 3.3768,
      "step": 475250
    },
    {
      "epoch": 0.990125,
      "grad_norm": 0.944768488407135,
      "learning_rate": 7.278246741928006e-08,
      "loss": 3.2465,
      "step": 475260
    },
    {
      "epoch": 0.9901458333333333,
      "grad_norm": 0.9395264387130737,
      "learning_rate": 7.247571705130684e-08,
      "loss": 3.204,
      "step": 475270
    },
    {
      "epoch": 0.9901666666666666,
      "grad_norm": 0.886687695980072,
      "learning_rate": 7.21696143108852e-08,
      "loss": 3.2806,
      "step": 475280
    },
    {
      "epoch": 0.9901875,
      "grad_norm": 0.9982119202613831,
      "learning_rate": 7.18641591993474e-08,
      "loss": 3.3568,
      "step": 475290
    },
    {
      "epoch": 0.9902083333333334,
      "grad_norm": 1.0079855918884277,
      "learning_rate": 7.155935171799243e-08,
      "loss": 3.3058,
      "step": 475300
    },
    {
      "epoch": 0.9902291666666667,
      "grad_norm": 0.9822283387184143,
      "learning_rate": 7.125519186818585e-08,
      "loss": 3.2669,
      "step": 475310
    },
    {
      "epoch": 0.99025,
      "grad_norm": 0.8989982008934021,
      "learning_rate": 7.09516796511933e-08,
      "loss": 3.3189,
      "step": 475320
    },
    {
      "epoch": 0.9902708333333333,
      "grad_norm": 0.8741270303726196,
      "learning_rate": 7.064881506834708e-08,
      "loss": 3.2811,
      "step": 475330
    },
    {
      "epoch": 0.9902916666666667,
      "grad_norm": 0.9384813904762268,
      "learning_rate": 7.034659812094611e-08,
      "loss": 3.2936,
      "step": 475340
    },
    {
      "epoch": 0.9903125,
      "grad_norm": 0.9434616565704346,
      "learning_rate": 7.004502881030605e-08,
      "loss": 3.3356,
      "step": 475350
    },
    {
      "epoch": 0.9903333333333333,
      "grad_norm": 0.9347450733184814,
      "learning_rate": 6.974410713772582e-08,
      "loss": 3.2602,
      "step": 475360
    },
    {
      "epoch": 0.9903541666666666,
      "grad_norm": 0.9119731783866882,
      "learning_rate": 6.944383310450441e-08,
      "loss": 3.4278,
      "step": 475370
    },
    {
      "epoch": 0.990375,
      "grad_norm": 0.9425950646400452,
      "learning_rate": 6.914420671194077e-08,
      "loss": 3.3017,
      "step": 475380
    },
    {
      "epoch": 0.9903958333333334,
      "grad_norm": 1.018317461013794,
      "learning_rate": 6.88452279613172e-08,
      "loss": 3.2966,
      "step": 475390
    },
    {
      "epoch": 0.9904166666666666,
      "grad_norm": 0.9656655192375183,
      "learning_rate": 6.854689685394932e-08,
      "loss": 3.2858,
      "step": 475400
    },
    {
      "epoch": 0.9904375,
      "grad_norm": 0.922221302986145,
      "learning_rate": 6.824921339110278e-08,
      "loss": 3.2655,
      "step": 475410
    },
    {
      "epoch": 0.9904583333333333,
      "grad_norm": 0.9042764902114868,
      "learning_rate": 6.795217757407656e-08,
      "loss": 3.2692,
      "step": 475420
    },
    {
      "epoch": 0.9904791666666667,
      "grad_norm": 1.0072612762451172,
      "learning_rate": 6.765578940413629e-08,
      "loss": 3.3198,
      "step": 475430
    },
    {
      "epoch": 0.9905,
      "grad_norm": 0.9584511518478394,
      "learning_rate": 6.73600488825976e-08,
      "loss": 3.2508,
      "step": 475440
    },
    {
      "epoch": 0.9905208333333333,
      "grad_norm": 0.8910776972770691,
      "learning_rate": 6.706495601070949e-08,
      "loss": 3.2583,
      "step": 475450
    },
    {
      "epoch": 0.9905416666666667,
      "grad_norm": 0.885866105556488,
      "learning_rate": 6.67705107897376e-08,
      "loss": 3.5073,
      "step": 475460
    },
    {
      "epoch": 0.9905625,
      "grad_norm": 0.9029240012168884,
      "learning_rate": 6.647671322098091e-08,
      "loss": 3.3991,
      "step": 475470
    },
    {
      "epoch": 0.9905833333333334,
      "grad_norm": 0.8694859147071838,
      "learning_rate": 6.618356330570507e-08,
      "loss": 3.134,
      "step": 475480
    },
    {
      "epoch": 0.9906041666666666,
      "grad_norm": 1.1236050128936768,
      "learning_rate": 6.589106104515907e-08,
      "loss": 3.3384,
      "step": 475490
    },
    {
      "epoch": 0.990625,
      "grad_norm": 0.9465628266334534,
      "learning_rate": 6.559920644062521e-08,
      "loss": 3.3495,
      "step": 475500
    },
    {
      "epoch": 0.9906458333333333,
      "grad_norm": 0.8778098225593567,
      "learning_rate": 6.530799949333587e-08,
      "loss": 3.2845,
      "step": 475510
    },
    {
      "epoch": 0.9906666666666667,
      "grad_norm": 0.9727320075035095,
      "learning_rate": 6.501744020458998e-08,
      "loss": 3.3474,
      "step": 475520
    },
    {
      "epoch": 0.9906875,
      "grad_norm": 0.9315970540046692,
      "learning_rate": 6.472752857560326e-08,
      "loss": 3.2416,
      "step": 475530
    },
    {
      "epoch": 0.9907083333333333,
      "grad_norm": 0.9618836045265198,
      "learning_rate": 6.4438264607658e-08,
      "loss": 3.3349,
      "step": 475540
    },
    {
      "epoch": 0.9907291666666667,
      "grad_norm": 0.9828936457633972,
      "learning_rate": 6.414964830196989e-08,
      "loss": 3.3837,
      "step": 475550
    },
    {
      "epoch": 0.99075,
      "grad_norm": 0.9439144134521484,
      "learning_rate": 6.386167965982126e-08,
      "loss": 3.2026,
      "step": 475560
    },
    {
      "epoch": 0.9907708333333334,
      "grad_norm": 1.073473334312439,
      "learning_rate": 6.357435868244443e-08,
      "loss": 3.3925,
      "step": 475570
    },
    {
      "epoch": 0.9907916666666666,
      "grad_norm": 0.9126145243644714,
      "learning_rate": 6.328768537107177e-08,
      "loss": 3.3412,
      "step": 475580
    },
    {
      "epoch": 0.9908125,
      "grad_norm": 0.924850583076477,
      "learning_rate": 6.300165972695225e-08,
      "loss": 3.2242,
      "step": 475590
    },
    {
      "epoch": 0.9908333333333333,
      "grad_norm": 0.8935574889183044,
      "learning_rate": 6.271628175131827e-08,
      "loss": 3.2929,
      "step": 475600
    },
    {
      "epoch": 0.9908541666666667,
      "grad_norm": 0.9397740364074707,
      "learning_rate": 6.243155144538547e-08,
      "loss": 3.4662,
      "step": 475610
    },
    {
      "epoch": 0.990875,
      "grad_norm": 0.9042242169380188,
      "learning_rate": 6.214746881041955e-08,
      "loss": 3.2918,
      "step": 475620
    },
    {
      "epoch": 0.9908958333333333,
      "grad_norm": 0.9773690104484558,
      "learning_rate": 6.186403384761951e-08,
      "loss": 3.2686,
      "step": 475630
    },
    {
      "epoch": 0.9909166666666667,
      "grad_norm": 0.9465963244438171,
      "learning_rate": 6.158124655820107e-08,
      "loss": 3.3243,
      "step": 475640
    },
    {
      "epoch": 0.9909375,
      "grad_norm": 0.9155529141426086,
      "learning_rate": 6.129910694342988e-08,
      "loss": 3.2748,
      "step": 475650
    },
    {
      "epoch": 0.9909583333333334,
      "grad_norm": 0.8884565234184265,
      "learning_rate": 6.101761500447166e-08,
      "loss": 3.4292,
      "step": 475660
    },
    {
      "epoch": 0.9909791666666666,
      "grad_norm": 0.9606013894081116,
      "learning_rate": 6.073677074257544e-08,
      "loss": 3.1633,
      "step": 475670
    },
    {
      "epoch": 0.991,
      "grad_norm": 0.930584728717804,
      "learning_rate": 6.045657415895689e-08,
      "loss": 3.2543,
      "step": 475680
    },
    {
      "epoch": 0.9910208333333334,
      "grad_norm": 0.910969078540802,
      "learning_rate": 6.01770252547984e-08,
      "loss": 3.2022,
      "step": 475690
    },
    {
      "epoch": 0.9910416666666667,
      "grad_norm": 0.9384844303131104,
      "learning_rate": 5.989812403133232e-08,
      "loss": 3.3188,
      "step": 475700
    },
    {
      "epoch": 0.9910625,
      "grad_norm": 0.9885915517807007,
      "learning_rate": 5.96198704897577e-08,
      "loss": 3.4736,
      "step": 475710
    },
    {
      "epoch": 0.9910833333333333,
      "grad_norm": 0.9503316879272461,
      "learning_rate": 5.934226463127356e-08,
      "loss": 3.3499,
      "step": 475720
    },
    {
      "epoch": 0.9911041666666667,
      "grad_norm": 0.8871158361434937,
      "learning_rate": 5.906530645707897e-08,
      "loss": 3.2423,
      "step": 475730
    },
    {
      "epoch": 0.991125,
      "grad_norm": 1.0901007652282715,
      "learning_rate": 5.8788995968389594e-08,
      "loss": 3.243,
      "step": 475740
    },
    {
      "epoch": 0.9911458333333333,
      "grad_norm": 1.0762170553207397,
      "learning_rate": 5.851333316635454e-08,
      "loss": 3.3594,
      "step": 475750
    },
    {
      "epoch": 0.9911666666666666,
      "grad_norm": 0.9558516144752502,
      "learning_rate": 5.823831805220613e-08,
      "loss": 3.3142,
      "step": 475760
    },
    {
      "epoch": 0.9911875,
      "grad_norm": 1.0236676931381226,
      "learning_rate": 5.796395062711012e-08,
      "loss": 3.2695,
      "step": 475770
    },
    {
      "epoch": 0.9912083333333334,
      "grad_norm": 0.935778796672821,
      "learning_rate": 5.769023089226554e-08,
      "loss": 3.3687,
      "step": 475780
    },
    {
      "epoch": 0.9912291666666667,
      "grad_norm": 0.966105043888092,
      "learning_rate": 5.741715884883813e-08,
      "loss": 3.3761,
      "step": 475790
    },
    {
      "epoch": 0.99125,
      "grad_norm": 1.0242867469787598,
      "learning_rate": 5.7144734498026926e-08,
      "loss": 3.4425,
      "step": 475800
    },
    {
      "epoch": 0.9912708333333333,
      "grad_norm": 0.8958771228790283,
      "learning_rate": 5.687295784099766e-08,
      "loss": 3.4068,
      "step": 475810
    },
    {
      "epoch": 0.9912916666666667,
      "grad_norm": 0.882449209690094,
      "learning_rate": 5.6601828878916066e-08,
      "loss": 3.3537,
      "step": 475820
    },
    {
      "epoch": 0.9913125,
      "grad_norm": 0.9193868041038513,
      "learning_rate": 5.633134761296454e-08,
      "loss": 3.2205,
      "step": 475830
    },
    {
      "epoch": 0.9913333333333333,
      "grad_norm": 0.872672438621521,
      "learning_rate": 5.606151404432546e-08,
      "loss": 3.4106,
      "step": 475840
    },
    {
      "epoch": 0.9913541666666666,
      "grad_norm": 0.8732399344444275,
      "learning_rate": 5.579232817413126e-08,
      "loss": 3.2107,
      "step": 475850
    },
    {
      "epoch": 0.991375,
      "grad_norm": 1.0623670816421509,
      "learning_rate": 5.552379000356433e-08,
      "loss": 3.389,
      "step": 475860
    },
    {
      "epoch": 0.9913958333333334,
      "grad_norm": 0.8783755302429199,
      "learning_rate": 5.5255899533790396e-08,
      "loss": 3.4069,
      "step": 475870
    },
    {
      "epoch": 0.9914166666666666,
      "grad_norm": 0.864271342754364,
      "learning_rate": 5.498865676595854e-08,
      "loss": 3.2466,
      "step": 475880
    },
    {
      "epoch": 0.9914375,
      "grad_norm": 0.8637827634811401,
      "learning_rate": 5.472206170121785e-08,
      "loss": 3.2979,
      "step": 475890
    },
    {
      "epoch": 0.9914583333333333,
      "grad_norm": 1.070155382156372,
      "learning_rate": 5.445611434071739e-08,
      "loss": 3.3342,
      "step": 475900
    },
    {
      "epoch": 0.9914791666666667,
      "grad_norm": 0.9187777638435364,
      "learning_rate": 5.419081468563957e-08,
      "loss": 3.3787,
      "step": 475910
    },
    {
      "epoch": 0.9915,
      "grad_norm": 0.9393874406814575,
      "learning_rate": 5.39261627370835e-08,
      "loss": 3.3222,
      "step": 475920
    },
    {
      "epoch": 0.9915208333333333,
      "grad_norm": 0.9329571723937988,
      "learning_rate": 5.3662158496214914e-08,
      "loss": 3.3678,
      "step": 475930
    },
    {
      "epoch": 0.9915416666666667,
      "grad_norm": 0.8997906446456909,
      "learning_rate": 5.339880196418289e-08,
      "loss": 3.4051,
      "step": 475940
    },
    {
      "epoch": 0.9915625,
      "grad_norm": 0.9192111492156982,
      "learning_rate": 5.313609314210321e-08,
      "loss": 3.4721,
      "step": 475950
    },
    {
      "epoch": 0.9915833333333334,
      "grad_norm": 0.9831039905548096,
      "learning_rate": 5.2874032031124945e-08,
      "loss": 3.2533,
      "step": 475960
    },
    {
      "epoch": 0.9916041666666666,
      "grad_norm": 0.8466945886611938,
      "learning_rate": 5.261261863238053e-08,
      "loss": 3.2987,
      "step": 475970
    },
    {
      "epoch": 0.991625,
      "grad_norm": 1.024391770362854,
      "learning_rate": 5.235185294700239e-08,
      "loss": 3.3077,
      "step": 475980
    },
    {
      "epoch": 0.9916458333333333,
      "grad_norm": 0.9447320103645325,
      "learning_rate": 5.2091734976106305e-08,
      "loss": 3.2965,
      "step": 475990
    },
    {
      "epoch": 0.9916666666666667,
      "grad_norm": 1.0880355834960938,
      "learning_rate": 5.183226472082469e-08,
      "loss": 3.3541,
      "step": 476000
    },
    {
      "epoch": 0.9916666666666667,
      "eval_loss": 4.021796226501465,
      "eval_runtime": 8.106,
      "eval_samples_per_second": 1.234,
      "eval_steps_per_second": 0.37,
      "step": 476000
    },
    {
      "epoch": 0.9916875,
      "grad_norm": 0.9187601208686829,
      "learning_rate": 5.157344218225667e-08,
      "loss": 3.1822,
      "step": 476010
    },
    {
      "epoch": 0.9917083333333333,
      "grad_norm": 0.884120762348175,
      "learning_rate": 5.131526736155134e-08,
      "loss": 3.2803,
      "step": 476020
    },
    {
      "epoch": 0.9917291666666667,
      "grad_norm": 0.864968478679657,
      "learning_rate": 5.1057740259824454e-08,
      "loss": 3.2776,
      "step": 476030
    },
    {
      "epoch": 0.99175,
      "grad_norm": 0.8672534227371216,
      "learning_rate": 5.080086087815849e-08,
      "loss": 3.2722,
      "step": 476040
    },
    {
      "epoch": 0.9917708333333334,
      "grad_norm": 0.9206865429878235,
      "learning_rate": 5.054462921766922e-08,
      "loss": 3.2726,
      "step": 476050
    },
    {
      "epoch": 0.9917916666666666,
      "grad_norm": 0.9850761890411377,
      "learning_rate": 5.028904527948907e-08,
      "loss": 3.3254,
      "step": 476060
    },
    {
      "epoch": 0.9918125,
      "grad_norm": 1.096557855606079,
      "learning_rate": 5.0034109064700514e-08,
      "loss": 3.3036,
      "step": 476070
    },
    {
      "epoch": 0.9918333333333333,
      "grad_norm": 0.8162229061126709,
      "learning_rate": 4.977982057440266e-08,
      "loss": 3.3077,
      "step": 476080
    },
    {
      "epoch": 0.9918541666666667,
      "grad_norm": 1.0101771354675293,
      "learning_rate": 4.9526179809711296e-08,
      "loss": 3.3663,
      "step": 476090
    },
    {
      "epoch": 0.991875,
      "grad_norm": 0.9792056083679199,
      "learning_rate": 4.927318677170888e-08,
      "loss": 3.3631,
      "step": 476100
    },
    {
      "epoch": 0.9918958333333333,
      "grad_norm": 0.9090376496315002,
      "learning_rate": 4.9020841461494544e-08,
      "loss": 3.2301,
      "step": 476110
    },
    {
      "epoch": 0.9919166666666667,
      "grad_norm": 0.9434654116630554,
      "learning_rate": 4.876914388015074e-08,
      "loss": 3.3224,
      "step": 476120
    },
    {
      "epoch": 0.9919375,
      "grad_norm": 1.0200750827789307,
      "learning_rate": 4.85180940287766e-08,
      "loss": 3.2627,
      "step": 476130
    },
    {
      "epoch": 0.9919583333333334,
      "grad_norm": 0.8935114145278931,
      "learning_rate": 4.8267691908437936e-08,
      "loss": 3.3396,
      "step": 476140
    },
    {
      "epoch": 0.9919791666666666,
      "grad_norm": 0.9489333033561707,
      "learning_rate": 4.801793752023386e-08,
      "loss": 3.2414,
      "step": 476150
    },
    {
      "epoch": 0.992,
      "grad_norm": 0.8696548938751221,
      "learning_rate": 4.776883086524686e-08,
      "loss": 3.3375,
      "step": 476160
    },
    {
      "epoch": 0.9920208333333334,
      "grad_norm": 0.8741445541381836,
      "learning_rate": 4.752037194452607e-08,
      "loss": 3.3061,
      "step": 476170
    },
    {
      "epoch": 0.9920416666666667,
      "grad_norm": 0.8502683639526367,
      "learning_rate": 4.727256075917063e-08,
      "loss": 3.3444,
      "step": 476180
    },
    {
      "epoch": 0.9920625,
      "grad_norm": 0.88248211145401,
      "learning_rate": 4.702539731024635e-08,
      "loss": 3.2738,
      "step": 476190
    },
    {
      "epoch": 0.9920833333333333,
      "grad_norm": 0.9244294762611389,
      "learning_rate": 4.677888159880239e-08,
      "loss": 3.2276,
      "step": 476200
    },
    {
      "epoch": 0.9921041666666667,
      "grad_norm": 0.9900140762329102,
      "learning_rate": 4.6533013625937864e-08,
      "loss": 3.3519,
      "step": 476210
    },
    {
      "epoch": 0.992125,
      "grad_norm": 0.881961464881897,
      "learning_rate": 4.628779339268529e-08,
      "loss": 3.2906,
      "step": 476220
    },
    {
      "epoch": 0.9921458333333333,
      "grad_norm": 0.9313575625419617,
      "learning_rate": 4.6043220900110475e-08,
      "loss": 3.3253,
      "step": 476230
    },
    {
      "epoch": 0.9921666666666666,
      "grad_norm": 0.966002345085144,
      "learning_rate": 4.579929614927924e-08,
      "loss": 3.2812,
      "step": 476240
    },
    {
      "epoch": 0.9921875,
      "grad_norm": 1.0778967142105103,
      "learning_rate": 4.555601914124074e-08,
      "loss": 3.3641,
      "step": 476250
    },
    {
      "epoch": 0.9922083333333334,
      "grad_norm": 1.01605224609375,
      "learning_rate": 4.531338987702748e-08,
      "loss": 3.2783,
      "step": 476260
    },
    {
      "epoch": 0.9922291666666667,
      "grad_norm": 0.9374127984046936,
      "learning_rate": 4.507140835772194e-08,
      "loss": 3.2664,
      "step": 476270
    },
    {
      "epoch": 0.99225,
      "grad_norm": 0.8782644867897034,
      "learning_rate": 4.483007458433996e-08,
      "loss": 3.2553,
      "step": 476280
    },
    {
      "epoch": 0.9922708333333333,
      "grad_norm": 0.8782184720039368,
      "learning_rate": 4.458938855794736e-08,
      "loss": 3.3811,
      "step": 476290
    },
    {
      "epoch": 0.9922916666666667,
      "grad_norm": 0.9310886859893799,
      "learning_rate": 4.434935027955999e-08,
      "loss": 3.2634,
      "step": 476300
    },
    {
      "epoch": 0.9923125,
      "grad_norm": 0.9838184118270874,
      "learning_rate": 4.4109959750243676e-08,
      "loss": 3.2011,
      "step": 476310
    },
    {
      "epoch": 0.9923333333333333,
      "grad_norm": 0.9654569625854492,
      "learning_rate": 4.38712169709976e-08,
      "loss": 3.3613,
      "step": 476320
    },
    {
      "epoch": 0.9923541666666666,
      "grad_norm": 0.9862431287765503,
      "learning_rate": 4.363312194287094e-08,
      "loss": 3.1853,
      "step": 476330
    },
    {
      "epoch": 0.992375,
      "grad_norm": 0.9192495942115784,
      "learning_rate": 4.339567466691285e-08,
      "loss": 3.2481,
      "step": 476340
    },
    {
      "epoch": 0.9923958333333334,
      "grad_norm": 0.9892060160636902,
      "learning_rate": 4.3158875144105874e-08,
      "loss": 3.1816,
      "step": 476350
    },
    {
      "epoch": 0.9924166666666666,
      "grad_norm": 0.877677321434021,
      "learning_rate": 4.292272337551583e-08,
      "loss": 3.2682,
      "step": 476360
    },
    {
      "epoch": 0.9924375,
      "grad_norm": 1.178195834159851,
      "learning_rate": 4.268721936212527e-08,
      "loss": 3.4036,
      "step": 476370
    },
    {
      "epoch": 0.9924583333333333,
      "grad_norm": 0.9130257368087769,
      "learning_rate": 4.245236310498334e-08,
      "loss": 3.4471,
      "step": 476380
    },
    {
      "epoch": 0.9924791666666667,
      "grad_norm": 0.9334331750869751,
      "learning_rate": 4.221815460507261e-08,
      "loss": 3.2538,
      "step": 476390
    },
    {
      "epoch": 0.9925,
      "grad_norm": 0.9017925262451172,
      "learning_rate": 4.198459386344222e-08,
      "loss": 3.3213,
      "step": 476400
    },
    {
      "epoch": 0.9925208333333333,
      "grad_norm": 0.916032075881958,
      "learning_rate": 4.175168088105807e-08,
      "loss": 3.4325,
      "step": 476410
    },
    {
      "epoch": 0.9925416666666667,
      "grad_norm": 1.019789457321167,
      "learning_rate": 4.1519415658969325e-08,
      "loss": 3.2817,
      "step": 476420
    },
    {
      "epoch": 0.9925625,
      "grad_norm": 0.9383931159973145,
      "learning_rate": 4.128779819814187e-08,
      "loss": 3.3625,
      "step": 476430
    },
    {
      "epoch": 0.9925833333333334,
      "grad_norm": 0.9373721480369568,
      "learning_rate": 4.105682849960823e-08,
      "loss": 3.3075,
      "step": 476440
    },
    {
      "epoch": 0.9926041666666666,
      "grad_norm": 0.8636765480041504,
      "learning_rate": 4.0826506564350935e-08,
      "loss": 3.3042,
      "step": 476450
    },
    {
      "epoch": 0.992625,
      "grad_norm": 0.8970940709114075,
      "learning_rate": 4.059683239335254e-08,
      "loss": 3.3061,
      "step": 476460
    },
    {
      "epoch": 0.9926458333333333,
      "grad_norm": 0.9870196580886841,
      "learning_rate": 4.03678059876289e-08,
      "loss": 3.3587,
      "step": 476470
    },
    {
      "epoch": 0.9926666666666667,
      "grad_norm": 0.9184749722480774,
      "learning_rate": 4.01394273481459e-08,
      "loss": 3.3716,
      "step": 476480
    },
    {
      "epoch": 0.9926875,
      "grad_norm": 0.9592370986938477,
      "learning_rate": 3.991169647591941e-08,
      "loss": 3.2157,
      "step": 476490
    },
    {
      "epoch": 0.9927083333333333,
      "grad_norm": 0.9916670322418213,
      "learning_rate": 3.9684613371898656e-08,
      "loss": 3.4135,
      "step": 476500
    },
    {
      "epoch": 0.9927291666666667,
      "grad_norm": 0.9423384666442871,
      "learning_rate": 3.94581780370995e-08,
      "loss": 3.2235,
      "step": 476510
    },
    {
      "epoch": 0.99275,
      "grad_norm": 0.9986156821250916,
      "learning_rate": 3.9232390472471175e-08,
      "loss": 3.2938,
      "step": 476520
    },
    {
      "epoch": 0.9927708333333334,
      "grad_norm": 0.9866958856582642,
      "learning_rate": 3.9007250678996235e-08,
      "loss": 3.2792,
      "step": 476530
    },
    {
      "epoch": 0.9927916666666666,
      "grad_norm": 0.9398373961448669,
      "learning_rate": 3.878275865765723e-08,
      "loss": 3.3732,
      "step": 476540
    },
    {
      "epoch": 0.9928125,
      "grad_norm": 0.9084976315498352,
      "learning_rate": 3.855891440942005e-08,
      "loss": 3.3167,
      "step": 476550
    },
    {
      "epoch": 0.9928333333333333,
      "grad_norm": 1.0138752460479736,
      "learning_rate": 3.833571793525059e-08,
      "loss": 3.4185,
      "step": 476560
    },
    {
      "epoch": 0.9928541666666667,
      "grad_norm": 1.0227699279785156,
      "learning_rate": 3.811316923611474e-08,
      "loss": 3.1887,
      "step": 476570
    },
    {
      "epoch": 0.992875,
      "grad_norm": 0.9506067633628845,
      "learning_rate": 3.7891268312961744e-08,
      "loss": 3.2747,
      "step": 476580
    },
    {
      "epoch": 0.9928958333333333,
      "grad_norm": 0.9108991622924805,
      "learning_rate": 3.7670015166757495e-08,
      "loss": 3.3337,
      "step": 476590
    },
    {
      "epoch": 0.9929166666666667,
      "grad_norm": 0.8888010382652283,
      "learning_rate": 3.744940979846789e-08,
      "loss": 3.2749,
      "step": 476600
    },
    {
      "epoch": 0.9929375,
      "grad_norm": 0.9290470480918884,
      "learning_rate": 3.722945220902551e-08,
      "loss": 3.2888,
      "step": 476610
    },
    {
      "epoch": 0.9929583333333334,
      "grad_norm": 0.9372206330299377,
      "learning_rate": 3.701014239941291e-08,
      "loss": 3.3648,
      "step": 476620
    },
    {
      "epoch": 0.9929791666666666,
      "grad_norm": 0.9362084269523621,
      "learning_rate": 3.679148037054602e-08,
      "loss": 3.2953,
      "step": 476630
    },
    {
      "epoch": 0.993,
      "grad_norm": 0.9488940238952637,
      "learning_rate": 3.657346612337408e-08,
      "loss": 3.3036,
      "step": 476640
    },
    {
      "epoch": 0.9930208333333334,
      "grad_norm": 0.9213190674781799,
      "learning_rate": 3.635609965884634e-08,
      "loss": 3.3488,
      "step": 476650
    },
    {
      "epoch": 0.9930416666666667,
      "grad_norm": 0.8822712302207947,
      "learning_rate": 3.6139380977912024e-08,
      "loss": 3.326,
      "step": 476660
    },
    {
      "epoch": 0.9930625,
      "grad_norm": 0.9394077658653259,
      "learning_rate": 3.592331008148708e-08,
      "loss": 3.2502,
      "step": 476670
    },
    {
      "epoch": 0.9930833333333333,
      "grad_norm": 0.9458931684494019,
      "learning_rate": 3.570788697052074e-08,
      "loss": 3.2991,
      "step": 476680
    },
    {
      "epoch": 0.9931041666666667,
      "grad_norm": 1.0007002353668213,
      "learning_rate": 3.549311164592894e-08,
      "loss": 3.2927,
      "step": 476690
    },
    {
      "epoch": 0.993125,
      "grad_norm": 0.9212102890014648,
      "learning_rate": 3.5278984108644273e-08,
      "loss": 3.39,
      "step": 476700
    },
    {
      "epoch": 0.9931458333333333,
      "grad_norm": 0.859106183052063,
      "learning_rate": 3.506550435959932e-08,
      "loss": 3.3433,
      "step": 476710
    },
    {
      "epoch": 0.9931666666666666,
      "grad_norm": 0.9565718770027161,
      "learning_rate": 3.485267239971001e-08,
      "loss": 3.3262,
      "step": 476720
    },
    {
      "epoch": 0.9931875,
      "grad_norm": 0.8565194010734558,
      "learning_rate": 3.464048822990895e-08,
      "loss": 3.3347,
      "step": 476730
    },
    {
      "epoch": 0.9932083333333334,
      "grad_norm": 1.0165603160858154,
      "learning_rate": 3.4428951851078745e-08,
      "loss": 3.329,
      "step": 476740
    },
    {
      "epoch": 0.9932291666666667,
      "grad_norm": 0.9642012119293213,
      "learning_rate": 3.421806326416865e-08,
      "loss": 3.2562,
      "step": 476750
    },
    {
      "epoch": 0.99325,
      "grad_norm": 0.9334548115730286,
      "learning_rate": 3.400782247007794e-08,
      "loss": 3.3996,
      "step": 476760
    },
    {
      "epoch": 0.9932708333333333,
      "grad_norm": 0.9528376460075378,
      "learning_rate": 3.3798229469705894e-08,
      "loss": 3.2087,
      "step": 476770
    },
    {
      "epoch": 0.9932916666666667,
      "grad_norm": 0.992203950881958,
      "learning_rate": 3.358928426396845e-08,
      "loss": 3.3883,
      "step": 476780
    },
    {
      "epoch": 0.9933125,
      "grad_norm": 0.9459874033927917,
      "learning_rate": 3.338098685376489e-08,
      "loss": 3.4245,
      "step": 476790
    },
    {
      "epoch": 0.9933333333333333,
      "grad_norm": 0.848903477191925,
      "learning_rate": 3.3173337239977834e-08,
      "loss": 3.2756,
      "step": 476800
    },
    {
      "epoch": 0.9933541666666666,
      "grad_norm": 0.8539825081825256,
      "learning_rate": 3.296633542353988e-08,
      "loss": 3.2839,
      "step": 476810
    },
    {
      "epoch": 0.993375,
      "grad_norm": 0.9185629487037659,
      "learning_rate": 3.275998140531699e-08,
      "loss": 3.283,
      "step": 476820
    },
    {
      "epoch": 0.9933958333333334,
      "grad_norm": 0.9114230871200562,
      "learning_rate": 3.255427518622511e-08,
      "loss": 3.3037,
      "step": 476830
    },
    {
      "epoch": 0.9934166666666666,
      "grad_norm": 0.984863817691803,
      "learning_rate": 3.23492167671302e-08,
      "loss": 3.3358,
      "step": 476840
    },
    {
      "epoch": 0.9934375,
      "grad_norm": 0.9871594309806824,
      "learning_rate": 3.21448061489149e-08,
      "loss": 3.2308,
      "step": 476850
    },
    {
      "epoch": 0.9934583333333333,
      "grad_norm": 0.9541159272193909,
      "learning_rate": 3.194104333247849e-08,
      "loss": 3.381,
      "step": 476860
    },
    {
      "epoch": 0.9934791666666667,
      "grad_norm": 0.8822653293609619,
      "learning_rate": 3.1737928318703584e-08,
      "loss": 3.3036,
      "step": 476870
    },
    {
      "epoch": 0.9935,
      "grad_norm": 0.860804557800293,
      "learning_rate": 3.153546110843952e-08,
      "loss": 3.2522,
      "step": 476880
    },
    {
      "epoch": 0.9935208333333333,
      "grad_norm": 0.8565506339073181,
      "learning_rate": 3.133364170260222e-08,
      "loss": 3.3521,
      "step": 476890
    },
    {
      "epoch": 0.9935416666666667,
      "grad_norm": 0.9381924867630005,
      "learning_rate": 3.113247010202435e-08,
      "loss": 3.3149,
      "step": 476900
    },
    {
      "epoch": 0.9935625,
      "grad_norm": 0.8763945698738098,
      "learning_rate": 3.093194630760521e-08,
      "loss": 3.3563,
      "step": 476910
    },
    {
      "epoch": 0.9935833333333334,
      "grad_norm": 0.9436085224151611,
      "learning_rate": 3.0732070320194094e-08,
      "loss": 3.3714,
      "step": 476920
    },
    {
      "epoch": 0.9936041666666666,
      "grad_norm": 0.9672430753707886,
      "learning_rate": 3.053284214065699e-08,
      "loss": 3.3128,
      "step": 476930
    },
    {
      "epoch": 0.993625,
      "grad_norm": 0.9805154800415039,
      "learning_rate": 3.033426176985987e-08,
      "loss": 3.3016,
      "step": 476940
    },
    {
      "epoch": 0.9936458333333333,
      "grad_norm": 0.9299676418304443,
      "learning_rate": 3.0136329208652056e-08,
      "loss": 3.3568,
      "step": 476950
    },
    {
      "epoch": 0.9936666666666667,
      "grad_norm": 0.9806814193725586,
      "learning_rate": 2.993904445789952e-08,
      "loss": 3.2061,
      "step": 476960
    },
    {
      "epoch": 0.9936875,
      "grad_norm": 0.8690065741539001,
      "learning_rate": 2.9742407518451582e-08,
      "loss": 3.2341,
      "step": 476970
    },
    {
      "epoch": 0.9937083333333333,
      "grad_norm": 0.9239920973777771,
      "learning_rate": 2.9546418391140915e-08,
      "loss": 3.3229,
      "step": 476980
    },
    {
      "epoch": 0.9937291666666667,
      "grad_norm": 1.0168366432189941,
      "learning_rate": 2.9351077076833486e-08,
      "loss": 3.263,
      "step": 476990
    },
    {
      "epoch": 0.99375,
      "grad_norm": 0.8885353207588196,
      "learning_rate": 2.9156383576361964e-08,
      "loss": 3.4398,
      "step": 477000
    },
    {
      "epoch": 0.99375,
      "eval_loss": 4.021682262420654,
      "eval_runtime": 8.7442,
      "eval_samples_per_second": 1.144,
      "eval_steps_per_second": 0.343,
      "step": 477000
    },
    {
      "epoch": 0.9937708333333334,
      "grad_norm": 0.9159815907478333,
      "learning_rate": 2.896233789057567e-08,
      "loss": 3.2364,
      "step": 477010
    },
    {
      "epoch": 0.9937916666666666,
      "grad_norm": 0.9347241520881653,
      "learning_rate": 2.8768940020307273e-08,
      "loss": 3.3276,
      "step": 477020
    },
    {
      "epoch": 0.9938125,
      "grad_norm": 0.8800259232521057,
      "learning_rate": 2.8576189966406093e-08,
      "loss": 3.2277,
      "step": 477030
    },
    {
      "epoch": 0.9938333333333333,
      "grad_norm": 1.0499364137649536,
      "learning_rate": 2.838408772967149e-08,
      "loss": 3.2254,
      "step": 477040
    },
    {
      "epoch": 0.9938541666666667,
      "grad_norm": 0.8853885531425476,
      "learning_rate": 2.8192633310969438e-08,
      "loss": 3.3305,
      "step": 477050
    },
    {
      "epoch": 0.993875,
      "grad_norm": 0.8577573895454407,
      "learning_rate": 2.800182671111595e-08,
      "loss": 3.3291,
      "step": 477060
    },
    {
      "epoch": 0.9938958333333333,
      "grad_norm": 0.9466785788536072,
      "learning_rate": 2.781166793092704e-08,
      "loss": 3.3364,
      "step": 477070
    },
    {
      "epoch": 0.9939166666666667,
      "grad_norm": 1.221756935119629,
      "learning_rate": 2.762215697121872e-08,
      "loss": 3.3964,
      "step": 477080
    },
    {
      "epoch": 0.9939375,
      "grad_norm": 0.919946551322937,
      "learning_rate": 2.743329383284032e-08,
      "loss": 3.3722,
      "step": 477090
    },
    {
      "epoch": 0.9939583333333334,
      "grad_norm": 0.9551185369491577,
      "learning_rate": 2.7245078516574536e-08,
      "loss": 3.2716,
      "step": 477100
    },
    {
      "epoch": 0.9939791666666666,
      "grad_norm": 0.8641738891601562,
      "learning_rate": 2.705751102323739e-08,
      "loss": 3.1993,
      "step": 477110
    },
    {
      "epoch": 0.994,
      "grad_norm": 0.8951923847198486,
      "learning_rate": 2.6870591353661542e-08,
      "loss": 3.4585,
      "step": 477120
    },
    {
      "epoch": 0.9940208333333334,
      "grad_norm": 0.8961992263793945,
      "learning_rate": 2.6684319508629704e-08,
      "loss": 3.2634,
      "step": 477130
    },
    {
      "epoch": 0.9940416666666667,
      "grad_norm": 1.086464524269104,
      "learning_rate": 2.649869548897454e-08,
      "loss": 3.2474,
      "step": 477140
    },
    {
      "epoch": 0.9940625,
      "grad_norm": 0.9452398419380188,
      "learning_rate": 2.6313719295462112e-08,
      "loss": 3.2705,
      "step": 477150
    },
    {
      "epoch": 0.9940833333333333,
      "grad_norm": 1.0032896995544434,
      "learning_rate": 2.6129390928925076e-08,
      "loss": 3.3571,
      "step": 477160
    },
    {
      "epoch": 0.9941041666666667,
      "grad_norm": 1.0235220193862915,
      "learning_rate": 2.5945710390146145e-08,
      "loss": 3.3098,
      "step": 477170
    },
    {
      "epoch": 0.994125,
      "grad_norm": 0.9457749128341675,
      "learning_rate": 2.576267767990803e-08,
      "loss": 3.404,
      "step": 477180
    },
    {
      "epoch": 0.9941458333333333,
      "grad_norm": 0.950553297996521,
      "learning_rate": 2.5580292799026735e-08,
      "loss": 3.1834,
      "step": 477190
    },
    {
      "epoch": 0.9941666666666666,
      "grad_norm": 0.9932550191879272,
      "learning_rate": 2.539855574825167e-08,
      "loss": 3.1755,
      "step": 477200
    },
    {
      "epoch": 0.9941875,
      "grad_norm": 0.9053090810775757,
      "learning_rate": 2.52174665284155e-08,
      "loss": 3.2531,
      "step": 477210
    },
    {
      "epoch": 0.9942083333333334,
      "grad_norm": 0.9187421798706055,
      "learning_rate": 2.5037025140250967e-08,
      "loss": 3.2299,
      "step": 477220
    },
    {
      "epoch": 0.9942291666666667,
      "grad_norm": 0.9208806157112122,
      "learning_rate": 2.4857231584574087e-08,
      "loss": 3.3082,
      "step": 477230
    },
    {
      "epoch": 0.99425,
      "grad_norm": 0.9132691025733948,
      "learning_rate": 2.467808586215092e-08,
      "loss": 3.313,
      "step": 477240
    },
    {
      "epoch": 0.9942708333333333,
      "grad_norm": 0.9516238570213318,
      "learning_rate": 2.449958797376417e-08,
      "loss": 3.257,
      "step": 477250
    },
    {
      "epoch": 0.9942916666666667,
      "grad_norm": 0.8985674977302551,
      "learning_rate": 2.432173792016323e-08,
      "loss": 3.2939,
      "step": 477260
    },
    {
      "epoch": 0.9943125,
      "grad_norm": 0.9268823266029358,
      "learning_rate": 2.414453570213082e-08,
      "loss": 3.1817,
      "step": 477270
    },
    {
      "epoch": 0.9943333333333333,
      "grad_norm": 0.9145161509513855,
      "learning_rate": 2.396798132041633e-08,
      "loss": 3.2868,
      "step": 477280
    },
    {
      "epoch": 0.9943541666666667,
      "grad_norm": 0.9160144329071045,
      "learning_rate": 2.3792074775819125e-08,
      "loss": 3.295,
      "step": 477290
    },
    {
      "epoch": 0.994375,
      "grad_norm": 0.914780855178833,
      "learning_rate": 2.36168160690553e-08,
      "loss": 3.3052,
      "step": 477300
    },
    {
      "epoch": 0.9943958333333334,
      "grad_norm": 0.952050507068634,
      "learning_rate": 2.344220520090756e-08,
      "loss": 3.3931,
      "step": 477310
    },
    {
      "epoch": 0.9944166666666666,
      "grad_norm": 0.8927186727523804,
      "learning_rate": 2.3268242172125305e-08,
      "loss": 3.3105,
      "step": 477320
    },
    {
      "epoch": 0.9944375,
      "grad_norm": 1.0703566074371338,
      "learning_rate": 2.309492698345794e-08,
      "loss": 3.3416,
      "step": 477330
    },
    {
      "epoch": 0.9944583333333333,
      "grad_norm": 0.9398516416549683,
      "learning_rate": 2.2922259635671514e-08,
      "loss": 3.1304,
      "step": 477340
    },
    {
      "epoch": 0.9944791666666667,
      "grad_norm": 0.8840621709823608,
      "learning_rate": 2.2750240129482124e-08,
      "loss": 3.3511,
      "step": 477350
    },
    {
      "epoch": 0.9945,
      "grad_norm": 0.890485942363739,
      "learning_rate": 2.2578868465639165e-08,
      "loss": 3.344,
      "step": 477360
    },
    {
      "epoch": 0.9945208333333333,
      "grad_norm": 0.9747452139854431,
      "learning_rate": 2.24081446449087e-08,
      "loss": 3.3907,
      "step": 477370
    },
    {
      "epoch": 0.9945416666666667,
      "grad_norm": 0.9058306217193604,
      "learning_rate": 2.2238068667990162e-08,
      "loss": 3.3777,
      "step": 477380
    },
    {
      "epoch": 0.9945625,
      "grad_norm": 0.8348884582519531,
      "learning_rate": 2.2068640535649605e-08,
      "loss": 3.2226,
      "step": 477390
    },
    {
      "epoch": 0.9945833333333334,
      "grad_norm": 1.0221832990646362,
      "learning_rate": 2.189986024860313e-08,
      "loss": 3.2432,
      "step": 477400
    },
    {
      "epoch": 0.9946041666666666,
      "grad_norm": 0.9230043888092041,
      "learning_rate": 2.1731727807583478e-08,
      "loss": 3.3114,
      "step": 477410
    },
    {
      "epoch": 0.994625,
      "grad_norm": 0.9937567114830017,
      "learning_rate": 2.1564243213323397e-08,
      "loss": 3.2769,
      "step": 477420
    },
    {
      "epoch": 0.9946458333333333,
      "grad_norm": 0.922739565372467,
      "learning_rate": 2.139740646653898e-08,
      "loss": 3.1843,
      "step": 477430
    },
    {
      "epoch": 0.9946666666666667,
      "grad_norm": 0.9251611828804016,
      "learning_rate": 2.1231217567946324e-08,
      "loss": 3.3663,
      "step": 477440
    },
    {
      "epoch": 0.9946875,
      "grad_norm": 1.0013073682785034,
      "learning_rate": 2.1065676518278173e-08,
      "loss": 3.2636,
      "step": 477450
    },
    {
      "epoch": 0.9947083333333333,
      "grad_norm": 0.9252229332923889,
      "learning_rate": 2.090078331823397e-08,
      "loss": 3.3009,
      "step": 477460
    },
    {
      "epoch": 0.9947291666666667,
      "grad_norm": 0.8452916741371155,
      "learning_rate": 2.073653796852981e-08,
      "loss": 3.2581,
      "step": 477470
    },
    {
      "epoch": 0.99475,
      "grad_norm": 0.8853093981742859,
      "learning_rate": 2.0572940469881782e-08,
      "loss": 3.3117,
      "step": 477480
    },
    {
      "epoch": 0.9947708333333334,
      "grad_norm": 0.9478884935379028,
      "learning_rate": 2.040999082298933e-08,
      "loss": 3.1737,
      "step": 477490
    },
    {
      "epoch": 0.9947916666666666,
      "grad_norm": 0.8856980204582214,
      "learning_rate": 2.0247689028551893e-08,
      "loss": 3.2481,
      "step": 477500
    },
    {
      "epoch": 0.9948125,
      "grad_norm": 0.9695366024971008,
      "learning_rate": 2.008603508730222e-08,
      "loss": 3.3838,
      "step": 477510
    },
    {
      "epoch": 0.9948333333333333,
      "grad_norm": 1.2349696159362793,
      "learning_rate": 1.992502899988979e-08,
      "loss": 3.2994,
      "step": 477520
    },
    {
      "epoch": 0.9948541666666667,
      "grad_norm": 0.9175882339477539,
      "learning_rate": 1.9764670767047354e-08,
      "loss": 3.3258,
      "step": 477530
    },
    {
      "epoch": 0.994875,
      "grad_norm": 0.9616493582725525,
      "learning_rate": 1.9604960389457692e-08,
      "loss": 3.498,
      "step": 477540
    },
    {
      "epoch": 0.9948958333333333,
      "grad_norm": 0.8932079672813416,
      "learning_rate": 1.9445897867803596e-08,
      "loss": 3.2763,
      "step": 477550
    },
    {
      "epoch": 0.9949166666666667,
      "grad_norm": 0.9409393072128296,
      "learning_rate": 1.9287483202784503e-08,
      "loss": 3.3468,
      "step": 477560
    },
    {
      "epoch": 0.9949375,
      "grad_norm": 0.9149416089057922,
      "learning_rate": 1.912971639506655e-08,
      "loss": 3.3134,
      "step": 477570
    },
    {
      "epoch": 0.9949583333333333,
      "grad_norm": 0.8652084469795227,
      "learning_rate": 1.897259744534918e-08,
      "loss": 3.3631,
      "step": 477580
    },
    {
      "epoch": 0.9949791666666666,
      "grad_norm": 1.374835729598999,
      "learning_rate": 1.881612635429852e-08,
      "loss": 3.315,
      "step": 477590
    },
    {
      "epoch": 0.995,
      "grad_norm": 0.9145562052726746,
      "learning_rate": 1.8660303122597365e-08,
      "loss": 3.2177,
      "step": 477600
    },
    {
      "epoch": 0.9950208333333334,
      "grad_norm": 1.0069726705551147,
      "learning_rate": 1.850512775091184e-08,
      "loss": 3.2782,
      "step": 477610
    },
    {
      "epoch": 0.9950416666666667,
      "grad_norm": 0.8487871885299683,
      "learning_rate": 1.835060023992474e-08,
      "loss": 3.3283,
      "step": 477620
    },
    {
      "epoch": 0.9950625,
      "grad_norm": 0.8932459950447083,
      "learning_rate": 1.8196720590285542e-08,
      "loss": 3.2528,
      "step": 477630
    },
    {
      "epoch": 0.9950833333333333,
      "grad_norm": 0.9601343870162964,
      "learning_rate": 1.804348880267703e-08,
      "loss": 3.302,
      "step": 477640
    },
    {
      "epoch": 0.9951041666666667,
      "grad_norm": 0.8515877723693848,
      "learning_rate": 1.7890904877765344e-08,
      "loss": 3.4384,
      "step": 477650
    },
    {
      "epoch": 0.995125,
      "grad_norm": 0.8519840240478516,
      "learning_rate": 1.7738968816183306e-08,
      "loss": 3.3833,
      "step": 477660
    },
    {
      "epoch": 0.9951458333333333,
      "grad_norm": 0.913909912109375,
      "learning_rate": 1.7587680618597054e-08,
      "loss": 3.3939,
      "step": 477670
    },
    {
      "epoch": 0.9951666666666666,
      "grad_norm": 0.9335526823997498,
      "learning_rate": 1.743704028567272e-08,
      "loss": 3.2792,
      "step": 477680
    },
    {
      "epoch": 0.9951875,
      "grad_norm": 0.9109588265419006,
      "learning_rate": 1.7287047818059785e-08,
      "loss": 3.1575,
      "step": 477690
    },
    {
      "epoch": 0.9952083333333334,
      "grad_norm": 0.9331235885620117,
      "learning_rate": 1.7137703216391076e-08,
      "loss": 3.2824,
      "step": 477700
    },
    {
      "epoch": 0.9952291666666667,
      "grad_norm": 0.9206859469413757,
      "learning_rate": 1.698900648131607e-08,
      "loss": 3.3262,
      "step": 477710
    },
    {
      "epoch": 0.99525,
      "grad_norm": 0.8810345530509949,
      "learning_rate": 1.6840957613500906e-08,
      "loss": 3.2243,
      "step": 477720
    },
    {
      "epoch": 0.9952708333333333,
      "grad_norm": 0.9822368025779724,
      "learning_rate": 1.66935566135451e-08,
      "loss": 3.2601,
      "step": 477730
    },
    {
      "epoch": 0.9952916666666667,
      "grad_norm": 0.9430081248283386,
      "learning_rate": 1.654680348211479e-08,
      "loss": 3.4165,
      "step": 477740
    },
    {
      "epoch": 0.9953125,
      "grad_norm": 0.912720263004303,
      "learning_rate": 1.6400698219826148e-08,
      "loss": 3.2822,
      "step": 477750
    },
    {
      "epoch": 0.9953333333333333,
      "grad_norm": 0.9171603322029114,
      "learning_rate": 1.6255240827328654e-08,
      "loss": 3.4174,
      "step": 477760
    },
    {
      "epoch": 0.9953541666666667,
      "grad_norm": 1.2392686605453491,
      "learning_rate": 1.611043130523848e-08,
      "loss": 3.3492,
      "step": 477770
    },
    {
      "epoch": 0.995375,
      "grad_norm": 0.9229251742362976,
      "learning_rate": 1.5966269654171802e-08,
      "loss": 3.2752,
      "step": 477780
    },
    {
      "epoch": 0.9953958333333334,
      "grad_norm": 1.061849594116211,
      "learning_rate": 1.5822755874778104e-08,
      "loss": 3.3203,
      "step": 477790
    },
    {
      "epoch": 0.9954166666666666,
      "grad_norm": 1.0259360074996948,
      "learning_rate": 1.56798899676569e-08,
      "loss": 3.2744,
      "step": 477800
    },
    {
      "epoch": 0.9954375,
      "grad_norm": 0.9858365654945374,
      "learning_rate": 1.553767193344102e-08,
      "loss": 3.3352,
      "step": 477810
    },
    {
      "epoch": 0.9954583333333333,
      "grad_norm": 0.914181113243103,
      "learning_rate": 1.539610177271333e-08,
      "loss": 3.2443,
      "step": 477820
    },
    {
      "epoch": 0.9954791666666667,
      "grad_norm": 0.945335865020752,
      "learning_rate": 1.5255179486123313e-08,
      "loss": 3.2409,
      "step": 477830
    },
    {
      "epoch": 0.9955,
      "grad_norm": 0.9167615175247192,
      "learning_rate": 1.5114905074253836e-08,
      "loss": 3.2505,
      "step": 477840
    },
    {
      "epoch": 0.9955208333333333,
      "grad_norm": 0.9940441846847534,
      "learning_rate": 1.4975278537721068e-08,
      "loss": 3.3243,
      "step": 477850
    },
    {
      "epoch": 0.9955416666666667,
      "grad_norm": 0.8731387257575989,
      "learning_rate": 1.4836299877141189e-08,
      "loss": 3.3154,
      "step": 477860
    },
    {
      "epoch": 0.9955625,
      "grad_norm": 1.041787028312683,
      "learning_rate": 1.4697969093080408e-08,
      "loss": 3.2376,
      "step": 477870
    },
    {
      "epoch": 0.9955833333333334,
      "grad_norm": 0.8606552481651306,
      "learning_rate": 1.4560286186171555e-08,
      "loss": 3.2311,
      "step": 477880
    },
    {
      "epoch": 0.9956041666666666,
      "grad_norm": 1.1480636596679688,
      "learning_rate": 1.4423251156980841e-08,
      "loss": 3.2291,
      "step": 477890
    },
    {
      "epoch": 0.995625,
      "grad_norm": 1.040610432624817,
      "learning_rate": 1.4286864006124444e-08,
      "loss": 3.2778,
      "step": 477900
    },
    {
      "epoch": 0.9956458333333333,
      "grad_norm": 0.9013223052024841,
      "learning_rate": 1.4151124734168573e-08,
      "loss": 3.2501,
      "step": 477910
    },
    {
      "epoch": 0.9956666666666667,
      "grad_norm": 0.9369232654571533,
      "learning_rate": 1.4016033341712752e-08,
      "loss": 3.3535,
      "step": 477920
    },
    {
      "epoch": 0.9956875,
      "grad_norm": 0.9195670485496521,
      "learning_rate": 1.3881589829339845e-08,
      "loss": 3.2182,
      "step": 477930
    },
    {
      "epoch": 0.9957083333333333,
      "grad_norm": 1.0172488689422607,
      "learning_rate": 1.3747794197632722e-08,
      "loss": 3.2743,
      "step": 477940
    },
    {
      "epoch": 0.9957291666666667,
      "grad_norm": 1.0553375482559204,
      "learning_rate": 1.3614646447174249e-08,
      "loss": 3.249,
      "step": 477950
    },
    {
      "epoch": 0.99575,
      "grad_norm": 0.9673504829406738,
      "learning_rate": 1.348214657853064e-08,
      "loss": 3.3653,
      "step": 477960
    },
    {
      "epoch": 0.9957708333333334,
      "grad_norm": 0.881726086139679,
      "learning_rate": 1.3350294592268106e-08,
      "loss": 3.304,
      "step": 477970
    },
    {
      "epoch": 0.9957916666666666,
      "grad_norm": 1.1216073036193848,
      "learning_rate": 1.3219090488952865e-08,
      "loss": 3.2928,
      "step": 477980
    },
    {
      "epoch": 0.9958125,
      "grad_norm": 0.9181685447692871,
      "learning_rate": 1.3088534269184436e-08,
      "loss": 3.3923,
      "step": 477990
    },
    {
      "epoch": 0.9958333333333333,
      "grad_norm": 0.922412097454071,
      "learning_rate": 1.2958625933495725e-08,
      "loss": 3.3558,
      "step": 478000
    },
    {
      "epoch": 0.9958333333333333,
      "eval_loss": 4.021658897399902,
      "eval_runtime": 8.7795,
      "eval_samples_per_second": 1.139,
      "eval_steps_per_second": 0.342,
      "step": 478000
    },
    {
      "epoch": 0.9958541666666667,
      "grad_norm": 0.9993406534194946,
      "learning_rate": 1.2829365482452947e-08,
      "loss": 3.3295,
      "step": 478010
    },
    {
      "epoch": 0.995875,
      "grad_norm": 0.9824180006980896,
      "learning_rate": 1.2700752916622315e-08,
      "loss": 3.3911,
      "step": 478020
    },
    {
      "epoch": 0.9958958333333333,
      "grad_norm": 0.8470999598503113,
      "learning_rate": 1.2572788236553389e-08,
      "loss": 3.2881,
      "step": 478030
    },
    {
      "epoch": 0.9959166666666667,
      "grad_norm": 0.9437834620475769,
      "learning_rate": 1.2445471442795729e-08,
      "loss": 3.2814,
      "step": 478040
    },
    {
      "epoch": 0.9959375,
      "grad_norm": 0.9418210983276367,
      "learning_rate": 1.2318802535915551e-08,
      "loss": 3.2433,
      "step": 478050
    },
    {
      "epoch": 0.9959583333333333,
      "grad_norm": 0.9453243613243103,
      "learning_rate": 1.219278151644576e-08,
      "loss": 3.3001,
      "step": 478060
    },
    {
      "epoch": 0.9959791666666666,
      "grad_norm": 0.9146468639373779,
      "learning_rate": 1.2067408384919264e-08,
      "loss": 3.2805,
      "step": 478070
    },
    {
      "epoch": 0.996,
      "grad_norm": 1.0786011219024658,
      "learning_rate": 1.1942683141918929e-08,
      "loss": 3.3267,
      "step": 478080
    },
    {
      "epoch": 0.9960208333333334,
      "grad_norm": 0.9957481026649475,
      "learning_rate": 1.1818605787944357e-08,
      "loss": 3.3762,
      "step": 478090
    },
    {
      "epoch": 0.9960416666666667,
      "grad_norm": 0.9547975063323975,
      "learning_rate": 1.1695176323528454e-08,
      "loss": 3.2354,
      "step": 478100
    },
    {
      "epoch": 0.9960625,
      "grad_norm": 0.9406821727752686,
      "learning_rate": 1.1572394749237434e-08,
      "loss": 3.2788,
      "step": 478110
    },
    {
      "epoch": 0.9960833333333333,
      "grad_norm": 0.9129975438117981,
      "learning_rate": 1.1450261065587552e-08,
      "loss": 3.3201,
      "step": 478120
    },
    {
      "epoch": 0.9961041666666667,
      "grad_norm": 0.9067004323005676,
      "learning_rate": 1.1328775273095058e-08,
      "loss": 3.2637,
      "step": 478130
    },
    {
      "epoch": 0.996125,
      "grad_norm": 0.9469068646430969,
      "learning_rate": 1.1207937372292864e-08,
      "loss": 3.27,
      "step": 478140
    },
    {
      "epoch": 0.9961458333333333,
      "grad_norm": 1.0386584997177124,
      "learning_rate": 1.1087747363697219e-08,
      "loss": 3.2813,
      "step": 478150
    },
    {
      "epoch": 0.9961666666666666,
      "grad_norm": 0.9067321419715881,
      "learning_rate": 1.0968205247841033e-08,
      "loss": 3.2811,
      "step": 478160
    },
    {
      "epoch": 0.9961875,
      "grad_norm": 1.0868861675262451,
      "learning_rate": 1.0849311025223905e-08,
      "loss": 3.2412,
      "step": 478170
    },
    {
      "epoch": 0.9962083333333334,
      "grad_norm": 0.9157823324203491,
      "learning_rate": 1.0731064696378743e-08,
      "loss": 3.3605,
      "step": 478180
    },
    {
      "epoch": 0.9962291666666667,
      "grad_norm": 0.8897027373313904,
      "learning_rate": 1.0613466261805149e-08,
      "loss": 3.1497,
      "step": 478190
    },
    {
      "epoch": 0.99625,
      "grad_norm": 0.9278003573417664,
      "learning_rate": 1.0496515722002719e-08,
      "loss": 3.2186,
      "step": 478200
    },
    {
      "epoch": 0.9962708333333333,
      "grad_norm": 0.9596922993659973,
      "learning_rate": 1.0380213077487708e-08,
      "loss": 3.3121,
      "step": 478210
    },
    {
      "epoch": 0.9962916666666667,
      "grad_norm": 0.9136607646942139,
      "learning_rate": 1.026455832875972e-08,
      "loss": 3.3134,
      "step": 478220
    },
    {
      "epoch": 0.9963125,
      "grad_norm": 0.9600722193717957,
      "learning_rate": 1.0149551476318351e-08,
      "loss": 3.2308,
      "step": 478230
    },
    {
      "epoch": 0.9963333333333333,
      "grad_norm": 0.8650133013725281,
      "learning_rate": 1.0035192520663204e-08,
      "loss": 3.3228,
      "step": 478240
    },
    {
      "epoch": 0.9963541666666667,
      "grad_norm": 1.0292832851409912,
      "learning_rate": 9.921481462293878e-09,
      "loss": 3.1886,
      "step": 478250
    },
    {
      "epoch": 0.996375,
      "grad_norm": 0.9692381620407104,
      "learning_rate": 9.808418301676669e-09,
      "loss": 3.3016,
      "step": 478260
    },
    {
      "epoch": 0.9963958333333334,
      "grad_norm": 0.9119819402694702,
      "learning_rate": 9.696003039327826e-09,
      "loss": 3.2571,
      "step": 478270
    },
    {
      "epoch": 0.9964166666666666,
      "grad_norm": 0.9322490096092224,
      "learning_rate": 9.584235675730301e-09,
      "loss": 3.2452,
      "step": 478280
    },
    {
      "epoch": 0.9964375,
      "grad_norm": 0.9171140789985657,
      "learning_rate": 9.473116211350384e-09,
      "loss": 3.2118,
      "step": 478290
    },
    {
      "epoch": 0.9964583333333333,
      "grad_norm": 0.91555255651474,
      "learning_rate": 9.362644646671024e-09,
      "loss": 3.2047,
      "step": 478300
    },
    {
      "epoch": 0.9964791666666667,
      "grad_norm": 1.0122830867767334,
      "learning_rate": 9.252820982175169e-09,
      "loss": 3.3598,
      "step": 478310
    },
    {
      "epoch": 0.9965,
      "grad_norm": 0.9893946647644043,
      "learning_rate": 9.14364521832911e-09,
      "loss": 3.2299,
      "step": 478320
    },
    {
      "epoch": 0.9965208333333333,
      "grad_norm": 0.904115617275238,
      "learning_rate": 9.035117355632448e-09,
      "loss": 3.2691,
      "step": 478330
    },
    {
      "epoch": 0.9965416666666667,
      "grad_norm": 0.8895425796508789,
      "learning_rate": 8.927237394518172e-09,
      "loss": 3.3815,
      "step": 478340
    },
    {
      "epoch": 0.9965625,
      "grad_norm": 0.9085922837257385,
      "learning_rate": 8.820005335469227e-09,
      "loss": 3.2864,
      "step": 478350
    },
    {
      "epoch": 0.9965833333333334,
      "grad_norm": 0.8434501886367798,
      "learning_rate": 8.713421178951907e-09,
      "loss": 3.2774,
      "step": 478360
    },
    {
      "epoch": 0.9966041666666666,
      "grad_norm": 0.975498616695404,
      "learning_rate": 8.607484925432506e-09,
      "loss": 3.4003,
      "step": 478370
    },
    {
      "epoch": 0.996625,
      "grad_norm": 0.9935369491577148,
      "learning_rate": 8.502196575344011e-09,
      "loss": 3.3744,
      "step": 478380
    },
    {
      "epoch": 0.9966458333333333,
      "grad_norm": 0.9390506148338318,
      "learning_rate": 8.397556129152716e-09,
      "loss": 3.0982,
      "step": 478390
    },
    {
      "epoch": 0.9966666666666667,
      "grad_norm": 0.9137280583381653,
      "learning_rate": 8.293563587324914e-09,
      "loss": 3.4235,
      "step": 478400
    },
    {
      "epoch": 0.9966875,
      "grad_norm": 0.8756008744239807,
      "learning_rate": 8.190218950293592e-09,
      "loss": 3.3611,
      "step": 478410
    },
    {
      "epoch": 0.9967083333333333,
      "grad_norm": 0.891482949256897,
      "learning_rate": 8.087522218491738e-09,
      "loss": 3.278,
      "step": 478420
    },
    {
      "epoch": 0.9967291666666667,
      "grad_norm": 0.8849413990974426,
      "learning_rate": 7.985473392402297e-09,
      "loss": 3.2341,
      "step": 478430
    },
    {
      "epoch": 0.99675,
      "grad_norm": 1.3496252298355103,
      "learning_rate": 7.884072472441606e-09,
      "loss": 3.3279,
      "step": 478440
    },
    {
      "epoch": 0.9967708333333334,
      "grad_norm": 0.8832879662513733,
      "learning_rate": 7.783319459042647e-09,
      "loss": 3.2775,
      "step": 478450
    },
    {
      "epoch": 0.9967916666666666,
      "grad_norm": 0.8246923685073853,
      "learning_rate": 7.683214352655064e-09,
      "loss": 3.3213,
      "step": 478460
    },
    {
      "epoch": 0.9968125,
      "grad_norm": 0.9312180876731873,
      "learning_rate": 7.583757153711845e-09,
      "loss": 3.2288,
      "step": 478470
    },
    {
      "epoch": 0.9968333333333333,
      "grad_norm": 0.9286741614341736,
      "learning_rate": 7.48494786262932e-09,
      "loss": 3.2592,
      "step": 478480
    },
    {
      "epoch": 0.9968541666666667,
      "grad_norm": 0.9054461717605591,
      "learning_rate": 7.3867864798404786e-09,
      "loss": 3.2829,
      "step": 478490
    },
    {
      "epoch": 0.996875,
      "grad_norm": 0.8733744621276855,
      "learning_rate": 7.289273005761653e-09,
      "loss": 3.4003,
      "step": 478500
    },
    {
      "epoch": 0.9968958333333333,
      "grad_norm": 0.8754525184631348,
      "learning_rate": 7.192407440825832e-09,
      "loss": 3.2568,
      "step": 478510
    },
    {
      "epoch": 0.9969166666666667,
      "grad_norm": 0.9243558645248413,
      "learning_rate": 7.096189785449347e-09,
      "loss": 3.3474,
      "step": 478520
    },
    {
      "epoch": 0.9969375,
      "grad_norm": 0.9810131192207336,
      "learning_rate": 7.000620040048532e-09,
      "loss": 3.3277,
      "step": 478530
    },
    {
      "epoch": 0.9969583333333333,
      "grad_norm": 0.9100053906440735,
      "learning_rate": 6.9056982050397225e-09,
      "loss": 3.3602,
      "step": 478540
    },
    {
      "epoch": 0.9969791666666666,
      "grad_norm": 0.9237459301948547,
      "learning_rate": 6.811424280805944e-09,
      "loss": 3.4478,
      "step": 478550
    },
    {
      "epoch": 0.997,
      "grad_norm": 0.9249750971794128,
      "learning_rate": 6.717798267796837e-09,
      "loss": 3.4303,
      "step": 478560
    },
    {
      "epoch": 0.9970208333333334,
      "grad_norm": 0.9042494297027588,
      "learning_rate": 6.6248201663787745e-09,
      "loss": 3.3494,
      "step": 478570
    },
    {
      "epoch": 0.9970416666666667,
      "grad_norm": 0.9040775299072266,
      "learning_rate": 6.532489976984745e-09,
      "loss": 3.3273,
      "step": 478580
    },
    {
      "epoch": 0.9970625,
      "grad_norm": 0.9413679838180542,
      "learning_rate": 6.440807699997774e-09,
      "loss": 3.457,
      "step": 478590
    },
    {
      "epoch": 0.9970833333333333,
      "grad_norm": 0.9075527787208557,
      "learning_rate": 6.349773335800889e-09,
      "loss": 3.2301,
      "step": 478600
    },
    {
      "epoch": 0.9971041666666667,
      "grad_norm": 0.9347139000892639,
      "learning_rate": 6.259386884810425e-09,
      "loss": 3.4542,
      "step": 478610
    },
    {
      "epoch": 0.997125,
      "grad_norm": 0.8369086384773254,
      "learning_rate": 6.169648347409406e-09,
      "loss": 3.337,
      "step": 478620
    },
    {
      "epoch": 0.9971458333333333,
      "grad_norm": 0.8245959877967834,
      "learning_rate": 6.080557723980861e-09,
      "loss": 3.2392,
      "step": 478630
    },
    {
      "epoch": 0.9971666666666666,
      "grad_norm": 0.9130263924598694,
      "learning_rate": 5.9921150149078165e-09,
      "loss": 3.3849,
      "step": 478640
    },
    {
      "epoch": 0.9971875,
      "grad_norm": 0.8970048427581787,
      "learning_rate": 5.904320220589953e-09,
      "loss": 3.2192,
      "step": 478650
    },
    {
      "epoch": 0.9972083333333334,
      "grad_norm": 1.1144129037857056,
      "learning_rate": 5.81717334137699e-09,
      "loss": 3.2931,
      "step": 478660
    },
    {
      "epoch": 0.9972291666666667,
      "grad_norm": 0.9275282025337219,
      "learning_rate": 5.7306743776852625e-09,
      "loss": 3.2451,
      "step": 478670
    },
    {
      "epoch": 0.99725,
      "grad_norm": 0.9480738639831543,
      "learning_rate": 5.6448233298478365e-09,
      "loss": 3.3226,
      "step": 478680
    },
    {
      "epoch": 0.9972708333333333,
      "grad_norm": 0.8828850984573364,
      "learning_rate": 5.559620198247738e-09,
      "loss": 3.3165,
      "step": 478690
    },
    {
      "epoch": 0.9972916666666667,
      "grad_norm": 0.8933776617050171,
      "learning_rate": 5.475064983267996e-09,
      "loss": 3.4564,
      "step": 478700
    },
    {
      "epoch": 0.9973125,
      "grad_norm": 0.931337833404541,
      "learning_rate": 5.391157685274983e-09,
      "loss": 3.2526,
      "step": 478710
    },
    {
      "epoch": 0.9973333333333333,
      "grad_norm": 0.9873733520507812,
      "learning_rate": 5.3078983046017655e-09,
      "loss": 3.2709,
      "step": 478720
    },
    {
      "epoch": 0.9973541666666667,
      "grad_norm": 0.9000692963600159,
      "learning_rate": 5.225286841631371e-09,
      "loss": 3.3339,
      "step": 478730
    },
    {
      "epoch": 0.997375,
      "grad_norm": 0.8897161483764648,
      "learning_rate": 5.143323296713519e-09,
      "loss": 3.2422,
      "step": 478740
    },
    {
      "epoch": 0.9973958333333334,
      "grad_norm": 0.976714015007019,
      "learning_rate": 5.062007670214585e-09,
      "loss": 3.315,
      "step": 478750
    },
    {
      "epoch": 0.9974166666666666,
      "grad_norm": 0.9237040877342224,
      "learning_rate": 4.981339962467634e-09,
      "loss": 3.2524,
      "step": 478760
    },
    {
      "epoch": 0.9974375,
      "grad_norm": 0.9989290833473206,
      "learning_rate": 4.901320173822387e-09,
      "loss": 3.2622,
      "step": 478770
    },
    {
      "epoch": 0.9974583333333333,
      "grad_norm": 0.8405320048332214,
      "learning_rate": 4.821948304645218e-09,
      "loss": 3.2553,
      "step": 478780
    },
    {
      "epoch": 0.9974791666666667,
      "grad_norm": 0.930313229560852,
      "learning_rate": 4.743224355252539e-09,
      "loss": 3.3185,
      "step": 478790
    },
    {
      "epoch": 0.9975,
      "grad_norm": 0.9704645276069641,
      "learning_rate": 4.665148326010726e-09,
      "loss": 3.2927,
      "step": 478800
    },
    {
      "epoch": 0.9975208333333333,
      "grad_norm": 0.9858709573745728,
      "learning_rate": 4.58772021723619e-09,
      "loss": 3.2012,
      "step": 478810
    },
    {
      "epoch": 0.9975416666666667,
      "grad_norm": 0.8308107256889343,
      "learning_rate": 4.510940029278654e-09,
      "loss": 3.3236,
      "step": 478820
    },
    {
      "epoch": 0.9975625,
      "grad_norm": 0.9488802552223206,
      "learning_rate": 4.434807762437875e-09,
      "loss": 3.1749,
      "step": 478830
    },
    {
      "epoch": 0.9975833333333334,
      "grad_norm": 0.9160736799240112,
      "learning_rate": 4.359323417080229e-09,
      "loss": 3.3854,
      "step": 478840
    },
    {
      "epoch": 0.9976041666666666,
      "grad_norm": 0.9584782123565674,
      "learning_rate": 4.28448699352213e-09,
      "loss": 3.343,
      "step": 478850
    },
    {
      "epoch": 0.997625,
      "grad_norm": 0.9575003385543823,
      "learning_rate": 4.210298492079989e-09,
      "loss": 3.2973,
      "step": 478860
    },
    {
      "epoch": 0.9976458333333333,
      "grad_norm": 0.8733292818069458,
      "learning_rate": 4.136757913086875e-09,
      "loss": 3.2659,
      "step": 478870
    },
    {
      "epoch": 0.9976666666666667,
      "grad_norm": 0.9327610731124878,
      "learning_rate": 4.0638652568425465e-09,
      "loss": 3.3316,
      "step": 478880
    },
    {
      "epoch": 0.9976875,
      "grad_norm": 0.9386995434761047,
      "learning_rate": 3.991620523663419e-09,
      "loss": 3.3694,
      "step": 478890
    },
    {
      "epoch": 0.9977083333333333,
      "grad_norm": 0.9432746767997742,
      "learning_rate": 3.920023713865905e-09,
      "loss": 3.3106,
      "step": 478900
    },
    {
      "epoch": 0.9977291666666667,
      "grad_norm": 0.8477141857147217,
      "learning_rate": 3.849074827766418e-09,
      "loss": 3.2718,
      "step": 478910
    },
    {
      "epoch": 0.99775,
      "grad_norm": 1.0414682626724243,
      "learning_rate": 3.778773865664719e-09,
      "loss": 3.3153,
      "step": 478920
    },
    {
      "epoch": 0.9977708333333334,
      "grad_norm": 0.8744434118270874,
      "learning_rate": 3.709120827877221e-09,
      "loss": 3.3607,
      "step": 478930
    },
    {
      "epoch": 0.9977916666666666,
      "grad_norm": 0.9864760041236877,
      "learning_rate": 3.640115714687031e-09,
      "loss": 3.4155,
      "step": 478940
    },
    {
      "epoch": 0.9978125,
      "grad_norm": 1.0303696393966675,
      "learning_rate": 3.5717585263939085e-09,
      "loss": 3.2321,
      "step": 478950
    },
    {
      "epoch": 0.9978333333333333,
      "grad_norm": 0.9476965069770813,
      "learning_rate": 3.5040492632976148e-09,
      "loss": 3.2467,
      "step": 478960
    },
    {
      "epoch": 0.9978541666666667,
      "grad_norm": 0.9349382519721985,
      "learning_rate": 3.4369879256979095e-09,
      "loss": 3.3437,
      "step": 478970
    },
    {
      "epoch": 0.997875,
      "grad_norm": 0.9494485259056091,
      "learning_rate": 3.3705745138778995e-09,
      "loss": 3.4116,
      "step": 478980
    },
    {
      "epoch": 0.9978958333333333,
      "grad_norm": 0.9709136486053467,
      "learning_rate": 3.304809028120692e-09,
      "loss": 3.3958,
      "step": 478990
    },
    {
      "epoch": 0.9979166666666667,
      "grad_norm": 0.9695646166801453,
      "learning_rate": 3.2396914687093932e-09,
      "loss": 3.2996,
      "step": 479000
    },
    {
      "epoch": 0.9979166666666667,
      "eval_loss": 4.022077560424805,
      "eval_runtime": 8.7004,
      "eval_samples_per_second": 1.149,
      "eval_steps_per_second": 0.345,
      "step": 479000
    },
    {
      "epoch": 0.9979375,
      "grad_norm": 0.8964201807975769,
      "learning_rate": 3.1752218359271108e-09,
      "loss": 3.3043,
      "step": 479010
    },
    {
      "epoch": 0.9979583333333333,
      "grad_norm": 0.9235132932662964,
      "learning_rate": 3.111400130073605e-09,
      "loss": 3.3086,
      "step": 479020
    },
    {
      "epoch": 0.9979791666666666,
      "grad_norm": 0.9652672410011292,
      "learning_rate": 3.0482263513820215e-09,
      "loss": 3.2013,
      "step": 479030
    },
    {
      "epoch": 0.998,
      "grad_norm": 0.9749640822410583,
      "learning_rate": 2.985700500168775e-09,
      "loss": 3.2733,
      "step": 479040
    },
    {
      "epoch": 0.9980208333333334,
      "grad_norm": 1.0096702575683594,
      "learning_rate": 2.9238225766836653e-09,
      "loss": 3.3321,
      "step": 479050
    },
    {
      "epoch": 0.9980416666666667,
      "grad_norm": 0.8990038633346558,
      "learning_rate": 2.862592581176493e-09,
      "loss": 3.2885,
      "step": 479060
    },
    {
      "epoch": 0.9980625,
      "grad_norm": 0.9249162673950195,
      "learning_rate": 2.802010513947017e-09,
      "loss": 3.2145,
      "step": 479070
    },
    {
      "epoch": 0.9980833333333333,
      "grad_norm": 0.9034973382949829,
      "learning_rate": 2.742076375228386e-09,
      "loss": 3.2215,
      "step": 479080
    },
    {
      "epoch": 0.9981041666666667,
      "grad_norm": 0.9672577381134033,
      "learning_rate": 2.6827901653037054e-09,
      "loss": 3.4018,
      "step": 479090
    },
    {
      "epoch": 0.998125,
      "grad_norm": 0.9667398929595947,
      "learning_rate": 2.6241518844061227e-09,
      "loss": 3.2869,
      "step": 479100
    },
    {
      "epoch": 0.9981458333333333,
      "grad_norm": 0.8255159258842468,
      "learning_rate": 2.5661615328020914e-09,
      "loss": 3.2825,
      "step": 479110
    },
    {
      "epoch": 0.9981666666666666,
      "grad_norm": 0.9702432751655579,
      "learning_rate": 2.5088191107414115e-09,
      "loss": 3.3868,
      "step": 479120
    },
    {
      "epoch": 0.9981875,
      "grad_norm": 0.9123002886772156,
      "learning_rate": 2.452124618473883e-09,
      "loss": 3.2896,
      "step": 479130
    },
    {
      "epoch": 0.9982083333333334,
      "grad_norm": 1.0725997686386108,
      "learning_rate": 2.396078056232653e-09,
      "loss": 3.1334,
      "step": 479140
    },
    {
      "epoch": 0.9982291666666666,
      "grad_norm": 0.8513006567955017,
      "learning_rate": 2.340679424267522e-09,
      "loss": 3.1937,
      "step": 479150
    },
    {
      "epoch": 0.99825,
      "grad_norm": 0.9380115270614624,
      "learning_rate": 2.2859287228116364e-09,
      "loss": 3.3725,
      "step": 479160
    },
    {
      "epoch": 0.9982708333333333,
      "grad_norm": 0.8816596865653992,
      "learning_rate": 2.2318259521147965e-09,
      "loss": 3.2955,
      "step": 479170
    },
    {
      "epoch": 0.9982916666666667,
      "grad_norm": 0.9422829151153564,
      "learning_rate": 2.1783711124101487e-09,
      "loss": 3.3032,
      "step": 479180
    },
    {
      "epoch": 0.9983125,
      "grad_norm": 0.9243618845939636,
      "learning_rate": 2.125564203914187e-09,
      "loss": 3.3524,
      "step": 479190
    },
    {
      "epoch": 0.9983333333333333,
      "grad_norm": 0.9025323987007141,
      "learning_rate": 2.0734052268600586e-09,
      "loss": 3.2835,
      "step": 479200
    },
    {
      "epoch": 0.9983541666666667,
      "grad_norm": 0.8990137577056885,
      "learning_rate": 2.0218941814809097e-09,
      "loss": 3.253,
      "step": 479210
    },
    {
      "epoch": 0.998375,
      "grad_norm": 0.8477619290351868,
      "learning_rate": 1.9710310679932338e-09,
      "loss": 3.3029,
      "step": 479220
    },
    {
      "epoch": 0.9983958333333334,
      "grad_norm": 0.9386692047119141,
      "learning_rate": 1.9208158866135247e-09,
      "loss": 3.4092,
      "step": 479230
    },
    {
      "epoch": 0.9984166666666666,
      "grad_norm": 0.9973421096801758,
      "learning_rate": 1.8712486375582756e-09,
      "loss": 3.4708,
      "step": 479240
    },
    {
      "epoch": 0.9984375,
      "grad_norm": 1.2779834270477295,
      "learning_rate": 1.8223293210606339e-09,
      "loss": 3.3369,
      "step": 479250
    },
    {
      "epoch": 0.9984583333333333,
      "grad_norm": 0.8914036750793457,
      "learning_rate": 1.7740579373037855e-09,
      "loss": 3.3776,
      "step": 479260
    },
    {
      "epoch": 0.9984791666666667,
      "grad_norm": 0.9359087347984314,
      "learning_rate": 1.7264344865042245e-09,
      "loss": 3.2968,
      "step": 479270
    },
    {
      "epoch": 0.9985,
      "grad_norm": 1.1814275979995728,
      "learning_rate": 1.6794589688950977e-09,
      "loss": 3.3969,
      "step": 479280
    },
    {
      "epoch": 0.9985208333333333,
      "grad_norm": 0.9369338750839233,
      "learning_rate": 1.6331313846429384e-09,
      "loss": 3.4035,
      "step": 479290
    },
    {
      "epoch": 0.9985416666666667,
      "grad_norm": 0.9253772497177124,
      "learning_rate": 1.5874517339642401e-09,
      "loss": 3.4266,
      "step": 479300
    },
    {
      "epoch": 0.9985625,
      "grad_norm": 0.9426996111869812,
      "learning_rate": 1.542420017058843e-09,
      "loss": 3.267,
      "step": 479310
    },
    {
      "epoch": 0.9985833333333334,
      "grad_norm": 0.855657160282135,
      "learning_rate": 1.4980362341099338e-09,
      "loss": 3.2968,
      "step": 479320
    },
    {
      "epoch": 0.9986041666666666,
      "grad_norm": 0.8074372410774231,
      "learning_rate": 1.454300385317353e-09,
      "loss": 3.2833,
      "step": 479330
    },
    {
      "epoch": 0.998625,
      "grad_norm": 0.8963063359260559,
      "learning_rate": 1.4112124708642869e-09,
      "loss": 3.3892,
      "step": 479340
    },
    {
      "epoch": 0.9986458333333333,
      "grad_norm": 0.9018397331237793,
      "learning_rate": 1.368772490950576e-09,
      "loss": 3.268,
      "step": 479350
    },
    {
      "epoch": 0.9986666666666667,
      "grad_norm": 0.9213095307350159,
      "learning_rate": 1.3269804457427535e-09,
      "loss": 3.3149,
      "step": 479360
    },
    {
      "epoch": 0.9986875,
      "grad_norm": 0.982990026473999,
      "learning_rate": 1.2858363354240065e-09,
      "loss": 3.3743,
      "step": 479370
    },
    {
      "epoch": 0.9987083333333333,
      "grad_norm": 1.0424885749816895,
      "learning_rate": 1.245340160194175e-09,
      "loss": 3.2386,
      "step": 479380
    },
    {
      "epoch": 0.9987291666666667,
      "grad_norm": 0.9503772854804993,
      "learning_rate": 1.2054919202031388e-09,
      "loss": 3.3105,
      "step": 479390
    },
    {
      "epoch": 0.99875,
      "grad_norm": 0.9360945820808411,
      "learning_rate": 1.1662916156174318e-09,
      "loss": 3.2125,
      "step": 479400
    },
    {
      "epoch": 0.9987708333333334,
      "grad_norm": 1.0657483339309692,
      "learning_rate": 1.127739246636894e-09,
      "loss": 3.2994,
      "step": 479410
    },
    {
      "epoch": 0.9987916666666666,
      "grad_norm": 1.0802053213119507,
      "learning_rate": 1.0898348134114054e-09,
      "loss": 3.2345,
      "step": 479420
    },
    {
      "epoch": 0.9988125,
      "grad_norm": 0.9614927172660828,
      "learning_rate": 1.0525783160908462e-09,
      "loss": 3.2502,
      "step": 479430
    },
    {
      "epoch": 0.9988333333333334,
      "grad_norm": 0.8955073952674866,
      "learning_rate": 1.0159697548584034e-09,
      "loss": 3.3692,
      "step": 479440
    },
    {
      "epoch": 0.9988541666666667,
      "grad_norm": 0.9025843739509583,
      "learning_rate": 9.800091298639568e-10,
      "loss": 3.2903,
      "step": 479450
    },
    {
      "epoch": 0.998875,
      "grad_norm": 0.9261423945426941,
      "learning_rate": 9.446964412573866e-10,
      "loss": 3.292,
      "step": 479460
    },
    {
      "epoch": 0.9988958333333333,
      "grad_norm": 0.9546254277229309,
      "learning_rate": 9.100316891885728e-10,
      "loss": 3.3505,
      "step": 479470
    },
    {
      "epoch": 0.9989166666666667,
      "grad_norm": 0.9613237380981445,
      "learning_rate": 8.760148738240491e-10,
      "loss": 3.3653,
      "step": 479480
    },
    {
      "epoch": 0.9989375,
      "grad_norm": 0.8658627867698669,
      "learning_rate": 8.426459953136955e-10,
      "loss": 3.21,
      "step": 479490
    },
    {
      "epoch": 0.9989583333333333,
      "grad_norm": 0.9727082848548889,
      "learning_rate": 8.099250537740854e-10,
      "loss": 3.305,
      "step": 479500
    },
    {
      "epoch": 0.9989791666666666,
      "grad_norm": 0.9221779108047485,
      "learning_rate": 7.778520493717522e-10,
      "loss": 3.4026,
      "step": 479510
    },
    {
      "epoch": 0.999,
      "grad_norm": 0.8917808532714844,
      "learning_rate": 7.464269822232693e-10,
      "loss": 3.2583,
      "step": 479520
    },
    {
      "epoch": 0.9990208333333334,
      "grad_norm": 1.088127613067627,
      "learning_rate": 7.15649852478517e-10,
      "loss": 3.2709,
      "step": 479530
    },
    {
      "epoch": 0.9990416666666667,
      "grad_norm": 0.9564071297645569,
      "learning_rate": 6.855206602707219e-10,
      "loss": 3.3612,
      "step": 479540
    },
    {
      "epoch": 0.9990625,
      "grad_norm": 0.9009190201759338,
      "learning_rate": 6.560394057331108e-10,
      "loss": 3.2024,
      "step": 479550
    },
    {
      "epoch": 0.9990833333333333,
      "grad_norm": 0.8952723145484924,
      "learning_rate": 6.272060889822572e-10,
      "loss": 3.2676,
      "step": 479560
    },
    {
      "epoch": 0.9991041666666667,
      "grad_norm": 0.8486335277557373,
      "learning_rate": 5.990207101513877e-10,
      "loss": 3.217,
      "step": 479570
    },
    {
      "epoch": 0.999125,
      "grad_norm": 0.9230026602745056,
      "learning_rate": 5.714832693404226e-10,
      "loss": 3.3289,
      "step": 479580
    },
    {
      "epoch": 0.9991458333333333,
      "grad_norm": 0.985900342464447,
      "learning_rate": 5.445937667158951e-10,
      "loss": 3.3731,
      "step": 479590
    },
    {
      "epoch": 0.9991666666666666,
      "grad_norm": 1.0327481031417847,
      "learning_rate": 5.183522023444186e-10,
      "loss": 3.2689,
      "step": 479600
    },
    {
      "epoch": 0.9991875,
      "grad_norm": 0.8835344910621643,
      "learning_rate": 4.927585763592201e-10,
      "loss": 3.2941,
      "step": 479610
    },
    {
      "epoch": 0.9992083333333334,
      "grad_norm": 1.0228947401046753,
      "learning_rate": 4.678128888935262e-10,
      "loss": 3.2916,
      "step": 479620
    },
    {
      "epoch": 0.9992291666666666,
      "grad_norm": 0.8889231085777283,
      "learning_rate": 4.435151400139503e-10,
      "loss": 3.3262,
      "step": 479630
    },
    {
      "epoch": 0.99925,
      "grad_norm": 0.9602949023246765,
      "learning_rate": 4.198653298537191e-10,
      "loss": 3.3233,
      "step": 479640
    },
    {
      "epoch": 0.9992708333333333,
      "grad_norm": 0.965950071811676,
      "learning_rate": 3.968634584960995e-10,
      "loss": 3.3346,
      "step": 479650
    },
    {
      "epoch": 0.9992916666666667,
      "grad_norm": 0.9225253462791443,
      "learning_rate": 3.745095260576647e-10,
      "loss": 3.2819,
      "step": 479660
    },
    {
      "epoch": 0.9993125,
      "grad_norm": 0.9835858345031738,
      "learning_rate": 3.528035326216816e-10,
      "loss": 3.3686,
      "step": 479670
    },
    {
      "epoch": 0.9993333333333333,
      "grad_norm": 0.8783994317054749,
      "learning_rate": 3.317454782880702e-10,
      "loss": 3.3484,
      "step": 479680
    },
    {
      "epoch": 0.9993541666666667,
      "grad_norm": 0.9751689434051514,
      "learning_rate": 3.1133536314009723e-10,
      "loss": 3.2772,
      "step": 479690
    },
    {
      "epoch": 0.999375,
      "grad_norm": 0.9823715686798096,
      "learning_rate": 2.915731872943361e-10,
      "loss": 3.3532,
      "step": 479700
    },
    {
      "epoch": 0.9993958333333334,
      "grad_norm": 0.8998438119888306,
      "learning_rate": 2.7245895080074685e-10,
      "loss": 3.3015,
      "step": 479710
    },
    {
      "epoch": 0.9994166666666666,
      "grad_norm": 1.479162335395813,
      "learning_rate": 2.539926537592496e-10,
      "loss": 3.3154,
      "step": 479720
    },
    {
      "epoch": 0.9994375,
      "grad_norm": 0.8984836339950562,
      "learning_rate": 2.3617429623645766e-10,
      "loss": 3.3292,
      "step": 479730
    },
    {
      "epoch": 0.9994583333333333,
      "grad_norm": 0.9380664825439453,
      "learning_rate": 2.1900387833229117e-10,
      "loss": 3.2298,
      "step": 479740
    },
    {
      "epoch": 0.9994791666666667,
      "grad_norm": 0.9610669612884521,
      "learning_rate": 2.0248140011336344e-10,
      "loss": 3.3063,
      "step": 479750
    },
    {
      "epoch": 0.9995,
      "grad_norm": 0.9525454640388489,
      "learning_rate": 1.8660686162963456e-10,
      "loss": 3.2968,
      "step": 479760
    },
    {
      "epoch": 0.9995208333333333,
      "grad_norm": 0.9507951140403748,
      "learning_rate": 1.7138026296437125e-10,
      "loss": 3.3146,
      "step": 479770
    },
    {
      "epoch": 0.9995416666666667,
      "grad_norm": 0.9212109446525574,
      "learning_rate": 1.5680160420084021e-10,
      "loss": 3.1952,
      "step": 479780
    },
    {
      "epoch": 0.9995625,
      "grad_norm": 0.8574292063713074,
      "learning_rate": 1.4287088537234815e-10,
      "loss": 3.2387,
      "step": 479790
    },
    {
      "epoch": 0.9995833333333334,
      "grad_norm": 0.8725002408027649,
      "learning_rate": 1.2958810656216179e-10,
      "loss": 3.3159,
      "step": 479800
    },
    {
      "epoch": 0.9996041666666666,
      "grad_norm": 0.9325909614562988,
      "learning_rate": 1.1695326782024116e-10,
      "loss": 3.2173,
      "step": 479810
    },
    {
      "epoch": 0.999625,
      "grad_norm": 1.0134527683258057,
      "learning_rate": 1.0496636917989298e-10,
      "loss": 3.2313,
      "step": 479820
    },
    {
      "epoch": 0.9996458333333333,
      "grad_norm": 0.9092751741409302,
      "learning_rate": 9.36274107410373e-11,
      "loss": 3.2504,
      "step": 479830
    },
    {
      "epoch": 0.9996666666666667,
      "grad_norm": 0.9323121905326843,
      "learning_rate": 8.293639250367412e-11,
      "loss": 3.4737,
      "step": 479840
    },
    {
      "epoch": 0.9996875,
      "grad_norm": 0.884809672832489,
      "learning_rate": 7.289331453441683e-11,
      "loss": 3.4277,
      "step": 479850
    },
    {
      "epoch": 0.9997083333333333,
      "grad_norm": 0.9553408622741699,
      "learning_rate": 6.349817688322545e-11,
      "loss": 3.291,
      "step": 479860
    },
    {
      "epoch": 0.9997291666666667,
      "grad_norm": 0.8576732277870178,
      "learning_rate": 5.475097958340669e-11,
      "loss": 3.3718,
      "step": 479870
    },
    {
      "epoch": 0.99975,
      "grad_norm": 0.9506394267082214,
      "learning_rate": 4.6651722668267223e-11,
      "loss": 3.3207,
      "step": 479880
    },
    {
      "epoch": 0.9997708333333334,
      "grad_norm": 0.9632125496864319,
      "learning_rate": 3.9200406171113754e-11,
      "loss": 3.4006,
      "step": 479890
    },
    {
      "epoch": 0.9997916666666666,
      "grad_norm": 0.9768313765525818,
      "learning_rate": 3.239703014190631e-11,
      "loss": 3.2895,
      "step": 479900
    },
    {
      "epoch": 0.9998125,
      "grad_norm": 0.8472821116447449,
      "learning_rate": 2.6241594597298245e-11,
      "loss": 3.252,
      "step": 479910
    },
    {
      "epoch": 0.9998333333333334,
      "grad_norm": 1.0358607769012451,
      "learning_rate": 2.0734099553942894e-11,
      "loss": 3.2734,
      "step": 479920
    },
    {
      "epoch": 0.9998541666666667,
      "grad_norm": 0.8662664294242859,
      "learning_rate": 1.5874545061800304e-11,
      "loss": 3.3273,
      "step": 479930
    },
    {
      "epoch": 0.999875,
      "grad_norm": 0.9313953518867493,
      "learning_rate": 1.1662931120870467e-11,
      "loss": 3.2617,
      "step": 479940
    },
    {
      "epoch": 0.9998958333333333,
      "grad_norm": 0.830015242099762,
      "learning_rate": 8.099257747806732e-12,
      "loss": 3.3245,
      "step": 479950
    },
    {
      "epoch": 0.9999166666666667,
      "grad_norm": 0.9157015085220337,
      "learning_rate": 5.183524975915787e-12,
      "loss": 3.1707,
      "step": 479960
    },
    {
      "epoch": 0.9999375,
      "grad_norm": 0.8367080688476562,
      "learning_rate": 2.9157328051976348e-12,
      "loss": 3.2584,
      "step": 479970
    },
    {
      "epoch": 0.9999583333333333,
      "grad_norm": 0.9534943699836731,
      "learning_rate": 1.2958812523056194e-12,
      "loss": 3.3623,
      "step": 479980
    },
    {
      "epoch": 0.9999791666666666,
      "grad_norm": 0.863141655921936,
      "learning_rate": 3.239703172397412e-13,
      "loss": 3.3384,
      "step": 479990
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.1446062326431274,
      "learning_rate": 0.0,
      "loss": 3.3787,
      "step": 480000
    },
    {
      "epoch": 1.0,
      "eval_loss": 4.021326541900635,
      "eval_runtime": 8.2698,
      "eval_samples_per_second": 1.209,
      "eval_steps_per_second": 0.363,
      "step": 480000
    }
  ],
  "logging_steps": 10,
  "max_steps": 480000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 120000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.78310533349376e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}